從String中移除空白字符的多種方式!?差別竟然這麼大!

2020-12-07 騰訊網

字符串,是Java中最常用的一個數據類型了。我們在日常開發時候會經常使用字符串做很多的操作。比如字符串的拼接、截斷、替換等。

這一篇文章,我們介紹一個比較常見又容易被忽略的一個操作,那就是移除字符串中的空格。

其實,在Java中從字符串中刪除空格有很多不同的方法,如trim,replaceAll等。但是,在Java 11添加了一些新的功能,如strip、stripLeading、stripTrailing等。

大多數時候,我們只是使用trim方法來刪除多餘的空格。但是好像很多人並沒有去思考過,是否有更好的方式呢?

當然,trim()在大多數情況下都工作得很好,但是Java中有許多不同的方法。每一種都有自己的優點和缺點。我們如何決定哪種方法最適合我們呢?

接下來我們將介紹幾種方法,並對比下他們的區別和優缺點等。

在java中從字符串中刪除空格的不同方法

首先,我們來看一下,想要從String中移除空格部分,有多少種方法,作者根據經驗,總結了以下7種(JDK原生自帶的方法,不包含第三方工具類庫中的類似方法):

trim() : 刪除字符串開頭和結尾的空格。

strip() : 刪除字符串開頭和結尾的空格。

stripLeading() : 只刪除字符串開頭的空格

stripTrailing() : 只刪除字符串的結尾的空格

replace() : 用新字符替換所有目標字符

replaceAll() : 將所有匹配的字符替換為新字符。此方法將正則表達式作為輸入,以標識需要替換的目標子字符串

replaceFirst() : 僅將目標子字符串的第一次出現的字符替換為新的字符串

需要注意的最重要的一點是,在Java中String對象是不可變的,這意味著我們不能修改字符串,因此以上所有的方法我們得到的都是一個新的字符串。

接下啦,我們分別針對以上這幾個方法學習下用法,了解下其特性。

PS:本文代碼都是使用在線運行工具(https://www.jdoodle.com/online-java-compiler/ )執行的,因為我的測試機並未安裝Java 11,並且Unicode字符也不完整。如果大家也想實驗,建議使用在線工具,選擇對應的JDK即可。

trim

trim()是Java開發人員最常用的刪除字符串開頭和結尾的空格方法。其用法也比較簡單:

輸出結果:

Before trim : ' Hollis Is A Java Coder '

After trim : 'Hollis Is A Java Coder'

如上,使用trim之後,原字符串中開頭和結尾部分的空格內容都被移除掉了。

但是不知道大家有沒有思考過,trim方法移除的空白內容都包含哪些東西?除了空格以外,還有其他的字符嗎?

其實,trim移除的空白字符指的是指ASCII值小於或等於32的任何字符(' U+0020 ')

其中包含了空格、換行、退格等字符。

strip()

不知道大家有沒有注意到,在Java 11的發行版中,添加了新的strip()方法來刪除字符串中的前導和末尾空格。

已經有了一個trim方法,為什麼還要新增一個strip呢?

這其實是是因為trim方法只能針對ASCII值小於等於32的字符進行移除,但是根據Unicode標準,除了ASCII中的字符以外,還是有很多其他的空白字符的。

而且為了識別這些空格字符,從Java 1.5開始,還在Character類中添加了新的isWhitespace(int)方法。該方法使用unicode來標識空格字符。你可以在http://jkorpela.fi/chars/spaces.html 了解更多關於unicode空格字符的信息。

而在Java 11中新增的這個strip方法就是使用這個Character.isWhitespace(int)方法來判斷是否為空白字符並刪除它們的:

下面我們來看一個使用strip例子:

public class StringTest {

public static void main(String args[]) {

String stringWithSpace ='\u2001' + " Hollis Is A Java Coder " + '\u2001';

System.out.println("'" + '\u2001' + "' is space : " + Character.isWhitespace('\u2001'));

StringTest.stripTest(stringWithSpace);

}

private static void stripTest(String stringWithSpace){

System.out.println("Before strip : \'" + stringWithSpace + "\'");

String stringAfterTrim = stringWithSpace.strip();

System.out.println("After strip : \'" + stringAfterTrim + "\'");

}

}

我們在字符串前後都增加了一個特殊的字符\u2001,這個字符是不在ASCII中的,經過Character.isWhitespace判斷他是一個空白字符。然後使用strip進行處理,輸出結果如下:

' ' is space : true

Before strip : ' Hollis Is A Java Coder '

After strip : 'Hollis Is A Java Coder'

所以,Java 11 中的 strip 方法要比trim方法更加強大,他可以移除很多不在ASCII中的空白字符,判斷方式就是通過Character.isWhitespace方法。

trim 和 strip 方法的區別

上面我們介紹了兩個都可以移除字符串開頭和結尾的方法,分別是trim 和 strip,再來對比下他們的區別:

stripLeading() 和 stripTrailing()

stripLeading()和stripTrailing()方法也都是在Java 11中添加的。作用分別是刪除字符串的開頭的空格以及刪除字符串的末尾的空格。

與strip方法類似,stripLeading、stripTrailing也使用Character.isWhitespace(int)來標識空白字符。用法也和strip類似:

public class StringTest {

public static void main(String args[]) {

String stringWithSpace ='\u2001' + " Hollis Is A Java Coder " + '\u2001';

System.out.println("'" + '\u2001' + "' is space : " + Character.isWhitespace('\u2001'));

StringTest.stripLeadingTest(stringWithSpace);

StringTest.stripTrailingTest(stringWithSpace);

}

private static void stripLeadingTest(String stringWithSpace){

System.out.println("Before stripLeading : \'" + stringWithSpace + "\'");

String stringAfterTrim = stringWithSpace.stripLeading();

System.out.println("After stripLeading : \'" + stringAfterTrim + "\'");

}

private static void stripTrailingTest(String stringWithSpace){

System.out.println("Before stripTrailing : \'" + stringWithSpace + "\'");

String stringAfterTrim = stringWithSpace.stripTrailing();

System.out.println("After stripTrailing : \'" + stringAfterTrim + "\'");

}

}

輸出結果:

' ' is space : true

Before stripLeading : ' Hollis Is A Java Coder '

After stripLeading : 'Hollis Is A Java Coder '

Before stripTrailing : ' Hollis Is A Java Coder '

After stripTrailing : ' Hollis Is A Java Coder'

replace

移除字符串中的空白字符,除了使用trim、strip以外,還有一個辦法,那就是使用replace方法把其中的空白字符替換掉。

replace是從java 1.5中添加的,可以用指定的字符串替換每個目標子字符串。

此方法替換所有匹配的目標元素,使用方式如下:

public class StringTest {

public static void main(String args[]) {

String stringWithSpace =" Hollis Is A Java Coder ";

StringTest.replaceTest(stringWithSpace);

}

private static void replaceTest(String stringWithSpace){

System.out.println("Before replace : \'" + stringWithSpace + "\'");

String stringAfterTrim = stringWithSpace.replace(" ", "");

System.out.println("After replace : \'" + stringAfterTrim + "\'");

}

}

結果:

Before replace : ' Hollis Is A Java Coder '

After replace : 'HollisIsAJavaCoder'

可見,以上使用replace方法可以替換掉字符串中的所有空白字符。特別需要注意的是,replace方法和trim方法一樣,只能替換掉ASCII中的空白字符。

replaceAll

replaceAll是Java 1.4中添加的最強大的字符串操作方法之一。我們可以將這種方法用於許多目的。

使用replaceAll()方法,我們可以使用正則表達式來用來識別需要被替換的目標字符內容。使用正則表達式,就可以實現很多功能,如刪除所有空格,刪除開頭空格,刪除結尾空格等等。

我們只需要用正確的替換參數創建正確的正則表達式。一些正則表達式的例子如下:

\s+ 所有的空白字符

^\s+ 字符串開頭的所有空白字符

\s+$ 字符串結尾的所有空白字符

注意,在java中要添加/我們必須使用轉義字符,所以對於\s+我們必須使用\\s+

public class StringTest {

public static void main(String args[]) {

String stringWithSpace =" Hollis Is A Java Coder ";

StringTest.replaceAllTest(stringWithSpace," ");

StringTest.replaceAllTest(stringWithSpace,"\\s+");

StringTest.replaceAllTest(stringWithSpace,"^\\s+");

StringTest.replaceAllTest(stringWithSpace,"\\s+$");

}

private static void replaceAllTest(String stringWithSpace,String regex){

System.out.println("Before replaceAll with '"+ regex +"': \'" + stringWithSpace + "\'");

String stringAfterTrim = stringWithSpace.replaceAll(regex, "");

System.out.println("After replaceAll with '"+ regex +"': \'" + stringAfterTrim + "\'");

}

}

結果:

Before replaceAll with ' ': ' Hollis Is A Java Coder '

After replaceAll with ' ': 'HollisIsAJavaCoder'

Before replaceAll with '\s+': ' Hollis Is A Java Coder '

After replaceAll with '\s+': 'HollisIsAJavaCoder'

Before replaceAll with '^\s+': ' Hollis Is A Java Coder '

After replaceAll with '^\s+': 'Hollis Is A Java Coder '

Before replaceAll with '\s+$': ' Hollis Is A Java Coder '

After replaceAll with '\s+$': ' Hollis Is A Java Coder'

正如我們所看到的,如果將replaceAll()與適當的正則表達式一起使用,它將是非常強大的方法。

replaceFirst

replaceFirst方法也是在java 1.4中添加的,它只將給定正則表達式的第一個匹配項替換為替換字符串。

如果您只需要替換第一次出現的情況,那麼這個方法非常有用。例如,如果我們只需要刪除前導空格,我們可以使用\\s+或^\\s+。

我們還可以通過使用\\s+$正則表達式使用此方法來刪除末尾空格。因為這個表達式將只匹配行的最後一個空格。因此最後的空格被認為是這個方法的第一個匹配。

讓我們舉一個從字符串中刪除前導和尾隨空格的例子

public class StringTest {

public static void main(String args[]) {

String stringWithSpace =" Hollis Is A Java Coder ";

StringTest.replaceFirstTest(stringWithSpace," ");

StringTest.replaceFirstTest(stringWithSpace,"\\s+");

StringTest.replaceFirstTest(stringWithSpace,"^\\s+");

StringTest.replaceFirstTest(stringWithSpace,"\\s+$");

}

private static void replaceFirstTest(String stringWithSpace,String regex){

System.out.println("Before replaceFirst with '"+ regex +"': \'" + stringWithSpace + "\'");

String stringAfterTrim = stringWithSpace.replaceFirst(regex, "");

System.out.println("After replaceFirst with '"+ regex +"': \'" + stringAfterTrim + "\'");

}

}

結果:

Before replaceFirst with ' ': ' Hollis Is A Java Coder '

After replaceFirst with ' ': ' Hollis Is A Java Coder '

Before replaceFirst with '\s+': ' Hollis Is A Java Coder '

After replaceFirst with '\s+': 'Hollis Is A Java Coder '

Before replaceFirst with '^\s+': ' Hollis Is A Java Coder '

After replaceFirst with '^\s+': 'Hollis Is A Java Coder '

Before replaceFirst with '\s+$': ' Hollis Is A Java Coder '

After replaceFirst with '\s+$': ' Hollis Is A Java Coder'

總結

本文介紹了7種移除字符串中的空白字符的方法。

想要直接移除掉字符串開頭的空白字符,可以使用stripLeading、replaceAll和replaceFirst

想要直接移除掉字符串末尾的空白字符,可以使用stripTrailing、replaceAll和replaceFirst

想要同時移除掉字符串開頭和結尾的空白字符,可以使用strip、trim

想要移除掉字符串中的所有空白字符,可以使用replace和replaceAll

而Java 11種新增的strip、stripTrailing以及stripLeading方法,可以移除的字符要比其他方法多,他可以移除的空白字符不僅僅局限於ASCII中的字符,而是Unicode中的所有空白字符,具體判斷方式可以使用Character.isWhitespace進行判斷。

我是敖丙,你知道的越多,你不知道的越多,我們下期見!

相關焦點

  • 深入剖析go中字符串的編碼問題——特殊字符的string怎麼轉byte?
    ,結果發現太複雜就跑去逛知乎了,然後就發現了一個非常有意思的提問「golang 特殊字符的string怎麼轉成[]byte?」。直到實際運行的時候才發現上圖的特殊字符是『』(如果無法展示,記住該特殊字符的unicode是\u0081),並不是英文中的句號。
  • 用Python拼接字符串的常用方法及性能分析
    常見的字符串拼接方式「+」操作符拼接「+」操作符連接字符串是Python中比較經典的字符串拼接方式。可以使用「+」將兩個字符串直接進行拼接。同時,它可以自主判斷是進行加法操作還是拼接字符串操作,當對字符串和數值型數據(整形、浮點型)進行拼接時,會拋出TypeError異常。
  • Go語言學習筆記之字符串一
    (str4,"jian")) //Index 函數是返回某字符在字符串的下標,在字符串裡面返回下標,否則-1(註:返回的是首次出現的下標) //LastIndex 函數是返回某個字符在字符串中最後出現的位置,否則返回-1 fmt.Println("\nIndex函數是返回某字符在字符串的下標,在字符串裡面返回下標,否則-1:") str5 := "You are cool."
  • 真香|誰說的 StringJoiner 不好!真香警告……
    我是小小,今天是本周的第四天,更新本周的第四篇,主要內容是 StringJoiner 的基本使用基本使用從字面理解上是用來拼接字符串的,一般需要分隔符進行拼接。public static void main(String[] args) { StringJoiner stringJoiner = new StringJoiner(","); stringJoiner.add("hello"); stringJoiner.add("world");System.out.println(stringJoiner.toString());}StringJoiner
  • php刪除字符串兩邊的空白符:trim()、ltrim()、rtrim()
    基本概念在現實中的很多情況下,我們都需要先清除一個字符串左右兩邊的空白字符,然後再使用它。比如我們要求用戶在網頁中的一個輸入框中輸入他的手機號,當用戶輸入的字符串被提交到服務端後,我們需要驗證它是否符合正確的手機號格式。
  • 如何構建識別圖像中字符的自動程序?一文解讀OCR與HTR
    圖 1.1:應用流程圖按文檔邊框裁剪圖像在圖像處理中,通常需要對圖像進行預先編輯,以便獲得更好的表徵。裁剪是圖像編輯中最常用的操作之一,這可以移除圖像中不需要的部分,也可以向圖像添加所需的特徵。最上面的圖表中的矩陣包含了字符的分數,這些字符中的最後一項(第 80 個)是一個 CTC 空白標籤。其它矩陣項,從上到下分別對應於如下字符:!」#&』()*+,-./0123456789:;?
  • 介紹「十六進位數字符串至數值轉換」函數
    有幾點需要注意:本文引用地址:http://www.eepw.com.cn/article/201701/337016.htm1:雖然該函數的輸入端子「string」的值可以是十六進位數、字符串(ASCII)或其他進位數,但是「string」的值流入該函數中時,先轉換成字符串(ASCII)。
  • 在C語言中如何高效地複製和連接字符串?
    作者 | Martin Sebor譯者 | 蘇本如,責編 | 劉靜以下為譯文:在所有標準C語言<string.h>頭文件中聲明的字符串處理函數中,最常用的是那些用來複製和連接字符串的函數。這兩組函數都將字符從一個對象複製到另一個對象,並且都返回它們的第一個參數:指向目標對象的起始指針。這種返回值的方式是導致函數效率低下的一個原因,而這正是本文要探討的主題。本文中展示的示例代碼僅僅用於說明目的。它們可能包含細微的錯誤,不應該被視為最佳代碼實踐。
  • Python文檔字符串生成器:基於CodeBERT,支持Google、Numpy等多種...
    具體是如何識別的,該AI的作者是這麼介紹的:參數類型是通過PEP 484類型、默認值和var標籤進行識別的。識別輸入之後便是推斷,這之間進行訓練的方法,也並不複雜,通過CodeBERT便可以實現。在訓練過程中,使用 CodeSearchNet 語料庫作為訓練數據,並使用 CodeBERT 中的 Code2NL微調任務。之後,進行的推斷基準測試如下:從上圖也能看出,在不同的推斷基準測試中,所需要的生成時間都很短(2s內),這體現在操作上的話,就是延遲。
  • php htmlspecialchars()函數將特殊字符轉換為HTML實體
    htmlspecialchars()函數定義及用法在php中,htmlspecialchars()函數是使用來把一些預定義的字符轉換為HTML實體,返迴轉換後的新字符串,原字符串不變。如果 string 包含無效的編碼,則返回一個空的字符串,除非設置了 ENT_IGNORE 或者 ENT_SUBSTITUTE 標誌;被轉換的預定義的字符有:&:轉換為&amp;":轉換為&quot;':轉換為成為 '<:轉換為&lt;>:轉換為&gt;htmlspecialchars()函數有四個參數,第一個參數規定了需要轉換的字符串
  • 超詳細的Shell中特殊字符的用法總結大全
    超詳細的Shell中特殊字符的用法總結大全 Linux下無論如何都是要用到shell命令的,在Shell的實際使用中,有編程經驗的很容易上手,但稍微有難度的是shell裡面的那些個符號,各種特殊的符號在我們編寫Shell腳本的時候如果能夠用的好,往往能給我們起到事半功倍的效果,那麼這些特殊符號所代表的意思你知道嗎
  • 如何移除文件管理器中「3D Objects」文件夾和其他無用快捷方式
    過去幾年間,微軟對文件管理器(Windows File Explorer)進行了多處修改,包括從「這臺PC」(此前稱之為「我的電腦」)添加和移除了各種文件夾。在 2017 年秋季發布的 Windows 10 更新開始,微軟引入了「3D Objects」文件。
  • String:蛋白互作網絡(PPI)分析資料庫
    研究蛋白之間的相互作用網絡,有助於挖掘核心的調控基因,目前已經有很多的蛋白質相互作用的資料庫,而string絕對是其中覆蓋的物種最多,相互作用信息做大的一個,網址如下:https://string-db.org/
  • Python 中的 __str__ 與 __repr__ 到底有什麼差別
    使用 __str__ 實現類到字符串的轉化不用自己另外定義一個方法,和 JAVA 的 toString() 方法類似,你可以在類裡實現__str__ 和 __repr__ 方法從而自定義類的字符串描述,這兩種都是比較 Pythonic 的方式去控制對象轉化為字符串的方式。下面我們通過做實驗慢慢的來看這兩種方式是怎麼工作的。
  • 重複名、空白名、豎名、花式名,史上最全王者榮耀暱稱攻略
    簡單來說就是使用在遊戲中使用不被顯示的特殊字符來做網名,比如已下字符:你可以在其中任選6個複製到遊戲中,即可實現空白網名。而這些字符往往被他人使用過,經常會出現暱稱重複的提示。取一個和他們一模一樣的網名,這個不難,依然要用到空白符號,在他們的網名中添加空白符號就對了,需要注意的是,字符不要過多。不要超出長度限制。也可以用到不佔空間距離長度的空白符號,直接加到想要網名的幾個字中間,這種不佔距離空間的空白符號下面括號中有提供。
  • 【OpenCV入門之十二】看起來一樣的圖像竟然存在這麼大的差別!
    Opencv提供的比較方法有四種:#include <opencv2/opencv.hpp>#include <iostream>#include <math.h>using namespace std;using namespace cv;string convertToString(double
  • Python基礎教程(一) - 序列:字符串、列表和元組
    字符串字符串類型是Python裡面最常見的類型。可以簡單的通過在引號間包含字符的方式創建它,單引號和雙引號是相同的。下面來寫一些例子來展示下如何訪問字符串的值、如何改變和刪除字符串。提供了一種基於多種輸入類型的創建自定義字符串的靈活方式。三引號:在三引號字符串中可以包含諸如換行回車或者tab鍵這樣的特殊字符。三引號字符串是用兩邊各三個單引號(''')或者兩邊各三個雙引號(""")來定義的。讓我們能從引號和特殊字符串中解脫出來,自始至終保持一小塊字符串的格式是所謂的WYSIWYG(所見即所得)格式的。
  • C#初學者教程系列4:C 數據類型示例,int、double、string、var
    C#中的數據類型是什麼?C#語言帶有一組基本數據類型。這些數據類型用於建立在應用程式中使用的值。讓我們探索C#中可用的基本數據類型。對於每個示例,我們將只修改Program.cs文件中的main函數。本示例僅展示了基本的幾種類型,實際上它的類型不只於此。僅以本文作拋磚引玉之意。1)int類型整數數據類型用於處理數字。