Java 性能優(yōu)化中如何進(jìn)行字符串過濾

發(fā)布時(shí)間：2021-11-26 10:31:08 來源：億速云閱讀：497 作者：柒染欄目：編程語言

本篇文章給大家分享的是有關(guān)Java 性能優(yōu)化中如何進(jìn)行字符串過濾，小編覺得挺實(shí)用的，因此分享給大家學(xué)習(xí)，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

★一個(gè)簡單的需求

　　首先描述一下需求：
給定一個(gè) String 對(duì)象，過濾掉除了數(shù)字（字符'0'到'9'）以外的其它字符。要求時(shí)間開銷盡可能小。過濾函數(shù)的原型如下：

String filter(String str);

　　針對(duì)上述需求，俺寫了5個(gè)不同的過濾函數(shù)。為了敘述方便，函數(shù)名分別定為 filter1 到 filter5。其中 filter1 性能最差、filter5 性能最好。在看后續(xù)的內(nèi)容之前，你先暗自思考一下，如果由你來實(shí)現(xiàn)該函數(shù)，大概會(huì)寫成什么樣？最好把你想好的函數(shù)寫下來，便于跟俺給出的例子作對(duì)比。

★代碼——循序漸進(jìn)的5種實(shí)現(xiàn)方式

◇測試代碼

　　為了方便測試性能，先準(zhǔn)備好一坨測試代碼，具體如下：

class Test{    public static void main(String[] args)    {        if(args.length != 1)        {            return;        }        String str = "";        long nBegin = System.currentTimeMillis();        for(int i=0; i<1024*1024; i++)        {            str = filterN(args[0]);  // 此處調(diào)用某個(gè)具體的過濾函數(shù)        }        long nEnd = System.currentTimeMillis();        System.out.println(nEnd-nBegin);        System.out.println(str);    }};

　　在沒有想好你的實(shí)現(xiàn)方式之前，先別偷看后續(xù)內(nèi)容哦！另外，先注明一下，俺的 Java 環(huán)境是 JDK 1.5.0-09，使用的測試字符串是隨機(jī)生成的，長度32個(gè) char，只含字母和數(shù)字。由于 JDK 版本和機(jī)器性能不盡相同，你在自己機(jī)器上測試的結(jié)果可能跟俺下面給出的數(shù)值不太一樣。

◇版本1

　　先來揭曉性能最差的filter1，代碼如下：

private static String filter1(String strOld){    String strNew = new String();    for(int i=0; i<strOld.length(); i++)    {        if('0'<=strOld.charAt(i) && strOld.charAt(i)<='9')        {            strNew += strOld.charAt(i);        }    }    return strNew;}

　　如果你的代碼不幸和 filter1 雷同，那你的 Java 功底可就是相當(dāng)糟糕了，連字符串拼接需要用 StringBuffer 來優(yōu)化都沒搞明白。
　　為了和后續(xù)對(duì)比，先記下 filter1 的處理時(shí)間，大約在 8.81-8.90秒之間。

◇版本2

　　再來看看 filter2，代碼如下：

private static String filter2(String strOld){    StringBuffer strNew = new StringBuffer();    for(int i=0; i<strOld.length(); i++)    {        if('0'<=strOld.charAt(i) && strOld.charAt(i)<='9')        {            strNew.append(strOld.charAt(i));        }    }    return strNew.toString();}

　　其實(shí)剛才在評(píng)價(jià) filter1 的時(shí)候，已經(jīng)泄露了 filter2 的天機(jī)。filter2 通過使用 StringBuffer 來優(yōu)化連接字符串的性能。為什么 StringBuffer 連接字符串的性能比 String 好，這個(gè)已經(jīng)是老生常談，俺在這兒就不細(xì)說啦。尚不清楚的同學(xué)自己上 Google 一查便知。估計(jì)應(yīng)該有挺多同學(xué)會(huì)寫出類似 filter2 的代碼。
　　有些同學(xué)可能會(huì)問：為啥不用 StringBuilder？
　　確實(shí)，在 JDK 1.5 新增加了 StringBuilder 這個(gè)類，其性能會(huì)比 StringBuffer 更好。不過捏，考慮到有可能要拿到其它版本的 JDK 上作對(duì)比測試，而且 StringBuilder 和 StringBuffer 之間的差異【不是】本文討論的重點(diǎn)，所以后面的例子都使用 StringBuffer 來實(shí)現(xiàn)。
　　filter2 的處理時(shí)間大約為 2.14-2.18秒，提升了大約4倍。

◇版本3

　　接著看看 filter3，代碼如下：

private static String filter3(String strOld){    StringBuffer strNew = new StringBuffer();    int nLen = strOld.length();    for(int i=0; i<nLen; i++)    {        char ch = strOld.charAt(i);        if('0'<=ch && ch<='9')        {            strNew.append(ch);        }    }    return strNew.toString();}

　　乍一看，filter3 和 filter2 的代碼差不多嘛！再仔細(xì)瞧一瞧，原來先把 strOld.charAt(i) 賦值給 char 變量，節(jié)省了重復(fù)調(diào)用 charAt() 方法的開銷；另外把 strOld.length() 先保存為 nLen，也節(jié)省了重復(fù)調(diào)用 length() 的開銷。能想到這一步的同學(xué)，估計(jì)是比較細(xì)心的。
　　經(jīng)過此一優(yōu)化，處理時(shí)間節(jié)省為 1.48-1.52秒，提升了約30%。由于 charAt() 和 length() 的內(nèi)部實(shí)現(xiàn)都挺簡單的，所以提升的性能不太明顯。
　　另外補(bǔ)充一下，經(jīng)網(wǎng)友反饋，在 JDK 1.6 上，filter3 和 filter2 的性能基本相同。俺估計(jì)：可能是因?yàn)?JDK 1.6 在編譯時(shí)已經(jīng)進(jìn)行了相關(guān)的優(yōu)化。

◇版本4

　　然后看看 filter4，代碼如下：

private static String filter4(String strOld){    int nLen = strOld.length();    StringBuffer strNew = new StringBuffer(nLen);    for(int i=0; i<nLen; i++)    {        char ch = strOld.charAt(i);        if('0'<=ch && ch<='9')        {            strNew.append(ch);        }    }    return strNew.toString();}

　　filter4 和 filter3 差別也很小，唯一差別就在于調(diào)用了 StringBuffer 帶參數(shù)的構(gòu)造函數(shù)。通過 StringBuffer 的構(gòu)造函數(shù)設(shè)置初始的容量大小，可以有效避免 append() 追加字符時(shí)重新分配內(nèi)存，從而提高性能。
　　filter4 的處理時(shí)間大約在 1.33-1.39秒，約提高10%左右?？上嵘姆扔悬c(diǎn)小。

◇版本5

　　最后來看看“終極版本”——性能最好的 filter5。

private static String filter5(String strOld){    int nLen = strOld.length();    char[] chArray = new char[nLen];    int nPos = 0;    for(int i=0; i<nLen; i++)    {        char ch = strOld.charAt(i);        if('0'<=ch && ch<='9')        {            chArray[nPos] = ch;            nPos++;        }    }    return new String(chArray, 0, nPos);}

　　猛一看，你可能會(huì)想：這個(gè) filter5 和前幾個(gè)版本的差別也忒大了吧！filter5 既沒有用 String 也沒有用 StringBuffer，而是拿字符數(shù)組進(jìn)行中間處理。
　　filter5 的處理時(shí)間，只用了0.72-0.78秒，相對(duì)于 filter4 提升了將近50%。為啥捏？是不是因?yàn)橹苯硬僮髯址麛?shù)組，節(jié)省了 append(char) 的調(diào)用？通過查看 append(char) 的源代碼，內(nèi)部的實(shí)現(xiàn)很簡單，應(yīng)該不至于提升這么多。
　　那是什么原因捏？
　　首先，雖然 filter5 有一個(gè)字符數(shù)組的創(chuàng)建開銷，但是相對(duì)于 filter4 來說，StringBuffer 的構(gòu)造函數(shù)內(nèi)部也會(huì)有字符數(shù)組的創(chuàng)建開銷。兩相抵消。所以 filter5 比 filter4 還多節(jié)省了 StringBuffer 對(duì)象本身的創(chuàng)建開銷。（在俺的 JDK 1.5 環(huán)境中，這個(gè)因素比較明顯）
　　其次，由于 StringBuffer 是線程安全的（它的方法都是 synchronized），因此調(diào)用它的方法有一定的同步開銷，而字符數(shù)組則沒有，這又是一個(gè)性能提升的地方。（經(jīng)熱心讀者反饋，此因素在 JDK 1.6 中比較明顯）
　　基于上述兩個(gè)因素，所以 filter5 比 filter4 又有較大幅度的提升。

★對(duì)于5個(gè)版本的總結(jié)

　　上述5個(gè)版本，filter1 和 filter5 的性能相差約12倍（已經(jīng)超過一個(gè)數(shù)量級(jí)）。除了 filter3 相對(duì)于 filter2 是通過消除函數(shù)重復(fù)調(diào)用來提升性能，其它的幾個(gè)版本都是通過節(jié)省內(nèi)存分配，降低了時(shí)間開銷?？梢妰?nèi)存分配對(duì)于性能的影響有多大啊！

★一點(diǎn)補(bǔ)充說明，關(guān)于時(shí)間和空間的平衡

　　另外，需要補(bǔ)充說明一下。版本4和版本5使用了空間換時(shí)間的手法來提升性能。假如被過濾的字符串【很大】，并且數(shù)字字符的比例【很低】，這種方式就不太合算了。
　　舉個(gè)例子：被處理的字符串中，絕大部分都只含有不到10%的數(shù)字字符，只有少數(shù)字符串包含較多的數(shù)字字符。這時(shí)候該怎么辦捏？
　　對(duì)于 filter4 來說，可以把 new StringBuffer(nLen); 修改為 new StringBuffer(nLen/10); 來節(jié)約空間開銷。但是 filter5 就沒法這么玩了。
　　所以，具體該用“版本4”還是“版本5”，要看具體情況了。只有在你【非?！靠粗貢r(shí)間開銷，且數(shù)字字符比例很高（至少大于50%）的情況下，用 filter5 才合算。否則的話，建議用 filter4。

以上就是Java 性能優(yōu)化中如何進(jìn)行字符串過濾，小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘９ぷ鲿?huì)見到或用到的。希望你能通過這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)