溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

JVM針對(duì)字符串常量池優(yōu)化的示例分析

發(fā)布時(shí)間:2021-09-18 09:58:33 來(lái)源:億速云 閱讀:139 作者:柒染 欄目:編程語(yǔ)言

JVM針對(duì)字符串常量池優(yōu)化的示例分析,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。

在 Java 世界中,構(gòu)造一個(gè) Java 對(duì)象是一個(gè)相對(duì)比較重的活,而且還需要垃圾回收,而緩存池就是為了緩解這個(gè)問(wèn)題的。

我們來(lái)看下基礎(chǔ)類(lèi)型的包裝類(lèi)的緩存,Integer 默認(rèn)緩存 -128 ~ 127 區(qū)間的值,Long 和 Short 也是緩存了這個(gè)區(qū)間的值,Byte 只能表示 -127 ~ 128 范圍的值,全部緩存了,Character 緩存了 0 ~ 127 的值。Float 和 Double 沒(méi)有緩存的意義。

Integer 可通過(guò)設(shè)置 java.lang.Integer.IntegerCache.high 擴(kuò)大緩存區(qū)間

String 不是基礎(chǔ)類(lèi)型,但是它也有同樣的機(jī)制,通過(guò) String Pool 來(lái)緩存 String 對(duì)象。假設(shè) "Java" 這個(gè)字符串我們會(huì)在應(yīng)用程序中使用多次,我們肯定不希望在每次使用到的時(shí)候,都重新在堆中創(chuàng)建一個(gè)新的對(duì)象。

當(dāng)然,之所以 Integer、Long、String 這些類(lèi)的對(duì)象可以緩存,是因?yàn)樗鼈兪遣豢勺冾?lèi)

基礎(chǔ)類(lèi)型包裝類(lèi)的緩存池使用一個(gè)數(shù)組進(jìn)行緩存,而 String 類(lèi)型,JVM 內(nèi)部使用 HashTable 進(jìn)行緩存,我們知道,HashTable 的結(jié)構(gòu)是一個(gè)數(shù)組,數(shù)組中每個(gè)元素是一個(gè)鏈表。和我們平時(shí)使用的 HashTable 不同,JVM 內(nèi)部的這個(gè) HashTable 是不可以動(dòng)態(tài)擴(kuò)容的。

1

創(chuàng)建和回收 當(dāng)我們?cè)诔绦蛑惺褂秒p引號(hào)來(lái)表示一個(gè)字符串時(shí),這個(gè)字符串就會(huì)進(jìn)入到 String Pool 中。當(dāng)然,這里說(shuō)的是已被加載到 JVM 中的類(lèi)。

這是一個(gè)不夠嚴(yán)謹(jǐn)?shù)恼f(shuō)法,請(qǐng)參見(jiàn)評(píng)論區(qū)的討論。

另外,就是 String#intern() 方法,這個(gè)方法的作用就是:

如果字符串未在 Pool 中,那么就往 Pool 中增加一條記錄,然后返回 Pool 中的引用。 如果已經(jīng)在 Pool 中,直接返回 Pool 中的引用。 只要 String Pool 中的 String 對(duì)象對(duì)于 GC Roots 來(lái)說(shuō)不可達(dá),那么它們就是可以被回收的。

如果 Pool 中對(duì)象過(guò)多,可能導(dǎo)致 YGC 變長(zhǎng),因?yàn)?YGC 的時(shí)候,需要掃描 String Pool,可以看看笨神大佬的文章《JVM源碼分析之String.intern()導(dǎo)致的YGC不斷變長(zhǎng)》。

討論 String Pool 的實(shí)現(xiàn) 1、首先,我們先考慮 String Pool 的空間問(wèn)題。

在 Java 6 中,String Pool 置于 PermGen Space 中,PermGen 有一個(gè)問(wèn)題,那就是它是一個(gè)固定大小的區(qū)域,雖然我們可以通過(guò) -XX:MaxPermSize=N 來(lái)設(shè)置永久代的空間大小,但是不管我們?cè)O(shè)置成多少,它終歸是固定的。

所以,在 Java 6 中,我們應(yīng)該盡量小心使用 String.intern() 方法,否則容易導(dǎo)致 OutOfMemoryError。

到了 Java 7,大佬們已經(jīng)著手去掉 PermGen Space 了,首先,就是將 String Pool 移到了堆中。

把 String Pool 放到堆中,即使堆的大小也是固定的,但是這個(gè)時(shí)候,對(duì)于應(yīng)用調(diào)優(yōu)工作,只需要調(diào)整堆大小就行了。

到了 Java 8,PermGen 已經(jīng)被徹底廢棄,出現(xiàn)了堆外內(nèi)存區(qū)域 MetaSpace,String Pool 相應(yīng)的從堆轉(zhuǎn)移到了 MetaSpace 中。

在 Java 8 中,String Pool 依然還是在 Heap Space 中。感謝評(píng)論區(qū)的讀者指出錯(cuò)誤。大家可以看一下我后面寫(xiě)的關(guān)于 MetaSpace 的文章,那篇文章深入分析了 MetaSpace 的構(gòu)成。

2、其次,我們?cè)儆懻?String Pool 的實(shí)現(xiàn)問(wèn)題。

前面我們說(shuō)了 String Pool 使用一個(gè) HashTable 來(lái)實(shí)現(xiàn),這個(gè) HashTable 不可以擴(kuò)容,也就意味著極有可能出現(xiàn)單個(gè) bucket 中的鏈表很長(zhǎng),導(dǎo)致性能降低。

在 Java 6 中,這個(gè) HashTable 固定的 bucket 數(shù)量是 1009,后來(lái)添加了選項(xiàng)(-XX:StringTableSize=N)可以配置這個(gè)值。到 Java 7(7u40),大佬們提高了這個(gè)默認(rèn)值到 60013,Java 8 依然也是使用這個(gè)值,對(duì)于絕大部分應(yīng)用來(lái)說(shuō),這個(gè)值是足夠用的。當(dāng)然,如果你會(huì)在代碼中大量使用 String#intern(),那么有必要手動(dòng)設(shè)置一下這個(gè)值。

為什么是 1009,而不是 1000 或者 1024?因?yàn)?1009 是質(zhì)數(shù),有利于達(dá)到更好的散列。60013 同理。

JVM 內(nèi)部的 HashTable 是不擴(kuò)容的,但是不代表它不 rehash,它會(huì)在發(fā)現(xiàn)散列不均勻的時(shí)候進(jìn)行 rehash,這里不展開(kāi)介紹。

3、觀察 String Pool 的使用情況。

JVM 提供了 -XX:+PrintStringTableStatistics 啟動(dòng)參數(shù)來(lái)幫助我們獲取統(tǒng)計(jì)數(shù)據(jù)。

遺憾的是,只有在 JVM 退出的時(shí)候,JVM 才會(huì)將統(tǒng)計(jì)數(shù)據(jù)打印出來(lái),JVM 沒(méi)有提供接口給我們實(shí)時(shí)獲取統(tǒng)計(jì)數(shù)據(jù)。

SymbolTable statistics: Number of buckets : 20011 = 160088 bytes, avg 8.000 Number of entries : 10923 = 262152 bytes, avg 24.000 Number of literals : 10923 = 425192 bytes, avg 38.926 Total footprint : = 847432 bytes Average bucket size : 0.546 Variance of bucket size : 0.545 Std. dev. of bucket size: 0.738 Maximum bucket size : 6

看下面這部分:

StringTable statistics: Number of buckets : 60003 = 480024 bytes, avg 8.000 Number of entries : 4000774 = 96018576 bytes, avg 24.000 Number of literals : 4000774 = 1055252184 bytes, avg 263.762 Total footprint : = 1151750784 bytes Average bucket size : 66.676 Variance of bucket size : 19.843 Std. dev. of bucket size: 4.455 Maximum bucket size : 84

統(tǒng)計(jì)數(shù)據(jù)中包含了 buckets 的數(shù)量,總的 String 對(duì)象的數(shù)量,占用的總空間,單個(gè) bucket 的鏈表平均長(zhǎng)度和最大長(zhǎng)度等。

上面的數(shù)據(jù)是在 Java 8 的環(huán)境中打印出來(lái)的,Java 7 的信息稍微少一些,主要是沒(méi)有 footprint 的數(shù)據(jù):

StringTable statistics: Number of buckets : 60003 Average bucket size : 67 Variance of bucket size : 20 Std. dev. of bucket size: 4 Maximum bucket size : 84 測(cè)試 String Pool 的性能 接下來(lái),我們來(lái)跑個(gè)測(cè)試,測(cè)試下 String Pool 的性能問(wèn)題,并討論 -XX:StringTableSize=N 參數(shù)的作用。

我們將使用 String#intern() 往字符串常量池中添加 400萬(wàn) 個(gè)不同的長(zhǎng)字符串。

package com.javadoop;

import java.lang.ref.WeakReference; import java.util.ArrayList; import java.util.List; import java.util.WeakHashMap;

public class StringTest {

public static void main(String[] args) {
    test(4000000);
}

private static void test(int cnt) {
    final List<String> lst = new ArrayList<String>(1024);
    long start = System.currentTimeMillis();
    for (int i = 0; i < cnt; ++i) {
        final String str = "Very very very very very very very very very very very very very very " +
                "very long string: " + i;
        lst.add(str.intern());

        if (i % 200000 == 0) {
            System.out.println(i + 200000 + "; time = " + (System.currentTimeMillis() - start) / 1000.0 + " sec");
            start = System.currentTimeMillis();
        }
    }
    System.out.println("Total length = " + lst.size());
}

} 我們每插入 20萬(wàn) 條數(shù)據(jù),輸出一次耗時(shí)。

編譯

javac -d . StringTest.java

使用默認(rèn) table size (60013) 運(yùn)行一次

java -Xms2g -Xmx2g com.javadoop.StringTest

設(shè)置 table size 為 400031,再運(yùn)行一次

java -Xms2g -Xmx2g -XX:StringTableSize=400031 com.javadoop.StringTest 2

從左右兩部分?jǐn)?shù)據(jù)可以很直觀看出來(lái),插入的性能主要取決于鏈表的平均長(zhǎng)度。當(dāng)鏈表平均長(zhǎng)度為 10 的時(shí)候,我們看到性能是幾乎沒(méi)有任何損失的。

還是那句話(huà),根據(jù)自己的實(shí)際情況,考慮是否要設(shè)置 -XX:StringTableSize=N,還是使用默認(rèn)值。

討論自建 String Pool 這一節(jié)我們來(lái)看下自己使用 HashMap 來(lái)實(shí)現(xiàn) String Pool。

這里我們需要使用 WeakReference:

private static final WeakHashMap<String, WeakReference<String>> pool = new WeakHashMap<String, WeakReference<String>>(1024);

private static String manualIntern(final String str) { final WeakReference<String> cached = pool.get(str); if (cached != null) { final String value = cached.get(); if (value != null) { return value; } } pool.put(str, new WeakReference<String>(str)); return str; } 我們使用 1000 * 1000 * 1000 作為入?yún)?cnt 的值進(jìn)行測(cè)試,分別測(cè)試 [1] 和 [2]:

private static void test(int cnt) { final List<String> lst = new ArrayList<String>(1024); long start = System.currentTimeMillis(); for (int i = 0; i < cnt; ++i) { // [1] lst.add(String.valueOf(i).intern()); // [2] // lst.add(manualIntern(String.valueOf(i)));

    if (i % 200000 == 0) {
        System.out.println(i + 200000 + "; time = " + (System.currentTimeMillis() - start) / 1000.0 + " sec");
        start = System.currentTimeMillis();
    }
}
System.out.println("Total length = " + lst.size());

} 測(cè)試結(jié)果,2G 的堆大小,如果使用 String#intern(),大概在插入 3000萬(wàn) 數(shù)據(jù)的時(shí)候,開(kāi)始進(jìn)入大量的 FullGC。

而使用自己寫(xiě)的 manualIntern(),大概到 1400萬(wàn) 的時(shí)候,就已經(jīng)不行了。

沒(méi)什么結(jié)論,如果要說(shuō)點(diǎn)什么的話(huà),那就是不要自建 String Pool,沒(méi)必要。

記住有兩個(gè) JVM 參數(shù)可以設(shè)置:-XX:StringTableSize=N、-XX:+PrintStringTableStatistics

StringTableSize,在 Java 6 中,是 1009;在 Java 7 和 Java 8 中,默認(rèn)都是 60013,如果有必要請(qǐng)自行擴(kuò)大這個(gè)值。

看完上述內(nèi)容,你們掌握J(rèn)VM針對(duì)字符串常量池優(yōu)化的示例分析的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

jvm
AI