溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Java怎么獲取字符串單詞個(gè)數(shù)

發(fā)布時(shí)間:2023-03-01 16:42:36 來源:億速云 閱讀:100 作者:iii 欄目:開發(fā)技術(shù)

今天小編給大家分享一下Java怎么獲取字符串單詞個(gè)數(shù)的相關(guān)知識(shí)點(diǎn),內(nèi)容詳細(xì),邏輯清晰,相信大部分人都還太了解這方面的知識(shí),所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。

    Java獲取字符串單詞個(gè)數(shù)

     public static int getWordCount(String content){
            int count = 0;
            String cn_words = content.replaceAll("[^(\\u4e00-\\u9fa5,?!丁??;'‘:“”【】、)(……¥!·)]", "");
            int cn_words_count = cn_words.length();
            String non_cn_words = content.replaceAll("[^(a-zA-Z0-9`\\-=\';.,/~!@#$%^&*()_+|}{\":><?\\[\\])]", " ");
            int non_cn_words_count = 0;
            String[] temp = non_cn_words.split(" ");
            for(String ch:temp){
                if(ch.trim().length() != 0) non_cn_words_count++;
            }
            count = cn_words_count + non_cn_words_count;
            return count;
        }
        public static void main(String[] args) {
    		System.out.println(getWordCount("我愛你 zhanglulu _")); // 輸出5,單詞是以空格分開,所以這里我愛你三個(gè)字加一個(gè)單詞zhanglulu和一個(gè)下劃線,空格不算。
    	}

    統(tǒng)計(jì)String單詞數(shù)的三種方法

    統(tǒng)計(jì)字符串里包含有多少個(gè)單詞,這是Java代碼常用的場(chǎng)景。介紹三種簡單的方法來對(duì)其進(jìn)行統(tǒng)計(jì)。這里所謂的單詞,是指連續(xù)的非空字符串。如“Hello”則為一個(gè)詞,“I love Guangzhou”則為三個(gè)詞。

    方法一:使用split

    在類String中,有split()這個(gè)方法,可以將字符進(jìn)行分割??梢酝ㄟ^對(duì)字符串以空白字符進(jìn)行分割,則可以得到結(jié)果。

    public int countWithSplit(String str) {
        if (Strings.isNullOrEmpty(str)) {
            return 0;
        }
        return str.split("\\s+").length;
    }

    代碼中"\\s+"為正則表達(dá)式,表示所有的空白字符。

    方法二:使用StringTokenizer

    public int countWithStringTokenizer(String str) {
        if (Strings.isNullOrEmpty(str)) {
            return 0;
        }
        StringTokenizer tokenizer = new StringTokenizer(str);
        return tokenizer.countTokens();
    }

    StringTokenizer是一個(gè)很有用的類,構(gòu)造函數(shù)有三個(gè):

    • 1. StringTokenizer(String str) :構(gòu)造一個(gè)用來解析 str 的 StringTokenizer 對(duì)象。java 默認(rèn)的分隔符是空格("")、制表符(\t)、換行符(\n)、回車符(\r)。

    • 2. StringTokenizer(String str, String delim) :構(gòu)造一個(gè)用來解析 str 的 StringTokenizer 對(duì)象,并提供一個(gè)指定的分隔符。

    • 3. StringTokenizer(String str, String delim, boolean returnDelims) :構(gòu)造一個(gè)用來解析 str 的 StringTokenizer 對(duì)象,并提供一個(gè)指定的分隔符,同時(shí),指定是否返回分隔符。

    方法三:使用原始的char判斷

    public int countWithChar(String str) {
        if (Strings.isNullOrEmpty(str)) {
            return 0;
        }
        int wordCount = 0;
        boolean isWord = false;
        int endOfLine = str.length() - 1;
        char[] chars = str.toCharArray();
     
        for (int i = 0; i < chars.length; i++) {
            // 如果是非空字符, word = true.
            if (isWord(chars[i]) && i != endOfLine) {
                isWord = true;
     
                // 非空字符后遇到空字符,則數(shù)量加1
            } else if (!isWord(chars[i]) && isWord) {
                wordCount++;
                isWord = false;
                // 非空字符后遇到行尾
            } else if (isWord(chars[i]) && i == endOfLine) {
                wordCount++;
            }
        }
        return wordCount;
    }
     
    private boolean isWord(char c) {
        return c != ' '
                && c != '\t'
                && c != '\n'
                && c != '\r'
                && c != '\f';
    }

    測(cè)試代碼

    簡單寫了幾個(gè)測(cè)試用例,測(cè)試通過。

    public class CountWordTest {
        private CountWord countWord = new CountWord();
     
        @Test
        public void test() {
            testStringCount(null, 0);
            testStringCount("", 0);
            testStringCount(" ", 0);
            testStringCount(" \t\r\n\f", 0);
            testStringCount("0", 1);
            testStringCount("abcdef", 1);
            testStringCount("a b c", 3);
            testStringCount("a,b,c", 1);
            testStringCount("a\rb\nc", 3);
            testStringCount("a,b\t\nc", 2);
        }
     
        private void testStringCount(String str, int expectedCount) {
            assertEquals(expectedCount, countWord.countWithSplit(str));
            assertEquals(expectedCount, countWord.countWithStringTokenizer(str));
            assertEquals(expectedCount, countWord.countWithChar(str));
        }
    }

    這三種方法都非常簡單,沒有什么技術(shù)難點(diǎn),用到了String、StringTokenizer、正則、Guava、JUnit等,非?;A(chǔ)。

    以上就是“Java怎么獲取字符串單詞個(gè)數(shù)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會(huì)為大家更新不同的知識(shí),如果還想學(xué)習(xí)更多的知識(shí),請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

    向AI問一下細(xì)節(jié)

    免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

    AI