您好,登錄后才能下訂單哦!
今天小編給大家分享一下Java怎么獲取字符串單詞個(gè)數(shù)的相關(guān)知識(shí)點(diǎn),內(nèi)容詳細(xì),邏輯清晰,相信大部分人都還太了解這方面的知識(shí),所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。
public static int getWordCount(String content){ int count = 0; String cn_words = content.replaceAll("[^(\\u4e00-\\u9fa5,?!丁??;'‘:“”【】、)(……¥!·)]", ""); int cn_words_count = cn_words.length(); String non_cn_words = content.replaceAll("[^(a-zA-Z0-9`\\-=\';.,/~!@#$%^&*()_+|}{\":><?\\[\\])]", " "); int non_cn_words_count = 0; String[] temp = non_cn_words.split(" "); for(String ch:temp){ if(ch.trim().length() != 0) non_cn_words_count++; } count = cn_words_count + non_cn_words_count; return count; } public static void main(String[] args) { System.out.println(getWordCount("我愛你 zhanglulu _")); // 輸出5,單詞是以空格分開,所以這里我愛你三個(gè)字加一個(gè)單詞zhanglulu和一個(gè)下劃線,空格不算。 }
統(tǒng)計(jì)字符串里包含有多少個(gè)單詞,這是Java代碼常用的場(chǎng)景。介紹三種簡單的方法來對(duì)其進(jìn)行統(tǒng)計(jì)。這里所謂的單詞,是指連續(xù)的非空字符串。如“Hello”則為一個(gè)詞,“I love Guangzhou”則為三個(gè)詞。
在類String中,有split()這個(gè)方法,可以將字符進(jìn)行分割??梢酝ㄟ^對(duì)字符串以空白字符進(jìn)行分割,則可以得到結(jié)果。
public int countWithSplit(String str) { if (Strings.isNullOrEmpty(str)) { return 0; } return str.split("\\s+").length; }
代碼中"\\s+"為正則表達(dá)式,表示所有的空白字符。
public int countWithStringTokenizer(String str) { if (Strings.isNullOrEmpty(str)) { return 0; } StringTokenizer tokenizer = new StringTokenizer(str); return tokenizer.countTokens(); }
StringTokenizer是一個(gè)很有用的類,構(gòu)造函數(shù)有三個(gè):
1. StringTokenizer(String str) :構(gòu)造一個(gè)用來解析 str 的 StringTokenizer 對(duì)象。java 默認(rèn)的分隔符是空格("")、制表符(\t)、換行符(\n)、回車符(\r)。
2. StringTokenizer(String str, String delim) :構(gòu)造一個(gè)用來解析 str 的 StringTokenizer 對(duì)象,并提供一個(gè)指定的分隔符。
3. StringTokenizer(String str, String delim, boolean returnDelims) :構(gòu)造一個(gè)用來解析 str 的 StringTokenizer 對(duì)象,并提供一個(gè)指定的分隔符,同時(shí),指定是否返回分隔符。
public int countWithChar(String str) { if (Strings.isNullOrEmpty(str)) { return 0; } int wordCount = 0; boolean isWord = false; int endOfLine = str.length() - 1; char[] chars = str.toCharArray(); for (int i = 0; i < chars.length; i++) { // 如果是非空字符, word = true. if (isWord(chars[i]) && i != endOfLine) { isWord = true; // 非空字符后遇到空字符,則數(shù)量加1 } else if (!isWord(chars[i]) && isWord) { wordCount++; isWord = false; // 非空字符后遇到行尾 } else if (isWord(chars[i]) && i == endOfLine) { wordCount++; } } return wordCount; } private boolean isWord(char c) { return c != ' ' && c != '\t' && c != '\n' && c != '\r' && c != '\f'; }
測(cè)試代碼
簡單寫了幾個(gè)測(cè)試用例,測(cè)試通過。
public class CountWordTest { private CountWord countWord = new CountWord(); @Test public void test() { testStringCount(null, 0); testStringCount("", 0); testStringCount(" ", 0); testStringCount(" \t\r\n\f", 0); testStringCount("0", 1); testStringCount("abcdef", 1); testStringCount("a b c", 3); testStringCount("a,b,c", 1); testStringCount("a\rb\nc", 3); testStringCount("a,b\t\nc", 2); } private void testStringCount(String str, int expectedCount) { assertEquals(expectedCount, countWord.countWithSplit(str)); assertEquals(expectedCount, countWord.countWithStringTokenizer(str)); assertEquals(expectedCount, countWord.countWithChar(str)); } }
這三種方法都非常簡單,沒有什么技術(shù)難點(diǎn),用到了String、StringTokenizer、正則、Guava、JUnit等,非?;A(chǔ)。
以上就是“Java怎么獲取字符串單詞個(gè)數(shù)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會(huì)為大家更新不同的知識(shí),如果還想學(xué)習(xí)更多的知識(shí),請(qǐng)關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。