您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“怎么用Python完成獵詞游戲”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
獵詞(word hunt)是一類很常見的游戲,給你一張字母組成的表,然后讓你在這些字母中盡可能多的去尋找單詞。這類游戲有不同的變體,一類是你可以多次重復(fù)使用這些字母(這類游戲叫做獵詞),或者你只能使用一次每個(gè)字母(這類游戲叫做字母重組)。你組出來的單詞越長就得分越高,使用了所有字母就可以獲得最高分。
這類游戲?qū)τ?jì)算機(jī)而言是很「容易」去完成的,而且要強(qiáng)調(diào)一個(gè)相當(dāng)有用的數(shù)據(jù)結(jié)構(gòu)叫做 “Trie”。
讓我們先拿出一個(gè)單詞 「MAINE」。
首先要做的決定我們要如何處理這個(gè)問題。如果問題是字母重組,那么我們可以嘗試所有可能的字母組合,然后看看它們是否是單詞。這對(duì)字母重組是一個(gè)還不錯(cuò)的解決方案,但是對(duì)獵詞而言就不能給我們多少幫助了,因?yàn)樽帜缚梢员恢赜?。所以?dāng)你可能發(fā)現(xiàn)了單詞 ”name” 時(shí),你將再不會(huì)發(fā)現(xiàn)單詞 “nine”。顯然我們不能嘗試窮盡這些字母所有可能的組合,因?yàn)槲覀儾恢酪粋€(gè)單詞可能被重復(fù)多少次。因?yàn)檫@個(gè)原因,我們退步為搜索一個(gè)詞典,去看這個(gè)詞是否可以只由我們擁有的字母組成。當(dāng)有一個(gè)很大的詞典時(shí),這可能耗費(fèi)大量的時(shí)間,并且你每次換了一個(gè)詞時(shí)都必須重復(fù)這一步。
作為替代,我們需要一個(gè)搜索詞典的方法,可以快速告訴我們某個(gè)單詞是否在詞典中。這就是預(yù)測性文本結(jié)構(gòu) Trie 字典樹的用武之地。
Trie 是一個(gè)樹數(shù)據(jù)結(jié)構(gòu) — 作為原本樹節(jié)點(diǎn)儲(chǔ)存一個(gè)與 key 相關(guān)聯(lián)的值的代替 — 這個(gè)節(jié)點(diǎn)現(xiàn)在儲(chǔ)存 key 本身。節(jié)點(diǎn)中的值可用于根據(jù)遍歷次數(shù)來為某些葉子節(jié)點(diǎn)或概率值分配順序。
維基百科中一個(gè) Trie 的例子:
上面這個(gè) Trie 的例子由 “A”,“to”,“tea”,“ted”,“ten”,“i”,“in” 和 “inn” 生成。一旦一個(gè)像這樣的 Trie 字典樹結(jié)構(gòu)被生成,去判斷任何一個(gè)單詞是否在這個(gè) Trie 字典樹中就是 O(n) 復(fù)雜度的。如果我在搜索 “ted”,我會(huì)消耗 O(1) 去尋找 “t”,然后從 “t” 節(jié)點(diǎn)再消耗 O(1) 去尋找 “e”,并且再從 “te” 節(jié)點(diǎn)消耗 O(1) 去到 “d”。
面對(duì)問題“這一堆字母在不在這個(gè)詞典中?”,這就是一個(gè)「非?!?/strong>快速的解答方案。我們首先要做的就是構(gòu)建詞典。
在 Python 中,這個(gè)步驟很簡單。每個(gè)節(jié)點(diǎn)的樣子都應(yīng)該是一個(gè)詞典。所以我們需要從一個(gè)空詞典開始,然后對(duì)詞典中的每一個(gè)單詞,逐字母的檢查下一個(gè)字母是否在我們的 Trie 字典樹結(jié)構(gòu)中,如果不在就添進(jìn)去?,F(xiàn)在,這聽起來相當(dāng)耗費(fèi)時(shí)間,在某些方面也的確如此,但是它只需要完成一次。當(dāng) Trie 被建好后,你可以直接使用它而無需任何其它開銷。
我們需要從一個(gè)裝滿所有可能單詞的列表開始(網(wǎng)上有很多這類資源),然后我們的詞典加載函數(shù)可能長下面這樣:
def load():
with open('words.txt') as wordFile:
wordList = wordFile.read().split()
trie = {}
for word in wordList:
addWordToTrie(trie, word)
return trie
我們需要一個(gè)函數(shù)來給 Trie 中添加單詞。我們通過快速瀏覽 Trie 來檢查每一個(gè)字母,判斷我們是否需要添加一個(gè)新的 key。因?yàn)槲覀兺ㄟ^ key 來檢索 python 中的字典,所以無需在每個(gè)節(jié)點(diǎn)儲(chǔ)存一個(gè) value。這是一個(gè)有自己的 key 值的新詞典。
def addWordToTrie(trie, word, idx = 0):
if idx >= len(word):
return
if word[idx] not in d:
d[word[idx]] = {}
addWordToTrie(d[word[idx]], word, idx+1)
這里有一個(gè)簡單的想法。我們接收的參數(shù)是當(dāng)前所在位置的 Trie 字典樹(注意在這個(gè)例子中,Trie 中的所有節(jié)點(diǎn)也是一個(gè) Trie),這個(gè)單詞,以及我們所查看的字母在單詞中的索引。
如果索引超過了單詞的長度,我們就停止!如果沒有超過,我們需要檢查是否這個(gè)字母已經(jīng)在這個(gè) Trie 中。如果這個(gè)字母不在這個(gè) Trie 的下一層中,那么我們添加一個(gè)新的字典在這一層,當(dāng)前這個(gè)字母就是字典的 key。然后,我們遞歸的調(diào)用這個(gè)函數(shù),并且傳入我們當(dāng)前字母對(duì)應(yīng)的詞典(也就是 Trie),這個(gè)單詞,以及下一個(gè)索引位置。
使用這兩個(gè)函數(shù),我們就構(gòu)建了上面展示的 Trie 字典樹。但是有一個(gè)問題擺在我們面前。我們?nèi)绾沃牢覀冋业降氖且粋€(gè)「單詞」,而不是一個(gè)真正的單詞的前一「部分」呢?例如,在上面這個(gè) Trie 的例子中,我們希望 “in” 可以像 “inn” 一樣返回是一個(gè)單詞,但是并不希望將 “te” 作為一個(gè)詞典中的單詞來返回。
為了完成這一點(diǎn),當(dāng)我們完成一個(gè)單詞時(shí),「必須」在這個(gè)節(jié)點(diǎn)中儲(chǔ)存一個(gè)值。來回頭重新審視一下我們的 addWordToTrie 函數(shù),如果這個(gè)節(jié)點(diǎn)表示一個(gè)完整的單詞,就將 “l(fā)eaf” 這個(gè) key 設(shè)置為 “True”。
def addWordToTrie(d, word, idx):
if idx >= len(word):
d['leaf']=True
return
if word[idx] not in d:
d[word[idx]] = {'leaf':False}
addWordToTrie(d[word[idx]], word, idx+1)
現(xiàn)在,無論何時(shí)我們完成一個(gè)單詞,都要設(shè)置當(dāng)前這個(gè)詞典節(jié)點(diǎn)的 “l(fā)eaf” 值為 True,或者我們添加一個(gè)新的節(jié)點(diǎn),它的 “l(fā)eaf” 值為 “False”。
當(dāng)我們加載這個(gè)函數(shù)初始化時(shí),應(yīng)該是同樣的設(shè)置 {‘leaf’:False},所以我們就無需再拿一個(gè)空的字符串來作為有效詞的返回。
就是這樣!我們已經(jīng)創(chuàng)建了我們的 Trie 結(jié)構(gòu),接下來啥時(shí)候使用它了。
找一個(gè)辦法來進(jìn)行嘗試:從一個(gè)空的列表開始。對(duì)我們單詞中的每個(gè)字母,檢查我們的 Trie 字典樹,看它是否在其中。如果在,就拿到這個(gè)詞典子樹再重新開始(這樣我們可以檢查重復(fù)的字母)。保持這樣進(jìn)行下去,直到我們找到一個(gè) leaf 標(biāo)志位為 true 的節(jié)點(diǎn),或者我們在下一層的詞典子樹中找不到單詞中的任何字母。如果我們發(fā)現(xiàn)了一個(gè)標(biāo)記為 leaf 的節(jié)點(diǎn),就把這個(gè)單詞添到列表中。如果我們沒有找到下一個(gè)詞典子樹,就返回并執(zhí)行下一個(gè)字母。
def findWords(trie, word, currentWord):
myWords = [];
for letter in word:
if letter in trie:
newWord = currentWord + letter
if (trie[letter]['leaf']):
myWords.append(newWord)
myWords.extend(findWords(trie[letter], word, newWord))
return myWords
這里注意一下,我們正在構(gòu)建一個(gè)新單詞傳遞到列表中,但是我們也會(huì)遞歸的去尋找新的單詞,用來擴(kuò)展我們的列表。
有的讀者可能已經(jīng)發(fā)現(xiàn)了接下來的問題。如果字母重復(fù)怎么辦呢?例如我們的單詞是 “「TEEN」”,并且我們現(xiàn)在在 “TE” 節(jié)點(diǎn)上,我們已經(jīng)在子樹上檢查了 “t“,這很好,然后我們在子樹上檢查 ”e“ 并發(fā)現(xiàn) ”tee“ 是一個(gè)單詞。我們將 ”tee“ 添加到列表中。但是單詞的下一個(gè)字母又是 ”e“,所以我們再次找到了 ”tee“。有一些方法去解決這個(gè)問題,但是最簡單的方法之一就是用集合代替列表。
def findWords(trie, word, currentWord):
myWords = set()
for letter in word:
if letter in trie:
newWord = currentWord + letter
if trie[letter]['leaf']:
myWords.add(newWord)
myWords = myWords.union(findWords(trie[letter], word, newWord))
return myWords
現(xiàn)在無論我們把同一個(gè)單詞找到多少次,我們都可以保證列表中的唯一性。我們也可以將輸入單詞中的字母去重,進(jìn)而節(jié)約處理時(shí)間。
就這樣!利用這三個(gè)函數(shù)就可以通過我們輸入的字母來找到所有可能在字典中的單詞。來讓我們把這些包到一個(gè) main 函數(shù)里面,然后給一個(gè)輸入,具體步驟我們已經(jīng)完成了。
def main():
print('Loading dictionary...')
wordTrie = load()
print('Done\n')
word = raw_input("What letters should we use: ")
minLength = int(raw_input("What is the minimum word length: "))
print("")
count = 0;
for word in sorted(findWords(wordTrie, word, "")):
if len(word) >= minLength:
count = count+1
print(word)
print(str(count) + " words found.")
因?yàn)槲覀儾皇菃卧~重組,所以我們找到了「太」多單詞。使用上面提到的例子「MAINE」和一個(gè)我找到的詞典 — 大約有 370000 個(gè)單詞 — 這個(gè)程度發(fā)現(xiàn)了 208 個(gè)單詞。這也是為什么我添加了一個(gè)最短單詞長度的原因。限制單詞長度至少為七,我們可以得到如下結(jié)果:
Loading dictionary…
Done
What letters should we use: maine
What is the minimum word length: 7
amninia
anaemia
anamnia
animine
emmenia
enamine
manienie
mannaia
meminna
miminae
minaean
11 words found.
加載詞典消耗了大約半秒,后面的查找單詞基本上感受不到明顯的時(shí)間消耗。
為了一個(gè)單詞去每次都重新建樹是很低效的,所以最好可以重用它,要么是保存整個(gè)數(shù)據(jù)結(jié)構(gòu),要么嘗試一次循環(huán)的查找多個(gè)單詞。
但愿這篇文章可以為你提供一個(gè) Trie 的基本介紹,便于你去解決一些單詞問題。當(dāng)你想要一些自動(dòng)補(bǔ)充完成的任務(wù)時(shí),Trie 是一個(gè)很好用的數(shù)據(jù)結(jié)構(gòu)。短信,搜索甚至是指引方向,都可以使用系統(tǒng)中的數(shù)據(jù)構(gòu)建 Trie 來幫助預(yù)測用戶下一步想要輸入什么。正如我們所看到的,它也是在一個(gè)搜索大量的現(xiàn)有路徑時(shí)很好的結(jié)構(gòu),在這個(gè)例子中,這個(gè)路徑就是有效的單詞。
“怎么用Python完成獵詞游戲”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。