溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)數(shù)據(jù)建模的常見(jiàn)問(wèn)題是什么

發(fā)布時(shí)間:2021-12-16 16:38:39 來(lái)源:億速云 閱讀:151 作者:柒染 欄目:大數(shù)據(jù)

大數(shù)據(jù)數(shù)據(jù)建模的常見(jiàn)問(wèn)題是什么,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。

1. 在大數(shù)據(jù)環(huán)境中,是否可以使用任何建模技術(shù)來(lái)提高查詢性能?

為了提高查詢性能,這取決于您使用的工具。以下準(zhǔn)則可以幫助您:

1) 確保為最終用戶的查詢選擇最佳存儲(chǔ)。例如,如果您正在運(yùn)行許多簡(jiǎn)短查詢,則應(yīng)考慮使用HBase。對(duì)于長(zhǎng)時(shí)間運(yùn)行的分析查詢,您可能會(huì)發(fā)現(xiàn)Kudu更好。理想情況下,檢查要運(yùn)行的查詢,并為這些用例確定適當(dāng)?shù)奈募袷健?/p>

2) 為工作負(fù)載使用正確的查詢引擎。例如,對(duì)于傳統(tǒng)上在企業(yè)數(shù)據(jù)倉(cāng)庫(kù)出現(xiàn)的長(zhǎng)時(shí)間運(yùn)行的查詢、供應(yīng)儀表板或標(biāo)準(zhǔn)報(bào)表的場(chǎng)景而言,Hive on LLAP很棒。另一方面,Impala非常適合臨時(shí)查詢100TB以上的數(shù)據(jù)。在配置查詢引擎時(shí),還應(yīng)確保已設(shè)置分區(qū),收集統(tǒng)計(jì)信息,確保對(duì)連接進(jìn)行了適當(dāng)?shù)脑O(shè)計(jì),查看查詢性能報(bào)告并進(jìn)行了相應(yīng)的優(yōu)化。

3) 確保您為每種用例選擇的用于檢索數(shù)據(jù)的工具。例如Phoenix或帶有API的HBase之類的工具來(lái)運(yùn)行查詢,然后使用Impala或Hive on LLAP來(lái)查詢數(shù)據(jù)。   

2. 我們的數(shù)據(jù)科學(xué)家喜歡非規(guī)范化表或“功能文件”。在對(duì)大數(shù)據(jù)系統(tǒng)進(jìn)行建模時(shí),我們還能保留這個(gè)概念嗎?

絕對(duì)。這是現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)的核心功能,被稱為分析基礎(chǔ)表(ABT)。想象我們是一家主要的電信公司,擁有用于服務(wù)使用情況、來(lái)電、網(wǎng)絡(luò)元素等的表。要在所有這些表中建立客戶流失模型,我們?yōu)榭蛻魯?shù)據(jù)創(chuàng)建一個(gè)ABT,并在ABT基礎(chǔ)上建立數(shù)據(jù)科學(xué)模型。我們可以按客戶、按蜂窩塔、按收入模型等進(jìn)行細(xì)分。ABT就像是數(shù)據(jù)集市,構(gòu)建在在數(shù)據(jù)倉(cāng)庫(kù)頂部,無(wú)論它是否為星型模式,因此SAS、R等工具或其他需要扁平結(jié)構(gòu)可以在不重組數(shù)據(jù)的情況下運(yùn)行,也無(wú)需放棄其他用例就可以擁有更傳統(tǒng)的事實(shí)和維度類型數(shù)據(jù)模型。

3. 物聯(lián)網(wǎng)和大數(shù)據(jù)倉(cāng)庫(kù)是否有任何行業(yè)數(shù)據(jù)模型?

預(yù)先建立的、預(yù)定義的行業(yè)特定數(shù)據(jù)模型曾經(jīng)非常重要,許多主要的數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商都將其作為數(shù)據(jù)倉(cāng)庫(kù)解決方案的一部分提供。盡管我們今天仍然可以看到其中的一些模型,但是與1990年代和2000年代創(chuàng)建這樣的模型時(shí)代相比,世界已經(jīng)發(fā)生了很大的變化。我們今天使用的數(shù)據(jù)的不斷變化的性質(zhì)迫使我們質(zhì)疑結(jié)構(gòu)化規(guī)范??梢栽诖瞬┛椭姓业揭粋€(gè)很好的例子,該博客介紹了美國(guó)最高法院關(guān)于婚姻判決的數(shù)據(jù)模型后果(https://qntm.org/support )將數(shù)十年前使用異性規(guī)范構(gòu)造建立的數(shù)據(jù)模型更改為不僅可以容納同性婚姻,而且可以解決一個(gè)或兩個(gè)伴侶離婚,再婚甚至是婚后性別變化的較大問(wèn)題,使用傳統(tǒng)結(jié)構(gòu)這可能是一個(gè)挑戰(zhàn)。因此,在大數(shù)據(jù)世界中對(duì)行業(yè)標(biāo)準(zhǔn)建模的答案是,我們不對(duì)整個(gè)行業(yè)進(jìn)行建模,而是為最終用戶需求建模,因此隨時(shí)隨地變化的多個(gè)模型可以輕松地從數(shù)據(jù)中獲取。并允許在同一數(shù)據(jù)上采用多種結(jié)構(gòu)來(lái)容納每個(gè)用例,而不是要堅(jiān)持一種適合所有方法的尺寸。 

例如,在一家電信公司中,呼叫數(shù)據(jù)以三種或四種不同的格式存儲(chǔ)。首先是讓監(jiān)視機(jī)構(gòu)查看誰(shuí)在呼叫誰(shuí),這可以存儲(chǔ)為圖形。第二個(gè)是可以根據(jù)移動(dòng)電話號(hào)碼查詢HBase或Kudu存儲(chǔ)以檢索最近的10到30個(gè)調(diào)用–一個(gè)非常離散的查詢。HDFS也可以用于長(zhǎng)期分析,例如給定城市或地區(qū)每天的總通話量。歸根結(jié)底,這是所有相同的數(shù)據(jù),針對(duì)三種用例以三種方式存儲(chǔ),以確保獲得最佳結(jié)果。工業(yè)數(shù)據(jù)模型本身并不是過(guò)時(shí)的,但需要在用例級(jí)別上通過(guò)更靈活的數(shù)據(jù)建模方法加以補(bǔ)充。請(qǐng)記住,在大數(shù)據(jù)中,我們可以在數(shù)據(jù)攝取后定義結(jié)構(gòu),并按需定義結(jié)構(gòu),從而讓我們利用更現(xiàn)代的方法來(lái)獲益。

4. 在對(duì)關(guān)系結(jié)構(gòu)建模時(shí),我們通常依靠索引來(lái)加快搜索速度。在大數(shù)據(jù)建模中,我們是否還需要擔(dān)心索引機(jī)制?

是的,沒(méi)有。這完全取決于文件格式和數(shù)據(jù)。例如,當(dāng)使用Hadoop HDFS時(shí),存儲(chǔ)技術(shù)通過(guò)大規(guī)模并行性使搜索速度更快,因此您沒(méi)有或不需要傳統(tǒng)索引。ORC確實(shí)具有索引的概念,但是它也使用Bloom過(guò)濾器。例如,在電信數(shù)據(jù)模型中,我們有一個(gè)主鍵定義為訂戶的移動(dòng)號(hào)碼,在ORC中有諸如客戶類型、客戶城市、客戶地址等列。我們可以在所有這些列上創(chuàng)建bloom filter,并且當(dāng)您從該表中選擇記錄時(shí),將啟動(dòng)過(guò)濾器,并且僅讀取存在一些搜索條件數(shù)據(jù)的ORC文件(例如,城市是洛杉磯)。請(qǐng)記住,在大數(shù)據(jù)系統(tǒng)中,我們將數(shù)據(jù)分布在成百上千個(gè)分區(qū)的文件中,

5. 連接事實(shí)和維表以進(jìn)行報(bào)告時(shí)需要哪種分區(qū)或存儲(chǔ)分區(qū)?

分區(qū)可能非常有用,具體取決于所使用的存儲(chǔ)。在大數(shù)據(jù)環(huán)境中,分區(qū)對(duì)于減少返回返回搜索結(jié)果所需檢查的文件數(shù)量非常有幫助(有關(guān)更多信息,請(qǐng)參見(jiàn)上面關(guān)于Bloom Filters的響應(yīng))。例如,我們通常會(huì)按日期或非常大的數(shù)據(jù)集(甚至按小時(shí))對(duì)事實(shí)表進(jìn)行分區(qū)。對(duì)于維度,我們可以根據(jù)用例進(jìn)行劃分,例如,如果我們的用戶定期在其區(qū)域內(nèi)尋找結(jié)果,則可以按地理位置進(jìn)行劃分。但是,您不僅限于一種分區(qū)方法,因?yàn)槟部梢赃M(jìn)行邏輯分區(qū),這非常有幫助,因?yàn)橄嗤臄?shù)據(jù)將以不同的動(dòng)機(jī)由不同的用戶使用,因此,我們每個(gè)人都可以有多個(gè)分區(qū)服務(wù)于不同的業(yè)務(wù)需求。

6. 在為大數(shù)據(jù)建模時(shí),與自然鍵相比,代理鍵是否有助于更好的聯(lián)接性能?

是的,代理鍵絕對(duì)可以提供幫助。通常,我們發(fā)現(xiàn)代理鍵的連接基本上更快,尤其是當(dāng)自然鍵為字符串列時(shí)。整數(shù)更易于比較聯(lián)接性能。但是,還有其他優(yōu)點(diǎn)。代理鍵可確保您與源系統(tǒng)更改無(wú)關(guān)。例如,如果您從內(nèi)部銷售人員管理工具轉(zhuǎn)移到基于云的工具,則不必將舊的自然鍵映射到新的自然鍵,則替代項(xiàng)可以保持不變,并有助于確保數(shù)據(jù)饋入的一致性。倉(cāng)庫(kù)而不必更改期末報(bào)告。

7. 我們是否可以將一個(gè)具有近十億條記錄的大型事實(shí)表與多維表合并在一起,其中有些表每條記錄都超過(guò)一百萬(wàn)條?  

是的,這是現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)真正發(fā)揮作用的地方,尤其是使用最新版本的Cloudera解決方案時(shí),這些類型的連接甚至可以非??斓赝瓿伞?傮w性能取決于數(shù)據(jù)和配置,因此我們建議使用Cloudera Workload XM之類的工具來(lái)提供幫助,或咨詢專家來(lái)設(shè)計(jì)此類大型工作負(fù)載的數(shù)據(jù)倉(cāng)庫(kù)。

8. 數(shù)據(jù)模型隨時(shí)間而變化。我知道我們?nèi)绾卧谏a(chǎn)系統(tǒng)中的關(guān)系數(shù)據(jù)庫(kù)中管理模式版本控制。處理大數(shù)據(jù)建模時(shí)版本控制是否有所不同?

數(shù)據(jù)建模版本控制與傳統(tǒng)環(huán)境中的版本控制沒(méi)有什么不同。例如,在Parquet和ORC中,僅添加一個(gè)新列非常容易,但刪除它并不容易。更改數(shù)據(jù)類型可能需要一個(gè)函數(shù)來(lái)轉(zhuǎn)換存儲(chǔ)的數(shù)據(jù)(如字符串到整數(shù))。通常,如果您要進(jìn)行重大更改,則可能必須重新創(chuàng)建維度或事實(shí)表。但是,就像關(guān)系系統(tǒng)一樣,可以使用一些技術(shù)使它變得更容易:就像不用更改列數(shù)據(jù)類型,只需添加具有新數(shù)據(jù)類型的新列即可。請(qǐng)記住,在大數(shù)據(jù)世界中,添加列只是在元數(shù)據(jù)中添加列定義,只有在行設(shè)置了值時(shí),我們才添加要存儲(chǔ)的任何數(shù)據(jù)。

9. 基于大數(shù)據(jù)的倉(cāng)庫(kù)與Data Vault 2.0概念基本相同嗎?

Data Vault 2.0并不是基于大數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù),也不是標(biāo)準(zhǔn)化和維建模的替代品。Data Vault 2.0是定義過(guò)渡區(qū)域的新方法,但是您仍然需要為數(shù)據(jù)倉(cāng)庫(kù)本身做一個(gè)傳統(tǒng)模型。這是因?yàn)槟鸁o(wú)法使用喜愛(ài)的基于SQL的BI和分析工具來(lái)報(bào)告數(shù)據(jù)倉(cāng)庫(kù)-您需要一個(gè)數(shù)據(jù)模型才能理解數(shù)據(jù)。

10. 傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)快要死了嗎?

傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有消亡,正在發(fā)生的事情是數(shù)據(jù)倉(cāng)庫(kù)作為一門學(xué)科正在有效地發(fā)展。它正在適應(yīng)變化。如果您還記得,過(guò)去從上到下的建立數(shù)據(jù)倉(cāng)庫(kù)常常導(dǎo)致很高的失敗率,據(jù)統(tǒng)計(jì),該失敗率曾經(jīng)達(dá)到70-80%。想象一下,花了2到3年的時(shí)間來(lái)開(kāi)發(fā)具有所有研發(fā)能力的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),然后發(fā)現(xiàn)它失敗了。這意味著我們需要以一種更加敏捷的方式來(lái)開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù),從而與業(yè)務(wù)用戶不斷變化的需求保持同步,變得更加流暢和快速,并隨時(shí)可以適應(yīng)。根據(jù)項(xiàng)目的要求,自下而上,快速開(kāi)發(fā),部署,沖洗和重復(fù),我們使數(shù)據(jù)倉(cāng)庫(kù)變得敏捷,適應(yīng)性強(qiáng),并且可以在數(shù)天或數(shù)周內(nèi)準(zhǔn)備就緒,而過(guò)去則需要數(shù)月甚至數(shù)年。

看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝您對(duì)億速云的支持。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI