您好,登錄后才能下訂單哦!
小編給大家分享一下怎么使用Hadoop進入大數(shù)據(jù)庫時代,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
Hadoop有多火?從業(yè)界的一系列舉動就可以看出來。包括甲骨文、微軟、Sybase在內(nèi)的主流數(shù)據(jù)庫廠商都紛紛發(fā)布了Hadoop連接器產(chǎn)品,為的就是讓用戶可以在傳統(tǒng)關(guān)系型數(shù)據(jù)庫與開源分布式處理系統(tǒng)之間更輕松地傳輸信息。
這些廠商將Hadoop連接器軟件視為“大數(shù)據(jù)管理”戰(zhàn)略的重要一環(huán),但是并不是只有主流的數(shù)據(jù)庫廠商在做這件事。像數(shù)據(jù)倉庫提供商Teradata以及惠普公司的Vertica都推出了類似的Hadoop產(chǎn)品,也不乏Informatica、Talend這樣的數(shù)據(jù)集成軟件廠商。而像Hortonworks、Cloudera以及MapR這樣的創(chuàng)業(yè)公司也在這一生態(tài)系統(tǒng)中扮演了非常重要的角色。
OpenLogic公司的技術(shù)總監(jiān)Rod Cope在使用Hadoop方面有著非常豐富的經(jīng)驗,他告誡用戶在使用Hadoop連接器之前,需要考慮應(yīng)用到場景以及對數(shù)據(jù)的需求。Cope介紹他的公司使用了Hadoop、Hbase和一個列式的NoSQL數(shù)據(jù)庫組合,它們作為OpenLogic主營業(yè)務(wù)的一部分,能夠幫助其客戶審計軟件應(yīng)用,以核查所使用的嵌入式開源代碼是否符合相關(guān)的許可。OpenLogic目前尚未部署任何連接器軟件,但是Cope表現(xiàn)出對這一技術(shù)的幾大好奇,他認為可以使用這樣的軟件來將頻繁訪問的數(shù)據(jù)從一個關(guān)系型數(shù)據(jù)庫轉(zhuǎn)移到Hbase上面做歸檔。
但是Cope認為,Hadoop連接器軟件也并不能解決所有問題,感興趣的用戶需要注意加載數(shù)據(jù)的速度。在處理大數(shù)據(jù)的時候,人們往往對性能的標(biāo)準(zhǔn)并不如之前那么關(guān)注,如果加載數(shù)據(jù)到Hadoop用戶的時間超長,那么使用連接器的意義就不大了。問題其實并不出在Hadoop上,而是你加載的數(shù)據(jù)源。
Ventana研究機構(gòu)的分析師David Menninger表示,Hadoop分布式文件系統(tǒng)(HDFS)以及在其基礎(chǔ)之上構(gòu)建的數(shù)據(jù)庫產(chǎn)品能夠為用戶提供非常好的數(shù)據(jù)管理與分析解決方案,這是相對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫而言。這些數(shù)據(jù)可能是機器生成的大數(shù)據(jù),比如Web搜素日志、社交媒體信息、手機通話記錄以及其他一些非結(jié)構(gòu)化的數(shù)據(jù)。
Menninger指出,Hadoop連接器軟件使用的一個典型場景,就是企業(yè)使用Hadoop系統(tǒng)從大量的非結(jié)構(gòu)化數(shù)據(jù)源中抽取少量結(jié)構(gòu)化分析信息,然后再將其傳輸?shù)疥P(guān)系型數(shù)據(jù)庫當(dāng)中以便使用BI工具進行進一步的分析。
Menninger表示:“目前用戶將信息放到關(guān)系型數(shù)據(jù)庫中,主要是因為用Hadoop數(shù)據(jù)源還不能輕松地制作報表。業(yè)界中有一套成熟的報表和分析系統(tǒng),當(dāng)然這都是針對關(guān)系型數(shù)據(jù)而言。”
這樣的數(shù)據(jù)傳輸并不一定是一錘子買賣,也許你正在計算某一事件的發(fā)生次數(shù),然后又想要計算兩件事一起發(fā)生的次數(shù)。你可以返回到數(shù)據(jù)源,然后再處理一遍信息,這就是為什么人們不會把非結(jié)構(gòu)化的數(shù)據(jù)刪除,它們可以存放在Hadoop中。
此外,同SQL數(shù)據(jù)庫相比,Hadoop為高級分析和數(shù)據(jù)挖掘應(yīng)用提供了更好的環(huán)境。比如分析客服電話日志以及社交媒體上的信息,找出客戶的興趣點以及對某一產(chǎn)品的口碑。這對于SQL來說是非常困難的一件事,但是它可以通過Hadoop連接器來把信息傳輸?shù)疥P(guān)系型數(shù)據(jù)庫或者數(shù)據(jù)倉庫當(dāng)中。
Tynt多媒體公司的副總裁Cameron Befus表示,他們使用了Hadoop來為超過50萬的用戶提供分析服務(wù)。此外,Tynt還使用了開源的MySQL數(shù)據(jù)庫來作為后端的支持。到目前為止,Befus還沒有看到部署Hadoop連接器的必要,他說:“我們的確會把數(shù)據(jù)進行轉(zhuǎn)移,但這通常是很直接的。我們會把文件從Hadoop直接導(dǎo)入MySQL中,如果使用連接器的話也許會輕松一些,但是這對我們來說并不是什么難題?!?/p>
但IT分析師認為隨著Hadoop的普及,這樣的連接器軟件使用頻率將逐漸多起來。像Menninger這樣的分析師認為,公司希望能夠把基于Hadoop的分析結(jié)果導(dǎo)入更大的業(yè)務(wù)環(huán)境中去,這也是連接器技術(shù)發(fā)展的推動力。當(dāng)我們看大數(shù)據(jù)的時候什么最重要?那就是這些數(shù)據(jù)能夠告訴我關(guān)鍵的問題是什么。用戶希望能夠在非結(jié)構(gòu)化數(shù)據(jù)、流數(shù)據(jù)、有意義的數(shù)據(jù)以及高度結(jié)構(gòu)化的數(shù)據(jù)之間構(gòu)建一座橋梁,以便能夠通過分析來找到問題根源所在。
以上是“怎么使用Hadoop進入大數(shù)據(jù)庫時代”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。