您好,登錄后才能下訂單哦!
這篇文章主要介紹Hadoop大數(shù)據(jù)基礎框架的示例分析,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
什么是大數(shù)據(jù)?進入本世紀以來,尤其是2010年之后,隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的增長呈爆炸趨勢,已經(jīng)很難估計全世界的電子設備中存儲的數(shù)據(jù)到底有多少,描述數(shù)據(jù)系統(tǒng)的數(shù)據(jù)量的計量單位從MB(1MB大約等于一百萬字節(jié))、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)級的數(shù)據(jù)系統(tǒng)已經(jīng)很常見,隨著移動個人數(shù)據(jù)、社交網(wǎng)站、科學計算、證券交易、網(wǎng)站日志、傳感器網(wǎng)絡數(shù)據(jù)量的不斷加大,國內(nèi)擁有的總數(shù)據(jù)量早已超出 ZB(1ZB=1024EB,1EB=1024PB)級別。
傳統(tǒng)的數(shù)據(jù)處理方法是:隨著數(shù)據(jù)量的加大,不斷更新硬件指標,采用更加強大的CPU、更大容量的磁盤這樣的措施,但現(xiàn)實是:數(shù)據(jù)量增大的速度遠遠超出了單機計算和存儲能力提升的速度。
而“大數(shù)據(jù)”的處理方法是:采用多機器、多節(jié)點的處理大量數(shù)據(jù)方法,而采用這種新的處理方法,就需要有新的大數(shù)據(jù)系統(tǒng)來保證,系統(tǒng)需要處理多節(jié)點間的通訊協(xié)調(diào)、數(shù)據(jù)分隔等一系列問題。
總之,采用多機器、多節(jié)點的方式,解決各節(jié)點的通訊協(xié)調(diào)、數(shù)據(jù)協(xié)調(diào)、計算協(xié)調(diào)問題,處理海量數(shù)據(jù)的方式,就是“大數(shù)據(jù)”的思維。其特點是,隨著數(shù)據(jù)量的不斷加大,可以增加機器數(shù)量,水平擴展,一個大數(shù)據(jù)系統(tǒng),可以多達幾萬臺機器甚至更多。
Hadoop最初主要包含分布式文件系統(tǒng)HDFS和計算框架MapReduce兩部分,是從Nutch中獨立出來的項目。在2.0版本中,又把資源管理和任務調(diào)度功能從MapReduce中剝離形成YARN,使其他框架也可以像MapReduce那樣運行在Hadoop之上。與之前的分布式計算框架相比,Hadoop隱藏了很多繁瑣的細節(jié),如容錯、負載均衡等,更便于使用。
Hadoop也具有很強的橫向擴展能力,可以很容易地把新計算機接入到集群中參與計算。在開源社區(qū)的支持下,Hadoop不斷發(fā)展完善,并集成了眾多優(yōu)秀的產(chǎn)品如非關系數(shù)據(jù)庫HBase、數(shù)據(jù)倉庫Hive、數(shù)據(jù)處理工具Sqoop、機器學習算法庫Mahout、一致性服務軟件ZooKeeper、管理工具Ambari等,形成了相對完整的生態(tài)圈和分布式計算事實上的標準。
大快的大數(shù)據(jù)通用計算平臺(DKH),已經(jīng)集成相同版本號的開發(fā)框架的全部組件。如果在開源大數(shù)據(jù)框架上部署大快的開發(fā)框架,需要平臺的組件支持如下:
數(shù)據(jù)源與SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
數(shù)據(jù)采集:DK.hadoop
數(shù)據(jù)處理模塊:DK.Hadoop、spark、storm、hive
機器學習和AI:DK.Hadoop、spark
NLP模塊:上傳服務器端JAR包,直接支持
搜索引擎模塊:不獨立發(fā)布
大快大數(shù)據(jù)平臺(DKH),是大快公司為了打通大數(shù)據(jù)生態(tài)系統(tǒng)與傳統(tǒng)非大數(shù)據(jù)公司之間的通道而設計的一站式搜索引擎級,大數(shù)據(jù)通用計算平臺。傳統(tǒng)公司通過使用DKH,可以輕松的跨越大數(shù)據(jù)的技術鴻溝,實現(xiàn)搜索引擎級的大數(shù)據(jù)平臺性能。
l DKH,有效的集成了整個HADOOP生態(tài)系統(tǒng)的全部組件,并深度優(yōu)化,重新編譯為一個完整的更高性能的大數(shù)據(jù)通用計算平臺,實現(xiàn)了各部件的有機協(xié)調(diào)。因此DKH相比開源的大數(shù)據(jù)平臺,在計算性能上有了高達5倍(最大)的性能提升。
l DKH,更是通過大快獨有的中間件技術,將復雜的大數(shù)據(jù)集群配置簡化至三種節(jié)點(主節(jié)點、管理節(jié)點、計算節(jié)點),極大的簡化了集群的管理運維,增強了集群的高可用性、高可維護性、高穩(wěn)定性。
l DKH,雖然進行了高度的整合,但是仍然保持了開源系統(tǒng)的全部優(yōu)點,并與開源系統(tǒng)100%兼容,基于開源平臺開發(fā)的大數(shù)據(jù)應用,無需經(jīng)過任何改動,即可在DKH上高效運行,并且性能會有最高5倍的提升。
l DKH,更是集成了大快的大數(shù)據(jù)一體化開發(fā)框架(FreeRCH), FreeRCH開發(fā)框架提供了大數(shù)據(jù)、搜索、自然語言處理和人工智能開發(fā)中常用的二十多個類,通過總計一百余種方法,實現(xiàn)了10倍以上的開發(fā)效率的提升。
l DKH的SQL版本,還提供了分布式MySQL的集成,傳統(tǒng)的信息系統(tǒng),可無縫的實現(xiàn)面向大數(shù)據(jù)和分布式的跨越。
DKH標準平臺技術構架圖
以上是“Hadoop大數(shù)據(jù)基礎框架的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關知識,歡迎關注億速云行業(yè)資訊頻道!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。