您好,登錄后才能下訂單哦!
第一天
1.大數(shù)據(jù)典型特性與分布式開發(fā)難點(diǎn)
1. | 大數(shù)據(jù)典型特性與分布式開發(fā)難點(diǎn) |
2. | Hadoop框架介紹與搜索技術(shù)體系介紹 |
3. | Hadoop版本與特性介紹 |
4. | Hadoop核心模塊之HDFS分布式文件系統(tǒng)架構(gòu)介紹 |
5. | Hadoop核心模塊之Yarn操作系統(tǒng)架構(gòu)介紹 |
6. | Linux安全禁用設(shè)置與JDK安裝講解 |
7. | Hadoop偽分布式環(huán)境部署HDFS部分 |
8. | Hadoop偽分布式環(huán)境部署Yarn和MR部分 |
9. | Hadoop環(huán)境使用常見的錯(cuò)誤集合 |
10. | Hadoop環(huán)境常規(guī)設(shè)置與輔助功能講解(-) |
11. | Hadoop環(huán)境常規(guī)設(shè)置與輔助功能講解(二) |
12. | Windows環(huán)境下部署Eclipse插件注意事項(xiàng) |
1.大數(shù)據(jù)典型特性與分布式開發(fā)難點(diǎn)
1.大數(shù)據(jù)典型特性
沒有大數(shù)據(jù)據(jù)技術(shù)之前,我就以抽樣統(tǒng)計(jì)為例(統(tǒng)計(jì)一個(gè)城市的男女人口比例),我們的做法是不是找個(gè)人多的地方,隨機(jī)抽取一部分人,統(tǒng)計(jì)出男女比例,作為城市的男女人口比例,這樣的誤差非常大,數(shù)據(jù)量越大,統(tǒng)計(jì)出來的結(jié)果越準(zhǔn)確。這樣我們就要先解決這么大數(shù)據(jù)量的存儲(chǔ)問題,(這個(gè)例子不能體現(xiàn)出數(shù)據(jù)類型繁多),接下來是不是要解決數(shù)據(jù)計(jì)算的問題,總不能人工一個(gè)一個(gè)數(shù)吧,大數(shù)據(jù)技術(shù)就能為我們解決這些問題。
傳統(tǒng)RDBMS 的瓶頸,關(guān)系型數(shù)據(jù)的特點(diǎn)是各個(gè)數(shù)據(jù)項(xiàng)之間有一定的關(guān)系,這個(gè)在設(shè)計(jì)數(shù)據(jù)庫的設(shè)計(jì)階段必須設(shè)計(jì)好,但是當(dāng)今需求中,我們往往分析的數(shù)據(jù)之間沒有關(guān)系,例如我們?cè)谠O(shè)計(jì)一個(gè)推薦系統(tǒng)的時(shí)候,要分析客戶的行為,客戶的行為數(shù)據(jù)之間就沒有相應(yīng)的關(guān)系,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)共存使數(shù)據(jù)多樣化。
海量的數(shù)據(jù),這么大的數(shù)據(jù)量,我們還要處理的非???。這對(duì)技術(shù)是很大的挑戰(zhàn)。這就是大數(shù)據(jù)的特性
多:這里的多就是海量數(shù)據(jù),我們要解決海量數(shù)據(jù)的存儲(chǔ)問題
繁:結(jié)構(gòu)化,非結(jié)構(gòu)化,半結(jié)構(gòu)化數(shù)據(jù)的共存
快:這么大的數(shù)據(jù)量,這么繁多的不同類型的數(shù)據(jù),還要處理的快,不然就會(huì)成為系統(tǒng)的瓶頸。
我們的最終目的是挖掘出有用的,有價(jià)值的數(shù)據(jù)。
2.大數(shù)據(jù)的能做什么?
3.一個(gè)數(shù)據(jù)平臺(tái)的工作(完整的平臺(tái))
3.1離線
-》批量計(jì)算
3.2 實(shí)時(shí)
-》流式計(jì)算
-》在線分析
3.3數(shù)據(jù)共享
4.數(shù)據(jù)平臺(tái)指標(biāo)
-》設(shè)備臺(tái)數(shù):5000臺(tái)
-》總存儲(chǔ)數(shù)量:100PB+
-》日新增數(shù)量:200TB+,月數(shù)據(jù)增長(zhǎng)比率10%
-》有多個(gè)數(shù)據(jù)產(chǎn)品
-》存儲(chǔ)表10w+
-》日均運(yùn)行JOB數(shù)
-》日均計(jì)算量5PB+
5.分布式開發(fā)的難點(diǎn)
-》平臺(tái)搭建
-》分布式
-》同步,一致性(配置(會(huì)搭建很多框架),時(shí)間(微妙誤差))
-》自動(dòng)化部署管理平臺(tái)
-》cloudera 發(fā)布的hadoop版本 CDH
-》cloudera manager,簡(jiǎn)稱:CM
-》框架是開源的 不可靠
所以很多公司都是以開源框架為基礎(chǔ),開發(fā)自己的框架,例如:淘寶的 TFS文件系統(tǒng)
任務(wù)調(diào)度框架oozie,淘寶自己的框架 宙斯 。
-》成本的問題
由于集群用到的機(jī)器比較廉價(jià),所以會(huì)出現(xiàn)節(jié)點(diǎn)故障,我們必須有相應(yīng)的容錯(cuò)機(jī)制,保證集群的健壯性。
6.學(xué)習(xí)大數(shù)據(jù)的基礎(chǔ):
自己學(xué)習(xí)的隨筆,在組織存在問題,不喜勿說
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。