溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

數據分析_DIKW與數據工程

發(fā)布時間:2020-07-03 08:08:56 來源:網絡 閱讀:345 作者:Tobey_51 欄目:大數據

DIKW體系

DIKW體系是關于數據、信息、知識及智慧的體系,可以追溯至托馬斯·斯特爾那斯·艾略特所寫的詩--《巖石》。在首段,他寫道:“我們在哪里丟失了知識中的智慧?又在哪里丟失了信息中的知識?”(Where is the wisdom we have lost in knowledge? / Where is the knowledge we have lost in information?)。

1982年12月,美國教育家哈藍·克利夫蘭引用艾略特的這些詩句在其出版的《未來主義者》一書提出了“信息即資源”(Information as a Resource)的主張。

其后,教育家米蘭·瑟蘭尼、管理思想家羅素·艾可夫進一步對此理論發(fā)揚光大,前者在1987年撰寫了《管理支援系統(tǒng):邁向整合知識管理》(Management Support Systems: Towards Integrated Knowledge Management ),后者在1989年撰寫了《從數據到智慧》(“From Data to Wisdom”,Human Systems Management)。

數據分析_DIKW與數據工程

數據工程領域中的DIKW體系

D:Data(數據),是 DIKW 體系中最低級的材料,一般指原始數據,包含(或不包含)有用的信息。

I:Information(信息),作為一個概念,信息有著多種多樣的含義。在數據工程里,表示由數據工程師(使用相關工具)或者 數據科學家(使用數學方法),按照某種特定規(guī)則,對原始數據進行整合提取后,找出來的更高層數據(具體數據)。

K:Knowledge(知識),并且這些認識擁有潛在的能力為特定目的而使用。在數據工程里,表示對信息進行針對性的實用化,讓提取的信息可以用于商業(yè)應用或學術研究。

W:Wisdom(智慧),表示對知識進行獨立的思考分析,得出的某些結論。在數據工程里,工程師和科學家做了大量的工作用計算機程序盡可能多地提取了價值(I/K),然而真正要從數據中洞察出更高的價值,甚至能夠對未來的情況進行預測,則需要數據分析師。

數據工程 領域職業(yè)劃分:

數據工程是一整套對數據(D)進行采集、處理、提取價值(變?yōu)?I 或 K)的過程。

首先介紹一下相關的幾種角色: Data Engineer(數據工程師), Data Scientist(數據科學家), Data Analyst(數據分析師)。 這三個角色任務重疊性高,要求合作密切,但各負責的領域稍有不同。大部分公司里的這些角色都會根據每個人本身的技能長短而身兼數職, 所以有時候比較難以區(qū)分:

  • Data Engineer 數據工程師: 分析數據少不了需要運用計算機和各種工具自動化數據處理的過程, 包括數據格式轉換, 儲存, 更新, 查詢。 數據工程師的工作就是開發(fā)工具完成自動化的過程, 屬于 基礎設施/工具(Infrastructure/Tools)層。

但是這個角色出現的頻率不多 ,因為有現成的MySQL, Oracle等數據庫技術, 很多大公司只需要DBA就足夠了。而 Hadoop, MongoDBNoSQL 技術的開源, 更是使在大數據的場景下都沒有太多 數據工程師 的事,一般都是交給 數據科學家 。

  • Data Scientist 數據科學家: 數據科學家是與數學相結合的中間角色, 需要用數學方法處理原始數據找出肉眼看不到的更高層數據, 一般是運用 統(tǒng)計機器學習(Statistical Machine Learning)或者 深度學習(Deep Learning)。

有人稱 Data Scientist 為 編程統(tǒng)計學家(Programming Statistician),因為他們需要有很好的統(tǒng)計學基礎,但也需要參與程序的開發(fā)(基于 Infrastructure 之上),而現在很多很多的數據科學家 職位都要求身兼數據工程師。 數據科學家 是把 D 轉為 I 或 K 的主力軍。

  • Data Analyst 數據分析師: 數據工程師和數據科學家做了大量的工作,用計算機程序盡可能多地提取了價值(I/K),然而真正要從數據中洞察出更高的價值, 則需要依靠豐富的行業(yè)經驗和洞察力, 這些都需要人力的干預。
Data Analyst 需要的是對所在業(yè)務有深刻了解, 能熟練運用手上的工具(無論是 Excel, SPSS也好, Python/R也好,工程師給你開發(fā)的工具也好,必要時還要能自己充當工程師和科學家,力盡所能得到自己需要的工具),有針對性地對數據作分析,并且需要把發(fā)現的成果向其他職能部門呈現出來,最終變?yōu)樾袆?,這就是把數據最終得出 Wisdom。

什么是數據分析:

百度百科:數據分析是指用適當的統(tǒng)計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便采取適當行動。

數據分析的過程:

數據收集 -》 數據處理 -》 數據分析 -》數據展現

  1. 數據收集:本地數據或者網絡數據的采集與操作.
  2. 數據處理:數據的規(guī)整,按照某種格式進行整合存儲。
  3. 數據分析:數據的科學計算,使用相關數據工具進行分析。
  4. 數據展現:數據可視化,使用相關工具對分析出的數據進行展示。

數據分析的工具:

  • SAS:SAS(STATISTICAL ANALYSIS SYSTEM,簡稱SAS)公司開發(fā)的統(tǒng)計分析軟件,是一個功能強大的數據庫整合平臺。價格昂貴,銀行或者大企業(yè)才買的起,做離線的分析或者模型用。
  • SPSS:SPSS(Statistical Product and Service Solutions,統(tǒng)計產品與服務解決方案)是IBM公司推出的一系列用于統(tǒng)計學分析運算、數據挖掘、預測分析和決策支持任務的產品,迄今已有40余年的成長歷史,價格昂貴。
  • R/MATLAB:適合做學術性質的數據分析,在實際應用上需要額外轉換為Python或Scala來實現,而且MATLAB(MathWorks公司出品的商業(yè)數學軟件)是收費的。
  • Scala:是一門函數式編程語言,熟練使用后開發(fā)效率較高,配合Spark適合大規(guī)模的數據分析和處理,Scala的運行環(huán)境是JVM。
  • Python:Python在數據工程領域和機器學習領域有很多成熟的框架和算法庫,完全可以只用Python就可以構建以數據為中心的應用程序。在數據工程領域和機器學習領域,Python非常非常流行。
向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI