行業動态

認識數據湖——擁抱開源大(big)數據技術的(of)前提

2017/8/21 16:46:10

       世界對數據湖的(of)興趣依然在(exist)不(No)斷增長,但如果說對數據湖的(of)宣傳都是(yes)煙霧彈的(of)話,這(this)就貶低了(Got it)數據湖真正的(of)能力。“數據倉庫”和(and)“大(big)數據”等概念都逐漸深入人(people)心,但“數據湖”仍然是(yes)讓IT和(and)業務相關者頭疼的(of)一(one)件事情。

       随着人(people)們(them)對于(At)數據湖的(of)清晰定義、使用(use)案例、最佳實踐等信息的(of)需求不(No)斷增長,IT專業人(people)士需要(want)一(one)則明确的(of)數據湖指南,回答以(by)下問題:數據湖是(yes)什麽?我(I)們(them)應該如何利用(use)它?數據湖又将如何改變大(big)數據呢?


       1.定義及觀點

       數據湖成爲(for)了(Got it)核心數據架構中發展得很快的(of)一(one)環,但IT專業人(people)士常有疑惑,數據湖究竟是(yes)一(one)個(indivual)架構策略還是(yes)架構的(of)目标呢?實際上(superior)并沒有清晰的(of)界限,但仍然有方法來(Come)解決定義的(of)問題。數據湖是(yes)一(one)個(indivual)中央儲存庫,爲(for)多種數據工作(do)負載儲存企業數據;通過數據湖,終端架構可以(by)得到(arrive)解決,同時(hour)數據結構相關的(of)決策也是(yes)建立數據湖時(hour)的(of)關鍵。 數據湖被越來(Come)越多的(of)采用(use),而它的(of)實施分爲(for)四個(indivual)關鍵的(of)階段:

技術評估。通過進行大(big)數據實驗項目,關注幾個(indivual)特定的(of)業務目标和(and)成果,數據湖的(of)使用(use)者可以(by)對這(this)項技術進行測試,并熟悉Apache Hadoop環境的(of)管理。

       做出(out)反應。在(exist)這(this)個(indivual)階段,各公司開始利用(use)Hadoop來(Come)解決現有架構的(of)低效率問題,确立清晰可測的(of)業務機會。此外,這(this)個(indivual)采納過程對于(At)IT效率的(of)提高也是(yes)非常關鍵的(of)。

       主動利用(use)。通過爲(for)分析項目合并數據以(by)及利用(use)Hadoop獲得經濟的(of)可拓展性這(this)兩種手段,各公司可以(by)在(exist)一(one)個(indivual)單一(one)的(of)中央存儲中管理大(big)量新出(out)現的(of)數據源,例如物聯網、社交媒體和(and)非結構化的(of)數據。

建立核心競争力。随着大(big)數據成爲(for)IT戰略的(of)核心組成部分,各公司最終能夠達到(arrive)發展的(of)高峰,消除所有業務應用(use)和(and)分析應用(use)之間的(of)隔閡,重新建立一(one)個(indivual)單一(one)的(of)企業平台。


       2.數據湖的(of)組織

       得益于(At)Hadoop的(of)靈活性和(and)可拓展性,我(I)們(them)今天能夠保存、分類、探索并利用(use)的(of)數據類型比以(by)往任何時(hour)候都要(want)多。但避免數據湖成爲(for)數據沼澤的(of)關鍵在(exist)于(At)數據治理,數據的(of)組織和(and)安全性也是(yes)決定數據探索成敗的(of)關鍵。一(one)個(indivual)清晰而有條理的(of)數據組織(通常是(yes)按類目或者按數據用(use)法劃分)能夠幫助Hadoop工程師建立更加完善的(of)技術決策,幫助分析師和(and)數據科學家從數據中獲取真正的(of)洞察。


        3、統一(one)數據探索、數據科學和(and)商務智能

      對于(At)企業BI需求、數據探索和(and)數據科學的(of)支持是(yes)推動數據湖部署的(of)主要(want)因素,這(this)三項技術能将原始數據用(use)于(At)機器學習算法和(and)統計功能。因爲(for)敏捷方法學爲(for)企業級 BI提供了(Got it)自适應途徑,數據湖就能夠落實更多具體的(of)企業業務、性能指标和(and)度量權值,同時(hour)可用(use)于(At)儲存曆史數據。 充滿競争的(of)商業環境讓人(people)目不(No)暇接,各公司必須認識到(arrive)探索技術的(of)關鍵作(do)用(use),并認識到(arrive)解答未知的(of)重要(want)性。這(this)刺激了(Got it)我(I)們(them)的(of)需要(want),要(want)把數據直接用(use)于(At)分析技術,産生(born)意義重大(big)的(of)洞察、爲(for)企業創造附加價值。


        4.成功的(of)關鍵

       要(want)幫助企業從他(he)們(them)的(of)數據湖中實現最大(big)化效益,就必須要(want)考慮以(by)下幾個(indivual)要(want)素:

       從長遠角度考慮數據。在(exist)開始一(one)個(indivual)數據項目時(hour),必須仔細考慮數據在(exist)今後其他(he)應用(use)中的(of)可重用(use)性。要(want)明白未來(Come)新産生(born)的(of)數據需求往往是(yes)不(No)可預知的(of),了(Got it)解這(this)一(one)點後公司就可以(by)更好地(land)相應準備并利用(use)起他(he)們(them)的(of)數據。

       先确立數據治理結構。數據治理被應用(use)在(exist)了(Got it)整個(indivual)企業的(of)數據和(and)信息政策當中,所以(by)在(exist)考慮數據湖時(hour)也不(No)應該例外。數據治理規範了(Got it)企業中的(of)每個(indivual)人(people)對數據湖的(of)使用(use),并最小化了(Got it)發生(born)錯誤和(and)不(No)當數據管理的(of)可能性。

       預先解決安全問題。以(by)數據爲(for)中心的(of)安全保護提供了(Got it)從整個(indivual)數據的(of)生(born)命周期來(Come)看數據的(of)宏大(big)視角,此處的(of)關鍵要(want)素就是(yes)從第一(one)天開始就正視安全問題,确立好哪些數據可以(by)引入數據湖,并爲(for)數據湖中的(of)各類數據制定使用(use)權限


timg.jpg

       盡管數據湖在(exist)大(big)數據領域還是(yes)一(one)個(indivual)比較新的(of)詞彙,但它已經成爲(for)了(Got it)企業級IT架構和(and)整體數據戰略的(of)重要(want)部分。數據湖戰略擁有合理的(of)架構,能夠和(and)數據科學以(by)及成本低廉、擁有商業基礎的(of)機器學習分析完美結合。對于(At)數據湖核心概念的(of)了(Got it)解能夠幫助企業更好地(land)利用(use)并保護自己的(of)數據,同時(hour)提高通過數據進行探索的(of)能力。



上(superior)一(one)篇:新冠肺炎突發疫情,對城市管理手段帶來(Come)了(Got it)新考驗 下一(one)篇:物聯網時(hour)代,智能硬件将如何影響我(I)們(them)的(of)生(born)活