多年來(Come),在(exist)Apache Hadoop等技術的(of)支持下,組織一(one)直在(exist)尋求構建數據湖——企業範圍的(of)數據管理平台,允許以(by)原生(born)格式存儲所有數據。數據湖可通過提供給一(one)個(indivual)單一(one)的(of)數據存儲庫來(Come)打破信息孤島問題,整個(indivual)組織都可以(by)使用(use)從業務分析到(arrive)數據挖掘的(of)所有東西。原始和(and)不(No)受約束,數據湖被認爲(for)是(yes)一(one)個(indivual)包羅萬象的(of)大(big)數據。
但是(yes),商業智能(BI)軟件專家,金字塔分析公司的(of)首席技術官Avi Perez說,他(he)看到(arrive)許多客戶的(of)數據湖正在(exist)惡化爲(for)數據沼澤——完全無法接近終端用(use)戶的(of)大(big)量數據存儲庫。
“數據庫真的(of)很貴。”Perez說,“數據湖從根本上(superior)解決了(Got it)這(this)個(indivual)問題。數據湖以(by)及所有大(big)數據方案,都來(Come)自于(At)市場壓力,其次,現實世界的(of)數據生(born)成器會吐出(out)大(big)量的(of)數據,你需要(want)找到(arrive)一(one)個(indivual)方法去存儲它們(them)。”
但是(yes),盡管許多世界上(superior)最好的(of)公司都在(exist)他(he)們(them)的(of)數據湖周圍建立了(Got it)業務(谷歌就是(yes)一(one)個(indivual)很好的(of)例子),但很多公司在(exist)收集了(Got it)數據之後卻沒有任何清晰的(of)辦法來(Come)獲取價值。
“他(he)們(them)更像是(yes)在(exist)收集灰塵。”Perez說,“也可以(by)說在(exist)收集垃圾,一(one)些最終都會被抛棄的(of)垃圾。最後,你爲(for)那些東西增加了(Got it)預算,卻什麽都不(No)做。”
這(this)并不(No)是(yes)說數據湖背後的(of)想法是(yes)糟糕的(of)。Perez确信,所有的(of)公司最終都需要(want)一(one)個(indivual)數據湖。但是(yes)如何創建一(one)個(indivual)數據湖,讓終端用(use)戶真正從中受益,這(this)是(yes)需要(want)深思熟慮的(of)。
爲(for)了(Got it)避免在(exist)自己的(of)數據湖中溺水,Perez建議采用(use)以(by)下三條原則:
一(one)、隻收集少量的(of)數據,至少在(exist)一(one)開始的(of)時(hour)候。
Perez表示,組織所犯的(of)最大(big)的(of)錯誤之一(one)就是(yes)收集太多的(of)數據,而其中原因僅僅是(yes)他(he)們(them)有這(this)個(indivual)能力。很多時(hour)候,個(indivual)人(people)也是(yes)這(this)樣。細想一(one)下,你手機裏存了(Got it)成百上(superior)千張圖片,有都少是(yes)自己真正想保存的(of)?很多人(people)沒有删掉多餘的(of)圖片,隻是(yes)因爲(for)手機容量夠大(big)。
“你的(of)手機上(superior)有10億張照片,其中99%就可能是(yes)垃圾,而且在(exist)删除它們(them)的(of)時(hour)候還可能會有點兒舍不(No)得。”他(he)說,“用(use)手機拍照很容易,基本上(superior)是(yes)免費的(of)。你可能回想,‘有一(one)天我(I)會去清理它’,但隻要(want)存儲容量仍然充足,就很少有人(people)會這(this)樣做。這(this)就叫做收集了(Got it)大(big)量的(of)信息,卻沒辦法有效使用(use)它們(them)。”
當你想要(want)給某人(people)看一(one)張很有意思的(of)照片時(hour),就不(No)可避免地(land)需要(want)往後翻閱很多張無關的(of)照片。
Perez說,同樣的(of)事情也發生(born)在(exist)數據湖上(superior)。在(exist)Hadoop中存儲數據并不(No)昂貴,甚至常會被認爲(for)是(yes)免費的(of)。但是(yes),大(big)量累積的(of)數據會讓你很難真正地(land)訪問數據,來(Come)爲(for)自己提供有價值的(of)信息。
“我(I)認爲(for),避免這(this)種情況的(of)方法實際上(superior)是(yes)把水龍頭給關掉。”Perez說,“基于(At)這(this)樣一(one)種假設,僅僅是(yes)收集數據的(of)成本很低,并不(No)會讓使用(use)數據變得更便宜。這(this)可能真的(of)很貴。所以(by),不(No)要(want)總想着無休止地(land)收集信息。把它放在(exist)一(one)個(indivual)數據集中,制定一(one)個(indivual)具體的(of)計劃,弄清楚自己該如何去挖掘它。”
二、 采用(use)機器學習戰略
即使有了(Got it)一(one)個(indivual)集中的(of)數據集,從大(big)規模的(of)數據中獲得有價值見解也需要(want)自動化。
“你需要(want)一(one)個(indivual)自動化的(of)系統來(Come)清洗數據。”Perez說,“人(people)工智能、機器學習、深度學習,無論你想使用(use)哪一(one)種,都會是(yes)一(one)個(indivual)非常神奇的(of)解決辦法。我(I)認爲(for),從你巨大(big)的(of)數據湖中獲取價值的(of)最簡單的(of)辦法就是(yes),擁抱這(this)一(one)項新技術。”
Perez說,首先選擇一(one)個(indivual)數據集,然後通過一(one)項機器學習技術來(Come)完成它。當然,新的(of)技術意味着新的(of)技能、人(people)才需求,你可以(by)對現有員工進行培訓,也可以(by)聘請一(one)些專業人(people)士。
“機器學習是(yes)一(one)門黑色藝術。”他(he)說,“這(this)并不(No)容易做到(arrive),需要(want)非常細分的(of)技能。”
三、 确定你想解決的(of)商業問題
所有的(of)事情都應該是(yes)完整的(of):你需要(want)從一(one)個(indivual)清晰的(of)視角來(Come)開始你想要(want)解決的(of)商業問題。有了(Got it)一(one)個(indivual)客觀的(of)目标,相對會更容易把你需要(want)收集的(of)數據和(and)最好的(of)機器學習技術應用(use)起來(Come)。
例如,Perez說,可以(by)将自己想象成一(one)個(indivual)大(big)賣場,你決定去了(Got it)解什麽樣的(of)顧客會進入你的(of)商店。你可以(by)捕捉顧客進入商店的(of)圖片,然後使用(use)一(one)個(indivual)複雜的(of)神經網絡(CNN)——一(one)種擅長于(At)計算機視覺問題的(of)深度學習神經網絡——來(Come)處理圖像。CNN可以(by)通過一(one)個(indivual)人(people)的(of)形象确定是(yes)男性還是(yes)女性,是(yes)孩子還是(yes)成年人(people),是(yes)年輕人(people)還是(yes)老年人(people)等等。
“一(one)旦你完成了(Got it)所有工作(do),就可以(by)把它與一(one)個(indivual)商業計劃聯系起來(Come),并把它交給你的(of)業務用(use)戶。”Perez說,“這(this)可以(by)幫助你做出(out)決策——‘我(I)們(them)需要(want)更多地(land)向男性市場推銷,因爲(for)我(I)們(them)沒有足夠多的(of)男性客戶’。你真的(of)需要(want)事先有一(one)個(indivual)明确的(of)戰略,如果不(No)這(this)樣做,僅僅是(yes)對事物的(of)收集就會對整個(indivual)過程産生(born)巨大(big)的(of)負面影響。”
一(one)旦你在(exist)頭腦中建立了(Got it)一(one)個(indivual)業務計劃,通常就可以(by)叠代該功能,從而爲(for)業務提供更有針對性的(of)解決方案。例如,一(one)旦你确定是(yes)誰走進了(Got it)你的(of)商店,你就可以(by)用(use)同樣的(of)能力來(Come)确定誰會走過你的(of)化妝品櫃台。