大數據正把我們變成新的物種。首先,大數據改變了我們的思維方式,讓我們從因果關係的串聯思維變成了相關關係的並聯思維。第二,大數據改變了我們的生產方式,物質產品的生產退居次位,信息產品的加工將成為主要的生產活動。第三,大數據改變了我們的生活方式,我們的精神世界和物質世界都將構建在大數據之上。大數據不僅僅是一門技術,更是一種全新的商業模式,它與雲計算共同構成了下一代經濟的生態系統。一切皆信息。
大數據時代的好地圖
文/潘亂 (虎嗅編輯)
《大數據時代》是一本真正懂大數據的人寫的實實在在的關於大數據方方面面的書。
我拿到這本書的當晚,只看了引言部分,就迫不及待在豆瓣上標記了在讀。因為又感受那種真正的行家出手時才會有的,厚積薄發高屋建瓴勢如破竹的快感。我當時便下斷言,這本書已經秒殺所有同題。等到第二天我將這本書看完,覺得我前一晚的判斷還是正確的。這本書條理分明、詳略得當、引述豐富,把大數據梳理得無比清晰,解決了很多困惑我已久的問題,至少要比那些以其昏昏使人昭昭的所謂專家學者好五倍。
大數據是2012年TMT圈最時髦概念的排頭兵。今年3月騰訊推出QQ圈子,按共同好友的連鎖反應攤開你的人際關係網,把你的前女友推薦給未婚妻,讓人震驚之餘,也會感慨這是騰訊多年數據積累的厚積薄發;手機遊戲憤怒的小鳥年中曾透露其每天用戶登錄超過140萬次,運營商Rovio每發布一個新的應用,都會立即改變流量,雖然這個量級跟國內的新浪微博和鐵道部12306相比還差很遠,但光從「體積」看這也算是個大數據了;今年11月歐巴馬大選連任成功的勝利果實也被歸功於大數據,因為他的競選團隊進行了大規模與深入的數據挖掘。時代雜誌更是斷言,依靠直覺與經驗進行決策的優勢急劇下降,在政治領域,大數據的時代已經到來;各色媒體、論壇、專家鋪天蓋地的宣傳讓人們對大數據時代的來臨興奮不已,無數公司和創業者都紛紛跳進了這個狂歡隊伍。幾乎每天都能看到有人在談論大數據,大數據好像成了可以把任何東西都往裡面裝的框。儘管我們都知道大數據絕不會僅僅只是「大」而已,但真正能說清楚大數據是什麼的人卻不多。
在這大數據時代來臨的前夜,這本書的作者,野心勃勃的舍恩伯格將這個問題說清楚了。他不斷下定義舉例子,試圖給大數據劃定疆域與邊界,從思維、商業、管理三個維度分析大數據可能給人類帶來的變革和挑戰。他還指出大數據時代處理數據理念上的三大轉變:「不要隨機樣本,而是全體數據」「不是精確性,而是混雜性」「不是因果關係,而是相關關係」。作者認為包括文字、方位、溝通等一切事物皆可量化,這些數據的價值在被發掘後仍能不斷給予,並釐清了在挖掘過程中數據、技術和思維三類玩家的角色定位。同是大數據行家的譯者周濤認為這本書好在三個地方:觀點擲地有聲、觀念高屋建瓴、例子豐富詳實。而這三者近乎完美地結合起來,作者駕馭大問題的能力和豐富的知識令人讚嘆。
抽樣分析是信息收集手段不完善時代的產物,它或許能更快更好地發現問題,但卻不能回答事先沒考慮過的問題。書中舉了大數據與賈伯斯癌症治療的故事,賈伯斯是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人,他得到的不是樣本,而是包括整個基因的數據文檔。由於醫生可以按照所有基因按需下藥,最終這種方式幫助賈伯斯延長了好幾年的生命。
大數據時代的另一理念是要效率而非絕對準確,要允許一點點的錯誤和不完美。谷歌2006年涉足機器翻譯,谷歌翻譯系統為了訓練計算機,會吸收它所能找到的全部翻譯。谷歌將語言視為能夠判別可能性的數據,而非語言本身。假設你要將中文譯作俄語,它可能會選擇英語作為中介語言,因為在翻譯的時候它能夠適當增減詞彙,靈活性提高了很多。
關於大數據最早最著名的例子可能來自美國第二大超市塔吉特百貨。明尼蘇達州一家塔吉特門店曾被客戶投訴,一位中年男子指控塔吉特將嬰兒產品優惠券寄給他的女兒——一個高中生。但沒多久他卻來電道歉,因為女兒經他逼問後坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購物數據,然後通過相關關係分析得出事情的真實狀況。
隨著大數據的出現,數據的價值也在發生改變。所有網民都會被網站要求過填寫證明你是人而非機器的驗證碼,這項名為「CAPTCHA」的技術在2000年被發明時是為了防止垃圾郵件和不必要的騷擾,後來發明者又尋找到了使人的計算能力得到更有效利用的方法,發送兩個單詞,其中一個單詞用來確認輸入結果,另外一個機器無法識別的字符則隨機發送給五個人,直到他們都輸入正確才確認這個單詞。這也是我們有時明明輸錯了最終也能登陸的原因。2009年穀歌收購了這家做驗證碼公司reCAPTCHA,並將其技術用於圖書掃描項目,自此全世界的網民都淪為谷歌的免費打字員。。(谷歌太賤了!)因為眾包的力量,這項技術每年能為谷歌省下十多億美元。
作者最後提到,如果數據不能為我所用,那我們將會淪為數據的奴隸。要防止這種失控局面的出現,至少需要我們在管理層面做出四種變革:1、將個人隱私保護從個人許可到由數據使用者承擔責任;2、個人該為其行為而非傾向負責;3、不能讓大數據成為黑匣子,它需要僱傭外部監察人來維護公眾信任;4、反數據壟斷大亨。
如果一個人獨自到了陌生城市,第一件事最好就是買張地圖。一張好的地圖可以讓我們知道整體、方向、位置、重要特點以及我們的起點、終點、中間的路徑,照著地圖走才不易將自己迷失。如果你對大數據概念理解得還不是十分清晰,那麼這本《大數據時代》就是你的好地圖。
譯者序 在路上•晃晃悠悠
電子科技大學教授,網際網路科學中心主任 周濤
接下翻譯這本《大數據時代》的任務時,我的目標是做到110%的好。因為作者維克託•邁爾-舍恩伯格畢竟不像我們每天在一線與數據廝殺搏鬥,其愛其恨都更深刻。特別地,我們可以為中文的讀者補充很多中國的例子和參考資料。很遺憾,我們最終只做到了90%,應該補充的一些材料還沒有整理好,遣詞造句也多有生硬疏忽之處。如果再給我一個月的時間,就可以達到我預想的110%甚至120%。
為什麼現在把這個版本呈現給諸位呢?一是因為我們的努力使得本書中譯本的出版和英文原版完全同步,單從獲取知識的角度講,我們一點兒不比美國的讀者慢!二是我相信作者在書中的一個重要觀點,就是大數據時代,要允許一點點的錯誤和不完美,因為效率可能更加重要!留下一些可供提高的地方,也使得我們的每一次印刷,都能夠與以前有所不同。親,這不是建議你等到某個更好的版本才去購買,而是說,其實你應該每個版本都買一本:)。
《大數據時代》這本書是200%的好,因此90%的譯本也絕對值得一讀。首先,作者拋出了大數據時代處理數據理念上的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果;接著,從萬事萬物數據化和數據交叉復用的巨大價值兩個方面,講述驅動大數據戰車在材質和智力方面向前滾動的最根本動力;最後,作者冷靜描繪了大數據帝國前夜的脆弱和不安,包括產業生態環境、數據安全隱私、信息公正公開等問題。
國內最近也出版了一些大數據方面的著作,可以和本書互為補充。鄭毅的《證析》對於數據通過交叉復用體現的新價值、大數據戰略在企業與政府執行層面的流程和大數據科學家這一新職位,以及圍繞這個職位的能力和責任給出了最深刻、最具體的描述;子沛的《大數據》對於數據的公正性、公平性以及信息和數據管理等方面理念、政策和執行的變化,特別是美國在這方面的進展,給出了完整的介紹;蘇萌、林森和我合著的《個性化:商業的未來》則對大數據時代最重要的技術、個性化技術,以及與之相關的新商業模式給出了從理念到技術細節的全景工筆。總的來說,這三本書都針對本書的某一局部給出了更深刻的介紹和洞見,也各有明顯超出本書的優點,但三本之和也無法囊括本書的菁華,亦缺乏本書的宏大視野。
簡單地說,這本書好在三個地方:
一是觀點擲地有聲,絕非主流媒體上若干討論的簡單匯總和平均,更不是一個宏大概念面前曖昧的叫好聲。讀者可能對其中一些觀點並不認同,但是讀完之後不可能一個都記不住。
二是觀念高屋建瓴,作者試圖從很多實例和經驗,包括歷史事件中萃取出普適性的觀念,而不僅僅是適用於幾個特定情況的案例分析。
三是例子豐富翔實,不大的篇幅包括了上百個學術和商業的實例。
三點近乎完美地結合起來,體現了作者駕馭大問題的能力和豐富的知識,以及,可能更為重要地,作者渴求立言立說的野心!所以說,這本書絕對不是一堆枯燥的綱要,更不是一本巨厚的雜誌。
我在這裡拼命叫好,是為了這本書賣得更多,但不代表作者的所有觀點都是絕對真理。舉個例子,我本人對於大數據時代「相關關係比因果關係更重要」這個觀點就不認同。有了機器學習,特別是集成學習,我們解決問題的方式變成了訓練所有可能的模型和擬合所有可能的參數——問題從一個埠進去,答案從另一個埠出來,中間則是一個黑匣子,因為沒有人能夠從成千上萬的參數擬合值裡面讀到「科學」,我們讀到的只是「計算機工程」。與其說大數據讓我們重視相關勝於因果,不如說機器學習和以結果為導向的研究思路讓我們變成這樣。
那麼,大數據是不是都這樣了?其實很多時候恰恰相反。想想瑞士日內瓦的強子對撞機,我們在上面捕獲了人類有史以來最大規模的單位時間數據。我們是希望找到或者驗證某種相關關係嗎?不是!我們試圖回答的,正是人類所能問出的關於因果關係最偉大的問題:希格斯玻色子是否存在,我們的宇宙是否有可能用標準模型刻畫。這個問題的最終答案,將打破人和神的界限!認為相關重於因果,是某些有代表性的大數據分析手段(譬如機器學習)裡面內稟的實用主義的魅影,絕非大數據自身的訴求。從小處講,作者試圖避免的「數據的獨裁」和「錯誤的前提導致錯誤的結論」,其解決之道恰在於挖掘因果邏輯而非相關性;從大處講,放棄對因果性的追求,就是放棄了人類凌駕於計算機之上的智力優勢,是人類自身的放縱和墮落。如果未來某一天機器和計算完全接管了這個世界,那麼這种放棄就是末日之始。蘇珊•朗格(Susan Langer)在《哲學新視野》一書中說:
「某些觀念有時會以驚人的力量給知識狀況帶來巨大的衝擊。由於這些觀念能一下子解決許多問題,所以,它們似乎將有希望解決所有基本問題,澄清所有不明了的疑點。每個人都想迅速地抓住它們,作為進入某種新實證科學的法寶,作為可以用來建構一個綜合分析體系的概念軸心。這種『宏大概念』突然流行起來,一時間把幾乎所有的東西都擠到了一邊。」
這段話通常被認為是對當時「存在主義」和「精神分析法」這類萬能概念的善意批評,而如今特別適合作為一盆冷水潑在那些沒有任何深刻理解,卻月月日日分分秒秒穿行於各種「大數據嘉年華」的投資人、媒體人和創業者身上。希望《大數據時代》給予各位的是一些實實在在的知識和思考,並且喚起各位安靜思索相關問題的心境。大數據是一個很重要的概念,代表了很重要的趨勢,但我不希望它成為一种放之四海皆準的萬能概念——因為越是萬能的,就越是空洞的!人類學家克利福德•吉爾茲(Clifford Geertz)在其著作《文化的解釋》中曾給出了一個樸素而冷靜的勸說:「努力在可以應用、可以拓展的地方,應用它、拓展它;在不能應用、不能拓展的地方,就停下來。」我想,這應該是所有人面對一個新領域或新概念時應有的態度。
大數據的道路上沒有戈多,我們已經在路上,晃晃悠悠。人類的自由意志和諸神之下的尊嚴,會在這條道路上異化甚至消逝嗎?極目遠眺,不知道世界的盡頭,是否是一個冷酷的仙境!諸位為之奮鬥吧,而我只想,做一個,麥田裡的守望者。
以為序。
中國網際網路發展的重要參與者,知名IT評論人 謝文
因為我本身十分關注大數據,也寫過若干關於大數據的文章,做過若干關於大數據的演講,所以對有關這一主題的論文和書籍非常有興趣。過去幾年,在這方面我讀過十幾本書、上百篇論文和文章。相對而言,維克託•邁爾-舍恩伯格教授的《大數據時代》是迄今為止我讀過的最好的一本專著,中英文都算上。
此書的一大貢獻就是在大數據方興未艾、眾說紛紜的時刻,進一步闡述和釐清了大數據的基本概念和特點,這對許多以為大數據就是「數據大」的人來說很有幫助。
在人類歷史長河中,即使是在現代社會日新月異的發展中,人們還主要是依賴抽樣數據、局部數據和片面數據,甚至在無法獲得實證數據的時候純粹依賴經驗、理論、假設和價值觀去發現未知領域的規律。因此,人們對世界的認識往往是表面的、膚淺的、簡單的、扭曲的或者是無知的。維克託指出,大數據時代的來臨使人類第一次有機會和條件,在非常多的領域和非常深入的層次獲得和使用全面數據、完整數據和系統數據,深入探索現實世界的規律,獲取過去不可能獲取的知識,得到過去無法企及的商機。
大數據的出現,使得通過數據分析獲得知識、商機和社會服務的能力從以往局限於少數象牙塔之中的學術精英圈子擴大到了普通的機構、企業和政府部門。門檻的降低直接導致了數據的容錯率提高和成本的降低,但正如維克託所強調的,最重要的是人們可以在很大程度上從對於因果關係的追求中解脫出來,轉而將注意力放在相關關係的發現和使用上。只要發現了兩個現象之間存在的顯著相關性,就可以創造巨大的經濟或社會效益,而弄清二者為什麼相關可以留待學者們慢慢研究。大數據之所以可能成為一個「時代」,在很大程度上是因為這是一個可以由社會各界廣泛參與,八面出擊,處處結果的社會運動,而不僅僅是少數專家學者的研究對象。
大數據將逐漸成為現代社會基礎設施的一部分,就像公路、鐵路、港口、水電和通信網絡一樣不可或缺。但就其價值特性而言,大數據卻和這些物理化的基礎設施不同,不會因為人們的使用而折舊和貶值。例如,一組DNA可能會死亡或毀滅,但數據化的DNA卻會永存。所以,維克託贊同許多物理學家的看法,世界的本質就是數據。因此,大數據時代的經濟學、政治學、社會學和許多科學門類都會發生巨大甚至是本質上的變化和發展,進而影響人類的價值體系、知識體系和生活方式。哲學史上爭論不休的世界可知論和不可知論將會轉變為實證科學中的具體問題。可知性是絕對的,無事無物不可知;不可知性是相對的,是尚未知道的意思。
對於不從事網絡業、IT業以及數據分析和使用的讀者,本書的一大好處就是通俗易懂,通過具體實例說明問題,有助於人們的理解和聯想。在時限上,作者概括了直到2012年7月大數據方向上的最新發展,避免了許多同類作品存在的例證過於陳舊、視野相對狹窄的毛病。
作為一位生活在歐美現代社會的學者,維克託是把民主、開放和理性作為已知前提來討論大數據革命的。這對生活在發展中國家,社會現代化程度尚且有限的讀者來說,也許是個遺憾,因為書中描述的許多已經發生的事例可能更像是神話。沒有市場經濟制度和法治體系作為基礎支撐,大數據很可能成為發達國家在下一輪全球化競爭中的利器,而發展中國家依然處於被動依附的狀態之中。整個世界可能被割裂為大數據時代、小數據時代和無數據時代。
處於發展中國家前列的中國,目前正面臨著一個重大的歷史抉擇關口。應該說,在過去的三十餘年時間裡,中國在快速走向工業化、信息化、網絡化方面交出了一份不錯的成績單。如今適逢世界走向數據化,邁入大數據時代的時刻,無論對個人、企業還是對社會和國家,都有認真理解、嚴肅決策的必要性和緊迫性。哪怕僅從這一點考慮,讀一讀這本書也是很值得的。
寬帶資本董事長 田溯寧
從矽谷到北京,大數據的話題正在被傳播。隨著智慧型手機以及「可佩帶」計算設備的出現,我們的行為、位置,甚至身體生理數據等每一點變化都成為了可被記錄和分析的數據。以此為基礎,「反饋經濟」(feedback economy)等新經濟、新商業模式也正在開始形成。維克託•邁爾-舍恩伯格教授這本《大數據時代》,是我看到的最好的大數據著作,不管對於產業實踐者,還是對於政府和公眾機構,都是非常具有價值的。
如今,一個大規模生產、分享和應用數據的時代正在開啟。正如維克託教授所說,大數據的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之下。而發掘數據價值、徵服數據海洋的「動力」就是雲計算。網際網路時代,尤其是社交網絡、電子商務與移動通信把人類社會帶入了一個以「PB」(1024TB)為單位的結構與非結構數據信息的新時代。在雲計算出現之前,傳統的計算機是無法處理如此量大、並且不規則的「非結構數據」的。
以雲計算為基礎的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數據存儲下來,並隨時進行分析與計算。大數據與雲計算是一個問題的兩面:一個是問題,一個是解決問題的方法。通過雲計算對大數據進行分析、預測,會使得決策更為精準,釋放出更多數據的隱藏價值。數據,這個21世紀人類探索的新邊疆,正在被雲計算發現、徵服。
《大數據時代》列舉了眾多在公共衛生、商業服務領域大數據變革的例子。一旦「不再追求精確度,不再追求因果關係,而是承認混雜性,探索相關關係」,「思維轉變過來,數據就能被巧妙地用來激發新產品和新型服務」。數據正成為巨大的經濟資產,成為新世紀的礦產與石油,將帶來全新的創業方向、商業模式和投資機會。
龐大的人群和應用市場,複雜性高、充滿變化,使得中國成為世界上最複雜的大數據國家。解決這種由大規模數據引發的問題,探索以大數據為基礎的解決方案,是中國產業升級、效率提高的重要手段。數據挖掘不僅能夠成為公司競爭力的來源,也將成為國家競爭力的一部分。聯繫到我國現代化所面臨的種種問題以及教育、交通、醫療保健等各方面挑戰,通過大數據這種創新方式來解決問題,創建新的產業群,實現「中國製造到中國創造」的改變,意義就更大。
「大數據」發展的障礙,在於數據的「流動性」和「可獲取性」。美國政府創建了Data.gov網站,為大數據敞開了大門;英國、印度也有「數據公開」運動。中國要趕上這樣一場大數據變革,各界應該首先開始嘗試公開數據、方式與方法。如同工業革命要開放物質交易、流通一樣,開放、流通的數據是時代趨勢的要求。《大數據時代》一書也提到了數據擁有權、隱私性保護等問題,但相比較來看,新科技可能帶來的改變要遠遠大於其存在的問題。
本書的譯者周濤教授是我國最年輕有為的大數據專家。這位27歲的天才型教授,數年來一直帶領我國學術界在大數據研究上向國際一流看齊。更可貴的是,他不僅做研究,也關注著研究成果的商業化及傳播。這部譯著就是他這種努力的一個成果。
現代歷史上的歷次技術革命,中國均是學習者。而在這次雲計算與大數據的新變革中,中國與世界的距離最小,在很多領域甚至還有著創新與領先的可能。只要我們以開放的心態、創新的勇氣擁抱「大數據時代」,就一定會抓住歷史賦予中國創新的機會。
大數據不僅改變了公共衛生領域,整個商業領域都因為大數據而重新洗牌。購買飛機票就是一個很好的例子。
2003年,奧倫•埃齊奧尼(Oren Etzioni)準備乘坐從西雅圖到洛杉磯的飛機去參加弟弟的婚禮。他知道飛機票越早預訂越便宜,於是他在這個大喜日子來臨之前的幾個月,就在網上預訂了一張去洛杉磯的機票。在飛機上,埃齊奧尼好奇地問鄰座的乘客花了多少錢購買機票。當得知雖然那個人的機票比他買得更晚,但是票價卻比他便宜得多時,他感到非常氣憤。於是,他又詢問了另外幾個乘客,結果發現大家買的票居然都比他的便宜。對大多數人來說,這種被敲竹槓的感覺也許會隨著他們走下飛機而消失。然而,埃齊奧尼是美國最有名的計算機專家之一,從他擔任華盛頓大學人工智慧項目的負責人開始,他創立了許多在今天看來非常典型的大數據公司,而那時候還沒有人提出「大數據」這個概念。
1994年,埃齊奧尼幫助創建了最早的網際網路搜尋引擎MetaCrawler,該引擎後來被InfoSpace公司收購。他聯合創立了第一個大型比價網站Netbot,後來把它賣給了Excite公司。他創立的從文本中挖掘信息的公司ClearForest則被路透社收購了。在他眼中,世界就是一系列的大數據問題,而且他認為他有能力解決這些問題。作為哈佛大學首屆計算機科學專業的本科畢業生,自1986年畢業以來,他也一直致力於解決這些問題。
飛機著陸之後,埃齊奧尼下定決心要幫助人們開發一個系統,用來推測當前網頁上的機票價格是否合理。作為一種商品,同一架飛機上每個座位的價格本來不應該有差別。但實際上,價格卻千差萬別,其中緣由只有航空公司自己清楚。
埃齊奧尼表示,他不需要去解開機票價格差異的奧秘。他要做的僅僅是預測當前的機票價格在未來一段時間內會上漲還是下降。這個想法是可行的,但操作起來並不是那麼簡單。這個系統需要分析所有特定航線機票的銷售價格並確定票價與提前購買天數的關係。
如果一張機票的平均價格呈下降趨勢,系統就會幫助用戶做出稍後再購票的明智選擇。反過來,如果一張機票的平均價格呈上漲趨勢,系統就會提醒用戶立刻購買該機票。換言之,這是埃齊奧尼針對9000米高空開發的一個加強版的信息預測系統。這確實是一個浩大的計算機科學項目。不過,這個項目是可行的。於是,埃齊奧尼開始著手啟動這個項目。埃齊奧尼創立了一個預測系統,它幫助虛擬的乘客節省了很多錢。這個預測系統建立在41天內價格波動產生的12000個價格樣本基礎之上,而這些信息都是從一個旅遊網站上搜集來的。這個預測系統並不能說明原因,只能推測會發生什麼。也就是說,它不知道是哪些因素導致了機票價格的波動。機票降價是因為很多沒賣掉的座位、季節性原因,還是所謂的周六晚上不出門,它都不知道。這個系統只知道利用其他航班的數據來預測未來機票價格的走勢。「買還是不買,這是一個問題。」埃齊奧尼沉思著。他給這個研究項目取了一個非常貼切的名字,叫「哈姆雷特」。
這個小項目逐漸發展成為一家得到了風險投資基金支持的科技創業公司,名為Farecast。通過預測機票價格的走勢以及增降幅度,Farecast票價預測工具能幫助消費者抓住最佳購買時機,而在此之前還沒有其他網站能讓消費者獲得這些信息。
這個系統為了保障自身的透明度,會把對機票價格走勢預測的可信度標示出來,供消費者參考。系統的運轉需要海量數據的支持。為了提高預測的準確性,埃齊奧尼找到了一個行業機票預訂資料庫。有了這個資料庫,系統進行預測時,預測的結果就可以基於美國商業航空產業中,每一條航線上每一架飛機內的每一個座位一年內的綜合票價記錄而得出。如今,Farecast已經擁有驚人的約2000億條飛行數據記錄。利用這種方法,Farecast為消費者節省了一大筆錢。
棕色的頭髮,露齒的笑容,無邪的面孔,這就是奧倫•埃齊奧尼。他看上去完全不像是一個會讓航空業損失數百萬潛在收入的人。但事實上,他的目光放得更長遠。2008年,埃齊奧尼計劃將這項技術應用到其他領域,比如賓館預訂、二手車購買等。只要這些領域內的產品差異不大,同時存在大幅度的價格差和大量可運用的數據,就都可以應用這項技術。但是在他實現計劃之前,微軟公司找上了他並以1.1億美元的價格收購了Farecast公司。而後,這個系統被併入必應搜尋引擎。
到2012年為止,Farecast系統用了將近十萬億條價格記錄來幫助預測美國國內航班的票價。Farecast票價預測的準確度已經高達75%,使用Farecast票價預測工具購買機票的旅客,平均每張機票可節省50美元。
Farecast是大數據公司的一個縮影,也代表了當今世界發展的趨勢。五年或者十年之前,奧倫•埃齊奧尼是無法成立這樣的公司的。他說:「這是不可能的。」那時候他所需要的計算機處理能力和存儲能力太昂貴了!雖說技術上的突破是這一切得以發生的主要原因,但也有一些細微而重要的改變正在發生,特別是人們關於如何使用數據的理念。