【CSDN報導】由雲基地、中雲網承辦,多家雲計算領軍企業共同參與的「2012雲世界大會」於2012年12月12日-12月13日在北京舉辦。本次大會會以積極、樂觀、堅定的態度擁抱雲計算,分享第一線企業的實踐成果,探索雲計算發展方向,審視雲計算帶來的巨大機遇,展示友好的雲、實用的雲、魅力的雲!
圖:香港城市大學教授祝建華
祝建華教授首先介紹了大數據的學者背景,他指出其中最多的是計算機科學,工程學,之後是醫學方面的專家。祝建華教授提到了Sybase技術總裁之前那句:大數據一個大謊話,繼而向我們闡述什麼是大數據。
首先大數據是「多」。數據一般有三種,總體數據,局部數據和樣本數據。國家每年都進行人口普查,同時還要對千分之二的人進行樣本調查,對應到大數據,那麼應該把它定義為總體數據,然後我們常常由於各種原因都只能拿到局部數據,其實,在真正的應用中,往往樣本數據要比局部數據和整體數據都好用,都有用。就拿100%,80%和5%來說,往往5%的樣本數據說明的問題更加接近真實。
為什麼?這個問題要從數據採集時的常態事件和異常事件的比例談起。在總體樣本中,當然都不會遺漏,然而樣本數據比起總體數據,往往會遺漏1%-3%的異常事件,故而不會有太多影響,但是在局部數據中,常常會把常態和異常數據都遺漏掉。所以如果你能夠處理整體數據,那最好,如果不能,那就請用樣本數據。對此,祝教授舉了一個應用案例,1936年美國大選的案例,樣本分析成功戰勝了局部分析。
之後是「快」。祝教授指出傳統的數據樣本特點是少個案,多變量;而理想大數據當然是多個案,多變量;然而現實中卻是多個案,少變量。這樣就需要大數據的技術來處理現實的數據。
祝教授對於人工判斷和自動判斷也提出了自己的觀點。指出,人工對小規模樣本進行研究只能達到準確,不能達到精確。而基於機器學習背景的自動判斷精度很高,然而準確度不夠。所以,最佳的實踐因該是在人工監管的下做機器學習。
其次是「好」。祝教授指出如今的數據處理帶了很多麻煩,其中最明顯的一個是數據增長速度要比存儲技術增長的快的多。所以有些數據你必須刪掉,你應該更關注那些有用的數據。
最後一個是「省」。對於現在的數據中心大規模的伺服器,他們的能耗也是越來越大。
大數據在哪裡?祝教授指出現在的數據分析工具很有限,在大數據領域和異常數據領域很缺乏。所以我們的大數據處理才剛剛起步,因為處理工具都還有沒有被做好。
以下為演講全文:
祝建華:謝謝周老師的介紹,用現在的網絡語言,我是一個文科男,或者是老年文科男。最近大家最有印象的是莫言在接受諾貝獎時說了一句話,文學不是科學,文學是做無用的東西。我想解釋一下文學不等於文科,文科的面更廣,在國外分為人文學科和社會科學。我們做的其實是社會科學,當然在座的大部分應該是理科男或者工科男。我很感謝會議把我的發言放在第一位。我覺得我有點對不起組織者,講一些文科男或者社會科學研究人員對大數據的看法,有些看法也許不是那麼樂觀,有些保留,這些問題只是供大家參考。
今天上午幾個發言人都講到了現在的大數據是大熱,我做了一個小小的統計,(如圖)左邊在Google搜索詞中有關大數據的搜索很多。右邊是SCI/SSCI期刊裡有關大數據的研究論文,相比之下,學術界對大數據的關心熱情比整個社會來的更積極。有關大數據的論文在最近幾個月有非常大的增加,反而一般用戶的關心當中大數據是平滑的在增加。
我進一步看了一下,研究大數據的學者當中都是來自什麼學科的?首先第一位應該是信息科學,計算機科學,佔27%。相等的是工程技術,當然在很多學校工程技術跟計算機信息科學和技術是交叉在一起的。這兩個部分佔了一半以上。然後是兩個比較大的應用領域,醫學生物化學是一類,下面是基礎研究,數學、物理。再往下兩個比較小的團隊,一個是商學院,一個是社會科學,加起來15%左右。我們做的研究差不多落在這15%裡面。
雖然是文科男,但一直在做數據,以前做的都是小數據,我有幸被邀請參加了中國計算機學會最近成立的大數據專家委員會,也參與了大數據委員會對大數據研究的一些熱點問題和發展趨勢的評選工作。按照我的理解,最近發布的對大數據研究的八個熱點問題和十大趨勢,在全球範圍內至今是最系統的一些看法和表述。當然美國和歐洲各個機構,各個商業學術團體都有一些非常精闢、非常精彩的看法,但從全面性講這可能是第一個文件。
大數據這個概念最近一直在受到關注的同時,也是有很多批評的意見。也許大家都見過這一條報導,他是Sybase的技術總裁,他講大數據是一個大謊話。Sybase在座的可能都很熟悉這個公司,是做資料庫的,長期為企業做BI應用工具的。他們一直在做大數據的工作,所以覺得現在所有講的東西早已有之,不是什麼新的東西。所以,從這個角度講他覺得是有點泡沫,有點誇張。做時政研究的人並不完全認同,有些地方是有點誇大,但沒有誇大到是虛假的泡沫。
再回到4個V,什麼是大數據。從4個V可以衍生到中文當中的多快好省這四個詞。哪些是理論上應該實現的,哪些實際上已經在展現,哪些現在還有差距的,是不是多快好省。多,大家講的個案很多,做數據分析有一對基本的概念,就是我們不僅關心了是個案,同時關心的是變量,變量就是特徵值。如果是做一個網絡流量的數據,我們關心的是網民各種各樣的特徵值,做產品的話,產品也有更多的特徵值。這兩者的交叉,用一個二維的表來說,個案就是每一行,變量就是每一列。在這樣的範圍內討論,按照我的想法我們應該關心的是總體和樣本之間的選擇,到底我們應該是做樣本還是選總體。
我想引入另外一個概念,我們有一個叫總體數據,大家都非常清楚,最容易解釋的是每十年中國和其他很多國家都要對全國的居民進行人口普查,最近一次的人口普查2010年,發現13.8億。另外一個概念我們經常用的是樣本,抽查,每一年國家人口統計中心或者國家統計局還要做千分之二的樣本調查,知道在兩次大的十年之間的人口普查之間中國人口增長的變化。
實際上我們現在在講的大數據,理論上講應該指的就是總體數據,但實際上在很多情況下,由於技術的原因,由於人為的原因,由於其他原因,按照我的看法,除了少數數據的原始擁有者。例如淘寶或者是新浪微博,或者是今天上午講到的國家電網或者是教育網,他們也許是真正掌握了總體數據的。對於絕大部分第三方來講,我們並沒有拿到總體,那多的都是局部。這個局部也許是很高的百分比,70%、80%,哪怕是缺了這10%、20%,也許局部數據跟總體就有很大的差別。
我們社會科學做時政研究的人來看,很多情況下樣本數據,雖然它的規模要小很多,但實際上比局部數據要更有價值,更可靠。我這裡做了一個很小的模擬,隨機產生了一萬個個案。從一萬個點中我抽了500個點,隨機抽的。500個點看上去很稀疏,但是它對總體的代表是很好的。我抽了500個個案的樣本,計算百分值也是在原點。再抽80%的樣本數,人為的設定一些界限,使得其右方向偏,它的數就有所偏離。
數據是用來描述客觀事件的,一般把事件分成兩類,一類是常態的,一類是異常的。最極端的是前幾年有人講的黑天鵝事件,理論上存在,實際上很少發生,如果發生的話,它對社會帶來的影響是極其災難性的後果。如果我們我們有總體,那沒有問題,任何事件都在數據當中可以反映。如果我們有幸獲得總體數據,以淘寶為例,淘寶的總體數據僅僅是淘寶網上的,它並不是中國電子商務所有的數據,還有京東,還有其他。誰要說我研究的對象是中國電子商務淘寶的數據,再海量也是一個局部數據,而不是總體數據。
不管怎麼說如果你正好有這麼一個總體數據,你就不用擔心你想描述的事件是常態的還是異態的,不會漏掉東西,結果一定是準確和精確的。如果我們有樣本,只要你的抽樣方法是符合隨機概率的原則,你的基本結論,你的樣本對總體是有無偏的估計的,就是準確的,但不一定精確。只要樣本足夠大,跟總體差距就在1到3個百分點之間。如果我們要研究的是一些異常事件,比如黑天鵝事件,樣本數會經常遺漏這些異常數據。假定是局部數據的話,哪怕你是總體的80%,甚至90%,你研究的就是常規事件,你的代表性也許很差。局部數據不管你的規模多大,都是最壞的數據。為什麼?因為你漏掉了被你選擇的都是一種自我選擇機制,這種機制是無所不在的,時刻影響到我們數據的質量。很多情況下我們研究者並不知道為什麼我們缺少的一些東西,任何數據的缺少背後都有社會、經濟、法律、自然等等原因。我們的觀點是做大數據,要麼就做總體,如果你有能力,要麼就是做樣本,掌握你的方法,你能估算你的誤差在哪兒。如果依靠局部數據,被局部數據的海量規模所迷惑,其實是害死人的。
歷史上有過很多案例,在我們教學過程中每次必講的是美國1936年的總統選舉。2012年的選舉剛剛結束,其中有一個非常讓人注意的是有關選舉的預測問題。這種預測從1932年開始到現在有80年的歷史了。那個案例一直成為一個經典,當時有兩家公司在做預測。第一家是雜誌,隨著雜誌寄加了問卷,回來250萬份問卷,那時美國全國的選民大概是1億左右,250萬已經是相當大的數量。他們經過回收,發現藍頓比羅斯福高了14%,以絕對優勢當選。另外有一家現在是全球知名的品牌,那時剛剛開始搞的一個小小的調查研究,民意測驗中心,調查了5000人,他選擇的是隨機抽樣的方法,預測是羅斯福當選,56%。最後羅斯福以壓倒性的票數勝過藍頓。發送雜誌訂購雜誌的人相對知識多一點,更有錢,所以對共和黨更支持。而隨機樣本雖然小,5000人,大概有一點多的百分點,跟總體有一定的差別,但大面是準確的。只是大,但不注意數據的代表性,後果更嚴重。
我們現在講大數據,這是以前社會科學家們做的小樣本,我們用的數據叫做少個案、多變量。我們數據的結構有N個個案,理想當中的大數據,不僅要變量多,而且個案多,不光是N個,也許是無窮大的。也許我的接觸是有限的,我的觀察是現實生活中我們現在用到的大數據僅僅是個案多,變量並不多。早晨有人的演講當中用了7萬個變量預測借貸款,這當然是一個革命。以前我們所謂的多變量只有幾百個,最多也就是上千個,7萬個變量是從什麼地方來的,真的是驚人的。多個案,少變量的數據結構是我們面臨的大數據的基本環境。造成的原因之一就是每個人佔據了其中的一小部分,也就是所謂的數據孤島。真正要使我們有多個案,多變量大數據的方法,就像今天早上啟動的大數據聯盟,通過分享、通過整合才能做。
快,其實是效果跟效益之間的選擇。我還是用社會科學文科男們做的研究作為慢的例子和現在的大數據的一些基本方法來做比較。我們做的都是手工標註的,現在都是自動分類的。從規模上是沒辦法比的,我們一般一個樣本只有幾千個,現在幾百萬是小的,到萬億才是常態的。從準確率來講,人工永遠超過機器的。有人統計過,我也是自己觀察一下,機器學習的準確率平均差不多在80%左右,當然也有些做自然語言處理的,做人工智慧的會跟我辯論,說某一個特定的項目他們能做到90%。但是如果把所有的研究都拿來平均一下,80%是比較樂觀的標記。人工情況下基本能做到90%、95%,一般學術期刊上準確率低於95%是不會接受的。問題是你怎麼知道你的準確率?我們的一般方法是對同樣的內容要有兩個或者更多的人分別獨立的進行標註,而且是背靠背的互相不知道。通過各自的理由,最後計算相互的相似度。
大部分情況下如果是全自動的連準確率都是無法知道的,現在大量的用網上抓做預測的,到底預測以後準不準,永遠是一個未知數。從誤差來講,人工判斷有誤差,但這些誤差都是個人誤差,如果有幾個人同時做的話,其實誤差可以非常小的。機器學習的誤差是系統性的,如果你知道偏在哪兒,可以很容易的就把它改過來,關鍵是誤差差在什麼地方不知道。這就是我剛才講的,如果是我們已經拿到了局部的數據,你不知道局部的系統誤差是往左偏,還是往右偏,偏高了還是偏低了並不知道。所以,按照我們的看法人工小規模的小樣本的數據,研究結果是準確的,但是不夠精確,所謂精確就是不夠穩定。繼續學習的方法倒過來,因為你有海量的數據,幾百萬,幾千萬,非常精準。其實精準這個詞從英文裡面只講準不講精,精而不準是大數據現有的一個問題。很自然的想到我們需要把人工標註和自動分類結合起來,有監督的機器學習。機器學習包括訓練集的質量,訓練集規模和你的算法,這三者的重要性就是按照這個排位的。
省,到底是省的人,還是省的能源。大數據肯定省的是人,但省人的同時在耗能。也是一個環保的問題我不想多講,實際上是驚人的。如果現在才開始規劃,不注意的話,也許幾年以後大數據就成為我們一個新的汙染工業,汙染的重工業。確實存在的,我今天早上剛剛聽說準備在什麼地方建立大數據中心,來幾百萬臺伺服器。你可以想像得到所耗用的能源和它產生的輻射,我不是學物理的,我相信輻射也是非常可怕的。實際上現在數據的增加,每年遞增的速度遠遠超過我們現在除塵能力的速度。在這種情況下,除非我們的除塵材料有突破,不然我們必須要想一個問題,到底要把總體數據保存下來嗎?聯通只能保存4個月,還是抽樣,把大數據變小。
這個問題是所有問題的核心,沒有答案的。我只想說幾個問題。第一,大數據是好,但是大數據在哪裡。如果我們拿不到大數據,就是一個櫥窗裡面的蛋糕,只能在外面看。按照我的看法,我們可以把大數據分成幾種,小規模的、中型規模、巨型規模的。小規模的非常多,免費就何以得到。中規模大部分情況下也是免費的或者是一些低成本的。真正的大數據其實是得不到的。做應用也好,做工具服務的也好,都必須考慮這個問題。這就講到數據的分析工具,實際上對大數據的分析工具並不發達,我們現在所用到的絕大部分工具都是用來解決小數據問題的,用來解決常態數據對異態數據的統計工具。現在基本上沒有,最近有人發表一篇文章講用於大數據相關分析的一些重要思想,這個工作就相當於高斯一百多年前提出的小數據相關關係的年代。也就是說,我們處理大數據的能力還是處在起步的階段,現在只能分析二元,而不是多元。7萬個個案的模型我沒看過,也許我們這種學院派的人士比較保守,我不相信他們能做到,因為現在用的都是傳統的經典的工具。
對大數據怎麼看?我的看法不全部是樂觀的,也不全部是悲觀的。數據的存在肯定是一個新世紀、新紀元,從數據的潛在價值來講也是存在的,但是數據的應用,數據的分享,其實是有很多問題的。數據的除塵跟數據的分析研究,其實是剛剛開始,應用現在遠遠走在了研究的前面。很樂意跟大家一起討論交流,謝謝大家!
更多精彩內容,請關注「2012雲世界大會」官網;更多雲計算技術,請關注新浪微博:@CSDN雲計算