IBM推通用數據平臺 擬整合不兼容系統的獨立數據

2020-11-23 網易科技


網易科技訊6月7日消息,據國外媒體報導,IBM今日宣布發布名為「數據科學實驗」( Data Science Experience)的通用數據平臺。其寄希望於通過該平臺整合各個不兼容系統中獨立存儲的數據,從而對這些數據進行深入分析。

數據科學家,有人也稱之為矽谷的統計學家,其潛力毋庸置疑。但目前對其作用不乏出現了一些失望。這個問題並不是關於大數據本身,而是相關技術的實用性。簡單的說,我們最先設計的系統能夠執行特定的任務,進行特定的數據分析,隨後發現我們想讓它做的更多,作用更大。當需求明確起來時,會發現最大的問題是系統的兼容性。

而現在IBM發布的通用平臺就是用於解決不同系統的兼容性問題,通過整合不同系統、各種格式的數據,有助於公司進行管理,或參與市場競爭。

通用平臺的重要性

歐洲核研究組織CERN一直以來是世界上最大的科研機構之一。它曾經發現了反物質的分離,近期正在進行希格斯玻色子的相關研究。這裡的工作與六個諾貝爾獎的誕生有關。

然而,當蒂姆·伯納斯·李(Tim Berners-Lee)於1980年在那裡工作時,他注意到該研究中心有一個非常棘手的問題。世界各地的研究人員來到這裡進行科學實驗,並記錄下他們的結果。但是,這些實驗結果被以不同的格式存儲在不同的系統中,使得相互之間難以共享。

因此,李於1989年11月創建了三個著名協議:HTTP、URL以及HTML,創建了關於文檔的通用平臺。最終這三個協議構成了現有網際網路的基石,使得我們能夠以前所未有的方式共享信息,在很多方面最終改變了世界。

儘管如此,李在回憶錄中還是承認這種網絡的缺點:雖然它能夠以前所未有的方式使人與人進行溝通,但是對於機器與機器之間的通信卻做得很少。換句話說,它讓我們呢的思想能夠自由流動,但我們的數據卻依舊被困在各自的系統中。

數據的問題

現在的每個組織在數據上都存在類似CERN在上世紀80年代所遇到的問題。他們通過各個系統收集數據,由不同的部門管理,很多系統有幾十年的歷史,所應用的計算環境也完全不同。

諸如一個典型的零售企業,其有各自獨立的採購、銷售、庫存以及市場業務。所有的這些業務在與真實世界交互的過程中,都在不斷地產生和存儲數據。理想情況下,這些系統應當是緊密集成的,一個業務產生的新數據可以影響到另外業務的決策。

但事實上,不同的業務之間很難無縫對接、攜手共進。這些系統往往以不同的格式存儲信息,這使得人們很難獲得數據的全部價值,譬如現實中營銷活動的相關數據會影響網站和商店的客流量,但是作為決策者經常需要將其從系統中提取出來加載到分析表格中。

實際上,我們有了分析海量數據並獲得相應決策的工具。屈臣氏所使用的高級認知系統可以利用大數據進行學習,指導相應的行動決策。但對於這些工作的共性前提是,需要訪問不同系統的信息數據。

建立綜合數據環境

這一切並不是說,我們處理數據的方式在過去十年並沒有真正的進步。於2003年上線的Hadoop可以將數據分散存儲在成千上萬個世界各地的伺服器中,並將其看作一個數據集進行分析。而2014年發布的星火系統,可以幫助人們實時分析數據。但是,目前不同系統的兼容性仍是數據分析面臨的最大問題。

讓我們回到零售業的例子,假設我們能夠實時的營銷活動建立一個採購預測模型,將其與庫存系統的數據整合到一起,使我們能夠避免缺貨或是庫存過多。看起來很簡單,但是由於數據分散在各個獨立的系統中,所以很難實現。

這也是IBM的數據科學實驗這個通用平臺所要解決的問題。IBM副總裁羅伯·託瑪斯(Rob Thomas)、大數據革命一書的作者告訴我,「今天數據科學是一項個人項目。我們現在所做的就是要把它變成一項團隊項目,各個獨立的組織可以共同創建、分析以及共享數據。」

可以說,IBM數據科學家在實現李對網際網路所做的工作,只不過處理對象從文檔換成了數據。將分布於世界上的各個孤島數據整合到單一的系統環境,使人們更有效的工作。

管理的挑戰

美國意識流文學作家,諾貝爾文學獎獲得者威廉·福克納(William Faulkner)曾寫道,「過去的從未消逝,它甚至並沒有過去。」在計算機技術發展的過程中,各種新老技術交織存在。我們呢並不是重新構建技術,而是停滯在一個個技術的頂端,這些技術羅列開來,仿佛精心製作的俄羅斯套娃。

當我們嘗試將新老系統進行結合,但隨之而來的問題是管理措施顯得更加落後。我們設計開發的計算機系統很大程度上反映了當時的組織形式和思維方式。一旦平臺建立,技術壁壘被打破,我們的管理思維在很大程度上受到自身的限制。

今天,我們生活在一個語義經濟環境中,信息在整個市場上自由流動。各色設備和傳感器令人眼花繚亂,也讓我們能夠在現實世界自由互動。但我們往往希望按照計劃行事,希望世界有序運行。

當代創新大師史蒂夫·布蘭克(Steve Blank)經常說,與客戶的第一次接觸沒有任何商業計劃。但我們都停留在規劃思維的定勢,傾向於用歷史數據來預測事態發展,隨後根據預測結果進行決策分析。經常會在會議室裡就決策討論數月,也會糾結於工作為什麼不能按照計劃進行,無法掌控。

很顯然,這種心態站不住腳。從技術層面,我們需要採取諸如貝葉斯的方法策略。雖然並不期望預測的結果完全正確,但可以讓大數據幫助我們減少錯誤的發生。大數據並不是靈丹妙藥,但它的確可以幫助我們把這個世界看的更加清晰。(寧宇)

本文來源:網易科技報導 責任編輯:郭浩_NT5629

相關焦點

  • IBM Data Science Experience - 數據科學家實驗室
    但新的功能不斷加入到IBM Data Science Expeience平臺中。用戶可以通過註冊帳戶,申請30天的免費使用。http://datascience.ibm.com/新的平臺搭建運行在IBM剛發布的下一代數據分析平臺Watson Data Platform上。它的體系架構如下:
  • 構建中國雲生態|華雲數據與龍訊完成產品兼容互認證 攜手推出...
    日前,華雲數據的國產通用型雲作業系統安超OS 2020與龍訊集約化政務雲站群平臺軟體V1.0、龍訊項目管理電子地圖系統V1.0、龍訊智慧園區管理服務平臺系統V1.0、龍訊智慧徵遷雲平臺系統V1.0、龍訊政府網站集約化平臺
  • 大數據時代:十大最熱門的大數據技術 - 大數據_CIO時代網 - CIO...
    BAT,以及國外的apple、google、facebook、IBM、微軟、亞馬遜等等;可以大致看一下他們的商業布局,未來全是往人工智慧方向發展,當然目前在認知商業這一塊IBM當屬領頭羊,特別是當前主推的watson這個產品,以及取得了非常棒的效果。
  • 華天動力OA系統數據整合應用實例
    對於這些需求,很多廠商都需要通過二次開發的方式來實現數據整合,不但實現的周期長,而且成本也高。因為技術難度大,當需求發生變更時,用戶通常不能夠自行調整,仍然依賴於廠商的定製化服務。相對來說,華天動力OA則提供了一種比較便捷的方式,他通過「外部數據源」的功能,能夠輕鬆的實現OA系統和第三方業務系統的數據整合。什麼是「外部數據源」呢?
  • 數位化轉型案例:Ticketmaster通過流式數據平臺解決了技術債務
    Ticketmaster通過與各種IT系統的定製數據集成,實現了早期數據科學的成功,而且也獲得了很多這樣的成功。經過40年的收購和內部軟體開發,該公司擁有大約300個IT系統,每個系統都獨立於自己的數據孤島之上。
  • 標準房地產數據分析方案,解決通用需求不是問題
    標準房地產數據分析方案:滿足通用分析需求 從項目計劃進度分析到售樓分析,從分公司到集團管理駕駛艙,奧威軟體這套標準化的房地產數據分析方案裡應有盡有,基本可滿足房地產企業的通用分析需求。
  • 百度智能雲時空數據管理平臺亮相 打造一體化數據中臺
    時空數據整合與應用管理  為保證多源時空數據的質量,形成標準化的數據資產。產品提供數據清洗、數據質檢、  坐標轉化、空間化處理等能力,實現時空數據的整合。同時具備數據資源目錄、數據查詢統計、元數據管理、血緣分析等功能,提升用戶對數據資產的應用管理能力。  通用空間數據服務的發布  產品積極擁抱GIS行業生態,遵循行業通用標準協議,在多源時空數據存儲的基礎之上  提供OGC標準地圖服務的高性能發布能力,支持WMS、WFS、WCS、WMTS、3D Tiles等二三維地圖服務,支持時空大數據的高效共享交換。
  • 資源| 國家地球系統科學數據共享服務平臺發布2...
    本文原標題:《資源 | 國家地球系統科學數據共享服務平臺發布2018年新數據清單》↑ 點擊上方「中國測繪學會」可快速關注我們國家地球系統科學數據共享服務平臺(以下簡稱「平臺」)是整合集成分散國家在科研院所、高等院校及科學家個人手中由科研項目產生的科學數據資源
  • 獨家深度解析:北大2021推免擬錄取數據
    北京大學本部(研究生院)2021年擬錄取推薦免試研究生公示名單出爐,3個劉威,2個李昊…太南了~擬錄取推免生2814本部數據詳情如下:擬錄取2814人 北大2021年擬錄取推免生2814名同學。錄取外校推免生1727人。top1,擬錄取北大本校2021屆推免生1087人,較上屆增加129人。其中本部增加124人,醫學部增5人。
  • 大數據平臺「星環科技」擬科創板上市,騰訊為最大機構投資方
    本文為IPO早知道原創 作者|Stone Jin 據IPO早知道消息,星環信息科技(上海)股份有限公司(以下簡稱「星環科技」)日前已與中金公司籤署上市輔導協議,擬科創板掛牌上市。
  • 北京生科院成功構建環形RNA大數據整合挖掘和分析平臺
    整合數據資源平臺circAltas (http://circatlas.biols.ac.cn)。該平臺收錄超過100萬個高質量的環形RNA分子,其中>80%具有全長轉錄本序列。此外,通過整合功能組學數據和注釋信息,為環形RNA數據挖掘和功能研究提供了重要的數據資源和技術保障。
  • GBase 8s兼容Oracle漫談——數據類型篇
    面對激烈的國際競爭和不確定不穩定因素明顯上升的外部環境,加快推進國內信息技術產業發展,構建安全、自主的信息技術應用創新體系迫在眉睫。作為國內XC產業資料庫領域的領軍企業,南大通用推出的OLTP型資料庫產品——GBase 8s,已在金融、電信、電力、交通、政府、軍工等多個行業用戶完成測試,驗證了8s的穩定性和性能。
  • 與IBM達成合作,東方國信將打造數據科學雲平臺
    【IT168 資訊】11月6日消息,由東方國信舉辦的數據科學軟體國際合作大會在北京召開。會上,東方國信宣布與IBM達成SPSS軟體合作,藉此提升已有大數據軟體的分析實力,大力開拓數據科學領域市場。
  • 中科院趙方慶團隊在Genome Biology發表環形RNA大數據整合挖掘平臺
    該研究基於現有的海量轉錄組數據,採用多維數據智能整合分析手段,成功解析了跨物種、多組織、大樣本的環形轉錄本表達特徵和進化規律,為探索真核生物複雜多變的環形RNA全貌和產生機制提供了強有力的數據支持。近年來,環形RNA作為一類新型的內源性非編碼RNA在生物系統調控和疾病發展過程中的意義不斷被擴展。
  • 基於搭建一種具有優秀可移植性的高性能通用軟體無線電平臺的目的
    FPGA與AD9364間的控制通路分別採用了利用UART接口,以及利用ROM IP核的進行AD9364寄存器配置的兩種方法,數據接口採用了LVDS兼容模式。利用此平臺實現了16APSK調製。平臺通過資源佔用分析和系統收發試驗。得出了通用軟體無線電平臺的能完成數據收發且具有優秀可移植性的結論。
  • 解決行業痛點,縱行科技攜ZETA聯盟成員發布設施設備管理通用平臺
    目前,已與介谷科技、微築科技、上海泓智信息科技等ZETA聯盟成員行業應用平臺完成對接。 介谷科技DBM智能樓宇管理平臺,由任務管理系統、租戶管理系統、設備資產管理系統及3D空間可視化展現平臺組成。3D可視化平臺與設備設施管理無縫對接,實現設備資產可視化管理,設備問題遠程定位,分析,診斷。
  • Python數據實戰分析之定量和定性數據分析
    數據分析中關於數據的部署數據分析的最後一步——部署,旨在展示結果,也就是給出數據分析的結論。若應用場景為商業,部署過程將分析結果轉換為對購買數據分析服務的客戶有益的方案。若應用場景為科技領域,則將成果轉換為設計方案或科技出版物。
  • 智慧公安大數據分析平臺開發警務通APP系統開發
    智慧公安大數據分析平臺開發警務通APP系統開發眾所周知,大數據在公安機構一直以來都素有「智慧大腦」之稱,而數據又是智慧公安建設極其重要的基礎,通過系統的採集分析計算,能進一步的打通數據聯通壁壘傳統治安警務面臨的新問題一是數據利用率嚴重不足。智能設備覆蓋率不斷提高產生了數以千億條的數據,數據基數巨大,更迭頻繁,面對海量數據,執法者很難有效提出適合用這些數據解決的新問題。二是資源整合存在難度,數據分析不全面。
  • 醫療健康大數據:應用實例與系統分析
    以用戶在Twitter上的推文以及英國健康保健局發布的城市流感樣病例率(influenza like illnessrate)為數據源,通過LASSO算法進行特徵選擇,選擇推文關鍵字,建立未來數天流感樣病例率的預測模型,取得了比較精確的結果。在疾病傳播中,長時間與病原體接觸會增加感染的機率,因此追蹤人口接觸信息以及人口位置信息將有助於了解流行病的行為。
  • 國家地球系統科學數據共享服務平臺2019年工作會議在昆明召開
    2019年3月26-28日,國家地球系統科學數據共享服務平臺2019年工作會議在昆明召開,平臺負責人孫九林院士、國家科技基礎條件平臺中心王瑞丹副主任、平臺依託單位中國科學院地理科學與資源研究所封志明副所長共同出席,來自國內23家科學院所和高校的