新平臺分析大數據在幾分鐘內回答純語言查詢

2020-12-13 AI工程學習

公司通常會僱傭數據分析專家來收集信息,比如哪些客戶需要特定的服務,或者在哪裡開新店和存放產品。然而,分析數據以回答其中一兩個問題可能需要幾周甚至幾個月的時間。

現在,麻省理工學院(MIT)的衍生產品Endor開發了一個預測分析平臺,任何人,無論是否精通技術,都可以上傳原始數據,將任何商業問題輸入一個界面——類似於使用在線搜尋引擎——在短短15分鐘內就能得到準確的答案。

該平臺基於「社會物理學」,由Endor聯合創始人Alex「Sandy」Pentland(東芝媒體藝術與科學教授)和Yaniv Altshuler(前麻省理工學院博士後)在麻省理工學院媒體實驗室共同開發。社會物理學利用數學模型和機器學習來理解和預測群體行為。

新平臺的用戶上傳客戶或其他個人的數據,如手機通話記錄、信用卡購買記錄或網絡活動記錄。他們使用Endor的「query-builder」嚮導來詢問問題,比如「我們應該在哪裡打開下一個商店?」或者「誰會嘗試產品X?」利用這些問題,該平臺可以識別數據中先前行為的模式,並使用社會物理模型來預測未來的行為。該平臺還可以分析完全加密的數據流,允許銀行或信用卡運營商等客戶維護數據隱私。

「它就像谷歌。你不必花時間去想,『我會花時間去問谷歌這個問題嗎?』你只需要把它拿出來,」阿特舒勒說。「就這麼簡單。」

在創新努力的資金支持下,這家由谷歌母公司Alphabet執行董事長埃裡克·施密特(Eric Schmidt)創辦的私人風險投資公司已經找到了知名客戶,比如可口可樂(Coca-Cola)、萬事達(Mastercard)和沃爾瑪(Walmart),以及其他主要的零售和銀行公司。

最近,恩多分析了一個國防機構的Twitter數據,以發現潛在的恐怖分子。根據元數據中的標誌符,Endor獲得了1500萬個數據點,這些數據點包含了50個識別出ISIS活動分子的Twitter帳戶的例子。在此基礎上,他們要求這家初創公司檢測74個標誌符,這些標誌符在元數據中隱藏得非常好。Endor的某個人用筆記本電腦在24分鐘內完成了這項任務,發現了80個「長得像」的ISIS帳戶,其中45個來自該機構命名的74個隱藏得很好的帳戶。假陽性率也極低(35個帳戶),這意味著人類分析師可以請專家調查這些帳戶。

集群的共性

機器學習是用於複雜的計算問題,這是相對靜態的,如圖像識別和語音識別。例如,幾個世紀以來,英語的書面語和口語基本上沒有什麼變化。

另一方面,人類的行為是不斷變化的。預測人類行為意味著在短時間內分析大量的小信號,可能是幾天,也可能是幾周。傳統的機器學習算法主要依賴於構建的模型,這些模型可以在更長的時間內分析數據。

「一般來說,你需要大量數據來為人類行為建立精確的模型,這意味著你必須依賴於過去。」因為你依賴於過去,你無法發現最近發生的事情,你也無法預測人類的行為,」Altshuler說。

在本世紀初和中期,Pentland和Altshuler在人類動力學實驗室開發了「社會物理學」,目的是捕捉和分析短期數據,以理解和預測人群動力學。在他們的研究中,他們發現所有的大數據都包含特定的數學模式,這些模式表明社會互動如何傳播和聚合,這些模式可以幫助預測未來的行為。

利用這些數學模式,他們構建了一個平臺——Endor平臺的核心技術——可以從數百萬個原始數據點提取行為共性的「集群」,比機器學習算法更快、更準確。一個集群可能代表四口之家,購買相似食物的人,或訪問相同地點的個人。阿特舒勒說:「大多數數據模式與其他任何技術的噪音都沒有什麼區別。」

目前還不清楚集群代表什麼,只知道它們之間有很強的相關性。然而,查詢數據提供了上下文。例如,使用客戶數據,有人可能會查詢哪些客戶最有可能購買特定的產品。通過使用關鍵詞,該平臺可以將已經購買了該產品的顧客的行為特徵(如地點和消費習慣)與尚未購買該產品的顧客進行匹配。這種重疊會創建一個可能的新客戶列表,這些客戶可能會傾向於購買該產品。

簡而言之,上傳數據並提出正確的問題,給這個平臺提出了一個基本的要求:這裡有一個例子X,給我找更多的X。

恩,Endor-ish

為了測試該平臺,研究人員很早就與美國國防高級研究計劃局(DARPA)合作,分析了某些城市在內亂時期的移動數據,以展示新興模式如何有助於預測未來的騷亂。阿特舒勒還花了幾個月的時間在新加坡分析計程車出行數據,以預測這座城市的交通堵塞情況。

2014年,阿特舒勒聯繫了他的朋友、史丹福大學(Stanford University)畢業生多倫·奧爾特(Doron Alter),後者當時是他在創新領域的合作夥伴。阿特舒勒說,投資者詢問這項技術是否可以「包裝成任何人都可以使用的產品」。

那一年,在創新公司的資金支持下,阿爾特舒勒和連續創業的彭特蘭共同創立了Endor,將這個平臺轉變為商業軟體。該團隊由Alter和Stav Grinshpon加入,他們是技術行業的老手,曾是以色列情報機構8200的首席技術專家。單位。

通過信用卡公司StartPath的項目,該公司很快就獲得了萬事達(Mastercard)的早期合作夥伴。阿特舒勒被萬事達要求回答為數據科學家準備的問題,比如誰將很快飛到國外,貸款,或增加信用卡活動。

在從以色列特拉維夫飛往紐約的一次航班上,阿特舒勒分析了100萬持卡人金融交易的數十億數據點,並得到了10個問題的準確答案。傳統上,數據科學家需要花費數周或數月的時間來清理數據,並設計機器學習模型來逐個回答每個問題。他說:「公司花了兩個月的時間來開發模型來回答這些問題。我在一次飛躍大西洋的航班上做了10次。

公司可能會僱傭自己精通分析的員工來使用Endor。其他公司將與Endor代表召開簡短的周會,以確定提問的最佳措辭。「把他們的英語翻譯成我們所說的『贊同式』大約需要5分鐘,這意味著我們的系統可以理解問題的方式,」阿特舒勒說。

這家初創公司的網頁提供了一個結果示例,並與傳統的機器學習引擎進行了比較。一家銀行的營銷部門問:「誰將在未來六個月內獲得抵押貸款?」機器學習引擎可能會檢測到5000名擁有銀行信用卡和高信用評分的已婚客戶——其中許多可能是誤報。Endor發現了更具體的集群,比如即將結婚或正在離婚的夫婦、最近將自己的初創公司賣給Facebook的創始人、或剛從當地房地產課程畢業的客戶。據這家初創公司稱,Endor的結果提供的假陽性數據要少得多,挖掘出的潛在客戶要多得多。

阿爾特舒勒說,重要的是,Endor的目標不是取代數據科學家;它被設計成賦予他們權力的工具。他說,數據科學家最熟悉他們組織的業務語義,可以將Endor合併到他們的工作流中。Endor的目標是通過打開一個「瓶頸」——數據輸入的速度比任何人產生輸出的速度都要快——來幫助數據科學家改進他們的公司。「數據科學家知道我們可以讓他們成為英雄,」Altshuler說。

恩多最近獲得了Gartner的「酷供應商」稱號,這是專為行業顛覆者設立的,並被世界經濟論壇(World Economic Forum)認定為「技術先驅」。隨著消息的傳播,Endor現在正在美國各地贏得客戶我們的第一批客戶也在歐洲和拉丁美洲。「這是激動人心的時刻,」阿特舒勒說。

相關焦點

  • 大數據實時分析平臺應用在哪些場景
    大數據平臺主要是解決對海量多樣化的數據源進行數據採集、數據存儲,數據分析和數據處理,並提供滿足日漸增長的擴展性要求。大數據平臺的應用場景,大致可分為如下幾個:   場景一:輿情分析   有的客戶需要做輿情分析,要求所有數據存放若干年,輿情數據每日數據量可能超百萬,年數據量可達到幾十億的數據。
  • 大數據分析查詢引擎Impala
    Hive適合於長時間的批處理查詢分析,而Impala適合於實時交互式SQL查詢,Impala給數據分析人員提供了快速實驗、驗證想法的大數據分析工具。可以先使用hive進行數據轉換處理,之後使用Impala在Hive處理後的結果數據集上進行快速的數據分析。
  • 大數據分析平臺具有哪些功能
    數據清洗功能不僅受技術發展的限制,也和數據類型以及數據量息息相關。   在大數據分析平臺必須擁有兼容性強、查詢速率快的數據清洗模塊。面對海量的待處理數據和非結構化數據的增加,數據清洗功能的工作量和工作強度也必然會增加。正是認識到數據清洗功能的重要性,研發工程師才會不遺餘力地加強大數據前端數據清理和數據兼容性的建設。
  • 大數據分析平臺的可視化數據探索趨勢
    以「大數據分析」為關鍵詞去進行搜索,你可以在大多數條目中看到「數據分析平臺」和「可視化」的概念。在發展受到局限時,人類喜歡並擅長於去使用工具和製造工具。人類對圖形信息的攝取效率遠大於單純的文字數字。所以在信息流數量與流動速度爆炸都爆炸式增長的現狀下,自然地催生了可視化大數據分析平臺這類產品。數據可視化旨在藉助於圖形化手段,清晰有效地去傳達與溝通信息。
  • RichData大數據智能分析平臺
    RichData是一個跟具體行業業務無關的、通用性的大數據平臺工具產品,通過這個產品所具備的的高性能的實時和非實時大數據計算能力、豐富的統計、分析、挖掘模型,為行業全流程、全周期的生產運營活動提供商業智能支持。
  • 大數據分析的八大趨勢 - 大數據_CIO時代網 - CIO時代—新技術、新...
    大數據相信大家已經不陌生了,Intuit數據工程副主管Loconzolo雙腳都已經邁進數據湖裡了。Smarter Remarketer首席數據科學家DeanAbbott也為雲技術的發展指出了捷徑。他們二人一致認為, 大數據與分析學前沿是個活動目標,這一領域包含了儲存原始數據的數據湖和雲計算。儘管這些技術並未成熟,但等待也並非上策。
  • 大數據裝逼指南:如何用30分鐘寫出一篇大數據分析文章
    每次一有熱點事件,就會出來一大坨《大數據解析XX》《大數據還原XX真相》《XX到底如何,大數據告訴你》…我都沒眼看了。因為這種文章技術含量很低,30分鐘一篇無腦擼。大數據裝逼,分三步。一、選個好題目二、挨個打開網址、截圖、假模假式的分析兩句三、留個開放式結尾下面我示範一下:選個好題目題目一定得吸引眼球。熱點詞+大數據是必須的。
  • eBay的Connected Commerce大數據平臺實踐
    據統計,在美國每五秒售出一個手袋,在澳大利亞每分鐘通過移動端售出一雙鞋,在德國每10分鐘通過移動端售出一輛汽車或卡車。如此大量的用戶及交易下,數據成為eBay的重中之中,從點擊流到搜索,商品查看,交易以及願望清單等不斷進行收集。
  • 大數據平臺架構:數據平臺建設的幾種方案
    隨著大數據在越來越多的企業當中落地,企業要開展大數據相關的業務,那麼首先要搭建起自身的數據平臺。而企業搭建大數據平臺,往往需要結合成本、業務、人員等各方面的因素,來規劃數據平臺建設方案。今天我們就來聊聊數據平臺建設的幾種方案。
  • 數據量爆棚難以負荷,Kyligence利用人工智慧打造新一代數據分析平臺
    Kyligence是一家專注大數據分析的創新型公司,可以為企業提供基於Apache Kylin的下一代企業級數據倉庫及商務智能大數據分析平臺和解決方案。這是一個基於Hadoop的企業級智能大數據分析平臺,可以為業務分析師、數據科學家和 IT 工程師提供融合的、智能的分析平臺。簡單來說,Kyligence Enterprise採用融合架構,智能地將查詢路由至最適合的查詢引擎,同時滿足性能敏感的關鍵業務查詢和自由靈活的探索式分析,為企業用戶提供統一的大數據查詢入口。
  • 這可能是最酷的大數據創業公司!他們做出了預測分析版的「谷歌」
    然而,通過分析數據來回答這其中的一或兩個問題往往就需要數周甚至數月的時間。現在,MIT 的 Endor 已經開發出一個預測-分析平臺,使得任何人——不論技術嫻熟與否——都可以通過接口上傳未經處理的數據並輸入任何關於商業的問題。這就像在用一個在線的搜尋引擎,而你能在 15 分鐘之內獲得精準的答案。
  • 浪潮大數據分析平臺專題及常見問題 - CSDN
    木文結合中國科學院戰略性技術先導專項「而向感知中國的新一代信息技術」中「海雲數據系統」的研製實踐,提出基於網際網路和數據中心、而向服務的大數據分析平臺解決方案,以滿足日益增長的用戶需求,為我國開展大數據分析技術的研究和實踐提供借鑑和參考。  一、大數據技術發展現狀  大數據時代來臨,工業界是技術爭霸的主戰場。
  • 實用帖:如何查詢網貸平臺數據?
    分析網貸平臺動態運營數據的前提條件是,要知道如何查詢數據,網貸平臺每天的運營數據就跟生產企業裡面調度室提供的生產日報類似。從公司的生產日報、周報、月報甚至年報中,往往就能看出企業的發展狀況。對於一家企業來說,只有規模做的更大後,才更有可能創造更多的利潤,網貸平臺也如此。那麼我們平時查詢平臺數據的主要方法和途徑有哪些呢?
  • 乾貨 如何用Solr搭建大數據查詢平臺
    Solr的基礎是著名的Lucene框架,基於java,通過jdbc接口可以導入各種資料庫和各種格式的數據,非常適合開發企業級的海量數據搜索平臺,並且提供完善的solr cloud集群功能,更重要的是,solr的數據查詢完全基於http,可以通過簡單的post參數,返回json,xml,php,python,ruby,csv等多種格式。
  • 螞蟻金服數據洞察分析平臺 DeepInsight:人人都是數據分析師
    大數據時代,由數據驅動的用戶行為分析、運營分析、業務分析無疑是最被關注的「熱詞」,尤其對於擁有海量數據的大中型企業來說,對數據的需求已遠遠超越了傳統數據報表所能提供的範疇。如何運用自助式 BI 實現當代企業精細化運營,已成為企業運營管理的新課題。一個企業,如果要知道前段時間都發生了什麼?為什麼會發生?現在發生了什麼?接下來又會發生什麼?
  • Apache Doris 在 WeLab實時大數據平臺的應用實踐
    WeLab擁有獨創的風險管理技術,可以高效地整合和分析移動端大數據,並對用戶的風險進行定級,高效地輸出決策。為了實現秒級決策,我們對數據處理的實時性,準確性和安全性都有很高的要求。Apache Doris資料庫就是在這樣的背景下被引入到我們大數據平臺中來的,並最終成為了我們大數據平臺的重要基石之一。
  • 河南移動的MPP大數據平臺對象存儲實踐
    電信與媒體市場調研公司Informa Telecoms & Media的調查結果顯示,早在2013年,全球120家運營商中約有48%的運營商正在實施大數據業務。大數據業務成本平均佔到運營商總IT預算的10%,並且在未來五年內將升至23%左右。
  • DataFocus-全球首個中文自然語言數據分析系統,BI新定義
    專注深耕符合國情的BI當企業數據量以指數級增長,面對巨量需要進行整合、清洗、分析的數據,愈發多的企業使用商業智能(BI)賦能大數據分析,以求更快速、高效、精準的為決策提供依據。近年來,此類技術在其生態發展迅猛,現已融入機器學習及人工智慧等新技術。
  • 數據分析利器:Smartbi V8.5全自助數據化運營分析平臺
    大會中吳華夫先生和大家分享了數據分析利器Smartbi V8. 5 全自助數據化運營分析平臺,講述了在目前數據化運營的新潮流中,怎麼通過一些自助化數據分析手段來幫助實現數據化運營。01 趨勢與挑戰:企業數位化進程演化過程目前隨著人口紅利慢慢釋放,中國企業的管理已經從粗放式發展到了精細化運營階段。
  • 辦公必備的大數據分析利器,數據分析工具推薦
    說到數據分析,很多小夥伴可能第一時間聯想到複雜的算法,龐大的數據,甚至是讓人眼花繚亂的代碼。但實際上,運營做數據分析並不需要懂這些,關鍵是你對業務流程的理解,以及用數據解決問題的思維。本文將介紹在一些領域被高頻率使用,且不可缺少的大數據分析利器,使用尚可的數據分析工具。