這可能是最酷的大數據創業公司!他們做出了預測分析版的「谷歌」

2021-02-20 DeepTech深科技

年度訂閱用戶可加入科技英語學習社區,每周科技英語直播講堂,詳情請查看「閱讀原文」

公司經常會僱用數據挖掘的數據科學家來收集規劃建議,例如哪些客戶想要某些服務,或者在哪裡開設新的商店和存儲產品。然而,通過分析數據來回答這其中的一或兩個問題往往就需要數周甚至數月的時間。

現在,MIT 的 Endor 已經開發出一個預測-分析平臺,使得任何人——不論技術嫻熟與否——都可以通過接口上傳未經處理的數據並輸入任何關於商業的問題。這就像在用一個在線的搜尋引擎,而你能在 15 分鐘之內獲得精準的答案。

這個平臺基於「社會物理學」這一學科,由 Endor 的聯合創始人,東芝媒體藝術業科學的教授 Alex「Sandy」Pentland 和前麻省理工博士後的 Yaniv Altshuler 在 MIT 的多媒體實驗室共同開發。社會物理學一門是利用數學模型和機器學習來理解和預測群體行為的學科。

圖丨 Yaniv Altshuler

這一新平臺的用戶可以上傳關於用戶或者其他個體的數據,比如說手機通話記錄,信用卡購買記錄或者網絡活動記錄。他們利用 Endor 的「查詢建立者」嚮導來提問,比如「我們應該在哪裡開設我們的下一個店鋪?」或者「誰更可能嘗試產品 X?」通過這些問題,平臺識別數據中體現出的個體之前的行為模式,再通過社會物理模型來預測未來的行為。該平臺還可以分析完全加密的數據流,允許銀行或信用卡運營商等客戶保護數據隱私。

「它就像谷歌一樣,你不需要花時間思考『我要花費時間去問谷歌這些問題嗎?』,你直接能找到答案。」Altshuler 說道。

在谷歌母公司 Alphabet 的執行董事長 Eric Schmidt 的私人風險投資公司 Innovation Endeavors 的財政支持下,啟動者們已經找到了像可口可樂,萬事達和沃爾瑪等零售和銀行公司的大牌客戶。

圖丨 Eric Schmidt

最近,Endor 為一個防禦機構分析 Twitter 數據偵查潛在的恐怖分子。根據元數據中的標識符,Endor 得到 1500 萬個數據點,其中包含 50 個被識別的 ISIS 活動家的推特帳戶的作為例子。基於此,他們要求啟動者檢測出 74 個已經被確認的、標識符在元數據中隱藏得很好的帳戶。Endor 中有人用筆記本電腦在 24 分鐘內完成了任務,發共現了 80 個「疑似」的 ISIS 帳戶,其中 45 個來自該機構命名的 74 個隱藏帳戶。誤判率也非常低(35 個帳戶),這意味著人類分析師可以專門去調查這些帳戶。

群體的共性


機器學習用於相對靜態的複雜計算問題,如圖像識別和語音識別。例如書面和口語,幾個世紀以來都實質上都沒有什麼變化。

另一方面,人類的行為卻在不斷變化。預測人類行為意味著分析很短的時間內,也許是幾天或幾周的大量微小的信號。傳統的機器學習算法主要依賴於構建可以長時間分析數據的模型。

「一般來說,你需要大量的數據來建立描述人類行為的準確模型,這意味著你必須依賴過去。正因為你依賴過去,你無法察覺最近發生的事情,也就無法預測人的行為,」Altshuler 說道。

整個 2000 年代初期和中期,Pentland 和 Altshuler 在人類動態實驗室發展了「社會物理學」,旨在捕捉和分析短期數據,以理解和預測群體動態。在研究中,他們發現所有大數據都包含一定的數學模式,表明社交互動如何傳播和聚合的,這些模式可以幫助預測未來的行為。

利用這些數學模式,他們構建了一個平臺——即 Endor 平臺的核心技術——可以從數百萬個原始數據點中提取具有共性行為的「集群」,比機器學習算法更快更準確。「大多數這樣數據模式利用其他任何技術都無法與噪音區分開」,Altshuler 說。

但這些集群代表什麼並不能馬上弄清楚,只知道它們有很強的相關性。而對數據的查詢則提供了上下文。例如,通過客戶數據,有人可能會詢問哪些客戶最有可能購買特定產品。通過關鍵字,該平臺將購買該產品的客戶的行為特徵,如位置和消費習慣,與未購買該產品的客戶相匹配。這種重疊創建了可能的新客戶清單,這些客戶傾向於購買該產品。

簡而言之,上傳數據並提出正確的問題就向平臺提出了一個基本的請求:這裡是一個 X 的例子,更多地找到 X。「只要你能以這種方式來表述一個問題,你就會得到一個準確的答案,」Altshuler 說。

Endor 和 Endor-ish

為了測試這個平臺,研究人員早先與美國國防高級研究計劃局 (DARPA) 合作分析內亂時某些城市的移動數據,以顯示新興模式如何能夠幫助預測未來的騷亂。Altshuler 還在新加坡花了幾個月的時間分析計程車行駛數據,以預測該市的交通擁堵情況。

2014 年,Altshuler 通過他的朋友,史丹福大學的畢業生 Doron Alter 與 Schmidt 建立了聯繫,他當時是 Innovation Endeavors 的合伙人。投資者問,這項技術是否可以被「包裝成任何人都可以使用的產品」。

那一年,在 Schmidt 的經濟支持下,連續創業者 Altshuler 和 Pentland 共同創立了 Endor,將平臺轉化為商業軟體。Alter 和 Stav Grinshpon 加入了團隊,他們是技術行業的老兵,也是以色列情報部門的前任技術專家。

該公司很快通過信用卡公司的 StartPath 計劃贏得了 Mastercard 的早期合作夥伴。萬事達要求 Altshuler 回答為數據科學家保留的問題,比如哪些人不久將要出國飛行,提取貸款或者增加信用卡活動。

在從以色列特拉維夫到紐約市的單程飛行中,Altshuler 處理了 100 萬名持卡人的數十億的金融交易數據點,並準確回答了 10 個問題。傳統來講,數據科學家需要花費數周或數月的時間來整理數據,並設計機器學習模型來分別回答每個問題。

公司可能聘請自己的精通分析得員工來使用 Endor。其他人將與 Endor 代表每周進行一次簡短的會議,以確定最佳的問題措辭。「將英語翻譯成我們所說的『Endor-ish』,即我們的系統可以理解的方式,只需要大約五分鐘。」Altshuler 表示。

該公司的網頁提供了一個問題結果的例子,並與傳統的機器學習引擎進行比較。一家銀行營銷部門問:「誰在未來六個月內會獲得抵押貸款?」機器學習引擎可能會檢測到擁有銀行信用卡和高信用評分並且已結婚的 5000 名客戶,但其中許多可能是誤報。而 Endor 可以發現更多具體群體,比如,即將結婚或正在經歷離婚的夫妻群體,最近將創業公司出售給 Facebook 的創業人,或最近從當地房地產課程畢業的客戶。Endor 的結果中誤報少得多,並且挖掘出了更多的潛在客戶。

更重要的是,Altshuler 表示,Endor 並不是要取代數據科學家,它被設計成一個使他們更強大的工具。他說,數據科學家對組織的業務語義最為熟悉,可以將 Endor 納入他們的工作流程。通過突破一個「瓶頸」——數據輸入的速度比任何人得出結果的速度都快——Endor 旨在幫助數據科學家改善他們的公司。「數據科學家們明白我們將使他們成為英雄。」Altshuler 說道。

Endor 最近贏得了 Gartner 的「Cool Vendor」(卓越供應商)地位,並被世界經濟論壇(World Economic Forum)封為「技術先鋒」。隨著好評的傳播,Endor 現在正在美國積累更多客戶,同時也在歐洲和拉丁美洲迎來了第一批客戶。「這是令人興奮的時刻」,Altshuler 表示。

-End-

編輯:王維瑩   校審:黃珊

參考:

https://m.phys.org/news/2017-12-google-analytics.html

相關焦點

  • 讓谷歌折戟的AI流行病預測,在今天如何被創業公司攻佔?
    其中,《連線》雜誌報導了「一家加拿大公司BlueDot通過AI監測平臺率先預測和發布武漢出現傳染疫情」的新聞,得到國內媒體的廣泛關注。這似乎是我們在「預測未來」這件事上最想看到的成果——藉助大數據沉澱基礎和AI的推斷,人類似乎正能夠揣摩「天意」,揭示出原本深藏於混沌之中的因果規律,從而在天災降臨前試圖挽救世界。今天我們就從傳染病預測出發,看看AI是如何一步步走向「神機妙算」的。
  • 分析數據預測未來?數據挖掘絕不是大公司的專利
    這兩名分別是來自微軟的Eric Horvitz與以色列研究所的Kira Radinsky,他們通過自製軟體來分析「紐約時報22年的報紙、維基百科和其它90家網站資源」以預測未來,其中包括:疾病暴發、社會暴亂及死亡,並希望能對阻止上述事件產生幫助。這項研究是挖掘網際網路數據並進行各種事件預測的最新舉措。
  • 新平臺分析大數據在幾分鐘內回答純語言查詢
    公司通常會僱傭數據分析專家來收集信息,比如哪些客戶需要特定的服務,或者在哪裡開新店和存放產品。然而,分析數據以回答其中一兩個問題可能需要幾周甚至幾個月的時間。預測人類行為意味著在短時間內分析大量的小信號,可能是幾天,也可能是幾周。傳統的機器學習算法主要依賴於構建的模型,這些模型可以在更長的時間內分析數據。「一般來說,你需要大量數據來為人類行為建立精確的模型,這意味著你必須依賴於過去。」因為你依賴於過去,你無法發現最近發生的事情,你也無法預測人類的行為,」Altshuler說。
  • 這141家創業公司分析了他們為何失敗
    (原標題:這 141 家創業公司分析了他們為什麼失敗)
  • 2020年最佳大數據公司
    Teradata公司提供分析數據平臺、營銷、諮詢服務和分析應用。Teradata幫助不同的公司從他們的數據中獲得價值。Teradata的大數據分析解決方案和一個專家團隊幫助不同的組織獲得數據的優勢。Teradata作品集包括各種大數據應用程式,如Teradata QueryGrid, Teradata監聽器,Teradata的統一,和Teradata的觀點。
  • 最值得關注的18家深度學習創業公司
    這激起了我尋找更多開發和應用深度學習的創業公司的興趣,所以我決定在VentureRadar的資料庫中選出這一新興領域裡排名最高的18家公司,並近距離了解它們到底在做什麼。你也可以在VentureRadar網站搜索關鍵詞「Deep Learning」了解更多這一新興領域的公司。下面是這排名最高的18家公司的簡介。
  • 谷歌、亞馬遜、YouTube的管理利器,適合創業公司嗎?
    後來我們才知道那本書根本不懂OKR,書中的方法可能適合非常小規模的公司,不適合我們一千多人的大團隊。萬幸,我們後來找到了另一本書,是約翰·杜爾寫的,叫《這就是OKR》,完整地講述了約翰·杜爾怎麼帶著谷歌學習OKR,以及谷歌怎麼使用OKR,甚至把谷歌的工具、方法論全講了出來。」
  • 谷歌雲高管預測:2021年這五大數據趨勢將會推動業務發展 - 雲計算...
    因此,《福布斯》對話了谷歌雲的數據負責人,他們對企業進入新的一年有什麼見解。以下是他們認為2021年最值得關注的五大數據趨勢。   1.實時數據分析將幫助你看到未來   Debanjan Saha,谷歌雲副總裁   隨著向雲端的大規模轉變,也伴隨著向更強大的數據資產和更好的數據分析的轉變。面向未來的平臺正在圍繞數據分析構建,2020年證明了業務敏捷性的重要性。
  • 【大數據文摘】高質量數據集哪裡來?
    因此,對於機器學習創業公司必須做出的一個關鍵戰略決策是如何建立高質量的數據集來訓練他們學習算法。不幸的是,初創公司往往在一開始只有有限的或沒有標籤的數據,這一情況會阻礙創始人在構建數據驅動的產品方面取得重大進展。
  • 2020年大數據發展現狀分析前景預測 - 中國大數據行業現狀分析與...
    中國產業調研網發布的中國大數據行業現狀分析與發展趨勢研究報告(2020年版)認為,到**年,形成50個大數據產業示範園區,引進和培育100戶大數據龍頭企業,通過大數據帶動相關產業規模達20萬億元,建成全球領先的大數據資源中心和大數據應用服務示範基地。
  • 從這四點看出一家創業公司還能存活多久
    在創業階段,每個創始人都充滿著鬥志,對自己的產品投放到市場中有足夠的信心。然而,「創業公司基因工程」用數據告訴我們,如果沒有打好基礎就急於擴張,最終會走向絕望和失敗。資深投資人肖恩·阿美拉蒂在其新書《瘋長》中就對此進行深入探討。
  • VentureBeat:10家大數據領域的出色公司
    最近外媒VentureBeat列出了10家大數據領域的炫酷公司(編者註:大部分為創業公司),當中涉及了醫療、政府、科研等領域。下面我們來對他們了解一下。數據服務:Metamarkets在過去的一年裡,Metamarkets得到很大的發展。這家公司對tweet、支付、籤到和一些與網際網路相關的問題進行了分析,為客戶提供了很好的數據分析支持。
  • 打入時尚圈的 AI,數據可能會變革這個特殊的行業
    雖然這一數字聽起來可能並不是非常令人驚喜,但同一物種的樣本差異可能非常大,哪怕是專家也會得出不同的結論。所以,能在第一次識別中能正確識別出大部分的物種,這個深度學習系統的性能已經非常不錯了。同時,研究人員還發現,有效的遷移學習方式也有助於系統的構建,這意味著一個新系統不必從頭進行創建並對每一個植物樣本的集合和樣式進行調整。
  • 臺灣大數據:從大數據出發,核桃運算打造即時資料分析引擎
    在大數據時代中,如何更快地即時分析巨量資料,成為新的創業契機。來自臺灣的團隊「核桃運算MacroData」,從最底層的資料分析架構出發,耗費兩年半的時間,研發出可分析不同資料屬性,以及橫跨各式硬體的資料分析引擎,比起現有的資料庫來說,運算速度還要快50倍到100倍,今年下半年將正式走入市場。
  • 經濟學人:谷歌、亞馬遜可能接替麥肯錫、波士頓諮詢?-虎嗅網
    今年一月,亞馬遜的一款腕帶被授予了若干專利,該產品可以監督倉庫工人的確切位置,並實時追蹤他們的手部動作。這項技術將使該公司能夠衡量員工的生產力和準確性。中國的電子商務企業京東,正在開始進行一項實驗,意在通過跟蹤舉措來找出最高效的團隊和管理者,並使用算法來預測人員流失。
  • 人工智慧創業的13個細分產業和910家公司 | 網際網路數據資訊網-199...
    本文深挖了國外優秀創業公司在AI市場及其所有的重要評估指標。你可以清楚地看到,它被劃分為十三個大類,涵括910家公司——每家公司平均融資金額(估值)達1000萬美元。近日,本文跟蹤分析了橫跨63個國家被分為13個品類的超過910家企業,其總融資金額達96.8億美元。
  • Decide:利用數據挖掘和分析的魅力價格預測體系
    我想如果有一個網站能夠預測消費品的價格並且對這些預測提供包賠,那麼這一定會對電子商務產生革命性的影響。一家名叫Decide.com的創業公司則在這個方面進行了初步的探索,通過數據挖掘和分析的魅力,他們初步建立起了價格預測體系,並且還在今天推出了包賠計劃。我們首先來看看其是如何預測價格的。Decide.com的目的是解決兩個問題:電子產品更新速度過快,市場價格變化過快。通過解決這兩個問題,他們希望給潛在購物者提供最好的購物時機建議。
  • 一文了解大數據領域創業的機會與方向
    在這篇大數據行業的SWOT分析文章中,也許可以找到你想了解的大數據行業創業環境、問題、機會與方向。鈦媒體註:大數據不僅僅是一個營銷詞彙,在這篇乾貨滿滿的文章裡,作者用數據告訴我們,究竟什麼是大數據,大數據行業的創業機會如何,未來的創業方向又有哪些。
  • 中國大數據金融行業現狀調研分析及市場前景預測報告(2017年版)
    據中國產業調研網發布的中國大數據金融行業現狀調研分析及市場前景預測報告(2017年版)顯示,大數據金融是指集合海量非結構化數據,通過對其進行實時分析,可以為網際網路金融機構提供客戶全方位信息,通過分析和挖掘客戶的交易和消費信息掌握客戶的消費習慣,並準確預測客戶行為,使金融機構和金融服務平臺在營銷和風險控制方面有的放矢。
  • 特稿 如何讓深度學習突破數據瓶頸?這家創業公司直接挑戰生物神經元的計算模型
    「艾倫研究所在這方面做了很多貢獻,不僅提供了系統化數據收集的標準和數據收集的設備,同時還把收集上來的數據加以整理並免費開放,他們的思路是,更多的數據可能會幫助我們最終解決算法的問題,這是大數據驅動的對算法的理解。