半個世紀前發明的工具,成為了人工智慧的瓶頸

2020-12-23 騰訊網

電子表格是一種非常巧妙的發明,在誕生之初,其使命是實現簿記的數位化,自此而後的50年間,因為它的存在,研究人員與商業人士得以不受行、列數量的限制而任意輸入各種數據,然後再藉助計算機對這些信息進行分析。如今,電子表格被廣泛應用於工作生活的各個方面,甚至連學童都可以像財務分析師管理預算一樣使用這一工具。

神經網絡是一種複雜的人工智慧程序,能夠模擬人腦的計算過程。近年來,由於神經網絡的發展,頂尖人工智慧研究人員關注的焦點已經從結構化數據(例如成行成列的文字和數字)轉向了圖像。換句話說,功能強大的計算機可以通過瀏覽數百萬張貓咪的照片來了解這種小型貓科動物的特徵,但同樣的軟體卻很難解讀簡單的電子表格。

這讓醫學研究、金融和運營等領域裡的數據科學家們深感沮喪,因為在這些領域中,結構化數據才是真正的「硬通貨」。

金融公司Capital One的一位應用型機器學習研究員巴彥·布魯斯(Bayan Bruss)說:「我們的數據大多是結構化數據,或者至少是對這些數據進行了某種結構化處理。深度學習的進展與我們的數據之間有著很大距離,我們做的很多工作都是為了縮小這種距離。」

圖片來源:Lena Vargas

一些公司為解決這一問題也推出了自己的新項目。以生物技術巨頭基因泰克(Genentech)為例,該公司的數據科學家最近花費數月時間製作了一個包含55,000名癌症患者健康記錄和基因組數據的電子表格,既收錄了年齡、膽固醇水平、心率等信息,也收錄了一些更為複雜的屬性數據,比如分子特徵和基因異常狀況等。基因泰克計劃將這些信息輸入神經網絡,並藉此描繪出患者的健康屬性,以期開發出突破性藥物,針對每位患者的情況對症下藥。

問題在於,研究人員現在才剛開始訓練神經網絡學習使用(像基因泰克製作的電子表格那樣的)結構化數據。基因泰克的個性化醫療保健數據科學分析業務全球主管瑞安·科平(Ryan Copping)表示:「包括臨床試驗數據和電子病歷在內,我們的大多數數據都是結構化數據。」如果計算機網絡能夠分析並自主認知病人資料中的相似性,「那麼我們就可以開始對結果進行觀察,並考慮如何針對病人的具體情況選擇治療方案。然而,現在還做不到這一點。」

除醫療保健行業外,很多其它行業也有機會從中受益。據研究公司IDC預測,今年,商業領域將產生5.8澤字節的銷售預測、客戶數據等生產力數據。一個澤字節大致相當於全球所有海灘上沙粒的總數。也就是說,這是一個天文數字,IDC的全球數據層項目(Global DataSphere,該項目負責計算全球每年產生的數據量)的負責人約翰·裡德寧(John Rydning)如是說。

這意味著,只要能夠將數據壓縮成神經網絡可以學習的格式,那麼各種類型的企業都將有機會從中獲益。食品巨頭百事公司(PepsiCo.)的首席戰略和轉型官阿西娜·卡尼烏拉(Athina Kanioura)認為,預測能力的小幅提升也能夠帶來巨大的財務回報。她說:「準確度的增加將會帶來數百萬美元的收益。」

接下來的挑戰則是要找到那些對商業活動最有價值的數據,把它們提供給研究人員使用。史丹福大學(Stanford University)的教授、矽谷新創企業Sisu Data(該公司的主營業務是為企業開發分析工具)的執行長彼得·貝利斯(Peter Bailis)說:「深度網絡非常酷炫,在汽車、推文理解等領域都大有可為。但如果只是儲存在表格中的數據,那麼對我們在認知風險、了解客戶滿意度等方面的幫助就非常有限了。」

如果換成商業人士都可以聽懂的話,那麼問題依然是:人工智慧能否解決自己難以識別Excel內容的問題?

******

神經網絡商業應用的推廣進度取決於其是否能夠像分析圖像一樣理解單詞的含義。為解決這一問題,研究人員將目光轉向了一種名為Word2vec的技術。(「vec」代表向量,是神經網絡最擅長理解的分析單元類型。)Word2vec由谷歌(Google)的一個研究小組於2013年開發,並已經作為開源軟體項目對外發布,可以幫助計算機理解特定單詞之間的聯繫。Word2vec技術為更強大的語言系統的出現鋪平了道路,這些新推出的系統已經能夠識別出與「汽車」一詞關係更密切的企業是寶馬(BMW)、日產(Nissan)這樣的汽車製造商,而不是卡夫亨氏(Kraft Heinz)這樣的食品公司。

Word2vec之所以具備神奇的計算能力,是因為其可以將單詞轉換成神經網絡能夠理解的數字串,進而識別出詞語之間的相關性。經過一段時間的訓練,通過對更多文本進行學習,神經網絡便具備了根據單詞共同出現的頻率對其進行打分的能力,並能夠根據分數對單詞進行分組。與更早出現的所謂自然語言處理技術相比,這些較新的系統提升了與人類思維典型相關的模式識別屬性。

藉助這種計算機輔助的單詞聯想遊戲,計算機將可以理解表格中存儲的信息。這個過程相當於為神經網絡創建了一套自己的摩爾斯電碼(Morse code):當應用程式在一份有關銷售情況的電子表格中遇到一列表示「日期」的數據時,無需獲得明確指令,只要藉助足夠的數據,便能夠理解某些假日可能會對特定季節的銷售產生影響。

舊金山大學應用數據倫理中心(University of San Francisco's Center for Applied Data Ethics)的主任、非營利教育機構Fast.ai的聯合創始人雷切爾·託馬斯(Rachel Thomas)說:「這是底層的核心概念。神經網絡通過建模特定形態的模式創造了一種無限靈活的學習架構。」

僅在投資領域就有大量通過文字分析創造價值的機會。

高盛集團(Goldman Sachs)的一個研究小組正在對神經網絡進行訓練,使其獲得搜尋「家庭房產內部轉讓」相關詞彙的能力。在進行非商業性質的交易時,交易雙方很可能不會如實描述房產的真實價值,如果可以教會軟體在篩選資料時將相關信息排除在外,自然能夠提高銀行的分析能力。

「為此,我們訓練了一個可以識別此類交易、並減少對其關注程度的神經網絡。」加州大學聖地牙哥分校(University of California at San Diego)計算機科學專業的常任教授查爾斯·埃爾肯(Charles Elkan)表示,直到最近,他還在負責領導高盛集團的機器學習項目。

複雜的詞語聯想對物流行業也有很大價值。位於舊金山的外賣新創企業Instacart便使用了word2vec的一種變體技術,讓自己的算法能夠預測顧客的偏好,這一能力在公司無法提供顧客想要的產品時尤其有用。為了方便神經網絡處理相關信息,該公司使用的程序會將超市庫存商品的「單詞」轉換成「數字形式的數據」,隨後,神經網絡會對相應物品進行分組,以便理解這些數據的意義:例如,(通過分組,神經網絡會發現,)與咖啡相比,什錦乾果與乾果或堅果的共同點更多。Instacart的機器學習主管沙拉特·拉奧(Sharath Rao)表示,使用這種技術幫助公司節約了時間和資金成本。他說:「不然我們就得思考所有可能的配對,還得保留一張(手填)表格。」

*****

雖然在結構化數據領域裡應用深度學習技術已經是大勢所趨,但障礙依然存在。

首先,這是一個全新的想法,此前並未對其效果進行過驗證,沒有人知道與更為傳統的統計方法相比,這種技術可以有哪些優勢。人工智慧晶片生產公司英偉達(Nvidia)的數據科學家埃文·奧爾德裡奇(Even Oldridge)說:「現在我們還不知道這個問題的答案。」

的確,考慮到訓練神經網絡的費用,對於那些不具備人工智慧專長的企業來說,原有的數據分析方法可能已經夠用了。

百事公司的高管、人工智慧專家卡尼烏拉說:「我堅信,這個世界上絕不存在能夠解決所有問題的『錦囊妙計』,對所有公司來說都是如此。」

雲服務巨頭亞馬遜(Amazon)、微軟(Microsoft)和谷歌在推銷自己的服務時實際上也隱含著這層意思:與其投入巨資、招攬人才去爭取潛在的增量回報,還不如直接從我們這裡購買人工智慧服務。

與其它以「教會計算機具備『思考』能力」為目的的項目一樣,人類的偏見也會對項目的成功構成威脅。深度學習系統的優劣取決於訓練它們所用的數據,數據太多或太少都可能會使軟體的預測產生偏差。

以基因泰克的數據集為例,該數據集收入了此前15年的癌症病人的臨床數據,但只收入了此前8年的基因組測試數據,也就是說,在此之前的患者數據並不像研究人員所希望的那樣具有可比性。

供職於基因泰克的科平說:「如果我們對這些數據集缺乏了解,那麼據此建立起來的模型可能毫無可靠性可言。」

科平表示,儘管如此,對這些電子表格中的內容進行強化分析依然具有很高的潛在價值,其意義完全不亞於獲得「預測一名病人在接受某種治療之後可以存活多久」的能力。對一堆表格來說,能夠做到這一點也算是不錯的成績了。

*****

數家公司正在對神經網絡進行訓練,希望其能夠處理自己已有的結構化數據,這些公司包括:

基因泰克

這家生物技術先驅企業製作了一份內含繁雜健康數據、覆蓋數萬名患者的電子表格,從常規記錄到基因組圖譜,不一而足。這一研究具有重要意義:如果人工智慧真可以通過正確方式來分析這些數據,個體病患在未來或將能夠獲得針對其疾病制定的個性化治療方案。

高盛集團

人工智慧為投資者提供了無限機遇。受高盛集團聘請,一位機器學習專業的教授開發了一種訓練工具,藉助這種工具,神經網絡可以學會忽略那些可能使金融分析複雜化的詞語,比如「家庭內部轉讓」(出現這一詞語時,交易中的房產價值可能失真)。神經網絡學會識別、忽略此類詞語能夠提升現有分析模型的效率。

Instacart

這家外賣新創企業擁有一套易於理解的數據集,內含員工需要為顧客選取的各種超市商品。該公司正在訓練算法進行複雜單詞聯想的能力,例如在看到什錦乾果時,可以聯想到堅果和乾果,方便在顧客所需商品缺貨時為其提供替代選擇。(財富中文網)

譯者:Feb

相關焦點

  • 人工智慧將改變十年後的生活
    目前,像人類一樣感知、思考,並且無需通過人類的指導即可逐步實現自主學習、自主進化的真正人工智慧尚不存在。但是,進入二十一世紀第二個十年後人工智慧研究開始飛速發展。圖片內容解析、遊戲局勢預測等新應用的嘗試,一部分人工智慧正通過各種方式逐步走向實用化。圖片識別、聲音識別、機器翻譯等人工智慧應用,通過深度學習也在不斷發展進步。
  • 中國科學院院士王懷民:人工智慧不會讓大家成為「工具人」
    原標題:中國科學院院士王懷民:人工智慧不會讓大家成為「工具人」   未來,
  • 老外造了把新型扳手,號稱顛覆傳統,一個能頂半個工具箱!
    這種由瑞典人 Johan Petter Johansson 設計發明的扳手,已有100多年了,可樣子一直沒啥變化。是不是。。。該做出一些改變了不久前,英國一家名為 MetMo Cube 的初創公司就獨出心裁地推出了一把新式活動扳手,讓那些熱愛手工的工具控和機械男們如虎添翼!
  • 「櫻花女神」山口百惠,曾驚豔了半個世紀,成為美的代言詞
    "櫻花女神"山口百惠,曾驚豔了半個世紀,成為美的代言詞所謂初戀臉,就是大部分人眼中代表愛情的臉,可能長相併不驚豔,第一感覺雖不起眼,甚至是普通,卻非常的耐看。現在著重介紹的是"櫻花女神"山口百惠,她就是清純女神的代言詞,曾驚豔了半個世紀,令人為之傾心。
  • 谷歌研發人工智慧工具Parrotron,讓語言 障礙者正常交流成為可能
    這對開發人工智慧驅動的語音識別和文本到語音合成產品的易訪問性工程師提出了挑戰,他們必須適應有限數據集可用的一系列缺陷。幸運的是,谷歌的科學家們正在研究如何將語音模型中的單詞替換、刪除和插入錯誤降到最低。
  • 半個世紀前,在西藏遇見「龐貝末日」
    身處動蕩的美國加州,他想起半個世紀前,與名作《龐貝末日》在西藏的奇妙邂逅——生活中,或許正是這些至暗時刻的光,引領我們超越每一刻的困境。 似夢非醒中,記憶穿越到了半個世紀前。 1973年,我從昌都汽車修理場被調到昌都地委宣傳部,擔任美工,主要的工作,是繪製一批大型宣傳畫,放置到昌都當時唯一一條水泥路兩邊——這條路,從地委大門,穿過銀行與百貨商場,直抵瀾滄江大橋橋頭。
  • 微軟現任CEO納德拉:人工智慧的三個層次,為何我們仍在最底層?
    那麼,人工智慧將如何實現它的廣闊前景?人工智慧如何通過擴大規模來惠及所有人?答案同樣要分成三個層次。定製當下的人類現在基本處在人工智慧的第一層,就是定製,當今的多數人工智慧都處在這個階段。人工智慧平臺公司會開發海量的基礎技術和工具,為其他人提供創新基礎,將人工智慧開發工具提供給所有人。人工智慧全民化意味著使每個人和每個組織都能想像並創造出令人驚嘆的人工智慧解決方案,滿足他們的特殊需求。這類似於活字印刷和印刷術的全民化。15世紀50年代,歐洲只有3萬本書,每一本都是修道院的人手工製作的。
  • 無形中被帶偏的3大發明,本意是為了造福人類,卻成為害人工具!
    無形中被帶偏的3大發明,本意是為了造福人類,卻成為害人工具!人類時代能夠發展至今,離不開諸多科學家的付出,不少科學家用自己的大腦創造出各種產物,不得不承認,這些產物造福人類社會,如果沒有這些發明,或許人類文明依舊停滯不前,正因為有了這些,我們的生活才變得多姿多彩。就拿萊特兄弟發明的飛機和卡爾本茨發明的汽車來說,交通工具成為必不可少的一部分,未來飛機、汽車都會遍布。
  • 指甲刀發明前,人類怎麼剪指甲?
    指甲刀發明至今不過也就一百多年。所以在沒有指甲刀的那些日子裡,大家都是怎麼剪指甲的?今天我們來聊聊人類剪指甲的前世今生。再到後來,人類學會了打磨和裝飾石器,各種工具有了明確分類,其中就包括磨甲刀。圖中這個磨甲刀出土於公元前6-8世紀左右的歐洲,安有一個骨制手柄,非常精緻。
  • 「洛陽鏟」是盜墓賊發明的?其實是古代基建檢測工具演化而來
    「洛陽鏟」是盜墓賊發明的?百度百科上「洛陽鏟」詞條被標註為「考古學工具」與平日常見的鏟子不同,洛陽鏟的鏟面像一個半圓形的柱子,當其垂直戳入地面半圓柱形的鏟可以更完整將地下的泥土帶出,在不斷深挖後,將不同土層的土壤按順序排列,分析土壤的包含物、
  • 20世紀以來最偉大的四項桌球技術發明
    現特盤點四項20世紀以來最偉大的桌球技術發明或革新。一、弧圈技術弧圈球技術由日本在上世紀50年代末發明,初衷是對付削球。弧圈技術從誕生至今已走過了半個多世紀,從星星之火到燎原之勢直到主宰世界乒壇;前衝弧圈、加轉弧圈、高吊弧圈、真假弧圈、側拐弧圈、擰拉弧圈、滑板弧圈……弧圈種類繁多且仍在發展。
  • 智能校對-人工智慧寫作正在成為極為重要的研究工具!
    波士頓今年六月舉辦的人工智慧會議上, MIT的程序寫作專家 Nick Montfort向參加者介紹了計算機書籍製作的現狀,程序寫作(Program Writing)與計算機文學(Computer-Generated Literary Art)並不完全等同,計算機文學(Computer-Generated Literated Literary, Art)與大眾理解的人工智慧寫作寫作
  • 最新OpenSIPS-CLI瓶頸監控工具和SIPSAK呼叫跟蹤示例
    用戶在使用這些界面系統和排查工具時仍然需要做一定的配置調整和處理,包括cfg文件,mysql和CP的php文件的設置。這裡,筆者重點介紹OpenSIPS性能瓶頸檢測工具和如何在opensips-CLI 工具配合SIPSAK工具來進行排查跟蹤測試。
  • 實現通用人工智慧和超(強)人工智慧的理論基礎——心理二元說
    有人認為,我們可以「只求目的,不問手段」,不管用什麼手段,只要能造出象人腦一樣靈活地從事各種智力活動的機器(即一種通用的智力工具)就行,甚至有人還說,飛機的發明並沒有模擬鳥,但飛得更好,汽車的發明也沒有模擬腿,但跑得更快,這兩個例子剛一聽,似乎是正確的,但仔細分析後,發現它們都是錯誤的,為什麼呢,因為飛機和汽車的發明正是模擬「鳥」和「腿」的結果,只不過,它們都不是結構模擬,而是機制模擬
  • 人工智慧全能?非也「創投圈生活指南」
    人工智慧無所不能嗎?人工智慧能做哪些事?又做不了哪些事?人類會被自己發明的機器取代嗎?隨著人工智慧的發展,人類對於上述問題的疑惑甚至恐慌在與日俱增。每一次人類驚嘆於人工智慧的進步之時,都更加急於知道人類是否會被其取代。
  • 「人工智慧」時代,開啟新康波周期
    同樣道理,很多有錢人之所以成為有錢人,不僅僅是他們自身有多麼優秀,還因為他們抓住了時代的核心,搭上了康波年的便車。我們知道,農耕時代,人口是第一生產要素,而古中國就符合這一生產要素的特點,形成了擁有5000年歷史的文明;工業時代,第一次工業革命發生在18世紀60年代的英國,英國抓住了,所以英國便成為了「日不落帝國」,第二次工業革命發生在19世界60年代的,歐美日等國家遙遙領先;資訊時代,從1969年開始,美國最先抓住了資訊時代,所以美國成為如今世界上的「一超」。
  • 人工智慧領域,中國比美國更勝一籌,成為世界贏家?
    另外,像Geoff Hinton、Yann LeCun、yoshu Bengio、Andrew Ng和Fei-Fei Li這樣的移民便是人工智慧領域的FERMI,在大家心中他們本應確保美國(和加拿大)在人工智慧領域的領導地位。而且,AI領域的前十名研究人員均出自美國和加拿大,堪稱世界上最優秀的1000名研究人員中的68%也都來自美國和加拿大。
  • 野生大象,被人當作「工具」,掙脫半個世紀的束縛,反應令人心酸
    前不久,國外一家愛心組織在印度解救了一隻常年遭人虐待的大象。當可憐的大象解脫束縛後,它的反應無不令人心酸。這隻年邁的大象叫做「Raju」,如今快要51歲的它,終於可以待在溫涼的水池裡,吃著爽口的西瓜,感受著一絲絲涼意鑽入粗糙的皮膚裡,臉上不自覺地露出笑容。大象的壽命一般在50~60歲左右,Raju算是一隻長壽的大象。
  • 中國版「山口百惠」龔雪,曾驚豔了半個世紀,成為美的代言詞
    中國版「山口百惠」龔雪,曾驚豔了半個世紀,成為美的代言詞提及80年代著名女演員龔雪,幾乎是無人不知,無人不曉。龔雪被稱為「80年代第一美女」、「中國的山口百惠」,以及成為「百花獎」、「金雞獎」雙料影后。在那個沒有美顏、ps的年代,龔雪的美簡直驚豔了無數人,清純中透露出洋氣,優雅而又端莊,令人眼前為之一亮。
  • 走過半個多世紀,計算機圖形學的發展告訴你5毛錢電影特效有多難
    在過去的半個世紀,CGI 以電影行業為起點,的確悄然無息將其影響力擴散到了電子遊戲行業和 VR、AR 等行業,包括數據中心管理和人工智慧在內的多個領域。在本文接下來的內容中,以皮克斯為中心,走過 CGI 半個世紀的發展,我們將看到 CGI 是如何從一些非常基礎的應用,發展到今天這樣的規模的。