InfoQ(ID:infoqchina)授權轉載
作者:Seth Grimes
文本分析、情感分析和社交分析幫助你在一定規模上轉化成客戶、病人、公眾以及市場的「聲音」。這項技術目前大量地應用於一系列的工業產品中,從醫療健康到金融、媒體、甚至客戶市場。它們從線上、社交網絡、企業數據源中提取商業洞察力。
目前分析技術發展得還是相當不錯的,儘管在某些領域,例如數字分析和市場研究有些稍稍落後。但是甚至是在例如「客戶體驗、社群聆聽、用戶交互」方面,還是有很多發展空間。這個快速發展的市場空間無論對於新加入的玩家還是深耕已久的資深人士都意味著大量的機遇。
隨著技術和應用不斷融合,與其獨立地檢驗每個分析領域,還不如好好地觀察整體的效果。忽視情感的社交分析是不完整的,並且為了從網絡上獲取社交情感數據並調查情感數據,我們真的需要文本分析技術。
本文對即將到來的2016年,針對文本分析、情感分析和社交分析的發展趨勢進行一個前瞻性的觀察。
儘管單純英文的文本分析一直保持常態,但僅將一種語言做好,也比囊括很多種語言,卻哪種都做得潦草要強得多。機器學習和機器翻譯已經向著多語種文本分析邁進了一大步,使其成為一個全新的標準。但是如果你的確需要做多語種的開發嘗試,事先也要做一些調查:很多開發者在其核心語言上很強,但在別的語言上就很弱了。所以說選擇的時候還是小心一點。
文本分析能力對於客戶體驗、市場研究、客戶洞察、數字分析乃至媒體評測來說都是關鍵解決方案,各個文本分析服務提供商在分析能力的優勢上不斷競爭。總的趨勢是「量化定性」,文本分析被納入業務解決方案中是十分重要的事。
明天是屬於機器學習、遞歸神經網絡以及相似技術的,但是今天,長期建立的語言工程方法仍佔上風。這裡我指的是分類系統、分析器、詞法和句法網絡以及句法規則系統。目前我們處在一個「百花齊放、百家爭鳴」的時代,所以很多種方法都是可以並存的。舉例來說,甚至眾包數據處理的領軍企業:CrowdFlower都全面擁抱機器學習了,初創企業Idibon都把傳統和現代相結合作為一大賣點:「你可以組建自定義的分類系統,並使用機器學習、規則和你已有的字典/模式去調整它們。」
全球領先的圖像分析提供商已將圖像分析技術應用於社交媒體的品牌信號解讀中---不信你看看Pulsar和Crimson Hexagon---並且通過機器學習,圖像分析技術已成為IBM在2015年收購Alchemy API的一大賣點。的確,火熱的初創企業MetaMind在2015年從NLP領域轉型到圖像分析,緣於其意識到圖像分析背後的巨大機遇。
整個市場喜歡談論多渠道分析和用戶旅程,這涉及到多重觸點。並且社交網絡和網絡媒體中充斥著視頻,說出來的話,還有非文本形式的語言要素,包括語調、語速、音量和重複,都傳遞著含義,而這些含義都可以通過語音分析和語音轉文字來獲取。不僅僅是客服中心,2016年,所有的市場研究人員、出版人員、研究和洞察專業人士都在不斷尋找突破。可以期待,未來語音分析也將成為推動人機會話接口發展的重要力量。
廣告人員早就認識到情感可以改變消費者的決定,但直到近日,廣泛地、系統地對於情感與決策的研究已經超越了我們的能力範圍。根據你的角度,進入情感分析,或者是情感分析的子類,或者是其姊妹類。帶著量化我們的情緒反應的目的,使用面部表情分析從圖像和視頻中(或從語音或文本中)提取我們的情感狀態。這方面的服務提供商有:視頻服務的Affectiva、Emotient和Realeyes,語音服務的Beyond Verbal以及文本服務的Kanjoya;相關的受眾包括廣告商、媒體、市場研究人員和代理商。
我們已經有了文本、圖像、語音、視頻等,那為什麼我們還要用網絡表情呢?因為它們簡潔、易用、生動、有趣,它們補充並且對長格式的內容形成衝擊,這就是為什麼網際網路俚語滅亡了。Facebook正在嘗試對網絡表情進行挖掘,更好的是,我們還看到了像Line stickers這樣的變種。現在我們需要的就是網絡表情分析了。這個領域的技術正在通過像Emogi這樣的初創企業不斷興起。儘管大多數人也不過就是用計數和分類來獲取網絡表情語義,像Instagram工程師Thomas Dimson和斯洛維尼亞研究組織CLARIN.SI都是這麼幹的。但他們當中的一些公司,比如SwiftKey,還是值得關注的。
這一點既是我對於2016年的趨勢預測,同時我在2015年對市場研究公司TNS的數據科學家Preriit Souda訪談時也提到過。Preriit指出:「網絡為會話賦予結構,內容挖掘為其賦予含義。」洞察力源自於對於信息與連接的理解,也來自於連接是如何被激活的。因此為你的工具包加一個圖形資料庫和網絡可視化工具吧,這就是為什麼Neo4j.js和Gephi這麼成功的原因。建立一個類似於QlikView的數據分析平臺也是一個選擇,一個可以協同文本和數字分析的選擇,對於2016年來說這是一定要做的事。
9、2016年,你會讀到(或與之交互)多得多的機器編寫的內容機器編寫內容的技術叫自然語言合成(Natural Language Generation,NLG),它提供根據算法從文本、數據、規則和內容中撰寫文章、信件、簡訊息、摘要和翻譯的能力。NLG就是為大容量、高重複量的內容而生的:金融、體育和天氣預報。相關的服務提供商有Arria、Narrative Science、Automated Insights、Data2Content和Yseop。你也可以看看你與你心愛的虛擬助手進行對話時的機器端:Siri、Google Now、Cortana或是Amazon Alexa,或是自動客服、其它程序化相應系統。後面的這些系統都歸類於自然語言交互(Natural Language Interaction,NLI);其中Artificial Solutions還是值得一看的。
長久以來,人們一直希望擁有一個「星際迷航」那樣的通用翻譯器,但自從1950年科學家稱機器翻譯可以在3~5年內實現,精準的、可信賴的機器翻譯就一直是個謎。(ACM Queue撰文《Natural Language Translation at the Intersection of AI and HCI》充分地討論了人機結合條件下機器翻譯的狀態)我不能說勝利就在眼前,但是多虧了大數據和機器學習,2016年(或2017年)對於大多數任務來說,主流語言的機器翻譯能做到足夠好。這就是勝利!
總結:
如果你是一個文本分析、情感分析或是社交分析學家,解決方案提供商或是用戶,每一個趨勢都會影響到你,無論是直接地還是間接地。因為人類的數據現在已經被編織成為我們每天賴以生存的技術網。連接這張網的線就是更多的數據,更有效地使用,來創造改變生活的機器智能。
「招聘」
記者、編譯和活動運營
全職和實習生都要
以及人工智慧翻譯社志願者
詳細信息請進入公眾號點擊「招聘」
或給 aiera_jobs@163.com 投郵件