百分點認知智能實驗室出品:情感分析在輿情中的研發實踐(上)

2020-11-22 中國軟體網
編者按

文本情感分析是對帶有主觀感情色彩的文本進行分析、處理、歸納和推理的過程。網際網路上每時每刻都會產生大量文本,這其中也包含大量的用戶直接參與的、對人、事、物的主觀評價信息,比如微博、論壇、汽車、購物評論等,這些評論信息往往表達了人們的各種主觀情緒,如喜、怒、哀、樂,以及情感傾向性,如褒義、貶義等。基於此,潛在的用戶就可以通過瀏覽和分析這些主觀色彩的評論來了解大眾輿論對於某一事件或產品的看法。

百分點認知智能實驗室基於前沿的自然語言處理技術和實際的算法落地實踐,真正實現了整體精度高、定製能力強的企業級情感分析架構。從單一模型到定製化模型演變、文本作用域優化、多模型(相關度)融合、靈活規則引擎、以及基於實體的情感傾向性判定,探索出了一套高精準、可定製、可幹預的智能分析框架,為輿情客戶提供了高效的預警研判服務。

本文作者:常全有 劉政

一、

情感分析概述

文本情感分析,即 Sentiment Analysis(SA),又稱意見挖掘或情緒傾向性分析。針對通用場景下帶有主觀描述的中文文本,自動判斷該文本的情感極性類別並給出相應的置信度,情感極性分為積極、消極、中性等。

在文本分析的基礎上,也衍生出了一系列細粒度的情感分析任務,如:

基於方面的情感分析(ABSA):一般稱作 Aspect Based Sentiment Analysis。旨在識別一條句子中一個指定方面(Aspect)的情感極性。常見於電商評論上,一條評論中涉及到關於價格、服務、售後等方面的評價,需要區分各自的情感傾向。

基於實體的情感傾向性判定(ATSA): 一般稱作 Aspect-Term Sentiment Analysis。對於給定的情感實體,進行情感傾向性判定。在一句話中不同實體的情感傾向性也是不同的,需要區別對待。

▶ 核心目標和價值

輿情系統的最核心需求,是能夠精準及時的為客戶甄別和推送負面,負面識別的準確性直接影響信息推送和客戶體驗,其中基於文本的情感分析在輿情分析中的重要性不言而喻,下圖簡要展示了文本分析以及情感分析在輿情體系中的作用。

輿情數據通過底層的大數據採集系統,流入中間層的 ETL 數據處理平臺,經過初級的數據處理轉化之後,向上進入數據挖掘核心處理環節;此階段進行數據標準化、文本深度分析,如地域識別、智能分詞、情感判定、垃圾過濾等,經過文本處理的結果,即脫離了原始數據的狀態,具備了客戶屬性,基於客戶定製的監測和預警規則,信息將在下一階段實時的推送給終端客戶,負面判定的準確度、召回率,直接影響客戶的服務體驗和服務認可度。

▶ 難點與挑戰

輿情業務中的情感分析難點,主要體現在以下幾個方面:

1. 輿情的客戶群體是複雜多樣的,涉及行業多達24個(如下圖所示),不同行業數據特點或敏感判定方案不盡相同,靠一個模型難以解決所有問題;

2. 輿情監測的數據類型繁多, 既有常規的新聞、微信公眾號等媒體文章數據,又有偏口語化的微博、貼吧、問答數據,情感模型往往需要針對不同渠道類型單獨訓練優化,而渠道粒度的模型在不同客戶上效果表現也差別巨大;

3. 客戶對情感的訴求是有差異的,有些客戶會有自己專屬的判定條件。通用的情感模型難以適應所有客戶的情感需求。

4. 隨著時間推移,客戶積累和修正的情感數據難以發揮價值。無法實現模型增量訓練和性能的迭代提高。

5. 對於關注品牌、主體監測客戶,需要進行特定目標(實體)情感傾向性(ATSA)判定。那麼信息抽取就是一個難題。

6. 對於新聞類數據,通常存在標題和正文兩個文本域。如何提取有價值的文本信息作為模型輸入也是面臨的困難。

二、

情感分析在百分點輿情的發展歷程

從2015年開始,百分點輿情便開始將機器學習模型應用在早期的負面判定中;到2020年,我們已經將深度遷移學習場景化和規模化,也取得了不錯的成果;

2015年:抓取百萬級別的口碑電商評論數據,使用邏輯回歸進行建模,做為情感分析的BaseLine;

2016年:主要側重於技術上的遞進,進入深度學習領域。引入word2vec在大規模語料集上進行訓練,獲得具有更好語義信息的詞向量表示,替代基於Tfidf等傳統的統計特徵。隨後在TextCnn、TextRnn等深度學習算法進行更新迭代,儘管得到數字指標的提高,但是對於實際業務的幫助還是不足。

2017年:結合輿情全業務特點,需要能做到針對品牌、主體的情感監測。提出 Syntax and Ruler-based Doc sentiment analysis的方式,依據可擴充的句法規則以及敏感詞庫進行特定的分析。該方式在敏感精準度指標上是有提升的,但是卻有較低的召回。同時在進行規則擴充時,也比較繁瑣。

2019年上半年:以Bert為代表的遷移學習誕生,並且可以在下遊進行fine-tune,使用較小的訓練數據集,便能取得不錯的成績。進行以輿情業務數據為基礎,構建一個簡易的文本平臺標註平臺,在其上進行訓練數據的標註,構建了一個通用的情感模型分類器。評測指標 F1值為 0.87,後續對 ERNIE1.0 進行嘗試,有兩個百分點的提升。

2019年下半年:主要從輿情的業務問題入手,通過優化提取更加精準、貼近業務的情感摘要作為模型輸入,使用定製化模型以及多模型融合方案,聯合對數據進行情感打標。並提出基於情感實體(主體)的負面信息監測,下述統稱ATSA(aspect-term sentiment analysis),使用 Bert-Sentence Pair 的訓練方式, 將 摘要文本、實體聯合輸入,進行實體的情感傾向性判定。在定點客戶上取得不錯的成績,最後的F1值能達到 0.95。

2020年:將細化領域做到客戶級別,定製私有化情感模型。同時將加大對特定實體的細粒度情感分析(ATSA)的優化;同時,通過內部 AI訓練平臺的規模化應用,做到模型的全生命周期管理,簡化操作流程,加強對底層算力平臺的資源管控。

三、

預訓練語言模型與技術解析

下圖大致概括了語言模型的發展狀況(未完全統計):

在2019年度情感分析實踐中,率先使用預訓練語言模型 Bert,提高了情感分析的準確率。後來具有更小參數量的ALBERT的提出,使生產環境定製化情感模型成為可能。這裡就主要介紹BERT以及ALBERT。

▶ BERT

BERT(Bidirectional Encoder Representations from Transformerss)的全稱是基於 Transformer 的雙向編碼器表徵,其中「雙向」表示模型在處理某一個詞時,它能同時利用前面的詞和後面的詞兩部分信息(如下圖所示)。

在BERT中, 主要是以兩種預訓練的方式來建立語言模型。

1.MLM(Masked LM)

MLM可以理解為完形填空,作者會隨機mask每一個句子中15%的詞,用其上下文來做預測,例如:my dog is hairy → my dog is [MASK]。此處將hairy進行了mask處理,然後採用非監督學習的方法預測mask位置的詞是什麼,具體處理如下:

80%是採用[mask],my dog is hairy → my dog is [MASK]

10%是隨機取一個詞來代替mask的詞,my dog is hairy -> my dog is apple

10%保持不變,my dog is hairy -> my dog is hairy

之後讓模型預測和還原被遮蓋掉或替換掉的部分。

2.NSP(Next Sentence Prediction)

首先我們拿到屬於上下文的一對句子,也就是兩個句子,之後我們要在這兩段連續的句子裡面加一些特殊 token: [cls] 上一句話,[sep] 下一句話. [sep]

也就是在句子開頭加一個 [cls],在兩句話之中和句末加 [sep],具體地就像下圖一樣:

Token Embeddings:是詞向量,第一個單詞是CLS標誌,可以用於之後的分類任務。

Segment Embeddings:用來區別兩種句子,因為預訓練不光做LM還要做以兩個句子為輸入的分類任務。

Position Embeddings:讓BERT學習到輸入的順序屬性。

BERT在文本摘要、信息檢索、數據增強、閱讀理解等任務中,也有實際的應用和發展。更多關於Bert相關介紹,請參照百分點認知智能實驗室往期文章。

▶ ALBERT

ALBERT的全稱是A Lite BERT for Self-supervised Learning of Language Representations(用於語言表徵自監督學習的輕量級BERT),相對於Bert而言,在保證參數量小的情況下,也能保持較高的性能。當然同樣的模型還有 DistilBERT、TinyBERT。

1.ALBERT 和BERT的比較

下圖是BERT和ALBERT在訓練速度和性能上的整體比較:

ALBERT-xxlarge的表現完全超過BERT-large,同時參數量只有其佔比的70%,但是Bert-large的速度要比ALBERT-xxlarge快三倍左右。

BERT-xlarge的性能相對於Bert-base是低效的,表明大參數模型相對於小參數模型更加難訓練。

2.ALBERT的目標

在基於預訓練語言模型表徵時,增加模型大小一般可以提升模型在下遊任務中的性能。但是通過增加模型大小會帶來以下問題:

內存問題

訓練時間會更長

模型退化

在將Bert-large的隱層單元數增加一倍, Bert-xlarge在基準測試上準確率顯著降低。

ALBERT核心目標就是解決上述問題, 下面就來介紹ALBERT在精簡參上的優化。

3.ALBERT模型優化

明確參數的分布,對於有效可靠的減少模型參數十分有幫助。ALBERT同樣也只使用到Transformer的Encoder階段,如下圖所示:

圖中標明的藍色方框和紅色方框為主要的參數分布區域:

Attention feed-forward block(上圖中藍色實線區域):

參數大小: O(12 * L * H * H)

L:編碼器層數 eg:12

H:隱藏層大小 eg:768

參數量佔比:80%

優化方法:採用參數共享機制

Token embedding projection block(上圖中紅色實線區域):

參數大小:(V * E)

V:詞表大小 eg:30000

E:詞嵌入大小 eg:768

參數量佔比: 20%

優化方法:對Embedding進行因式分解

具體參數優化如下:

Factorized embedding parameterization(對Embedding因式分解)

ALBERT認為,token embedding是沒有上下文依賴的表述,而隱藏層的輸出值不僅包括了詞本身的意思還包括一些上下文信息,因此應該讓H>>E,所以ALBERT的詞向量的維度是小於encoder輸出值維度的。在NLP任務中,通常詞典都會很大,embedding matrix的大小是E×V。

ALBERT採用了一種因式分解(Factorized embedding parameterization)的方法來降低參數量。首先把one-hot向量映射到一個低維度的空間,大小為E,然後再映射到一個高維度的空間,當E<

可以看到,經過因式分解。參數量從O(V * H) 變為O(V*E + E*H),參數量將極大減小。如下圖所示:在H=768條件下,對比E=128和E=768,參數量減少17%,而整體性能下降0.6%。

在後續的實驗環境(所有的優化匯總後),對 embedding size 的大小進行評估,得出在 E=128時,性能達到最佳。

Cross-layer parameter sharing(跨層參數共享)

下圖是對BERT-Base Attention分布的可視化。對於一個隨機選擇的句子,我們可視化來自不同Layer的Head的Attention分布。可以看到,底層的Attention分布類似於頂層的Attention分布。這一事實表明在某種程度上,它們的功能是相似的。

Transformer中共享參數有多種方案,只共享feed-forward層,只共享attention層,ALBERT結合了上述兩種方案,feed-forward層與attention層都實現參數共享,也就是說共享encoder內的所有參數。但是需要主要的是,這只是減少了參數量,推理時間並沒有減少。如下圖所示:在採用 all-shared模式下,參數量減少70%,性能下降小於3%。

在經過上述的參數優化後,整體參數量有了極大的縮減,訓練速度也極大加快。後續作者又在模型變寬和模型變深上做了幾組實驗。如下:

模型變寬

當我們增加 H 大小時,性能會逐漸提高。在H=6144時,性能明顯下降。如下圖所示:

模型變深

在以ALBERT-large為基礎參數,設置不同的layer大小,發現layer=48的性能要差於layer=24的性能,如下圖所示:

一些實驗表示NSP(BERT-style)非但沒有作用,反而會對模型帶來一些損害。作者接著提出SOP(ALBERT-style)的優化模式。具體如下:

Inter-sentence coherence loss(句子連貫性)

在ALBERT中,為了去除主題識別的影響,提出了一個新的任務 sentence-order prediction(SOP),SOP的正樣本和NSP的獲取方式是一樣的,負樣本把正樣本的順序反轉即可。SOP因為是在同一個文檔中選的,只關注句子的順序並沒有主題方面的影響。並且SOP能解決NSP的任務,但是NSP並不能解決SOP的任務,該任務的添加給最終的結果提升了一個點。

在後續的實驗中, ALBERT在訓練了100w步之後,模型依舊沒有過擬合,於是乎作者果斷移除了dropout,沒想到對下遊任務的效果竟然有一定的提升。

當然作者對於增加訓練數據和訓練時長也做了詳盡的對比和測試,這裡不再進行描述。

在最初的 ALBERT發布時,是只有中文的。感謝數據工程師徐亮以及所在的團隊,於 2019 年 10 月,開源了首個中文預訓練的中文版 ALBERT 模型。

項目地址:

https://github.com/brightmart/albert_zh

四、

情感分析在輿情的應用實踐

▶ 業務調研

2019上半年,輿情服務的整體情感判定框架已經遷移到以Bert訓練為基礎的情感模型上,得出的測試指標 F1 值為 0.86,相較於舊版模型提升顯著; 但是雖然數據指標提升明顯,業務端實際感受卻並不明顯。因此我們對代表性客戶進行採樣調查,輔助我們找出生產指標和實驗室指標差異所在。同時針對上文提到的關於輿情業務中情感分析的痛點和難點,進行一次深度業務調研:

1.客戶情感滿意度調查

2.文本作用域(模型輸入文本選擇)調研

這裡將文本作用域分為以下幾個層次,分布情況如下圖所示:

標題:正常文章的標題

全文: 標題和正文的統稱

情感摘要:依據客戶的輸入特徵詞,從文章中抽取一段摘要;長度在256字符內。

關鍵詞周邊:只關注所配置關鍵詞周邊的文本作用域,一般是一句話。

主體(實體)詞周邊:依據客戶所配置的品牌詞、主體詞,選取對應的文本作用域。

3.情感判定因素

這裡對判定因素做以下介紹:

自然語義:是指符合人們的情感判定標準,像 色情、暴力、違禁、邪教、反動等言論都是敏感信息的範疇。比如:"#28天斷食減肥[超話]#美柚說我還有4天就來姨媽了,所以是快要來姨媽了體重就掉的慢甚至不掉了嗎,心塞。" 屬於敏感。

主體(實體)情感:一般涉及到的是 人名、地名、機構名、團體名、產品名、品牌名、」我「、」作者「等; 如果監測主體為美柚,那麼上述文本的情感傾向性就是非敏感。再舉例如下:」墨跡天氣又忘記籤到了,這個記性越來越差「,墨跡天氣是監測主體,那麼屬於非敏感。

業務規則: 是指以一種可表示、可量化、可總結、可表達的形式總結知識和規則,已經不符合自然語義的理解範疇。

業務規則&自然語義:客戶的負面信息判定是結合業務規則,並且是符合自然語義判定標準的。

我們針對上述調研結果進行詳盡分析,最終確定走情感細粒度模型的道路。

▶ 情感分析的落地實踐

精簡版本的情感架構概覽如下:

接下來會基於此進行講述,大致分為如下幾個層次:

1.輸入層

這裡主要是獲取相應文本輸入,以及客戶的文本作用域規則和檢索詞、主體詞,供下遊的文本作用域生成提供對應的條件。

2.文本作用域

依據文本作用域規則,生成對應的模型輸入,請參照上文對文本作用域的闡述。這裡實驗內容針對的是情感摘要。首先將文本進行分句,然後依據對每一個句子和檢索詞進行匹配,通過BM25計算相關性。這裡限制的文本長度在256內。在文本域優化後, 對線上的10家客戶進行對比分析,實驗條件如下:

客戶數目:10

數據分布:從輿情系統中按照自然日,為每個客戶選取100條測試數據

對比條件:情感摘要、標題

進行對比分析(客戶名稱已脫敏),每個客戶的情感摘要和文本標題效果依次展示。如下圖所示:

可以發現整體效果是有極大提升的。但是也可以看到部分客戶的敏感精準率是偏低的,這個和客戶的敏感分布有關,大部分的敏感佔比只有總數據量的 10% ~20%,有些甚至更加低。所以面臨一個新的問題,如何提升非均勻分布的敏感精準度。這個會在下文進行陳述。

3.情感判定因素

由上文的情感因素分布得知, 情感對象(實體)的因素佔54%,基於實體的情感傾向性判定(ATSA)是一個普適需求。如果這裡直接使用通用情感分析判定(SA),在輿情的使用場景中會存在高召回,低精準的的情況。接下來會對此進行相關解決方案的的論述。

4.模型層

通用情感模型

在19年初, 使用Bert-Base(12L,768H)進行fine-tune,得到如下指標:情感準確性:0.866, 敏感精準率: 0.88,敏感召回:0.84,F1: 0.867;後來在ERNIE1.0上進行嘗試,情感準確性能提升2個百分點。不過因為PaddlePaddle的生態問題,沒有選擇ERNIE。這是一個符合自然語義的情感模型, 但是對於輿情客戶來說,這還遠遠不夠。

相關度模型

對生產環境的埋點日誌分析,發現客戶存在大量的屏蔽操作。選取近一個月屏蔽最多的10個話題進行分析,如下圖所示:

通過調研和分析發現,這些數據雖然命中關鍵詞,但是數據相關度比較低。在情感判定之前引入相關度判定, 對於非相關的數據,一律判定為非敏感。對於精準數據再次進行情感分析判定,大大提升敏感精準率。在工程上選取ALBERT進行模型訓練可以達到部署多個模型的目的。觀測到,單個模型在推理階段,在Gpu(RTX 2080)上佔用的顯存大約在600MiB,極大節省資源。

部分客戶相關度模型效果如下:

部分客戶實施相關度判定,由於數據特徵比較明顯,可以很容易達到比較精準的數據效果,但是並不適用於所有客戶。相關度模型的引入,即達到篩選相關數據的目的,也能減少情感判定噪音數據的幹擾,提升敏感精準度。

5.ATSA-面向情感實體的情感傾向性分析

ATSA(aspect-term sentiment analysis) 要解決就是在特定情感實體下的情感傾向性判定問題。這裡主要借鑑《Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence》文中的思想。這個工作做得非常聰明,它把本來情感計算的常規的單句分類問題,通過加入輔助句子,改造成了句子對匹配任務。很多實驗證明了:BERT是特別適合做句子對匹配類的工作的,所以這種轉換無疑能更充分地發揮BERT的應用優勢。

輿情中要解決的問題如下:

A公司和B公司的情感傾向性是非敏感的, 而C公司卻是敏感的。要解決這個問題,要面臨兩個問題:

實體識別和信息抽取問題

實體級別的情感傾向性判定

在輿情的業務場景中,可以簡化問題,由於情感實體是提前給定的, 所以不需要做實體識別和信息抽取, 只需要對特定實體的情感傾向性進行判定。整體流程如下:

主要是利用 Bert Sentence-Pair,文本與實體聯合訓練,得到輸出標籤。目前實驗證明,經過這種問題轉換,在保證召回率提升的情況下,準確率和精準率都得到了提高。選取一個客戶進行對比測試,如下所示:

上述是一個正負樣本及其不均勻的情況,增加敏感精準率將提高客戶的滿意度。目前的實現的機制還略顯簡單,未來還將持續投入。

6.情感規則引擎

在部分客戶場景中, 他們的業務規則是明確的或者是可窮舉的。這裡會做一些長尾詞挖掘、情感新詞發現等工作來進行輔助, 同時要支持實時的幹預機制,快速響應。比如某些客戶的官方微博經常會發很多微博,他們會要求都判定成非敏感。這裡不再做過多介紹。

五、

長期規劃

▶ AI 訓練平臺的構建

軟體開發領域和模型開發領域的流程是不同的,如下所示:

可以看到,構建模型是困難的。在輿情架構發展中,線上多模型是必然的趨勢,也就意味著需要一個平臺能夠快速支持和構建一個定製化模型,來滿足真實的應用場景。這就需要從底層的算力資源進行管控、輿情數據的標準化制定和積累、模型的生命周期管理等多方面進行衡量。關於 AI 訓練平臺的構建以及在輿情領域的應用實踐,我們將在後續文章做進一步闡述。

▶ 持續學習,增量迭代

隨著輿情客戶對系統的深度使用,一般會有情感標籤的人工糾正。所以需要保證模型可以進行增量迭代,減少客戶的負反饋。

▶ 多實體的情感傾向分析

對包含有多個實體信息的文本,針對每一個系統識別到的實體,做自動情感傾向性判斷(敏感、非敏感),並給出相應的置信度,包括實體庫的構建。

▶ 提升垂直類情感情感分析效果

在垂類上(App、餐飲、酒店等)情感傾向性分析準確率上加大優化力度。

隨著輿情業務的發展,各領域客戶都沉澱了大量與業務貼近的優質數據,如何有效使用這些數據,形成情感效果聯動反饋機制,為業務賦能,是情感分析領域面臨的新的挑戰。在2019年的實踐中,通過場景化的情感分析框架落地應用,對情感效果做到了模型定製化幹預,真正提高了客戶滿意度。這種機制具有整體精度高、定製能力強、業務感知明顯的特點。在後續工作中,將以 模型訓練自動化與人工反饋相結合的方式,將模型定製能力規模化、平臺化,實現情感分析在輿情場景下千人千面的效果。

百分點輿情洞察系統

 

百分點輿情洞察系統(MediaForce)是一款沉澱多年的網際網路公開輿情 SAAS 分析系統,覆蓋全網主流資訊站點及社交媒體的公開數據,幫助企業迅速發現輿情熱點,掌握負面和輿論動向,為上萬客戶提供精準的輿情分析服務。

Refer:

Chi Sun, Luyao Huang, Xipeng Qiu: Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence. NAACL-HLT (1) 2019: 380-385

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186

Yifan Qiao, Chenyan Xiong, Zheng-Hao Liu, Zhiyuan Liu: Understanding the Behaviors of BERT in Ranking. arXiv preprint arXiv:1904.07531 (2019).

Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut:ALBERT: A Lite BERT for Self-supervised Learning of Language Representations.arXiv:1909.11942 [cs.CL]

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin:Attention Is All You Need.arXiv:1706.03762 [cs.CL]

Linyuan Gong, Di He, Zhuohan Li, Tao Qin, Liwei Wang, Tieyan Liu ; Proceedings of the 36th International Conference on Machine Learning, PMLR 97:2337-2346, 2019:Efficient Training of BERT by Progressively Stacking

https://github.com/thunlp/PLMpapers

http://jalammar.github.io/illustrated-bert/

https://www.bilibili.com/video/BV1C7411c7Ag?p=4




免責聲明:

本站系本網編輯轉載,會儘可能註明出處,但不排除無法註明來源的情況,轉載目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯繫, 來信: liujun@soft6.com 我們將在收到郵件後第一時間刪除內容!

[聲明]本站文章版權歸原作者所有,內容為作者個人觀點,不代表本網站的觀點和對其真實性負責,本站擁有對此聲明的最終解釋權。

相關焦點

  • 百分點認知智能實驗室出品:機器翻譯是如何煉成的(下)
    Transformer模型毋庸置疑是當前機器翻譯的主流模型,面對谷歌等科技巨頭公司強大的實力,百分點認知智能實驗室如何採用Transformer模型研製具有市場競爭力、工業級的多語言神經翻譯系統呢?第4部分將為您娓娓道來。
  • 百分點認知智能實驗室:基於知識圖譜的問答技術和實踐
    百分點認知實驗室參加了該評測任務中的」知識圖譜的自然語言問答」比賽,經過長達3個多月的激烈角逐,百分點認知智能實驗室在比賽數據集上得分0.90106,位列A榜第三名。本文主要介紹實驗室在本次比賽和基於知識圖譜問答業務的實踐中使用的技術方案。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    百分點認知智能實驗室在實踐探索中,通過利用自然語言處理技術獲取結構化的信息抽取能力,探索出了一套行業知識圖譜構建流程方法。尤其是基於深度遷移學習,幫助構建法律百科詞條、公安文本知識圖譜等行業項目中,在實體抽取、關係抽取、事件抽取等方面都取得了理想的實踐效果。本文將從概念辨析、技術路徑、實踐總結,由虛到實、由淺入深引導大家理性看待知識圖譜技術的能與不能,以更好地在實踐中運籌帷幄。
  • 首屆全國社會輿情分析論壇在京召開
    全國社會輿情分析論壇現場當前,線上社交網絡與線下物理社會交叉融合日趨緊密,輿情內容千變萬化,輿情源錯綜複雜,社會輿情分析的不同系統標準不一,離輿情實戰分析尚有一定距離。全國社會輿情分析論壇旨在結合各界的關切熱點,邀請複雜系統、社會學、新聞傳播學、自然語言處理、社交網絡分析等多個方向的專家學者與企業精英,探索構建適應社會變化發展的輿情智能分析解決方案。
  • 優必選科技與華南理工大學共建「類人情感智能」聯合創新實驗室
    11月11日,優必選科技和華南理工大學合作共建的「類人情感智能」聯合創新實驗室在廣州正式揭牌。雙方將在多模態情感計算、類人情感交互等類人情感智能的關鍵領域開展高水平合作研究,促成類人情感智能技術在機器人產業化中的應用,深入推動人工智慧行業的發展。
  • 百分點科技集團獲中國智能科技最高獎:吳文俊人工智慧科學技術獎
    百分點科技集團技術創新成果以「用數據智能推動社會進步」為使命,百分點科技集團一直處在科技創新第一線,成立十年以來,積累了數據集成、數據融合、數據治理、數據共享等全棧大數據核心技術,具備萬億級大數據平臺的構建能力和實踐經驗。
  • 百分點連續兩年獲得北京市科學技術獎
    「基於動態知識圖譜的智能交互式增強分析技術研發及應用」通過專家的多輪嚴格評選,最終獲得2019年北京市科學技術獎。為此,百分點持續投入,研發了主動式數據理解和解讀、數據-圖表自動模式監測、會話式交互分析等關鍵技術,搭建了新一代基於動態知識圖譜的智能交互式增強分析平臺。劉譯璟介紹,這是一款面向業務人員、無需編程即可探索數據價值的國產化工具集,用戶通過自然語言進行交互,系統根據內置的上下文分析算法進行計算,將數據分析結果自動呈現出來,讓普通業務人員快速成為「公民數據科學家」。
  • 百分點入選《2020中國數據智能產業圖譜》四大細分領域
    近日,國內知名大數據產業創新服務媒體數據猿發布了《2020中國數據智能產業圖譜》,系統梳理中國數據智能行業發展現狀,釐清行業發展脈絡,為企業和從業者提供有價值的借鑑。其中,百分點作為數據智能產業典型代表企業,入選該圖譜中政務、安防、自然語言處理和可視化四大細分領域。
  • 百分點智能政府決策系統(DeepGovernor)全新發布及數字政府業務...
    6月28日,在由中國國際大數據產業博覽會執委會主辦的2020「數博發布」活動中,「智能政府決策系統(DeepGovernor)」成功發布。    該系統是北京百分點信息科技有限公司(以下簡稱:百分點)自主研發的智能決策輔助系統,核心功能包括數據融合治理、全局態勢感知、自由數據探索分析、預測預警和數據共享,能夠支持智能交互式增強分析,實現對決策業務進行事前判斷、事中控制和事後反饋。
  • 中國認知智能行業報告
    從感知、認知到行動的三大發展階段,也代表了數據處理的流程和深度。 感知智能主要是數據識別,只需要完成對大規模數據的採集,以及對圖像、視頻、聲音等類型的數據進行特徵抽取,完成結構化處理。 認知智能則需要在數據結構化處理的基礎上,理解數據之間的關係和邏輯,並在理解的基礎上進行分析和決策,即認知智能包括理解、分析、決策三個環節。
  • 百分點科技首批通過「知識圖譜產品認證」 並加入產業推進方陣
    論壇期間,百分點智能融合大數據分析平臺首批通過「知識圖譜產品認證」,百分點公安知識圖譜應用案例入選《認知智能時代:知識圖譜實踐案例集》,同時,百分點科技深度參與知識圖譜產業推進方陣籌備會。首批通過「知識圖譜產品認證」電子標準院作為國家信息技術領域標準化的綜合性研究機構,在標準化制定方面發揮著核心的技術基礎作用。
  • 科大訊飛承建國內首個認知智能國家重點實驗室
    中證網訊(記者 任明傑)日前,科技部正式設立第一個人工智慧國家重點實驗室——認知智能國家重點實驗室,這一實驗室交由科大訊飛股份有限公司來承建。  「科大訊飛承擔建設認知智能國家重點實驗室,將藉助更高的平臺和勢能,進一步在全球範圍內整合認知智能領域的源頭核心技術、科技人才和行業數據資源,助力我國在認知智能的技術和產業走在世界前列,為我國成為世界主要的人工智慧創新中心貢獻自己的力量。」 科大訊飛副總裁、研究院院長胡國平告訴記者。
  • 類腦智能國家實驗室落戶合肥
    昨天,類腦智能技術及應用國家工程實驗室在合肥揭牌成立,這也是我國類腦智能領域唯一一家國家級工程實驗室。實驗室主任吳楓是中科大信息科學技術學院執行院長,他介紹,中科大在類腦智能涉及的計算機、生命科學、物理、信息技術等方面都有很出色的研究。  實驗室的建設場地分兩塊:各個研究室在中科大科技實驗樓,共2722平方米;產業技術的轉化在中科大先研院1號研發大樓。工程實驗室的預算投資是1.4億元;實行項目首席專家聘任制。
  • 百度參與中科大類腦智能國家工程實驗室 繼續發力智能技術
    類腦智能技術及應用國家工程實驗室是針對我國腦認知和類腦信息處理能力較為薄弱等問題,建設類腦智能技術及應用創新平臺,支撐開展類腦計算系統、類腦信息處理、多模態感知、自主學習、認知腦模擬、類腦多模態信息處理、腦神經計算、基於神經網絡的類腦機器人、面向類腦智能的核心晶片和作業系統等技術的研發和工程化,提升我國類腦智能領域的認知和研發水平。
  • ...智能學院赴合肥中科大類腦智能技術及應用國家工程實驗室開展調研
    7月21日,安徽理工大學人工智慧學院副院長王成軍(主持工作)一行4人利用AI核心師資培訓間隙赴合肥中科大類腦智能技術及應用國家工程實驗室、合肥中科類腦智能技術有限公司開展專業調研、校企產學研合作。合肥綜合性國家科學中心人工智慧研究院院長助理湯進教授及中科類腦人工智慧團隊熱情接待了王成軍一行。
  • 杭州灣智慧谷北大信研究院情感智慧機器人實驗室學術論文入選IROS
    浙江省北大信息技術高等研究院情感智慧機器人實驗室撰寫的學術論文「Making Robots Draw A Vivid Portrait In Two Minutes」,被2020年的IEEE\RSJ智慧機器人與系統國際會議IROS
  • 約戰豆瓣之畔,決勝微博之巔,人工智慧全面檢測網絡輿情
    網絡是當下社會輿論的主要載體之一,在網際網路時代,尤其是移動網際網路時代,大數據及大數據分析技術為輿情分析和研判提供了全新的資源、方法與範式。由於網絡輿情數據存在著海量、多維度等特點,輿情數據的深度價值挖掘一直是這一領域發展的瓶頸之一。近年來,人工智慧技術的興起與實用化,為我們藉助於人工智慧實現網絡輿情分析的自動化、智能化、精準化提供了新的手段和路徑。
  • 賦能數字政府建設,百分點DeepGovernor讓數字未來觸手可及
    今年2月,某歸國人員在機場沒有找到自己託運物品中含有口罩的行李,在微博上發帖稱防疫物資被海關無償徵用,一時激起強烈的反響。雖然他並沒有艾特(@)當地海關,但是他這一行為很快被當地海關獲悉。海關旋即聯繫到他並告知行李準確信息,很快消除了誤會,同時海關也發布微博闢謠帖進行說明,將把一個潛在的負面情緒進行了有效控制。
  • 民主與法制網2020年輿情觀察分析報告
    輿情背景   2020年發生不少熱點新聞事件,涉及生活的方方面面。民主與法制網記錄並追蹤了不同時期的五十餘起熱點新聞事件,進行了輿情觀察分析。   在2020年民主與法制網輿情觀察分析報告中,囊括了各行各業,如涉及教育行業的有《西安六十六中學「殺師案」輿情觀察》《涉教育熱點事件輿情觀察:個案背後謹防群體危機》《監督疲軟,信息通道被人為堵塞 ——貴州大方拖欠教師工資案輿情觀察》《陝西鎮安7.1億豪華中學輿情觀察》等等;涉及民生領域的有《「直播帶貨」助力扶貧輿情觀察》《南方暴雨「車輪戰」輿情觀察:防汛進入戰時狀態洪災無情人有情》
  • 凝結行業領先應用實踐 美雲智數布局網際網路大數據領域
    5月19日下午,以「智上雲端、數聚共贏」為主題,美的集團旗下廣東美雲智數科技有限公司(以下簡稱美雲智數)在線上舉行了「SaaS戰略發布會暨渠道合作啟動儀式」,發布了SaaS(軟體即服務)戰略。在此次戰略發布會上,美雲智數首批推出SaaS產品陣容,其中包括網際網路大數據、採購雲、工業仿真三大領域。