1 介紹
1.1 自然語言處理
自然語言通常是指一種自然地隨文化演化的語言,是人類交流和思維的主要工具,是人類智慧的結晶。狹義的自然語言處理是使用計算機來完成以自然語言為載體的非結構化信息為對象的各類信息處理任務,比如文本的理解、分類、摘要、信息抽取、知識問答、生成等的技術。鑑於自然語言豐富地表現了人類的認知、情感和意志,潛在地使用了大量常識和大數據,自身在算法和模型上也多採用各種啟發式線索。自然語言處理作為人工智慧的一個分支,其源頭和人工智慧一樣,都出自於計算機科學的鼻祖——阿蘭·圖靈。圖靈提出的圖靈測試,就把使用自然語言與人進行對話可以亂真的能力作為判別一個機器系統有無智能的標準。在圖靈的時代,讓機器「善解人意」是在當時的技術條件下還看不到實現的希望。自然語言處理是人工智慧中最為困難的問題之一,是實現人工智慧、通過圖靈測試的關鍵。按照當代語言學理論,自然語言分符號、詞法、句法、語義和語用五個層面。在符號層面,有語音、文字、手語和電子輸入。在詞法層面,有詞典、詞性標註、詞的形態變化、構詞法等。在句法層面,有詞對詞的關聯/依存關係,以及短語對短語的結合/拼接關係。在語義層面,有語義標籤與它們在現實/想像世界中的所指之間的映射關係和語義標籤之間的角色指派關係。在語用層面,有語言成分與語境之間、字面意義和言外之意之間的複雜互動關係。一般稱的「語法」,包含了詞法和句法兩個層面。NLP (Natural Language Processing) 自然語言處理,是計算機科學、人工智慧和語言學的交叉學科,目的是讓計算機處理或「理解」自然語言。
1.2 應用領域
信息檢索:包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為文本信息的索引和檢索。例如在一大堆非結構化的信息裡面(通常是文本),找到符合需求的信息。
信息過濾:聊天室廣告屏蔽,違規內容審核,髒話過濾,垃圾郵件過濾。
信息提取:從指定文本範圍中提取出重要信息,例如時間、地點、人物、事件等,可以幫人們節省大量時間成本,且效率更高。比如文摘生成利用計算機自動從原始文獻中摘取文字,成果能夠完整準確反映出文獻的中心內容。
文本生成:根據限定條件或輸入內容的不同,進行數據到文本或文本到文本的生成。
智能問答:對一個自然語言表達的問題進行某種程度的分析(例如實體連結、關係式、形成邏輯表達式等),分析完畢後在知識庫中查找可能的候選答案,通過排序機制找出最佳的答案進行回復。比如電商行業中廣泛應用的自動回復客服,通過回復許多基本而重複的問題,從而過濾掉大量重複問題,使得人工客服能夠更好地服務客戶。
機器翻譯:通過把輸入的源語言文本通過自動翻譯獲得另一種語言的文本,是自然語言處理中最為人所熟知的場景,比如百度翻譯、Google翻譯等。
文本挖掘:包括文本聚類、分類、情感分析以及對挖掘的信息和知識通過可視化、交互式界面進行表達。
輿論分析:通過收集和處理海量信息,對網絡輿情進行自動化的分析,幫助分析哪些話題是目前的熱點,同時對熱點的傳播路徑及發展趨勢進行分析判斷,及時應對網絡輿情。
知識圖譜:又稱科學知識圖譜,在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關係的一系列各種不同的圖形。以可視化技術為載體來描述知識資源及其載體,挖掘、分析、構建、繪製和顯示知識及它們之間的相互聯繫。
1.3 發展趨勢
趨勢1:語義表示——從符號表示到分布表示舉個例子,荷蘭和德國這兩個國家名是兩個詞。如果我們把這兩個詞放到一個語義的空間裡,把它們表示為連續、低維、稠密的向量的話,就可以計算不同層次的語言單元之間的語義相似度。
趨勢2:學習模式——從淺層學習到深度學習基於淺層模型的學習(如SVM和邏輯回歸),大多數的語言信息用稀疏表示(高維特徵)表示,會導致諸如維數災難之類的問題。基於密集向量表示的神經網絡在各種NLP任務中取得了較好的效果。這一趨勢是由詞嵌入和深度學習方法的成功引發的。
趨勢3:NLP平臺化——從封閉走向開放NLP領域的研究程序和數據越來越走向開放,各學校和各大企業提供的開放平臺越來越多,使用的門檻也越來越降低。
趨勢4:語言知識——從人工構建到自動構建NLP領域需要的大量顯性知識現在已經有自動的方法來構建,比如自動發現詞彙與詞彙之間的關係。
趨勢5:對話機器人——從通用到場景化把對話機器人和特定場景結合,進行問答或者執行任務,做有用的人機對話。場景化對話機器人,非常有趣味性和實用價值。
趨勢6:文本理解與推理——從淺層分析向深度理解邁進給計算機一篇文章,讓它去理解,然後人問計算機各種問題,看計算機是否能回答,答案來自於這篇文章。
趨勢7:文本情感分析——從事實性文本到情感文本文本情感分析在商業和政府輿情方面越來越得到廣泛應用。
趨勢8:社會媒體處理——從傳統媒體到社交媒體人們越來越多地把文本情感分析應用到電影票房的預測以及股票價格的預測中。
趨勢9:文本生成——從規範文本到自由文本文本生成近幾年很火,從利用模板生成規範性的文本到生成自由文本。
趨勢10:NLP+行業——與領域深度結合,為行業創造價值NLP已廣泛應用在金融、電商、醫藥、司法、教育等多個行業中。
2 自然語言處理在金融領域的應用場景
2.1 金融科技政策
中國人民銀行印發銀髮【2019】209號文件,《金融科技(FinTech)發展規劃(2019-2021年)》(以下簡稱《規劃》),明確提出未來三年金融科技工作的指導思想、基本原則、發展目標、重點任務和保障措施。《規劃》中一共列出了二十七項重點任務。其中,第六項、第十項、以及第十一項重點任務與人工智慧密切相關。摘選如下:(六)穩步應用人工智慧。深入把握新一代人工智慧發展的特點,統籌優化數據資源、算法模型、算力支持等人工智慧核心資產,穩妥推動人工智慧技術與金融業務深度融合。根據不同場景的業務特徵創新智能金融產品與服務,探索相對成熟的人工智慧技術在資產管理、授信融資、客戶服務、精準營銷、身份識別、風險防控等領域的應用路徑和方法,構建全流程智能金融服務模式,推動金融服務向主動化、個性化、智慧化發展,助力構建數據驅動、人機協同、跨界融合、共創分享的智能經濟形態。(十)完善金融產品供給。強化需求引領作用,主動適應數字經濟環境下市場需求的快速變化,在保障客戶信息安全的前提下,利用大數據、物聯網等技術分析客戶金融需求,藉助機器學習、生物識別、自然語言處理等新一代人工智慧技術,提升金融多媒體數據處理與理解能力,打造「看懂文字」、「聽懂語言」的智能金融產品與服務。
2.2 NLP+金融
金融行業因其與數據的高度相關性,成為人工智慧最先應用的行業之一,而NLP與知識圖譜作為人工智慧技術的重要研究方向與組成部分,正在快速進入金融領域,並日益成為智能金融的基石。只要能深入掌握兩到三種能力,就能具有相當的競爭力。在這些業務場景中,NLP和知識圖譜技術的共同應用,能發揮出巨大效能。同時,一種核心能力可以在多個智能金融應用場景中得到應用,這些應用場景包括:智能風控、智能監管、智能問答、智能運營、智能投研、智能投顧等。
2.2.1 智能問答和語義搜索
智能問答和語義搜索是NLP的關鍵技術,目的是讓用戶以自然語言形式提出問題,深入進行語義分析,以更好理解用戶意圖,快速準確獲取知識庫中的信息。在用戶界面上,既可以表現為問答機器人的形式(智能問答),也可以為搜尋引擎的形式(語義搜索)。智能問答系統一般包括問句理解、信息檢索、答案生成三個環節。智能問答系統與金融知識圖譜密切相關,知識圖譜在語義層面提供知識的表示、存儲和推理,智能問答則從語義層面提供知識檢索的入口。基於知識圖譜的智能問答相比基於文本的問答更能滿足金融業務實際需求。智能問答和語義搜索的價值在金融領域越來越被重視。它主要應用的場景包括智能投研、智能投顧和智能客服。在智能投研領域,投研人員日常工作需要通過多種渠道搜索大量相關信息。而有了金融問答和語義搜索的幫助,信息獲取途徑將是「Just ask a question」。並且,語義搜索返回的結果不僅是平面化的網頁信息,而是能把各方面的相關信息組織起來的立體化信息,還能提供一定的分析預測結論。在智能客服和智能投顧領域,智能問答系統的應用主要是機器人客服。機器人客服目前的作用還只是輔助人工客服回答一些常見問題,但已能較大地節省客服部門的人力成本。
2.2.2 資訊與輿情分析
金融資訊信息非常豐富,例如公司新聞(公告、重要事件、財務狀況等)、金融產品資料(股票、證券等)、宏觀經濟(通貨膨脹、失業率等)、政策法規(宏觀政策、稅收政策等)、社交媒體評論等。金融資訊每天產生的數量非常龐大,要從浩如煙海的資訊庫中準確找到相關文章,還要閱讀分析每篇重要內容,是費時費力的工作。如果有一個工具幫助人工快速迅捷獲取資訊信息,將大大提高工作效率。資訊輿情分析的主要功能包括資訊分類標籤(按公司、產品、行業、概念板塊等)、情感正負面分析(文章、公司或產品的情感)、自動文摘(文章的主要內容)、資訊個性化推薦、輿情監測預警(熱點熱度、雲圖、負面預警等)。在這個場景中,金融知識圖譜提供的金融知識有助於更好理解資訊內容,更準確地進行資訊輿情分析。資訊輿情分析的應用主要在智能投研和智能監管這兩個場景。目前市場上的輔助投研工具中,資訊輿情分析是必不可少的重要部分。資訊輿情分析作為通用工具更多是對海量定性數據進行摘要、歸納、縮簡,以更加快捷方便地為投研人員提供信息,支持他們進行決策,而非直接給出決策結論。在智能監管領域,通過資訊輿情分析,對金融輿情進行監控,發現違規非法活動進行預警。
2.2.3 金融預測分析
有分析表明,投資決策人員在進行決策時,更多依賴於新聞、事件甚至流言等定性信息,而非定量數據。因此,可期待基於語義的金融預測分析大有潛力可挖。這個場景中涉及的關鍵NLP技術包括事件抽取和情感分析技術。金融知識圖譜在金融預測分析中具有重要的作用,它是進行事件推理的基礎。例如在中興事件中,可根據產業鏈圖譜推導受影響的公司。
2.2.4 文檔信息抽取
信息抽取是NLP的一種基礎技術,是NLP進一步進行數據挖掘分析的基礎,也是知識圖譜中知識抽取的基礎。採用的方法包括基於規則模板的槽填充的方法、基於機器學習或深度學習的方法。按抽取內容分可以分為實體抽取、屬性抽取、關係抽取、規則抽取、事件抽取等。在這裡的文檔信息抽取特指一種金融應用場景。指從金融文檔(如公告研報)等抽取指定的關鍵信息,如公司名稱、人名、指標名稱、數值等。文檔格式可能是格式化文檔(word, pdf, html等)或純文本。對格式化文本進行抽取時需要處理並利用表格、標題等格式信息。文檔信息抽取的應用場景主要是智能投研和智能數據,促進數據生產自動化或輔助人工進行數據生產、文檔覆核等。
2.2.5 自動文檔生成
自動文檔生成指根據一定的數據來源自動產生各類金融文檔。自動報告生成屬於生成型NLP應用。它的數據來源可能是結構化數據,也可能是從非結構化數據用信息抽取技術取得的,也可能是在金融預測分析場景中獲得的結論。簡單的報告生成方法是根據預定義的模板,把關鍵數據填充進去得到報告。進一步的自動報告生成需要比較深入的NLG技術,它可以把數據和分析結論轉換成流暢的自然語言文本。自動文檔生成的應用場景包括智能投研、智能投顧等。
2.2.6 風險評估與反欺詐
在金融行業,風險評估與反欺詐的應用場景首先是智能風控。利用NLP和知識圖譜技術改善風險模型以減少模型風險,提高欺詐監測能力。其次,還可以應用在智能監管領域,以加強監管者和各部門的信息交流,跟蹤合規需求變化。通過對通信、郵件、會議記錄、電話的文本進行分析,發現不一致和欺詐文本。例如欺詐文本有些固定模式:如用負面情感詞,減少第一人稱使用等。通過有效的數據聚合分析可大大減少風險報告和審計過程的資源成本。
2.2.7 客戶洞察
NLP技術在客戶關係管理中的應用,是通過把客戶的文本類數據(客服反饋信息、社交媒體上的客戶評價、客戶調查反饋等)解析文本語義內涵,打上客戶標籤,建立用戶畫像。同時,結合知識圖譜技術,通過建立客戶關係圖譜,以獲得更好的客戶洞察。這包括客戶興趣洞察(產品興趣),以進行個性化產品推薦、精準營銷等。以及客戶態度洞察(對公司和服務滿意度、改進意見等),以快速響應客戶問題,改善客戶體驗,加強客戶聯繫,提高客戶忠誠度。客戶洞察在金融行業的應用場景主要包括智能客服和智能運營。例如在智能客服中,通過客戶洞察分析,可以改善客戶服務質量,實現智能質檢。在智能運營(智能CRM)中,根據客戶興趣洞察,實現個性化精準營銷。
各種核心能力在智能金融的主要應用場景呈以下分布:
3 業務項目和產品實踐
3.1 相似新聞聚類
在這個場景下,業務痛點:集團某部門每天需要閱讀處理從各個來源獲取到的成千上萬條新聞。這些新聞的編輯們為了吸引用戶,往往使用「震驚」、「驚人」等標題黨專用詞彙,但是內容本質上沒有差別,描述的都是同一個事件。這無形中對業務人員增加了不必要的工作量。在解決此痛點的過程中,經過對輸入數據特徵的分析,我們先後嘗試了若干經典特徵構建方法和若干相似度度量方法的不同組合。特徵構建方法如TF、TF-IDF、DOC2VEC、BM25 、SIMHASH等。相似度度量方法如最小編輯距離、歐氏距離、餘弦距離、傑卡德相似度和海明距離等。根據業務需求選取了合適的特徵構建方法、相似度度量方法以及相似度閾值進行聚類,最終取得了滿意的效果。
3.2 文件分類標籤化
在每一次集團的例行項目中,很多領域的業務人員為了能在大量的報送文件中快速搜索到想要的文件,需要對這些文件進行整理、分類、打標籤。而如今自然語言處理技術的快速發展使其中大部分工作的自動化處理成為了可能。其中,領域詞庫的構建是分類工作的基礎,隨著詞庫構建的理論研究逐步深入和在工程實踐中的廣泛應用,形成了許多的構建方法和構建工具。傳統構建方式往往是通過積累的大量的文本數據(例如行業的科研論文,項目報告,政府規章制度等等)依靠人工批註的模式去篩選該行業的專業領域詞彙。經過對某業務領域現有語料進行分析和處理,在與需求方領域專家的不斷探討過程中,摸索出一條構建該領域詞庫的有效方法。該方法使用命名實體識別、新詞發現等算法能自動抽取出候選領域詞。結合人性化界面,能夠很方便地讓業務人員對領域詞庫進行管理、擴展等維護工作。在新的語料集的支持下,通過敏捷迭代,能快速發現和提取出新的領域詞。使用該領域詞庫,能大大提升領域分詞準確度。不僅順利滿足了文件分類的業務需求,同時也為後續的NLP相關處理工作打下紮實的基礎。
3.3 智能對話機器人
當今的工業界,智能問答機器人是一個相對比較成熟的領域。典型的問答機器人可以分為以下四類:
文本型智能客服這種類型的對話機器人大多出現在app中或者網站上,以文字為主要的交互方式,旨在為顧客提供常見的問題解答與簡單任務的處理(如退貨,換貨等);常見的有:阿里小蜜,京東JIMI話務型智能客服這種類型的對話機器人常見於銀行與大型企業(如家電)的話務諮詢上,以語音為交互方式,同樣也是為了解答顧客的常見問題與處理簡單任務(如查詢餘額、充值等);常見的有:光大銀行智能客服,工行工小智個人助手這種的對話機器人現階段基本已經滲透到了每一臺智慧型手機,進入大多數人的日常生活,旨在為用戶提供一種語音交互的手段來提高操作的效率(如鬧鐘設置,日程提醒);常見的有:Siri,小愛同學工作助手這種類型的對話機器人主要用於以文本或者語音對話的形式幫助員工進行假期申請,事務提醒等日常工作事項,起到辦公事項的整合(各種辦公事項都可以通過工作助手對話來實現)與效率的提高;常見的有:slack,釘釘問答機器人在如下三個場景中有很高的商業價值:
售後接待在這個場景下,對話機器人最大的價值在於問題的攔截,即100個顧客來諮詢,最終需要人工客服解答的顧客只有10個,大大降低客服成本。售前接待這種場景下,對話機器人最大的價值在於接待的及時性;想像下,在淘寶裡詢問掌柜問題,若是掌柜隔了五分鐘再回復,那基本就不會在這家店買東西了。因此,這類機器人在顧客到來的第一時間由機器人接待,同時機器人也在通知掌柜抓緊上線,接管會話。對於企業服務來說,這類機器人還會判斷顧客的意向程度,針對高意向的顧客會引導留下聯繫方式,方便後續客戶經理的跟進。個人助手這種場景下的機器人,最大的價值在於以語音交互的方式提高用戶操作效率。例如在晚上在床上準備睡了,忘了設鬧鐘,而手機在桌子上,這時候一句話就能完成鬧鐘設置想必是一個良好的體驗。基於以上的價值評估,我們在智庫產品體系框架內研發了金融自動問答機器人和員工智能助手兩款產品。以下是截圖:
這兩款產品的優勢在於:
智能問答機器人融合智能語義匹配引擎,準確率有保障低成本知識閉環:智能問答機器人服務採用文本挖掘、關聯規則等技術從日誌、操作記錄等多源數據中學習領域知識,強化問答知識庫,結合知識圖譜等工具能力,提升問答效果7*24小時工作,不受情緒影響。減少溝通複雜度移動版隨時隨地都能發起提問。賦予機器人不同的人設,更人性化。3.4 輿情監測
覆蓋全網萬餘個核心信息源(例如企業公告信息、政府公開信息、行業網站),監測信用債券發行主體,ABS項目基礎資產主體和結構化證券信息。應用事件抽取和情感分析等NLP技術,對諸如新聞媒體和社交平臺上的信息按照情感、業務關聯風險和重要程度進行分類整理和清晰呈現。提早發現關注公司的正負面新聞,觸發負面新聞告警,利用先發優勢輔助交易和風險決策。
4 小結
在新一輪科技革命和產業變革的背景下,金融科技蓬勃發展,人工智慧、大數據、雲計算、物聯網等信息技術與金融業務深度融合,為金融發展提供源源不斷的創新活力。堅持創新驅動發展,加快金融科技戰略部署與安全應用,已成為深化金融供給側結構性改革、增強金融服務實體經濟能力、打好防範化解金融風險攻堅戰的內在需要和重要選擇。自然語言處理技術作為人工智慧的一個重要分支,通過與金融的具體業務場景結合,能真正解決金融企業需求痛點,真正提升客戶生產效率,給客戶源源不斷帶來價值。場景驅動和技術研發相輔相成、緊密結合。相信NLP+金融技術的應用將會有廣闊的發展空間,推動智能金融邁向一個新的臺階。
5 參考讀物
[1] Daniel Jurafsky, James H. Martin. 自然語言處理綜論(第二版)[M]. 馮志偉,譯. 北京:電子工業出版社,2018.
[2] 宗成慶. 統計自然語言處理(第2版)[M]. 北京:清華大學出版社,2013.
[3] https://finance.qq.com/a/20190823/008846.htm
[4] https://mp.weixin.qq.com/s/WyhhAd2Oq3gsNa783Oh0uA
[5] https://www.cnblogs.com/qccz123456/p/11623990.html
[6] https://tech.163.com/18/0608/10/DJP6K8SS000995G1.html