獨家解讀 | 新聞分析數據哪家強?

2021-02-15 量化投資與機器學習


量化投資與機器學習編輯部


數據是量化投資的根本,傳統的量價數據、基本面數據已經被玩壞的時候,越來越多的機構意識到另類數據的重要性。說到另類數據,衛星數據、GPS數據、航運數據等另類數據屆的高富帥就會浮現在小夥伴的腦海裡。今天小編不談高富帥,小編準備帶大家捋一捋另類數據界的元老:新聞分析數據。看看國內外有哪些主要的數據提供商,以及各家數據的異同

我們先給新聞分析數據下個定義:

新聞分析是指基於非結構化的新聞文本,運用機器學習相關算法對新聞文本進行標籤提取、事件識別及情感分析等,轉換為結構化數據的處理方法。新聞分析數據使得新聞等文本類數據應用於量化投資及風險管理等場景成為可能。

新聞分析數據的提供商非常之多,本文主要選取了三家海外主要的提供商:

以及國貨之光以A股為主的新聞分析數據提供商:


我們將從覆蓋度、主要欄位、情緒算法等維度,帶領各位讀者詳細的了解每家數據的特點及他們之間的區別。

在介紹每家數據之前,我們先大體了解以下新聞分析數據的處理流程,一般包括:

彭博的原始新聞數據來自於爬蟲、第三方數據提供商等,覆蓋了100000多新聞源,每天產生600000增量新聞,覆蓋75000多家公司,超過10000多個主題標籤。主要的來源分布及地區覆蓋如下表所示:

*圖片來自:公眾號獨家整理

*圖片來自:公眾號獨家整理

彭博的新聞分析數據分為兩個維度提供(如下圖),第一層是結構化的新聞數據,該數據主要是對原始新聞文本的結構化處理,主要包括新聞的基礎信息,相關標籤(包括人物、公司、主題等);第二層是基於結構化數據的分析加工,主要分為新聞層面的分析及公司層面的分析。分析數據提供的主要欄位如下表所示:

*圖片來自:公眾號獨家整理

*圖片來自:公眾號獨家整理

最後,關於數據提供的方式,實時數據可以通過API的形式獲取,每日數據也可以通過FTP的形式進行下載。PIT歷史數據最早可以從2008年開始,基於歷史新聞數據的重新計算可以最早追溯到1992年。

路透Thomson Reuters News Analytics

路透TRNA新聞分析數據的原始數據來源主要是路透新聞,覆蓋了35000多個上市公司及40個大宗商品及能源。分析的維度也是由情緒,相關度及新鮮度組成。結構化的數據有超過90個欄位,主要包括公司標籤,主題標籤及板塊地域標籤。歷史數據可從2003年開始提供。前兩年Two Sigma在Kaggle上舉辦的新聞數據量化大賽就是用的路透提供的新聞數據。

TRNA新聞分析從以下幾個維度進行:

情緒Sentiment/author tone 

相關度Relevance

新鮮度Novelty

新聞量Volume

新聞主題Headline analysis 

比較關鍵的數據欄位如下圖所示:

*圖片來自:公眾號獨家整理

其中各欄位說明如下:

*圖片來自:公眾號獨家整理

前面兩家都是世界上數一數二的金融數據提供商。

RavenPack是一家創立於2003年的專注於新聞分析數據的提供商。RavenPack的原始新聞數據絕大部分來自於第三方直接提供,有少量了自產的新聞,並沒有通過爬蟲獲取原始新聞文本數據。

主要第三方提供商如下:

*圖片來自:公眾號獨家整理

RavenPack新聞分析數據覆蓋了200多個國家超過17500個主體,覆蓋了98%的可投資市場。該新聞數據分析的角度與前兩家有明顯的區別,它是站在實體與事件的角度進行分析。一篇新聞中可能有多個主體和多個事件,每個事件可能對應多個主體,每個主體也可能發生多個事件。RNA新聞分析數據是站在事件與主體對應的角度,其提供的每一條數據都闡述了「誰(主題)在什麼時間發生了什麼事(事件),這件事是好事還是壞事(情緒分析),這件事對它有什麼影響(影響度分析),過去有沒有類似的事件發生(新鮮度)」。

RavenPack對於主體的定義,不僅包括公司/組織,還包括了人物、貨幣、運動球隊、產品、國家、商品及地理位置等,具體數量如下:

*圖片來自:公眾號獨家整理

其中上市公司實體的地域分布如下:


*圖片來自:公眾號獨家整理

對於事件,RavenPack也有一套詳細完整的分類體系,按business/economy/environment/politics/society五個大類及上百個細分類別進行分類,總共有6800多個事件。

RavenPack的新聞數據最早到2000年,總共有50個欄位,我們把其中核心的一些欄位列舉說明:

*圖片來自:公眾號獨家整理

RavenPack數據最大的特點就是情緒的計算是站在「主體-事件」的角度,不僅在新聞層面給出的情緒得分,也在事件的維度計算情緒得分。但需要注意的是,與彭博新聞層面的情緒得分及路透的情緒得分區別在於:彭博及路透是新聞裡每隻股票的情緒分,而RP的CSS是新聞本身的情緒得分。以下為RavenPack的樣例數據:

*圖片來自:公眾號獨家整理

以上三家都是來自海外的新聞數據提供商,他們的數據覆蓋是全球市場,當然也包括了A股,但據小編了解,這三者的NLP都是基於英文的分析引擎,並沒有針對A股中文新聞的分析數據。所以即使是A股的中文新聞,他們也要先把中文翻譯成英文在進行分析。那有沒有針對A股的專業的新聞分析數據提供商了,經過小編一番搜索及研究,發現在國內有一家名叫數庫科技的公司,他們有一套SmarTag智能資訊數據還不錯,下面介紹一下:

數庫科技是一家成立於2009年的金融數據提供商,主要為機構提供產業鏈、供應鏈及新聞分析數據。他們的SmarTag數據,經小編一番研究,發現專業性特色性可以與前面三位大佬媲美。我們來詳細了解一下數庫的SmarTag數據。

SmarTag新聞分析數據的原始數據來源是數庫自主爬取的新聞網站的文本數據,主要覆蓋了280多個網站3200多個版面,主要涉及經濟、金融、宏觀、行業及公司等版面。由於專注於中文文本的分析,所以全球覆蓋度上無法和海外數據商相比,但特點就是A股的覆蓋度更完整。歷史數據可以提供到2008年,每天的新聞增量在25000篇左右。

關於原始新聞數據的分析處理主要分為兩個步驟,一個是標籤的提取,再就是情緒的分析。數庫豐富的標籤體系,也是SmarTag的一大特點,一共分為7類標籤:

*圖片來自:公眾號獨家整理

其中產品標籤是SmarTag數據的一大特色,產品標籤的體系來自於數庫另一核心數據:數庫產業鏈數據。比如一篇新聞中識別出了「半導體設備」,我們可以通過半導體設備產業鏈找到對應上下遊的新聞,也可以找到生產半導體設備的公司的新聞。 

*圖片來自:公眾號獨家整理

情緒打分方面,數庫的做法和海外三個大佬的做法相似,但更像是各家做法的結合。數庫在追蹤情感分值技術方面結合了極性情感詞典與監督式機器學習兩種不同方式,情緒分值的解析同時兼顧兩個層次:

新聞整體情緒值

新聞中提到的公司及人物主體專屬情緒值

但數庫對於主體的定義和RavenPack不同,或者說範圍更小,只包括公司(組織)和公眾人物。情緒的類型也分為三類,中性、正面及負面,三者之和為1。

由於數庫的數據形式是Json格式的,所以我們結合樣例數據對於一些核心的欄位做說明:

*圖片來自:公眾號獨家整理

數據從左到右分為三個部分,分別是新聞的基礎信息,標籤數據及情緒數據。基礎信息中給出了新聞的ID,處理時間,來源等基礎信息。標籤數據是文章所有能識別出來標籤的集合,每個標籤都有對應的類型、代碼及算法的版本。如果是主體、產品或者行業標籤,還有欄位ItemRelevance表示該標籤與新聞的相關度。情緒數據中,emotionEntity表示情緒的主體類型,emotionDetail表示情緒的具體分值。

由於各家數據資料的詳細程度不一樣,所以我們只能基於這些資料給各位小夥伴做數據的解讀,如果大家對其他另類數據感興趣,可以在文末留言或者私信我們(WeChat:lhtjqxx),小編儘量去搜集研究!

下面我們基於有限的資料對各家數據做一個對比:

*圖片來自:公眾號獨家整理

量化投資與機器學習微信公眾號,是業內垂直於Quant、MFE、Fintech、AI、ML等領域的量化類主流自媒體。公眾號擁有來自公募、私募、券商、期貨、銀行、保險資管、海外等眾多圈內18W+關注者。每日發布行業前沿研究成果和最新量化資訊。

相關焦點

  • 帕爾馬vs都靈 獨家情報+深度數據
    本情報內容是首創欄目,不提供主觀推舉,只提供客觀數據科學獨道的統籌呈現,對喜歡研究比賽的朋友更有幫助。所有內容均為本人及團隊多方收集匯總,用心製作的獨家情報,可結合 《獨家情報全新欄目解析:你也可以成為「分析師」》閱覽會有不小收穫!
  • 新三板財務數據choice資訊獨家解讀
    由東方財富網歷時五年全力打造的Choice資訊金融數據研究終端(>>>免費使用)針對新三板推出了包括深度資料、財務估值、專題報告、行業分析、條件選股、機構研報、行業分析、產業價值鏈分析等實用功能
  • 珀斯光榮vs阿德萊德聯 獨家情報+深度數據
    本情報內容是首創欄目,不提供主觀推舉,只提供客觀數據科學獨道的統籌呈現,對喜歡研究比賽的朋友更有幫助。所有內容均為本人及團隊多方收集匯總,用心製作的獨家情報,可結合 《獨家情報全新欄目解析:你也可以成為「分析師」》閱覽會有不小收穫!
  • 社會網絡分析在數據新聞領域的應用
    本文介紹社會網絡分析及數據新聞的概念,探討社會網絡分析在數據新聞中的應用,以期為數據新聞工作人員提供一定的參考。 關鍵詞:社會網絡分析;大數據;可視化;數據新聞 信息爆炸式增長使得大規模產生、應用、分享數據的時代逐漸拉開帷幕,數字洪流已經以不可計算的速度滲透到我們生活中的方方面面。
  • 用數據講好新聞:基於財新網「數字說」數據新聞特點分析
    德國之聲記者米爾科·洛倫茲將數據新聞定義為一個工作流程:通過挖掘數據,包括收集、篩選和結構化數據,依據特定報導目的實現信息過濾,藉助視覺化技術實現信息呈現。 財新網「數字說」頻道設立於財新傳媒創辦的財新網之下,定位為「用數據解讀新聞,用圖表展示新聞,將數據可視化,為用戶提供更好的閱讀體驗」,在國內的數據新聞實踐中表現突出。
  • 寧武雷射雕刻一體機哪家好生產企業哪家強
    廣告雕刻機切割亞克力板有著獨特的優勢。寧武雷射雕刻一體機哪家好生產企業哪家強華為AscendP1就引起了媒體和數碼發燒友的熱力追捧。全球當日,伴隨「2999元」這一競爭力的零售價格公布,消費者關注一度爆棚。
  • 中國數據新聞的發展歷程
    下面就以中國媒體2015年的數據新聞報導為例,從數據新聞的報導數量、數據來源、數據挖掘、可視化技術與互動性這四個角度,重點分析網易的《數讀》和搜狐的《數字之道》(由於騰訊的《數據控》在2014年1月26日推出了第49期之後再未更新,而新浪的《圖解天下》有不少新聞只能算可視化新聞不屬於數據新聞,因此對兩個媒體不作重點分析),來說明中國數據新聞的發展現狀。
  • 關於電商數據分析的全方位解讀(1)
    本期文章就以數據分析掃盲貼的形式來進行開展,筆者用一個資深從業者的人設給大家科普一番,在電商網際網路企業工作,數據如何來分析,分析的結論有什麼作用,怎麼處理。我在之前應邀寫過一篇關於數據分析漏鬥模型的文章(數據分析邏輯:流量轉化漏鬥模型詳解)。當時我覺得這麼簡單的邏輯難道有人不會嗎?
  • 強基計劃,獨家深度解讀
    升學心裡沒底,蜻蜓探長幫你教育部「強基計劃」發布,懸而未決的自主招生政策改革終於落地。強基計劃著眼於國家對人才的戰略需要,在定位、選拔培養對象、培養模式等方面有諸多創新設計。本文對中學、老師、家長及考生有很大的參考學習價值,可以反覆研讀。
  • 白領充電,職場英語培訓哪家外教網好?哪家強?
    阿卡索外教網跟大家聊聊職場英語培訓哪家外教網好?職場英語培訓外教網哪家強?好的職場英語培訓機構不是簡單地幫助學員提高英語口語表達能力,還需要向向學員傳授企業管理理念、工作心理,甚至是如何和外國人打交道、如何和他們合作的方式方法等。職場英語考察的是是實際應用能力,課程選擇應該注重英語的實用性,選擇相應課程進行學習。
  • 當「讀圖」遇上「大數據」——新聞報導中的數據可視化分析
    本文針對新聞採寫的數據可視化提出個人的看法,並在融媒體環境下對於數據可視化走向進行進一步分析。 【關鍵詞】大數據 數據可視化 極客文化 融媒體 一、 引言 「觀古今於須臾,撫四海於一瞬。」西晉文學家陸機在《文賦》中用以比喻創作構思時馳騁想像。
  • 巨豐數據贏欄目被評為「騰訊新聞繁星計劃」優質內容
    日前,巨豐數據贏欄目被評為騰訊新聞繁星計劃優質內容,內容影響力持續攀升。巨豐數據贏是一檔數據解析欄目,帶你透析數據深挖投資機會。數據顯示,今年1月,我國實際使用外資875.7億元人民幣,同比增長4%,基本上延續了去年以來的平穩增長勢頭。巨豐投顧投資顧問總監郭一鳴接受新華社經濟參考報採訪,深度解讀分析中國市場對外資吸引力,觀點刊登於2月18日新華社經濟參考報核心版面,並遭新華網等多家權威媒體轉載,廣受市場關注。
  • 全民自媒體時代再無獨家新聞?來看這位妹子深耕教育挖掘獨家的心得
    從採寫日常新聞的小記者,成長為能看懂新聞背後故事的半個「圈內人」。在錢江晚報工作16年,我跑了16年教育線,常被中小學校長和教育局長們當作半個圈內人。這兩年,「全民」在教育圈是個熱詞,從業內的「全民搖號」一直到跨界的「全民自媒體」。前者改變了民辦學校的招生方式,後者讓傳統媒體的新聞採集乃至信息發布,完全處於被動,做獨家報導越來越難。
  • 獨家|BBC如何做醫保大數據新聞 且得了新聞大獎
    除此之外,BBC新聞在線還將"全國/全球最佳新聞網站"、"最佳視頻新聞"和"最佳推特新聞"三項大獎囊入懷中。  緊隨BBC之後的贏家Vice因伊斯蘭國家主題的紀錄片獲得了今年的"大賽冠軍獎"。今年的大會評審團由二十四位來自全英各大媒體的資深記者、編輯和高校新聞學院的教授、學者組成,共評出二十九個獎項,較2014年增加了三個。除The Drum 網站外,大會主辦單位包括IOMART集團、英國聯合社、全國記者聯盟、編輯社區、英國新聞評論、新聞公報等機構。
  • 數據分析中,如何解讀條形圖和曲線圖
    通過數據解讀商業報告,很多情況下,我們看到的都是圖表的形式。有些同學們反饋希望再多介紹一些圖表類型的解讀,或者實例的解讀。所以本期我們會講條形圖和曲線圖的解讀。 千萬別以為條形圖和曲線圖很簡單,裡面也有不少學問哦。很多同學看圖只是一個形式,並沒有真正領會圖中作者要表達的準確觀點。
  • 動感單車哪家強?keep、野小獸、億健、小米史上最全測評來了
    「挖掘機技術哪家強,中國山東找藍翔」,這句話火遍了大中國!那麼動感單車哪家強?千萬別找藍翔,它不做這個。要真問起動感單車哪家強,一時之間還真說不出個所以然,各個品牌上舌燦蓮花,賣得最好的就是keep、野小獸、億健、小米等這些品牌。
  • 數據新聞將取代傳統新聞嗎?——基於人民網、新華網、財新網的對比...
    筆者以人民網圖解新聞、新華網數據新聞、財新網數字說和搜狐網數字之道四個頻道的數據新聞為對象,試圖通過對這些有代表性的「縮影」進行內容分析來探究數據新聞三年來發展情況,發現數據新聞發展的趨勢,以及其能否取代傳統新聞,同時為其他媒體在進行數據新聞實踐時提供參考。 關鍵詞:數據新聞,人民網,新華網,財新,搜狐。
  • 英語作文批改 到底哪家強?
    那麼問題來了,英語作文批改,到底哪家強?這個分析過程用到了大量的自然語言技術和機器學習的方法,每篇作文先被自動切分成句子,然後每一個句子都進行深度的語義分析,從中抽取詞、搭配、詞組等結構化單元。具體的指標包括了詞彙的豐富度、詞彙的難度、語法是否有使用錯誤的地方等等。
  • 2020中國城市營商環境哪家強?嘉興排名……
    2020中國城市營商環境哪家強?嘉興排名…… 2020-12-23 14:11 來源:澎湃新聞·澎湃號·政務
  • [學子論文]新聞業的數據新聞轉向:語境、類型與理念
    關鍵詞 數據新聞 大數據 數據可視化 開放數據 早在1821年,英國《衛報》就開始用數據新聞(Data Journalism)進行報導,第一篇數據新聞是關於學生入學與上學花費的報導。其實,收集數據、處理數據、分析數據、解讀數據在現代新聞業發展的早期業已開始,只是受制於當時的技術條件,整個數據新聞的生產流程依靠手工操作。