量化投資與機器學習編輯部
數據是量化投資的根本,傳統的量價數據、基本面數據已經被玩壞的時候,越來越多的機構意識到另類數據的重要性。說到另類數據,衛星數據、GPS數據、航運數據等另類數據屆的高富帥就會浮現在小夥伴的腦海裡。今天小編不談高富帥,小編準備帶大家捋一捋另類數據界的元老:新聞分析數據。看看國內外有哪些主要的數據提供商,以及各家數據的異同。
我們先給新聞分析數據下個定義:
新聞分析是指基於非結構化的新聞文本,運用機器學習相關算法對新聞文本進行標籤提取、事件識別及情感分析等,轉換為結構化數據的處理方法。新聞分析數據使得新聞等文本類數據應用於量化投資及風險管理等場景成為可能。
新聞分析數據的提供商非常之多,本文主要選取了三家海外主要的提供商:
以及國貨之光,以A股為主的新聞分析數據提供商:
我們將從覆蓋度、主要欄位、情緒算法等維度,帶領各位讀者詳細的了解每家數據的特點及他們之間的區別。
在介紹每家數據之前,我們先大體了解以下新聞分析數據的處理流程,一般包括:
彭博的原始新聞數據來自於爬蟲、第三方數據提供商等,覆蓋了100000多新聞源,每天產生600000增量新聞,覆蓋75000多家公司,超過10000多個主題標籤。主要的來源分布及地區覆蓋如下表所示:
*圖片來自:公眾號獨家整理
*圖片來自:公眾號獨家整理
彭博的新聞分析數據分為兩個維度提供(如下圖),第一層是結構化的新聞數據,該數據主要是對原始新聞文本的結構化處理,主要包括新聞的基礎信息,相關標籤(包括人物、公司、主題等);第二層是基於結構化數據的分析加工,主要分為新聞層面的分析及公司層面的分析。分析數據提供的主要欄位如下表所示:
*圖片來自:公眾號獨家整理
*圖片來自:公眾號獨家整理
最後,關於數據提供的方式,實時數據可以通過API的形式獲取,每日數據也可以通過FTP的形式進行下載。PIT歷史數據最早可以從2008年開始,基於歷史新聞數據的重新計算可以最早追溯到1992年。
路透Thomson Reuters News Analytics
路透TRNA新聞分析數據的原始數據來源主要是路透新聞,覆蓋了35000多個上市公司及40個大宗商品及能源。分析的維度也是由情緒,相關度及新鮮度組成。結構化的數據有超過90個欄位,主要包括公司標籤,主題標籤及板塊地域標籤。歷史數據可從2003年開始提供。前兩年Two Sigma在Kaggle上舉辦的新聞數據量化大賽就是用的路透提供的新聞數據。
TRNA新聞分析從以下幾個維度進行:
情緒Sentiment/author tone
相關度Relevance
新鮮度Novelty
新聞量Volume
新聞主題Headline analysis
比較關鍵的數據欄位如下圖所示:
*圖片來自:公眾號獨家整理
其中各欄位說明如下:
*圖片來自:公眾號獨家整理
前面兩家都是世界上數一數二的金融數據提供商。
RavenPack是一家創立於2003年的專注於新聞分析數據的提供商。RavenPack的原始新聞數據絕大部分來自於第三方直接提供,有少量了自產的新聞,並沒有通過爬蟲獲取原始新聞文本數據。
主要第三方提供商如下:
*圖片來自:公眾號獨家整理
RavenPack新聞分析數據覆蓋了200多個國家超過17500個主體,覆蓋了98%的可投資市場。該新聞數據分析的角度與前兩家有明顯的區別,它是站在實體與事件的角度進行分析。一篇新聞中可能有多個主體和多個事件,每個事件可能對應多個主體,每個主體也可能發生多個事件。RNA新聞分析數據是站在事件與主體對應的角度,其提供的每一條數據都闡述了「誰(主題)在什麼時間發生了什麼事(事件),這件事是好事還是壞事(情緒分析),這件事對它有什麼影響(影響度分析),過去有沒有類似的事件發生(新鮮度)」。
RavenPack對於主體的定義,不僅包括公司/組織,還包括了人物、貨幣、運動球隊、產品、國家、商品及地理位置等,具體數量如下:
*圖片來自:公眾號獨家整理
其中上市公司實體的地域分布如下:
*圖片來自:公眾號獨家整理
對於事件,RavenPack也有一套詳細完整的分類體系,按business/economy/environment/politics/society五個大類及上百個細分類別進行分類,總共有6800多個事件。
RavenPack的新聞數據最早到2000年,總共有50個欄位,我們把其中核心的一些欄位列舉說明:
*圖片來自:公眾號獨家整理
RavenPack數據最大的特點就是情緒的計算是站在「主體-事件」的角度,不僅在新聞層面給出的情緒得分,也在事件的維度計算情緒得分。但需要注意的是,與彭博新聞層面的情緒得分及路透的情緒得分區別在於:彭博及路透是新聞裡每隻股票的情緒分,而RP的CSS是新聞本身的情緒得分。以下為RavenPack的樣例數據:
*圖片來自:公眾號獨家整理
以上三家都是來自海外的新聞數據提供商,他們的數據覆蓋是全球市場,當然也包括了A股,但據小編了解,這三者的NLP都是基於英文的分析引擎,並沒有針對A股中文新聞的分析數據。所以即使是A股的中文新聞,他們也要先把中文翻譯成英文在進行分析。那有沒有針對A股的專業的新聞分析數據提供商了,經過小編一番搜索及研究,發現在國內有一家名叫數庫科技的公司,他們有一套SmarTag智能資訊數據還不錯,下面介紹一下:
數庫科技是一家成立於2009年的金融數據提供商,主要為機構提供產業鏈、供應鏈及新聞分析數據。他們的SmarTag數據,經小編一番研究,發現專業性特色性可以與前面三位大佬媲美。我們來詳細了解一下數庫的SmarTag數據。
SmarTag新聞分析數據的原始數據來源是數庫自主爬取的新聞網站的文本數據,主要覆蓋了280多個網站3200多個版面,主要涉及經濟、金融、宏觀、行業及公司等版面。由於專注於中文文本的分析,所以全球覆蓋度上無法和海外數據商相比,但特點就是A股的覆蓋度更完整。歷史數據可以提供到2008年,每天的新聞增量在25000篇左右。
關於原始新聞數據的分析處理主要分為兩個步驟,一個是標籤的提取,再就是情緒的分析。數庫豐富的標籤體系,也是SmarTag的一大特點,一共分為7類標籤:
*圖片來自:公眾號獨家整理
其中產品標籤是SmarTag數據的一大特色,產品標籤的體系來自於數庫另一核心數據:數庫產業鏈數據。比如一篇新聞中識別出了「半導體設備」,我們可以通過半導體設備產業鏈找到對應上下遊的新聞,也可以找到生產半導體設備的公司的新聞。
*圖片來自:公眾號獨家整理
情緒打分方面,數庫的做法和海外三個大佬的做法相似,但更像是各家做法的結合。數庫在追蹤情感分值技術方面結合了極性情感詞典與監督式機器學習兩種不同方式,情緒分值的解析同時兼顧兩個層次:
新聞整體情緒值
新聞中提到的公司及人物主體專屬情緒值
但數庫對於主體的定義和RavenPack不同,或者說範圍更小,只包括公司(組織)和公眾人物。情緒的類型也分為三類,中性、正面及負面,三者之和為1。
由於數庫的數據形式是Json格式的,所以我們結合樣例數據對於一些核心的欄位做說明:
*圖片來自:公眾號獨家整理
數據從左到右分為三個部分,分別是新聞的基礎信息,標籤數據及情緒數據。基礎信息中給出了新聞的ID,處理時間,來源等基礎信息。標籤數據是文章所有能識別出來標籤的集合,每個標籤都有對應的類型、代碼及算法的版本。如果是主體、產品或者行業標籤,還有欄位ItemRelevance表示該標籤與新聞的相關度。情緒數據中,emotionEntity表示情緒的主體類型,emotionDetail表示情緒的具體分值。
由於各家數據資料的詳細程度不一樣,所以我們只能基於這些資料給各位小夥伴做數據的解讀,如果大家對其他另類數據感興趣,可以在文末留言或者私信我們(WeChat:lhtjqxx),小編儘量去搜集研究!
下面我們基於有限的資料對各家數據做一個對比:
*圖片來自:公眾號獨家整理
量化投資與機器學習微信公眾號,是業內垂直於Quant、MFE、Fintech、AI、ML等領域的量化類主流自媒體。公眾號擁有來自公募、私募、券商、期貨、銀行、保險資管、海外等眾多圈內18W+關注者。每日發布行業前沿研究成果和最新量化資訊。