這是讀芯術解讀的第99篇論文
ACL 2018 System Demonstrations
HarriGT:新聞文章與科學文獻的自動連結
HarriGT: A Tool for Linking News to Science
華威大學
University of Warwick
本文是華威大學發表於 ACL 2018 的工作,文章提出了一個半自動化的工具HarriGT,用於構建新聞文章與其所討論的科學論文的連結語料庫,為未來新聞/科學工作引用連結的信息檢索工作提供服務。HarriGT從包含17年英國網絡內容的檔案中檢索新聞文章。它還集成了3個大型外部引文網絡,利用命名實體提取和文檔分類,向用戶展示科學文獻的相關實例。我們還提供了經過調整的候選者排名算法,向用戶展示科學論文和新聞文章之間的潛在連結,以便按可能性順序排列。HarriGT可在 http: //harrigt.xyz獲取。
1 引言
對於科學家來說,了解記者如何報導他們的工作以及這些報導後續的社會影響,是一項非常重要的任務。研究基金委員會也越來越關注所資助研究所產生的影響。科學類新聞報導中的引文提取仍然是一項富有挑戰性的研究課題。在新聞文章中引用科學著作是沒有正式或非正式的要求的,而且即使是在同一個出版社的新聞工作者,科學報導的質量也大不相同。科學記者經常從他們的報告中省略關於誰資助或甚至執行一項特定研究的關鍵信息,使得識別這項工作非常困難。記者們還經常在報導中引用那些沒有直接參與科學工作的學者,這進一步阻礙了自動引文提取工作的發展。
本文假設主流媒體所反映的對研究工作的認知是衡量綜合影響的重要手段,對研究人員本身以及資助機構都非常有用。然而,構建評估這種綜合影響的自動化解決方案的主要障礙之一是缺乏訓練數據。為解決新聞科技工作中參考文獻的抽取與消歧問題,本文提出HarriGT,收集與科學文獻相關的新聞文章語料庫。這種語料庫可以用來建立機器學習模型,從而能夠自動將新聞文章與科學作品聯繫起來。通過這種方式,可以為未來的研究奠定基礎,也可以幫助科學家通過媒體了解他們工作的社會認知和影響情況。
2 系統概述
HarriGT是一個系統,它匯集了以廣泛使用的開源WARC格式存儲的網絡檔案中的歷史新聞文章。該系統自動獲取和解析新聞文章,並搜索相關候選論文的引用關係圖,用戶可以進行連結或隱藏或標記為垃圾郵件等操作。HarriGT網站上的圖標可以解釋這個過程。本文利用來自微軟、Scopus和Springer的英國國家網絡檔案和候選科學論文。網頁界面中呈現新聞文章和候選科學論文,使用戶能夠快速決定每個候選者是否連結到新聞文章。本節將詳細討論此過程中涉及的組件,並概述我們在系統創建過程中所面臨的一些挑戰。
新聞語料檢索
為了建立一個全面的新聞語料庫,我使用JISC Web Archiv,其是1996年到2013年間.uk頂級域名的全面精選。內容以Web Archive(WARC)壓縮格式存儲,索引文件包含關於每個被剔除的URL的元數據,並且可以使用指向WARC結構中相關內容的指針。JISC Web Archive的大小約為62TB,因此識別和過濾相關內容成為首要問題。
首先我們將調查限制在2011至2013年末的新聞文章中,通過維基百科第2條為英國當地和國家新聞機構編制了一份網址列表,以便將工具應該檢查的主機名數量減少到205個。歸檔索引文件還提供了關於每個WARC條目的類型以及原始scrape是否成功(例如,URL是否無效)的元數據。這就把要檢查的WARC條目總數減少到大約1150萬個。通過標識在同一BLOB中歸檔的一批URL腳本,對託管web歸檔的BLOB商店的請求進行優化。
新聞文本預處理和過濾
archives的內容通常是HTML,因此我們需要提取每個新聞故事的標題和正文。新聞文章遵循典型的布局,因此可以使用規則和模式而不是機器學習方法來提取內容欄位。開源library newspaper(http://newspaper.readthedocs.io/en/ latest/)非常有效,並且允許我們訪問文章的標題、作者、發布日期和其他元數據。
我們發現,使用新聞的科學部分過濾適當的文章會導致漏掉相關材料。第二種方法是只接受通過兩個高級關鍵字過濾器的文章。首先查看一篇文章是否包含一個或多個關鍵詞:科學、科學家、教授、醫生、學術、期刊、研究、出版、報告。我們故意選擇這些關鍵詞作為一個簡單的過濾器,以減少時事/名人八卦新聞的數量。對於第二個過濾器,我們運行了一個命名實體識別(NER)算法,它為名稱、位置和地理政治實體提供多詞表達識別和分類。根據NER的執行結果,我們只接受至少有一個包含大學、學院或組織的文章。
預處理流水線中的最後一步是識別每個文章的發布日期。出版日期是候選論文評分算法中最突出的特點之一。最近的數字新聞文章在HTML元數據中公布發布日期。然而,對於Web存檔中的許多舊文章,此信息不存在。對於沒有已知發布日期的文章,我們首先嘗試從實時網際網路檢索相同的URL,其中大部分原始內容仍然可用,但是具有更新的布局和元數據。如果找不到內容,我們使用一組正則表達式嘗試在HTML中找到日期。除此之外,我們只是要求用戶嘗試在用戶界面內手動識別發布日期。
檢索和預處理步驟是相當耗時的,採用現代工作站(Intel i7 QuadCore @ 3.5GHz,16GB RAM)大約24小時來處理20K新聞文章。因此,我們使用一個小的Apache Hadoop集群批量地將內容輸送到HarriGT中。
垃圾過濾
在預處理過程中,我們的關鍵字過濾器去除了大量不涉及科學工作的文章。但是仍有一些文章通過了這一初步篩選。我們通過將機器學習的「垃圾郵件」模型引入到HarriGT中來解決這個問題。在用戶界面中,如果新聞文章包含很少相關的科學內容,則可以將其標記為垃圾郵件。當用戶繼續標記文章時,使用來自垃圾郵件和連結類別的新實例重新訓練模型。
本文訓練了兩個機器學習模型來解決這個問題,一個樸素貝葉斯分類器和支持向量機。我們使用網格搜索來確定特徵提取的最佳訓練超參數和模型。最優特徵超參數是TF-IDF加權的一元和二元詞袋特徵,最大文檔頻率為75%,最大詞彙量為10000。我們發現,線性內核和C = 1的SVM產生了最好的結果。表3.3顯示我們的模型結果經過4次迭代的訓練和使用。
引文圖整合
為了為每篇新聞文章提供候選科學著作,我們需要與儘可能多學科的豐富數據源集成。本文將HarriGT與微軟學術知識、Scopus和Springer APIs集成在一起。這些APIs都提供了廣泛的、最新的已知學術著作的報導。每個API具有不同的搜索端點,具有不同的查詢語言和語法。
每個API都返回元數據,如標題、作者姓名和隸屬關係、發布地點名稱和發布日期。在大多數情況下,每個API返回DOI,使得每個工作可以通過HarriGT接口被唯一標識和連結。
文章通常談到科研工作者所在的機構以及作者的名字,例如「Cambridge Researchers have found that... Dr Smith who led the study said...」,使得引文信息自動提取工資變得非常困難。因此,我們使用NER來識別文章中的所有名稱和機構,並對每個排列進行引用圖查詢。例如「A study run by Oxford and Cambridge universities found that... Dr Jones who led the study said...」,會產生兩個問題:(Jones, Oxford),(Jones, Cambridge)。搜索限定在文章發表日期加減90天的時間內。
候選打分策略
對給定的新聞文章,我們通過對每對提到的姓名和作者的Levenshtein
的平方求和,來給每個候選科學工作ci打分:
對提到的組織和機構採用一個類似計算:
Levenshtein Ratio是一種簡單、有效的方法,用於評估NE的相似性。我們還計算了新聞文章的發布日期、D和科學工作Pi之間的天數
。在候選文章具有多個發布日期(例如,在線發布與列印發布)的情況下,對所有發布日期計算
,並保留最小值。
最後,我們通過規範化
和
,對每一篇文章計算一個總體得分Si:
根據候選者的Si分數降序排列,以便首先向用戶呈現得分最高的候選者。
3 評估
為了評估候選評分技術,我們使用它來檢索包含一篇或多篇科學論文連結的N個最佳新聞文章。對於每一篇新聞文章,我們從引文圖中檢索所有候選科學著作。然後,我們使用評分算法對候選者進行排名,然後檢查實際連結的論文是否出現在前1、3和5個結果(Top-K準確性)中。
本文採用以下方式定義工具的召回,考慮標註為link和hidden的item比例:
系統的召回率為0.57。這個數字可能低於實際數字,因為如果出現幾個強有力的候選者,並且他們不確定連結到哪個論文,那麼標註者有時會將論文歸類為「hidden」。我們預計這個數字會隨著更多的使用而變得越來越大。
4 總結
本文提出一種HarriGT方法,致力於快速建立科學工作和新聞文章之間的連結。採用自然語言處理組合技術,提出一個簡單有效的候選排名算法,可以有效構建科學文獻和新聞文章的連結語料庫,為新聞媒體上科學文獻的影響分析提供幫助。這個工具也可以用作其他的諸如科技新聞核心源發現。未來姜維探索這個任務中的時間角色或其他內容。HarriGT提供有用的排名機制和較好的召回率,並且準備在大型語料庫上進行運用。HarriGT可在http://www.harrigt.xyz獲取,歡迎各位試用並提出寶貴意見。
論文下載連結:
http://aclweb.org/anthology/P18-4004
留言 點讚 發個朋友圈
我們一起分享AI學習與發展的乾貨