作為科研質量評估指標,Altmetrics 靠譜麼?

2021-02-13 科研圈

至少在生物科學領域，altmetrics 的參考價值確實比較弱……

作者 Lutz Bornmann & RobinHaunschild

編譯阿金

審校貓鷹譚坤

政策的制定者一直很看重科學的力量，但是，最近他們開始要求科學家和科研機構出示能證明他們科研質量的證據，這下可引發了不小的爭議。長期以來，科學同行評議（peer-review）制度是驗證科研論文質量和影響力的有效手段，但這個方法耗時耗力，且過程繁瑣。因此，衍生出考察論文引證影響力（Citation Impact）來判斷科研水平。但是，引證方法也有一定局限性，比如，是否計入負面引證？是否所有的引證都有同等的價值？此外，論文引用量需要一定時間地累積，這一原因也使得用該方法進行評估時，對年輕的科研人員與新建立的研究組織而言就不太公平了。

面對上述情況，是否存在其它可替代的有效評估手段呢？有！

替代計量指標（Alternative metrics，altmetrics）就是就被作為是一種行之有效、在傳統計量指標之外的一種補充方法，涵蓋了除在學術界使用的傳統計量以外的其它指標，如社交媒體、博客、新聞報導，在線文獻管理等等。目前，諸如 Wiley、自然雜誌、F1000等很多權威期刊都在所發表的文章頁面上加上了 altmetrics 的小圖標。另外，科研人員也開始將這一指標添加在個人簡歷和科研經費申請書上。但是在影響力評估方面，altmetrics 指標的意義與價值尚不明確。有人會問，在推特上@某篇論文產生什麼實際的影響力嗎？如果出現高轉發率的假研究，我們又該怎麼辦？其實，不少針對 altmetrics 的研究已經發現，引證和推文之間的關聯性幾乎為零，當然，也有其它研究表明，像在 Mendeley 這樣的文獻管理軟體中標記出的文章能夠表明其一定的科學影響力。為此，我們向各位介紹兩項作為預印本發表在arXiv上的研究，進一步探討 altmetrics 的潛在價值。

計量指標之間的較量

對於同一篇文章，兩種評估質量的方法是否會呈現相同或迥異的結論。

在第一項研究中，針對同一篇論文，研究人員使用傳統引證指標和替代計量指標（推特和在線文獻管理標籤）分別與專家評審結論進行比較，得出之間的關聯性。收集專家評審觀點的平臺是F1000Prime，這個平臺在論文發表後會專門提供「發表後的同行評議」，給論文評級打分。經過一番分析，研究人員發現推文與專家評審之間的關聯性要弱於傳統計量指標與後者之間的關聯性。而在線文獻管理軟體中的標籤計量指標倒是與傳統指標倒是頗為一致。

在第二項研究中，研究人員考察了除推特以外的其它替代計量指標。結果印證了第一項研究的結論。事實上，引用計量與專家評審之間的關聯性要強於替代計量指標與後者的關聯性，高出約兩三倍。

綜上所述，至少在生物科學領域，altmetrics 的參考價值確實比較弱。

Altmetrics 還有希望麼？

最近幾年，科學政策往往傾向在更大範圍內評估論文和科研質量，比如以整個社會為基礎或非專業領域團體。Altmetrics 作為一種經濟又方便的社會影響指標，仍然發揮著一定作用。對於 Altmetrics，我們希望能得到更多來自各方面的反饋，從而找到能夠證明科研和論文質量的更有效的評估指標。

相關論文信息（一）

[論文題目]Do bibliometricsand altmetrics correlate with the quality of papers? A large-scale empiricalstudy based on F1000Prime, altmetrics, and citation data

[論文作者] Lutz Bornmann, Robin Haunschild

[發表期刊] arXiv.org

[發表時間] 2018年1月18日

[論文連結] https://arxiv.org/abs/1711.07291

[論文編號] arXiv:1711.07291

[論文摘要] In this study, we address the question whether (and to whatextent, respectively) altmetrics are related to the scientific quality ofpapers (as measured by peer assessments). Design: In the first step, we analysethe underlying dimensions of measurement for traditional metrics (citationcounts) and altmetrics - by using principal component analysis (PCA) and factoranalysis (FA). In the second step, we test the relationship between thedimensions and quality of papers (as measured by the post-publicationpeer-review system of F1000Prime assessments) - using regression analysis.Results: The results of the PCA and FA show that altmetrics operate alongdifferent dimensions, whereas Mendeley counts are related to citation counts,and tweets form a separate dimension. The results of the regression analysisindicate that citation-based metrics and readership counts are significantlymore related to quality, than tweets. This result on the one hand questions theuse of Twitter counts for research evaluation purposes and on the other handindicates potential use of Mendeley reader counts. Originality: Only a fewstudies have previously investigated the relationship between altmetrics andassessments by peers. The relationship is important to study: if altmetricsdata are used in research evaluation, they should be related to quality.

論文信息（二）

[論文題目]Normalizationof zero-inflated data: An empirical analysis of a new indicator family and itsuse with altmetrics data [論文作者] LutzBornmann, Robin Haunschild

[發表期刊] arXiv.org

[發表時間] 2018年1月26日

[論文連結] https://arxiv.org/abs/1712.02228

[論文編號] arXiv:1712.02228

[論文摘要] Recently, two new indicators(Equalized Mean-based Normalized Proportion Cited, EMNPC; Mean-based NormalizedProportion Cited, MNPC) were proposed which are intended for sparsescientometrics data. The indicators compare the proportion of mentioned papers(e.g. on Facebook) of a unit (e.g., a researcher or institution) with theproportion of mentioned papers in the corresponding fields and publicationyears (the expected values). In this study, we propose a third indicator(Mantel-Haenszel quotient, MHq) belonging to the same indicator family. The MHqis based on the MH analysis - an established method in statistics for thecomparison of proportions. We test (using citations and assessments by peers,i.e. F1000Prime recommendations) if the three indicators can distinguishbetween different quality levels as defined on the basis of the assessments bypeers. Thus, we test their convergent validity. We find that the indicator MHqis able to distinguish between the quality levels in most cases while MNPC andEMNPC are not. Since the MHq is shown in this study to be a valid indicator, weapply it to six types of zero-inflated altmetrics data and test whetherdifferent altmetrics sources are related to quality. The results for thevarious altmetrics demonstrate that the relationship between altmetrics(Wikipedia, Facebook, blogs, and news data) and assessments by peers is not asstrong as the relationship between citations and assessments by peers. Actually,the relationship between citations and peer assessments is about two to threetimes stronger than the association between altmetrics and assessments bypeers.

原文連結：

https://blog.f1000.com/2018/01/11/evaluating-research-different-metrics-tell-us-different-things/

閱讀更多

內容合作請聯繫

keyanquan@huanqiukexue.com

相關焦點

什麼是Altmetric指標?2020年Altmetric TOP 100昨日發布!

https://www.altmetric.com/top100/2020/當我們需要了解某一方面的文獻時，我們如何篩選有價值的文獻呢？傳統的評價指標影響因子（Impact Factor，IF）主要反映學術關注度，更是有少許的滯後。
教育部、科技部:不把SCI論文相關指標作為科研人員、學科和大學評價的標籤

SCI論文相關指標已成為學術評價，以及職稱評定、績效考核、人才評價、學科評估、資源配置、學校排名等方面的核心指標，使得高等學校科研工作出現了過度追求SCI論文相關指標，甚至以發表SCI論文數量、高影響因子論文、高被引論文為根本目標的異化現象，科技創新出現了價值追求扭曲、學風浮誇浮躁和急功近利等問題。　　三、建立健全分類評價體系。
老外也對唯SCI論say NO了/關於科研指標的萊頓宣言(官方中文)

最近，關於社會使用和在線評論的量化指標日漸成勢，比如F1000Prime（2000）、Mendeley（2008）、和Altmetric.com（2011，由麥克米倫集團支持，而《自然》所屬的自然出版集團亦為麥克米倫旗下公司）。作為文獻計量學者，社會科學家，以及科研管理者，我們目睹了在科研評估中量化指標被愈發廣泛和嚴重地濫用，以下僅舉數例。各
正確認識案件質量評估指標體系的科學性

的要求，堅持全面性、目的性、可比性、實用性等原則，正確反映指標的評價意圖，採取「頂層設計」的方法，一套多層級、多角度、正逆向、模塊化及宏觀與微觀、內部與外部評價相結合的評估指標體系已經基本形成。在案件質量評估工作全面開展的新時期，正確認識案件質量評估指標體系的科學性對用好用活這一指標體系，具有十分重要的意義。　　科學性之一：確定的評估對象適應審判管理需要和審判工作規律。
全球排名和科研評估使大學深處危機

由香港大學教育政策研究中心常務副總監李軍博士主持的世界大學聯盟（World Universities Network）研究項目「世界一流大學、科研及評估——全球化中高等教育使命的再反思」聯合來自9個國家和地區的13位高等教育學者，從各自的高教系統中甄選頂尖的研究型大學作為國際比較案例，深度研究全球排名和科研評估對世界各大學系統知識創造、教學和社會服務三大使命的影響，並特別關注了不同環境背景下高校教師如何應對這些排名和評估的壓力
教育部、科技部:不把SCI論文指標作為職稱評聘的直接依據!

《意見》要求，要規範SCI論文相關指標使用。改進學科和學校評估，在評估中要突出創新質量和貢獻，審慎選用量化指標。優化職稱（職務）評聘辦法，不把SCI論文相關指標作為職稱（職務）評聘的直接依據，以及作為人員聘用的前置條件。扭轉考核獎勵功利化傾向，學校不宜設置對院系和個人的論文指標要求，取消直接依據SCI論文相關指標對個人和院系的獎勵。
第五輪學科評估來了!附指標體系框架及官方解讀

評價科研水平不唯論文和獎項，設置「代表性學術著作」「專利轉化」「新藥研發」等指標，進行多維度科研成效評價。評價學術論文聚焦標誌性學術成果，採用「計量評價與專家評價相結合」「中國期刊與國外期刊相結合」的「代表作評價」方法，淡化論文收錄數和引用率，不將SCI、ESI相關指標作為直接判斷依據，規定代表作中必須包含一定比例的中國期刊論文，突出標誌性學術成果的創新質量和學術貢獻。
教育部科技部發文:不把SCI論文相關指標作為評價標籤

新京報快訊（記者馮琪）2月23日，教育部、科技部下發《關於規範高等學校SCI論文相關指標使用樹立正確評價導向的若干意見》，要求各地在學科和學校評估、職稱評聘等方面規範對SCI論文相關指標的使用，不將其作為科研人員、學科和大學評價的標籤。
教育部科技部:不把SCI論文指標作為職稱評聘依據

《意見》要求，要規範SCI論文相關指標使用。改進學科和學校評估，在評估中要突出創新質量和貢獻，審慎選用量化指標。優化職稱（職務）評聘辦法，不把SCI論文相關指標作為職稱（職務）評聘的直接依據，以及作為人員聘用的前置條件。扭轉考核獎勵功利化傾向，學校不宜設置對院系和個人的論文指標要求，取消直接依據SCI論文相關指標對個人和院系的獎勵。
【學科評估】第五輪學科評估的傳承與創新——專家話評估

評價教師不唯學歷和職稱，不設置人才「帽子」指標，避免以學術頭銜評價學術水平的片面做法。評價科研水平不唯論文和獎項，設置「代表性學術著作」「專利轉化」「新藥研發」等指標，進行多維度科研成效評價。評價學術論文聚焦標誌性學術成果，採用「計量評價與專家評價相結合」「中國期刊與國外期刊相結合」的「代表作評價」方法，淡化論文收錄數和引用率，不將SCI、ESI相關指標作為直接判斷依據，規定代表作中必須包含一定比例的中國期刊論文，突出標誌性學術成果的創新質量和學術貢獻。這充分體現了多維評價的原則。
破「SCI至上」,科研評估如何改進-光明日報-光明網

近年來，大學在知識創新和轉移方面的功能被矮化成細小的量化指標，科研活動被各種評估體系所掣肘，SCI變成橫行大學和科研的指揮棒，學術生態被改寫，大學的真正使命受到極大挑戰。（詳見拙作《全球排名和科研評估使大學深處危機》，載《光明日報》2016年8月23日第13版）。
什麼是Altmetric指標?如何計算和提高?

，例如H指數、i10指數、F1000等，而Altmetric是最近幾年新興的評價論文影響力的指標，我們可以利用Altmetric評價系統了解論文的關注度和分享情況。Altmetric相比於傳統的論文指標來說，是基於時下網絡社會化背景下的產物，主要是了解論文的認可程度和分享討論程度。2020年的Altmetric Top 100 近期就要發布了！本文會簡要為大家介紹一下Altmetric指標的背景、優缺點、計算方式和提高方式。
全球學術澳大利亞篇：澳大利亞的科技評估和高等教育質量保障體系

1999年，澳大利亞政府發布了《知識與創新：研究和研究培訓的政策聲明》白皮書，明確ARC作為獨立機構對澳大利亞的科研績效進行國際比較，並評估國家科研資助的成效，為此，ARC應用綜合指數(包括科研投入和科研產出兩方面)作為科研績效評價的標準，負責實施了科研機構資助計劃和研究培訓計劃兩個政府資助項目。
光明日報刊文:破除論文「SCI至上」,科研評估如何改進

1.如何樹立正確的科研評價導向？近年來，大學在知識創新和轉移方面的功能被矮化成細小的量化指標，科研活動被各種評估體系所掣肘，SCI變成橫行大學和科研的指揮棒，學術生態被改寫，大學的真正使命受到極大挑戰。
科研評價指標功與過-新聞專題-科學網

我可以這麼說，作為各類排行榜的製作者，完全可以做到讓誰做第一就能通過挑選指標、設計權重以最後達到這一目標。對於科研人員的評估與激勵，應該堅持分類評價的原則。對於從事基礎性研究的科研人員，應該在評估過程中引入國際同行評議機制，評價科研人員在其所在的研究領域的國際地位與學術貢獻，而不是僅僅依靠其發表記錄（發表文章篇數和被引數量）機械地給科研人員排隊以確定評估結果。
土壤線蟲作為土壤健康評價的生物指標

▎論文IDA review of soil nematodes asbiological indicators for the assessment of soil health土壤線蟲作為土壤健康評價的生物指標期刊：Frontiers ofAgricultural
又一省公布:論文和引用等不作為人才評價限制性指標

《實施方案》聚焦科研人員重點關注的問題，結合我省實際，突出可操作性，分別對項目評審、人才評價、機構評估工作提出了有針對性的改革措施，並對普遍適用於「三評」工作的監督評估和科研誠信建設措施做出了安排，共計5方面22項具體措施。
F-measure: 科研政策評估的新指標

JDIS致力於發表運用大數據挖掘分析支持決策和政策制定的理論、方法、技術、服務、專門基礎設施等的研究和應用，特別是（1）各類型數據挖據、知識發現與情報研究的技術與方法；（2）基於知識組織和支持複雜分析的知識基礎設施和知識系統；（3）知識分析與計算驅動的科研、教育、管理和服務流程與決策優化技術等。
教育部第5輪學科評估方案公布!對高校學科評估具體維度、指標

教育部第5輪學科評估方案公布！主觀質量指標權重加強，是否能成為新的風向標？】眾所周知，教育部每一輪的學科評估，對於各個高校來說，具有很多的現實意義，對於每年的高考及學生的志願填報也有很大的影響，一直是關注的焦點。
如何正確進行幼兒園質量評估關鍵在制度設計

從管辦評分離的視角來看，幼兒園質量評估的主體應該超越行政立場，回歸社會和專業本位，藉助第三方，如大學、科研院所、民間行業組織的專業優勢，通過政府購買或委託的方式來進行，以保證評估的客觀公正、有效自律。上海浦東新區在民辦園財務監審、民辦三級幼兒園質量監測上都充分利用了各類第三方平臺，達到了「強強聯合」的效果。　　評什麼？

作為科研質量評估指標,Altmetrics 靠譜麼?

相關焦點

什麼是Altmetric指標?2020年Altmetric TOP 100昨日發布!

教育部、科技部:不把SCI論文相關指標作為科研人員、學科和大學評價的標籤

老外也對唯SCI論say NO了/關於科研指標的萊頓宣言(官方中文)

正確認識案件質量評估指標體系的科學性

全球排名和科研評估使大學深處危機

教育部、科技部:不把SCI論文指標作為職稱評聘的直接依據!

第五輪學科評估來了!附指標體系框架及官方解讀

教育部科技部發文:不把SCI論文相關指標作為評價標籤

教育部科技部:不把SCI論文指標作為職稱評聘依據

【學科評估】第五輪學科評估的傳承與創新——專家話評估

破「SCI至上」,科研評估如何改進-光明日報-光明網

什麼是Altmetric指標?如何計算和提高?

全球學術澳大利亞篇：澳大利亞的科技評估和高等教育質量保障體系

光明日報刊文:破除論文「SCI至上」,科研評估如何改進

科研評價指標功與過-新聞專題-科學網

土壤線蟲作為土壤健康評價的生物指標

又一省公布:論文和引用等不作為人才評價限制性指標

F-measure: 科研政策評估的新指標

教育部第5輪學科評估方案公布!對高校學科評估具體維度、指標

如何正確進行幼兒園質量評估 關鍵在制度設計

如何正確進行幼兒園質量評估關鍵在制度設計