你了解數據期刊麼?你知道什麼是「人類企鵝項目」麼?| Scientific Data投稿經歷分享 |
論文標題:Data from the Human Penguin Project, a cross-national dataset testing social thermoregulation principles
期刊:Scientific Data
作者:Chuan-Peng Hu et al.
發表日期:2019/04/17
數字識別碼:doi:s41597-019-0029-2
原文連結:https://go.nature.com/2JppTHS
本文轉載自:OpenScience
最近,由12個國家15個心理學研究者團隊合作收集、由本人與殷繼興(西北師範大學心理學院)主要負責整理的數據——人類企鵝項目數據——發表在數據期刊 Scientific data上(Hu et al., 2019)。這對於一直在推Open Science的我來說,是非常值得開心的,因為這說明科學界也獎勵分享研究數據本身。也就是說,研究者用於整理數據的投入是有價值的。所以個人感覺這個經歷也值得與大家分享。
01 項目介紹
人類企鵝項目(Human Penguin Project, HPP)由荷蘭研究學研究者Hans IJzermanrn所發起的一項多中心合作項目。這個項目的主要目的是驗證社會關係是否能夠幫助人們進行體溫調節。這個問題看起來像是溫度的具身認知(如「摸熱杯子讓人更友好」的效應),在眾多具身認知實驗無法被成功重複的背景下,社會關係與體溫調節的相關性聽起來也可能不太可靠。但是,社會關係與體溫調節之間的關係不僅僅是「啟動」那麼簡單,而是可能存在真實的生物進化上的基礎,有興趣可以閱讀(IJzerman et al., 2018)。
與其他多中心合作項目一樣(孔祥禎, 2019),HPP在多個國家(N=12)收集社會關係數據(自我報告)和體溫數據(使用口腔溫度計)。當然,除了這兩個最主要的變量外,我們還收集了許多其他的數據。我們公開了這個項目中絕大部分主要數據(primary data),即清理後的原始數據。
與其他公開數據集僅公開數據不同,我們在公開數據時,也整理並公開了9種語言的問卷。實際上,將不同語言的問卷與數據一起公開,是我們公開數據的最初動力:這樣可以避免研究者重複地翻譯一些常用的問卷。
具體而言,我們的數據包括下表中所涉及到的變量:
變量 | 內容 |
體溫 | 口腔溫度 (兩次測量) |
生理相關信息 | 是否用藥(如果是,何種藥物)* 是否抽菸 (如果是,一天抽多少支) 每天的含糖飲料 (數據中的「gluctot」) 不含糖飲料 (數據中的「artgluctot」)(Henriksen, Torsheim, & Thuen, 2014) |
基本信息 | 生日、性別、身高*、體重*、性取向*、 是否處於戀愛關係、一夫一妻制的態度、 自我報告的健康狀況、語言 |
地點與氣候 | 當天的最低溫度、當天的平均溫度、 當地與赤道的距離、緯度* |
社會關係網絡 | 社會網絡指標32 個條目(Cohen, Doyle, Skoner, Rabin, & Jack M. Gwaltney, 1997): 網絡大小, 網絡嵌套, 複雜關係 (CSI) |
相對成熟的問卷 | 特質自我控制(Tangney, Baumeister, & Boone, 2004) (13 項目)、 知覺到的壓力(Cohen, Kamarck, & Mermelstein, 1983) (14 條目) 、 懷舊量表(Barrett et al., 2010; Zhou, Wildschut, Sedikides, Chen, & Vingerhoets, 2012)、 對家的依戀 (Harris, Brown, & Werner, 1996)、 手機和網絡依賴(Yildirim & Correia, 2015)、 親密關係體驗問卷修訂版(Fraley, Waller, & Brennan, 2000) (包括焦慮和迴避兩個子量表)、 多倫多述情障礙量表 (TAS-20)(Kooiman, Spinhoven, & Trijsburg, 2002) |
新量表 | 社會體溫調節與風險迴避問卷 (STRAQ-1)(Vergara et al., 2018) #、感動頻率問卷 (KAMF) (Zickfeld et al., 2019) |
* 為避免被試的隱私,這些變量未包括在公開數據之中,如您需要這些數據,可以聯繫我(hcp4715@gmail.com)或者合作者Hans(h.ijzerman@gmail.com)
# 見 Vergara et al. (2018) for the final version of STRAQ-1.
02 數據收集與清理
本人參與這個項目是比較巧合的,有個師弟正好認識Hans,知道他在滿世界找合作者(2015年左右),缺中國的合作者;又正好,這位師弟知道我對Open Science非常感興趣,於是他詢問我的意向。我當時正對Open Science一腔熱血無處拋灑,於是痛快地答應。隨後我與Hans取得聯繫並開始準備材料,當時的主要工作是對英文材料進行本土化。對於那些已經翻譯並且驗證過的問卷(少量的),我們直接採用;對於沒有翻譯的問卷,我們進行了翻譯-回譯。2016年上半年開始收集數據。當時我去英國交換,無法直接收集數據。特別感謝幾位本科生同學在做他們項目的時候,幫我收集完了數據:湖北大學的楊宇翔、劉媛媛、簡晶瑩和劉青蘭。
數據收集後,在清理數據的過程中,與Hans進行了幾次核對。最終,Hans完成了對主要結果的分析:使用隨機森林的方法,以體溫作為被預測變量,其他測量的變量作為預測變量。數據顯示,社會關係中的一個指標對於預測體驗來說確實還挺重要的:Complex Social Integration。這個指標指的實際上是關係的多樣性,按照關係的類型進行計算,數字越大代表關係越多樣。但是這個文章投稿不順利,從2016年一直被拒到2018,最後終於發表在了一個新的雜誌Collabra. Psychol.上。
在整個論文數據收集、整理和論文寫作、投稿中,我都是醬油,也沒有太投入時間。但是,我正在進行的一個合作項目是對Belief in Free Will的一個量表進行修訂。突然有一天我想到,在HPP裡面包含了許多問卷的多語言版本,如果我們就讓它們無聲無息地放在OSF上,有多少人知道它們的價值與意義呢?於是我跟Hans說,我們可以把原始數據與問卷整理一下,作為一個數據描述文章投出去,至少比較正式地介紹我們的數據。這大約是2018年年初(或者是2017年年底)。
然後,我們(主要是我)就開始重新整理數據,並根據數據進行整理編碼手冊(codebook),方便其他數據使用者能夠清晰地知道我們的數據中有哪些變量。很快我發現精力實在不夠,於是我叫上了殷繼興幫助。我們花了不少時間,根據SPSS數據、問卷以及Hans之前清理數據的記錄,終於把數據和codebook釐清了。我們也把9種語言的施測材料找過來,按照問卷的結構將所有問卷整全到一個Excel表格之中,方便同行進行對照查閱。在這個過程中,繼興經歷了再次考研到最終西北師大。終於在Hans的主要文章正式發表後不久,我們的數據文章也可以投稿了。
Tips:在問卷數據及類似數據整理的過程中,我們採用的方式是.csv文件數據+excel文件的codebook,即對於每個數據,均有一個數據文件和一個codebook文件。在數據文件中(UTF-8編碼或者Unicode編碼的csv文件),基本按照SPSS數據格式,即第一行是列名(與R裡colnames對應)變量或者數據名,其餘每行代表一個被試的數據,比如我們數據中一個截圖:
而Codebook中,必須有一列與數據文件中的這些列名對應:
當然,這種數據文件+codebook的方式,不太適合機讀,可能不太適合更大規模的數據。目前一些研究者正在試圖整合標準化的心理學數據格式(https://github.com/psych-ds/psych-DS),期待能夠有更簡單快捷且能夠機讀的數據組織形式的出現!
數據整理好之後,需要選擇投稿的期刊。目前,數據描述類文章可選的雜誌不多,我所了解到的包括GigaScience,Scientific Data,Journal of Open Psychological Data,Data in Brief 等。Frontiers系列裡也有數據描述這種文章類型,我們之前關於P值理解的調查以這種形式發表了(見doi.org/10.3389/fpsyg.2018.00868)。GigaScience主要是生物學大數據的,似乎沒有心理學相關的數據,所以我們沒有考慮。接下來就是Sci. Data,這個雜誌是Nature Research旗下的期刊,創刊不久。我們想試一下Sci. Data,但沒有抱太大的希望,因為Sci. Data影響因子不低,而且我所了解的數據文章都是費了很大成本才收集到的,比如左西年老師(Zuo et al., 2014)的Consortium for Reliability and Reproducibility(CoRR)和西南大學劉威同學作為一作的Longitudinaltest-retest neuroimaging data (Liu et al., 2017),都是MRI數據。而我們的數據收集的成本相對比較低。
但不管怎麼樣,試一下再說,於是我們投到了Sci. Data。碰到的第一個問題是版權協議。由於歐盟的新數據保護規則,雜誌對於從人類被試採集的數據很謹慎的,避免隱私的麻煩。對於我們的數據來說,一方面,我們數據中能夠識別出個人身份的信息不多,可能主要就是IP的數據,但這個我們早已經去掉了。但同時,我們的知情同意書中寫明了我們會以多個被試集體數據的形式發表在科研論文中。歐盟的數據保護規則中,明確要求是,對於任何目的都必須要當事人明確地許可,也就是說,該保護規則生效之後,未經明確許可即禁止。但該規則是2018年生效的,我們的數據是2016年採集的,理論上講不適用的。總共進行了好幾個郵件來回後,我們在cover letter裡加了一段說明,解釋為什麼我們可以使用CC-BY 4.0作為我們數據的協議,能夠儘可能地保護被試的隱私(上面的表格中有注釋,對於有些可能能夠識別出被試身份的,我們需要特別申請才能使用,具體而言,我們需要數據使用者有IRB的批准,認為他們不會公開我們的數據)。終於,Sci. Data接受了我們的投稿,進行了下一個環節:審稿。
Tips:如果你最近在收集數據並且想以後公開數據,最好要考慮在知情同意書裡明確加上需要被試同意公開分享數據,尤其是要提到公開後的數據是無法撤回或者修改的,因為歐盟的新數據保護規則是一旦個體要求自己的數據被刪除,數據收集者應該刪除數據。可以參考OpenScience公眾號之前組織翻譯的Open Brain Consent.
非常幸運的是,審稿人對我們數據的態度還是比較積極的,覺得我們的數據對於社會人格心理學有意義,且數據組織很清晰易懂,方便重複使用。但讓我們對前言背景進行再次補充,並且加強關於數據再利用的價值部分,告訴同行我們的數據可能會有什麼用途。於是我們增加了許多文字(在psyarxiv上可以看到我們不同版本之間的區別:https://psyarxiv.com/cs6au/)。
修改之後再次提交時,又碰到格式方面的問題:審稿系統中,initial quality check打回來了兩次,才再次提交成功。審稿人對我們的修改比較清單,沒意見了,負責我們文章的編輯也覺得可以接受,但又提了一些格式的要求,再次提交時,又進行了兩次才成功。總之,投稿到後面,主要變成了格式的問題,感覺Nature Research的editorial團隊在這方面的容忍度似乎非常低,我後來每次看到他們的郵件都很緊張,因為他們的郵件意味著又要花時間做一些繁瑣的事情。
在文章上線之前,還有兩件事情。第一、Sci. Data是要交錢的,因為它是一個open access的雜誌,所以文章處理費要作者出。與其他的開放獲取的雜誌相比,它的價格還是可以接收的(2019年的價格:1390歐元,https://www.nature.com/sdata/about/oa)。第二、Sci. Data有自己的元數據格式(meta-data),以保持在他們雜誌上的數據文章本身是可以機讀的,能夠方便被檢索到。所以這又意味著需要對這些meta-data進行處理。這方面其實大部分作者都不會有經驗,因為主要是信息管理方面的專業知識。當然,他們編輯團隊的人會進行郵件告訴你如何做,所以就是瑣碎的事情。最近他們正在開發一些工作,讓作者能夠自己給自己的文章生成元數據,估計以後會方便一些。
03 投稿感悟
最後,想說的是,能夠有一個數據文章出來也是蠻開心的。自己近幾年都在試圖使用Open Science的方式做研究,知道做Open Science在現階段很不容易,因為很多工作還是沒有回報的(也就是出力不討好)。如果沒有Sci. Data或者其他接受數據文章的雜誌,也許我們花的很多時間來整理數據和問卷,最後都沒有什麼回報,而許多同行也可能不知道我們有這樣的一批數據公開了(目前已經有兩位研究者申請使用那些我們未公開的敏感數據了)。所以我蠻感謝有這樣雜誌的存在,讓清理數據這樣有價值的工作得到了應有的獎勵。當然,我們的數據的價值有多大,最終需要由同行來評估,而不是由Sci. Data決定。所以我也希望有更多地同行去利用這些原始數據去探索和驗證一些假設,這樣可能能夠節省一些錢、一些研究的時間。
最後的最後,既然都看到這裡了,我也說一下我們的數據有哪些潛在的用途:(1)驗證一些量表的跨文化測量的不變性或者說是等同性,這個問題是最近心理測量中比較重要的一問題;(2)文化和語言是否調節社會關係與體溫之間的關係?在Hans 2018的文章中,我們發現語系(language family)也是預測體驗的一個非常重要的因素,但目前我們沒有系統地探索過這個問題,結合一起公開的數據,比如文化的鬆緊、權力距離等,是否能夠進一步探索文化和語言對社會關係與體溫之間的關係,是否在東方文化下,社會關係對體測的影響更加重要?(3)一些我們研究未作為關鍵的變量:主觀壓力、親密關係、懷舊、健康等(數據、問卷和代碼都可以通過連結:osf.io/h52d3/ 獲取)。同時,如果想使用隨機森林的方法來探索這批數據(其分析代碼也可以通過連結:osf.io/6yu5d/ 獲取)。
註:本文已獲原作者授權轉載,如需轉載,請聯繫原作者授權。
閱讀論文全文,請訪問:https://go.nature.com/2JppTHS
期刊介紹:Scientific Data is a peer-reviewed, open-access journal for descriptions of scientifically valuable datasets, and research that advances the sharing and reuse of scientific data. We aim to promote wider data sharing and reuse, and to credit those that share.
(來源:科學網)
特別聲明:本文轉載僅僅是出於傳播信息的需要,並不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站註明的「來源」,並自負版權等法律責任;作者如果不希望被轉載或者聯繫轉載稿費等事宜,請與我們接洽。