研究比較大的問題可能需要從小處入手,我這裡選擇的角度是口罩。想必大家也能感覺到,東亞是提倡戴口罩的。但是西方國家卻似乎對戴口罩這件事不太上心。儘管他們現在也口罩告急了,但更多是因為醫院的資源缺乏。針對健康的普通人,西方國家的說法仍然是:不提倡普通人戴口罩,但是要勤洗手。
所以一個很基礎的假設就是,是亞裔人口越多的地方,人們會越關注口罩。
恰好呢,手頭有2019年美國51個州(包括哥倫比亞特區的)亞裔人口比例數據(https://worldpopulationreview.com/states/asian-population/)。排名前10位的州如下所示,分別是夏威夷,加利福尼亞,新澤西,華盛頓,紐約,內華達,麻薩諸塞,維吉尼亞,馬裡蘭和阿拉斯加。
那麼如何衡量各州對於口罩的關注程度呢?也很簡單,採用google trend。比如,我在google trend裡面搜索coronavirus,就會得到下面的圖:
折線圖顯示的是過去30天內,coronavirus這個詞在美國的搜索趨勢。地理分布圖則顯示了各州關於coronavirus的搜索熱度,並且可以在右側下載各州該關鍵詞的相對熱度值。google對這個相對熱度進行了解釋:
"得分越高表示字詞在當地所有查詢中佔比越高,並不代表絕對查詢次數越多。因此,如果一個小國家/地區的「香蕉」查詢次數佔比是 80%,其得分會比該比例只有 40% 的大國家/地區高出 1 倍。"
根據這個解釋來看,google提供的各州的相對熱度值恰好是我們所需要的。該值體現了該州整體對口罩的關注程度,並且已經進行了標準化。這裡稍微解釋一下,如果看絕對熱度,那麼人口較多的州比如加州是肯定佔優勢的,但是如果是看某詞在當地所有搜索中所佔的比例,那麼人口等混雜因素的影響很大程度上就被除去了。
於是,我搜索了2個詞的趨勢,分別是mask和coronavirus,然後結合亞裔人口的比例情況進行分析。mask的熱度是我們主要關注的,coronavirus的熱度則是作為一個控制因素。
首先看mask和亞裔人口比例的相關程度,散點圖如下。
相關係數R方達到了0.5858,如果把夏威夷和加州這兩個異常值去除,R方進一步提升到0.7以上。說明二者強相關。有人會說是不是亞洲人口更關注新冠病毒呢?於是我們檢查了亞裔人口比例和coronavirus搜索熱度的關係,結果發現相關性很差。R方為0.0659。通過回歸檢驗,亞裔人口比例對coronavirus的搜索熱度的影響係數並不顯著。之後,我們在對mask(口罩)搜索熱度進行回歸的方程中控制住coronavirus的搜索熱度,亞裔人口比例仍然顯著影響該州對口罩的搜索熱度。下圖是用R跑的回歸結果,可以看到AsianPerc(亞裔人口比例)的影響是高度顯著的。上述分析是一個非常非常簡單和不健壯的相關分析,但其中得到的結論卻似乎還有點意思。遠在異國他鄉的東亞人,看起來仍然和他們祖上的兄弟們一樣,採取了類似的個人保護措施應對瘟疫。十年五道口,一生老實人