新疫苗實驗刷屏,科學的AB測試是如何混淆視聽的?

2020-11-28 人人都是產品經理

編輯導讀:AB測試原本是網際網路的一種工作方式,在是為Web或App界面製作兩個或多個版本,分別讓組成成分相同(相似)的目標人群隨機訪問這些版本,收集各群組的用戶體驗數據和業務數據,最後分析、評估出最好版本,正式採用。現在被應用到各行業,新疫苗的研發和使用也有涉及。

世界上有三種謊言:謊言、該死的謊言、統計數字。

There are three kinds of lies:lies, damned lies, and statistics.

01 全世界矚目的兩個對照試驗

這周頻繁被2組對照實驗刷屏,都和抗Covid-19有關。國際上對疫情的報導不斷,但也沒有這兩組實驗的結果來得刺激。

1. 口罩實驗

第一個刷屏的實驗,是來自丹麥的 「口罩防護效果」 對照實驗,如下圖所示。

2020年11月18日, 醫學內科領域頂級期刊《Annals of Internal Medicine》發表了一篇「驚世駭俗」的論文, 這個論文提出了一個觀點「戴口罩對於防護新冠沒用」。這篇論文已經在71 個國際主流媒體上被報導, 推特上已經有55,994個轉發和討論帖。

文中詳細描述了,在丹麥進行的、關於戴口罩預防新冠感染的隨機對照試驗:6000 人隨機分成兩組,做了兩個月試驗,外出保持社交距離並戴口罩組的感染率是 1.8% ,外出保持社交距離不佩戴口罩的對照組感染率是 2.1% 。因為兩組的感染率差異不顯著,結果不具有統計學意義。因此,在這組實驗中,結論是 「戴口罩的防護作用是無效的」。

2. 新疫苗實驗

第二個刷屏的實驗,是登上各大主流媒體重磅頭條的「最新疫苗有效性」對照實驗,如下圖所示。

同樣是11月18日,藥品製造商輝瑞公司宣布最新實驗結果:他們研製的冠狀病毒疫苗有效性為95%,且沒有嚴重副作用。Covid-19 疫情在全球範圍內急劇上升期間,這組完整的疫苗試驗結果給各國都打了一劑強心針。

這項試驗包括近 44,000 名志願者,其中一半人注射了疫苗、另一半人注射的是鹽水(安慰劑)。然後,持續觀察每組有多少人患上 Covid-19。最終,在 170 例感染了 Covid-19的患者中,安慰劑組佔 162 例,疫苗組僅佔 8 例。實驗初步證明,該疫苗可以預防輕度和重度形式的 Covid-19。如果疫苗的授權審批通過,輝瑞公司將全面投入量產。

02 被大眾「誤讀」的三組數據

對照實驗(A/B測試)一直是科學陣地牢不可破的根基,它讓我們更接近事情的真相,統計數據的價值也被充分發揮出來。但是,很多實驗結果在向大眾傳播時,信息容易被誤讀,甚至會成為誤導大家的工具。究其原因,只有一個:對A/B測試的理解不準確。統計數字從來不會說謊,說謊的是它們被解讀的方式。

1. 1.8% VS 2.1%

前面提到,在丹麥進行的、關於戴口罩預防新冠感染的隨機對照試驗中,6000 人隨機分成兩組,試驗進行了兩個月,戴口罩組的感染率是 1.8%,不戴口罩組的感染率是 2.1%。在統計學上,這兩組數據的差異沒有顯著性。所以,很多人就認為,口罩很雞肋,對於防護病毒是無效的。

首先,在此研究進行的時候,新冠病毒感染在丹麥還很罕見,且丹麥的人口密集度低,口罩的作用本來就具有很大局限性,以至於該項研究得出的結論並不能反映:1. 在新冠爆發期間,戴口罩的作用;2. 在人口密集的地區,帶口罩的作用。

其次,帶面罩組有 42 名參與者(1.8%)、對照組有 53 名(2.1%)參與者感染,組間差異為 -0.3 百分點,這個百分點雖然不能說明顯著性差異,但是如果換個角度解讀,我們卻能發現這組數據的可疑之處。

截至目前,丹麥實際的人群感染率約為 3/1000,如果試驗擴展到從整個丹麥人口中隨機抽取 6000 人,非口罩組的感染人數大致為 9 個,這個數字遠遠低於實驗中的53例。就算口罩可以降低 50% 的感染率(這已經相當高了,現實中不可能),那麼,這個假想的實驗中,口罩組最多可以減少 4.5 例感染。

而現實中的口罩組,感染人數竟然比對照組少了 11 例,這得多大的預防效果才能存在如此之大的人數差異呀?可見,這組實驗結論的漏洞很大。

這還沒有算上,被招募者的 6000 人,其職業、行動軌跡、行為習慣和身體素質都存在很大差異,如上圖所示,僅職業不明的人群就佔了總實驗人數的 22% 。個體存在的差異會影響最終驗證的結果,實驗中參雜了太多的無關變量,導致實驗結果很難被相信。

2. 大樣本量 6000

姑且不談現實中口罩的應用場景,這裡僅深究一下 6000 的 「大樣本量」 是否真的合理?

換句話說,3000 對 3000 的實驗設計,是否具有預測價值呢?丹麥平均的感染率約為千分之三,依舊假設人群感染率為 3/1000,就算口罩的作用可以降低 1/3 的感染率(降低 1/3 已經是很強的作用了)。那麼實驗終點,非口罩組和口罩組預期感染人數分別是 9 例和 6 例,這一數字並不具備顯著性。即使預期感染率達到 5/1000 (相當於武漢的感染率),那麼非口罩組預期感染人數 15 例,口罩組為 10 例,粗略計算, p=0.42,還是沒有顯著差異……

直到感染率達到 2% 的極高水平,非口罩組為 60 例,口罩組為40 例,p= 0.01 ——這時候才達到統計學顯著性水平。可見,6000 人的設置並沒有結合實際的人群低感染率來進行設計,只需稍微深究一下,就知道禁不起推敲。

換句話說,不是什麼情況下,都適合做對照實驗的。對照實驗並不是萬金油,必須和現實情況密切結合。如果實際需求的樣本量很大、現實卻只能收集很少的樣本數據時,這樣完成的實驗結果,不僅不能說明問題,還很可能造成統計學上的某種誤導。

3. 新疫苗功效高達 95%

上文還提到了有關「新疫苗」的試驗,其結論也被很多人理解為,如果注射一支疫苗,就可以將感染機率降低 95%。實際上,這個數字也很有誤導性。95% 這個數字是怎麼來的呢?

以輝瑞公司的實驗為例,首先招募了 43,661 名志願者,研究人員等待 170 人出現 Covid-19 症狀,並獲得陽性測試結果。在這 170 個陽性結果中,有 162 個屬於接受了安慰劑的對照組,只有 8 個是屬於接受了疫苗的實驗組。

然後,科學家對這兩部分患者之間的相對差異做了定義:如果疫苗組和安慰劑組之間的感染人數沒有差異,則功效為0%;如果疫苗組無人感染,則功效為100%。

通過計算,我們得出 (100% – 8/162) = 95%,這個數字無疑是證明疫苗有效的有力證據。但是這個數字並不能說明:一旦接種疫苗後,生病的機率是多少。同理,它也不能說明大規模接種疫苗後,接種人群的疫情降低程度。

現實中,接種疫苗後的情況並不好估計,因為參加試驗的人員不能反映整個人群的複雜情況,在實際情況中,人們可能會遇到各種各樣的健康和反應的差異,僅僅是一次大規模臨床實驗,根本不能說明其效果。之所以大概率會被推行,是因為事出緊急,疫苗的正面作用一旦被認可,就很可能做大規模的接種。畢竟,減少病毒的傳播是第一要務。

但是,如果人們接種了疫苗,然後放鬆了戴口罩或其他安全衛生措施,則很有可能增加冠狀病毒傳播給他人的機率,更何況還存在相當數量的無症狀感染者。因此,慎重對待特別積極的實驗結果,才是更科學的思考方式。

03 給營銷A/B測試的啟示

A/B測試在廣告投放、轉化迭代、優惠策略等眾多的營銷場景中,被廣泛應用著。一說如何提高營銷 ROI,營銷人最先想到的就是「做個 A/B 測試吧,咱用數據說話。」但是,營銷中如何讓測試數據說出正確的話,而不是像以上兩個實驗那樣,對人產生不必要的誤導呢?

1. 測試不是打輔助,測試就是策略本身

與傳統決策流程中的歸納後驗式不同,A/B測試是一種先驗的實驗體系,屬於預測型結論。和疫苗實驗類似,得出的結論很難對全量流量做出預測,但是卻可以作為權衡利弊的籌碼,幫助你做出重大決策。

這也就帶來了一個問題,很多人認為做完A/B測試,驗出結果好壞,這個測試就可以結束了,殊不知營銷的多變因素不亞於疫苗的接種情況,會遇到各種各樣的差異性問題。這就需要營銷人員持續地做測試,將測試作為一種手段和策略,而不是只給決策打個輔助,偶爾才用一下。

此外,將A/B測試當作策略、而非輔助,還有兩個重要原因:

  • 很多時候,做A/B實驗時,會不自覺對用戶進行篩選,這個時候得出的ROI較高,一旦擴量到全部用戶,ROI可能就會降低(類比疫苗實驗)。因此在說某個策略的ROI時,需要注意,是否是小規模用戶的效率,而不是整體用戶的ROI。這個時候,就需要做持續不斷的測試,才有可能不斷接近目標ROI。
  • 還有一種新奇效應遞減的情況,也很常見。在出某個新營銷頁面的時候,用戶可能會比較感興趣,這個時候效果最好。但是過一段時間,用戶的新奇感就會消失,需要營銷人員做持續、快速的創意測試,以防止因版本效果衰減而帶來的轉化率大幅波動。

【例子】:

某頭部在線教育企業的課程,在移動端推廣效率成為其市場部門非常重視的核心指標之一。為提高用戶的購買轉化,營銷和產品部門合作,決定通過A/B測試找到優化方案。

第一次測試,修改主標題,原版本的 「60萬好老師」改為「名師1對1輔導」,轉化率提升 3% 左右,採用試驗版本。

第二次測試,改副標題,結果原版本的「預約免費試聽課」比測試版的「尋找自己的1對1老師」,轉化效果要好 4.7%,於是繼續採用原版本。

第三次測試最有趣,修改了按鈕上的引導語。在按鈕的點擊轉化方面,原始版本「免費試聽」比試驗版本「快速預約」高 10%。但是,在後續的實際購買轉化追蹤數據顯示,試驗版本比原始版本高出 9%!

對於這個試驗結果,該品牌根據這個產品在市場上的發展階段,進行了綜合評估,最終還是決定最終的試驗版本,儘管點擊率差一些,但是轉化收益最優。

可見,持續的測試、並根據實際業務情況做出優化,應該成為營銷人的日常策略。因為總是有隨市場變化的因素,今天表現好的元素也不一定明天還好,效果是動態的,測試也同樣需要動態中進行。

更何況每次測試都可以得到一些新的積累,比如這個案例中,如果這個課程產品是剛起步階段,需要更多地拉新用戶,那麼營銷人員就應該選擇原始版本——能獲取更多潛在用戶的資料。

2. 測試結果要綜合看,維度不能單一

通常,我們會從一個固定的測量維度來評估測試結果。但是如果只考慮一個維度也意味著脫離了情景來看實驗數據。比如,疫苗實驗的結果中,就沒有考慮到無症狀感染者的情況,很可能導致結論有偏差。

數字結果是一方面,但是其背後的業務含義更加重要,不能忽略。比如,在不同的情景下,你可能需要對相同的A/B測試結果,做出不同的決策。

一個營銷活動,在進行不同優惠策略的A/B測試時發現,A版比B版的用戶總活躍度高出 5%,但是卻同時降低了其中年輕用戶的活躍度佔比,那麼應該推廣哪個版本好呢?

情景一,這是一個中老年購買力佔主導的營銷活動,顯然更傾向於總活躍度的提升,至於年輕人,反正也沒有實際購買慾望,可以在這次活動中忽略掉。

情景二,這是一個青年人購買力佔主導的營銷活動,總活躍度提升,但年輕人活躍度度下降,很可能影響實際的成單率,A、B版本的選擇,必須重新進行評估。

此外,維度不能單一,還包括避免習慣性地將測試結果當作一個絕對整體來看待。一般而言,從某個固定的測量維度來評估測試的結果是沒錯的,這樣做通常可以避免在多個維度中挑選最符合「需要」的數據,而故意忽視不符合假設的結果。

但同樣,僅考慮一個維度也意味著脫離了情景來看試驗數據——不同的情景,很可能意味著對A/B測試結果截然不同的解釋。

【例子】:

幾年前 Airbnb 對搜索頁進行了改版設計。搜索頁是 Airbnb 業務流程中非常重要的一個頁面,決定後續的轉化情況。

搜索頁改版前後的變化如圖,新版更強調房源的圖片(Airbnb為房主提供專業的攝影服務)及標記了房源所在位置的地圖。為了這次改版,團隊投入了很多資源,設計人員和產品人員都預測新版肯定會表現更好,定性研究也表明新版本更好。

但針對搜索頁的A/B測試結果卻顯示,新版轉化率並沒有更好。這個結果讓人大跌眼鏡,因此分析團隊將數據細分到不同的情景中,來查找結果背後的真正原因。

經過分析後發現,問題出在 IE 瀏覽器上。如上圖,除了來自 IE 的訪問以外,新版在其他主流瀏覽器上的表現都是優於原版的。這個縱向的深入分析,幫助團隊找到真正的問題:搜索頁的改版很有效果,但是代碼實現存在嚴重問題。在修復相關的問題後,源自IE的數據也有了超出 2% 的增長。

這個案例是A/B測試中一個被人津津樂道的案例,可以看出,從多個維度對測試結果進行解釋,是很有需要的。營銷人員都應該嘗試將數據分解到不同的維度,然後去理解不同維度下測試的實際效果。

最後,需要強調一點,A/B測試雖好,但是如果使用不當、或解釋不當,都可以成為增加營銷阻力的因素。這就需要營銷人避免在分析結果時出現自欺欺人的傾向。

我們都理解,測試過程很費時費力,有的改版結果,測試後發現很打臉。這種情況下,很多營銷人為了找到有利的結果,會刻意去分解數據,然後在多個維度中挑選「最符合需要的」數據,或者和上文中的兩個「刷屏」的抗疫實驗一樣,為了證明某個假設而只突出部分數據或片面解讀。

例如,儘管我們都知道A/B測試的最終還是要落腳於優化整體營銷ROI,而不是為了單純優化某個指標。但是,當某個指標表現及其搶眼的時候,可能會導致優化者的短視。比如,過分注重某一層的轉化率,從而在設計引導上急功近利或花樣百出,甚至強迫用戶去做出點擊,而不管後續轉化的質量。

還是那句,A/B測試從來不會說謊,說謊的是它們被解讀的方式。想獲得消費者洞見和營銷優化策略,就要遵循科學的方式、做好充分的解讀,數字太漂亮或太反常,都要保持十二分的警惕。

#專欄作家#

Agnes;微信公眾號:靈蹊營銷筆記,人人都是產品經理專欄作家。關注智能營銷領域,擅長發現最新的營銷技術及工具,並發掘行業前沿案例。

本文原創發布於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基於CC0協議

相關焦點

  • 數據應用系列(1)-ab測試
    這就需要一個科學、並行、可操作的方法來驗證每一種策略的可能性,這種方法就是我們今天要講的A/B測試。近幾年來隨著用戶增長,精細化分析概念的普及,作為核心方法的ab測試也仿佛成為了網際網路圈小夥伴們必須掌握的基礎技能之一。
  • 從數據產品經理視角,聊聊科學的AB Test
    隨著ab測試在網際網路行業用戶增長方面的推廣,各家都搭建了自己的ab測試平臺(不限於BAT) 或者 購買了ab測試服務。今天就來看下AB測試的前世今生,能為企業解決什麼問題,如何標準化ab測試流程,如何搭建一個ab測試平臺。
  • 瘋狂的科學家:甘當「實驗鼠」測試DIY新冠疫苗
    新冠疫苗試驗工作經歷了奇怪的一周。首先,Moderna 和輝瑞兩家公司的疫苗已進入最後試驗階段,都希望招募 3 萬名志願者來測試該疫苗是否有效和安全。 如果說上述兩家醫藥公司還屬於常規操作, 那麼波士頓的一群研究人員則顯得怪異,甚至是不正常。他們決定在自己身上測試一種 DIY 的新冠疫苗。
  • 《科學》雜誌:中國新冠疫苗免疫效果良好
    《科學》發表了由中國團隊合作完成的論文,該論文展示了PiCoVacc(純化滅活新冠病毒疫苗)在獼猴中的良好抗病毒能力,注射了該疫苗的獼猴能夠對後續的新冠病毒感染產生抵抗作用。
  • 刷屏,新冠抗體藥物和疫苗開發又有這些重要進展
    今天,頂尖學術期刊《科學》上,一共有5篇關於新冠病毒抗體的研究論文同時上線,介紹了多款新發現的人源中和抗體以及抗體「雞尾酒療法」。
  • 新冠肺炎挑戰性研究:「人類白老鼠」測試疫苗是否值得?
    在一般的疫苗開發過程當中,經過動物測試和首兩個階段的人類試驗之後,疫苗的安全性與有效性已有初步的保證,最後就要經過通常牽涉上千名人類實驗參與者的第三階段測試,讓接受了疫苗注射的人,以及作為對照組、只接受安慰劑注射的人,回到正常的生活環境當中,再以年月計的時間作觀察,去確認疫苗能否為人類帶來對於被針對病毒的免疫能力。為何要主動感染人類?
  • 中國科研團隊在《科學》雜誌發布全球首個新冠疫苗動物實驗結果
    (健康時報記者 王永文編譯)5月9日,健康時報記者從科興生物獲悉,中國科研團隊已發布全球首個新冠疫苗動物實驗研究結果,證實在動物實驗中安全有效。此信息也已發布在權威雜誌《科學》(Science)雜誌上。
  • 「忽左忽右」的健康科普刷屏 我們該如何「相信」科學?
    像這樣「打臉常識」「忽左忽右」的科普帖,朋友圈幾乎天天可見:某科學研究發現手機輻射可能致癌,不久後又說這種效應尚無足夠證據;剛把日行萬步、南瓜降糖等奉為「養生秘籍」,轉眼又有專家出來闢謠……最為尷尬的是,這些自相矛盾的科普帖通常都冠以科學的名義,每種觀點都言之鑿鑿,讓人無所適從。公眾不禁要問:在這個健康科普刷屏的時代,我們到底該信誰?
  • [CDATA[動物活體實驗證實 新冠疫苗鼻腔滴入可起到免疫效果]]>
    6231360552b69755919df481dae4eca852d9d231d0http://stock.10jqka.com.cn/20200826/c623136055.shtml2020-08-26 05:12:152020-08-26 18:54:332020-08-26 00:00:0011同花順金融研究中心  據《自然》網站近日報導,通過在實驗室小動物身上進行活體實驗,美國和中國兩組科研人員發現
  • 推薦算法改版前的AB測試 | 實驗設計
    實驗背景某商城,搭建了以個性化推薦系統為核心的「猜你喜歡」功能;功能上線後,發現推薦的準確率(用戶進入物品詳情頁定義為判斷真正的正樣本)較低;對此,數據分析師優化了推薦模型。2. 實驗目的在新的推薦模型上線前,進行AB測試,以此判斷新模型是否能夠顯著提升推薦的準確率。
  • 自體實驗研製的新冠疫苗,能放心接種嗎?
    如今的新冠疫情時代,各國爭相研發疫苗,也有不少研究人員把自己當「小白鼠」,拿自己做醫學試驗。不過,我們真的還需要「勇於獻身」的自體實驗嗎?自體實驗研製出來的新冠疫苗,我們能夠放心接種嗎?撰文 | 小葉新冠肺炎全球肆虐10多個月,確診感染人數逾4千萬,死亡人數逾110萬。
  • 如何科學面對新冠肺炎疫苗接種?三個「應當」牢記心中
    本文轉自【澎湃新聞】;世界範圍內不斷擴展的新冠肺炎疫情讓人揪心,「外防輸入、內防反彈」是當前疫情防控的重中之重。根據國務院聯防聯控機制2020年12月21日新聞發布會內容,要對重點人群開展疫苗接種,因此,「疫苗接種」成為公眾關注焦點。 如何科學面對疫苗接種?
  • 疫情肆虐下,全球新冠疫苗研發進展如何?路線是怎樣的?哪家最安全...
    來 源丨21世紀經濟報導(ID:jjbd21)作 者丨特約記者房珊珊編 輯丨李豔霞圖/ 視覺中國全球新冠確診病例數仍在快速攀升。美國約翰斯·霍普金斯大學9月17日發布的疫情統計數據顯示,全球累計新冠確診病例超過3000萬例。疫情肆虐下,對新冠疫苗的冀望越來越大。目前,全球新冠疫苗研發進展如何?
  • 新冠肺炎藥物和疫苗進展如何?科學家來答疑了
    張新民介紹,科研攻關組已組織全國優秀的科研團隊,利用計算機模擬篩選、體外酶活性測試等方法對七萬多個藥品或化合物進行篩選,遴選出五千個可能有效的候選藥物,在普通冠狀病毒感染的細胞水平上進行初篩,之後選定了100個左右的藥物在體內開展新型冠狀病毒的活性實驗。
  • 新冠疫苗成為《科學》雜誌十大科學突破首位
    來源:新華網新華社華盛頓12月17日電 美國《科學》雜誌17日公布其評選的2020年十大科學突破,「以創紀錄的速度開發和測試急需的新冠疫苗」當選頭號突破。中國、美國、歐洲等地科研人員在2020年年初獲得新冠病毒基因組序列後,便嘗試不同技術路線研發疫苗。疫苗研發通常需要數年時間,但在全球科學界共同努力下,2020年年底前已有新冠疫苗獲批使用。《科學》雜誌評價說,凝聚起來的強大力量推動新冠疫苗在短時間內從無到有。
  • 中國新冠疫苗在土耳其進入三期臨床實驗
    當地時間周一,中國科興生物公司研發的新冠疫苗「克爾來福」(CoronaVac)在土耳其安卡拉正式進入三期臨床實驗階段。上周的初步測試結果顯示,該疫苗能快速誘導免疫反應,儘管產生的抗體少於新冠康復者體內檢測到的抗體數量。研究人員稱,根據過往經驗判斷,「克爾來福」能提供足夠的保護。19日,12萬劑該疫苗從中國運抵巴西。(中國日報)
  • 刷屏的mRNA疫苗,到底是怎麼一回事?
    這是達醫曉護的第2931篇文章 最近,大家的朋友圈都被輝瑞-BioNTech的mRNA疫苗刷屏了,在全球疫情現況嚴峻的當下,著實引起了一片叫好聲: 「輝瑞宣布新冠疫苗有效性 90%,全球首款 mRNA 疫苗要來了嗎?」
  • 抗海洛因毒品疫苗首次通過臨床前測試,在猴子身上實驗成功
    這項研究發表在近日的《美國化學學會雜誌》上,其中靈長類動物實驗由維吉尼亞聯邦大學的研究人員負責。斯克裡普斯研究所負責該項研究的 Kim Janda 教授指出:「該實驗結果和我們以前在齧齒動物身上的試驗數據一致,這意味著我們的疫苗在預期的臨床評估中能夠成功。」
  • 新冠疫苗成為《科學》雜誌2020年十大科學突破首位
    新冠疫苗居科學雜誌2020十大科學突破首位【新冠疫苗成為《科學》雜誌2020年十大科學突破首位】美國《科學》雜誌17日公布其評選的2020年十大科學突破,「以創紀錄的速度開發和測試急需的新冠疫苗」當選頭號突破。
  • 「蟄伏」三十年,基因疫苗技術正在進行最終測試階段
    而新冠肺炎大流行的出現對於這項仍處於實驗階段的技術而言是一個進入最終測試階段的機會。如今,一些針對新冠病毒的基因疫苗正在通過臨床試驗取得進展,成為該領域的領頭羊。Moderna,Inovio Pharmaceutials和瑞康(Pfizer)都在研發基因疫苗。批判者們指出,Moderna和Inovio在此之前從未製造成功任何藥品或疫苗。