什麼是好的研究假設(Hypothesis)?——順談與自變量、因變量的關係

2021-03-02 量化研究方法

社會科學研究中有一個特別有趣的東西，叫「研究假設（hypothesis）」，這個東西特別重要，它連接了理論和數據，是貫穿一篇文章的黃金線。讀一篇實證文章的時候，哪怕什麼都沒看懂，也要把研究假設看懂了，看懂了研究假設也就明白了這篇文章主要是要幹嘛。所以我們今天系統的來說說研究假設，以及與其緊密相關的自變量、因變量。

本篇文章會討論到：

為什麼要有「研究假設「這個東西？

什麼是好的研究假設？

自變量、因變量，以及與研究假設的關係是什麼？

我們在為什麼要有社會科學研究方法？一文中就說過其實搞研究沒有什麼可神秘的，本質上，研究就是在探尋對一個問題的答案；然而科學研究又與普通人日常生活中尋求答案不同，因為它嚴謹、科學、系統、嚴密、一絲不苟。

如果說人類知識分等級，那麼科研者就像是站在金字塔的塔尖。為金字塔最下面站崗的知識服務商可以說錯甚至胡說，因為有金字塔中間的人在把關；金字塔中間的人也可以時不時犯錯，因為有金字塔頂端的科研人員把關；而科研人員就不能再錯了，頂端的搞研究的人都錯了，底下的就全錯了，人類知識航行的方向也就堪憂。

所以，為了盡力讓研究結果不出現絲毫的錯誤（請注意只是盡力，不是說一定完全沒錯誤），科研人員有時候必須神經兮兮、矯枉過正、一絲不苟、甚至看上去有點迫害妄想症地去對待每一個對問題的探尋，因為別人在問問題和給答案的時候可以不在意可以不負責任，而研究人員是代表人類知識的最前沿在探究答案啊，她/他不可以隨意和不負責任。這就是為什麼我們在初接觸研究方法上的一些名稱和詞彙時，有時候會覺得莫名其妙或是多此一舉，也是為什麼很多人會覺得搞科研的人特別「nerd」——大哥大姐們，不nerd做不好學術啊，不神經兮兮就難以守護人類知識的金字塔啊！（兩眼淚汪汪）

但是，一旦你開始細細了解，你會發現很多學術範疇內看上去有點莫名其妙的詞彙或稱謂其實離我們一點都不遠。就拿「研究假設」這個東西來說——研究假設離我們遠嗎？我們普通人如果不做學術就從來不會用到嗎？ 其實恰恰相反，我們普通人問問題和給答案的時候也總是給出「假設」，我們甚至在日常聊天的時候都一直在給假設，比如下面這個例子：

小白：小芳，我這兩天怎麼總覺得頭疼？

小芳：我覺得你最近喝咖啡有點多，會不會跟喝咖啡有關？

小白：有可能。

小芳：要不然就是熬夜熬的，你最近趕那個項目天天凌晨兩點才睡，能不頭疼麼？

小白：好吧，這兩天早點睡試試。

喏，這個對話，小白提出了一個問題「為什麼我總頭疼？」，小芳於是信手拈來給了兩個假設：

假設1：喝咖啡喝的越多，小白的頭越疼。

假設2：睡覺睡得越晚，小白的頭越疼。

當然，我們平常可能會把這種回答叫做「猜測」而不叫「假設」。但是其實這就是研究假設的本質：一種對於某個問題答案的未經證實的猜測。

其實這世界上所有對答案的探索過程都一定要經過「假設」這個過程，當我們給出的某個答案還未經證實，那不就是一種「假設」嗎？只不過有很多時候這個假設的過程是隱性的、短暫的、無需被單獨列出的、或者不被人意識到的。

而科學研究不同了。科學研究裡面，你需要嚴謹和明確的把你要研究的東西明晃晃的亮出來，你需要清清楚楚的分清什麼是fact（事實）什麼是opinion (觀念），什麼是hypothesis（假設）什麼是tested finding （經證實的發現）, 為此你需要把你的研究假設一是一二是二的寫出來在文章裡，而且你需要儘量表達到位、用詞準確，因為只有這樣別人才能知道你後續驗證數據的過程做的有沒有道理、所設計的方法合不合適、分析結果能不能驗證你的假設。所以在實證研究中，我們也就看見了「Hypothesis 1..」, 「Hypothesis 2…」這樣的專屬於學術研究的東西。

總體上來說，我們在實證研究中一定要亮出研究假設是為了以下幾個目的：

告訴別人你這篇文章要關注的主題是什麼（比如，」喝咖啡喝的越多，小白的頭越疼」這個假設能清楚的告訴別人我要關注的是「為什麼小白頭疼」）；

告訴別人你有一些別人沒想到的能解釋這個問題的想法或「變量」（比如「喝咖啡」和「睡得晚」就是解釋變量）；

告訴別人你在研究中關注的自變量和因變量分別是什麼；

告訴別人假設自變量和因變量兩者是怎樣的關係（比如正相關、負相關、非線性相關等等）。

所以研究假設這個東西看上去就那麼一兩句話，但是作用其實特別大。這也是為什麼我們說看實證文章一定要看懂研究假設的原因。研究假設看懂了，一篇實證文章也就看懂了一半。

好了，接下來我們可以來看一個嚴肅一點兒的對Hypothesis的定義：

「A hypothesis is a testable statement of the proposed relationship between the independent variable, which measures the cause, and the dependent variable, which measures the effect. 「（Pollock, 2015）

就是說，一個研究假設它一定是提出了一個可驗證的關係的假設，這個關係裡包含一個自變量和一個因變量，這個研究假設需要提出了一個自變量是如何解釋該因變量的。

仔細看這個定義我們能看出這麼幾層意思：

只討論了一個變量的假設並不是研究假設。比如，「明天天氣會變暖」---這裡面只有一個變量，就是「天氣」，它沒有提出兩個變量之間的關係，變暖這個事情是天氣的特徵值(value)，而不是variable;

研究假設裡面要提出自變量和因變量的關係，將自變量和因變量進行「聯結」。比如，「明天天氣會變暖，明天溼度會特別大」----這裡面確實出現了兩個變量，然而並沒有聯結二者的關係，沒有用自變量去解釋因變量，所以也不是好的研究假設；

好的研究假設裡不能只說兩個東西相關，還要說他們是怎麼相關的。比如隨著一個變量的增長另一個也增長，這叫正相關；隨著一個增長另一個下降，這叫負相關。

研究假設必須可以驗證。比如，「喝咖啡越多頭越疼」就可以驗證；「喝咖啡越多人就越通靈」就無法驗證（至少現在科學界無法驗證）。

接下來我們再來好好說說IV 和DV這兩個重量級大咖。這個部分的大體內容其實我們在把實證文章從厚讀薄的本領——變量梳理法中有所涉及（建議結合兩篇文章一起看），但這裡我想再花點篇幅重新細緻的說一說，誰讓重要的事情都得說三遍，而這倆傢伙在定量研究中簡直是重中之重。

這裡我請大家先從英文名字上來理解一下它們倆到底是幹嘛的：

Independent Variable : variable是變量的意思，independent是不依賴的意思，所以independent variable就是誰都不依賴的變量——我自己變我自己的，不管別人變不變，其它變量決定不了我（很任性的）——中文就叫「自變量」了, 其實直譯過來就是「不依賴別人的變量」

Dependent Variable: 再次顧名思義，它需要依賴，需要依賴什麼呢？依賴其它變量來變化，否則它自己不知道該怎麼變。那具體依賴誰呢？依賴「independent variable」的變化。Independent variable一變，dependent variable一定跟著變，因為它天生就需要依賴才能存在啊。——中文裡把它叫做了「因變量」，因著別的變量才知道自己是怎麼變，然而英文名直譯過來它應該叫「依賴別人的變量」吧?（沒讓我去做翻譯是有道理的系不系...

【下文中為了書寫方便，我會用IV（Independent Variable)代表自變量，DV(Dependent Variable) 代表因變量。】

在一個定量研究中，研究者核心的任務就是把至少一對兒「不依賴別人的變量」(IV) 和」依賴別人的變量」 (DV )組合在一起，並且說明好它們之間的關係。而研究假設，也就是提煉後的、精確地描述這對兒IV-DV的未經檢驗的關係的陳述。

當IV和DV放在一起的時候， DV（因變量）是這個研究中被我們解釋、被關注、被預測的東西，所以也它叫做「結果變量」(Outcome Variable)；而IV則是導致了DV、能夠解釋DV、以及能夠用來預測DV的東西，所以也叫「預測變量」或「解釋變量」(Predictor Variable/ Explanatory Variable).

所以，一個更簡單的對hypothesis的定義是：

「Hypothesis is a testable statement about the empirical relationship between cause (IV) and effect (DV). 」

在驗證兩個變量之間關係的時候，研究者總是試圖通過改變和調試自變量(IV)，來觀測因變量(DV)的變化——因為如果因變量隨著自變量的變化而變化，那麼就說明兩者是相關的；至於是如何相關的，則需要進一步利用不同的統計模型來做出判斷。

換句話來說：

In experiments, the IV is the variable that is controlled and manipulated by the experimenter; whereas the DV is not manipulated, instead the DV is observed or measured for variation as a presumed result of the variation in the IV.

下圖展示了研究假設中IV和DV的關係：

你可能會說，那有些東西不是由單獨一個東西影響和決定的, 而是由多個東西決定的啊，比如人的學習成績，由智商、情商、用功程度、學科基礎、老師好壞等一系列因素組成，這怎麼算？

那就是說學習成績這個DV由很多個IV來解釋，比如下圖:

而在一個研究裡，通常是不需要討論到所有能夠解釋DV的IV的。（大多數的定量研究都是IV heavy型——就是說我的研究的主要貢獻在於我提出了一個前人可能沒有注意到的IV，我如果把這個IV和這個因變量之間的關係證明好，我的文章就是有貢獻的; 而另一類定量研究是DV heavy 型——這一類研究關注尋求某個DV（因變量）的完整解釋模型，這就需要你儘量列出全部能夠解釋該DV的自變量。Again, 我們通常做的大多數研究是IV heavy型。）

當我們寫研究假設的時候，還應該注意到，每一個研究假設應該只討論一對關係——也就是列出一個IV和一個DV之間的關係。如果你在一個研究中準備探討多個IV與DV的關係，那麼你應該把每一對關係都分別列在一個單獨的研究假設裡，而不是把它們都列在一起。

OK，說到這裡，什麼是好的研究假設就基本說完了。下面我們針對IV和DV這兩位大咖做一個練習。

【自助練習題：請用類似上圖的箭頭和長方形方框畫出下面研究假設中每一對IV和DV之間的關係圖, IV在左，DV在右，箭頭從IV指向DV】

假設1：咖啡喝的越多，人越容易頭痛。

假設2：晴天的交通事故率小於陰天的交通事故率。

假設3：總是吃垃圾食品的人，更容易得心血管疾病。

假設4：學歷越高的人，玩電子遊戲的能力越差。

以下是參考答案：

你可能已經發現了，一個好的研究假設不見得是一個正確的研究假設，也就是說研究假設還沒有驗證（否則就不叫假設了），所以可能是對的也可能是錯的，這要由數據來說話。數據結果如果沒證實你的研究假設或者跟你假設的關係方向相反，也不代表你的研究就沒有意義了。但是研究假設一定要可以驗證，一定要說清楚了IV和DV的關係，論文中的研究假設當然還要make sense, 有理論支撐。

關於研究假設還有兩個寫假設的初學者模板沒有講，留待下篇。總結一下，這篇文章我們說明了什麼是好的研究假設, 以及研究假設與自變量、因變量之間的關係。一個好的研究假設應該做到：

清楚說明一個自變量與一個因變量之間是有關聯的；

清楚地說明自變量和因變量之間是怎樣關聯的（direction of relationship）；

研究假設應該是可以驗證的(testable).

而讀別人文獻的時候我們應該培養：

重視讀懂實證文章裡的研究假設；

從研究假設中能看得出誰是IV，誰是DV，以及作者要驗證怎樣的關係；

腦中能勾畫出研究假設中變量之間的關係圖。

現在我們可以想一想，自己的研究，或者我們正在讀的研究，它們的研究假設、自變量、因變量都分別是什麼？研究假設是合格的研究假設嗎？自變量和因變量的關係能不能清楚地畫出來呢？

本篇引用：Pollock III, P. H. (2015). The essentials of political analysis. Cq Press.

什麼是好的研究假設(Hypothesis)?——順談與自變量、因變量的關係

相關焦點

什麼是好的研究假設?——順談與自變量、因變量的關係

回歸分析的基礎概念1:什麼是變量、自變量、因變量和「啞變量」

spss線性回歸自變量因變量專題及常見問題 - CSDN

如何提出研究問題和研究假設

如何提出研究問題和研究假設? 科學研究的方法(二)

關於「變量」你必須知道的那些事

課題申報:如何撰寫研究假設

記憶實驗中的因變量和自變量

因變量Y,自變量A,協變量X都在變?用G-Estimation

教研探討:行動研究的自變因素、因變因素和研究假設!

回歸分析兩個因變量 - CSDN

...形成及其規律;中介變量和調節變量及其區別;動機與行為效率的關係

如何衡量解釋變量(自變量)對因變量變化的貢獻程度?

把握防控「自變量」,控制疫情「因變量」——市實驗高中開啟高三...

|精密度|準確度|係數|因變量_網易訂閱

【線性回歸】多變量分析:多元回歸分析

檢驗回歸方程中自變量X是否對因變量Y具有顯著影響的一個最常見

線性回歸的統計假設 - CSDN

SPSSAU如何處理控制變量?