什麼是好的研究假設(Hypothesis)?——順談與自變量、因變量的關係

2021-03-02 量化研究方法

社會科學研究中有一個特別有趣的東西,叫「研究假設(hypothesis)」,這個東西特別重要,它連接了理論和數據,是貫穿一篇文章的黃金線。讀一篇實證文章的時候,哪怕什麼都沒看懂,也要把研究假設看懂了,看懂了研究假設也就明白了這篇文章主要是要幹嘛。所以我們今天系統的來說說研究假設,以及與其緊密相關的自變量、因變量。

本篇文章會討論到:

為什麼要有「研究假設「這個東西?

什麼是好的研究假設?

自變量、因變量,以及與研究假設的關係是什麼?

我們在 為什麼要有社會科學研究方法?一文中就說過其實搞研究沒有什麼可神秘的,本質上,研究就是在探尋對一個問題的答案;然而科學研究又與普通人日常生活中尋求答案不同,因為它嚴謹、科學、系統、嚴密、一絲不苟。

如果說人類知識分等級,那麼科研者就像是站在金字塔的塔尖。為金字塔最下面站崗的知識服務商可以說錯甚至胡說,因為有金字塔中間的人在把關;金字塔中間的人也可以時不時犯錯,因為有金字塔頂端的科研人員把關;而科研人員就不能再錯了,頂端的搞研究的人都錯了,底下的就全錯了,人類知識航行的方向也就堪憂 。

所以,為了盡力讓研究結果不出現絲毫的錯誤(請注意只是盡力,不是說一定完全沒錯誤),科研人員有時候必須神經兮兮、矯枉過正、一絲不苟、甚至看上去有點迫害妄想症地去對待每一個對問題的探尋,因為別人在問問題和給答案的時候可以不在意可以不負責任,而研究人員是代表人類知識的最前沿在探究答案啊,她/他不可以隨意和不負責任。這就是為什麼我們在初接觸研究方法上的一些名稱和詞彙時,有時候會覺得莫名其妙或是多此一舉,也是為什麼很多人會覺得搞科研的人特別「nerd」——大哥大姐們,不nerd做不好學術啊,不神經兮兮就難以守護人類知識的金字塔啊!(兩眼淚汪汪)

但是,一旦你開始細細了解,你會發現很多學術範疇內看上去有點莫名其妙的詞彙或稱謂其實離我們一點都不遠。就拿「研究假設」這個東西來說——研究假設離我們遠嗎?我們普通人如果不做學術就從來不會用到嗎? 其實恰恰相反,我們普通人問問題和給答案的時候也總是給出「假設」,我們甚至在日常聊天的時候都一直在給假設,比如下面這個例子:

小白:小芳,我這兩天怎麼總覺得頭疼?

小芳:我覺得你最近喝咖啡有點多,會不會跟喝咖啡有關?

小白:有可能。

小芳:要不然就是熬夜熬的,你最近趕那個項目天天凌晨兩點才睡,能不頭疼麼?

小白:好吧,這兩天早點睡試試。

喏,這個對話,小白提出了一個問題「為什麼我總頭疼?」,小芳於是信手拈來給了兩個假設:

假設1:喝咖啡喝的越多,小白的頭越疼。

假設2:睡覺睡得越晚,小白的頭越疼。

當然,我們平常可能會把這種回答叫做「猜測」而不叫「假設」。但是其實這就是研究假設的本質:一種對於某個問題答案的未經證實的猜測。

其實這世界上所有對答案的探索過程都一定要經過「假設」這個過程,當我們給出的某個答案還未經證實,那不就是一種「假設」嗎?只不過有很多時候這個假設的過程是隱性的、短暫的、無需被單獨列出的、或者不被人意識到的。

而科學研究不同了。科學研究裡面,你需要嚴謹和明確的把你要研究的東西明晃晃的亮出來,你需要清清楚楚的分清什麼是fact(事實)什麼是opinion (觀念),什麼是hypothesis(假設)什麼是tested finding (經證實的發現), 為此你需要把你的研究假設一是一二是二的寫出來在文章裡,而且你需要儘量表達到位、用詞準確,因為只有這樣別人才能知道你後續驗證數據的過程做的有沒有道理、所設計的方法合不合適、分析結果能不能驗證你的假設。所以在實證研究中,我們也就看見了「Hypothesis 1..」, 「Hypothesis 2…」 這樣的專屬於學術研究的東西。


總體上來說,我們在實證研究中一定要亮出研究假設是為了以下幾個目的:

告訴別人你這篇文章要關注的主題是什麼(比如,」 喝咖啡喝的越多,小白的頭越疼」 這個假設能清楚的告訴別人我要關注的是「為什麼小白頭疼」);

告訴別人你有一些別人沒想到的能解釋這個問題的想法或「變量」(比如「喝咖啡」和「睡得晚」就是解釋變量);

告訴別人你在研究中關注的自變量和因變量分別是什麼;

告訴別人假設自變量和因變量兩者是怎樣的關係(比如正相關、負相關、非線性相關等等)。

所以研究假設這個東西看上去就那麼一兩句話,但是作用其實特別大。這也是為什麼我們說看實證文章一定要看懂研究假設的原因。研究假設看懂了,一篇實證文章也就看懂了一半。

好了,接下來我們可以來看一個嚴肅一點兒的對Hypothesis的定義:

「A hypothesis is a testable statement of the proposed relationship between the independent variable, which measures the cause, and the dependent variable, which measures the effect. 「 (Pollock, 2015)

就是說,一個研究假設它一定是提出了一個可驗證的關係的假設,這個關係裡包含一個自變量和一個因變量, 這個研究假設需要提出了一個自變量是如何解釋該因變量的。


仔細看這個定義我們能看出這麼幾層意思:

只討論了一個變量的假設並不是研究假設。比如,「明天天氣會變暖」---這裡面只有一個變量,就是「天氣」,它沒有提出兩個變量之間的關係,變暖這個事情是天氣的特徵值(value),而不是variable;

研究假設裡面要提出自變量和因變量的關係,將自變量和因變量進行「聯結」。比如,「明天天氣會變暖,明天溼度會特別大」----這裡面確實出現了兩個變量,然而並沒有聯結二者的關係,沒有用自變量去解釋因變量,所以也不是好的研究假設;

好的研究假設裡不能只說兩個東西相關,還要說他們是怎麼相關的。比如隨著一個變量的增長另一個也增長,這叫正相關;隨著一個增長另一個下降,這叫負相關。

研究假設必須可以驗證。比如,「喝咖啡越多頭越疼」就可以驗證;「喝咖啡越多人就越通靈」就無法驗證 (至少現在科學界無法驗證)。

接下來我們再來好好說說IV 和DV這兩個重量級大咖。這個部分的大體內容其實我們在 把實證文章從厚讀薄的本領——變量梳理法 中有所涉及(建議結合兩篇文章一起看),但這裡我想再花點篇幅重新細緻的說一說,誰讓重要的事情都得說三遍,而這倆傢伙在定量研究中簡直是重中之重。

這裡我請大家先從英文名字上來理解一下它們倆到底是幹嘛的:

Independent Variable : variable是變量的意思,independent是不依賴的意思,所以independent variable就是誰都不依賴的變量——我自己變我自己的,不管別人變不變,其它變量決定不了我(很任性的)——中文就叫「自變量」了, 其實直譯過來就是「不依賴別人的變量」

Dependent Variable: 再次顧名思義,它需要依賴,需要依賴什麼呢?依賴其它變量來變化,否則它自己不知道該怎麼變。那具體依賴誰呢?依賴「independent variable」的變化。Independent variable一變,dependent variable一定跟著變,因為它天生就需要依賴才能存在啊。——中文裡把它叫做了「因變量」,因著別的變量才知道自己是怎麼變,然而英文名直譯過來它應該叫「依賴別人的變量」吧?( 沒讓我去做翻譯是有道理的系不系...

【下文中為了書寫方便,我會用IV(Independent Variable)代表自變量,DV(Dependent Variable) 代表因變量。】

在一個定量研究中,研究者核心的任務就是把至少一對兒「不依賴別人的變量」(IV) 和」依賴別人的變量」 (DV )組合在一起,並且說明好它們之間的關係。而研究假設,也就是提煉後的、精確地描述這對兒IV-DV的未經檢驗的關係的陳述。

當IV和DV放在一起的時候, DV(因變量)是這個研究中被我們解釋、被關注、被預測的東西,所以也它叫做「結果變量」(Outcome Variable);而IV則是導致了DV、能夠解釋DV、以及能夠用來預測DV的東西,所以也叫「預測變量」或「解釋變量」(Predictor Variable/ Explanatory Variable).

所以,一個更簡單的對hypothesis的定義是:

「Hypothesis is a testable statement about the empirical relationship between cause (IV) and effect (DV). 」

在驗證兩個變量之間關係的時候,研究者總是試圖通過改變和調試自變量(IV),來觀測因變量(DV)的變化——因為如果因變量隨著自變量的變化而變化,那麼就說明兩者是相關的;至於是如何相關的,則需要進一步利用不同的統計模型來做出判斷。

換句話來說:

žIn experiments, the IV is the variable that is controlled and manipulated by the experimenter; whereas the DV is not manipulated, instead the DV is observed or measured for variation as a presumed result of the variation in the IV.

下圖展示了研究假設中IV和DV的關係:

你可能會說,那有些東西不是由單獨一個東西影響和決定的, 而是由多個東西決定的啊,比如人的學習成績,由智商、情商、用功程度、學科基礎、老師好壞等一系列因素組成,這怎麼算?

那就是說學習成績這個DV由很多個IV來解釋,比如下圖:

而在一個研究裡,通常是不需要討論到所有能夠解釋DV的IV的。(大多數的定量研究都是IV heavy型——就是說我的研究的主要貢獻在於我提出了一個前人可能沒有注意到的IV,我如果把這個IV和這個因變量之間的關係證明好,我的文章就是有貢獻的; 而另一類定量研究是DV heavy 型——這一類研究關注尋求某個DV(因變量)的完整解釋模型,這就需要你儘量列出全部能夠解釋該DV的自變量。Again, 我們通常做的大多數研究是IV heavy型。 )

當我們寫研究假設的時候,還應該注意到,每一個研究假設應該只討論一對關係——也就是列出一個IV和一個DV之間的關係。 如果你在一個研究中準備探討多個IV與DV的關係,那麼你應該把每一對關係都分別列在一個單獨的研究假設裡,而不是把它們都列在一起。

OK, 說到這裡,什麼是好的研究假設就基本說完了。下面我們針對IV和DV這兩位大咖做一個練習。

【自助練習題:請用類似上圖的箭頭和長方形方框畫出下面研究假設中每一對IV和DV之間的關係圖, IV在左,DV在右,箭頭從IV指向DV】

假設1: 咖啡喝的越多,人越容易頭痛。

假設2: 晴天的交通事故率小於陰天的交通事故率。

假設3:總是吃垃圾食品的人,更容易得心血管疾病。

假設4: 學歷越高的人,玩電子遊戲的能力越差。

以下是參考答案:

你可能已經發現了,一個好的研究假設不見得是一個正確的研究假設, 也就是說研究假設還沒有驗證(否則就不叫假設了),所以可能是對的也可能是錯的,這要由數據來說話。數據結果如果沒證實你的研究假設或者跟你假設的關係方向相反,也不代表你的研究就沒有意義了。但是研究假設一定要可以驗證,一定要說清楚了IV和DV的關係,論文中的研究假設當然還要make sense, 有理論支撐。


關於研究假設還有兩個寫假設的初學者模板沒有講,留待下篇。總結一下,這篇文章我們說明了什麼是好的研究假設, 以及研究假設與自變量、因變量之間的關係。一個好的研究假設應該做到:

清楚說明一個自變量與一個因變量之間是有關聯的;

清楚地說明自變量和因變量之間是怎樣關聯的(direction of relationship);

研究假設應該是可以驗證的(testable). 

而讀別人文獻的時候我們應該培養:

重視讀懂實證文章裡的研究假設;

從研究假設中能看得出誰是IV, 誰是DV,以及作者要驗證怎樣的關係;

腦中能勾畫出研究假設中變量之間的關係圖。

現在我們可以想一想,自己的研究,或者我們正在讀的研究,它們的研究假設、自變量、因變量都分別是什麼?研究假設是合格的研究假設嗎?自變量和因變量的關係能不能清楚地畫出來呢?

本篇引用:Pollock III, P. H. (2015). The essentials of political analysis. Cq Press.

相關焦點

  • 什麼是好的研究假設?——順談與自變量、因變量的關係
    社會科學研究中有一個特別有趣的東西,叫「研究假設(hypothesis)」,這個東西特別重要,它連接了理論和數據,是貫穿一篇文章的黃金線。讀一篇實證文章的時候,哪怕什麼都沒看懂,也要把研究假設看懂了,看懂了研究假設也就明白了這篇文章主要是要幹嘛。所以我們今天系統的來說說研究假設,以及與其緊密相關的自變量、因變量。
  • 回歸分析的基礎概念1:什麼是變量、自變量、因變量和「啞變量」
    大家好,我是許栩,歡迎來到我的專欄《從入門到高手-線性回歸分析詳解》,這是專欄的第一篇文章,介紹幾個回歸分析的基礎概念:變量、自變量、因變量和「啞變量」。常用的定量預測方法包括時間序列預測法與回歸分析預測法。時間序列預測法是以內生數據(也就是歷史需求數據)為分析對象的預測方法,而回歸分析預測法則以外生數據(或稱解釋性數據,比如促銷)為分析對象。
  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    數據分析值得注意的是,多元線性回歸分析需要數據滿足以下4個假設:(1)需要至少2個自變量,且自變量之間互相獨立(本次6個);(2)因變量為為連續變量(本案例產量為連續變量);(3)數據具有方差齊性、無異常值和正態分布的特點(檢驗方法);(4)自變量間不存在多重共線性。
  • 如何提出研究問題和研究假設
    所以在開始時應多求得導師的指導和幫助,多與同學討論,並且每次做研究時要有目的地學習如何才能形成一個好的研究問題。 在形成研究問題時,關鍵在於概念的應用及假設的提出。此時,必須將概念轉化為可以量度的變量。當一個概念(concept)可以用數值來量度時,這個數值就稱之為變量(variable)。
  • 如何提出研究問題和研究假設? 科學研究的方法(二)
    所以在開始時應多求得導師的指導和幫助,多與同學討論,並且每次做研究時要有目的地學習如何才能形成一個好的研究問題。在形成研究問題時,關鍵在於概念的應用及假設的提出。此時,必須將概念轉化為可以量度的變量。當一個概念(concept)可以用數值來量度時,這個數值就稱之為變量(variable)。
  • 關於「變量」你必須知道的那些事
    來源:刀熊說說(末尾有連結)本文獲來源公眾號授權轉載在往期轉載刀熊大神文章中,有一篇關於什麼是好的研究假設
  • 課題申報:如何撰寫研究假設
    在課題申報書的申報論證環節,需要申報者撰寫研究假設。什麼是研究假設?它的基本特徵是什麼?為什麼要撰寫研究假設?假設的內容是怎麼形成的?研究假設表達方式是怎樣的?在此,筆者和老師們交流一下學習與實踐體會。供批判。筆者最初想寫得簡單一些,但在行文中,發現有些問題要交待。於是寫得有些冗長了。讀者可以直接閱讀標題一、二、五。
  • 記憶實驗中的因變量和自變量
    2017-12-31 09:42:19 來源: 終生研究心理學 舉報
  • 因變量Y,自變量A,協變量X都在變?用G-Estimation
    它通常只有結局變量(Y={Y1,Y2,Y3})在變,而處理因素(A)(分組)往往是不變的,如下圖,經過質量控制等科學手段,我們儘可能讓各組的受試者在各個時間點都接受同樣的處理,如果因變量Y為連續型變量,這樣我們可以使用重複測量資料的方差分析進行分析(假設滿足方差分析的前提條件)。現實情況往往都比較複雜。
  • 教研探討:行動研究的自變因素、因變因素和研究假設!
    行動研究的自變因素、因變因素和研究假設有的研究者認為中小學做的就是行動研究,反對提自變量、因變量和研究假設。但以我現在的經驗和參與中小學教育科研的指導看,行動研究的本質就是要「變」的。「變」什麼呀?一是變行動,二是變行動的效果。在這裡,要付諸實踐的改變行動就是自變的因素,期望由此帶來的教育現實的改變就是因變的因素,而對即將改變的行動可能帶來期望的現實改變的信任就是研究假設。我想,對改變的行動是什麼?期望改變的結果是什麼?
  • 回歸分析兩個因變量 - CSDN
    當陽性結果出現概率較小時(一般小於0.05)或者較大時(大於0.95),OR=(P1/(1-P1))/(P2/(1-P2))≈P1/P2=RR【2】二分類資料的logistic回歸SPSS操作示例適用條件:①因變量為二分類變量,自變量可以是連續變量也可以是分類變量;②各觀測間相互獨立;③自變量與因變量logit(P)之間存在線性關係;④自變量間不存在多重共線;⑤儘量避免異常值
  • ...形成及其規律;中介變量和調節變量及其區別;動機與行為效率的關係
    【參考答案】(1)中介變量①含義:如果自變量通過某個因素影響因變量,則稱該因素為中介變量,中介變量是自變量對因變量產生影響的實質性的、內在的原因。②舉例:家庭經濟狀況通過教育投入影響孩子的學習成績,表現為經濟狀況越好的家庭對孩子的投入越多,孩子的成績越好;經濟狀況越差的家庭對孩子的投入越少,孩子的成績越差。
  • 如何衡量解釋變量(自變量)對因變量變化的貢獻程度?
    因變量通常受多個解釋變量的影響,如收入會受學歷、行業、工作年限、性別、地域等多種因素的影響,那麼所有因素都必須納入因變量的解釋模型嗎?未必,因為有些解釋變量之間可能具有相關性,疊加多個解釋變量對因變量的解釋程度並不能提高多少,反而增加了模型的運行時間和空間損耗。如何篩選真正對因變量有貢獻的解釋變量呢?
  • 把握防控「自變量」,控制疫情「因變量」——市實驗高中開啟高三...
    校園內張貼宣傳標語隨著全市防疫和復學準備工作積極穩妥地推進,鄭州市實驗高中認真貫徹落實全市教育系統疫情防控電視電話會議精神,牢記「守住責任田,護好一校人」的使命,變被動防疫為主動防疫,充分研討,全面部署,加快推進高三復學各項準備工作
  • |精密度|準確度|係數|因變量_網易訂閱
    報告中最常出現的幾個名詞CV值,SD值,它們各代表的什麼意義,它們是如何計算出來的?  我們一起來了解一下吧!  1.精密度  計量的精密度(precision of measurement),係指在相同條件下,對被測量進行多次反覆測量,測得值之間的一致(符合)程度。
  • 【線性回歸】多變量分析:多元回歸分析
    第六:統計學家往往追求的是簡約的模型和更高的解釋度,往往關注模型R平方,共線性和回歸診斷問題;第七:市場研究人員往往注重模型的解釋合理性,是否與預設的直覺一直,是否支持了我的市場假設等;下面我們從市場研究人員的角度看看如何利用多元線性回歸
  • 檢驗回歸方程中自變量X是否對因變量Y具有顯著影響的一個最常見
    檢驗回歸方程中自變量X是否對因變量Y具有顯著影響的一個最常見方法是( )。A.F檢驗 B.R2檢驗 C.自變量相關係數檢驗 D.t檢驗 查看答案解析【答案解析】 本題考查簡單線性回歸模型。t檢驗是檢驗回歸方程中自變量X是否對因變量Y具有顯著影響的一個最常見方法。參見教材P312。
  • 線性回歸的統計假設 - CSDN
    在用多元線性回歸模型進行統計推斷之前,我們需要知道該模型的基礎假設。假設我們有n個因變量Y及自變量X1,X2,...,Xk的值,我們想推斷多元回歸方程Yi= b0 + b1X1i + b2X2i + ... + bkXki +εi。
  • SPSSAU如何處理控制變量?
    在一個研究或實驗中,主要包括兩種變量:由自身變化而引起結果變化的變量被稱為 自變量。由自變量或其他因素的變化引起變化的變量被稱作 因變量。統計分析時也可以將變量區分為自變量X和因變量Y。比如研究性別和收入水平的關係,性別是自變量,收入水平是因變量。