內生性問題和傾向得分匹配, 獻給準自然試驗的厚禮

2020-12-03 騰訊網

歡迎投稿(薦稿)計量經濟圈,計量相關都行

編輯: @計量經濟圈(ID: econometrics666);來源: 統計學和量化研究 公眾號; 感謝授權。

說起內生性問題,通常大家都會有一個直觀的印象:誤差項(e)和解釋變量抑或被解釋變量有著糾纏不清的關係,Cov(Xi,e)≠0,Covermark(Y,e)≠0。在以往的文章中,對內生性問題也做過簡單的介紹。那麼,內生性問題到底是怎麼出現的呢?有幾類?

Part I 內生性問題淺談

問題來源:測量與學科分歧

其實呢,內生性與觀測性數據(observational data)的出現有很大關係,也就是「測量(measurement)」的問題,如何得到關於總體/樣本的更為精確的測量數據。這是一個很久遠的故事了。故事中有兩個主角:第一個是很久以前的社會科學,主要是經濟學吧。在數十年前還沒有實現數理化,當時的學術研究呢,主要是基於一些理論性的推導或者理論模型的構建,實現形式模型的演進。而伴隨著二戰後的社科發展,經濟學從宏觀到微觀,開始有了各種各樣的數據,從宏觀到微觀,開始有了對模型加以檢驗的數據。這個需求也促使了社會科學的研究與應用統計的結合與進一步發展。這種結合事實上推動了兩個學科的大發展,從理論和實踐上都有豐碩的成果。(當然,此處應有參考文獻,圍笑.jpg)社會科學中對測量的討論也是非常多的,最具代表性的,當屬Otis Duncan的 Notes on Social Measurement。推薦閱讀。裡面介紹了關於「異質性」的若干討論。

另一個主角呢,不得不說,是自然科學的。限定一下主語,是自然科學中的醫學統計學、生物統計學和流行病學等幾種用統計方法較多的學科。由於不同學科的人對其他非本學科的研究通常會懷持有懷疑態度,學科交流也相對較少,尤其是跨文理科的那種交流。這種隔閡的形成自有其道理,畢竟不同學科有自己的方法論根基。

回到主題。事實上,醫學統計和流行病學方法與社會科學方法論相似度可以說高達百分之九十以上(純屬主觀臆測,沒有事實根據,請輕拍)。我們的應用研究無外乎就是用了一些統計學的皮毛來處理實際的問題。我們都需要遵守研究的倫理,都需要從一些基本的問題出發,收集數據,然後利用一些統計的原理,比如回歸模型、統計分布、假設檢驗等等,最後再回到問題。

2.隨機對照試驗與反事實推斷

講一下區別吧。這個區別就來源於數據的獲得,是否是通過實驗獲得。數據獲得有一個「金標準」,隨機對照試驗(Randomized Comparative Test,即RCT)。這個方法來自於統計學家Fisher,他在20世紀30年代通過隨機試驗創立了此方法。

事實上,基於自然科學的研究得到的數據多是實驗法得到的,實驗方法有很多種,通常會設計精緻的研究,有參照組和實驗組,有明確的前測和後測。通過對時間的把握,來記錄實驗效果,這個實驗也是可以多次重複多次檢驗。這個過程也保證了研究中對於參照組的控制,對時間效應的控制,對研究者效應的控制,以及對自身變化的內生因素及其它突發事件等外生因素的控制。因為這幾個部分通常是最主要的研究偏誤(bias)的來源,控制好了才能表明這個研究是相對精確的、嚴謹的。社會科學呢,採用更多的是觀測性數據,也就是通常所說的「橫截面數據」。一般都是選取某個時間節點,然後橫向切割一下,通過對若干大樣本的觀察和記錄指標,完成對樣本的刻畫。所以,這種數據通常都是「靜態」的,不能進行「實驗」的。也就意味著,這樣會有更多的方法論問題出現。這些年,隨著社會科學研究的發展,出現了諸多的追蹤數據(panel data),在一定程度上已經可以解決,或者規避某種方法論問題了。但要達到實驗研究的精度,確實是不可能的。而且,即便是追蹤調查,也不可能做到非常及時的觀測和記錄,仍然受制於特別多的現實因素。

例如,對某種藥物效果的醫學研究,通常會設置實驗組和若干參照組,通過「幹預Treat」研究對象,看這種藥物是否有效。然後進一步,再測量不同劑量(dosage)的反應。由於它研究的若干案例就是總體,所以可以不用考慮再另外去「推斷總體」的問題了。但隨著研究的拓展,流行病學研究中,也開始涉足某些大樣本的問題。比如,針對某種地方病的研究,我們在某個地區,設計一個抽樣框,抽取了10000個樣本,這個過程就涉及到了「推斷」,也就面臨了更多的方法論的問題。

這些問題也就是社會科學研究常常見到的問題:觀測數據的反事實推斷。在這裡,我圖省事,引用一段論文:「微觀數據有兩個基本特徵:異質性以及缺少與實際相反的狀況。由於存在未被觀測到的異質性, 即使在所有可以被觀測到的方面都相同的人們仍然會做出不同的決策、獲得不同的收入、選擇不同的投資組合。缺少與實際相反的狀況引發了數據缺失問題, 如果某人實際選擇了一種狀況, 我們就不可能觀測到他(她)做出其他選擇時的結果。如果我們觀測到某大學畢業生的當前收入水平, 我們就不可能同時觀測到假使他(她)高中畢業就參加工作的當前收入水平。」(Li & Heckman, 2004)這段表述非常清晰地表明了反事實推斷是怎麼回事,以及橫截面數據為什麼做不好反事實推斷。同樣,我們可以舉出很多例子來:是否參與了某個培訓項目、通過某個職業資格考試,對於同一個就業隊列的個體收入的影響;是否接受過高等教育,對於個體收入的影響等等。更加具體的介紹不做贅述。

3.內生性問題來源的匯總

為了排版方便,我就直接用某些字母代替符號。

* (1) 選擇性偏誤 E[Y|D,u] != 0;D為Dummy

* (2) 遺漏變量偏誤(omitted-variable bias)

* 假設 y = a + x1*b1 + x2*b2 + e1

* Corr(x1,x2) != 0

* 若估計中遺漏了 x2, 則估計模型為:

* y = a + x1*b1 + e2 (e2=e1+x2*b2)

* 顯然,Corr(x1,e2) != 0

* (3) 測量誤差(measurement error)

* 對於模型 y = x0*b + e

* 假設 x = x0 + me (x 是 x0 的樣本觀測值)

* 即 x0 = x - me

* 模型的正確形式應為:

* y = a + x0*b + e

* = a + (x - me)*b + e

* = a + x*b + (e - me*b)

* = a + x*b + e2

* 顯然,

* Corr(x,e2) != 0

* (4)聯立性偏誤

其實呢,直接需要進行傾向得分匹配來克服的內生性問題,是選擇性偏誤。兩個路徑,統計學路徑和計量經濟學路徑。殊途同歸:都是為了解決掉那個小小的「error term」。

最後再囉嗦一句,也算是我個人的信條吧,就是「大道至簡」。如果可以不做那種又複雜又囉嗦的模型,簡單有效就是最好的。真正的好數據、好研究、好實驗,可以讓人一眼看到問題解決問題。而越是難以測量的數據,質量不可靠的數據,才需要各種「strong emphasis」,才需要各種複雜精緻但又十分脆弱的模型。

參考文獻:

李雪松、詹姆斯·赫克曼,2004,《選擇偏差、比較優勢與教育的異質性回報∶基於中國微觀數據的實證研究》,《經濟研究》,第(04)期。

郭申陽,弗雷澤,2012,《傾向值分析:統計方法與應用》,郭志剛,巫錫煒等譯,重慶:重慶大學出版社。

Part II 傾向得分匹配方法

1.數據來源

來源:網絡資源,其實也比較容易找,比如人大經濟論壇。但為了避免相關的版權爭議,我重新寫了一個do文件,處理的方法和變量也有改變。

舉例:接受培訓對於工資的影響

分析思路:(1)驗證選擇性的存在;(2)傾向值打分;(3)匹配估計量

兩種方法:pscore;psmatch2

所選用數據:國家支持工作示範項目(National Supported Work,NSW)

2.原理

需要估計的內容:處理效應,Treatment Effect

評估某項目或政策實施後的效應,如政策推出的各種項目,此類研究被稱之為項目效應評估,也被稱之為處理效應,項目參與者的全體構成控制組或對照組,而未參加項目者則構成控制組或對照組。即y1i-y0i。

選擇性偏誤:

由於個體通常會根據其參加項目的預期收益E(y1i-y0i)而自我選擇是否參加項目,導致對平均處理效應的估計帶來困難。

兩大假定:

可忽略性:給定xi,則(y0i,y1i)獨立於Di

均值可忽略性:在給定xi的情況下, y0i和y1i都均值獨立於Di

匹配估計量的基本思路:

找到屬於控制組的某個體j使得其與屬於處理組的個體i的可測變量取值儘可能相似,即xi ≈xj。

基於可忽略性假設,則個體i與個體j進入處理組的概率相近,具有可比性,故可將yj作為y0i的估計量。

目標:

在一般的實證研究中,由於存在很多其他變量混淆自變量和因變量之間的關係,研究者很難直接探索二者之間的淨效果( net effects)。這些混淆變量的影響通常被稱為選擇性誤差( selectionbias) , 而通過傾向值匹配的方式來控制和消除選擇性誤差

3.實操

變量:

(1)檢驗選擇性的存在

**--基本命令--**

cd: work_file_path...

use nswpsid.dta,clear

browse

rename _all,lower

*我手頭的數據變量名全部為大寫,便於觀察,我統一修改為小寫

reg re78 treat age educ black hisp marr re74 re75 agesq educsq nodegree re74sq re75sq u74black u74hisp

reg re78 treat

下圖中,treat效果並不顯著。大量的自變量的存在也導致了一定的共線性問題,也就是說,其他變量稀釋了treat變量解釋的方差。

下圖顯示,treat顯著,說明是存在選擇性問題的。

(2)傾向值打分

**--基本命令--**

global breps 1000

*設定重複抽樣全局宏1000次

global vars age agesq educ educsq black hisp marr re74 re75 re74sq u74 u75 u74hisp nodegree

*設定一個全局宏vars,代表後面的變量

pscore treat $vars, pscore(myscore) comsup blockid(myblock) numblo(10) level(0.005) logit

*設置block,設置顯著性水平0.005,採用logit估計。一般而言,logit和probit都是比較常用的估計方法。

*這個模型也叫作選擇模型。

*我們應該先檢驗打分的平衡性。

選擇模型

描述~~

滿足了平衡性要求。

(3)匹配估計量

注意:由於採用了自助法抽樣,而且是1000次,所以計算起來會費時費力,在此僅做演示。

(電腦配置:臺式機,六代i7處理器,16G內存,1T硬碟+256G SSD。部分模型計算時間超過五分鐘)

方法一:近鄰匹配(nearest neighbor matching)

含義:最鄰近匹配法是最常用的一種匹配方法,它把控制組中找到的與處理組個體傾向得分差異最小的個體,作為自己的比較對象 。

優點:按處理個體找控制個體,所有處理個體都會配對成功,處理組的信息得以充分使用。

缺點:由於不捨棄任何一個處理組,很可能有些配對組的傾向得分差距很大,也將其配對,導致配對質量不高,而處理效應ATT的結果中也會包含這一差距,使得ATT精確度下降。

*--基本命令--**

set seed 12345

*(產生隨機數種子)

attnd re78 treat $vars,comsup boot reps($breps) dots logit

可以看到,這個估計結果並不好。但經過重複抽樣之後,可以看到估計結果有了明顯的改善。

方法二:半徑匹配(radius matching)

半徑匹配法是事先設定半徑,找到所有設定半徑範圍內的單位圓中的控制樣本,半逕取值為正。隨著半徑的降低,匹配的要求越來越嚴。

**--基本命令--**

set seed 12345

attr re78 treat $vars, comsup boot reps($breps) dots logit radius(0.001)

在重複抽樣後,標準誤和t值估計的更為穩健。

方法三:分層匹配(stratification matching)

分層匹配法是根據估計的傾向得分將全部樣本分塊,使得每塊的平均傾向得分在處理組和控制組中相等。

優點:Cochrane ,Chambers(1965)指出五個區就可以消除95%的與協變量相關的偏差。這個方法考慮到了樣本的分層問題或聚類問題。就是假定:每一層內的個體樣本具有相關性,而各層之間的樣本不具有相關性。

缺點:如果在每個區內找不到對照個體,那麼這類個體的信息,會丟棄不用。總體配對的數量減少。

**--基本命令--**

set seed 12345

atts re78 treat $vars, pscore(mypscore) blockid(myblock) comsup boot reps($breps) dots

可以看到,在抽樣評估之前,並沒有估計出準確的t值的解析解。自助法抽樣之後,得到了數值。

方法四:核匹配法(kernel matching)

核匹配是一種非參數方法,通過構造一個虛擬對象來匹配處理組,構造的原則是對現有的控制變量做權重平均,權重的取值與處理組、控制組PS值差距呈反向相關關係。

**--基本命令--**

set seed 12345

attk re78 treat $vars,comsup boot reps($breps) dots logit

核估計同樣如此。

方法五:馬氏距離

由於在傾向得分匹配第一階段估計傾向得分時存在不確定性,Abadie and Imbens的相關研究又重新回到更簡單的馬氏距離,進行有放回且允許並列的k近鄰匹配,針對非精確匹配一般存在偏差,提出了偏差校正的方法,通過回歸的方法估計偏差,然後得到偏差校正匹配估計量。

**--基本命令--**

nnmatch re78 treat $vars, m(4) tc(att) population bias(bias) robust(4)

以下內容下次再進行介紹~~

(4)模型總結和匯總

根據一般論文中匯報的結構,進行制表和製圖(ps在控制組和幹預組的支持圖)。

(5)傾向得分估計的另一種思路:psmatch2

Part II 傾向得分匹配方法

在接續之前,我還是要簡單回顧一下上篇文章的內容。

第一部分:數據來源

用的是國家支持工作示範項目(National Supported Work,NSW)數據,這個數據在計量經濟學中的地位,應該不亞於auto.dta(汽車數據)的地位。所以在絕大多數涉及到PSM或者「處理效應模型」的教材中,都會使用這個數據。

在示例中,使用的是一個子數據集nswpsid.dta,這個數據子集是由Dehejia和Wahba倆人構建出來的(1999),原始數據是Lalonde在1986年使用的。

本文數據及分析有兩個來源:

第一個來源在Cameron&Trived《微觀計量經濟學:方法與應用》(中譯本,上海財經大學出版社,2010)pp794-800。

第二個來源在陳強的《高級計量經濟學及stata應用(第二版)》(高等教育出版社,2014)pp546-555。

第一個來源主要是介紹pscore,第二個來源介紹psmatch2,兩個方法其實沒有什麼本質的差別。

第二部分:PSM的原理

步驟:(1)驗證選擇性的存在;(2)傾向值打分;(3)匹配估計量

第三部分:PSM的實際操作

幾種方法:

緊鄰匹配、卡尺匹配、分層匹配、核匹配、馬氏距離等等。其實遠不止這五種,不過要說常用,這幾種屬於比較常用的方法。

(4)模型總結和匯總

根據一般論文中匯報的結構,進行制表和製圖(ps在控制組和幹預組的支持圖)。

制表這個太基礎了,大家可以自行查閱相關的論文,如何匯報匹配估計量及其檢驗結果。當然,不能忘記敏感性分析。

一般而言,我們會選用box-plot或者kdensity-plot,在下面,分別展示一下。

**--基本命令--**

*箱圖

gr box myscore, over(treat) scheme(s1mono) saving(ps_box.gph,replace)

*核密度圖

kdensity myscore if treat==0, normal xtitle("Control") scheme(s1mono) saving(ps_2006_1.gph,replace)

kdensity myscore if treat==1, normal xtitle("Treated") scheme(s1mono) saving(ps_2006_2.gph,replace)

gr combine ps_2006_1.gph ps_2006_2.gph, xcommon ycommon saving(ps_2006.gph,replace)

在這個樣例中,箱線圖做出來的效果其實很差。為什麼呢?因為treat==1的組別樣本量太少。

但是,在核密度圖中,這個效果表現的就非常好。因為核估計是非參數估計的,所受到的約束會更小。

下圖為參照組:

下圖為幹預組:

傾向得分估計的另一種思路:psmatch2

其實呢,psmatch2和pscore除了句法結構稍有不同之外,估計的結果等是完全相同的。

我大致列一下命令,感興趣的朋友可以自行嘗試。

**--基本命令--**

use nswpsid,clear

rename _all,lower

global breps 1000

global vars age agesq educ educsq black hisp marr re74 re75 re74sq u74 u75 u74hisp nodegree

psmatch2 treat $vars ,out(re78)

*近鄰匹配

psmatch2 treat $vars,out(re78) neighbor(2) ate

*半徑匹配

psmatch2 treat $vars,out(re78) ate radius caliper(0.01)

*核匹配

psmatch2 treat $vars,out(re78) ate kernel

*對自變量進行平衡性檢驗

pstest $vars, both graph

*共同支持區間

psgraph

近鄰匹配~~

跳過幾個步驟,直接到pstest

最後得到圖形如下:

共同支持區間:

比較差。還是樣本量的原因。

Part III 補充和反思

形而上者謂之道,形而下者謂之器。或者也可以將形而下稱之為「術」。

做計量研究,其實最初步的研究就是「技術層面」的問題,我們可以知其然(術)不知其所以然(道),根據課本的例子就可以去照貓畫虎生造一些模型。這個方法用於初學和訓練當然無可指摘,但長久下來,這個學習方法肯定是不行的。(在這裡就不涉及論文寫作中的「問題意識」了,單純討論方法論)

那什麼是「道」這個層面的問題呢?當然,往上一步就是方法論。計量研究的方法論是個「求真」的過程,在通俗的語境來解釋,就是一個「精確估計」樣本統計量並儘可能準確地推斷總體的過程。這和經驗哲學以及科學哲學有著很多契合,就是所謂的「工具理性」。具體到研究中,精確地估計(準確--是不可能達到的目標)就需要克服各種實實在在的困難,這些困難會干擾結果。

那麼,「這些困難」也就回到了「誤差項」這個範疇中,也就是各種內生性和異質性的問題了。所以,計量研究方法論最核心的問題就是怎樣解決內生性問題。

兜了這麼大圈子,說說傾向值匹配的優點吧:毫無疑問,相比於常規的OLS,在OLS對選擇性或者幹預性時間的估計出現偏誤時候,PSM可以(在一定程度上)克服選擇性問題。通過設定選擇模型,實現控制組和幹預組的狀態的「拉平」和配對。進一步,實現了可忽略假設以及反事實推斷中「若甲是乙,在同等幹預條件下會如何」的設定。最後就是匹配估計量。

看上去很完美。

但結局很殘酷。

越複雜的模型越脆弱,假設越強,設定條件越多。所以PSM是有很強的局限性的。

考慮到我的表述不太精確,引用陳強《高級計量經濟學及stata應用》pp.545的一段話:

(1)PSM通常要求比較大的樣本容量以達到高質量的匹配。

(2)PSM要求除立足於控制組的傾向得分有較大的共同取值範圍;否則會丟失較多的觀測值,導致剩下的樣本不具有代表性;

(3)PSM只控制了可側變量的影響,如果仍然存在依不可測變量選擇(selection on observable),仍然會帶來隱形偏差。

另外呢,Gary King和 Richard Nielsen在2015年的工作論文「Why Propensity Scores Should Not Be Used for Matching」中也講了一些為什麼這個方法會存在問題。題目有點兒駭人聽聞,其實主要是講,有些PSM的研究忽視了樣本間的不平衡性,用PSM生造出來的研究肯定會有這個問題。我把二人的摘要貼出來,看一下為啥會這樣~~

Researchers use propensity score matching (PSM) as a data preprocessing step to selectively prune units prior to applying a model to estimate a causal effect. Thegoal of PSM is to reduce imbalance(目的就是為了減少不平衡性)in the chosen pre-treatment covariates between the treated and control groups,thereby reducing the degree of model dependence and potential for bias(削減模型依賴性及偏誤). We show here that PSM often accomplishes the opposite of what is intended — increasing imbalance, inefficiency, model dependence, and bias. Theweaknessof PSM is that it attempts to approximate a completely randomized experiment, rather than, as with other matching methods, a more powerful fully blocked randomized experiment. PSM, unlike other matching methods, is thusblind to the often large portion of imbalance that could have been eliminated by approximating full blocking. Moreover, in data balanced enough to approximate complete randomization, either to begin with or after pruning some observations, PSM approximates random matching whichturns out to increase imbalance. For other matching methods, the point where additional pruning increases imbalance occurs much later in the pruning process, when full blocking is approximated and there is no reason to prune, and so the danger is considerably less. We show that these problems with PSM occur even in data designed for PSM, with as few as two covariates, and in many real applications.Although these results suggest that researchers replace PSM with one of the other available methods when performing matching, propensity scores have many other productive uses.(最後並不是完全地否定)

幫點擊一下下面的小廣告,謝謝支持!

相關焦點

  • 搞懂因果推斷中內生性問題解決方法必讀的書籍和文獻已搜集好!
    內生性問題和傾向得分匹配;10.你的內生性解決方式out, ERM獨領風騷;11.工具變量IV必讀文章20篇, 因果識別就靠他了;12.面板數據是怎樣處理內生性的;13.計量分析中的內生性問題綜述;14.
  • Propensity Score Matching 傾向得分匹配
    匹配(Matching)是一種解決由自選擇(self-selection)導致內生性問題的方法。關於自選擇問題的成因,我們在理論篇一個隱藏的魔鬼——內生性中已經給出了詳細的解釋,這裡再簡單回顧一下。自選擇問題的原因是研究中樣本的選擇不是隨機的,而是包含了個體自主選擇的結果。
  • 傾向性得分匹配(PSM)
    傾向值(Propensity Score,傾向性得分)分析近些年來火的一塌糊塗,PubMed自由詞搜索Propensity Score,相關文章近些年大有井噴之勢(圖標數據截止2020.05.21但嚴格來說,傾向性得分算不得一種「分析」方法,而是一種用於數據處理的方式,常用於觀察性研究混雜因素的控制。
  • Stata:終極匹配 ultimatch
    前期相關推文Stata:數據合併與匹配-merge-reclinkStata:psestimate-傾向得分匹配(PSM)中協變量的篩選Stata:廣義精確匹配-Coarsened-Exact-Matching-(CEM)伍德裡奇先生的問題:PSM-分析中的配對——小蝌蚪找媽媽Stata:psestimate-傾向得分匹配(PSM)中匹配變量的篩選Stata-從匹配到回歸:精確匹配、模糊匹配和
  • |內生性|因果關係|...
    ,我們永遠無法完美測量每個單位i的幹預效果,為了應對這個問題,我們需要為幹預組找到完美的對照組,使兩組之間唯一的區別就是幹預。這可以通過運行隨機化實驗或在隨機化不切實際的情況下尋找匹配的幹預組和對照組(準實驗)來實現。以下是我認為有用的工作流程:
  • 回歸內生性 - CSDN
    回歸分析是數據分析中最基礎也是最重要的分析工具,絕大多數的數據分析問題,都可以使用回歸的思想來解決。回歸分析的任務就是,通過研究自變量X和因變量Y的相關關係,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。
  • 內生性會造成回歸係數的巨大誤差
    回歸分析是數據分析中最基礎也是最重要的分析工具,絕大多數的數據分析問題,都可以使用回歸的思想來解決。回歸分析的任務就是,通過研究自變量X和因變量Y的相關關係,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。
  • 用於政策評估的計量經濟學:問題、前沿與展望
    我國正處於改革攻堅階段和發展關鍵時期。在努力實現經濟增長方式轉變與產業結構優化的過程中,一項重要的任務是對國家與地方出臺的各項政策,特別是經濟政策予以正確評估,以便發現問題、總結經驗,對政策適時微調,為制定新政策與配套措施提供借鑑。
  • 文本匹配模型TextMatching
    寫在前面本次分享一篇NLP文本匹配的經典文章,主要思路是借鑑圖像識別的思路來解決NLP文本匹配問題,畢竟計算機視覺技術的發展在當時異常迅猛。個人心得:文本匹配問題可轉化為二分類問題,輸出概率則為相似度將圖像識別的思路應用於文本匹配任務中,利用卷積抽取文本特徵論文地址:https://arxiv.org/pdf/1602.06359.pdf1.
  • 總結|臨床研究常見統計方法與統計問題
    傳統控制混雜可使用回歸分析進行調整,但當混雜因素過多時不太適用,近幾年匹配在大樣本的觀測性研究中得到廣泛應用。常用的匹配方法有個體匹配、多元匹配和傾向得分。個體匹配是將協變量相等或相近的個體作為一對,這樣保證組間完全均衡,但是當控制變量較多時,效率不高,在大樣本或協變量條件苛刻(基因研究)中使用。多元匹配是根據協變量之間的馬氏距離按照最近原則進行匹配。
  • 百度NLP | 神經網絡語義匹配技術
    3)匹配的非對稱問題文本匹配類的任務,並不單單是文本相似度問題。一方面不一定要求語言上的相似,例如網頁搜索任務中 query 端的語言表述形式和網頁端往往具有很大的差別,至少在長度上就差距很大。另一方面也不一定要求語義上的相同,例如問答任務中,待匹配的兩段文本並不要求同義,而是看候選答案是否真正回答了問題。
  • 明明有數據,為什麼我的VLOOKUP總是匹配不出來?
    經常用vlookup函數匹配數據的小夥伴們經常會遇到表格中明明有數據,卻總是匹配不到的情況,下面盤點下那些年匹配時遇到的坑~單元格中存在空白下圖中A、B兩列分別存放著員工姓名和員工得分數據,現在要求提取員工H及員工D的得分情況,大家都知道,這裡用vlookup相當簡單
  • 模態試驗中的附加質量問題
    來源:漫步力學(ID:Walking-mechanics)作者:鄭州輕工業學院 趙峰附加質量問題在模態試驗中經常存在