中國女學者在JPE發文,用獨特數據,地理斷點RDD和IV研究環境議題

2020-12-11 計量經濟圈子

Sci-hub最牛逼的英文文獻下載網站,可以實時監測最新可用域名

之前,我們引薦過不少關於斷點回歸設計RDD的文章,裡面包括操作數據、程序和解讀,列示如下:1.斷點回歸設計RDD分類與操作案例,2.RDD斷點回歸, Stata程序百科全書式的寶典,3.斷點回歸設計的前沿研究現狀, RDD,4.斷點回歸設計什麼鬼?且聽哈佛客解析,5.斷點回歸和讀者的提問解答,6.斷點回歸設計RDD全面講解, 教育領域用者眾多,7.沒有工具變量、斷點和隨機衝擊,也可以推斷歸因,8.找不到IV, RD和DID該怎麼辦? 這有一種備選方法,9.2卷RDD斷點回歸使用手冊, 含Stata和R軟體操作流程,10.DID, 合成控制, 匹配, RDD四種方法比較, 適用範圍和特徵,11.安神+克拉克獎得主的RDD論文, 斷點回歸設計,12.伊斯蘭政府到底對婦女友不友好?RDD經典文獻,13.PSM,RDD,Heckman,Panel模型的操作程序,14.RDD經典文獻, RDD模型有效性穩健性檢驗,15.2019年發表在JDE上的有趣文章, 計量方法最新趨勢,16.關於(模糊)斷點回歸設計的100篇精選Articles專輯!17.斷點回歸設計RDD精闢解釋, 保證你一輩子都忘不了,18.「RDD女王」獲2020年小諾獎!她的RD數據, 程序, GIS和博士論文可下載!關於她學術研究過程的最全採訪!19.中國博導要求掌握的RDD方法實證運用範文(配程序code), 不然就不要用RDD做實證研究!20.最近70篇關於中國環境生態的經濟學papers合輯!21.事件研究法用於DID的經典文獻"環境規制"論文數據和程序,22.環境, 能源和資源經濟學手冊推薦, 經典著作需要反覆咀嚼。

正文

關於下方文字內容,作者張左敏暘,英國謝菲爾德大學經濟學院,通信郵箱piggyz@126.com

這篇發表在JPE上的文章使用空氣淨化器市場的交易數據,再結合空間斷點回歸設計RDD、各種固定效應和工具變量估計等,系統考察了中國居民對乾淨空氣的支付意願。

乾淨空氣的支付意願——來自中國空氣淨化器市場的證據,原文PDF附在文後Willingness to Pay for Clean Air: Evidence from Air Purifier Markets in China,」 (with Koichiro Ito) Journal of Political Economy, 2020, 128(5).

一. 背景

空氣問題是經濟發展過程中不可忽視的一環,發達國家也曾經歷過先汙染後治理的道路,結果是像底特律等工業城市至今難以恢復。上個世紀以來發展中國家經濟飛速發展,同樣出現了先汙染後治理的現象。但是經濟的發展要以空氣的犧牲為代價帶來的成本將由後代承擔並且這是難以承受的。近年來,發展中國家不斷推出多項空氣治理政策去緩解此類問題,那麼問題是當下的空氣政策是否是最優的呢?應該用什麼樣的評價標準去評判一項空氣政策是否是最優的呢?據此文中給出的回答是計算一個重要的評價參數WTP(willingness to pay),即人們對乾淨清潔的空氣的支付意願。如果人們的支付意願較低,那麼意味著當下發展經濟的收益大於空氣汙染的成本,此時的空氣政策是最優的;反之若是人們願意為此支付高昂的費用,那麼意味著當下的空氣問題已經較為嚴重,此時的空氣政策並不是最優的。該文採用中國空氣淨化器市場的數據去測算WTP。那麼為什麼採用空氣淨化器去測算WTP呢?這是由空氣淨化器產品的一個特性決定的,即高效微粒過濾(HEPA)。這種產品特性吸引著消費者,也就讓經濟學家可以間接地測度出其價格需求彈性,從而測度WTP。

二. 中國的空氣汙染、空氣淨化器市場以及供暖政策

上文提到HEPA的特性使得消費者對此大加青睞,具體而言,中國的廠商都宣傳稱該過濾特性可以過濾掉99%大於0.3mm的顆粒。這一點與美國能源部門公布的一致。並且確實有研究表明此種空氣淨化器對提高人的健康,延長壽命有幫助。作者再次強調了選用空氣淨化器市場估算WTP的優勢所在。

自1958年開始,中國以秦嶺淮河為界,以此往北在冬季實行集中供暖。由於主要以煤炭為供暖來源,煤炭的不完全燃燒十分低效,這就導致了秦嶺淮河以北的地區常年空氣品質差。在2003年之前北方集中統一免費供暖,而2003年之後需要付費。但是,南方並沒有統一實行集中供暖,而是一直自主決定採用何種取暖方式並自行負擔費用。

三. 模型、數據以及實證策略

(一)理論模型

(二)數據說明

作者從以下五個數據源中收集數據集:空氣淨化器市場數據,空氣汙染數據,每種產品的製造/進口位置數據,城市統計年鑑中的逐年人口統計信息以及 2005年中國人口普查微觀數據。接下來將詳細介紹數據情況。

1.空氣淨化器數據

作者使用市場營銷公司從2006年1月至2014年12月在80個城市收集的空氣淨化器銷售交易數據。作者收集到了每月的銷售量、每月的平均價格、每個商店的每個產品的產品屬性信息。該數據集涵蓋了主要百貨商店和電器商店的店內交易,它們佔所有店內銷售的80%以上。在2006年至2014年期間,店內銷售佔總銷售量(包括店內和在線銷售)的72%。

由於數據集不能涵蓋100%的銷售量,因此作者採用兩種方法來估算銷售量。第一種方法中,作者只是忽略數據集之外的交易。儘管此過程提供了透明度和保守的估計,但它低估了每種產品的銷量。在第二種方法中,作者按比例調整銷量以解決這個問題。具體來說,將每種產品的銷量乘以1.73(= 1 /(0.8 *0.72))。收集的數據中表明45家製造商銷售了690種產品,其中包括國內外公司。原始銷售和價格數據是產品-商店層級,而在實證分析中汙染的外生變化來自城市水平的變化。因此,作者將交易數據匯總到產品-城市層級。這個數據集的獨特之處在於作者觀察到了詳細的每個產品的屬性。

2.汙染數據

使用2006年至2014年城市級別的平均,來自Ebenstein等(2017)。原始數據來自中國環境年鑑和中國環境質量年度報告。

3.人口統計數據

作者從兩個來源收集人口統計數據。首先,從《2006-2014年城市統計年鑑》中獲得了有關城市人口和人均GDP的城市年度指標。其次,從2005年人口普查獲得個人微觀數據。對於每個城市,數據集都包含針對個人隨機樣本的人口統計變量。作者使用家庭收入數據來創建實證分析中使用的每個城市家庭年收入的實證分布。同時,還匯總了人口普查微觀數據,以計算出一套城市級別的社會經濟指標,包括平均受教育年限、文盲率、高中畢業率、大學完成率、人均家庭收入、房屋面積(平方米)以及住房質量的衡量標準。

4.GIS數據和地圖

作者使用了80個城市作為研究對象,從人口普查數據中獲取城市質心的緯度和經度,然後使用ArcGIS將其繪製到中國地圖上。圖上還展示了淮河/秦嶺線的位置,這條線將中國分為北方和南方,見圖1。為了進行實證分析,作者根據城市和河流的位置製作了兩個距離變量。第一個變量是城市與淮河之間的距離。對於每個城市,使用ArcGIS來測量從城市質心到河邊最近點的最短距離。這個距離範圍從18英裡到1044英裡,中位數是303英裡。第二個距離變量是從城市質心到工廠或空氣淨化器進口港口的道路(公路)距離並且使用GIS和Google Maps測量從城市質心到這些位置的最短的道路距離,見圖1。

圖1

(三)描述性統計

表1顯示了淨化器的統計信息。在面板A中,第1列中報告所有產品的統計信息,在第2列中報告HEPA淨化器,在第3列中報告非HEPA淨化器,第四列是他們之間差異的比較及統計顯著性檢驗。儘管產品之間存在很大的異質性,但HEPA和非HEPA淨化器之間的均值差異在許多淨化器屬性(如加溼功能,到工廠或港口的距離以及過濾器更換的頻率)的統計差異並不顯著。作者觀察到這兩種淨化器在三個變量上有統計意義的顯著性差異,這三個變量是:淨化器的價格,更換濾清器的價格和房間的覆蓋率。在面板B中,以百分比表示相對於家庭數量的銷售數量。對於總體銷售而言,北京和上海等高收入城市的統計數據更高,暗示經濟增長水平可能會影響整體銷售。HEPA銷售/非HEPA銷售比例在淮河以南約為1.2,在淮河以北約為2.0。該統計數據表明淮北地區的消費者與河流南部的消費者相比,北邊消費者更有可能使用HEPA淨化器。

表1

由於採用的是準自然實驗的因果識別方法,因此要求樣本具有較高的可比較性。必須對樣本容量和樣本可比較性進行權衡。因此作者將樣本限制在秦嶺淮河邊界附近而沒有擴大到整個中國。以城市與離淮河邊界的距離作為斷點(cut-off)進行研究。作者採用的是城市級別的微觀數據進行實證分析。表2第3欄表明北部和南部之間的樣本均值存在顯著差異。但是,第4列中的RD估計值表明,在淮河邊界的差異統計上並不顯著。這就加強了後文因果推斷的解釋力度。

表2

(四)RD回歸的圖形直觀分析

圖2中的(a)散點圖顯示了2006-2014年間的平均值,橫軸是城市與淮河之間的距離。圖2中(b)圖表明,在河流邊界處, HEPA淨化器市場份額相對非HEPA淨化器的市場份額急劇增加。圖中虛線以及實線分別代表回歸中一次控制函數以及二次控制函數。圖像直觀上表明HEPA淨化器份額與非HEPA淨化器份額的平均差值為0.4個對數點。

圖2

(五)正式實證分析

本文的亮點在於計量的因果識別。為了說明本次實證的因果推斷難點在於空氣汙染變量和價格變量均可能為內生變量,這就會導致參數估計的非一致。針對這兩個變量可能產生的內生性問題,文章給出了不同的解決思路。針對空氣汙染變量的內生性,文中選擇供暖政策作為外生衝擊用空間斷點(RD)回歸進行處理。這樣做的理由一是供暖政策本身是外生衝擊,而此外生衝擊直接影響空氣汙染水平進而可以評估空氣汙染的單向因果關係;二是可以研究人們如何對長期的空氣汙染變化做出反應。而針對價格的內生性,文中合併了兩種辦法。在差異化產品的需求估算中,主要的可能的遺漏變量是未觀察到的產品質量。品質上乘的產品價格可能很高,因此受到消費者的歡迎,這樣價格就可能和不可觀測的質量相關,從而與誤差項相關。文中採用控制產品固定效應緩解這個問題。另一個被遺漏的變量是城市層面的不可觀測的經濟因素。如果企業在較高的經濟發展水平的城市設置高價格,這也會使得價格和誤差項之間相關,作者通過控制城市固定效應來應對此問題。雖然控制兩個層面的固定效應可以緩解價格的內生性,但依然存在不可觀測的其餘因素影響方程的估計。比如在某個城市的產品中價格升高是由於未觀察到的需求因素,並且該價格升高僅限於該城市,如果出現這種情況那麼產品層面的固定效應以及城市層面的固定效應都不能控制這種混合的狀態。為了更好地控制內生性,作者選取了產品的運輸距離作為價格的工具變量,其識別假設是運輸距離代表產品成本高低,進而影響價格而並不直接影響人們的需求。

實證模型有以下三個:

然而,嚴謹的解讀係數也是因果識別的問題之一。由於多種原因,作者認為估計值可能會是MWTP的下界估計值。首先,中國的家庭可能對空氣汙染水平以及空氣汙染對健康的負面影響知之甚少。如Greenstone和Jack(2013)所述,這種不完善的信息可能會使揭示的MWTP偏好估計值低於家庭獲得全部信息時將觀察到的MWTP的理論水平。其次,作者的方法假設在沒有空氣淨化器的情況下室內空氣汙染水平等於環境汙染水平。最近的工程研究表明,平均而言,室內汙染估計可以採取的一種方法是依靠工程對室內外空氣汙染比的估算,這將使真實的MWTP估計更大。但是,作者報告的是保守的估計。第三,作者的模型假設,如果沒有家庭購買HEPA淨化器,室內空氣汙染的減少量為零。很顯然,家庭可以採用其他避免方法減少室內空氣汙染而不一定是購買淨化器。例如,家庭可以改善建築隔熱減少傳入。第四,作者的模型和實證分析納入了因替換而產生的運營成本但忽略了電費。根據空氣淨化器製造商的信息,HEPA淨化器的運行成本略高於其他空氣淨化器。這是另一個原因為什麼MWTP估計值可能會被低估。

表3

表4

表5分別是選取不同距離作為斷點得到的穩健性檢驗。作者使用比最佳帶寬(400英裡)更窄的範圍來研究如果使用更靠近淮河的城市的樣本RD估計如何變化。結果表明作者的基準回歸很穩健(所有結果均包含產品固定效應、城市固定效應、經度四分位數固定效應)。

在基準回歸之上,作者還考察了信息衝擊對MWTP的影響。

2013年初,中國媒體對空氣汙染的報導發生了顯著變化。在2013年之前,中國媒體很少討論空氣汙染及其相關的健康影響。而在2013年1月24日,美國駐北京大使館發布的空氣品質指數(AQI)為755,嚴重超過空氣品質上限500,這次發布引起了人們的重大反應和擔憂並促使更多的空氣汙染報導出現在了報紙上(見圖3)。數據顯示2006年至2012年所有中國報紙的提及空氣汙染狀況的從平均每個月有158個急劇增加到2013年的1327個和2014年的1549個。類似地,報紙頭條的數量提及煙霧的從2006-2012年期間的每年12個躍升至2013年和2014年的每年1000多個。媒體報導的這種突然變化提供了一個有用的實驗環境,可以研究信息衝擊與MWTP估算之間的關係。作者將數據劃分為兩個橫截面數據集:一個包含2006年至2012年的數據,另一個包含2013年至2014年的數據。作者要測試的是對空氣品質的偏好(在基準的模型中)因2013年媒體報導的變化而發生了多大變化。為了檢驗這一預測,作者匯總了兩個數據集並估算了和Post2013之間的交互項的係數。表6中第1列中的基準結果表示對清潔空氣的偏愛在2013年後期比2013年之前大,並且兩者差異在統計上是顯著的。在2013年之前的期間,每年的估計MWTP為0.53美元,在2013年之後的期間為1.44美元。在包含了其餘控制變量後結論依然穩健。

圖3

表5

基準標準logit模型假設和對所有人均同質,而隨機係數模型可以放鬆這個假設估算不同人的和。表7第1列採用線性控制函數,第二列採用二次控制函數,結果差異並不大。首先,一年中的減少量(ug / )的中位數和平均MWTP為 1.34,這與標準logit模型獲得的MWTP估算值相差不遠;其次,家庭收入與對清潔空氣的偏好呈正相關;再次,高收入家庭較低收入家庭有更低的價格彈性;最後,顯著表明家庭確實存在對清潔空氣偏好的異質性。

圖4給出了根據表7第1列的估算值的MWTP的分布,表明每年MWTP的分布範圍很廣,大部分分布在0.49美元(第10個百分點)和2.92美元(第90個百分點)之間,表7同樣給出了其他分位數的估計。圖5顯示了MWTP與家庭收入之間的關係。作者給出了收入水平在95%的置信區間下的MWTP估計的擬合線。這表明收入較高家庭願意為改善空氣品質付出更多。

表6

表7

圖4

圖5

文章所要回答的核心問題的到此便結束了,但作者還做了額外的探索。

四. 政策含義

由以上模型可以估計出邊際支付意願MWTP,隨機係數模型可以考慮異質性問題並估計出一個異質性MWTP,但由於實證策略是斷點回歸,因此在沒有額外的假設之下並不具備外推可能,所得的只能是局部平均處理效應LATE(local average treatment effect),這一點對於政策制定者要尤為關注。除此之外,作者還額外做了政策的成本收益分析(cost-benefit analysis),但並不是本文的重點。

五. 總結

回顧本篇論文的核心內容,作者的研究目的是想測算人們願意為消除汙染而支付多少。在計量上的實證難點即是儘可能地降低核心變量的內生性。在方法主要包括了控制各個層面的固定效應、尋找工具變量以及採用空間RD回歸。將不同的解決內生性的方法結合了起來得到的結論更為乾淨,儘可能地排除了不可觀測因素以及其餘變量的幹擾。沒有一項研究是完美的,研究所能做的工作只有儘量地嚴謹不斷逼近真實的因果。作者在附錄裡面更進一步地討論了還可能存在的因果識別問題。1.由於空氣汙染導致的家庭自選擇。北部的家庭可能遷移到南部以尋求更清潔的空氣,作者用戶口制度排除了這一可能。2.斷點的設置問題。如果並不是以秦嶺淮河為界那麼結論就可能出現問題。3.擔心淮河政策可能由於與空氣汙染無關的原因影響淨化器的購買。4.工具變量的選擇問題。一個好的工具變量十分難得,作者為了使結論更可信,除正文部分還額外加了其餘工具變量進行穩健性檢驗(具體見附錄)。作者在文章最後同樣也指出了自身研究的局限以及未來可能的方向。

在科羅拉多大學執教的張爽助理教授的發表情況(2012年康奈爾大學博士畢業):

相關焦點

  • 中國女學者與其日本同行在JPE上發文了!利用獨特數據, 地理斷點RDD和IV研究中國環境議題!
    RDD斷點回歸, Stata程序百科全書式的寶典,3.斷點回歸設計的前沿研究現狀, RDD,4.斷點回歸設計什麼鬼?且聽哈佛客解析,5.斷點回歸和讀者的提問解答,6.斷點回歸設計RDD全面講解, 教育領域用者眾多,7.
  • Mita, 2020小諾獎RDD女王最具影響力的成名作, 附數據和計量程序
    RDD斷點回歸, Stata程序百科全書式的寶典,3.斷點回歸設計的前沿研究現狀, RDD,4.斷點回歸設計什麼鬼?且聽哈佛客解析,5.斷點回歸和讀者的提問解答,6.斷點回歸設計RDD全面講解, 教育領域用者眾多,7.
  • Stata: 斷點回歸 (RDD) 教程
    穩健性檢驗5.1 斷點的安慰劑檢驗5.2 樣本選擇的敏感性檢驗5.3 帶寬選擇的敏感性檢驗1. RDD基本原理斷點回歸分析被認為是最接近隨機實驗的檢驗方法,能夠緩解參數估計的內生性問題,近來在越來越多的研究中得到使用。
  • 斷點回歸前沿-多斷點RDD
    計量百科·資源·乾貨:斷點回歸由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起經濟學家的重視。Thistlethwaite、Campbell於1960年首次提出使用斷點回歸設計研究處理效應, 在該文中他們的目的是研究獎學金對於未來學業的影響, 學生是否獲得獎學金取決於考試的分數。由於獎學金由學習成績決定,故成績剛好達到獲獎標準與差一點達到的學生具有可比性。如果考試分數大於獲獎標準分數, 則進入處理組;如果考試分數小於獲獎標準分數, 則進入控制組。
  • 數據運營36計(八):斷點回歸(RDD)評估產品設計效果
    斷點回歸斷點回歸設計可以控制觀察到的混雜因素,也可以控制未觀察到的混雜因素的影響,即可以防止遺漏變量帶來的問題,除了工具變量和隨機分組外,它應該是唯一的一個可以控制未觀察到混雜因素的研究方法。它好在能做到局部隨機 ( Sharp RD的話)。舉個例子:假定今年有一種錄取考試,分數公布之後,暨大決定只錄取 2200 分以上的考生,2200 分以下的決不錄取。
  • 斷點回歸 (RDD):命令rdrobust、 rdbwselect、rdplot及Stata實現
    此後30年, 該方法並未引起學術界的重視,直到1990年以後, 斷點回歸設計開始被應用於各種領域,並且近年來成為因果分析和政策評估領域最重要的研究方法。Hahn et al(2001)提供了斷點回歸在計量經濟學理論基礎。目前,斷點回歸在教育經濟學、勞動經濟學、健康經濟學、政治經濟學以及區域經濟學的應用仍方興未艾。
  • 斷點回歸設計RDD全面講解, 教育領域用者眾多
    之前,咱們引薦過不少RDD斷點回歸相關操作資料,受到群友喜愛和歡迎,因為RDD是因果推斷中僅次於隨機控制實驗RCTs隨機控制試驗到底是什麼, 會是社科研究的必然趨勢的方法。1.RDD斷點回歸, Stata程序百科全書式的寶典,2.斷點回歸設計RDD分類與操作案例,3.PSM, RDD, Heckman, Panel模型的操作程序, selective文章精華系列,4.在教育領域使用IV, RDD, DID, PSM多嗎?
  • 再談斷點回歸 (RDD):命令rdrobust、 rdbwselect、rdplot及Stata實現
    此後30年, 該方法並未引起學術界的重視,直到1990年以後, 斷點回歸設計開始被應用於各種領域,並且近年來成為因果分析和政策評估領域最重要的研究方法。Hahn et al(2001)提供了斷點回歸在計量經濟學理論基礎。目前,斷點回歸在教育經濟學、勞動經濟學、健康經濟學、政治經濟學以及區域經濟學的應用仍方興未艾。
  • Stata:斷點回歸 (RDD)實用指南
    斷點回歸設計(Regression Discontinuity Design, RDD)最早是由Thistlethwaite and Campbell
  • RDD和SparkSQL綜合應用
    在pyspark大數據項目實踐中,我們往往要綜合應用SparkSQL和RDD來完成任務。通常,我們會使用SparkSQL的DataFrame來負責項目中數據讀寫相關的任務。我們往往會將DataFrame轉化為RDD,在RDD中應用Python中的列表和字典等數據結構的操作來實現這個邏輯,然後再將RDD轉回成DataFrame。下面以一個DBSCAN聚類算法的分布式實現為例,來說明綜合應用SparkSQL和RDD的方法。
  • RDD: 斷點回歸命令rdrobust(附rdbwselect、rdplot)及Stata實現
    因此處理變量在獲獎標準分數處形成了一個斷點, 該研究設計的主要思想是可以利用靠近這一斷點附近的樣本來有效估計處理效應。Angrist and Lavy(1999)在研究班級規模對成績的影響時,利用以色列教育系統的一項制度進行斷點回歸;該制度限定班級規模的上限為40名學生,一旦超過40名學生(比如41名學生),則該班級被一分為二。
  • RDD:斷點回歸可以加入控制變量嗎?
    引言斷點回歸 (RDD) 由於其依賴的假設較弱,並可以為局部政策效應提供穩健的估計和推斷,故被廣泛應用於實證研究中。在斷點回歸中,若使用最小二乘法估計,研究者通常會加入不受政策影響的協變量,如人口統計特徵;而使用非參數局部多項式法,研究者大都不考慮協變量,這使得估計量並不總是參數的一致估計。
  • 斷點回歸:3篇中文綜述和介紹
    然而, 斷點回歸卻鮮為中國經濟學者所應用, 正是基於斷點回歸在實證研究中的重要性和國內文獻的缺乏, 本文擬以此為背景, 從斷點回歸的理論、發展歷史、實證步驟和經濟學中的應用幾個方面闡述斷點回歸這一個新「擬隨機試驗」方法的興起。
  • 世界自然基金會中國總幹事盧思騁:環境議題在中國不再是邊緣議題
    世界自然基金會(以下簡稱「WWF」)是在中國開展實地工作的第一個國際非營利組織,和中國政府關係良好,2013年盧思騁任職WWF中國總幹事,開始重點關注氣候變化和生物多樣性議題。 2020年,盧思騁在WWF的任職期滿。在離任前,盧思騁接受界面新聞專訪,總結多年來得環境保護工作經驗。
  • 五分鐘計量:斷點回歸方法綜述
    退體會對男性健康具有顯著的負效應,而對女性健康基本無影響;鄒紅和喻開志(2015)基於中國國家統計局城鎮住戶調查的家庭數據,利用斷點回歸估計了退休對消費的影響作用,發現退休使城鎮家庭的非耐用消費支出、與工作相關的支出、食物支出和文化娛樂支出分別下降9%、25.1%、7.4%和18.6%;張川川(2015)以中國健康與養老追蹤調查數據為樣本,利用斷點回歸分析了新型農村社會養老保險對農村老年勞動負擔的影響
  • 2小時入門Spark之RDD編程
    __version__)3.0.1一,創建RDD 創建RDD主要有兩種方式,一個是textFile加載本地或者集群文件系統中的數據,第二個是用parallelize方法將Driver中的數據結構並行化成
  • Spark學習記錄|RDD分區的那些事
    6、數據分組:groupByKey在對n_estimators和max_depth計算笛卡爾積之後,我們已經得到了50組參數組合,並且分布在50個Partition上。無論是通過map還是mapPartitions去並行計算每組參數對應的GBDT擬合效果,都會創建50個task。
  • SparkCore---RDD概述
    3、只讀RDD 是只讀的,要想改變 RDD 中的數據,只能在現有 RDD 基礎上創建新的 RDD。由一個 RDD 轉換到另一個 RDD,可以通過豐富的轉換算子實現,不再像 MapReduce 那樣只能寫map和reduce了。
  • 450年的葡萄牙殖民主義在印度:傳教士,教育,和性別的根源|附地理斷點回歸設計GRD(空間斷點回歸設計SRD)匯總
    村莊級別的分析通過以幾種不同的方式進行的地理RDD實現同質性。本文指出了常用評估方法的缺點,並提出了一種更透明和更嚴格的方法來報告結果和進行分析。本文提供了有力的證據,證明早期的葡萄牙殖民活動是造成(地理上)尖銳差異的原因,這種差異在今天仍然可以用男性的性別偏見比率和教育中的性別差距來衡量。研究不連續性的差異,本文發現後者是收斂的,但男性的兒子偏好不收斂。