摘要:刻畫科技人力資源與相關產業結構的指標對指導現階段我國人才戰略調整和產業結構的升級轉型有著深遠的意義。本文從大量網際網路簡歷數據中挖掘出符合科技人力資源標準的求職者,再根據其簡歷中的產業和教育信息,分別用複雜性和競爭力兩個指標刻畫除港澳臺外各省份(含直轄市、自治區)的產業結構和科技人力資源。在此基礎上,本文採用皮爾森相關係數測試各省的產業結構複雜性和各省對科技人力資源競爭力的排名,研究結果指出二者呈現強相關性。
關鍵詞:科技人力資源,產業結構,皮爾森相關係數
1. 研究背景
2016年5月中共中央、國務院印發的《國家創新驅動發展戰略綱要》和2016年7月國務院出臺的《「十三五」國家科技創新規劃》,要求對人才結構的戰略調整和各類創新型科技人才銜接、匹配、分布的格局進行研究,以便更好地服務我國「十三五」國家科技創新規劃目標及創新驅動發展戰略部署的需求。科技人力資源是我國人才的重要組成,而科技人力資源和產業結構的相互作用更是國內外政府、業界和學界長期關注的熱點問題。從國際上的研究進展來看,多數工作專注於探索科技人力資源的管理[1],以及特定領域內的科技人力資源與關聯產業發展之間的聯繫,如旅遊[2]、紡織[3]等。從國內的研究現狀來看,據《中國科技人力資源發展研究報告(2018)——科技人力資源的總量、結構與科研人員流動》(以下簡稱《報告》)的統計結果:我國是世界科技人力資源第一大國,截至2018年底,不考慮專升本、死亡及出國因素,我國科技人力資源總量達10154.5萬人[4]。但目前還存在以下一些問題:一是科技人力資源的概念引入國內較晚、推廣力度欠缺,導致各部門對科技人力資源的統計口徑和方法差異性較大。此外,隨著我國科技人力資源流動性的增強,相關數據統計、提取、整合的成本和難度也越來越高;二是部分研究選題角度較為單一,觀點或重複,或缺乏說服力,其結論和政策措施建議難以起到積極的作用;三是現階段對科技人力資源的研究多是從其靜態的統計特徵出發,具體包括學科(專業)、學歷、年齡、性別、區域和行業分布等,很少有研究關注科技人力資源的動態統計特徵的刻畫和相互關聯分析。
隨著全球數據化浪潮到來[5],應用社會媒體數據[6]和網絡檢索數據[7]等過程數據和人類行為數據來研究社會經濟學問題已經成為前沿的發展方向。這類新型數據通常具備規模大、多樣性強、獲取成本低、更新及時、時空解析度較高和信息維度豐富等優點。再結合時下發展迅速的數據挖掘和機器學習等先進算法,催生出全新的交叉學科研究分支,即計算社會經濟學(Computational Socioeconomics)[8]。藉助大規模的真實社會經濟數據和先進的數據挖掘方法,計算社會經濟學可以用定量分析的方法揭示社會經濟發展的規律,從而提升人類對社會經濟結構、功能和動力學的認知。隨著我國科技人力資源數量的不斷增多,與科技人力資源研究相關的數據不僅在數量上迅速增多,其呈現形式也更加多樣、獲取途徑更加多源、信息維度更加豐富。這為計算社會經濟學進入科技人力資源研究領域提供了更為豐富、多維、多學科交叉的研究視角。目前,在計算社會經濟學領域中已發表許多與人力資源和產業結構相關的研究。Hidalgo等[9]利用巴西人力資源數據構建產品空間網絡並初步揭示出產業結構發展的路徑依賴效應。Alabdulkareem等[10]同樣利用人力資源數據構建「職業-技能」網絡,從而觀察到技能網絡空間內基於認知能力高低的聚類現象。基於上述文獻的啟發,本文試圖基於計算社會經濟學的理論刻畫出能從不同視角描述我國各省級行政區域(不包含港澳臺)的產業結構和科技人力資源的指標。在數據選擇上,本文將採用網際網路簡歷數據,其具有體量大、更新及時、自下而上傳遞、可有效關聯科技人力資源和產業結構的優點,更有利於產業結構和科技人力資源的研究。在新一輪科技革命和製造業深度融合的背景下,本研究以期對全面落實我國人才結構調整戰略和創新型人才部署提供借鑑。
2. 數據處理、指標構建和研究方法
2.1 數據處理
課題組於2015年末至2016年初從前程無憂網、智聯招聘網、領英網、獵聘網、舉賢網、銷售網等招聘網站收集整理投遞區間在2010年至2015年的網際網路簡歷數據,其中2012至2014年投遞的簡歷佔總量的80%。獲得的原始簡歷數據已經過協議性脫敏處理,處理後的數據中將不涵蓋個人敏感信息,包括姓名、電話和郵件等,可用的數據欄位主要包括教育經歷、工作履歷、個人技能和工作期望等。原始數據中的教育經歷信息根據《2019年全國普通高等學校名單》(源自教育部)《大專專業標準表》《本科專業標準表》(源自學信網)等標準高校名稱和專業名稱對數據清洗,從而獲得標準教育經歷數據以及求職者畢業院校的地理和求學時間信息。此外,原始簡歷數據中的工作履歷信息會與標準企業工商註冊數據進行匹配,從而獲得企業標準名稱、企業所在地理位置、企業所屬行業類別等信息。經數據清洗後,挖掘出的信息可覆蓋的時間跨度為2000年至2014年,全國普通高等學校、所有學科門類、專業大類、專業小類可全部覆蓋,行業類別涉及除公共管理、社會保障、社會組織類和國際組織類外的所有國民經濟行業。在完成數據的清洗後,根據《報告》中全國普通高等院校畢業的科技人力資源測算方法,以求職者畢業時的最高學歷為準,累計匹配出科技人力資源4377172人以及1000多萬條標準工作履歷數據。
2.2 指標構建
2.2.1 省份的產業結構複雜性指標
設計有效的指標估計產業發展狀態,對分析產業結構和科技人力資源的相互作用具有重要的意義。現階段我國產業發展逐漸從單一向複雜多樣轉變。利用網絡建模的方法分析大規模的真實簡歷數據能從結構角度感知產業態勢並刻畫發展過程中的複雜性。當前以數據驅動結合計算經濟學領域的工具和分析方法為定量刻畫經濟複雜性提供新的思路。Hidalgo等通過「國家-產品」構建二部分網絡,並構建經濟複雜性指標(ECI)來刻畫國家的經濟發展水平[9]。其中,經濟複雜性由國家出口產品的多樣性和普遍性共同決定,此外,多樣性和普遍性本身也相互耦合。基於上市公司企業註冊信息,經濟複雜性指標也應用於刻畫我國的地域經濟態勢[11]。本文首先利用簡歷數據中企業的地理信息、時間信息、行業類別信息等構建 2000年至2014年曆年的「省份-產業」 二部分網絡,如圖1所示,並將該網絡表示為鄰接矩陣Mp,i,節點之間的連邊權重為各省份內不同行業的企業數量。其中網絡中的省份節點表示除港澳臺地區外的所有省份,而產業節點涵蓋除公共管理、社會保障、社會組織類和國際組織類外的所有國民經濟行業類別。
如式(1)所示,本文將利用比較優勢(RCA)[12]刻畫各省內不同產業的優勢程度,即某產業企業數量佔省內所有企業的比例相對於全國的平均水平。例如:若省份p在產業i中有比較優勢,則有RCAp,i≥1,Mp,i=1;否則,Mp,i=0。
其中,xp,i為p省產業i的企業數量。將省份內有比較優勢的產業數量定義為省份的產業多樣性。則對省份p而言,其產業的多樣性便可根據式(2)計算得出:
此外,將有比較優勢的省份數量定義為產業的普遍性。對於產業i而言,其普遍性可根據式(3)計算得出:
對於省份i而言,其所擁有的且同時具備比較優勢的產業的平均普遍性可以由式(2)和式(3)計算得出。方便起見,將其簡稱為平均普遍性,由式(4)計算得出:
2.2.2 省份對科技人力資源的競爭力指標
在完成數據清洗後,本文根據科技人力資源的時空信息構建「省份-科技人力資源」 二部分網絡。其中,科技人力資源的類別由其最高學歷的專業大類定義。不同於產業,科技人力資源具有地域流動性高、跨專業就職、跨行業就職等特性,從而導致各省份的科技人力資源多樣性與科技人力資源的普遍性更接近非線性耦合。國家競爭力指標(Fitness)採用兩個參數的偏置來刻畫二部分網絡的結構特徵[14],更適用於刻畫各個省份的科技人力資源。構建Fitness指標時採用非線性迭代定義省份對科技人力資源的競爭力()和科技人力資源的複雜性()。具體而言,c省對科技人力資源的競爭力Fc和p類科技人力資源的複雜性Qp之間的迭代過程可用式(7)表示:
Fitness的計算需要非線性迭代過程,Mcp來表示其鄰接矩陣,N表示迭代次數,迭代過程的初始條件設置為Fc(0)=1 和Qp(0)=1,且在每一步迭代後都要對和進行歸一化處理。當非線性迭代達到穩態時,便可得到各省份對科技人力資源的競爭力指標Fitness。從現實層面來看,省份對科技人力資源的競爭力可以視為省份吸納科技人力資源的能力。式(7)指出:首先,省份對科技人力的競爭力與其吸納科技人力資源的數量和複雜性的乘積成正比;其次,當省份吸納的科技人力資源多樣性低時,該省份更易吸納複雜性低的科技人力資源,從而導致競爭力的下降;然而當省份吸納的科技人力資源多樣性高時,該省份吸納的科技人力資源複雜性也會被限制增長。
2.3 研究方法
網際網路簡歷數據的特殊性在於其能很好地將科技人力資源和產業結構有效關聯。以往的研究中,產業結構的刻畫多是基於經濟數據,而科技人力資源的刻畫多是基於人力資源數據,兩個數據源相對獨立,從而加大了研究科技人力資源和產業結構相互作用的難度。相比之下網際網路簡歷數據可以很好地克服這個問題。首先,網際網路簡歷數據已具備一定規模,其次,網際網路簡歷數據能很好地將科技人力資源和產業結構有效關聯。因為清洗出科技人力資源後,其工作履歷的信息就能很好地反映科技人力資源對產業的影響。為能充分挖掘網際網路數據在科技人力資源研究領域的潛力,本文將研究以下內容:第一,分別完成2000年至2014年各省(不包含港澳臺)的ECI和Fitness的刻畫。由於ECI和Fitness計算結果的相對大小比實際大小更具現實價值,因此在研究關係時,主要基於ECI和Fitness的相對大小,即各省ECI和Fitness的排名來進行研究。第二步:本文採用的科技人力資源簡歷挖掘出的企業信息來構建產業結構指數,因此需要確定構建好的ECI是否具有現實價值。具體而言,本文將採用皮爾森係數來驗證各省的ECI和人均國內生產總值(GDPpc)是否具有相關性;第三步,皮爾森係數會進一步被用來驗證各省份的ECI和Fitness是否具有相關性,從而初步判定二者的相互作用。
皮爾森相關係數是常見的用於分析兩個變量之間相關關係的工具。皮爾森相關係數(r)的取值範圍在[-1,1],當r大於0且小於1時表示兩個變量是正相關關係;當r大於-1且小於0時表示兩個變量時負相關關係。根據r值相關關係的強度區分如下:0.81.0極強相關;0.60.8強相關;0.40.6中等程度相關;0.20.4弱相關;0.00.2極弱相關或不相關[15]。
3. 結果呈現和分析
3.1 數據的描述性統計
從圖2可以看出,科技人力資源的數量在2000年至2014年間呈現顯著增長趨勢,按各學歷科技人力資源數量排序由多到少依次為本科、大專、碩士、博士,其中僅有大專學歷的科技人力資源在2010到2014年間的增長趨於平緩。與《報告》中2012至2014年統計的新增全國普通高等院校畢業的科技人力資源相比,在簡歷數據中挖掘的科技人力資源佔比從10.8%增加至11.9%(圖3);與《中國統計年鑑2018》中記錄的企業數量相比,在簡歷數據中挖掘的在科技人力資源相關的企業數量佔比在2005至2014年間一直維持在4%5%(圖4)。除此之外,從行業的分布狀況來看,簡歷數據中挖掘的信息傳輸、軟體和信息技術服務業,租賃和商務服務業,金融業中的企業佔比位列前三,其中信息傳輸、軟體和信息技術服務業佔比高達23%,遠高於其他行業(圖5)。從以上描述可以發現網際網路簡歷數據挖掘出的科技人力資源已初具規模且成長迅速,已具備支持科技人力資源研究的潛力。
3.2 產業結構複雜性
複雜性指標ECI通過將省份的產業多樣性和產業的普遍性相結合來實現對各省份產業結構的刻畫。為了驗證ECI是否符合其基本假設,即複雜性高的經濟體具備更高的多樣性和較低的普遍性[8, 10]。圖6給出了省份的產業多樣性和平均普遍性之間的關係,其中省份代碼如表1所示。圖7呈現出各省的產業結構複雜性ECI指標的排序以及隨時間的演化。北京、上海、廣東以及東南沿海地區省份的ECI排名整體靠前,而甘肅、青海、西藏等西北、西南地區省份的ECI排名靠後。如圖6所示,省份的產業結構多樣性和平均普遍性呈現明顯的負相關,兩者的皮爾森係數為-0.81,顯著性水平為3.1×10-5。結合圖7的ECI排序和圖6中下對角線狀的數據分布,產業結構複雜性高的省份其產業具備更高的多樣性和較低的普遍性,由此可以說明本研究構建的ECI符合基本假設邏輯自洽。
進一步,通過對比2000年和2014年的ECI指標,ECI排名增加的省份位於對角線上方,而排名下降的省份位於對角線下方。但數據總體向著對角線收斂, 2014年各省份ECI與2000年各省份ECI顯著正相關,皮爾森相關係數為0.88,由此說明各省的ECI排序相對穩定且時間演化相對緩慢。
為進一步分析基於科技人力資源簡歷中的企業信息構建的省份產業結構複雜度ECI是否與區域經濟發展水平具有關聯性。由於ECI的計算是一個反覆加權平均并迭代的過程,因此本文認為在常見的經濟指標中,GDPpc比反映總量的經濟指標例如GDP等更適用於驗證ECI。因此本文將通過測算2000年至2014年各省ECI與GDPpc的皮爾森係數來判斷ECI的現實價值。為了更清晰地呈現計算結果,首先對GDPpc進行自然對數的計算,以便拉近ECI和GDPpc的觀察尺度。圖8表明相關係數在0.8上下波動,即ECI 與ln(GDP pc)呈現顯著正相關。從而說明基於科技人力資源簡歷數據所計算得各省份產業結構複雜性指標ECI能夠在一定程度反映並刻畫出該省份的經濟發展水平,因此具有一定的實際參考價值。
3.3 ECI和Fitness的相關性檢測
在根據上述方法分別計算出各省2000年至2014年的ECI和Fitness後,接下來要對二者進行相關性檢測。從圖9可以看出,ECI和Fitness的皮爾森係數在2000年到2014年之間,始終保持在0.6至0.8之間,該區間屬於強相關區間。這意味著省份的產業結構複雜性和對科技人力資源的競爭力排名的變化趨勢一致。省份的產業結構越複雜(單一)時,該省科技人力資源的競爭力也越強(弱)。
4. 結論
本文基於普通高等院校畢業的科技人力資源標準,從大量網際網路簡歷數據中篩選出符合標準的科技人力資源簡歷,並根據其中的工作和教育信息,分別用複雜性和競爭力來刻畫各省的產業結構和科技人力資源。研究結論具體如下:一是從網際網路簡歷數據挖掘出的科技人力資源已初具規模且成長迅速,已具備支持科技人力資源研究的潛力;二是基於計算社會經濟學的方法,本文提出用複雜性和競爭力兩個指標分別刻畫省份的產業結構和省份的科技人力資源的競爭力;三是各省自2000年至2014年的ECI和Fitness的相關性水平在強相關區域,由此說明省份的產業結構複雜性和省份對科技人力資源的競爭力變化趨勢整體一致。在此基礎上,運用ECI和Fitness指標去進一步分析科技人力資源和產業結構影響機理是該研究的下一個方向。
參考文獻
[1]B E Becker, M A Huselid. Strategic human resources management: where do we go from here? [J]. J. Manage(1557-1211), 2006,32(6): 898-925.
[2]T Baum, V Amoah, S Spivack. Policy dimensions of human resource management in the tourism and hospitality industries[J]. Contemp. Hosp. Manag.(0959-6119), 1997, 9(5/6): 221-229.
[3]T F Morrow. Human resource management in Northern Ireland: an analysis of policy and practice in the clothing industry[D]. University of Ulster, 1999.
[4] 中國科協調研宣傳部,中國科協創新戰略研究院.中國科技人力資源發展研究報告(2018)——科技人力資源的總量、結構與科研人員流動[M].北京:清華大學出版社,2020.
[5]V Mayer-Schnberger, K Cukier. Big data: A revolution that will transform how we live, work, and think.[M]. Houghton Mifflin Harcourt, 2013.
[6]Y Kryvasheyeu et al, Rapid assessment of disaster damage using social media activity[J]. Sci. Adv. 2016, 2(3): e1500779.
[7]M Ettredge, J Gerdes, G Karuga. Using web-based search data to predict macroeconomic statistics[J]. Commun. ACM, 2005, 48(11): 87-92.
[8] J Gao, Y C Zhang, T Zhou. Computational socioeconomics[J]. Physics Reports, 2019.
[9]C A Hidalgo, B Klinger, A-L Barabási, et al. The product space conditions the development of nations[J]. Science. 2007, 317(5837): 482-487.
[10] A Alabdulkareem, M R Frank, L Sun, et al. Unpacking the polarization of workplace skills[J]. Sci Adv, 2018, 4(7): eaao6030.
[11] J Gao, T Zhou. Quantifying China’s regional economic complexity[J]. Physica A: Statistical Mechanics and its Applications, 2018, 492: 1591-1603.
[12] B Balassa. Trade liberalisation and 『revealed』 comparative advantage[J].Manchester Sch, 1965, 33(2): 99-123.
[13] R Hausmann, C A Hidalgo, S Bustos, et al. The atlas of economic complexity: Mapping paths to prosperity. Mit Press; 2014 Jan 17.
[14] G Caldarelli, M Cristelli, A Gabrielli, et al. A network analysis of countries』 export flows: firm grounds for the building blocks of the economy[J]. PLoS One, 2012, 7(10): e47278.
[15] 陳志方.中國貨幣政策的有效性評估——基於皮爾森相關係數的分析[J].中國商論,2020(06):48-49.
作者簡介:
嶽仲濤,男,博士研究生,電子科技大學,研究方向為計算社會經濟學。
王巖,男,博士,電子科技大學,研究方向為深度學習、智能決策。
楊小寒,女,學士,大數據中心,研究方向為數據挖掘、人工智慧。
吳潔慧,女,碩士研究生,電子科技大學,研究方向為深度學習。
劉權輝,男,博士,教授,四川大學,研究方向為複雜網絡及傳播。
高見,男,博士,電子科技大學,研究方向為計算社會經濟學等。
張彥如,女,博士,教授,電子科技大學,研究方向為博弈論、智能決策等。
周濤,男,博士,教授,電子科技大學,研究方向為大數據與人工智慧、計算社會經濟學等領域。
封面圖片:來源網絡