隨著保險業的不斷發展,傳統精算學模型日趨複雜,但其進展已漸現瓶頸,可解釋性受到影響。機器學習可以通過模型的改造升級,跳出到費歇爾推斷統計體系之外來研究精算問題,以犧牲可解釋性獲得顯著的預測精度提升。本文作者對外經貿大學保險學院副院長謝遠濤教授,由淺入深,從北美精算師協會、英國精算師協會實施以編程實踐、機器學習為內容的新一輪改革談起,引出如何在統計精算與機器學習中取捨,如何在代碼編程與輕代碼、無代碼編程中取捨,如何實施基於編程實踐、機器學習的精算教學等方面的思考和探討。謝教授通過案例和專業分析,提出了模型外推風險、醜小鴨定理和偏倚-方差分解公式,終將為制約機器學習的進一步發展埋下伏筆,而無代碼/低代碼編程有可能實現編程與問題導向性思路的折中,為基於編程實踐、機器學習的精算教學奠定堅實基礎的觀點。文中無論是國際精算組織改革經驗,還是作者專業性的思考分析,都對我國精算教育改革發展有著很好的啟示。
1998年第26屆國際精算師代表大會頒布「國際精算教育指南」之後,在該教育指南的推動下,各個國家的精算組織在基礎教育部分已經基本上達成一致。國際精算協會(IAA)的大綱已經經歷了變化發展,其他成員組織也需要進行變革。北美精算師協會自2018年7月1號起實施了新一輪的改革,用VEE數理統計(MathematicalStatistics)取代了VEE 統計(Applied Statistics)學分;VEE公司財務(Corporate Finance)學分增加會計內容;ExamC新加入短期保險定價和準備金,一些知識點移動到其他考試中;FM考試調整了利息理論內容,增加投資的內容,減少金融衍生產品的內容。而大家最關心的,可能是兩門新考試:新的Statistics for Risk Modeling考試,加入廣義線性模型、決策樹等內容;新的Predictive Analytics考試(必須先考過SRM),強化案例分析,用電腦軟體分析數據集,匯報並且交流研究成果。結合全新升級的精算實踐基礎FAP 模塊,引入互動場景,講解如何把精算技術運用到實際工作中,通過8個module和期中評估(IA)、期末評估(FA),將不同地區的考生在工作和學習中碰到的案例(SOA諮詢和援引了很多頂級精算僱主的實際問題)整合起來,用大量的資料和例子鍛鍊考生用精算的思維方式和工作方法處理實際工作中遇到的問題,貫穿整個精算控制循環,便於考生自我評估對知識點的理解。也即,SOA在準精ASA階段,通過在高級階段課程:預測分析PA考試和精算實踐基礎FAP 模塊改革把電腦編程和大數據分析納入考試。這是因為預測分析和機器學習建模越來越多地被運用到精算各個領域,傳統回歸分析和時間序列分析模塊,已經無法滿足未來精算師們預測分析的能力要求。圖1:SOA的新的ASA課程體系
英國精算師協會每7-10年會對其考試大綱,考試內容和考試方法進行回顧與必要的更新。2016年英國精算師協會會教育委員會決定最新考試從2019年春季考試開始實施。與IFoA的CPD計劃對接,改革後新的課程主要包括三個部分:精算師資格認證考試;精算師職業道德和工作經驗。圖2:IFoA的Qualification Structure(來源:Executive Summary:IFoA Curriculum Review)
與精算改革直接對應的,一個方面是在核心統計(Core Statistics)中豐富GLM和引入機器學習內容,另一個方面是精算實踐模塊,包含有三個主要模塊:精算實務(CP1)、建模實踐(CP2)和交流實踐(CP3)。精算實務(CP1)模塊包括兩份紙質考試;建模實踐(CP2)模塊包括兩個三小時的計算機考試。這些內容覆蓋了數據建模、工作文檔、分析方法、與精算受眾的溝通和數據分析全流程。
總體上看,SOA、IFOA等機構的精算改革思路是一致的,編程實踐與機器學習成為重要的內容。中國精算師協會也一直在為恢復考試做不懈的艱苦努力,作為國際精算協會的會員單位,也必將因循這些改革思路,把編程實踐、機器學習內容納入新的考試大綱中。
在非壽險精算中,往往需要對數據進行建模、擬合以輔助定價和風險決策。為什麼要建模?主要是為了推斷總體,說直接點是為了預測或者外推。舉個簡單例子,你的樣本庫中有勞斯萊斯等各種車型,有紅黃藍綠各種車色,但唯獨沒有黑色的勞斯萊斯,現在你要對黑色的勞斯萊斯定價,怎麼辦?這就需要模型外推。
經歷了單項分析法、最小偏差法到經典回歸模型的發展,經典回歸模型形式簡潔,預測和外推非常方便,可解釋性極好。然而,其嚴格的假設條件在精算中通常難以得到滿足:
第一,要求因變量服從正態分布在很多情況下是不現實的,譬如索賠頻率和續保率等通常不會服從正態分布,特別是費用和賠付數據往往具有右偏、厚尾的特點,具有生存時間特性。
第二,方差齊性假定不現實。假設因變量的方差不依賴於均值,然而實際數據分布的誤差項方差往往是其均值的函數,冪律效應就是說明這種現象。
第三,模型關係設定正確,假設費率因子通過加法關係對因變量產生影響,但在很多情況下,費率因子之間可能是一種乘法關係,而非加法關係。
因變量與解釋變量之間不一定是線性關係,這不是限制經典回歸模型的主要問題,通過對原有模型進行適當的變換處理,可以模擬非線性關係。這時的分布也不是傳統意義上的正態分布,方差齊性也可能變化,事實上,正是這些變換的思想,逐漸催生了廣義線性模型。
分類費率釐定技術發展到了廣義線性模型,已經趨於完善;基於指數分布族,這為預測因變量的變動信息提供了更大的靈活性,並且保留了良好的統計性質,如統計量的漸進正態性;引入三個層次的檢驗:總體擬合優度、方差分析、係數顯著性檢驗,約束回歸與檢驗。建立了完整的學科體系。實現了預測精度與可解釋性的取捨。
基於第一條假設,指數分布族外,考慮複合分布,截斷分布、(a,b,1)分布類擴展得到Tweedie分布類的廣義線性模型;基於第三條假定,連接函數之外引入半參信息,得到廣義可加模型;至於第二條,考慮隨機效應、重複觀測效應和方差異質性,可以把Bayes信度調整引入得到特殊的廣義線性混合模型。
至此,模型設定越來越精緻,但是函數形式直觀、解釋性方面已經慢慢滯後了。而且,模型的預測精度提升已經越來越有限,精算師不斷嘗試新的風險因子、費率因子,不斷嘗試新的函數分布設定,終究很難取得關鍵性突破。因為基於廣義線性模型框架體系構建的推斷統計體系,本身是一套很嚴格的體系,很多嘗試會因為無法通過顯著性檢驗而被剔除。另一方面,費率因子之間錯綜複雜的聯繫,很難保證非隨機,產生了各種各樣的問題,例如低估了顯著性,誤刪了重要費率因子,學者通過收縮回歸技術、約束回歸檢驗,嶺回歸、LASSO回歸來進行處理。也有學者嘗試繞開這一套顯著性檢驗體系。
還有一些學者提出其他思路,例如通過模型的整合,構建專家賦權混合模型(Mixture of Experts Models)。廣義線性混合模型與廣義可加模型之後,模型越來越複雜,但在精度等方面的進展已經能看見瓶頸,另一方面,可解釋性卻越來越差。既然已經看到了傳統統計框架下的圍牆,業界和學界開始思考是否可以越獄,跳出到費歇爾推斷統計體系之外來研究精算問題。
模型最核心的是建模因子庫。早期建模最大的問題是缺乏合適的費率因子,但隨著數據科學的發展,費率因子的抽取越來越完善。例如,利用人體固有的生理特性(如指紋、臉象、虹膜等)、行為特徵(如筆跡、語音聲紋、步態等),通過獲取個體的生理或非生理信號,包括面部表情、語音、心率、行為和生理信號等,結合社交關係數據提取、LBS定位信息、瀏覽及點擊行為等數據,加上物聯網技術、區塊鏈的應用,使得風險因子提取日益廣泛。
例如,截至2019年5月底,平安擁有8.8億人大數據,26,000+總體欄位,3300+平均欄位,7.3億次信用查詢。平安的建模因子庫覆蓋305+因子,其中案件187個:包括出險時間、單雙方事故等;車78個:包括拒賠次數等;人40個:包括駕駛員出險次數等。全部因子、歷史一年數據,SAS系統每月初自動跑批,效率極大化。成功跑批上半年500萬+因子數據。平安旗下金融壹帳通智能閃賠系統,通過提煉屬性邏輯數據及因子數據,並通過業務規則輸入與自動機器學習,搭建了車型配置、配件價格、工時價格、維修邏輯、損失邏輯五大風險管控引擎,模型中包含了700多個風險因子,組合為定損邏輯、損失邏輯等多個風險類型。同樣,德國安聯財產保險運用機器學習、大數據分析等技術開發了新一代承保定價系統,通過數據收集與清理建立定價所需的基礎資料庫,通過複雜的精算與統計模型計算出基礎費率,再結合市場定價與客戶分層確定面向不同客群的市場價格,最後將定價推向市場並通過持續動態的指標監測不斷調整定價。該系統的風險因子輸入超過800個。
既然繞開了傳統的費歇爾推斷體系,機器學習建模空間得到了極大的提升。
前面非壽險精算分析的基礎還是統計那一套統計推斷理論體系,通過顯著性檢驗對變量進行篩選,或者通過約束回歸、收縮回歸、嶺回歸、LASSO回歸來限制變量組合,保留合適的變量。事實上,鑑於真實世界各種錯綜複雜的聯繫,總有某種程度之間的依賴關係,如果某些變量的確解釋能力有限,也可以讓它的重要性度量(例如權重)自動收縮為足夠小,間接實現變量選取(準確說是抑制)功能。
人工神經網絡的主要思路就是如此,既然沒有顯著性約束,那就把所有變量放進來,利用組合函數來匯總輸入變量的特徵,再通過轉移函數投射到合適的定義域中,實現非線性變換的目的。其中,組合函數和轉移函數合稱為激活函數,像一個「黑匣子」把輸入和輸出聯繫起來。激活函數的輸出通過輸出函數投射到輸出層。輸出層如果是定量變量就對應回歸問題,若是定性(屬性)變量就對應分類問題。按照具體函數形式的不同劃分為不同的類型:如二值函數,S形函數,雙曲正切函數,也可以採用光滑函數或者徑向基函數。信息通過權實現分布式存儲,由此具有很高的容錯性——即使10%的神經網絡失效,仍能照常運作。其並行結構具有並行處理能力,可以分布式處理,具有高度的互連性和規則性。按照權值更新的性質可以分為死記式學習、δ學習、自組織學習、Hebbian學習和相近學習。對於回歸問題,對應的輸出函數為恆等函數;分類問題的輸出層往往有K個,對應分類的K個維度,相應的輸出函數為恆等函數或者softmax函數。
樹分類器的許多術語來自概念學習系統(Concept Learning System,CLS)的研究。分類回歸樹CART(Classificationand Regression Trees)模型將預測空間遞歸地劃分為若干子集,通過一系列的規則(或者選擇)將數據分類,並能根據落入相同節點的路徑上的規則集來推測相同的結果。劃分是由與每個內部節點相關的分支規則(Splitting Rules)來確定的,通過從根節點到葉節點的移動,所有樣本被唯一地劃分到葉節點所對應的區間,被解釋變量在該節點上的條件分布也即被確定。分類樹是非參的,也是非線性的,其判別準則以樹形圖或一組if-then語句形式描述,判別分析用一組線性方程組表述,結果易於表達和解釋。從剖分面的角度來說,用分類樹比Logistic效果好的原因是,對於給定的一個樣本所包含的觀測,分類樹模型的剖分面極不光滑,可以極大程度地擬合樣本數據,但是有很大的外推風險,運用到其他樣本時擬合效果就差,需要動態調整模型。而且,分類樹模型建模中整枝不當容易造成過擬合。而Logistic則是使用光滑的曲線作為區分的標準,只能對樣本作大致區分,但是具有擴展性,能較好地預測其他的樣本數據。以分類回歸樹為例,通過不斷的對樣本空間進行剖分,總能以足夠高的精度來擬合樣本空間,機器學習都很難迴避這一點。事實上,即使是傳統的回歸模型、廣義線性模型,我們也可以使用虛擬變量,通過「虛擬變量陷阱」,實現虛高的擬合精度。一個很極端的例子,如果有100個樣本點,如果引入99個虛擬變量,總能100%實現擬合。也能達到機器學習工具的擬合優度。分類樹理想的結果是使得樹中每一個葉節點要麼是純節點(節點內部樣本的被解釋變量屬於同一個類),要麼很小(節點內部所含樣本個數小於事先給定的n值)。分類樹基於樣本空間進行分類,在從眾多的預測變量中選擇這個最佳分組變量時,由於數據中有噪聲和孤立點,許多分枝反映的是訓練數據中的異常。好的整枝可以消弱噪聲的影響,但消弱孤立點影響的作用要小得多,孤立點的存在很可能會影響判別函數進而影響分類樹的結構,但是模型本身對識別孤立點有很高的勢。在Logistic模型中,因為推斷基於大數定理,噪點影響很小。而孤立點可以將回歸曲線拉向自身,使回歸方程產生偏移,利用總量來估計係數,在樣本量較大時可以消弱孤立點的影響。圖4:CART模型
以神經網絡為代表的機器學習體系放棄了費歇爾體系,我們沒法像回歸一樣通過顯著性水平來剔除多餘的變量;其次,數據之間的相關或者偽相關(spurious regressions, Yule, 1926)導致回歸中幾乎不會出現引入變量的回歸係數為0這種現象,人工神經網絡也不例外,儘管不顯著的係數理論上與零沒有顯著差異,但在神經網絡模型中無法判別顯著性,這才是問題的所在。在預測中,這種問題帶來的不利影響更大:如果說回歸中我們可以構造強外生性檢驗(strong exogeneity)、超外生性(superexogeneity, 參見Ericsson)來作為預測模型的理論保障,但在數據挖掘中,即使是在這最後的「黑匣子」面前也顯得蒼白無力。需要指出的是,理論上過多的隱藏單元可以通過一些規範條件或者說正則條件訓練來使多餘的權收縮到零,關鍵問題真正的樣本空間我們往往無法知曉,我們總是強加一些假定。但遺憾的是,這種變換處理不是唯一的,就算我們用理論求得一個唯一的最優變換,也只是對特定樣本說的,一旦外推用於新的樣本問題就來了;最後一點考慮是,低維空間是高維空間的特例,就算我們能在低維空間得到唯一最優變換,一旦放到高維空間那就不唯一了,正交雖然能使多餘緯度上的測度變為零測度集,但作為斜交的特例,正交並不能解釋所有。構建神經網絡(ANN)、支持向量機(SVM)、分類回歸樹(CART)、DBSCAN模型,針對傳統單獨數據挖掘工具預測精度有限的問題,整合bagging、boosting和構建隨機森林,並根據歷史數據回代,進行關鍵費率因子,進行指標管理和賦權體系的動態更新。相比規則引擎,機器學習模型更能捕獲風險特徵不太突出或不太普遍的隱蔽欺詐群體。而不同特性的機器學習算法,可以針對性得應用至不同的風險場景。例如,平安公司應用「GBDT梯度提升樹」、「RF隨機森林」、「Xgboost」等相對複雜一些的集成模型;針對需要對多個不同因子的因果關係構建推理模型的場景(如配件工時關係模型),可以應用「PGM貝葉斯概率圖模型」。近年,一些新現的機器學習算法,在工業應用中,也取得了傲人的成績,成為替代目前流行的集成模型(如GBDT)的趨勢之一,包括「gcForest深度森林」和「mGBDT級聯梯度提升樹」等,這些算法模型,在表徵能力方面,相比傳統模型更有優勢。和以往梯度提升樹(Gradient Boosted Tree, GBT)相比,LightGBM的優勢在於:提高了精確度(二階導);提高了速度(算法優化、系統優化);支持並行學習。LightGBM算法還包含了兩個全新的方法:基於梯度的單邊取樣和特徵捆綁。相比傳統機器學習,LightGBM算法等脫離了依靠增加解釋變量個數提高多因素模型解釋力的傳統研究框架,在車險索賠概率預測上具有高準確率和高穩健性。根據下圖所示的AUC和Accuracy比較可知:無論對準確率和召回率的平衡能力,還是對0-1標籤正確分類的能力,LightGBM對該不平衡數據集的分類效果顯著強於前人所使用的其他算法。根據我們的研究,魯棒性和泛化能力方面,LightGBM在維持高準確率的條件下,仍能保持較低的波動性;無論是預測的準確率,或者算法的魯棒性,LightGBM對該類型數據集的分類效果明顯優於其他算法。圖5:常見模型的準確率和AUC值比較:GLM(廣義線性模型)、ANN(人工神經網絡)、GDBT(梯度決策樹)、SVM(支持向量機)和LightGBM
深度學習模型相比機器學習模型,在數據利用和精度提升方面,更有優勢,但解釋性較差,同樣適合不重解釋性的業務場景。常見的方法是:通過「auto-encode自編碼器」或「受限玻爾茲曼機」進行無標籤數據的預訓練,構建DNN深度神經網絡模型,再通過少量標籤數據進行模型參數的微調,從而發揮數據的最大效能。從實踐而看,深度學習模型相比傳統機器學習模型,識別的精準度方面可提高20%-50%。
而且,機器學習也在不斷彌補其短板,例如,通過直方圖遍歷算法,不管特徵值是否為0,那麼稀疏矩陣問題就解決了。機器學習也逐漸跳出「黑盒子」的限制,強調解釋能力(樹狀特徵本身具有極好的解釋性),LightGBM等很多算法對連續變量可以直接生成重要性評分,還能基於特徵總分裂次數和基於特徵總信息增益對所有特徵進行重要性分析。至少從預測準確度(樣本內推)指標看,機器學習工具已經全面超越了傳統的統計精算模型工具。
當ANN、CART、SVM小試鋒芒的時候,統計精算圈還很淡定,因為15%的預測精度改善以犧牲85%的解釋性為代價的;當這些改良的工具、算法逐漸滲透到業界應用時,統計精算圈已經沒有那麼淡定了:雖然基礎工具沒有顛覆性成果,但額外的15%的精度提升足以撼動精算定價的地位。特別是前沿精算雜誌開始大批量錄用機器學習的時候,精算學者們也要停下來審視這種顛覆性的力量。
偏倚-方差分解:假定基於二次損失函數,在處,回歸方程的期望預測誤差方差可以分解為擾動項方差、偏倚(估計均值與真值之間的差異)的平方和預測統計量的方差:
為了實現好的預測效果,大家更傾向於引入複雜的模型,例如,部分模型越複雜,一般來說,會使偏倚的平方越小,但是方差部分會越大。這是個兩難問題,估計量無偏或者近似(漸進)無偏了,精度又下去了。這是卡住經典統計與統計學習(機器學習)咽喉處的骨頭。醜小鴨定理似乎也驗證了:很難找到絕對佔優的模型。
而且,訓練集上過好的表現,往往在樣本外推時出現災難性的後果。學者嘗試從過擬合(overfitting)的角度來分析。嘗試通過交叉驗證(CV)、ROC曲線、約登指數(Youden index )、early stopping、數據集擴增(Data augmentation)、正則化(Regularization)、Dropout等防止過擬合。當然不同的數據挖掘工具也有獨創的控制過擬合的機制,例如LightGBM的Leaf-wise對於防止過擬合有用,可以防止因子重要性評分高估效應,類似於回歸中的收縮估計。
細心的讀者會發現,前面所謂偏倚-方差分解公式,是基於二次損失函數來構建和推導的。統計精算中,目標函數構建時,除了傳統的二次損失函數外,還有絕對損失函數,0-1損失,這麼多的統計與機器學習工具,基本的分析框架還是在這些損失函數的目標函數下進行優化。但即使拿掉二次損失函數,換成其他的,基本結論也會是相似的,也存在類似的分解公式,也存在類似的取捨問題。這也終將為制約機器學習的進一步發展埋下伏筆。
高級程式語言經歷著從面向過程程序設計(Procedure-Oriented Programming,簡記為POP)到面向對象程序設計(Object Oriented Programming,簡記為OOP)的轉變。前者通過設計一個算法就可以解決特定問題,典型代表是Pascal、C。而後者將現實世界的事物抽象成對象,對象是類的集合,將對象作為程序的基本單元,將程序和數據封裝其中,幫助人們實現對現實世界的抽象與數字建模。面向對象程序設計的典型代表包括java、c++、c#、python、Go(又稱Golang),Smalltalk、Eiffel、PHP語言。面向對象的3個特徵:封裝、繼承、多態,通過封裝技術,消息機制可以像搭積木的一樣快速開發出一個全新的系統。提高軟體的重用性、靈活性和擴展性。
精算中常用的程式語言也在從面向過程程序設計到面向對象程序設計的轉變或者覆蓋中。曾經的統計精算編程非常輕巧,容易上手。
例如R語言,主要面向統計計算,而且代碼量一般不會很大,使用面向過程的編程方法就可以很好地完成編程的任務。面向過程來寫程序的時候,每一次的需求變化,都需要對原始代碼進行修改,從而不僅增加了複雜度,越來越難以維護海量代碼的項目,所以後來R語言一口氣引入了可以實現OOP範式的四套標準:S3、S4、RC、R6。
再比如SAS,SAS 8版以後支持OOP, SAS組件語言(SCL)程序控制語言同樣具有高級語言的一些特性,支持面向對像的程序設計。通過SCL擴展SAS/AF組件的內置功能。而SAS/AF本身也是面向對象的編程環境,利用交互式開發環境和一組面向對象的豐富的類,可以派生子類、為客戶定製特殊需求,可以充分利用SAS/AF應用程式的可移植性與SAS軟體的其他產品的特點進行快速開發和部署。此外SAS/AF軟體還為開發人員提供一個集成的編程開發環境和應用測試。用於開發強大的企業級應用程式。
當然,除了SAS/AF,在SAS系統裡還提供了另外一種應用開發的解決方案——SAS/EIS,SAS/EIS具有便利快捷的應用開發環境,能為企業用戶快速的開發企業應用程式。而且,結合應用開發(RAD)環境,開發人員可以利用SAS/AF軟體創建SAS/EIS,並且可以通過SAS/AF輕鬆地擴展這些應用程式,為客戶端提供更加強大的應用,例如可以使不同的用戶在不同硬體平臺上使用,使終端用戶可以在項目設計完成前看到並體驗。
另一個軟體stata 既具有結構化的控制語句,又有面向對象編程的特性。貌似軟體都在向面向對象編程發展,事實上,我們也應該看到另一個趨勢。SPSS軟體通過菜單操作記錄程序代碼可以重複執行;R語言的姊妹篇S語言通過S-PLUS實現了類似的菜單操作與編程的混合模式。值得一提的是,除了面向對象,SAS/AF還是一款基於圖形用戶界面(GISs)的程序開發模塊,交互式設計工具大幅減少開發時間,可以通過定製可視化的窗口設計應用程式,整個過程都可以通過具有可視化的框架基礎的方式完成,如圖形顯示設備和圖形用戶界面。通過過程「流」,充分利用在線分析過程(OLAP)、數據訪問、數據管理、Web集成和一系列的分析功能又是。同時可以在SAS軟體提供的所有平臺上進行應用程式開發與部署。
而且,SAS還升級了早期的數據挖掘過程方法論SEMMA(Sample, Explore, Modify, Model, Assess),建立了兩個完全基於流的模塊,SAS/EG,SAS/EM,使廣大數據挖掘從業者不需要編程也能進行模型部署和開發。
圖6:SAS/EM 過程流程圖示例
而另一個軟體,Clementine更是把這種過程「流」的思想用到極致,通過處理各種不同類型的數據,整合出色、廣泛的數據挖掘技術,為企業解決各種商務數據挖掘問題。Clementine後來被SPSS收購,成為SAS/EM最強有力的競爭對手,而SPSS在被IBM收購後,Clementine升級為Modeler。當今市場上主流的數據挖掘平臺,包括幾大主流資料庫服務商提供的數據挖掘模塊,都能看到這種基於流的模型架構思路。
也就是說,數據挖掘又在朝輕代碼編程甚至無代碼編程的方向前進。
無代碼/低代碼可以讓開發人員使用最少的編碼知識,來快速開發應用程式。它可以在圖形界面中,使用可視化建模的方式,來組裝和配置應用程式。開發人員可以直接跳過所有的基礎架構,只關注於使用代碼來實現業務邏輯。
無代碼編程主要分為兩類:一種是用於UI 設計和網站設計的在線的拖拽式構建工具或者編輯器;另一種是用於編寫業務邏輯的流編輯器,如前面所述,通過流編程的方式來編寫業務代碼。
這些編程效率很高,節省時間和開發成本;有限的 Bug,安全性有保障;易用(取決於設計),維護成本低。但仍然需要編程技能;自定義能力受限;集成受限,可擴展性受限。但無論如何,已經在人類編程歷史進程中邁開了重要的一步。
2017年10月教育部印發《中小學綜合實踐活動課程指導綱要》,指出,「發展實踐創新意識和審美意識,提高創意實現能力。通過信息技術的學習實踐,提高利用信息技術進行分析和解決問題的能力以及數位化產品的設計與製作能力。」8歲的少兒便開始學習編程,當然目前少兒編程教學主要是Scratch或是仿Scratch的圖形化編程教學,以培養興趣、鍛鍊思維為主。
同樣,智能音箱的出現(例如小度在家、小愛同學IoT設備控制),以及各種形態的智慧機器人、金融科技、保險科技平臺,已經能把人類的語言轉化為計算機可執行指令,通過語音實現生活助手、智能家控等功能,為用戶提供更好的AI體驗。把計算機語言變成自然語言(NLP),能有效降低編程和機器學習的門檻,讓軟體開發和應用開發簡單起來。同時,因為不需要計算機語言,能讓更多的人都能參與這個編程開發當中。無代碼終將成為之後軟體開發的一個趨勢和核心的競爭力。能夠「一句話的事兒」,是否還需要大家從底層編程?
精算學生規模較大的培養機構,自然需要考慮精算學生的出口問題,考慮學參加相關考試認證問題。也需要提供配套的教學和服務。例如,構建自己的精算考試系統,依託於各主流精算師協會考試內容和課程核心信息為基礎,提供試題分發、智能評閱、考生以往信息查詢等服務,為學生參加中國精算師協會、SOA、英國精算師協會、CAS等考試搭建起一個信息化的高速對接橋梁。
在實踐層面上,要實現課程的銜接,考試的配套。對外經濟貿易大學早期嘗試建設的精算師考試輔助機考系統如下圖所示:
圖7:精算師考試輔助機考系統示意圖
需要建立計算機輔助精算師考試平臺
(1)將相應的試題庫(包括往年的真題庫和自建題庫)上傳到考試平臺,建立相應的維護體系。主要包括:
①建設試卷分發系統
根據精算師行業的要求,設計相應的考試題庫,為同一考場的不同學生自動分發不同的考試內容。從而擺脫以往的一個考場一份卷子,不能全面掌握學生能力的不足現狀。能夠更為準確的了解學生學習狀況和優勢。
②建設智能評卷系統
根據學生的不同試卷,實現試卷的智能評閱,快速給出成績。此系統中包括客觀題智能判斷、主觀題智能評審和R語言設計智能評閱等。
③建設成績追溯系統
根據學生每年的考試情況,指導老師可以及時查看和追溯不同階段對於精算師課程項目的優勢與不足,從而對學生做出更有針對性的指導和教學。
(2)精算師考試輔助機考系統組成和效果:
系統組成
技術名稱
效果說明
1、系統所有文字頁面
2、靜態圖片
3、表格
HTML
出版在線的文檔,其中包含了標題、文本、表格、列表以及照片等內容。
通過超連結檢索在線的信息。
為獲取遠程服務而設計表單,可用於檢索信息、定購產品等。
在文檔中直接包含電子表格、視頻剪輯、聲音剪輯以及其他的一些應用。
1、網站動態菜單
2、VI標誌
JS、FLASH
實現在一個Web頁面中連結多個對象
與Web客戶交互作用。
從而可以開發客戶端的應用程式等。
1、輕常更新網頁數據
2、動態數據
JAVA EE
(Spring+Hibernate)
JAVA的運行速度快,而且它為使用HTML,腳本和Tomcat伺服器組件構建Web應用程式提供了一個框架.可以能過將腳本嵌入HTML頁內來創建JAVA文檔.當用戶請求得到一個JAVA時,伺服器便執行嵌入在頁內的腳本,而且將腳本的輸出作為HTML的組成部分也包括在內,從而任何瀏覽器都可以瀏覽這個頁。由於java語言的開源性,從而提供了相應的安全、未來的擴展性,可以輕鬆的存取各種資料庫,適用與各種瀏覽器
資料庫
MySQL
MySQL 資料庫(數據存儲使用加密存儲技術)
當然,執行過程也遇到很大的阻力,除了精算實踐的考核問題、題庫的tex環境問題,我們也遇到其他問題,例如,即使固定隨機種子,計算機跑出來的估計結果仍然可能出現不太一致現象。我們很難通過驗算結果來判定編程操作的重要性。純粹的機考變得不現實,還需要評閱老師人工介入。還需要更多的業界和學界朋友聯合起來,共同搭建教學環境。
謝遠濤,男,對外經濟貿易大學保險學院副院長,統計與精算學系教授、博導。畢業於中國人民大學統計學院風險管理與精算學專業,獲經濟學博士。美國Boston University聯合培養博士(國家公派),獲CAPP博士後證書。
美國風險與保險協會會員,中華預防醫學會健康保險專業委員會常委,中國工業與應用數學學會金融數學與金融工程專委會精算與保險青年委員、註冊金融風險管理師協會(ICFRM)學術委員會專家委員。
主持有國家自科基金項目、國家社科基金項目、教育部人文社科項目多項。
在IME,JCP, RCR, NAJEF等 SSCI、SCI雜誌發表論文20篇。在《統計研究》、《北京大學學報》、《北京師範大學學報》、《金融研究》等CSSCI雜誌發表論文40餘篇。