民航資源網2019年9月16日消息:QAR數據分析指的是用適當的統計分析方法對收集來的QAR數據進行分析,提取有用信息和形成結論而對QAR數據加以詳細研究和概括總結的過程。目前航空公司在QAR數據分析與應用上主要有兩類問題。
一是典型超限事件的數據分析不夠深入。多數航空公司對超限事件的數據分析雖然能通過數據復原和仿真,完整還原當時的情景,對識別和監控飛行中的典型事件、信息報告的核實及不安全事件調查等起到了積極作用,但還僅停留在單一典型事件本身,沒有對單一事件或同類事件背後的隱藏的危險源進行探究。此外,對超限事件分析缺少對機隊趨勢性風險的識別和研判,也缺乏對超限事件控制措施的落實情況的驗證和反饋。
二是基於正常QAR參數的統計和分析不足。大多數航空公司缺乏一個較為成熟的能提供正常QAR參數的統計分析平臺,許多成熟的數據挖掘方法無法或沒有在現有QAR數據應用基礎上使用。
要解決上述兩類問題,就需要在QAR數據分析中引入「大數據」的概念。
大數據泛指巨量的數據集,一般大數據有四個特點,即「4V」:Volume(規模性)、Velocity(高速性)、Variety(多樣性)、Value(價值性)。從特徵上來說,QAR數據就是一種大數據。顧名思義,大數據分析是指對規模巨大的數據進行分析。大數據分析是大數據到信息,再到知識的關鍵步驟。
飛行品質監控發展到一定階段,會出現下列2個特點,此時通過QAR大數據的應用,就可以持續有效地提高機隊的飛行品質:
一是飛行超限事件逐漸減少,甚至不發生。此時可開展基於正常QAR參數的大數據統計分析工作,例如分析大量QAR參數間的相關性、統計校驗QAR數據分析假設等,找尋數據背後隱藏的規律。
二是飛行操縱品質趨向於統一,QAR數據出現聚集現象。此時可開展基於正常QAR參數的數據挖掘和機隊運行監控,或通過對機場、航線、環境、機組操縱情況等正常QAR參數的分析開展針對性風險管控,進一步提升飛行安全。
開展基於正常QAR參數的大數據分析,首先要做的是QAR原始數據的批量提取、自動解碼、參數配置、參數歸一化等一系列工作。其次需要將正常QAR參數與人員信息、機場信息、航線信息、航班信息、飛機信息等外部數據源進行匹配,為下一步的大數據統計分析做準備。此部分工作需要藉助大數據分析平臺,如GEEMS、AIRFASE、MATLAB、各公司自己開發的數據分析平臺等來完成。
一般來說,基於正常QAR參數的大數據分析過程大致分為以下6個步驟:
1.業務理解
最初的階段集中在理解項目目標和從業務的角度理解需求,同時將業務目標轉化為數據分析問題的定義和實現目標的初步計劃上。
2.數據理解
數據理解階段從初始的QAR數據收集開始,目的是熟悉數據、識別數據的質量問題,發現QAR數據的內部屬性,或是探測引起興趣的參數去形成部分假設。
3.數據準備
數據準備階段是構造QAR大資料庫的過程。這些數據將是模型工具的輸入值。這個階段的任務可能需要持續進行,包括數據表、數據記錄和底層數據屬性的構建,以及為模型工具轉換和清洗數據等。
4.建模
在這個階段,可以選擇和應用不同的模型技術,模型參數被調整到最佳的數值。有些模型可以解決一類相同的數據分析問題;有些模型在數據形成上有特殊要求,因此需要經常跳回到數據準備階段。
5.評估
在這個階段,已經從數據分析的角度建立了一個高質量顯示的模型。在最後部署模型之前,重要的事情是徹底地評估模型,檢查構造模型的步驟,確保模型可以完成預定目標。這個階段的關鍵目的是確定是否有重要的業務問題沒有被充分考慮。在這個階段結束後,一般需要達成一個數據分析結果使用的決定。
6.部署
通常,模型的創建不是項目的結束。模型的作用是從數據中找到知識,獲得的知識需要以便於用戶使用的方式重新組織和展現。根據需求,這個階段可以產生簡單的報告,或是實現一個比較複雜的、可重複的數據分析過程,如形成實時的監控模型等。
基於正常QAR參數的大數據分析不是簡單的數據分析的延伸。QAR數據規模大、更新速度快、來源多樣等性質為大數據分析帶來了以下4種挑戰。
1.可擴展性
由於大數據的特點之一是「規模大」,利用大規模數據可以發現諸多新知識,因此QAR大數據分析需要考慮的首要任務之一就是使得分析算法能夠支持大規模數據,在大規模數據上能夠在應用所要求的時間約束內得到結果。
2.可用性
QAR大數據分析的結果應用到實際中的前提是分析結果的可用,這裡的「可用」有兩個方面的含義:一方面,需要結果具有高質量,如結果完整、符合客觀事實等;另一方面,需要結果的形式適用於實際的應用。對結果可用性的要求為大數據分析算法帶來了挑戰,高質量的分析結果需要高質量的數據;對結果形式的高可用性需要高可用分析模型的設計。
3.與飛行相關知識的結合
QAR大數據分析的過程需要和飛行相關知識緊密結合,這為QAR大數據分析方法的設計帶來了挑戰:一方面,飛行相關知識具有的多樣性導致相應的大數據分析方法需要具有多樣性;另一方面,對分析人員的飛行相關知識有較高要求。
4.結果的檢驗
飛行無小事,QAR大數據分析的應用必須要有高可靠性的分析結果,否則將會帶來災難性的後果。因此,QAR大數據分析結果需要經過一定的檢驗才可以真正應用。
總體來說,QAR大數據分析與應用可從數據統計分析、數據挖掘、機隊監控及風險管理四個方向開展工作。因篇幅原因,本文僅做簡要闡述。
一、基於QAR大數據的統計分析
基於QAR大數據的統計分析是指用適當的統計分析方法對收集來的大量QAR數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。典型的QAR大數據統計分析包括以下4類:
1.對比分析
對比分析是指通過實際數和設定基數之間的差異,來了解單一參數或多個參數之間的關係,包括差異分析、方差分析、距離分析、聚類分析、判別分析等。
例如,我們可對比飛行員在同一飛機不同航段的著陸操縱杆量變化與機隊平均值之間的差異,通過靜態對比和動態對比等方式,找出影響其操縱杆量的因素。
2.相關分析
相關分析是研究兩個或兩個以上的變量之間的相關關係的統計分析方法。它是描述客觀事物相互間關係的密切程度並用適當的統計指標表示出來的過程,包括偏相關分析、因子分析、對應分析、多元對應分析、主成分分析等。一般來說,相關分析是對數據中具有一定因果關係的變量進行的分析。
例如,我們可以研究接地垂直過載大事件與飛行員著陸操縱杆量、飛機下降率、姿態、油門等參數及其變化率之間的相關關係。
3.回歸分析
回歸分析是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,包括簡單回歸、多元回歸、逐步回歸、曲線回歸、嶺回歸、邏輯回歸、回歸預測和殘差分析等等,實際應用十分廣泛。與相關分析相比,回歸分析側重於研究隨機變量間的依賴關係,以便用一個變量去預測另一個變量,而相關分析側重於發現隨機變量間的相關特性。
例如,我們可以研究不同天氣條件下,不同進近程序、不同自動駕駛模型或不同高度斷開自動駕駛等變量與機組操縱落地的質量之間的關係。
4.統計檢驗
統計檢驗是根據抽樣結果,在一定可靠性程度上對一個或多個總體分布的原假設結論進行檢驗的分析方法。檢驗結果常取決於樣本統計量的數值與所假設的總體參數是否有顯著差異。統計檢驗包括假設檢驗、顯著性檢驗、卡方檢驗、T檢驗等。
例如,我們一般會將襟翼超速事件歸咎於外界的風向風速變化。如果想探究機組的操縱和襟翼超速事件存在什麼關係,我們可以假設機組放襟翼30的離地高度和進近最大空速間存在負相關關係,或機組放襟翼15與放襟翼30之間的間隔時間和進近最大空速間存在正相關關係。然後通過具有概率性質的反證法來對假設進行檢驗,最終得出統計檢驗結果。值得注意的是,假設只能被檢驗,而不能被證明。統計檢驗可以幫助我們否定一個假設,但不能幫助我們肯定一個假設。
二、基於QAR大數據的數據挖掘
數據挖掘是利用機器學習算法等手段來從大量數據中尋找其隱藏規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。數據準備是從相關的數據源中選取所需的數據並整合成用於數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是儘可能以用戶可理解的方式如可視化等將找出的規律表示出來。典型的數據挖掘模型包括以下3種:
1.關聯分析模型
關聯分析模型用於挖掘多個變量之間的關聯。如果兩個或多個變量之間存在一定的關聯,那麼其中一個變量的狀態就能通過其他變量進行預測。關聯分析模型可以用於發現存在於大量QAR數據集中的關聯性或相關性,從而描述了某些QAR參數同時出現的規律和模式。
例如,我們可以分析飛行員的自動駕駛使用習慣。通過了解哪些自動駕駛模式頻繁地被飛行員同時使用,來幫助管理者制定管理策略,例如更改標準操作程序、設計新的訓練大綱或制定針對飛行員個體的特色訓練項目等等。
2.分類分析模型
分類分析模型可分為判別分析和機器學習分類。判別分析是在已知參數用某種方法已經分成若干類的情況下,確定新的參數屬於哪一類的多元統計分析方法,包括距離判別法、Fisher判別法、貝葉斯判別法等。機器學習分類則是通過一定的算法實現機器自動分類,包括支持向量機、邏輯回歸、決策樹與回歸樹等等。
例如,我們可以根據一定的邏輯設定飛行員著陸操縱的幾類手法,然後通過分類分析模型來將所有飛行員區分開來。然後根據飛行員著陸操縱的不同手法制定有針對性的訓練或安全管理措施。
3.聚類分析模型
聚類分析模型可將物理參數或抽象參數的集合分組成由類似的對象組成的多個類,包括K均值聚類、系統聚類、最優分割、模糊聚類等。聚類與分類的不同在於,聚類所要求劃分的類是未知的。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,我們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。根據聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。
例如,我們可將同一條跑道的進近數據(包括高度、空速、下降率、N1等飛行參數)進行聚類分析,根據機器的分類結果,再來對分類後的進近數據進行類間對比,探究分類之間的關係,找尋分類結果的內在規律,再進行進一步研究。
三、基於QAR大數據的機隊監控
基於QAR大數據的機隊監控是指根據分析人員設置的監控模型,建立若干套對應表徵某一類型事件發生頻次、比例或風險的事件邏輯,對每個航班進行風險值評定,最終形成對機隊整體運行情況的實時監控和風險預警的常態化。
機隊監控模型中事件本身的觸發不代表一定會對安全飛行有直接影響,但可以用於探究某一類型事件發生的風險或頻次,從而幫助尋找降低這一類型事件風險的途徑。對於風險事件的探究可以基於實時的統計數值,也可通過單一事件分析來深入探究具體航班的數據。
機隊監控模型的建設從某種程度上來說依賴於前期大數據統計分析和數據挖掘工作的開展情況。只有當大數據統計分析和數據挖掘工作取得一定的進展,才能構建足以支撐起某類模型的結構框架或權重設置。總體來說,機隊監控模型作為大數據分析的進階階段,體現了大數據的實時性,是大數據分析的實際應用階段。
典型的機隊監控模型包括SOP執行力模型、可控飛行撞地模型、衝偏出跑道模型、空中失控模型、不穩定進近模型等,主要涉及機隊運行的核心風險及標準操作程序的執行情況監控,此處不再詳細展開。
四、基於QAR大數據的風險管理
基於QAR大數據的風險管理是指充分利用大數據的四個特性,全面提升風險管理事前防範、事中控制、事後治理的防控效果,並促進QAR數據分析與應用由結果導向的管理向過程導向的管理轉變的應用過程。常用的風險管理模型包括REASON模型、SHELL模型、TEM模型和BOW-TIE模型等。一般來說,基於QAR大數據的風險管理包括危險源識別、基於大數據的風險分析和挖掘、制定風險管控措施、驗證措施落實情況等幾個步驟。
例如短期內發生多起襟翼超速事件,可以根據SHELL模型的「人、機、軟、硬、環」五種維度開展風險管理工作,判斷或識別出與襟翼超速可能相關的因素,並不斷重複和深入此過程,直到找出此類事件的規律和可實施、有效果的控制措施,舉例如下:
1.危險源識別
將襟翼超速事件的所有信息,包括QAR、三維、機組操縱情況、機組信息、飛機信息等進行全面收集並規範保存;通過數據透視、數據相關度分析等方式,初步判斷相關關係較為明顯的維度,假設發現襟翼超速事件多與環境因素有關。
2.基於大數據的風險分析和挖掘
對環境因素進行詳細項目拆分再進行對比,假設發現襟翼超速事件多發生在進近階段風向存在順風轉頂風的條件下;
將此類航班(進近階段風向存在順風轉頂風)通過大數據平臺設置相應的測量值和參數,完善邏輯、測試數據準確性,並在歷史資料庫進行運算,並統計這些航班進近階段最大空速與所設置襟翼的標牌速度之間的關係與其他正常航班有何區別。假設發現這些航班進近最大空速更接近或超過標牌速度;
將上述進近最大空速更接近或超過標牌速度的航班篩選出來,對飛機狀態的變化、機組的操縱情況、飛行程序的執行情況等進行分解,再與相應的手冊或標準程序進行對比,找出事件與人的因素的相關性。假設發現這些航班中機組普遍存在風修正偏大5-10節的情況;
綜上分析過程,統計歷史上所有進近階段風向存在順風轉頂風的情況下,機組風修正偏大5-10節的航班與空速接近襟翼標牌速度10節以內的相關度。假設統計結果發現相關度為0.75,為強正相關關係。
3.制定風險管控措施
根據分析結果,制定相應的控制措施,如修改標準操作程序中關於風修正的標準,或篩選出普遍存在風修正偏大5-10節的人員,並通過模擬機訓練或其他形式,糾正相關機組的行為。
4.驗證措施落實情況
對控制措施制定後的航班數據進行核實和趨勢監控,即驗證控制措施是否有效。若措施無效,則重複1-3環節的步驟。
結語
當今社會,網際網路尤其是移動網際網路的發展,顯著地加快了信息化向社會經濟以及大眾生活等方面的滲透,促進了大數據時代的到來。航空公司只有主動擁抱「大數據」,才能在提高飛行品質,進而提高飛行安全的道路上不斷前進。一句話,大數據,大有可為。
4薦聞榜
( )