隨著大數據時代的到來,數據挖掘算法被廣泛使用,其優勢可概括為:識別數據中的隱藏模式;捕獲複雜的非線性關係;自動學習模型;無需定義完整的輸入和輸出變量之間基於物理的數學關係。在勘探地球物理學中,巖石物理響應多解性使地球物理數據與地質分類間存在複雜的非線性關係。例如,深層碳酸鹽巖縫洞型儲層由於巖性多變、易發生的成巖作用和隨機裂縫,導致存在較強非均質性。此時,單一屬性的地球物理數據難以準確識別儲層,需通過結合地質-地球物理的手段進行研究,機器學習方法是處理複雜數據問題的工具,有利於解決該類問題。然而,巖性識別是一個多元分類問題,現在的算法大多針對二元分類問題而開發,且每種算法存在固有局限性,因此,將多元分類轉化為二元分類並非易事。
針對上述問題,中國科學院地質與地球物理研究所碩士研究生鄭文浩及其導師、高級工程師田飛和研究員底青雲等以塔河油田為例,利用深層碳酸鹽巖縫洞型儲層的常規測井信息,結合巖心和電成像測井(FMI)資料,應用主成分分析(PCA)、K-means、線性判別分析(LDA)3種算法進行測井相綜合預測。
具體方法是:(1)數據預處理,採用箱形圖去除異常數據及深度不匹配的數據,進行Z-score標準化處理;(2)通過PCA對測井參數降維,將7維數據轉化成2個互相獨立的變量,簡化數據結構。然而,一次PCA處理後,各種測井相數據點之間仍存在較多重疊。為進一步簡化數據結構,研究人員將洞穴數據點和非洞穴數據點做二次PCA處理;(3)對得到的數據集進行K-means聚類,根據測井相的種類及複雜程度選擇合適的k值,並以巖心約束下的FMI圖像,確定測井相的標籤,實現結合地球物理數據的半定量解釋與地質信息的定性解釋,從而建立測井相-巖相資料庫,在測井相-巖相圖版標定每個測井相的區域範圍;(4)為實現測井相的自動化定量預測,使用LDA算法獲得6種測井相的判別函數,將某一深度點測量的測井信息代入上述判別函數,函數值最大者作為該點的測井相類型歸屬。該測井相預測模型的正確率達到92%,並且能夠快速獲得測井相預測結果,有利於提高勘探效率、節約勘探成本。
該研究的底層邏輯是運用地質信息約束多屬性的地球物理響應,並通過機器學習算法對多參數的地球物理數據進行數據挖掘,以實現利用地球物理數據自動預測地質信息的效果。目前,研究人員正在探索一條結合地質-地球物理-數據分析的綜合解決方案。相關研究成果以Electrofacies classification of deeply buried carbonate strata using machine learning methods: A case study on ordovician paleokarst reservoirs in Tarim Basin為題,發表在Marine and Petroleum Geology(MPG)上。