乾貨 面向大數據的時空數據挖掘

2020-11-25 和訊

    本文首發於微信公眾號:數據觀。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

  第 1 部分早期的數據挖掘研究主要針對字符、數值型的商業數據,隨著

信息技術

的不斷提高以及行動裝置和網絡的廣泛使用,數據產生的速度越來越快,數據收集的頻率越來越高,數據密度的增長越來越顯著,這些因素都使得大數據問題成為一種必然的趨勢。而在大數據時代下很多商業數據都包含有時間和空間信息,比如設備,建築,機構等的管理,能量的產生,分布及預測等。

  IBM SPSS Modeler 是參照行業標準 CRISP-DM 模型設計而成的數據挖掘工具,可支持從數據到更優商業成果的整個數據挖掘過程。通過結合時空數據和其他商業數據,並且運用數據挖掘工具 IBM SPSS Modeler 對時間和空間屬性進行觀測分析,進而獲得對數據的充分理解,並將其應用於商業活動,從而改進決策過程。

  面向大數據的時空數據挖掘的重要性

  20世紀90年代中後期,數據挖掘領域的一些較成熟的技術,如關聯規則挖掘、分類、預測與聚類等被逐漸用於時間序列數據挖掘和空間結構數據挖掘,以發現與時間或空間相關的有價值的模式,並且得到了快速發展。信息網絡和手持行動裝置等的普遍應用,以及遙感衛星和地理信息系統等的顯著進步,使人們前所未有地獲取了大量的地理科學數據。這些地理科學數據通常與時間序列相互關聯,並且隱含許多不易發現的、又潛在有用的模式。從這些非線性、海量、高維和高噪聲的時空數據中提取出有價值的信息並用於商業應用,使得時空數據挖掘具有額外的特殊性和複雜性。因此,尋找有效的時空數據分析技術對於時空數據中有價值的時空模式的自動抽取與分析具有重要意義。

  近年來,時空數據已成為數據挖掘領域的研究熱點,在國內外贏得了廣泛關注。同時,時空數據挖掘也在許多領域得到應用,如交通管理、犯罪分析、疾病監控、環境監測、公共衛生與醫療健康等。時空數據挖掘作為一個新興的研究領域,正致力於開發和應用新興的計算技術來分析海量、高維的時空數據,發掘時空數據中有價值的信息。

  面向大數據的時空數據挖掘的挑戰

  儘管時空數據挖掘研究在近幾年引起了人們的廣泛關注並得到快速發展,但與傳統數據挖掘相比,時空數據挖掘研究還遠未成熟。隨著時空數據採集效率的不斷提高,時空數據積累越來越大,時空數據挖掘也面臨諸多挑戰。

  理論框架

  相較於傳統的數據挖掘技術,時空數據挖掘研究還遠未成熟。對於結構複雜且形式多樣的時空數據,如何尋找合適的數據挖掘算法或者技術,可以挖掘什麼有價值的模式,如何對這些模式進行分析?這些問題的解決都迫切需要構建一個時空數據挖掘的理論框架。清晰定義的理論框架將會給該研究領域帶來理論上的指導,一方面可更好地理解時空模式需要具備的表達能力,另一方面有助於提出更有效的實現技術。

  大數據管理

  近年來,傳感器網絡、移動網際網路、射頻識別、全球定位系統等設備的快速發展和廣泛應用,造成數據量的爆炸式增長,數據增加的速度遠遠超過現有的處理能力。雖然以 MapReduce 和 Hadoop 為代表的大規模並行計算平臺的出現,為學術界提供了一條研究大數據問題的新思路,但這些技術也有其固有的局限性。一方面,時空數據本質上是非結構化數據,不僅包含時間序列模型,還存在地圖模型,例如城市網絡、道路網絡等。基於地圖模型的算法時間複雜度通常比較大,對時空數據的存儲管理和索引技術要求比較高。另一方面,MapReduce 計算模型的組織形式和數據處理方法不適合處理時空數據模型;Hadoop 技術也無法有效支持數據挖掘中監督學習所用的迭代式計算方法,因而無法完全滿足時空數據分析的需要。這些對學術界和工業界來數都是一項巨大的挑戰。因此,為了分析處理時空大數據,迫切需要更可靠、更有效和更實用的數據管理和處理技術。

  時空數據融合

  社交網絡、遙感和傳感器等設備的普遍應用產生了海量的時空數據,且每種設備生成的數據和數據形式各不相同,形成了時空數據結構複雜且來源多樣的特性。此外,網際網路的蓬勃發展,在文字、音頻和視頻等多媒體數據中同樣包含了豐富的時空數據。例如,廣泛覆蓋城市的監控攝像頭,記錄了道路車輛的軌跡信息,從視頻中可以還原出被監控車輛的移動軌跡。所以,對時空數據進行有效整合、清洗、轉換和提取是時空數據預處理面臨的重要問題。

  時空推理和數據挖掘的深度結合

  時空數據中的時間關係和空間關係通常比較複雜,尤其很多可度量的和不可度量的時間關係和空間關係都是隱含在時空數據中,這就需要在數據挖掘系統中結合時空推理加以考慮這些複雜的時空關係。時空推理和數據挖掘的深度結合,一方面可以發掘更多時空模式及信息,增強時空模式的可理解性;另一方面可以顯著提高挖掘的效率和質量。但有利亦有弊:挖掘數據中隱含的時空關係必然會引入某種程度的不確定性和模糊性,這將很大程度上影響數據挖掘的結果。因此,結合時空推理和數據挖掘需要適當折中模型表達能力和時空推理能力。

  面向大數據的時空數據挖掘的應用

  如上所述,時空數據挖掘的應用非常廣泛,如交通運輸、地質災害監測與預防、氣象研究、競技體育、犯罪分析、公共衛生與醫療及社交網絡應用等。這裡我們簡單介紹兩個時空數據挖掘的應用案例,藉此了解一下時空數據挖掘在現實生活中的實際應用。

  案例一 - 時空數據分析預測

  第一個案例是關於亞特蘭大某地區如何根據 1997 年到 2005 年的人口普查數據從而選擇 2006 年需要新建銀行分行的地點。我們收集的數據包括:1)該地區的地理信息(地圖文件);2)該地區從 1997 年到 2005 年已有銀行分行的位置分布情況,包括每個分行的具體地址等;3)該地區從 1997 年到 2005 年的人口統計信息,包括區域 ID,人口密度,家庭收入,男女比例,人種比例等。通過時空數據預測分析,我們可以根據往年銀行分行的發展趨勢預測出該城市銀行分行在下一年即 2006 年的分布密度,同時可以根據該城市家庭收入預測出 2006 年的客戶需求,從而得出基於時空數據的銀行分行的供求關係,繼而確定需要在下一年新建銀行分行的準確地點,即選擇供不應求的地點進行銀行新建。

  案例二- 時空數據關聯規則

  第二個案例是基於一件發生在美國華盛頓州斯波坎市的一個真實的犯罪歷史的犯罪模型分析。這則犯罪事故共發生犯罪事件 816 起,犯罪類型包括吸毒(167 起),搶劫(97 起)和車輛盜竊(552 起),發生時間從 2009 年 1 月到 2010 年 3 月,涉及斯波坎市的 10 個區和 23 條主要街道。我們得到的數據包括斯波坎市的部分地圖信息,三種犯罪類型的統計信息以及該地區的人口統計信息,包括人口密度,家庭收入,男女比例,人種比例等。通過時空數據關聯規則分析,我們可以根據每種犯罪事件發生的時間和地點得出該種犯罪類型和特定時間段和地理位置的關聯關係,比如周末在公路附近多發吸毒事件等。同時我們還可以從時空數據分析中得到非時空數據的關聯關係,比如人口密度小的地區多發搶劫事件等。

  時空數據理解

  與傳統的數據挖掘一樣,不管是時空數據分類預測,時空數據關聯規則挖掘還是時空聚類,獲取足夠的時空數據並充分理解這些數據的特徵及屬性是時空數據挖掘的先決條件。時空數據,顧名思義,必然包括與時間序列相關的數據以及與空間地理位置相關的數據,另外時空數據挖掘還必須包含將要分析預測或者尋找關聯規則的事件數據,也就是在特定時間和空間下發生的具體事件。

  時間數據的理解

  時間數據是指和時間序列相關的數據,表述了目標事件隨時間的不同而發生的變化。現實中的數據常常與時間有關,按時間順序取得的一系列觀測值就被稱為時間序列數據,這類數據反映了某一事物、現象等隨時間的變化狀態或程度。如我國國內生產總值從 1949 到 2009 的變化就是時間序列數據。對時間序列數據進行更深一步的分析和處理,對人類社會、科技和經濟的發展有重大意義。目前時間序列的數據挖掘是數據挖掘的重要研究熱點之一。時間序列數據可作年度數據、季度數據、月度數據等細分,甚至以周、天、時、分、秒為周期,其中很有代表性的季度時間序列模型就是因為其數據具有四季一樣變化規律,雖然變化周期不盡相同,但是整體的變化趨勢都是按照周期變化的。

  上述案例一中,該地區從 1997 年到 2005 年已有銀行分行的位置分布情況和人口統計信息就是時間序列數據,找出該地區銀行分行從 1997 年到 2005 年之間隨時間的發展趨勢,從而預測下一年的分布情況是時空數據分析預測的重點之一。在案例二中,從 2009 年 1 月到 2010 年 3 月發生的犯罪事件也包含了時間數據,我們需要進一步分析犯罪事件發生的時間周期(以月為周期,還是以周甚至以天為周期),從而更準確地挖掘出該犯罪事件的發生和時間的關聯關係。

  空間數據的理解

  空間數據是指用來表示空間實體的地理位置和分布特徵等方面信息的數據,表述了空間實體或目標事件隨地理位置的不同而發生的變化。空間數據是數據的一種特殊類型,它是指帶有空間坐標的數據,這類數據通常是地圖文件,用點、線、面以及實體等基本空間數據結構來表示。一個地圖文件通常只包含一種類型的空間數據結構,比如面(代表國家或者地區),線(代表道路或者河流)或點(代表特定的地址)。如果想要比較複雜的地圖文件,其中包含多種空間數據結構的話,通常需要多個地圖文件迭加來獲得。除了地圖信息,空間數據還包括地圖信息的背景數據,用來描述地圖文件上的對象屬性。比如,一個地圖文件包含街道,那麼就需要相應的背景數據來描述了該街道的大小,名字或者一些分類信息(分行道,單行道,雙行道,禁止通行等)。

  上述案例一中,亞特蘭大某地區的地理信息即地圖文件就是空間數據,描述了該地區的拓撲結構,以多邊形來表示該地區的不同區域。同樣,在案例二中,斯波坎市的部分地圖信息就是空間數據,描述了斯波坎市的空間地理分布情況,用多邊形表示斯波坎市的 10 個不同地區,用線表示斯波坎市的 23 條主要街道。

  事件數據的理解

  事件數據是指事務性的數據,表述了在某個時間區間某個地理範圍之內所發生的事件。事件數據通常和時間數據相關,甚至時間數據本身同時也是事件數據,都是在某個時間序列上發生的一系列事件。不同的是,時間數據的關注點是目標事件發生的時間,或者說是時間序列數據中的時間變量,而事件數據的關注點是在某個時間序列上發生的事件。事件數據一般不會和地圖文件直接相關,而是包含坐標值來關聯事件數據和地圖文件。事件數據的每一條記錄通常都指的是某個特定的人或事,並且包括和該人或事相關的其他信息,比如該人或事的具體地理位置。

  上述案例一中,該地區從 1997 年到 2005 年已有銀行分行的位置分布情況就是事件數據,描述銀行分行的地理位置,並包含坐標值和該地區的地圖文件相關聯。在案例二中,從 2009 年 1 月到 2010 年 3 月發生的犯罪事件同時也是事件數據,描述不同的犯罪類型,吸毒、搶劫和車輛盜竊,分別發生在斯波坎市的不同區域。

  時空數據預處理

  時空數據結構複雜且來源多樣,在充分理解了時間數據,空間數據和事件數據的特徵、屬性及他們之間的關聯關係的基礎上,整合、清洗和轉換不同來源的時空數據,使得他們符合特定時空數據挖掘算法的要求,是時空數據預處理面臨的重要問題。本節我們將結合 IBM SPSS Modeler 詳細介紹時空數據預處理的方法和步驟。

  時間數據預處理

  時間序列數據結構複雜且來源多樣,如何將不同來源的時間序列數據合併並用於時空數據分析,是時空數據預處理面臨的首要問題。不同時間序列數據的時間起點及時間間隔都不盡相同,想要合併多個時間序列數據就必須要求每個時間序列數據具有相同的時間間隔,這就需要對各個時間變量的時間間隔進行構建。在 IBM SPSS Modeler 中,時間間隔的構建有兩種方法,匯總和填充。

  匯總是一個經常用於減小數據集大小的數據準備手段。執行匯總之前,應該花一些時間來清理數據,尤其要關注缺失值。一旦完成匯總,或許會丟失可能有用的缺失值信息。我們可以選擇基於指定的匯總函數來匯總時間間隔較小的數據,不同類型的數據可以用不同的匯總函數。連續性時間變量可以通過均值、合計、眾數、最小值和最大值來匯總,而離散型變量則可以通過眾數、第一個和最後一個匯總組中的非空值來匯總。

  填充是用於替換欄位值的一種方法,也可以用來將空白值或空值指定為特定值。我們也可以選擇基於指定的填充函數來替換欄位值,同樣,不同類型的數據可以用不同的填充函數。連續性時間變量可以使用"最近點的平均值",即將要創建的時間周期之前的三個最近非空值的均值來替換或者填充新的欄位值,而離散型時間變量則可以用將要創建的時間周期之前的最近非空值來替換或者填充新的欄位值。

  在將多來源的時間序列數據合併的過程中,我們需要根據指定的時間間隔來選擇匯總或者填充時間欄位。例如,如果有以周和月為單位的混合數據,則可以對周值進行匯總或"累計",以獲得均勻的月間隔。或者,也可以將間隔設置為周,並通過為所有缺失周插入空白值或使用指定的填充函數外推缺失值來填充序列。

  空間數據預處理

  我們已經知道,空間數據是數據的一種特殊類型,它是指帶有空間坐標的數據,用點、線、面以及實體等基本空間數據結構來表示。但是空間坐標有不同的表達方式,有些空間數據的坐標是多個單維坐標形式,如用三個單獨的欄位 x, y, z 分別表示三維坐標; 有些空間數據的坐標是一個多維坐標形式,如用一個列表[x, y, z]來表示三維坐標。既然涉及坐標,就必然會關係到坐標系,而不同空間數據的坐標系往往不同。另外,和時間數據一樣,空間數據來源多樣,每個空間數據的基本數據結構都不盡相同,如何關聯多種類型的數據結構同樣是空間數據預處理面臨的重要問題。

  首先來看多個單維坐標欄位和一個多維坐標欄位之間的轉換,這個過程通常比較簡單。在 IBM SPSS Modeler 中,這個過程只需要組合多個單維坐標欄位即可實現,例如,直接用組合單獨的坐標欄位 x, y, z,返回的派生欄位即為列表[x, y, z]。

  任何一個空間數據,不管是地圖,坐標還是經緯度值,都會關聯一個坐標系。坐標系定義了坐標值的原點,單位,正方向等,是坐標值的參照系。坐標系的種類很多,大體可以歸納為兩大類,地理坐標系和投影坐標系。地理坐標系,是球面坐標系統,以經緯度為地圖的存儲單位的。投影坐標系,是平面坐標系統,其地圖單位通常為米。要得到投影坐標就必須得有一個"拿來"投影的球面坐標,然後才能使用算法去投影,即每一個投影坐標系統都必須要求有地理坐標系參數。坐標轉換是空間實體的位置描述,是從一種坐標系統變換到另一種坐標系統的過程,通過建立兩個坐標系統之間一一對應關係來實現。在 IBM SPSS Modeler 中,我們可以選擇一個或者多個坐標轉換的地理欄位,指定要轉換的坐標系,從而實現多個地理欄位統一坐標系的目的。

  如上所述,一個空間數據或地圖文件通常只包含一種類型的空間數據結構,如果想要比較複雜的地圖文件,其中包含多種空間數據結構的話,通常需要多個地圖文件迭加來獲得。比如,我們有面圖表述某地區的不同區域和線圖表述該地區的河流街道,那麼如何得到不同的河流街道和各個地區之間的位置關係呢?在 IBM SPSS Modeler 中,我們可以通過位置函數來獲得不同類型的空間數據結構之間的位置關係。例如,用 close_to()來確定某條河流是否靠近某個地區,用 distance()來獲得兩個地區或者兩條街道之間的距離等。

  事件數據預處理

  事件數據是時空數據挖掘的主題,它的每一條記錄都是特定的人或事,並且包括該人或事的相關信息,特別是發生的地理位置。事件數據的預處理通常是指和時間數據或者空間數據的整合,以便獲得最終可以直接應用於時空數據挖掘算法的數據。具體內容詳見下節時空數據的融合。

  時空數據的融合及展示

  上文我們已經了解了時空數據來源多樣且結構複雜,不管是時間數據、空間數據還是事件數據都有其自身的特徵和屬性,如何融合各種數據並把結果展示出來對時空數據挖掘至關重要。

  時空數據的融合

  時空數據的融合通常是通過合併時間數據、空間數據和事件數據來完成的。數據合併的方法很多,可以按記錄順序合併,可以通過多個數據共有的關鍵字來合併,還可以根據自定義的條件進行合併。按關鍵字或者自定義條件合併又可分為內連接,全外連接,部分外連接等。

  事件數據和時間數據的融合可以通過關鍵字,譬如區域 ID 號,郵政編碼,事件發生時間等來實現。例如,在上述案例一中,我們可以設置區域 ID 號或者時間欄位為關鍵字來融合從 1997 年到 2005 年的銀行分行分布數據和人口統計數據。

  由於涉及空間地理位置,事件數據和空間數據的融合通常按照事件數據進行左外連接。在 IBM SPSS Modeler 中,這種左外連接還結合位置函數來獲得事件發生的地點和空間數據結構之間的位置關係。例如,在上述案例二中,我們要融合犯罪事件文件和斯波坎市的地圖文件,可以選擇犯罪事件為主數據對犯罪事件和地圖文件進行左外連接,用位置函數 close_to()來查找某種犯罪事件發生的地點和斯波坎市街道在某個特定範圍內的臨近關係,或者用位置函數 within()來定位某種犯罪事件是否發生在某個特定區域。

  時空數據的展示

  由於空間數據是一種特殊的數據類型,使得時空數據說起來比較抽象,本小節我們就將時空數據以圖形方式給出一個簡單的展示。

  我們已經知道,時空數據首先是基於一張地圖,包括不同的空間數據結構,比如多邊形(面),線,點等, 通常以.shp 格式存在。簡單的理解,單獨的空間數據即使一張某地區的地圖。例如,在上述案例一中的亞特蘭大某地區的地圖用 IBM SPSS Modeler 中的圖形文件如圖 1 所示,其中多邊形表示不同區域。

  圖 1:亞特蘭大某地區地圖

  如果有多個地圖文件,並且經過預處理之後,各個地圖文件有相同的坐標系,則可迭加輸入從而得到多層次的地圖文件,比如多邊形上貫穿線串表示道路,河流等。如果已經融合了事件數據,我們還可以設置不同的符號和顏色分別表示不同的事件,比如在上述案例二中,用三角形表示吸毒,用圓圈表示搶劫,用方形表示車輛盜竊,如圖 2 所示。

  圖 2:斯波坎市犯罪事件地圖

結束語

  大數據時代下,隨著數據收集效率的不斷提高和時空數據挖掘的快速發展,很多不同來源的商業數據都包含有時間和空間信息,比如設備,建築,機構等的管理,能量的產生,分布及預測等。如何結合時空數據和其他商業數據,並且通過對時間和空間屬性的觀測分析獲得決定性的認知從而優化決策就顯得至關重要。本文通過介紹面向大數據的時空數據挖掘的重要性及面臨的挑戰,詳細描述了運用數據挖掘工具 IBM SPSS Modeler 對時空數據的理解、預處理,融合及展示,為下一步進行時空數據的建模預測以及關聯規則的挖掘奠定了基礎。

  第 2 部分

  面向大數據的時空數據挖掘現狀

  隨著傳感器網絡、手持行動裝置等的普遍應用,遙感衛星和地理信息系統等的顯著進步,人們獲取了大量地理科學數據。這些數據內嵌於連續空間,並且隨時間動態變化,具有很大程度的特殊性和複雜性。實際上,很多應用領域,例如交通運輸、氣象研究、地震救援、犯罪分析、公共衛生與醫療等,在問題求解過程中需要同時考慮時間和空間兩方面因素。而隨著信息技術的發展,人們已經不滿足於單純的時空數據的存儲和展現,而是需要更先進的手段幫助理解時空數據的變化。如何從這些複雜、海量、高維、高噪聲和非線性的時空數據中挖掘出隱含的時空模式,並對這些模式進行分析從而提取出有價值的信息並用於商業活動是對時空數據挖掘及分析技術的一項極大的挑戰。

  IBM SPSS Modeler 是參照行業標準 CRISP-DM 模型設計而成的數據挖掘工具,可支持從數據到更優商業成果的整個數據挖掘過程。通過結合時空數據和其他商業數據,並且運用數據挖掘工具 IBM SPSS Modeler 對時間和空間屬性進行觀測分析,建立預測性模型,進而獲得決定性的認知,並將其應用於商業活動,從而改進決策過程。

  面向大數據的時空預測簡介

  面向大數據的時空預測主要是基於時空對象的特徵構建預測模型進而預測時空對象在未來特定時間範圍內特定空間位置下的行為或者狀態。

  時空預測的分類

  根據時空對象的不同,時空預測有不同的分類。面向時空數據的位置和軌跡預測、密度和事件預測、結合空間的時間序列預測等研究都具有重要的應用前景。

  位置和軌跡預測

  面向時空數據的位置預測主要是基於時空對象的特徵構建預測模型來預測時空對象所在的具體空間位置。對於實時物流、實時交通管理、基於位置的服務和 GPS 導航等涉及時空數據的應用而言,預測單個或者一組對象未來的位置或目的地是至關重要的,它能使系統在延誤的情況下採取必要的補救措施,避免擁堵,提高效率。

  除了位置預測之外,面向時空數據的軌跡預測可以推測移動對象的出行規律。例如,社交網絡應用藉助 GPS 設備記錄用戶軌跡數據,通過"籤到"應用(如微信、微博等)分享位置信息。分析這些共享的 GPS 軌跡數據,可以為用戶推薦感興趣的旅遊景點和遊覽次序。

  密度、事件預測

  某個區域的對象密度定義為在給定時間點該區域內對象數與該區域大小之比。這是一些對象隨時間變化而呈現出的一個全局特徵。面向時空數據的密度預測主要應用於實時交通管理,會對及時改善交通擁堵帶來很大助益。例如,交通管理系統通過密度預測可以識別出道路中的密集區域,從而幫助用戶避免陷入交通阻塞,並採取有效措施及時緩解交通擁堵。此外,面向時空數據的事件預測可以根據歷史數據(時間序列),結合地理區域密度估計(發現重要特徵和時空地點)來預測給定時間範圍和空間位置的概率密度,譬如基於過去犯罪事件發生的地點、時間和城市經濟等特徵預測給定區域和時間段內犯罪發生的概率,進而檢測犯罪發展趨勢,有效降低城市犯罪率。

  結合空間的時間序列預測

  結合空間的時間序列預測是從時間的角度來考慮時空數據。與傳統的時間序列不同的是,與空間有關的時間序列彼此不是獨立的,而是和空間相關的。例如,可以首先構造時間序列模型以獲取每個獨立空間區域的時間特性,然後構造神經網絡模型擬合隱含的空間相關性,最後基於統計回歸結合時間和空間預測獲得綜合預測。

  時空預測的理論框架

  如上所述,時空預測根據時空對象的不同有不同的分類方法,本文我們重點介紹 IBM SPSS Modeler 中對於包含時間和空間兩種屬性的數據的建模與預測。其提供了一個綜合時間和空間屬性的有效的手段,充分利用各種數據序列的特徵,將時間、空間及時空自回歸預測方法有效地結合,並在預測同時考慮了研究對象之間的空間影響關係,從而提高了預測的精確度。

  時空數據建模

  時空預測模型實質上是一個基於線性回歸的擴展模型,其原理可以用如下公式表示:

  其中, 係數β是自變量的係數,表示自變量對於目標變量的影響程度;Z作為線性擬合的殘差,是目標變量變化中用自變量線性組合無法表示的部分,可用來在自回歸(Autoregressive,AR)模型中捕捉時間自相關性,進而用於描述空間的相關性。我們可以通過圖 1 所示的流程圖來具體討論這一過程。

  圖 1. 時空數據建模流程圖

Job0:準備工作

  針對時空建模的複雜性,適當的數據驗證和缺失值篩選將有助於模型的構建。通過檢測,包含缺失值或無效值百分比較高的一些樣本位置將從分析中刪除,而缺失值或無效值百分比較低的樣本位置則被留下來,後期建模過程中將對其進行特殊編碼處理,以儘可能多保留數據信息。

  Job1:擬合線性回歸模型

  回歸模型採用標準的線性回歸模型(包括或不包括截距),但由於數據的時空相關關係,其殘差會形成一個零均值的非獨立的時空相關隨機過程。線性回歸的係數,可衡量自變量對目標變量的影響程度,較大的係數對應的自變量表明其單位變化會產生較大的目標變量變化。

  Job2:擬合時間自回歸模型

  自回歸模型使用指定的自回歸階數,即指定之前若干個時刻的值來預測當前值。自回歸的係數可用與衡量過往時刻的殘差對當前值的影響。自回歸模型同樣包含殘差,由於其中的時間自相關因素已被移除,自回歸模型的殘差在時間上是相互獨立的。

  Job3:計算時間自回歸模型殘差並建立空間協方差模型

  基於地理空間的協方差模型建立在時間自回歸模型殘差的基礎上,空間協方差模型有兩種實現方法:參數法和非參數法。參數法具有更精簡的數學表達式和更好的模型推廣能力,所以在假設所給數據能夠進行參數化建模的情況下,提供了兩個參數檢驗方法來確定模型的準確性。其一是檢測是否空間中存在隨著距離而變化的衰減,其二檢測空間方差在給定區域具有普遍性(方差同質性檢驗)。如果不滿足參數化模型的假設,將會構造非參數化的模型,利用空間殘差所形成空間關係矩陣來描述數據中的空間關係。

  Job4:修正時間自回歸模型

  空間協方差量化表達了數據的空間關係,從而可以從之前線性回歸的殘差中移除空間關係的影響,進而能夠修正時間自回歸模型,更新自回歸模型的參數,獲得更加準確的時間自回歸關係的描述。

  Job5:修正線性回歸模型

  基於準確 的空間關係和時間自相關關係的描述,可從原始的數據中去除時間和空間關係的影響,從而能夠修正線性回歸模型的參數,更加準確的描述出自變量對目標變量的影響。

  Job6:計算測定後的統計值並保存結果

  上述步驟已經完成了模型的估計過程,獲得的模型可生成目標變量的估計值,與觀測值相比較,能夠評價所建模型的質量。同時通過一些參數檢驗的方法,可以評價自變量,時間自回歸係數的重要性等一些基於模型的評價指標。

  時空數據預測

  時空數據預測是基於時空數據模型的一個假設情況分析(what-if 分析),可以預測未來一段時間在分析範圍中任何地理位置的目標值。我們可以通過圖 2 所示的流程圖來具體討論這一過程。

  圖 2. 時空數據預測流程圖 參考資源

Step1:準備時空預測輸入數據

  想要獲得未來時間的目標預測值,首先需要有和時空數據建模的輸入數據結構統一的未來時刻的自變量數據。未來時刻的自變量數據可以保持已知的最終數據不變,或者是人為修改過的用於假設分析的數據。

  Step2:構建空間協方差矩陣來捕捉預測地理位置和初始地理位置之間的空間

  相關性

  預測數據中的地理位置和初始數據中的地理位置可以不同,也可以預測數據中一些地理位置和初始地理位置相同,或者預測地理位置是初始地理位置的子集。

  Step3:對初始位置的回歸殘差進行空間插值得到預測的地理位置

  利用第 2 步構建的空間協方差矩陣對初始地理位置經過轉換後的回歸殘差進行插補,從而得到預測的地理位置。

  Step4:預測未來時間的線性回歸殘差

  預測未來時間的回歸殘差是在時間點 m+1, m+2, ... m+H 上逐步迭代進行, 其中, m 是建模的最終時間點,H 是需要預測的未來時間點的個數。

  Step5:計算未來時間點的目標值

  未來時間點的目標值需要通過回歸模型,第 4 步中計算得到的時間點 m+1, m+2, ... m+H 上的回歸殘差和在未來時間點和新的地理位置上的預測輸入數據值來計算。

  Step6:計算未來時間點目標值的置信區間

  基於高斯過程和已知模型每一部分的方差情況,可逐級推出最終預測目標值的置信區間。此步驟過於複雜,本文不作詳述。

  Step7:預測結果輸出

  最終得到的預測結果包括在未來時間指定位置的目標值,以及預測值置信區間的上下限。

  時空預測應用實例

  在充分了解時空數據建模及預測理論結構的基礎上,我們來描述該時空預測模型在 IBM SPSS Modeler 中的具體實現,並結合應用實例展示如何應用時空數據模型的假設情況分析(what-if 分析)實現對未來任何時間任何地點目標值的準確預測。

  時空預測模型描述

  在 IBM SPSS Modeler 中,時空預測模型分析使用包含位置數據、預測輸入欄位(預測變量)、時間欄位和目標欄位的數據,如圖 3 中時空預測模型欄位選項的參數所示。 時空預測模型的輸入數據必須是經過時空數據預處理,融合了時間序列和形狀數據,同時包含時間變量,空間位置變量及其他相關變量的數據。在該數據中,每個位置在數據中都有許多行,這些行表示每個預測變量在每個測量時間的值。 分析數據後,可以使用該數據來預測所使用的形狀數據(.shp 文件)內任意位置處的目標值。 並且,還可以預測何時能夠獲知未來時間點的輸入數據。

  圖 3.時空預測模型-欄位選項

  這裡,目標欄位是將要預測的目標變量。位置欄位是一個測量級別為"地理空間"的欄位,可以是點、線、多邊形(面)、多點、多線、多面等位置類型。形狀數據通常包含一個表明層特徵的名稱的欄位,例如,這可能是省/自治區/直轄市或者國家或地區的名稱。 使用此欄位可以將名稱或標籤與位置相關聯,方法是選擇一個分類欄位來標註輸出中的所選位置欄位,即位置標籤欄位。時間欄位是要在預測中使用的時間變量,只能選擇測量級別為"連續"且存儲類型為時間、日期、時間戳記或整數的欄位。預測變量是預測輸入欄位,只能選擇測量級別為"連續"的欄位。

  設置好時空預測模型所需的變量後,我們就該考慮時空預測模型的構建了。在 IBM SPSS Modeler 中,時空預測模型的構建選項還分為時間間隔、基本、高級和輸出等子項,分別實現時空數據建模中的不同功能。

  在可以構建時空預測模型之前,需要進行數據準備以便將時間欄位轉換為索引;要使得能夠進行這種轉換,時間欄位中的記錄之間必須有固定的區間。如果數據尚未包含此信息,我們就可以使用"時間間隔"子項中的選項來設置此區間,然後才能進行時空數據建模。"時間間隔"選項如圖 4 所示。

  圖 4. 時空預測模型-時間間隔選項

  根據輸入數據中時間欄位的特徵選擇或者轉換為合適的時間間隔是時空數據建模的必要條件。這裡,時間間隔可以以周期、年、季度、月、周、天、時、分、秒等一系列為單位。基於所選的時間間隔,還有一系列與之相關的選項,比如,時間間隔為年或季度時的開始月份,時間間隔為周時每周的第一天和每周的天數,時間間隔為小時時每天的小時數和一天開始的時間等。如果輸入數據已包含正確的時間間隔信息,並且不需要進行轉換,選中"數據匹配指定時間間隔設置" 複選框。 選中此框後,"匯總"區域中的設置將不可用。反之,如果輸入數據中的時間欄位需要轉換為特定區間,取消選中"數據匹配指定時間間隔設置"複選框,並指定用於匯總的欄位以便與指定區間匹配的選項。 例如,如果有以周和月為單位的混合數據,那麼可以對周值進行匯總或累計,以獲得均勻的月間隔。所用的匯總方法可以從"預設設置"下拉框中選擇並應用於未逐個指定的所有連續欄位。如果希望對於特定欄位進行定製設置,即將特定匯總函數應用於個別欄位,則在"指定欄位的定製設置"表中選擇欄位並選擇匯總方法。

  實際上,時間間隔的設置與轉換是時空數據預處理的一部分,在 IBM SPSS Modeler 中,為方便使用,內嵌於時空數據建模中。時空數據建模的構建實質是通過基本構建選項和高級構建選項來設置的,如圖 5 和圖 6 所示。

  圖 5. 時空預測模型-基本構建選項

  我們可以在基本構建選項裡主要設置最大自回歸階數和空間協方差矩陣的估計方法。自回歸階指定使用哪些先前值來預測當前值,使用"最大自回歸標誌"選項可以指定用於計算新值的先前記錄數。空間協方差的估計方法可以選擇參數或非參數,其中參數方法又可以從三種模型類型中進行選擇:高斯、指數和冪指。

  圖 6. 時空預測模型-高級構建選項

  時空數據建模的高級構建選項主要用來對模型構建過程進行微調。其中,"缺失值的最大百分比"指定模型中可以包括的包含缺失值的記錄所佔的最大百分比。"模型構建中假設測試的顯著性水平"指定用於時空數據模型估計的所有檢驗(包括兩項擬合優度檢驗、效應 F 檢驗和係數 T 檢驗)的顯著性水平值,此級別可以是 0 與 1 之間的任何值,並以 0.01 為增量變動。

  最後是時空數據模型的輸出選項,主要用於在構建模型之前,使用此頁面中的選項來選擇要包括在模型輸出查看器中的輸出,如圖 7 所示。

  圖 7.時空預測模型-輸出選項

  如圖所示,時空數據模型的輸出分為模型信息、評估、和解釋三部分。其中,模型信息包括模型規範和時間信息摘要;評估包括模型質量和均值結構模型中的效應檢驗;解釋包括平均結構模型係數、自回歸係數、測試空間衰減、參數空間協方差模型參數散點圖、相關性熱圖、相關性圖和位置聚類。所有這些圖或表均從不同角度展現時空數據模型,以不同形式向用戶詮釋時空數據模型的意義。

  時空預測應用實例

  時空預測模型有許多潛在的應用,例如緊急管理建築物或設施、對機械服務工程師進行績效分析和預測或者進行公共運輸規劃。 在這些應用中,通常要對時間和空間進行能耗等測量。 可能與記錄這些測量值相關的問題包括哪些因子影響未來的觀測值、如何實現所需的變化或者如何更好地管理系統? 為了回答這些問題,我們可以在不同位置使用能夠預測未來值的統計技術,並可以顯式地對可調因子進行建模以執行假設情況分析。

  本節我們將通過應用時空數據建模以及執行假設情況分析來實現數據中心的能量管理,避免使用過多的製冷能量把數據中心的熱量控制在可接受的標準範圍內。一個典型的數據中心,壓力通風系統(plenum)通過打孔瓦(perforated tiles)供應冷空氣,冷空氣通過通風口(inlet)冷卻伺服器溫度。而伺服器散發熱空氣並傳給空調機組(ACU),熱空氣在空調機組裡被冷卻並重新交換到壓力通風系統,依此循環。為了更好地實現數據中心的能量管理,數據中心還需部署實時熱量傳感器(thermal sensors)來監控能量使用。但是,熱量傳感器不可能存在數據中心的任何一個位置,因而需要對沒有部署熱量傳感器的位置進行預測。因此,我們將建立一個時空數據預測模型來預測整個數據中心在未來時間的溫度,並結合影響數據中心溫度的其他相關因素執行假設情況分析,從而對如何改善數據中心的能量使用效率提出建設性意見。

  數據收集和預處理

  為了進一步理解並調控數據中心的熱量管理系統,數據中心在有限的位置布置熱量傳感器,通過傳感器收集不同位置的實時溫度。另外,數據中心的熱量傳感器、空調機組和打孔瓦的物理參數,比如每個熱量傳感器的坐標位置,每個空調機組的坐標位置和長寬高(三維物體)以及打孔瓦的坐標和長寬(二維物體)等信息也會相應地影響數據中心不同位置的空氣流,如圖 8 所示。

  圖 8. 數據中心結構圖

  這些數據不能直接應用於時空數據預測建模,必須要先進行數據預處理,把溫度數據、各個物體的位置數據等進行融合,從而得到一個包含空間地理位置欄位,時間欄位,預測輸入欄位和將要預測的目標欄位的一個表格式的輸入數據。

  時空數據建模

  經過數據預處理,我們得到一個包括時空數據預測建模所需欄位的標準輸入數據。然後我們將選擇並設置時空數據預測模型的不同參數來建立時空數據預測模型。很顯然,這裡的目標欄位為數據中心的溫度,空間位置欄位為溫度被監控的位置,即熱量傳感器的坐標位置,時間欄位為溫度被監控的一系列時間點,預測數據欄位則為其他相關因素,包括數據中心的空氣流、空調機組的長寬高等,如圖 9 所示。

  圖 9. 數據預處理後的輸入數據結構

  接下來根據數據中心溫度的監控時間點來設置時間間隔選項,如果溫度是每小時收集一次,那麼時間間隔應設為小時並設置起始點;如果溫度的收集頻率是一天一次,則應設時間間隔為天。並且根據輸入數據的時間變量的特徵決定是否需要對數據進行轉換從而使得數據與指定的時間間隔設置匹配。

  然後根據需求設置最大自回歸階數指定使用哪些先前值來預測未來值,並且指定計算空間協方差的估計方法。為了最大程度的提高對時空數據預測模型的預測準確性,還可以通過設置"缺失值的最大百分比"和"模型構建中用於假設檢驗的顯著性水平" 對模型構建過程進行微調。

  最後構建時空數據模型,從而實現後續的模型輸出和假設檢驗分析。

  時空數據預測

  想要獲得對目標值的預測,即要了解下一個時間監測點或者將來某個時間點數據中心不同位置的溫度值,需要有和時空數據建模的輸入數據結構統一的預測輸入數據。其中,時間為將要預測溫度值的時間點,空間位置為將要預測溫度值的位置點,其他相關輸入變量均為每個將要預測溫度的位置的相應未來值。有了預測輸入變量,輸入時空數據模型即可得到數據中心在指定時間指定位置的溫度值,同時還可獲得該預測值的錯誤方差及預測置信度的上下限。

  時空預測結果展示

  時空數據預測模型的顯著性不僅在於它可以同時處理時間和空間兩種屬性並對未來任何時間任何地點的目標值進行預測,更在於可以通過時空預測模型進行假設檢驗分析從而改善決策。

  在上述數據中心能量管理的應用實例中,時空數據模型可以通過熱圖來可視化在指定時間指定位置的目標值,如圖 10 所示。

  圖 10. 數據中心溫度預測熱圖

  在時空預測過程中,首先假定在下一個時間監測點所有其他的參數都保持現有值,即空調機組的數目和位置,熱量傳感器的位置,空氣流等保持不變的情況下的溫度情況,得到如圖 11 熱圖所示的結果。從圖中可以看出,在現有製冷持續的情況下,部分區域會出現溫度過冷現象。基於該假設檢驗分析的結果,為了節約能量,我們可以把空調機組的製冷設置溫度升高 1 度,從而得到如圖 12 所示的熱圖。從圖中可以看出,保持現有設置不變情況下的過冷現象得到明顯改善。

  圖 11. 保持現有設置不變的溫度熱圖

圖 12. 採取措施後的溫度熱圖

結束語

  時空數據挖掘是數據挖掘中的重要研究內容,其中時空預測的應用領域最為廣泛。隨著信息技術的發展,人們已經不滿足於單純的空間數據的存儲和展現,而是需要更先進的手段幫助理解空間數據的變化,發現空間數據之間的動態關係。實際上, 很多空間現象是隨時間動態變化的,在問題求解過程中需要同時考慮時間和空間兩方面因素。本文主要圍繞時空數據挖掘的發展現狀及時空預測的分類,重點介紹基於時間和空間兩種屬性的時空綜合預測方法,具體描述了該方法在 IBM SPSS Modeler 中的實現,並結合應用實例詳細說明如何應用時空數據建模及預測實現準確而有效的時空預測。

  參考資源

  · 參考期刊《計算機研究與發展》論文2013-時空數據挖掘研究進展,了解時空數據挖掘的研究進展。

  · 參考南京師大學報(自然科學版)文獻面向大數據的時空數據挖掘綜述,了解面向大數據的時空數據挖掘的應用與挑戰。

  · 查看 developerWorks 上的 IBM 大數據專題,了解更多關於 IBM Big Data 相關知識。

  註:數據觀微信公眾號(ID:cbdioreview) ,欲了解更多大數據行業相關資訊,可搜索數據觀(中國大數據產業觀察網www.cbdio.com)進入查看。

    文章來源:微信公眾號數據觀

(責任編輯:羅浩 HN066)

相關焦點

  • 大數據_數據挖掘技術分類及應用
    大數據簡介   大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。研究機構Gartner給出了這樣的定義。
  • 百度地圖時空大數據再獲認可!
    此次中標,標誌著百度地圖慧眼在國土空間規劃領域的探索取得了新突破,雙方將在慧眼時空大數據與傳統數據相結合的基礎上深度開展人口研究,共同探討優化人口數據挖掘效率的思路與技術方法。此次成都市規劃設計研究院與百度地圖牽手合作,將依託百度地圖時空大數據,突破傳統普查途徑存在的數據屬性維度少、數據統計不全面、空間解析度低的局限。百度地圖慧眼將為成都市規劃設計研究院提供覆蓋常住人口、實際管理服務人口、人口數量、人口結構等時空大數據,輔助其探索人口變化規律和人地關係,提升國土空間規劃人口專題研究的效率和科學性。
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 【乾貨】數據挖掘中算法學習的2條進擊路線
    這說明你尚不具備深入開展數據挖掘算法學習的能力。你會發現到處都是門檻,很難繼續進行下去。但是它對數據有諸多要求,例如特徵之間不能有多重共線性。嶺回歸和LASSO是對這些問題的修正。當沿著第一條路線學完的時候,其實你已經攻克機器學習的半壁江山了!
  • 大數據中數據挖掘的基本步驟
    導讀 數據挖掘基本步驟,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
  • 百度智能雲時空數據管理平臺亮相 打造一體化數據中臺
    產品架構圖  隨著5G時代的到來,物聯網技術極大地促進了智慧城市的建設與發展,伴隨而來的實時物聯數據的爆發增長以及地理空間的二維表達向三維精細化的展示轉化,BIM、CIM的發展與建設要求帶來了對空間數據顆粒度的提升以及覆蓋範圍的擴大,對海量、多源、異構的時空數據進行高效的管理、分析和挖掘成為了智慧城市的痛點問題。
  • 2020城市規劃信息化年會|百度地圖時空大數據在國土空間規劃中的...
    首先,基於自然資源和人類活動數據對各類自然資源的承載力和適應性進行評價,隨後在評價的基礎上開展生態、農業、城鎮三類空間的保護線劃定和空間規劃。其中,時空大數據及所反映的社會經濟規律可以發揮巨大的價值。地圖時空大數據的優勢,覆蓋廣、精度高,覆蓋全國各級行政規劃。基於高精度的定位可以測算寫字樓的工作人口,公園等公共服務設施的使用情況;數據類型全面,百度地圖時空大數據全域全要素覆蓋,有人、地、路、事件等全路型大時空數據,全面支撐國土空間人地關係刻畫;數據挖掘算法先進,綜合多維度全方位特徵要素挖掘人口、人地關係屬性,同時聯合高校、規劃院持續的完善優化算法。
  • 數據挖掘(DataMining)概述
    1.數據挖掘的定義數據挖掘:指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘在面向用戶的網際網路產品中發揮著及其重要的作用。2 數據挖掘的對象常見的數據挖掘對象有以下7大類關係型資料庫(MySQL)、非關係係數據庫(NoSQL);數據倉庫/多維度資料庫(HDFS/Hive);空間數據(如地圖信息)
  • 【大數據】最新大數據學習路線(完整詳細版】
    非常適合用來做大數據的實時查詢。Facebook用Hbase存儲消息數據並進行消息實時的分析ZooKeeper:針對大型分布式的可靠性協調系統。Hadoop的分布式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。Sqoop:資料庫相互轉移,關係型資料庫和HDFS相互轉移Mahout:可擴展的機器學習和數據挖掘庫。
  • 一篇文章讓你知道什麼是大數據挖掘技術
    大數據如果想要產生價值,對它的處理過程無疑是非常重要的,其中大數據分析和大數據挖掘就是最重要的兩部分。  什麼是大數據挖掘?  數據挖掘對象  根據信息存儲格式,用於挖掘的對象有關係資料庫、面向對象資料庫、數據倉庫、文本數據源、多媒體資料庫、空間資料庫、時態資料庫、異質資料庫以及Internet等。  數據挖掘流程  定義問題:清晰地定義出業務問題,確定數據挖掘的目的。
  • 看見數據的力量 | 大華多維大數據帶「感」而生
    多維大數據實現面向多維感知數據的價值計算,洞察時空數據價值形成數據標籤,並進一步將時空數據、感知數據和業務數據進行融合挖掘,實現數據價值最大化。   多維大數據帶「感」而生,   全面激活感知脈搏   多維大數據實現面向多維感知數據的價值計算,洞察時空數據價值形成數據標籤,並進一步將時空數據、感知數據和業務數據進行融合挖掘,實現數據價值最大化。
  • 山東首個縣級時空大數據與雲平臺建成
    日前,山東省首個縣級時空大數據與雲平臺建設試點項目——智慧新泰時空大數據與雲平臺建設試點項目通過驗收。該試點項目由自然資源部、山東省自然資源廳和新泰市政府共同建設,2018年5月開始實施。該項目整合了全市域多類時空數據、公共專題數據,研製了時空大數據的快速計算和分析方法,搭建了時空信息在線服務超市,面向自然資源管理和各部門需求,開發了9項業務系統;具備專題信息加載、查詢統計、空間分析、可視輸出等服務功能,以及二次開發接口和大數據分析工具。專家認為,這個試點項目可為縣級時空大數據平臺建設提供可借鑑經驗。
  • 「oncomine」——如何在大數據時代挖掘腫瘤數據
  • 時空三極環境大數據平臺研究獲進展
    地球大數據正成為繼經驗、理論和計算範式之後數據密集型科學範式的代表,成為驅動地球科學創新發展和地球科學發現的新引擎。集成三極多要素數據、三極多圈層模型和大數據分析方法,構建三極大數據共享與服務平臺,開展三極生態環境演變及其對社會經濟的影響研究,對提升三極地球系統的研究深度、綜合科學認知水平及我國倡導的「極地治理」,具有重要意義。
  • 數據挖掘與統計分析的區別
    多元統計老師說:「數據挖掘是以統計分析為基礎的,多數在採用統計分析的方法」。我有不同的觀點,就寫點東西出來,大家可以自己評述。
  • 數據挖掘的知識類型
    結果描述也可以用泛化關係或規則(稱作特徵性規則)形式提供例如:利用面向屬性的歸納方法(AOI),在一個商場資料庫(2000銷售)中進行屬性歸納操作,獲得了如下的歸納結果:表2-1   AOI方法挖掘結果表格表示示意描述
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 清華機器學習科學家李建:如何用深度學習來解析時空大數據?
    以下為李建在論壇的分享實錄,雷鋒網做了不改動原意的編輯整理:什麼是時空大數據時空大數據,顧名思義,有時間的屬性和空間的屬性兩個維度。比如說,GPS數據,首先有定位點,定位點就是空間的屬性,進入的時間就是時間的屬性。還有網約車的訂單數據,發的這個訂單數據就有當時的時間和空間,也是時空大數據典型的例子。
  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    由於不同領域在數據特點、領域需求上具有較大差別,面向領域的大數據知識圖譜仍面臨諸多問題及挑戰。闡述科技大數據知識圖譜構建過程中涉及的科技實體抽取、科技實體消歧、科技關係抽取、科技關係推斷等問題。對科技實體推薦、科技社區發現、科技實體評價、學科交叉以及學科演化等科技大數據知識圖譜分析挖掘方法進行系統梳理, 並給出科技大數據知識圖譜未來的研究及應用方向。 周園春, 王衛軍, 喬子越, 等. 科技大數據知識圖譜構建方法及應用研究綜述.
  • 從公安大數據業務切入,挖掘更多數據價值:明略數據完成 2 億元 B...
    大數據概念在國內炒的過熱,落地大數據應用的產品並不多。原因一方面在於底層數據的非結構化存儲,數據挖掘技術難度大;另一方面在於數據挖掘多樣化模型建立的技術難度。從it時代到DT時代,大家都在談大數據概念而無法落地,而一旦系統應用到具體場景,完成大量非結構化的數據存儲和挖掘的工作,大數據領域可能是座金礦。