真實和完備是大數據分析的基礎

2021-01-08 中國社會科學網
真實和完備是大數據分析的基礎 專家認為,當前大數據分析仍處於「成長期」

2015年02月17日 08:27 來源:中國社會科學報 作者:張君榮

字號

內容摘要:相較以抽樣調查為主的小數據時代,在大數據時代,如何進行正確的數據清洗和數據分析,以便從海量信息源中獲取真實而有價值的信息內容,並生成指向性清晰的決策指導,成為哲學社會科學界和自然科學界共同面臨的課題。北京郵電大學網際網路治理與法律研究中心主任李欲曉更願意將大數據分析結果看作一種數據產品。數據分類:建立更多有效標籤謝耕耘認為,通過搜尋引擎的分析軟體進行數據挖掘,是當前許多民間研究機構獲取所謂「大數據」的主要途徑。喻國明認為,大數據由不同數據集構成,若想全面、立體式反映某一個體、事物、事件,其關鍵在於對不同數據集進行關聯分析,而關聯分析的前提是建立標籤。

關鍵詞:數據分析;數據來源;喻國明;標籤;軟體;網絡;抽樣調查;數據挖掘;李欲曉;政府部門

作者簡介:

   隨著大數據時代的到來,網絡數據的真實性問題日益受到關注。相較以抽樣調查為主的小數據時代,在大數據時代,如何進行正確的數據清洗和數據分析,以便從海量信息源中獲取真實而有價值的信息內容,並生成指向性清晰的決策指導,成為哲學社會科學界和自然科學界共同面臨的課題。

  數據來源:確保具備大數據品質

  在中國人民大學新聞學院教授喻國明看來,高品質數據來源是確保大數據分析真實、可靠的首要條件。「根據國內外的相關技術發展情況分析,當前比較權威、可靠的大數據來源主要有兩個,一是掌握多方面的社會運行數據的政府部門,二是在某一領域擁有數據採集能力的大型公司,如數字移動、網購、社交媒體、搜尋引擎、輸入法軟體等公司。」

  喻國明認為,大數據時代的一個重要特點,就是全方位、立體式的數據分析成為可能。「不過,單個部門或企業所掌握的大數據往往類別單一,對其的分析結論難免陷於零散、維度單一。」另外,從嚴格意義上講,大數據不是政府、企業的「私有財產」,它與社會個體的權利和隱私密切相關,應當屬於全社會。

  那麼,目前民間進行的大數據分析「靠譜」嗎?上海交通大學輿情研究實驗室主任謝耕耘介紹,如果對大數據來源進行分類,可以分為政府、大企業的定點監測,以及民間依靠軟體等技術手段的數據挖掘。對此,喻國明這樣評價:相對於政府部門與大型網絡企業的大數據採集能力,僅僅從信息海洋中簡單挖掘、撈取的部分所謂的「大數據」,遠遠不具備真正的大數據品質。

  北京郵電大學網際網路治理與法律研究中心主任李欲曉更願意將大數據分析結果看作一種數據產品。「衡量其價值,關鍵在於它是否面向特定客戶群提供了所需數據產品類型。」目前,社會各界已經意識到大數據時代的到來,許多機構和個人也在積極開發相關軟體和產品,這個過程的最大價值,便是提升了全社會的大數據處理能力。

  數據分類:建立更多有效標籤

  謝耕耘認為,通過搜尋引擎的分析軟體進行數據挖掘,是當前許多民間研究機構獲取所謂「大數據」的主要途徑。目前,付之應用的諸如「爬蟲」等大數據挖掘軟體,其作用是非常有限的——往往在只挖掘到幾千條數據時,就被相關網絡平臺為防止機器人挖掘而設置的障礙所攔截,並被要求反覆輸入驗證碼。「因此,這種依靠軟體來執行的數據挖掘方式,往往需要數十臺、上百臺伺服器,以及高容量的帶寬和大量的IP位址。」其挖掘所獲得的大數據,通常是局部的、不完整的,難以推斷整體狀況。

分享到: 0轉載請註明來源:中國社會科學網 (責編:劉淼)

相關焦點

  • 寶鋼股份:三年左右建成覆蓋多基地、架構完備的大數據中心
    澎湃新聞記者(www.thepaper.cn)從鋼鐵央企中國寶武旗下上市公司寶鋼股份(600019)獲悉,公司近日在第22屆中國國際工業博覽會上,首次向外界公布了大數據中心的建設情況。寶鋼股份於2020年啟動了智慧製造大數據中心的建設,意在謀劃新一代的信息化架構演變。
  • 數據分析最基礎的元素:數據指標
    01 什麼是數據指標數據指標是企業運營過程中,對已記錄歷史信息進行處理,轉化成為數字。根據特定商業目的:對相關數字按一定的業務邏輯,使用一定的技術手段進行加工處理後,成為描述、衡量、分析、預測業務結果的工具。這個定義是我自己的理解和經驗總結。1、數據指標核心是服務商業的。例如:讓你很清楚公司的經營狀況。
  • 學習大數據分析要什麼基礎,零基礎入門ok嗎?
    CDA數據分析師原創作品身處21世紀的今天,數據分析行業急劇發展,越來越多的企業已經意識到大數據分析的重要性和發展潛力,同時越來越多的傳統行業公司開始轉型升級,開始引入並發展專屬自己的大數據分析部門及崗位。
  • 吳軍《數學之美》:大數據的數學基礎和大數據的利弊
    在《數學之美》中,吳軍在第31章重點談到了大數據的威力和數據的重要性。從2010年開始,「大數據」頻繁亮相於各種媒體,那麼,「大數據」究竟是怎麼一回事?它是否就是大量的數據呢?它的數學基礎是什麼?它又有什麼作用和利弊呢?01什麼是數據?
  • 什麼樣的人適合學習數據分析?小白如何自學數據分析?
    主圖時下的大數據時代與人工智慧熱潮,有很多人對數據分析感興趣,卻下手無從。零基礎小白剛接觸數據分析會有這樣的疑問,沒有數學基礎,可以學習數據分析嗎?如何找到一份數據分析的實習呢?一、什麼叫做數據分析數據是21世紀最性感的行業,生活在大數據年代,需要用到數據去解決問題,並且支持決策,數據分析從廣泛上來理解,不僅包含數據分析師這個崗位,同時更多的是一種技能,無論從事什麼行業什麼崗位,都可以通過學習這種技能,來提高自己的工作效率,增強自己對於數據的洞察能力,而這個能力,無論是在工作學習還是生活中,都能起到很大的作用。
  • 尚赫:「大數據+質量管理」打造完備的品控體系
    中新網9月8日電 「這是根據我們企業自身情況開發的ERP軟體,通過信息化管理,形成內部完整的品控體系,」尚赫公司質量管理負責人在企業內部的品質管理大會中講到,「目前這個軟體還在研發升級中,完成系統的迭代之後,會形成一個以大數據分析為基礎的信息化質量管理系統。」
  • 大數據分析與數據分析的根本區別在哪裡?
    如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • 大數據開發和大數據分析有什麼不同?
    大數據分析工程師和大數據開發工程師分別能做什麼?通俗解釋開發和分析非要把他倆分開的話,一個是偏向於數據,一個偏向於工程。好比要炒個菜,工程師是燒火、墊勺的那個,偏向於工具的使用。分析師是放調理、掌握火候的那個,偏向菜怎麼做好吃。數據影響生活數據越來越多的影響並塑造著那些我們每天都要交互的系統。
  • 對比解讀五種主流大數據架構的數據分析能力 - 大數據_CIO時代網...
    隨著大數據技術的發展,數據挖掘、數據探索等專有名詞的曝光度越來越高,但是在類似於Hadoop系列的大數據分析系統大行其道之前,數據分析工作已經歷了長足的發展,尤其是以BI系統為主的數據分析,已經有了非常成熟和穩定的技術方案和生態系統,對於BI系統來說,大概的架構圖如下:
  • 大數據分析為什麼要學習R中的線性建模
    大數據分析R語言線性建模是任何對使用數據進行預測或對變量之間的關係進行推斷感興趣的人員的基礎數據技能。我將在大數據分析R語言線性建模的意義中學到什麼?R中的線性建模將教你如何通過使用模型進行預測和推理來從數據中獲取更多收益。同樣重要的是,它會教你如何在建立,評估以及在不同類型的模型之間進行選擇的經驗時,如何評估這些預測和推論的準確性。
  • 大數據分析Python NumPy庫使用教程
    我將在大數據分析Python NumPy庫使用教程中學到什麼? 大數據分析Python NumPy庫使用教程為數據工程師提供有關NumPy的從零開始的培訓。這意味著您不需要具有NumPy的任何經驗,也不會浪費任何時間學習與數據工程工作無關的東西。
  • 大數據分析學習之路
    一、大數據分析的五個基本方面 1,可視化分析大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點
  • 數據分析的作用和意義
    先說說到底什麼是數據分析?   數據分析是基於商業目的,有目的的進行收集、整理、加工和分析數據,提煉有價信息的一個過程。   數據分析,顧名思義,數據加分析。也就是說必須要以數據為先,分析為後。對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發數據資料的功能,發揮數據的作用。
  • 統計基礎概念及數據分析方法
    描述性統計:分析數據集中度和分散度推斷統計:通過樣本對整體情況作出推斷數據分析方法:聚類、回歸、分類及組件差異。描述數據的兩個關鍵點:數據的中心度,數據集中在哪個區域。常用均值,中位數和眾數來反映均值:也稱為平均數,所有數據除以數據條數,缺點,容易被極大極小值幹擾,難以反饋真實的數據情況。中位數:將數據按照大小排序處於中間位置的數字,比均值更好的反應數據的中心。眾數:數據種出現最多的數字。
  • R學習筆記系列—統計學基礎知識之數據類別
    統計學是關於數據資料的收集、整理、匯總、描述、分析,並在此基礎上進行推斷和決策的科學,因此可以說,統計學研究的對象就是各種各樣的數據。  定類數據:精度最低的數據,它將數據劃分為不區分順序的類別,這些類別必須是互斥且完備的,以保證被測量的每個事物都劃分到唯一一個類別中。定類尺度不區分數據,無法比較大小,在數學中只能用 = 或 ≠ 來運算。比如性別、班級、產品種類等等。
  • 李少春:智慧醫療,搜集數據和分析能力是基礎
    李少春認為,如今,在醫療行業所有企業都考慮到數位化已經到來了,關鍵是如何利用數位化去增加企業的敏捷性和效率,如何更好實現無接觸式的服務,如何實現更加有效的分工,如何在遠程方面保證數據安全等等。 李少春表示,隨著5G時代的到來和邊緣計算的能力提升,人工智慧和自動化的技術讓機器和人交互更加順暢,物聯網和區塊鏈讓產生的數據變得可信和可追溯,但因為醫療行業非常專業,做醫療行業的數位化,首先要有專業性醫療團隊定義數位化醫療裡面相應的規範流程,發揮醫療行業的專長。
  • 創新的接地故障大數據分析平臺,有效提高數據處理效率
    為了在實際故障數據的基礎上解決小電流接地系統接地故障檢測問題,本文根據具體需求提出了接地故障大數據分析平臺的設計方案,並針對分析平臺中故障資料庫的搭建進行了詳細地說明。故障資料庫搭建構想以湖南某地區變電站實際錄波數據進行驗證,通過制定的故障數據篩選清洗策略,提高了資料庫存儲效率,為後續故障數據分析及在線故障診斷奠定了基礎。
  • 哥德爾不完備定理
    希爾伯特不贊成布勞爾的看法,他認為若是如此數學的犧牲實在太大了, 那麼要如何使數學能立在一個堅固的基礎上呢?為此他提出所謂的「希爾伯特計劃」(Hilbert program), 即以有限性 (finitary)、組合式 (combinatorial) 的方法,由簡單的理論開始, 先證明「數論」有一致性 (consistency),即「數論」中不包含矛盾, 再以「數論」為基礎證明「分析」有一致性,再一步步往前推, 至終證明數學中不包含矛盾,
  • 尚赫:「大數據+質量管理」打造完備的...
    尚赫公司質量管理負責人在企業內部的品質管理大會中講到,「目前這個軟體還在研發升級中,完成系統的迭代之後,會形成一個以大數據分析為基礎的信息化質量管理系統。」這是尚赫公司質量管理體系「數字計劃」中的一部分,自企業2月底復工復產後,質量管理升級就是與企業生產運營並行的重要環節。
  • 中科院院士告訴你我國大數據技術的真實水平
    原標題:中科院院士告訴你我國大數據技術的真實水平 近日,國家973計劃項目首席科學家、中科院院士梅宏走進《中國經濟大講堂》,分析了當前中國大數據技術存在的差距。