大數據研究常用軟體工具與應用場景 - 大數據_CIO時代網 - CIO時代...

2020-12-15 CIO時代網

  如今,大數據日益成為研究行業的重要研究目標。面對其高數據量、多維度與異構化的特點,以及分析方法思路的擴展,傳統統計工具已經難以應對。

  工欲善其事,必先利其器。眾多新的軟體分析工具作為深入大數據洞察研究的重要助力, 也成為數據科學家所必須掌握的知識技能。

  然而,現實情況的複雜性決定了並不存在解決一切問題的終極工具。實際研究過程中,需要根據實際情況靈活選擇最合適的工具(甚至多種工具組合使用),才能更好的完成研究探索。

  為此,本文針對研究人員(非技術人員)的實際情況,介紹當前大數據研究涉及的一些主要工具軟體(因為相關軟體眾多,只介紹常用的),並進一步闡述其應用特點和適合的場景,以便於研究人員能有的放矢的學習和使用。

  【基礎篇】  1、傳統分析/商業統計

  Excel、SPSS、SAS 這三者對於研究人員而言並不陌生。

  Excel作為電子表格軟體,適合簡單統計(分組/求和等)需求,由於其方便好用,功能也能滿足很多場景需要,所以實際成為研究人員最常用的軟體工具。其缺點在於功能單一,且可處理數據規模小(這一點讓很多研究人員尤為頭疼)。這兩年Excel在大數據方面(如地理可視化和網絡關係分析)上也作出了一些增強,但應用能力有限。

  SPSS(SPSS Statistics)和SAS作為商業統計軟體,提供研究常用的經典統計分析(如回歸、方差、因子、多變量分析等)處理。

  SPSS輕量、易於使用,但功能相對較少,適合常規基本統計分析

  SAS功能豐富而強大(包括繪圖能力),且支持編程擴展其分析能力,適合複雜與高要求的統計性分析。

  上述三個軟體在面對大數據環境出現了各種不適,具體不再贅述。但這並不代表其沒有使用價值。如果使用傳統研究方法論分析大數據時,海量原始數據資源經過前期處理(如降維和統計匯總等)得到的中間研究結果,就很適合使用它們進行進一步研究。

  2、數據挖掘

  數據挖掘作為大數據應用的重要領域,在傳統統計分析基礎上,更強調提供機器學習的方法,關注高維空間下複雜數據關聯關係和推演能力。代表是SPSS Modeler(注意不是SPSS Statistics,其前身為Clementine)

  SPSS Modeler的統計功能相對有限, 主要是提供面向商業挖掘的機器學習算法(決策樹、神經元網絡、分類、聚類和預測等)的實現。同時,其數據預處理和結果輔助分析方面也相當方便,這一點尤其適合商業環境下的快速挖掘。不過就處理能力而言,實際感覺難以應對億級以上的數據規模。

  另一個商業軟體 Matlab也能提供大量數據挖掘的算法,但其特性更關注科學與工程計算領域。而著名的開源數據挖掘軟體Weka,功能較少,且數據預處理和結果分析也比較麻煩,更適合學術界或有數據預處理能力的使用者。

  【中級篇】  1、通用大數據可視化分析

  近兩年來出現了許多面向大數據、具備可視化能力的分析工具,在商業研究領域,TableAU無疑是卓越代表。

  TableAU的優勢主要在於支持多種大數據源/格式,眾多的可視化圖表類型,加上拖拽式的使用方式,上手快,非常適合研究員使用,能夠涵蓋大部分分析研究的場景。不過要注意,其並不能提供經典統計和機器學習算法支持, 因此其可以替代Excel, 但不能代替統計和數據挖掘軟體。另外,就實際處理速度而言,感覺面對較大數據(實例超過3000萬記錄)時,並沒有官方介紹的那麼迅速。 

 2 、關係分析

  關係分析是大數據環境下的一個新的分析熱點(比如信息傳播圖、社交關係網等),其本質計算的是點之間的關聯關係。相關工具中,適合數據研究人員的是一些可視化的輕量桌面型工具,最常用的是Gephi。

  Gephi是免費軟體,擅長解決圖網絡分析的很多需求,其插件眾多,功能強且易用。我們經常看到的各種社交關係/傳播譜圖, 很多都是基於其力導向圖(Force directed graph)功能生成。但由於其由java編寫,限制了處理性能(感覺處理超過10萬節點/邊時常陷入假死),如分析百萬級節點(如微博熱點傳播路徑)關係時,需先做平滑和剪枝處理。 而要處理更大規模(如億級以上)的關係網絡(如社交網絡關係)數據,則需要專門的圖關係資料庫(如GraphLab/GraphX)來支撐了,其技術要求較高,此處不再介紹。

  3、時空數據分析

  當前很多軟體(包括TableAU)都提供了時空數據的可視化分析功能。但就使用感受來看,其大都只適合較小規模(萬級)的可視化展示分析,很少支持不同粒度的快速聚合探索。

  如果要分析千萬級以上的時空數據,比如新浪微博上億用戶發文的時間與地理分布(從省到街道多級粒度的探索)時,推薦使用 NanoCubes(http://www.nanocubes.net/)。該開源軟體可在日常的辦公電腦上提供對億級時空數據的快速展示和多級實時鑽取探索分析。下圖是對芝加哥犯罪時間地點的分析,網站有更多的實時分析的演示例子

  4、文本/非結構化分析

  基於自然語言處理(NLP)的文本分析,在非結構化內容(如網際網路/社交媒體/電商評論)大數據的分析方面(甚至調研開放題結果分析)有重要用途。其應用處理涉及分詞、特徵抽取、情感分析、多主題模型等眾多內容。

  由於實現難度與領域差異,當前市面上只有一些開源函數包或者雲API(如BosonNLP)提供一些基礎處理功能,尚未看到適合商業研究分析中文文本的集成化工具軟體(如果有誰知道煩請通知我)。在這種情況下,各商業公司(如HCR)主要依靠內部技術實力自主研發適合業務所需的分析功能。

  【高級篇】

  前面介紹的各種大數據分析工具,可應對的數據都在億級以下,也以結構化數據為主。當實際面臨以下要求: 億級以上/半實時性處理/非標準化複雜需求,通常就需要藉助編程(甚至藉助於Hadoop/Spark等分布式計算框架)來完成相關的分析。 如果能掌握相關的程式語言能力,那研究員的分析能力將如虎添翼。

  當前適合大數據處理的程式語言,包括:

  前面的內容介紹了面向大數據研究的不同工具軟體/語言的特點和適用場景。 這些工具能夠極大增強研究員在大數據環境下的分析能力,但更重要的是研究員要發揮自身對業務的深入理解,從數據結果中洞察發現有深度的結果,這才是最有價值的。

第三十屆CIO班招生 法國布雷斯特商學院碩士班招生 北達軟EXIN網絡空間與IT安全基礎認證培訓 北達軟EXIN DevOps Professional認證培訓

責編:zhangxuefeng

相關焦點

  • 魯四海:大數據工具及應用 - 學院活動_CIO時代網 - CIO時代—新...
    2018年7月22日,「第七屆中國大數據應用論壇」在北京大學隆重舉行。論壇由中國新一代IT產業推進聯盟指導,CIO時代學院、北大軟體工程研究所主辦,全國高校大數據教育聯盟、北達軟、萬山數據協辦,主題為:大數據時代的數據保護與利用。萬山數據創始人魯四海以大數據工具及應用為題作了主旨演講。
  • 大數據研究常用軟體工具與應用場景
    眾多新的軟體分析工具作為深入大數據洞察研究的重要助力, 也成為數據科學家所必須掌握的知識技能。然而,現實情況的複雜性決定了並不存在解決一切問題的終極工具。實際研究過程中,需要根據實際情況靈活選擇最合適的工具(甚至多種工具組合使用),才能更好的完成研究探索。
  • 12個頂級大數據工具 - 大數據_CIO時代網 - CIO時代—新技術、新...
    如今,為了滿足企業的主要需求,大數據工具正在迅速得到應用。在大數據技術作為概念和業務戰略出現的十年中,湧現了執行各種任務和流程的數千種工具。而推出這些工具的提供商都承諾可以為企業節省時間和成本,並發現能夠讓企業獲利的商業洞察力。顯然,大數據分析工具的市場正在不斷增長。  許多大數據分析工具最初像大數據軟體框架Hadoop一樣都是開源項目,但商業實體迅速湧現,為開源產品提供了新工具或商業的支持和開發。
  • 從大數據到小數據,數據之坑與美 - 大數據_CIO時代網 - CIO時代...
    大數據的布道者們,張口閉口言稱大數據進入PB時代了。例如,《連線》雜誌的前主編克裡斯·安德森早在2008年說:「在PB時代,數量龐大的數據會使人們不再需要理論,甚至不再需要科學的方法。」但是這個吹捧也是非常不靠譜的,亦需要潑冷水還有大數據。    在大數據時代,我們要習慣讓數據發聲。下面的統計數據來自大名鼎鼎的學術期刊《科學》(Science)。
  • 最流行的五大數據模型工具 - 大數據_CIO時代網 - CIO時代—新技術...
    關鍵詞: 大數據   當今的商業決策對基於天的數據依賴越來越強烈。然而,正確而連貫的數據流對商業用戶做出快速、靈活的決策起到決定性的作用。建立正確的數據流和數據結構才能保證最好的結果。這個過程叫做數據建模。
  • 你需要了解的37個現代數據中心術語 - 大數據_CIO時代網 - CIO時代...
    在今天的IT行業佼佼者中,「現代數據中心」這個概念得到了越來越多的重視。當然,它受到如此多的關注也是理所應當的。雲計算,快閃記憶體存儲,軟體網絡,容器以及大量的編排和自動化工具相結合形成現代數據中心的基礎,這已經成為了數字時代企業的發展需求。  不過也許最重要的概念應該是數據中心並不一定是一個實際的地點。
  • 大數據分析的八大趨勢 - 大數據_CIO時代網 - CIO時代—新技術、新...
    大數據相信大家已經不陌生了,Intuit數據工程副主管Loconzolo雙腳都已經邁進數據湖裡了。Smarter Remarketer首席數據科學家DeanAbbott也為雲技術的發展指出了捷徑。他們二人一致認為, 大數據與分析學前沿是個活動目標,這一領域包含了儲存原始數據的數據湖和雲計算。儘管這些技術並未成熟,但等待也並非上策。
  • 當今世界最牛的25位頂尖大數據科學家 - 大數據_CIO時代網 - CIO...
    他(她)們是我們這些從事大數據產業發展的榜樣。他(她)們便是所謂的大師級人物。   數以萬計的數據從業者通過他(她)們的論文、博客、視頻、講義等進行學習與進步,並找到相應的應用場景解決方案。這些大師為人們解開了統計機器學習、神經網絡以及深度學習的神秘。
  • 數據倉庫與數據集市 - 大數據_CIO時代網 - CIO時代—新技術、新...
    與其他資料庫應用不同的是,數據倉庫更像一種過程,是對分布在企業內部各處業務數據的整合、加工和分析的過程,而不是一種可以購買的產品。    數據集市可稱作「小數據倉庫」,是用來分析相關專門業務問題或功能目標而做的專項數據集合。它建立在具有統一數據存儲模型的數據倉庫下,各級業務人員按照各部門特定的需求把數據進行複製、處理、加工,並最終統一展現為有部門特點的數據集合。
  • 物聯網4個領域的PaaS平臺大盤點 - 物聯網_CIO時代網 - CIO時代...
    ,並提供端到端的物聯網應用開發工具集  應用層-SAP Leonardo Applications:覆蓋6大領域的應用,實現產品互聯、設備互聯、車隊互聯、基礎設施互聯、市場互聯、人的互聯  橋接層-SAP Leonardo Bridge:提供一個可配置的基於崗位的業務場景,建立業務數據與物聯網應用數據的關聯,實現智能化的業務解決方案  其中SAP LeonardoFoundation
  • CIO時代APP微講座:中國人民大學夏天解讀大數據時代的程式語言
    4月9日,中國人民大學信息資源管理學院副教授夏天在CIO時代APP微講座作了題為《大數據時代的程式語言》的主題分享,詳述大數據時代主流程式語言的不同特點,以及初學者如何選擇學習一門與大數據有關的程式語言的相關問題。
  • 大數據時代下,計算機軟體技術的應用!
    大數據隨著發展,已經應用於各個領域之中,隨著應用的不斷深入,大數據技術有效的提升了計算機軟體技術的應用水平,對於人們的生產生活和企業的生產經營都產生了非常重要的影響。通過對計算機軟體技術的有效應用,可以使各類數據信息更為高速、有效的處理,對於社會各種資源的配置優化以及管理有非常重要的作用,有效提高了社會的生產效益。
  • U校園大數據發布,助力高校外語智慧教育發展 - 智慧教育 - CIO時代...
    3月24日晚,由北京外研在線教育科技有限公司主辦的「第三屆全國高等學校外語教育改革與發展高端論壇」專題活動——「Unipus之約:智引新時代 慧聚新方略」在北京舉行,近500位全國高校外語教育界專家、學者、管理者及優秀一線教師匯聚一堂,共同見證U校園智慧教學雲平臺大數據的發布,共同體驗大數據與人工智慧驅動下的外語智慧教學,共同推動我國高等外語信息化教學新常態的形成
  • ...IT業界_CIO時代網 - CIO時代—新技術、新商業、新管理
    另一方面,隨著移動網際網路、雲計算、大數據等技術變革,我們已經處在數字時代,數位化浪潮正在深刻地改變消費者的需求和行為特徵。品牌商需要考慮如何結合新技術的應用來重構傳統的業務模式,以順應新一代消費者的變化。
  • 【學習】數位化時代的供應鏈大數據分析及應用實踐(上海)
    數位化時代的供應鏈大數據分析和應用供應鏈大數據知識體系 | 數位化系統架構 | 數據分析的基本思路Python/BI等工具實操練習 | 行業前沿趨勢 | 實際案例討論本次講座將基於供應鏈大數據知識體系,解析業務流程、數據組織等IT架構維度之間的關係,讓學員建立數位化轉型的基本知識體系。在此基礎上,將詳解數據分析的主要工具(業務分析思維、數據可視化和BI、Python語言等),幫助學員快速上手, 掌握相關技能。隨後,會講解行業先進的大數據應用案例,包括先進、快消等行業的標杆企業案例,以及AI等技術給企業帶來的提升。
  • 大數據時代CIO如何「穩」發展
    【IT168 評論】「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」這是知名諮詢公司麥肯錫最早提出「大數據時代」這個定義。在大數據時代,CIO該如何紮實穩重的發展?
  • 武漢聯通與中金數據集團達成戰略合作 - IT業界_CIO時代網 - CIO...
    「創新網安,數據賦能」數據中心產業研討會,在英雄之城武漢的國家網絡安全學院順利召開。會上,中國聯通武漢分公司與中金數據集團正式籤約達成戰略合作,雙方將以大數據中心為基點,在5G應用、大數據與雲網互聯等多方面展開,依託國家網安基地的產業優勢,為武漢市乃至湖北省數位化升級提供重要技術支撐,共同助力武漢疫後經濟重振。
  • 北達軟EXIN隱私與數據保護(GDPR)認證培訓 - 熱點 - CIO時代—新...
    培訓背景:  人類社會正在快速進入廣泛收集數據、充分利用數據的大數據時代,然而,數據洩露和隱私侵犯正帶來越來越嚴重的社會問題。無規矩不成方圓,隱私和數據保護的法律和規則將為大數據時代的數據保護和利用提供基本保障。歐盟《通用數據保護條例》(GDPR)的實施為全世界的隱私和數據保護提供了一個參考。國際信息考試學會EXIN也根據GDPR的相關內容推出了隱私與數據保護認證培訓。該認證培訓將使參與者了解隱私和數據保護的基本概念、基本規則和一些基本方法。
  • 廈大會計系大數據課程六:大數據應用工具
    11月8日晚上7點,唯你網面向廈門大學會計系開展的《大數據時代下會計審計實務與變革》系列課程第六堂課如期開講。本期課程由唯你網大數據研發中心大數據架構師翁安棟主講,繼續介紹「大數據應用工具」,為會計系學生實戰使用大數據布道,傳授實戰的技藝;本次課程邊講解邊實踐,由於學科的差異,學生理解起來有些吃力,但仍然認真學習與練習,課堂氛圍輕鬆活躍。本次講座,翁安棟從大數據採集與爬蟲工具、即時查詢-黃精眼、數據分析工具-R這3個方面展開介紹。
  • 上半年恢復迅速的企業,都有一個共同點 - IT業界_CIO時代網 - CIO...
    大數據時代風雲詭變數據價值已被廣泛認同隨著國家新基建政策的驅動如今,數據平臺正在成為一種新模式為企業開闢了一條嶄新的發展之路昨天,海關總署公布我國數據平臺成為經濟社會發展新引擎這個時代,數據已是重要生產要素,後疫情時代,各行各業更需要以數據為核心