25個大數據術語

2020-12-11 199IT

1.算法。「算法」如何與大數據相關?即使算法是一個通用術語,但大數據分析使其在當代更受青睞和流行。

2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步分析自己在食物、衣服、娛樂等方面具體花費佔比呢?那你便是在做「分析」了。你正從一堆原始數據中來吸取經驗,以幫助自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的帖子做同樣的練習呢?那我們便是在討論大數據分析了。大數據分析的實質是利用大量數據來進行推斷和講故事。大數據分析有3種不同到的類型,接下來便繼續本話題進行依次討論。

3.描述性分析。剛剛如果你告訴我,去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項,這種便是描述性分析。當然你還可以參考更多的細節。

4.預測分析。如果你根據過去5年的信用卡歷史記錄來進行分析,並且劃分具有一定的連續性,則你可以高概率預測明年將與過去幾年相差無幾。此處需要注意的細節是,這並不是「預測未來」,而是未來可能會發生的「概率」。在大數據預測分析中,數據科學家可能會使用類似機器學習、高級的統計過程(後文將對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。

5.規範分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產生巨大的影響。規範分析建立在預測分析的基礎之上,包含了「行動」記錄(例如減少食品、服裝、娛樂支出),並分析所得結果來「規定」最佳類別以減少總體支出。你可以嘗試將其發散到大數據,並設想高管們如何通過查看各種行動的影響來做出數據驅動的決策。

6.批處理。雖然批量數據處理在大型機時代就早已出現,但大數據交給它更多大數據集處理,因此賦予了批處理更多的意義。對於一段時間內收集到的一組事務,批量數據處理為處理大量數據提供了一種有效的方法。後文將介紹的Hadoop便是專注於批量數據處理。超越批處理的世界:流計算 使用Spark SQL構建批處理程序。

7. Cassandra是由Apache Software Foundation管理的一款流行的開源資料庫管理系統。很多大數據技術都歸功於Apache,其中Cassandra的設計初衷便是處理跨分布式伺服器的大量數據。

8. 雲計算。顯而易見雲計算已經變得無所不在,所以本文可能無須贅述,但為了文章的完整性還是佐以介紹。雲計算的本質是在遠程伺服器上運行的軟體和(/或)數據託管,並允許從網際網路上的任何地方進行訪問。

9. 集群計算。它是一種利用多臺伺服器的匯集資源的「集群」來進行計算的奇特方式。在了解了更多技術之後,我們可能還會討論節點、集群管理層、負載平衡和並行處理等。

10. 黑暗數據。依我看來,這個詞適用於那些嚇得六神無主的高級管理層們。從根本上來說,黑暗數據是指那些被企業收集和處理但又不用於任何有意義用途的數據,因此描述它是「黑暗的」,它們可能永遠被埋沒。它們可能是社交網絡信息流、呼叫中心日誌、會議筆記,諸如此類。人們做出了諸多估計,在60-90%的所有企業數據都可能是「黑暗數據」,但無人真正知曉。

11. 數據湖。當我第一次聽到這個詞的時候,我真的以為有人在開愚人節的玩笑。但它真的是個術語!數據湖是一個原始格式的企業級數據的大型存儲庫。雖然此處討論的是數據湖,但有必要再一起討論下數據倉庫,因為數據湖和數據倉庫在概念上是極其相似的,都是企業級數據的存儲庫,但在清理和與其他數據源集成之後的結構化格式上有所區別。數據倉庫常用於常規數據(但不完全)。據說數據湖能夠讓用戶輕鬆訪問企業級數據,用戶真正按需知道自己正在尋找的是什麼、如何處理並讓其智能化使用。擁抱開源技術的前提——認識數據湖 你知道數據湖泊(DATA LAKE)嗎?

12. 數據挖掘。數據挖掘是指利用複雜的模式識別技術從大量數據中找到有意義的模式、提取見解。這與我們前文討論的使用個人數據做分析的術語「分析」密切相關。為了提取出有意義的模式,數據挖掘者使用統計學(是呀,好老的數學)、機器學習算法和人工智慧。

13.數據科學家。我們談論的是一個如此熱門的職業!數據科學家們可以通過提取原始數據(難道是從前文所說的數據湖中提取的?),處理數據,然後提出新見解。數據科學家所需具備的一些技能與超人無異:分析、統計、計算機科學、創造力、故事講述和理解業務環境。難怪他們能獲得如此高的薪水報酬。

14.分布式文件系統。由於大數據太大而無法在單個系統上進行存儲,分布式文件系統提供一種數據存儲系統,方便跨多個存儲設備進行大量數據的存放,並有助於降低大量數據存儲的成本和複雜度。

15. ETL。ETL分別是extract,transform,load的首字母縮寫,代表提取、轉化和加載的過程。 它具體是指「提取」原始數據,通過數據清洗/修飾的方式進行「轉化」以獲得 「適合使用」的數據,進而「加載」到合適的存儲庫中供系統使用的整個過程。儘管ETL這一概念源於數據倉庫,但現在也適用於其它情景下的過程,例如在大數據系統中從外部數據源獲取/吸收數據。我們需要什麼樣的ETL?

工程師要不要寫ETL?——教你構建高效的算法/數據科學部門 ETL的經驗總結

16. Hadoop。人們一想起大數據就能立即想到Hadoop。 Hadoop(擁有可愛的大象LOGO)是一個開源軟體框架,主要組成部分是Hadoop分布式文件系統(HDFS),Hadoop部署了分布式硬體以支持大型數據集的存儲、檢索和分析。如果你真的想給別人留下深刻的印象,還可以談談YARN(Yet Another Resource Schedule,另一個資源調度器),正如其名,它也是一個資源調度器。我由衷佩服這些為程序命名的人。為Hadoop命名的Apache基金會還想出了Pig,Hive和Spark(沒錯,它們都是各種軟體的名稱)。這些名字難道不讓你感到印象深刻嗎?

17. 內存計算。一般來說,任何可以在不訪問I / O的情況下進行的計算預計會比需要訪問I/O的速度更快。內存內計算是一種能夠將工作數據集完全轉移到集群的集體內存中、並避免了將中間計算寫入磁碟的技術。Apache Spark便是一種內存內計算系統,它與I / O相比,在像Hadoop MapReduce這樣的系統上綁定具有巨大的優勢。

18. IOT。最新的流行語是物聯網(Internet of things,簡稱IOT)。IOT是通過網際網路將嵌入式對象(傳感器、可穿戴設備、汽車、冰箱等)中的計算設備互連在一起,並且能夠發送/接收數據。IOT產生了大量的數據,這為呈現大數據分析提供了更多的機會。

19.機器學習。機器學習是為了設計一種基於提供的數據能夠進行不斷學習、調整、改進的系統的設計方法。機器使用預測和統計的算法進行學習並專注於實現「正確的」行為模式和簡見解,隨著越來越多的數據注入系統它還在不斷進行優化改進。典型的應用有欺詐檢測、在線個性化推薦等。

20.MapReduce。MapReduce的概念可能會有點混亂,但讓我試一試。MapReduce是一個編程模型,最好的理解方法是將Map和Reduce是看作兩個獨立的單元。在這種情況下,編程模型首先將大數據的數據集分成幾個部分(技術術語上是稱作「元組」,但本文並不想太過技術性),因此可以部署到不同位置的不同計算機上(即前文所述的集群計算),這些本質上是Map的組成部分。接下來該模型收集到所有結果並將「減少」到同一份報告中。 MapReduce的數據處理模型與hadoop的分布式文件系統相輔相成。

21.NoSQL。乍一聽這像是針對傳統關係型資料庫管理系統(RDBMS)的面向對象的SQL(Structured Query Language, 結構化查詢語言)的抗議,其實NoSQL代表的是NOT ONLY SQL,意即「不僅僅是SQL」。 NoSQL實際上是指被用來處理大量非結構化、或技術上被稱作「圖表」(例如關係型資料庫的表)等數據的資料庫管理系統。NoSQL資料庫一般非常適用於大型數據系統,這得益於它們的靈活性以及大型非結構化資料庫所必備的分布式結構。

22.R語言。有人能想到比這個程式語言更糟糕的名字嗎?是的,』R』是一門在統計計算中表現非常優異的程式語言。如果你連』R』都不知道,那你就不是數據科學家。(如果你不知道』R』,就請不要把那些糟糕的代碼發給我了)。這就是在數據科學中最受歡迎的語言之一的R語言。

23. Spark(Apache Spark)。Apache Spark是一種快速的內存內數據處理引擎,它可以高效執行需要快速迭代訪問數據集的流、機器學習或SQL工作負載。Spark通常比我們前文討論的MapReduce快很多。

24.流處理。流處理旨在通過「連續」查詢對實時和流數據進行操作。結合流分析(即在流內同時進行連續計算數學或統計分析的能力),流處理解決方案可以被用來實時處理非常大的數據。

25. 結構化和非結構化數據。這是大數據5V中的「Variety」多樣性。結構化數據是能夠放入關係型資料庫的最基本的數據類型,通過表的組織方式可以聯繫到任何其他數據。非結構化數據則是所有不能直接存入關係資料庫中的數據,例如電子郵件、社交媒體上的帖子、人類錄音等。

相關焦點

  • 25個大數據術語,你知道幾個?了解幾個?
    2.分析。在大數據預測分析中,數據科學家可能會使用類似機器學習、高級的統計過程(後文將對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。  5.規範分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產生巨大的影響。
  • 關於大數據,你應該知道的75個專業術語
    本文全面地介紹了關於大數據的 75 個核心術語,這不僅是大數據初學者的很好的入門資料,對於高階從業人員也可以起到查缺補漏的作用。
  • 【附最全思維導圖】大數據領域75個核心術語講解!
    長按即可保存圖片哦近日,Ramesh Dontha 在 DataConomy 上連發兩篇文章,扼要而全面地介紹了關於大數據的 75 個核心術語,這不僅是大數據初學者很好的入門資料,對於高階從業人員也可以起到查漏補缺的作用
  • 數據 25個令人大開眼界的大數據現象及有趣事實
    隨著巨量數據時代來臨,大數據一詞已經十分普及,甚至有些被濫用的趨勢。在這個時代,切身體會到「大數據」貨真價實的存在、以及解讀大數據的潛力成為我們的重要課題。  在此整理了 25 個所謂的「大數據現象」及「大數據事實」(Big Data fun facts)並附上數據來源供大家參考,看完你將會對大數據有多「大」有更清楚的認知,而且也對大數據的潛力及它帶來的改變有更深一層的解讀。  我們現在每兩天產生的數據量是相當於過去到 2003 年為止累積的數據量。
  • 你需要了解的37個現代數據中心術語 - 大數據_CIO時代網 - CIO時代...
    事不宜遲,讓我們深入研究一下最重要的現代數據中心術語中37個術語和定義的彙編清單。一個容器也可指一個數據存儲顆粒單元。例如,Amazon S3(簡單存儲服務)使用術語「水桶」來描述一個數據容器。在特定的SDS解決方案中,構成虛擬磁碟的數據就存儲在集群中不同節點上的邏輯容器裡。  控制平面  控制平面來源於一個網絡術語,一般指與網絡的「信令」有關的所有事情。控制平麵包發向路由器或者由路由器本地產生。
  • 25 個令人大開眼界的大數據現象及有趣事實
    在此整理了 25 個所謂的「大數據現象」(Big Data phenomenon)及「大數據事實」(Big Data fun facts)並附上資料來源供大家參考,看完你將會對大數據有多「大」有更清楚的認知,而且也對大數據的潛力及它帶來的改變有更深一層的解讀。1、我們現在每兩天產生的資料量是相當於過去到 2003 年為止累積的資料量。
  • 25個令人大開眼界的大數據現象及有趣事實
    在這個時代,切身體會到「大數據」貨真價實的存在、以及解讀大數據的潛力成為我們的重要課題。  在此整理了 25 個所謂的「大數據現象」及「大數據事實」(Big Data fun facts)並附上數據來源供大家參考,看完你將會對大數據有多「大」有更清楚的認知,而且也對大數據的潛力及它帶來的改變有更深一層的解讀。
  • 25個品茶術語,讓你喝茶時更專業
    今天茯茶道整理出史上最全的25個專業品茶術語,品茶的時候能夠理解並準確說出品茶術語瞬間讓自己專業起來。 中性術語 褒義術語 貶義術語 特殊術語
  • 甜點 25個令人大開眼界的大數據現象及有趣事實
    在這個時代,切身體會到「大數據」貨真價實的存在、以及解讀大數據的潛力成為我們的重要課題。  在此整理了 25 個所謂的「大數據現象」及「大數據事實」(Big Data fun facts)並附上數據來源供大家參考,看完你將會對大數據有多「大」有更清楚的認知,而且也對大數據的潛力及它帶來的改變有更深一層的解讀。我們現在每兩天產生的數據量是相當於過去到 2003 年為止累積的數據量。
  • 大數據基礎術語,讓我們一起來學習吧!
    以下為您帶來49例大數據基礎術語,一起來學習吧!二、大數據的4V:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)三、當前用於分析大數據的工具主要有開源與商用兩個生態圈1、Hadoop HDFS、HadoopMapReduce
  • 數據挖掘與預測分析術語總結
    數據挖掘目前在各類企業和機構中蓬勃發展。因此我們製作了一份此領域常見術語總結,希望你喜歡。大數據(Big Data)大數據既是一個被濫用的流行語,也是一個當今社會的真實趨勢。此術語指代總量與日俱增的數據,這些數據每天都在被捕獲、處理、匯集、儲存、分析。維基百科是這樣描述「大數據」的:「數據集的總和如此龐大複雜,以至於現有的資料庫管理工具難以處理(…)」。
  • IT行業的發展日新月異 新術語的「大亂鬥」?
    導讀IT行業的發展速度可謂日新月異,幾年前還是個人計算機(PC)當道,如今大家都在談論「雲計算」、「大數據」和「深度學習」。已被所有這些新術語搞得暈頭轉向?我們也是如此,為此本文特意介紹了這幾個術語的定義,以及它們對投資者來說意味著什麼。
  • 數據分析術語詞典大全—運營人必看
    最近很多私信小蘿蔔,說自己對很多數據術語的定義並不清晰,不了解到底是什麼意思,什麼是DAU、WAU、欄位又是什麼?經常帶著一頭霧水工作,術語特別多,百度查詢出來通常一大段文字,好不容易清楚了,過一陣就又忘了。等要用的時候再去查,麻煩又顯得很不專業。
  • 數據中心自動化:你應該知道的2個術語
    今天的數據中心正在使用軟體和跨基礎架構更好集成來提高效率。數據中心仍然是當今企業的大腦和神經中樞,許多公司遷移到雲並沒有改變這一事實 - 它只是改變存儲位置。但是,正在發生變化的是,今天的數據中心需要更多的基於軟體和更好的自動化,以便利用業務需求的靈活性、可伸縮性和數字轉換。如果你想了解驅動數據中心自動化的是什麼,需要知道下面兩個英文縮寫術語:1.
  • 大數據相關術語50例英文標準翻譯及詳細解釋
    >一、大數據英文:big data,mega data大數據,或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。二、大數據的4V:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)三、當前用於分析大數據的工具主要有開源與商用兩個生態圈開源大數據生態圈:1、Hadoop HDFS、HadoopMapReduce, HBase、Hive
  • 術語知識服務平臺「術語在線」上線
    大 中 小】 該平臺以建立規範術語「數據中心」、「應用中心」和「服務中心」為目標,促進科技交流,支撐科技發展。  術語是知識的載體,在知識爆炸式增長的今天,社會對規範、準確的術語需求也持續增長。「術語在線」聚合了全國科技名詞委權威發布的審定公布名詞資料庫、海峽兩岸名詞資料庫和審定預公布資料庫累計45萬餘條規範術語。
  • 25位大數據科學家
    在大數據技術飛速發展的今天,誰才是我們大數據科研與工業界中最有威望的科學家呢?下面我們來進行梳理,共羅列了25位當今世界,無論是在學術與工業界都產生巨大影響的數據科學家(Data Scientists)。他(她)們推動了整個領域的發展,毫無疑問,無論是在學術界還是還工業界,他(她)們都是一座座山頭式的人物。他(她)們是我們這些從事大數據產業發展的榜樣。
  • 行業大揭秘:39個專業術語,信息流/SEM必備!
    今天為大家整理了最新最全的網際網路廣告專業術語,希望大家看完能有所收穫。如果有需要補充的歡迎在底部留言。點擊付費廣告是大公司最常用的網絡廣告形式。提供點擊付費的網站非常多,主要有各大門戶網站(如搜狐、新浪)搜尋引擎(百度),以及其它瀏覽量較大的網站。12、Banner Ad:橫幅廣告,網頁頂部、底部或者側邊的廣告展示位置。
  • 原創譯文|從神經網絡說起:深度學習初學者不可不知的25個術語和概念(下)
    本文為燈塔大數據原創內容,歡迎個人轉載至朋友圈,其他機構轉載請在文章開頭標註:「轉自:燈塔大數據;微信:DTbigdata
  • 吐血總結:100 個常見勃艮第術語大盤點!
    今天,我們總結歸納了 100 個常見勃艮第術語詞彙。想要更深入的了解它的魅力,就讓我們從詞彙入手,一起來認識一下勃艮第葡萄酒術語吧!文章較長,分為了 5 大類別,一定能找到你需要的!25、Villages 村莊指一個很小的葡萄種植區域,通常位於某個村莊周圍,等於英文中的「Village」(村莊)或「Parish」(教區)。