硬核乾貨!海量日誌分析技術,聽說IT達人都想知道……

2020-11-26 存儲在線

大數據時代,數據量呈幾何增長,為避免被時代潮流「拍在沙灘上」,就必須了解大數據的核心組成要素。其中,海量日誌尤為重要,不管是IT達人還是企業本身,掌握海量日誌的分析技術都必不可少。

今天,就讓小愛帶你探秘海量日誌分析技術,一起來看吧。

一.為什麼海量日誌很重要?

在討論海量日誌分析技術之前,我們先來討論一下什麼是海量日誌。

海量日誌是大數據的重要組成部分。數據倉庫之父比爾.恩門(Bill Inmon) 在他的2016年的新書《數據架構》中提到,企業中數據的組成部分中,非結構化的數據佔比已經達到了 70% 以上。而這些非結構化數據中,佔據主導位置的是日誌數據,可以說日誌數據是「大數據」分析的核心。

這些數據貫穿所有的企業經營活動,用戶的操作行為、伺服器的系統日誌、網絡設備的日誌記錄、應用程式的調試日誌等等,會直接影響企業的日常運行,與IT運維人員也是息息相關。

二.海量日誌數據有什麼特徵?

海量的日誌數據十分滿足大數據的4V特徵:

1. 產生速度快,每秒超過數萬、數十萬的情況已經比比皆是

2. 數據量巨大,速度一快,如果想要分析這數據,勢必會帶來巨大的數據量

3. 數據種類多,日誌數據涵蓋IT系統的方方面面

4. 價值密度低,雖然日誌數據中能夠分析出大量有價值的信息,往往一條分析結果需要數百萬甚至上億條的數據支撐,而且單條日誌的信息量有限

日誌樣例

我們可以通過一組數據來感受一下海量日誌的威力。假設有一個對外應用伺服器集群,產生日誌的速度為10000條/s,每條日誌的平均大小為200位元組,那麼這個應用伺服器每天、每月、每年的日誌增量為:

三.大數據條件下計算方式的變革

從行式存儲到列式存儲,再到流式計算

這麼多的數據,我們如何來進行分析呢?一方面我們需要能夠處理更多的數據,另一方面,我們希望查詢結果更加的實時(例如:1秒之內返回結果)。

如果這些數據在關係型資料庫的世界裡,數據以行的方式存儲,假設我們需要對數以億計的數據中的某一個數據進行求和計算,那麼首先,我們需要將所有這些數據全部讀出來,找到對應的欄位,然後進行累加,而我們的計算瓶頸完全取決於磁碟的讀寫能力。

我們可以用分庫或者分表的方式將資料庫進行拆分,增加系統並行計算的能力,但是可能依然需要數百臺設備才能在1s之內返回這些數據。然而我們沒有這麼多機器,那麼只能慢慢等待分析任務執行完畢。如此一來,既耗時又費力。

後來,大數據技術誕生了。在大數據分析的場景中,列式存儲架構取代了行式存儲。如果要對某一個欄位進行統計,只需要讀取相應列的數據,不需要進行整個表的遍歷,這樣一來,需要讀取的數據量變小了,同時,MapReduce 也能夠使得分析應用更好地實現分布式計算。

可即便如此,計算的瓶頸依然在磁碟的讀寫效率上,計算速度並沒有本質的變化,如果需要做實時數據的分析,還是需要大投入大量的存儲和計算資源。

行式資料庫vs列式資料庫

從邏輯上來說,如果要對海量的數據進行快速的分析,在資源不變的前提下,最好的方法就是減少每次計算所需要讀取的數據量。但是如果減少了數據量的讀取,分析的結果就無法做到更大的覆蓋範圍和更加精準的結果。

基於這個思考,我們可以將計算分層,將最近一段時間產生的數據放在實時要求高的數據存儲中,使用更好的計算資源來進行分析,將更長時間的歷史數據存入離線存儲設備中進行批量計算,這部分計算時間可能長達數十分鐘或者數個小時,但是計算的結果可以用於和實時分析的結果進行合併,使得分析的覆蓋範圍和結果的精準度不受影響。

在大數據分析技術中,還有一項非常重要的技術 —— 流式計算,即數據進入系統時就進行必要的預處理操作,這部分的處理,同樣減少了後續數據分析中所需要讀取的數據量。

海量日誌分析技術數據流程圖

四.海量日誌分析技術

愛數 AnyRobot Family 3.0(下面簡稱 AnyRobot) 海量日誌分析融入了大數據分析技術,其核心要點在於三個重要方面:海量日誌的採集處理、海量日誌的存儲、海量日誌的分析。下面,我們就以AnyRobot為例剖析海量日誌分析技術。

1.海量日誌的採集處理方面

有兩個核心點,分別是數據採集的多樣性和實時數據處理的性能。

在採集數據源的多樣性方面,AnyRobot 可以對接文件、TCP二進位數據量、壓縮文件、結構化數據、Syslog、SNMP 等多種數據源,我們還內置了大量的分析模板,支持市面上多種網絡設備、資料庫、應用軟體、中間件等各類應用,可以實現大部分場景數據的「開箱即用」。當然,數據源的接入也可以通過界面配置的方式快速完成。在實時處理方面,AnyRobot 採用了可擴展的消息隊列和流計算引擎,保證了實時處理的性能,能夠自如地應對數萬甚至數十萬每秒的數據流量。

2.海量日誌的存儲方面

我們採用存儲分層的策略對數據進行分層,根據我們上文中探討的分析思路,應該儘量減少用戶在實時分析場景下使用的數據量,我們將分析數據的存儲分為三個層次:

第一層:用於實時分析和查詢的數據,這部分數據有兩個來源。第一部分是短期內進入系統中的數據,這部分數據保留的大量的細節信息,可以用戶排錯、細粒度的管理分析、事件分析等場景。第二部分是歷史數據經過離線批量計算產生的分析結果,這部分數據的細節已經被隱藏起來,主要用戶統計分析和報表場景。這一部分的數據由於實時性要求高,也有高可用的要求,因此數據的量多於進入系統的數據量,存儲方式可以採用更高性能的 SSD 存儲。

第二層:用戶存儲離線分析的數據,這部分數據是對第一層數據的長期保存和離線分析,這部分數據可以存儲在成本更低的對象存儲或者雲存儲中,能夠滿足小時級別的數據分析和訪問需求,需要進行實時分析和日誌追溯時,可以重新導入到實時分析存儲中去。這部分數據可以通過壓縮的方式進行存儲,由於日誌文件的特性,壓縮比最高能夠達到原始數據1:5以上。

第三層:歸檔存儲,由於合規性的要求和日誌長期保存的需求,可以將更長時間的日誌數據通過備份的方式進行歸檔,採用愛數的 AnyBackup 就能夠完成這一工作。這部分數據不需要再實時或者離線分析中進行查看,對它們的歷史分析結果已經合併到和上兩層的分析當中。這部分數據採用 AnyBackup 自帶的壓縮和重複數據刪除功能,能夠獲得 95% 以上重複數據刪除率

數據分層存儲

3.海量日誌的分析方面

AnyRobot 實現了一個基於 SPL(搜索處理語言)的搜尋引擎,採用分布式計算的方式對數據進行分析和計算,在實時分析方面能夠快速的在數億級別數據量的情況下進行實時分析,同時能夠兼容 Hadoop、Spark 等離線分析引擎,並能連接外部數據源,將實時分析、離線分析結果和外部數據源的查詢結果合併後呈現給最終用戶。

在新版本的 AnyRobot 中也集成了機器學習能力,能夠實現異常檢測、趨勢分析等應用,滿足更多使用場景的覆蓋。

五.結語

日誌是大數據的重要組成,為了滿足海量日誌分析的需要,我們需要從海量日誌處理、存儲和分析三個方面來設計我們的日誌分析系統。愛數 AnyRobot Family 3.0 通過加入消息隊列、流式處理、存儲分層、離線分析、機器學習等特性,是的海量日誌分析的的效率和用戶體驗都得到了大幅的提升。

相關焦點

  • 京東雲推出雲搜索Elasticsearch,助力海量數據搜索分析
    近日,京東雲發布雲搜索Elasticsearch公測版,致力於海量數據搜索和日誌分析,旨在為用戶提供更便捷的雲搜索服務。Elasticsearch是一個開源的、基於Lucene的分布式搜尋引擎,可以提供穩定、實時、可靠的檢索服務, 具有高可用、易擴展以及近實時的搜索能力。
  • 乾貨丨一篇文章讓你了解大數據採集技術
    大數據開啟了一個大規模生產、分享和應用數據的時代,它給技術和商業帶來了巨大的變化。麥肯錫研究表明,在醫療、零售和製造業領域,大數據每年可以提高勞動生產率0.5-1個百分點。大數據在核心領域的滲透速度有目共睹,然而調查顯示,未被使用的信息比例高達99.4%,很大程度都是由於高價值的信息無法獲取採集。
  • 聽說,00後都在用這款神器查英語單詞
    I.技術發展帶來學習方式的變革,如何利用人工智慧設備的創新功能調動感官,將「聽說讀記」的英語學習痛點逐個擊破?   「有了訊飛掃描詞典筆,讀英文名著沒那麼費時間了!」
  • 盤點:10種有效的日誌分析工具
    【IT168 編譯】提到日誌分析,很多人首先想到的是Splunk。Splunk的成功促使其他廠商開始他們的日誌分析研究歷程,不論是開源還是商業。本文將會提供Splunk以外的其他日誌分析服務。
  • 乾貨|你想知道的數據倉庫知識,這裡都有!
    面向主題:數據倉庫側重於數據分析工作,所以數據倉庫中的數據是按照一定的主題進行組織和存儲。集成:對原有分散的資料庫數據經過系統加工、整理,消除源數據中的不一致性。穩定:數據進入數據倉庫以後只需要定期的加載、刷新,不需要頻繁修改。反映歷史變化:出於決策的需要,數據倉庫中的數據都要標明時間屬性。通過這些數據信息,對企業的發展歷程和未來趨勢做出定量分析預測。
  • 《大理寺日誌》:泛娛樂化下的一部神作,或將翻開國漫新篇章!
    在2020年的四月,一部名叫《大理寺日誌》的古風斷案型新番上線,在泛娛樂化的當下,大多數觀眾都認為它和19年的《漢化日記》應該有著異曲同工之妙,也就是泡麵番,具備短小、精悍的特點。目前《大理寺日誌》已經更新至第5集,眾多網友評價其為「泛娛樂化下的一部國漫神作」,它或將翻開國漫新篇章!
  • Hadoop技術生態簡介
    大數據的發展歷史當中,Hadoop技術框架是佔據著重要地位的,歷經十多年的時間,依然是企業搭建大數據平臺基礎架構的主流選擇,圍繞著Hadoop而生的大數據生態組件,也都各自發揮著各自的作用。今天的Hadoop大數據培訓分享,我們來坐Hadoop技術生態做一個簡單的介紹。
  • Talking Data 閻志濤:流式大數據和即時交互分析技術
    大數據技術逐漸變成企業的標配,漫長的等待數據分析結果已經不合時宜,延遲更低的流式大數據處理技術,即時分析變得越來越重要。在本論壇將給大家帶來行業中領先的流式大數據,即時交互式分析技術的相關分享。現在大數據在國家戰略裡還是很重要的一塊,大家聽說什麼ABCD、AI、區塊鏈、大數據等等都在這裡,還有雲計算。首先講幾個概念,流式計算和交互式分析,它跟現在大數據的關係。
  • 聽說嚴伯鈞是科普界的「段子手」?
    硬核科普達人下面將簡單分享《嚴伯鈞的硬派科普秀,每天5分鐘,講透你最想知道的科學硬知識》的部分內容,如果您對這門課程感興趣,可以通過文章下方「了解更多」免費獲取。嚴伯鈞的硬派科普秀嚴伯鈞,跨界學霸,科普達人每天5分鐘,講透你最想知道的科學硬知識讓你的大腦變得豐富、性感又有趣主講人嚴伯鈞2018年被《新周刊》評選為「十大網紅導師」之一;擅長以嚴密的邏輯,輕鬆幽默地講解硬核科學知識;錄製的科普短視頻在網絡上的播放量超過
  • 成為記憶達人不得不知道的5個好習慣!
    記憶力強的人,無論是學習能力還是工作能力一定都不會差到哪裡。我們需要知道,要想提高記憶力可以通過階段性的訓練獲得。當然,生活當中的一些習慣也可以讓你的記憶力保持在較高的一個水平。想成為記憶達人嗎?不管是中等強度還是高強度的有氧訓練,都可以提高普通人的短暫記憶以及長期記憶。只要能夠長期堅持跑步15分鐘,效果會很明顯。對於一些職場人士,每天或多或少都有些壓力,而壓力會影響到記憶。當我們受到壓力時,體內就會產生皮質醇,它會殺死海馬狀突起裡的腦細胞,而這種大腦側面腦室壁上的隆起物在處理長期和短期記憶上起主要作用。
  • 「乾貨!IT職業新方向」技術大牛獨家繪製的接口測試學習路線圖…
    你的經驗和功能測試技術是遠遠不夠的,你需要進階,你需要豐富你的技術棧!我幫大家梳理了接口測試技術的學習路線,全網獨有,趕緊收藏好,絕版乾貨!第一部分:接口測試分析(必備技能)核心1、接口測試設計文檔分析2、接口測試需求分析3、接口測試用例設計技能要點:1、掌握接口基本要素組成
  • 四本超經典學霸流小說,硬核乾貨十足,學霸文中絕對不可錯過的仙草!
    《重生之神級學霸》 志鳥村,450萬字(完結) 【導讀】重生八十年代,主搞生物,非常硬核,乾貨很多,時代背景、人物劇情等都描寫非常出色。因為一本書愛上一個學科系列。 【精彩片段】 楊銳這才滿意的放下東西,笑道:「實在是太辛苦老師們了,沒有你們幫忙,要把這麼多試卷的分算出來,怕得好幾天時間。」
  • 關於痛風,你想知道的硬核科普都在這裡
    為了讓患者對痛風更加了解,今天將給大家詳細解讀一下痛風,關於痛風,你想知道的硬核科普都在這裡。什麼是痛風?痛風是一種單鈉尿酸鹽(MSU)沉積所致的晶體相關性關節病,與嘌呤代謝紊亂及(或)尿酸排洩減少所致的高尿酸血症直接相關,屬代謝性風溼病範疇。早在公元前5世紀,希波克拉底就有關於痛風(gout)臨床表現的記載。
  • 很多人都沒聽說過的智能高科技產品,知道它的用途就想買了
    雖然大家天天都在聊高科技,黑科技,智能產品等。但很多時候,好些可以運用到生活中的高科技產品我們連見都沒見過,更別說去用了。比如以下的這些智能高科技產品,只要你知道了它們的用途就立馬想帶它們回家。1,紙手錶我們聽說過的手錶有機械錶,智能手錶,石英表等。
  • 3D列印筆繪畫技巧,新手入門指南,硬核乾貨!魔法貓免費分享
    3D列印筆孩子不知道畫什麼怎麼辦?孩子怎麼樣才能輕鬆掌握3D列印筆的使用技巧,快速上手,Magic Cat魔法貓3D繪畫筆為您分享滿滿的實操乾貨分享!話不多說,硬核分享馬上開始:一、3D模型製作過程中的要點1.
  • 再不抗氧化你就老了,這些抗氧化成分你知道嗎?硬核乾貨哦
    下面我們一起來聊一聊這些成分,都是硬核乾貨哦!趕緊get起來吧!普通的精華設計都是滴管狀的,用多少擠多少就好。但這款精華裡面分為兩倉,一倉裡面儲存的是精華液,另一倉裡面的就是蝦青素。因為蝦青素的保存時間很短,這樣的設計能更好的保存蝦青素的活性。
  • 乾貨: 五種常見數據複製技術詳解
    3、基於資料庫的數據複製技術 基於資料庫軟體的複製技術包括物理複製和邏輯複製兩種方式。邏輯複製是利用資料庫的重做日誌、歸檔日誌,將主本所在站點的日誌傳輸到副本所在站點,通過重做SQL的方式實現數據複製。
  • 硬核乾貨!關於大堡礁潛水,你想知道的都在這裡了
    👇這裡有能從太空都可以看到的珊瑚礁群圖 / BBC這裡是世界上唯一和小鬚鯨同潛的海域大堡礁的面積比整個塔斯馬尼亞州和維多利亞州加起來都要大,能比得上一個日本,而珊瑚數量更是佔了全球的十分之一!然而很多人不知道的是,除了全球變暖之外,一種棘冠海星(Crown of Thorns Starfish,也叫魔鬼海星)的過度繁殖,也在影響珊瑚的發育。
  • 乾貨:18 張思維導圖,後端技術學習路線長這樣!
    作者 | LemonCoder頭圖 | CSDN下載自視覺中國思來想去,學習方向和路線很重要。比起具體的技術細節,可複製的經驗、清晰的學習路線,是大部分人更加需要的東西。話不多說,直接上後端技術學習路線思維導圖框架:圖中的每一個節點我都做了細分,在後面章節逐個展開介紹。