有沒有想過 你的數據分析方法可能已經過時?

2021-01-10 IT168

  【IT168 編譯】資訊時代,能吃到蟲子的已不再是早起的鳥兒,而是那些數據驅動的、早起的鳥兒。像百度、阿里巴巴和騰訊這樣的大公司,都在不斷囤積數據,因為他們都知道數據是金燦燦的寶貝。

  但僅僅囤積數據是不夠的。你需要熟練地篩選、全盤了解數據湖中溢出的所有數據。只有這樣,你才能通過這些數據,做出更好的決策,打造更智能的產品。

  然而,在擁擠不堪、投資過剩的數據分析市場上,供應商為了賣出自己的產品不斷放出煙霧彈,想要穿過煙霧看到「真相」,卻是一大難事。以下五點,是未來數據分析市場可能的走向,僅供參考。

  1、BI遷移到應用程式

  在過去的20年裡,我們見證了一場革命。不是一夜之間發生的那種,而是逐漸發生的,緩慢的,可能很多人沒有注意到。BI(商業智能)正走向死亡。或者更準確地說,BI正在進行著徹頭徹尾的改變。

  每年,用戶都在通過他們使用的應用程式——比如HubSpot、SalesForce和MailChimp——進行更多的分析。分析正在遷移到業務應用程式的結構中。

  從本質上講,業務應用程式正在獲取它們自己的分析接口,根據它們的數據和用例進行定製。這種集成和自定義使得其分析接口比深奧的、複雜的通用BI更容易被用戶接受。隨著B2B應用程式開始在數據智能產品上展開競爭,這一趨勢將會繼續下去。

  2、編譯器超越分析引擎

  歷史上,數據分析有兩種提供方式:通過預計算,或者通過分析引擎。

  分析引擎,如Spark和Tableau的數據引擎,負責執行所需的計算,以回答關於組織數據的關鍵問題。

  現在,這個領域出現了一個新的玩家:分析編譯器。分析編譯器可以靈活地將計算部署到不同的基礎設施。分析編譯器的例子包括現在大火的TensorFlow,它可以將計算部署到GPU或CPU等。

  編譯器比分析引擎靈活得多,因為它們可以進行數據處理,而且我們可以將它們進行轉換,以在不同的基礎設施中運行(在資料庫中,在Spark中,在GPU中,等等)。在理論上,編譯器也可以生成比任何解釋引擎都快的工作流。

  甚至Spark也一直在獲取基本的編譯工具,這無疑是編譯器在此駐留的標誌,並且可能最終會使遺留的純計算引擎相形見絀。

  3、ETL多樣化

  很少有一個術語能比「ETL」(提取轉換加載)更讓大佬們頭疼。ETL堆積了大量不完整的、重複的、不相關的數據,像汙水一樣被排放出來,清理乾淨,然後被推到一個可以處理這些數據的地方。

  ETL是現代、敏捷和數據驅動等關鍵詞的對立面。ETL意味著不斷重複的數據,無數的延遲,以及高額的費用。它無法回答重要的問題。

  為了讓ETL變得更加靈活,行業內已經開發出了各種各樣的替代方案。這些解決方案包括高級的ETL工具——使ETL更容易進入Hadoop或數據倉庫,到流ETL解決方案,再到利用機器學習交叉引用和刪除重複數據的ETL解決方案。

  另一個非常有趣的技術類別包括像Dremio和Xcalar這樣的工具,它們將ETL重構為提取-加載-轉換(或ELT)。本質上,它們將轉換的步驟推到最後,因此不必再預先進行提取、加載或轉換。

  從歷史上看,ELT的速度很慢,但這些下一代解決方案通過動態調整、索引和緩存常見的轉換來快速地進行拼寫。這提供了傳統ETL的性能,同時具有後期轉換的靈活性。

  不管你如何看待它,ETL正在經歷著戲劇性的演變,這將使組織能夠比以往更容易地快速地利用數據,而無需耗費大量時間和昂貴的前期投入。

  4、數據倉庫開放

  大型組織的問題多數在於無法從專注於精心設計的分析。大多數公司甚至無法合計和計算他們有多少數據。不是因為計數很困難,而是因為一個大型組織中的數據一般分散在萬個數據豎井中。

  不過由於雲(包括API革命和管理數據解決方案)和ETL最近的進展,使得組織以結構化的方式訪問更多的數據變得比以往任何時候都要容易。

  下一代數據管理解決方案將在利用這些技術進步中發揮重要作用,使所有的組織的數據能夠及時地對所有合適的人進行分析。

  5、機器學習落到實處

  機器學習剛剛度過了炒作的高峰期,或者至少我們可以希望是如此。機器學習是不完美和無罪的致命組合。當機器學習出錯的時候(通常也是不可避免的),我們不知道該去責怪誰。

  這對於任何一種關鍵任務分析都是絕對不能容忍的。

  因此,距離我們把人工智慧訓練成社會最聰明的人,吸收全部知識,仍是非常遙遠的,遠超過5年。

  在此之前,我們很可能會看到機器學習專注於某些場景的應用。例如結構化數據集的黑盒預測分析;人類輔助技術可以讓人們看到不同數據源之間的連接,糾正常見錯誤,發現異常現象。這些並不是科幻小說中所提到的超級大腦,但它們會讓用戶更容易找到問題,並幫助引導他們找到正確的答案。

  雖然分析是一個巨大的市場,充斥著令人困惑的營銷言論,但一些大的趨勢也可以幫助企業決定在哪裡進行投入。

  未來5年,這些大的趨勢可能會影響到組織使用的工具,得到融資的數據分析型創業公司,以及我們在整個數據分析領域中看到的創新,從數據倉庫到可視化分析前端。在需要弄清楚數據架構和技術堆棧應該是什麼樣子的時候,要根據自身實際情況,做出明智的決策。

相關焦點

  • 你有沒有想過,你可能高估了統計學(二)
    在前一節【你有沒有想過,你可能高估了統計學(一)】,我們聊到了統計學的無所不在和它的趣味盎然。從《赤裸裸的統計學》這本書中,我們還會發現統計學不為人知的另一面。-3- 會欺騙人的統計學我們從網站上、報紙上會看到各行各業的統計數字,有一些數字讓你覺得可信,有一些卻會讓你產生懷疑。不要懷疑,統計數字的確可能會欺騙你。
  • SEM數據分析的4個誤區,你有沒有遇到過?
    SEM數據分析的4個誤區,你有沒有遇到過? 數據分析是每個從事SEM競價專員工作時必須著手的事情,而且數據分析也是SEM行業比較難做的事情。 作為一個推廣優化師,您真的了解數據嗎?世界上有三種謊言:謊言、糟糕透頂的謊言和數據。
  • 你有沒有想過,你可能高估了統計學(一)
    說回彩票,有人還是認為,這張彩票沒有中獎是運氣不好,如果一直買下去,總有一次能中獎。實際上,一個人長年累月地買彩票,中小獎的可能性很大,但是想通過中大獎賺回遠比買彩票還要多的錢,則幾乎不可能。這就要用到統計學的一個重要定律:大數定律,也就是隨著試驗次數的增多,結果的平均值會越來越接近期望值。剛才我們計算過,購買彩票的期望值就是花2元錢賺回0.8元。
  • 諾貝爾獎真的已經過時了?
    王教授可能忘了,僅僅五年之前,我國科學家屠呦呦還得過這個獎。當時她的獲獎理由是:如果用拯救多少人的生命來衡量偉大程度,那麼屠呦呦無疑是史上最偉大的科學家之一!這麼快就過時了?看到王教授這個提議,我倒是想起了另一個大學來,那就是美國的加州大學伯克利分校。在加州,有句口頭禪,最遠的距離不是伯克利到斯坦福的距離,而是你在伯克利和一個車位的距離。
  • 拿到數據後,你需要掌握哪些數據分析方法
    但是依然有很多人想知道如何下手對手裡的數據進行處理,從什麼維度進行分析。今天DataHunter數獵哥就來給大家分享一下,拿到數據以後,我們該用哪些方法來分析數據,獲得進一步工作指導。而數據分析方法則是指具體的分析方法,基本的分析方法有:對比分析、分組分析法、交叉分析法、結構分析法、漏鬥圖分析法、綜合評價分析法、因素分析法、矩陣關聯分析法等;高級的分析方法有:相關分析法、回歸分析法、聚類分析法、判斷分析法、成分分析法、因子分析法、對應分析法、時間序列等。
  • 你有沒有想過,時間可能並不存在
    通俗點講就是一天有24個小時,一小時60分鐘,一分鐘60秒,而一年則有365天。當你從家裡到公司的這段距離可能是半個小時;你從上海飛往紐約的航程可能需要14個小時;你喝完一杯牛奶可能需要5分鐘;你洗個澡可能需要15分鐘。你所做的任何事似乎都可以用時間的長短來測量,以此來規範調整我們的生活,安排我們需要做的事。
  • 數據分析方法:RFM模型
    編輯導語:RFM是很傳統的數據分析模型,幾乎所有文章都會提到它,然而市面上流傳的各種亂用、錯用也非常多;本文作者對RMF做出了詳細的分析,我們一起來了解一下。上一篇講了【用戶畫像高大上,但90%的人都做失敗了】以後,很多同學表示想看RFM,今天它來了。
  • SEM常用的4種數據分析方法,你用過幾種?
    有經驗的 SEMer 都知道,盡信數據則不如無數據。數據就躺在哪裡,關鍵在分析之前,你之前要 有清晰的思維邏輯:你為什麼要分析數據?你希望通過數據分析得到什麼?我一般的分析數據邏輯如下:確定分析的目的—>收集數據—>整理數據—>分析數據—>得到一些分析的思路今天主要分享下數據分析的常用方法,
  • 數據分析方法:趨勢分析法
    收集數據,觀察指標走勢因為已經明確了「銷售指標越高越好」,所以只要觀察數據就好了,我們看到一天比一天好,所以能下結論:銷售趨勢向好。下邊可以分析為啥銷售這麼好了;你看簡單吧,90%的網上文章、數據分析課都是這麼教的。然而,這個回答是錯的。因為根本沒考慮,到底是什麼行業、什麼產品的銷售業績。
  • 四種最常見的SEM數據分析方法,你用過幾種?
    公眾號後臺回復「數據分析」,獲取數據分析專題知識數據分析在SEM中是最為基礎的技能,說得簡單點,數據分析就是為了發現問題,並為解決問題提供數據參考。有經驗的SEMer都知道,盡信數據則不如無數據。數據就躺在哪裡,關鍵在分析之前,你之前要有清晰的思維邏輯:你為什麼要分析數據?你希望通過數據分析得到什麼?
  • 常用的數據分析方法及案例講解
    常用的數據分析方法有描述統計、信度分析、相關分析、回歸分析、聚類分析等。本文將結合實際案例,為大家一一講解這些數據分析的方法。如果你想了解如何做數據分析,就接著看下去吧~描述性統計分析是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。這也是我們在日常生活最常用的一種數據分析方法,因此這裡就不再用案例展開講解了。2、信度分析信度即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。企業在招聘員工時會有一套性格測試題,這裡面就用到了信度分析。
  • 一個真實案例教你運用數據分析
    我主要說一下確定目的、數據收集和分析環節:確定目的,別以為這個就那麼容易,不誇張10個人有8個不知道自己想幹什麼;數據收集,其實就是定義指標,把指標和規則定義清晰,要看活躍,幾日活躍,怎麼算活躍,很大程度決定了研發的時間周期有多少,很多情況是產品沒有想在前面,開發過程中反覆去溝通,確認規則,導致數據獲取的成本異常大,延期也就在所難免了;數據分析,要選擇科學的分析方法,目前分析方法多種多樣,對比分析
  • 4種最常見的 SEM 數據分析方法,你用過幾種?
    有經驗的 SEMer 都知道,盡信數據則不如無數據。數據就躺在哪裡,關鍵在分析之前,你之前要有清晰的思維邏輯:你為什麼要分析數據?你希望通過數據分析得到什麼?我一般的分析數據邏輯如下:確定分析的目的—>收集數據—>整理數據—>分析數據—>得到一些分析的思路今天主要分享下數據分析的常用方法,主要四種:1、趨勢分析方法
  • 使用if-else進行分支的方法已過時,分析多態性和現代方法更合適
    這或許是使代碼正常工作的第一步,但隨著你不斷改進代碼,switch和if-then-else肯定早已不復存在。我必須要說,使用if-else和switch進行分支的傳統方法已過時。它不可靠、不靈活。傳統方法中沒有面向對象的內容。但是它仍在蓬勃發展,因為學生們被迫認為它是正確的,甚至是最佳實踐。代碼是有效的,但你可以做得更好。
  • 在女孩子眼裡,男人的這些撩人套路,多半已經過時了,別不懂
    「星光在上,波光在下,我在你身邊,等著你回答。」喜歡一個人是一種感覺,心動的感覺,心跳的加速,心裡的惦記,心中的掛念。當你喜歡一個人時,你會不由自主地想去了解她,想接近她,想通過各種方式拉進你們之間的距離。
  • 如果你想轉型數據科學家,可能要掌握這幾個統計學技術
    我想分享本書中的10個統計技術,相信任何數據科學家都用得著。在學習使用這10種技術之前,我想區分一下統計學習和機器學習。我之前寫過一篇關於機器學習的文章,廣受歡迎,所以我相信自己有足夠的專業知識,證明以下內容:機器學習是人工智慧的一個子領域。統計學習是統計學的一個分支。機器學習更強調大規模應用和預測的準確性。統計學習強調模型及其可解釋性,精確性和不確定性。
  • 為什麼要做數據分析?具體方法是什麼?
    如果你的平臺的新增用戶在某個時間段持續暴增的話,那麼很有可能微信公眾平臺在這個時間發布了一些活動,用戶才會持續性的增加,那麼在這個時候你還需要去做的就是找到一些導致平臺增加的原因,並且記錄下來,為以後的平臺運營打下基礎,積累相關的經驗。
  • 5個要點,讓你擁有數據分析思維
    想要做好數據分析也一樣,單單會工具和技能是不夠的,還必須擁有數據分析思維。數據思維決定了你如何思考問題,如何搭配這些分析方法,如何得出結論,如何確定問題。那麼究竟什麼是分析思維呢?我認為有以下幾個方面。1. 說事實,而不是觀點數據分析師第一個要訓練的思維方式便是:只說事實,不說觀點。
  • 招聘數據分析怎麼寫?教你一招實用數據分析方法正文
    招聘數據分析怎麼寫?教你一招實用數據分析方法正文 2019年07月16日 16:10作者:黃頁編輯:黃頁
  • 想成為數據產品經理,先掌握這些數據分析方法論(二)
    之前在《想成為數據產品經理,先掌握這些數據分析方法論》一文中,分享了一些基礎的數據分析方法,從業務分析、用戶分析和產品運營三個方面提供了一些分析的切入角度。接下來,進階一步,我們再來看看還有哪些實用的分析工具。一、業務分析:如何做診斷歸因?