FineBI:數據挖掘的車,開了

2020-12-14 數據分析不是個事兒

我是帆軟數據挖掘的產品經理,在FineBI的新版本5.0中,你們將看到數據挖掘功能,這是我們第一次做數據挖掘功能,自然是要廣而告之了。

市場部的同事來找我,希望我來寫一篇文章宣傳一下,作為產品經理,責無旁貸嘛。傳統宣傳三段論:功能業務價值好大->我們功能做得真好->客戶給我們的評價很棒。嗯,這很簡單,但缺了點什麼。是什麼呢?是誠意。所以我要寫一些我真實的感受和想法,相信用心寫的文字可以被感受到,和產品一樣的。

數據挖掘很有趣,也很有用

這是我開始數據挖掘產品到現在以來最深的感受。

你一定聽過黃金分割比率1.618,植物葉片形狀、DNA分子結構、銀河系的運行軌道都有這個比率的存在。你也應該聽過斐波那契數列,從第三項開始,每一項都等於前兩項之和:1、1、2、3、5、8、13、21、34...... ,這個數列後一項與前一項的比值無窮接近黃金分割1.618,是不是很神奇。同樣的,自然中到處都是斐波那契數列,花瓣以及果實的排列方式,兔子的繁殖。再進一步,我們看斐波那契數列還有一個神奇的規律,前面n項的平方和=n項*n+1項,為什麼?用一個圖形來解釋一下:

因崔斯汀,但有什麼用呢?首先,設計師對黃金分割的研究是很深入的,這個不談。不知道你是否聽過,股市中有個神奇的規律,不可解釋但卻有用,這就是斐波那契數列周期,看大盤的走勢,可以看出每一次市場的月線回調連續下跌有一定的規律,即中級別的月線下跌往往調整5個月左右,大級別的下跌往往調整8個月左右,超大級別的下跌往往會在13個月附近見底。斐波那契數列在股市的時間變盤過程中起到了一定的預測作用,雖然不能保證每次預測的百分之百的正確,但多少也給投資者指出了一個方向。而從這裡我看到的是,數學真的是很有用。

該說數據挖掘了,數據挖掘的定義是有很多的,解讀它的定義是沒什麼意思的。我覺得,數據挖掘是拉近了數學和業務場景的距離的。比如我們曾經學過的線性代數,你可能已經忘了,可以通過下面的公式來回憶一下。

矩陣的乘法為什麼這樣規定?為什麼這麼奇怪的乘法規則可以在實踐中有著巨大的作用?很多看上去完全不相關的問題,最後卻都可以歸結到矩陣的乘法上,是不是很神奇?在矩陣乘法規則之下,是不是隱藏著世界的某些本質規律?

在我們的物理空間中,是存在運動的,在線性空間內,也是有運動的,而矩陣的乘法就是用來表達線性空間中對象的運動的。為了讓你還能讀下去,這裡不能更多的展開了。你可能會問,矩陣運算也好,線性空間運動也好,它有什麼用?當然是有用的,這些很難和生活聯繫起來的數學知識,在數據挖掘中都會用起來的。

人工神經網絡相信你一定有所耳聞,然而你知道嗎,人工神經網絡中的每一層,都是由矩陣運算連接著的。它是什麼作用呢,最基本的了解,看這個例子就夠了。下面兩個圖,紅線是一組數據,藍線是一組數據,如何用一條直線把兩組數據分開呢?(單層神經網絡只能畫出n-1維的超平面,所以二維數據只能劃出一條線)

答案就是增加一層神經元,將這個二維的空間的數據,通過矩陣乘法,運動到三維線性空間,形成下圖所示的數據。這樣,就可以一刀切下去,把兩組數據分開了,而再把這三維線性空間變回二維,中間切開的那條直線,就變成了上圖中的分割線,是條曲線。是不是很神奇?

所以,神經網絡的層數越多,他解決複雜問題的能力就越強,它可以識別風險、可以聽聲音、還可以鑑黃,前些日子又因為下棋大火了一把。當然,不管是矩陣運算,或是神經網絡,都不是我今天的目的,他們都足夠單獨開幾個主題了。你看,數學\數據挖掘是這麼的因崔斯汀,這些知識也有如此多的應用,只是用起來難度確實高了點。想像一下,如果把這些知識封裝起來整合到產品中,讓很多企業都能享受數學福利,豈不是很贊。不用說,有這種想法的人,我不是第一個,這類的產品,市場上已經很多了。

有的在實幹,有的在張望,有的在忽悠

這是我眼中的市場現象。數據挖掘知識能夠發展,還是因為它有著巨大的商業價值,將它揉碎嚼爛應用到產品中,並且給企業帶來商業價值的案例比比皆是。谷歌的搜索、抖音的推薦、阿里的醫療,隨便一個都是讓我們羨慕又讚嘆的應用。

當然了,總要有人走在前面。如果你的企業還沒有玩轉數據挖掘,相信你也這樣想過。他們因為對技術的掌握和應用賺得盆滿缽滿,我們雖然不能嫉妒,但也想通過這些技術喝點湯啊,畢竟已經有人走在了前面,應該不難吧。若是把他們走過的路原樣都走一遍,好像也不太容易。但是如果將他們走過的路修一修,再通上公交車,這樣走過去就好多了。同樣,意識到這個問題的人,我不是第一個。

(公交車意指市面上各種通用的數據挖掘類工具)

市場上的公交車也不少,大車小車,使命必達者為好車。可有一些車還真的是不夠好,它不看路只會走直線。如果只是想要時間序列,就集成時間序列;想要聚類就集成聚類,要不了多久,這產品就已經功能齊全算法無數了。這樣堆積功能的產品,除了POC時風光一時,真正用起來卻各種彆扭。整塊整塊開源算法的粗暴集成,讓它們不能適應各種業務場景,而需要場景來適應算法,比如它的時序預測只支持一條序列,莫非讓人家有好幾百個產品的公司排隊預測嗎?這樣造就了功能好買不好用的局面,中小企業通過第三方挖掘工具創造的挖掘價值的數量,並不理想。

我們來晚了,可這車一開,就停不下來

數學與數據挖掘很早就存在了,他們有趣也有用。沒有更早一點開發她們的價值,服務我們的客戶,是有遺憾的。往者不可諫,來者猶可追,我們還是來了。而且,我們為此做了些準備。FineBI5.0,我們吃透了一些算法也帶來了這些算法,涉及了時間序列、聚類、關聯規則、回歸、分類這五類算法。我們知道,這還不夠,學的越多越是覺得深不可測,所以,我們集成了R語言,很快也會集成Python,他山之石可以攻玉嘛。但是,這還是不夠。

吃透的知識不是懂了,而是會用了,我們這車,賣出了票不行,送到你想去的地方才是價值。所以,在產品發布之前,我們就與我們的客戶合作,將數據挖掘的價值應用到客戶的業務中。這段時間,我們實現了採購價格異常的檢測,我們實現了銷售量的預測,我們將誤差率降低到了三期權重誤差為0.13;我們正挑戰門店地址的銷售額評估,樣本量很少條件很艱苦,但我們也有了突破;我們跑了幾十種算法對比分析、做了幾百次的特徵選擇、遍歷過算法的所有參數。我們也知道,現在的我們,現在的產品,都還只是初級階段,要走的路還很遠,這只是開始,但我們已經開始,就不會停下來,未來會有更強大的功能更深入的應用。

數學是個好東西,她可以服務更多的人,讓高斯、萊布尼茲、歐拉、黎曼重新走進你的生活如何?總之,我們即將發車了,現在的票價不貴,等你上車,數學的樂趣和價值給你,使命必達給我們。

大風起兮雲飛揚

1、基於過去的航空公司乘客數據預測未來十個月的乘客數量

2、基於已有會員數據預測未註冊客戶的會員等級

3、根據花萼長度和寬度、花瓣長度和寬度來對花卉種類分類。

最後,FineBI 5.0 已在官網上線,趕緊上車,體驗一把數據挖掘!

相關焦點

  • 帆軟|探索性分析/數據挖掘/大數據大並發FineBI5.0更新
    FineBI 5.0可以說是真正能夠覆蓋「個人數據分析」到「企業數據價值挖掘」的數據分析平臺。  新版本賦予了其4類特性:數據分析挖掘、數據處理、大數據高性能、企業級數據管控。3、新增數據挖掘算法在5.0版本中,增加了五類挖掘算法,分別為時間序列、聚類、分類、回歸和關聯規則。
  • FineBI 5.0:新增數據挖掘功能,聚焦業務價值
    FineBI 5.0:新增數據挖掘功能,聚焦業務價值  當非民生支柱產業中的一個企業擁有產業的近半用戶,當 4 億多人中有 2 億人都在使用,你能想像到它具有多大的吸引力嗎?
  • 數據統計分析——可視化看板(駕駛艙)
    和數據打交道十五年了,我和大家一樣,初學階段也是學習excel的各種技巧,也學習了各種的函數公式,但是學到最後,發現excel的技巧對我來說幾乎沒什麼用,函數公式學了幾百個,最後,經常用到的也只是個位數,而且,當excel工作表數據量增大時,函數公式就帶不動了,比較卡,怎麼辦呢?
  • 小叮噹數據挖掘(一):初識數據挖掘
    值得一提的是,概括來說數據挖掘是指從海量數據中提取有價值的信息,而不是一些人們對數據挖掘的常見認知錯誤:「數據挖掘就是下載海量數據」,這是一種非常錯誤的認知!認識數據挖掘,小叮噹打算從認識數據、數據預處理、挖掘頻繁模式、關聯和相關、分類和預測的聚類分析、離群點檢測這幾部分為大家全面介紹。今天我們先來初識數據挖掘。1.為什麼要進行數據挖掘?
  • 一小時了解數據挖掘、數據挖掘步驟、常用的聚類、決策樹和CRISP-DM概念
    數據挖掘有很多不同的實施方法,如果只是把數據拉到Excel表格中計算一下,那只是數據分析,不是數據挖掘。本文主要講解數據挖掘的基本規範流程。CRISP-DM和SEMMA是兩種常用的數據挖掘流程。  數據挖掘的一般步驟  從數據本身來考慮,數據挖掘通常需要有信息收集、數據集成、數據規約、數據清理、數據變換、數據挖掘實施過程、模式評估和知識表示8個步驟。  步驟(1)信息收集:根據確定的數據分析對象,抽象出在數據分析中所需要的特徵信息,然後選擇合適的信息收集方法,將收集到的信息存入資料庫。
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 數據挖掘入門:校園數據的分析與挖掘
    因此,做好招生工作的研究和挖掘,提高生源質量,顯得尤為重要。隨著網上招生錄取工作的普及,各校招生部門積累了大量的招生數據。但目前,這些數據僅用於簡單的查詢。在這些數據中蘊藏的大量規律,還未被挖掘出來用於輔助招生工作的決策。科學合理地制定招生計劃、安排獎優資困政策、有所側重地加強與中學的聯繫,需要準確找到影響優質生源報考本校本科和研究生院的重要因素。
  • 數據挖掘用什麼軟體_商業數據挖掘案例
    所謂的數據挖掘其實就是在大量的的非結構化數據裡搜索可用的數據,並提取隱含在其中、人們事先不知道的、但又有潛在應用價值的過程。Smartbi數據挖掘工具揭示的是未知的、將來的數據關係。數據挖掘的知識領域涵蓋了資料庫技術、統計學知識、機器學習、可視化等多學科知識的綜合應用。Smartbi Mining平臺是一個注重於實際生產應用的數據分析預測平臺,它旨在為個人、團隊和企業所做的決策提供預測。該平臺不僅可為用戶提供直觀的流式建模、拖拽式操作和流程化、可視化的建模界面,還提供了大量的數據預處理操作。
  • 大數據之數據挖掘
    —— 「數據挖掘」。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關係性(屬於Association rule learning)的信息的過程。主要有數據準備、規律尋找和規律表示3個步驟。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。
  • 數據挖掘要用什麼軟體呢?商業數據挖掘案例
    所謂的數據挖掘其實就是在大量的的非結構化數據裡搜索可用的數據,並提取隱含在其中、人們事先不知道的、但又有潛在應用價值的過程。 Smartbi數據挖掘工具揭示的是未知的、將來的數據關係。數據挖掘的知識領域涵蓋了資料庫技術、統計學知識、機器學習、可視化等多學科知識的綜合應用。
  • 科研必備:關於數據挖掘的基礎知識
    後來我就開始轉變觀念,也嘗試學習數據挖掘。以前沒用過不知道,這一用數據挖掘,發現真是科研神器啊!~~導師再也不用擔心我發論文了~~但是問題在於,數據挖掘這麼有用,可很少有地方可以系統而直觀地學。具體來說,該課程包括但不限於以下重要內容:第一講:數據挖掘的介紹數據挖掘的由來數據挖掘的應用基本概念區分數據挖掘基本內容數據挖掘基本特徵數據挖掘的其他主題第二講:數據挖掘系統數據挖掘工具
  • 同步零時差,全新可視化,這樣的FineBI很黑科技!
    (demo.finebi.com)全新的實時分析應用案例,獲取零時差數據全新的行業分類模版,更全面更美觀新增矩形樹圖、多層餅圖、漏鬥圖、複雜表、多類過濾組件,滿足用戶更多應用場景支持組件最大化,便於更清晰的查看提供散點圖、氣泡圖新方案支持一鍵將模板全部導出,支持圖片與數據雙格式功能舉例1:新增圖表種類
  • 如何系統地學習數據挖掘?
    在學習數據挖掘之前應該明白幾點:●數據挖掘目前在中國的尚未流行開,猶如屠龍之技。●數據初期的準備通常佔整個數據挖掘項目工作量的70%左右。●數據挖掘本身融合了統計學、資料庫和機器學習等學科,並不是新的技術。
  • 專家講座:價值提升—數據統計分析與數據挖掘
    四、課程題目:數據統計分析與數據挖掘  五、課程背景:電信市場經營分析是以探索企業關心的問題為目標,以數據為基礎,以定量分析為主要手段說明、預測和評價企業的經營活動然而,很多地區的移動公司經營分析人員由於對分析流程、方法和軟體使用缺乏系統了解,因此經營分析的報告只停留在數據和信息的流水帳式的通報,缺乏對客戶、業務、營銷、競爭方面的深入分析,由此電信經營分析價值和意義大打折扣。本課程著眼於數據的分析和統計,教授如何挖掘數據背後的規律和隱含的信息。
  • 大數據_數據挖掘技術分類及應用
    數據豐富、知識貧乏已經成為一個典型問題。Data Mining(數據挖掘)的目的就是有效地從海量數據中提取出需要的答案,實現「數據-〉信息-〉知識-〉價值」的轉變過程。   (數據挖掘)是指用非平凡的方法從海量的數據中抽取出潛在的、有價值的知識(模型或規則)的過程。
  • 數據分析和數據挖掘的區別——Smartbi
    數據挖掘一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
  • 《數據挖掘R語言實戰》圖書介紹,數據挖掘相關人員看過來!
    今天介紹一本書《數據挖掘R語言實戰》。數據挖掘技術是當下大數據時代最關鍵的技術,其應用領域及前景不可估量。R是一款極其優秀的統計分析和數據挖掘軟體,R語言的特點是入門容易,使用簡單。這本書側重使用R進行數據挖掘,重點進述了R的數據挖掘流程、算法包的使用及相關工具的應用,同時結合大量精選的數據挖掘實例對R軟體進行深入潛出和全面的介紹,以便讀者能深刻理解R的精髓並能快速、高效和靈活地掌握使用R進行數據挖掘的技巧。本書以數據預處理、基本算法及應用和高級算法及應用這三篇展示。
  • 匯總版|最全數據分析資料匯總(趣味Python、商業數據分析、爬蟲等等)
    商業數據分析(方法論、實戰)•一文詳解八大數據分析方法,數據分析必備!•從入門到進階,那些讓你看了以後大呼過癮的數據分析六件套•Python分析了5年的滬指數據,這茬韭菜沒那麼容易被割•乾貨|只需5步,手把手教你識別客戶購買意願(附代碼數據)•實戰|手把手教你如何去做一份商業數據分析報告•Python數分實戰|從六個視角分析了58萬條電商用戶行為數據•乾貨|只需5步,手把手教你識別客戶購買意願(附代碼數據)•數位化轉型時代,數據如何驅動產品迭代Python爬蟲
  • 數據挖掘|市場營銷研究所
    什麼是數據挖掘?數據挖掘是公司用於將原始數據轉化為有用信息的過程。通過使用軟體查找大批量數據中的模式,企業可以了解有關其客戶的更多信息,從而制定更有效的營銷策略,增加銷售量並降低成本。數據挖掘取決於有效的數據收集,  倉儲和計算機處理。數據挖掘過程用於構建機器學習模型,以支持包括搜尋引擎技術和網站推薦程序在內的各種應用程式。
  • 數據挖掘有哪些誤區?
    數據挖掘是一種非常有力的分析工具,它可以幫助企業主管們通過了解顧客的歷史行為的信息來預測他們將來的行為。它找到了解開顧客行為秘密的模式,這些發現可被用於創造利潤,縮減成本。那麼,數據挖掘有哪些誤區呢?今天就跟隨小編一起來了解下吧!