FineBI:數據挖掘的車,開了

2020-11-25 數據分析不是個事兒

我是帆軟數據挖掘的產品經理,在FineBI的新版本5.0中,你們將看到數據挖掘功能,這是我們第一次做數據挖掘功能,自然是要廣而告之了。

市場部的同事來找我,希望我來寫一篇文章宣傳一下,作為產品經理,責無旁貸嘛。傳統宣傳三段論:功能業務價值好大->我們功能做得真好->客戶給我們的評價很棒。嗯,這很簡單,但缺了點什麼。是什麼呢?是誠意。所以我要寫一些我真實的感受和想法,相信用心寫的文字可以被感受到,和產品一樣的。

數據挖掘很有趣,也很有用

這是我開始數據挖掘產品到現在以來最深的感受。

你一定聽過黃金分割比率1.618,植物葉片形狀、DNA分子結構、銀河系的運行軌道都有這個比率的存在。你也應該聽過斐波那契數列,從第三項開始,每一項都等於前兩項之和:1、1、2、3、5、8、13、21、34...... ,這個數列後一項與前一項的比值無窮接近黃金分割1.618,是不是很神奇。同樣的,自然中到處都是斐波那契數列,花瓣以及果實的排列方式,兔子的繁殖。再進一步,我們看斐波那契數列還有一個神奇的規律,前面n項的平方和=n項*n+1項,為什麼?用一個圖形來解釋一下:

因崔斯汀,但有什麼用呢?首先,設計師對黃金分割的研究是很深入的,這個不談。不知道你是否聽過,股市中有個神奇的規律,不可解釋但卻有用,這就是斐波那契數列周期,看大盤的走勢,可以看出每一次市場的月線回調連續下跌有一定的規律,即中級別的月線下跌往往調整5個月左右,大級別的下跌往往調整8個月左右,超大級別的下跌往往會在13個月附近見底。斐波那契數列在股市的時間變盤過程中起到了一定的預測作用,雖然不能保證每次預測的百分之百的正確,但多少也給投資者指出了一個方向。而從這裡我看到的是,數學真的是很有用。

該說數據挖掘了,數據挖掘的定義是有很多的,解讀它的定義是沒什麼意思的。我覺得,數據挖掘是拉近了數學和業務場景的距離的。比如我們曾經學過的線性代數,你可能已經忘了,可以通過下面的公式來回憶一下。

矩陣的乘法為什麼這樣規定?為什麼這麼奇怪的乘法規則可以在實踐中有著巨大的作用?很多看上去完全不相關的問題,最後卻都可以歸結到矩陣的乘法上,是不是很神奇?在矩陣乘法規則之下,是不是隱藏著世界的某些本質規律?

在我們的物理空間中,是存在運動的,在線性空間內,也是有運動的,而矩陣的乘法就是用來表達線性空間中對象的運動的。為了讓你還能讀下去,這裡不能更多的展開了。你可能會問,矩陣運算也好,線性空間運動也好,它有什麼用?當然是有用的,這些很難和生活聯繫起來的數學知識,在數據挖掘中都會用起來的。

人工神經網絡相信你一定有所耳聞,然而你知道嗎,人工神經網絡中的每一層,都是由矩陣運算連接著的。它是什麼作用呢,最基本的了解,看這個例子就夠了。下面兩個圖,紅線是一組數據,藍線是一組數據,如何用一條直線把兩組數據分開呢?(單層神經網絡只能畫出n-1維的超平面,所以二維數據只能劃出一條線)

答案就是增加一層神經元,將這個二維的空間的數據,通過矩陣乘法,運動到三維線性空間,形成下圖所示的數據。這樣,就可以一刀切下去,把兩組數據分開了,而再把這三維線性空間變回二維,中間切開的那條直線,就變成了上圖中的分割線,是條曲線。是不是很神奇?

所以,神經網絡的層數越多,他解決複雜問題的能力就越強,它可以識別風險、可以聽聲音、還可以鑑黃,前些日子又因為下棋大火了一把。當然,不管是矩陣運算,或是神經網絡,都不是我今天的目的,他們都足夠單獨開幾個主題了。你看,數學\數據挖掘是這麼的因崔斯汀,這些知識也有如此多的應用,只是用起來難度確實高了點。想像一下,如果把這些知識封裝起來整合到產品中,讓很多企業都能享受數學福利,豈不是很贊。不用說,有這種想法的人,我不是第一個,這類的產品,市場上已經很多了。

有的在實幹,有的在張望,有的在忽悠

這是我眼中的市場現象。數據挖掘知識能夠發展,還是因為它有著巨大的商業價值,將它揉碎嚼爛應用到產品中,並且給企業帶來商業價值的案例比比皆是。谷歌的搜索、抖音的推薦、阿里的醫療,隨便一個都是讓我們羨慕又讚嘆的應用。

當然了,總要有人走在前面。如果你的企業還沒有玩轉數據挖掘,相信你也這樣想過。他們因為對技術的掌握和應用賺得盆滿缽滿,我們雖然不能嫉妒,但也想通過這些技術喝點湯啊,畢竟已經有人走在了前面,應該不難吧。若是把他們走過的路原樣都走一遍,好像也不太容易。但是如果將他們走過的路修一修,再通上公交車,這樣走過去就好多了。同樣,意識到這個問題的人,我不是第一個。

(公交車意指市面上各種通用的數據挖掘類工具)

市場上的公交車也不少,大車小車,使命必達者為好車。可有一些車還真的是不夠好,它不看路只會走直線。如果只是想要時間序列,就集成時間序列;想要聚類就集成聚類,要不了多久,這產品就已經功能齊全算法無數了。這樣堆積功能的產品,除了POC時風光一時,真正用起來卻各種彆扭。整塊整塊開源算法的粗暴集成,讓它們不能適應各種業務場景,而需要場景來適應算法,比如它的時序預測只支持一條序列,莫非讓人家有好幾百個產品的公司排隊預測嗎?這樣造就了功能好買不好用的局面,中小企業通過第三方挖掘工具創造的挖掘價值的數量,並不理想。

我們來晚了,可這車一開,就停不下來

數學與數據挖掘很早就存在了,他們有趣也有用。沒有更早一點開發她們的價值,服務我們的客戶,是有遺憾的。往者不可諫,來者猶可追,我們還是來了。而且,我們為此做了些準備。FineBI5.0,我們吃透了一些算法也帶來了這些算法,涉及了時間序列、聚類、關聯規則、回歸、分類這五類算法。我們知道,這還不夠,學的越多越是覺得深不可測,所以,我們集成了R語言,很快也會集成Python,他山之石可以攻玉嘛。但是,這還是不夠。

吃透的知識不是懂了,而是會用了,我們這車,賣出了票不行,送到你想去的地方才是價值。所以,在產品發布之前,我們就與我們的客戶合作,將數據挖掘的價值應用到客戶的業務中。這段時間,我們實現了採購價格異常的檢測,我們實現了銷售量的預測,我們將誤差率降低到了三期權重誤差為0.13;我們正挑戰門店地址的銷售額評估,樣本量很少條件很艱苦,但我們也有了突破;我們跑了幾十種算法對比分析、做了幾百次的特徵選擇、遍歷過算法的所有參數。我們也知道,現在的我們,現在的產品,都還只是初級階段,要走的路還很遠,這只是開始,但我們已經開始,就不會停下來,未來會有更強大的功能更深入的應用。

數學是個好東西,她可以服務更多的人,讓高斯、萊布尼茲、歐拉、黎曼重新走進你的生活如何?總之,我們即將發車了,現在的票價不貴,等你上車,數學的樂趣和價值給你,使命必達給我們。

大風起兮雲飛揚

1、基於過去的航空公司乘客數據預測未來十個月的乘客數量

2、基於已有會員數據預測未註冊客戶的會員等級

3、根據花萼長度和寬度、花瓣長度和寬度來對花卉種類分類。

最後,FineBI 5.0 已在官網上線,趕緊上車,體驗一把數據挖掘!

相關焦點

  • FineBI的數據分析操作,竟然是一個升級版的數據透視表
    你可以把它是做為是可視化工具,因為他裡面自帶幾十種常用圖表,以及動態效果;你也可以把它作為報表工具,因為他可視化報表展現,以表格狀、以dashboard狀;你也可以把它看作是數據分析工具,因為如果你有數據,你想分析,可以藉助FineBI做一些探索性的分析,其內置等數據模型、圖表。但嚴格定義來講,他其實一款自助式BI。
  • 數據統計分析——可視化看板(駕駛艙)
    和數據打交道十五年了,我和大家一樣,初學階段也是學習excel的各種技巧,也學習了各種的函數公式,但是學到最後,發現excel的技巧對我來說幾乎沒什麼用,函數公式學了幾百個,最後,經常用到的也只是個位數,而且,當excel工作表數據量增大時,函數公式就帶不動了,比較卡,怎麼辦呢?
  • 同步零時差,全新可視化,這樣的FineBI很黑科技!
    (demo.finebi.com)全新的實時分析應用案例,獲取零時差數據全新的行業分類模版,更全面更美觀新增矩形樹圖、多層餅圖、漏鬥圖、複雜表、多類過濾組件,滿足用戶更多應用場景支持組件最大化,便於更清晰的查看提供散點圖、氣泡圖新方案支持一鍵將模板全部導出,支持圖片與數據雙格式功能舉例1:新增圖表種類&
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 淺議概率拓撲與數據分析挖掘的關係
    數據挖掘分析,是一種在非結構化、雜亂無章的數據中,通過一定的數學方 法,挖掘出有用信息的過程。本文旨在通過研究一些常用算法的數學原理,並運 用一系列的數學知識加以解釋,從而闡釋一種數據挖掘分析的新思路。一、拓撲學簡介拓撲學,是一門研究幾何圖形不隨形狀改變而改變的性 質的學科,只考慮物體間的位置關係而不考慮其形狀與大小。
  • 數據挖掘常用的算法
    很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?  知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。  數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。
  • 韓家煒Jiawei Han訪談錄(數據挖掘)
    該網站就是使用了類似於協同過濾的算法或者一些其它的數據挖掘算法來達到這樣的效果。你還可以想像一下 Google,人們搜索網頁的時候,他們會用到一些有用的挖掘結果。所以對於這些不可見的數據挖掘技術,即使這些網絡公司說他們不是真正地做數據挖掘的,但是實際上他們在使用類似的數據挖掘方法。我認為這可能是我看到的最有意思的應用領域。將會有越來越多的應用領域出現。
  • 大數據中數據挖掘的基本步驟
    導讀 數據挖掘基本步驟,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
  • 大數據_數據挖掘技術分類及應用
    數據豐富、知識貧乏已經成為一個典型問題。Data Mining(數據挖掘)的目的就是有效地從海量數據中提取出需要的答案,實現「數據-〉信息-〉知識-〉價值」的轉變過程。   (數據挖掘)是指用非平凡的方法從海量的數據中抽取出潛在的、有價值的知識(模型或規則)的過程。
  • 數據挖掘的知識類型
    二、關聯模式關聯模式挖掘旨在從大量的數據當中發現特徵之間或者數據之間的相互依賴關係。這種存在於給定數據集中的頻繁出現的關聯模式,又稱為關聯規則。關聯可以分為簡單關聯,時序關聯,因果關聯等。三、分類分類是數據挖掘中一項非常重要的任務,利用分類可以從數據集中提取描述數據類的一個函數或模型(也常稱為分類器),並把數據集中的每個對象歸結到某個已知的對象類中。
  • 數據挖掘(DataMining)概述
    1.數據挖掘的定義數據挖掘:指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘在面向用戶的網際網路產品中發揮著及其重要的作用。,縮小處理範圍,提高數據挖掘的質量;數據預處理:檢查數據的完整性及一致性,消除噪聲。
  • 電子商務大數據挖掘常用算法
    通過採用關聯分析方法來對挖掘數據中的關聯性規則,能夠幫助企業採取適當的營銷方式對商品進行宣傳,從而有利於促進新產品的銷售。同時,這也有利於消費者發現新產品,從而進一步促進了新產品的宣傳與銷售。在電子商務系統中,利用關聯規則分析並挖掘出各數據之間的相互關係。例如,採用關聯規則技術在商品推薦子系統中發現新市場。根據用戶當前的購買習慣向該用戶進行商品推薦。
  • 數據產品經理之數據分析與挖掘
    本文主要跟大家講講,如何通過數據分析和數據挖掘從數據中獲取相關信息和挖掘價值,enjoy~自2014年以來,「大數據」連續六年進入國務院政府工作報告,彰顯出國家對於大數據戰略的重視。作為如今網際網路+過程中最火熱的關鍵詞之一,大數據越來越火,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據的商業價值發掘利用相關的技術和知識越來越引起政府、企業和求職者的重視。
  • 乾貨 面向大數據的時空數據挖掘
    面向大數據的時空數據挖掘的重要性  20世紀90年代中後期,數據挖掘領域的一些較成熟的技術,如關聯規則挖掘、分類、預測與聚類等被逐漸用於時間序列數據挖掘和空間結構數據挖掘,以發現與時間或空間相關的有價值的模式,並且得到了快速發展。
  • AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)
    大數據時代、人工智慧時代,機器學習、人工智慧、深度學習、集成學習……概念漫天飛,數據挖掘似乎成為一個過時技術和概念。今天小編結合多年專業學習與研究經驗,從實踐應用的角度重新梳理一下「數據挖掘」,讓您能夠拋開概念了解本質!
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    數據挖掘與數據科學的定義數據挖掘是一種基於大量信息分析的自動數據搜索。其目標是識別趨勢和模式,這是傳統分析技術無法做到的。複雜的數學算法用於分割數據並估計後續事件的可能性。而每個數據科學家都需要了解數據挖掘。在哪裡使用數據科學?
  • 數據挖掘與統計分析的區別
    多元統計老師說:「數據挖掘是以統計分析為基礎的,多數在採用統計分析的方法」。我有不同的觀點,就寫點東西出來,大家可以自己評述。
  • 數據挖掘非常重要的一步:數據預處理
    為什麼數據處理很重要對數據挖掘熟悉的小夥伴,數據處理相關佔據了整個項目的工作時間60%以上的。數據的質量,直接決定了模型的預測和泛化能力的好壞。它涉及很多因素,包括:準確性、完整性、一致性、可信性和解釋性。
  • 科學網—韓家煒:數據挖掘第一人
    「他有『數據挖掘第一人』之稱,是伊利諾伊大學香檳分校具有國際影響力的著名科學家,我們很多學生都選了他的課。」 「我上個月去聽了韓家煒教授的講座,果然是學術大牛,分析問題一針見血,講述道理深入淺出,原先對數據挖掘領域許多一知半解的問題都豁然開朗。」一個園藝設計專業的中國留學生介紹。
  • 12款實用的數據挖掘工具
    免費的數據挖掘工具包括從完整的模型開發環境如Knime和Orange,到各種用Java、c++編寫的庫,最常見的是Python。數據挖掘中通常涉及到四種任務:分類:將熟悉的結構概括為新數據的任務聚類:在數據中以某種方式查找組和結構的任務,而不需要在數據中使用已注意的結構。