我是帆軟數據挖掘的產品經理,在FineBI的新版本5.0中,你們將看到數據挖掘功能,這是我們第一次做數據挖掘功能,自然是要廣而告之了。
市場部的同事來找我,希望我來寫一篇文章宣傳一下,作為產品經理,責無旁貸嘛。傳統宣傳三段論:功能業務價值好大->我們功能做得真好->客戶給我們的評價很棒。嗯,這很簡單,但缺了點什麼。是什麼呢?是誠意。所以我要寫一些我真實的感受和想法,相信用心寫的文字可以被感受到,和產品一樣的。
數據挖掘很有趣,也很有用
這是我開始數據挖掘產品到現在以來最深的感受。
你一定聽過黃金分割比率1.618,植物葉片形狀、DNA分子結構、銀河系的運行軌道都有這個比率的存在。你也應該聽過斐波那契數列,從第三項開始,每一項都等於前兩項之和:1、1、2、3、5、8、13、21、34...... ,這個數列後一項與前一項的比值無窮接近黃金分割1.618,是不是很神奇。同樣的,自然中到處都是斐波那契數列,花瓣以及果實的排列方式,兔子的繁殖。再進一步,我們看斐波那契數列還有一個神奇的規律,前面n項的平方和=n項*n+1項,為什麼?用一個圖形來解釋一下:
因崔斯汀,但有什麼用呢?首先,設計師對黃金分割的研究是很深入的,這個不談。不知道你是否聽過,股市中有個神奇的規律,不可解釋但卻有用,這就是斐波那契數列周期,看大盤的走勢,可以看出每一次市場的月線回調連續下跌有一定的規律,即中級別的月線下跌往往調整5個月左右,大級別的下跌往往調整8個月左右,超大級別的下跌往往會在13個月附近見底。斐波那契數列在股市的時間變盤過程中起到了一定的預測作用,雖然不能保證每次預測的百分之百的正確,但多少也給投資者指出了一個方向。而從這裡我看到的是,數學真的是很有用。
該說數據挖掘了,數據挖掘的定義是有很多的,解讀它的定義是沒什麼意思的。我覺得,數據挖掘是拉近了數學和業務場景的距離的。比如我們曾經學過的線性代數,你可能已經忘了,可以通過下面的公式來回憶一下。
矩陣的乘法為什麼這樣規定?為什麼這麼奇怪的乘法規則可以在實踐中有著巨大的作用?很多看上去完全不相關的問題,最後卻都可以歸結到矩陣的乘法上,是不是很神奇?在矩陣乘法規則之下,是不是隱藏著世界的某些本質規律?
在我們的物理空間中,是存在運動的,在線性空間內,也是有運動的,而矩陣的乘法就是用來表達線性空間中對象的運動的。為了讓你還能讀下去,這裡不能更多的展開了。你可能會問,矩陣運算也好,線性空間運動也好,它有什麼用?當然是有用的,這些很難和生活聯繫起來的數學知識,在數據挖掘中都會用起來的。
人工神經網絡相信你一定有所耳聞,然而你知道嗎,人工神經網絡中的每一層,都是由矩陣運算連接著的。它是什麼作用呢,最基本的了解,看這個例子就夠了。下面兩個圖,紅線是一組數據,藍線是一組數據,如何用一條直線把兩組數據分開呢?(單層神經網絡只能畫出n-1維的超平面,所以二維數據只能劃出一條線)
答案就是增加一層神經元,將這個二維的空間的數據,通過矩陣乘法,運動到三維線性空間,形成下圖所示的數據。這樣,就可以一刀切下去,把兩組數據分開了,而再把這三維線性空間變回二維,中間切開的那條直線,就變成了上圖中的分割線,是條曲線。是不是很神奇?
所以,神經網絡的層數越多,他解決複雜問題的能力就越強,它可以識別風險、可以聽聲音、還可以鑑黃,前些日子又因為下棋大火了一把。當然,不管是矩陣運算,或是神經網絡,都不是我今天的目的,他們都足夠單獨開幾個主題了。你看,數學\數據挖掘是這麼的因崔斯汀,這些知識也有如此多的應用,只是用起來難度確實高了點。想像一下,如果把這些知識封裝起來整合到產品中,讓很多企業都能享受數學福利,豈不是很贊。不用說,有這種想法的人,我不是第一個,這類的產品,市場上已經很多了。
有的在實幹,有的在張望,有的在忽悠
這是我眼中的市場現象。數據挖掘知識能夠發展,還是因為它有著巨大的商業價值,將它揉碎嚼爛應用到產品中,並且給企業帶來商業價值的案例比比皆是。谷歌的搜索、抖音的推薦、阿里的醫療,隨便一個都是讓我們羨慕又讚嘆的應用。
當然了,總要有人走在前面。如果你的企業還沒有玩轉數據挖掘,相信你也這樣想過。他們因為對技術的掌握和應用賺得盆滿缽滿,我們雖然不能嫉妒,但也想通過這些技術喝點湯啊,畢竟已經有人走在了前面,應該不難吧。若是把他們走過的路原樣都走一遍,好像也不太容易。但是如果將他們走過的路修一修,再通上公交車,這樣走過去就好多了。同樣,意識到這個問題的人,我不是第一個。
(公交車意指市面上各種通用的數據挖掘類工具)
市場上的公交車也不少,大車小車,使命必達者為好車。可有一些車還真的是不夠好,它不看路只會走直線。如果只是想要時間序列,就集成時間序列;想要聚類就集成聚類,要不了多久,這產品就已經功能齊全算法無數了。這樣堆積功能的產品,除了POC時風光一時,真正用起來卻各種彆扭。整塊整塊開源算法的粗暴集成,讓它們不能適應各種業務場景,而需要場景來適應算法,比如它的時序預測只支持一條序列,莫非讓人家有好幾百個產品的公司排隊預測嗎?這樣造就了功能好買不好用的局面,中小企業通過第三方挖掘工具創造的挖掘價值的數量,並不理想。
我們來晚了,可這車一開,就停不下來
數學與數據挖掘很早就存在了,他們有趣也有用。沒有更早一點開發她們的價值,服務我們的客戶,是有遺憾的。往者不可諫,來者猶可追,我們還是來了。而且,我們為此做了些準備。FineBI5.0,我們吃透了一些算法也帶來了這些算法,涉及了時間序列、聚類、關聯規則、回歸、分類這五類算法。我們知道,這還不夠,學的越多越是覺得深不可測,所以,我們集成了R語言,很快也會集成Python,他山之石可以攻玉嘛。但是,這還是不夠。
吃透的知識不是懂了,而是會用了,我們這車,賣出了票不行,送到你想去的地方才是價值。所以,在產品發布之前,我們就與我們的客戶合作,將數據挖掘的價值應用到客戶的業務中。這段時間,我們實現了採購價格異常的檢測,我們實現了銷售量的預測,我們將誤差率降低到了三期權重誤差為0.13;我們正挑戰門店地址的銷售額評估,樣本量很少條件很艱苦,但我們也有了突破;我們跑了幾十種算法對比分析、做了幾百次的特徵選擇、遍歷過算法的所有參數。我們也知道,現在的我們,現在的產品,都還只是初級階段,要走的路還很遠,這只是開始,但我們已經開始,就不會停下來,未來會有更強大的功能更深入的應用。
數學是個好東西,她可以服務更多的人,讓高斯、萊布尼茲、歐拉、黎曼重新走進你的生活如何?總之,我們即將發車了,現在的票價不貴,等你上車,數學的樂趣和價值給你,使命必達給我們。
大風起兮雲飛揚
1、基於過去的航空公司乘客數據預測未來十個月的乘客數量
2、基於已有會員數據預測未註冊客戶的會員等級
3、根據花萼長度和寬度、花瓣長度和寬度來對花卉種類分類。
最後,FineBI 5.0 已在官網上線,趕緊上車,體驗一把數據挖掘!