【IT168資料庫大會現場報導】2014年4月10日-12日,第五屆中國資料庫技術大會(DTCC 2014)在北京五洲皇冠國際酒店拉開序幕。今天是12日下午的專場8:數據倉庫設計和管理。對於聽了三天大會的朋友來說,真是辛苦了,短短三天,腦子塞了滿滿的資料庫、大數據、數據分析、資料庫設計模式等知識,我在這裡奉勸一下,走的時候留點神,避免情緒過於激動,動作過於猛烈,以防知識從腦子裡掉出來,哈哈!
▲點擊進入第五屆中國資料庫技術大會(DTCC 2014)報導專題
筆者作為大會主辦方的報導編輯,也總算是熬出來了。相比每個技術愛好者、技術大牛們的收穫而言,小弟我收穫了一份大會5年親身經歷的情感。大會結束、明年再來,且行且珍惜吧。
言歸正傳,在今天下午的內容專場,高峽老師重點的內容大致包括:1.OLAP產生的背景 2.範式設計 3.反範式 4.OODB 模式 5.EAV Entity Attribute Value 6.PIVOTING 7.XML 8.No-Schema 9.Relational Database 的發展。
我在這裡作為偏離技術比較遠的記者來說,只能走馬觀花的介紹啦,請各位看官指導,批評。不過需要補充的是,看不太懂,或者不盡如意的時候,您可以稍晚在官方下載PPT,那樣的話會更全面。
▲高峽:重慶眾意網科技有限公司CTO
開場,高峽老師說:「做大數據出什麼書好?出商業模式的書,比如《大數據在洗腳城的應用》,如果在大俗的情況下做到大雅,這樣的話國家對於數據治理的程度該有多高?因此,技術人才要錘鍊商業模式,單純的寫代碼不太高明。除了技術商,還要有財商。還是多看看商業場景吧。」
技術男要看清商業場景和商業價值
手中只有錘子,看到的都是釘子,這是一種工匠精神。現在是大數據的環境,先看在關係型資料庫裡沉澱了什麼東西。技術人要懂得挖掘技術背後的商業模式。本文主要介紹了其中的部分技術和商業模式,更多的請會後下載PPT。
1、集合思維,沉澱的最深刻的思維。關係型資料庫中引入了序列表,非常有價值。把一段字符串按照分隔符分開,非常簡單,寫一個邏輯就OK了,但是在數據中不要這麼做,而是要引入序列表,有一個集合思維,也是關係型資料庫屹立不倒的原因。程式設計師的思維是引入光標,而資料庫的思維則是集合思維。
2、範式設計,有幾個範式規範了關係型數據中有價值的東西。比如微博中的資料庫設計也是通過增加冗餘實現。還要保證完整性。微博中最重要的動作是看用戶的時間線,看一個帖子的時間線,這就是微博的商業場景,規範了整個微博動作的最重要的兩個動作。這就涉及到了分區。對於時間線的把握非常好,越近的越有價值,這就是Twitter的成功之處。
大家碰到商業場景時,要看清楚行為分析模式分為哪幾類。
3、KV存儲,最典型的是WordPrees。使用WordPress可以搭建功能強大的網絡信息發布平臺,但更多的是應用於個性化的博客。針對博客的應用,WordPress能讓您省卻對後臺技術的擔心,集中精力做好網站的內容。對用戶的需求進行描述,一張表在關係型資料庫中做不出來,在大數據的資料庫中可能做得出來。
4. EAV(Entiry-Attribute-Value)
案例:Magento
Magento 是一款新的專業開源電子商務平臺,Magento電子商務平臺採用php進行開發,使用Zend Framwork框架。Magento設計得非常靈活,具有模塊化架構體系和豐富的功能。易於與第三方應用系統無縫集成。在設計上,包含相當全面,以模塊化架構體系,讓應用組合變得相當靈活,功能也相當豐富。
功能:1.強大的商品屬性組合;2.購物車價格規則;3.靈活的模板系統;4.多網店系統
;5.完善的插件體系;6.安全加密;7.企業應用集成。
架構
5. FTS – Full Text Search
索引都是建立在基礎的架構,比如Google和雅虎等等。倒排文件索引:行式資料庫中比較困難是因為倒排做得不好。
案例:
6、Pivoting 行列轉換
資料庫論壇問得最多的問題、資料庫行列本身的限制。解決Pivoting問題:在二維資料庫裡面解決Pivoting
7. XML
Impendence Mismatch 阻抗失效、Multiple Result Set 多結果集的串接。
案例:RightNow SAAS CRM
頂級SAAS CRM供應商,目前有十幾萬的客戶,甲骨文15億美元收購雲客戶服務提供商RightNow。
應用場景:支持自定義客戶屬性、快速查詢(屬性的組合查詢)
8. 列式資料庫
Sybase IQ 排名列式資料庫第一
IQ通過列存儲、革命性的位圖索引方法以及智能的動態訪問技術實現了快速的查詢響應速度,比傳統的資料庫查詢速度提高10-1000倍。
減少磁碟I/O IQ通過獨特的列存儲,索引與壓縮技術,大大減少了查詢中的磁碟I/O次數,其傑出的磁碟I/O效果帶來了更快速的查詢反應,更高的吞吐量和更低的成本。最後被SAP以58億美元收購。
如何做到精準營銷
必須做客戶分群:從動態的非結構化的數據形成結構數據,然後賣給客戶,這才是商業模式。微博為什麼不盈利?因為它缺乏結構化的人群標籤數據,無法做精準營銷。微軟用20億美金做市場調研,問用戶希望下一版Office希望增加哪些功能。
應用場景:需要300萬行的客戶數據、幾千個客戶屬性、需要根據任何客戶屬性的組合進行查詢、行式資料庫的局限(索引的限制(256))。
解決方案:從行式資料庫轉化為列式資料庫、查詢時間提高50倍、壓縮率高達1:30。
9、數據倉庫
定義:數據倉庫 ,由數據倉庫之父比爾·恩門(Bill Inmon)於1990年提出,主要功能仍是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,並進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。
特徵:面向主題、集成、時變、不可更新。
案例:BOA 美洲銀行的數據倉庫
美洲銀行就是使用NCR Teradata建立數據倉庫並獲得成功應用的一個例子。該銀行在幾年的時間內曾先後兼併過十幾家小銀行,由於擁有的30多個OLTP業務系統太多而且分散,管理十分不容易,要找到準確的業務數據也很難。舉例來說,它要準確地了解各個分行的客戶資料就要花很多的時間,最後的結果還不一定完全準確。為此,美洲銀行投資Teradata建立了一個中央的數據倉庫,把各個分行系統中的數據都集中到中央庫來,一些以前要幾個星期才能得到答案的業務問題現在只需要幾分鐘甚至更少,效果非常明顯。
更多精彩能容歡迎關注:
企業移動化公共帳號,請搜索:Emobility 或者掃描下面二維碼
IT168 CIO俱樂部公共微信