3月13日上午,同濟大學計算機科學與技術系副教授王偉在CIO時代APP微講座欄目作了題為《當「數據科學」遇上「自由博雅」》的主題分享,詳細介紹了他對數據科學的思考以及數據科學的教學實踐。
一、大數據時代的衝擊大數據時代給我們的工作、學習和生活帶來了全方位的衝擊。
(1)思維模式大數據作為繼雲計算、物聯網之後IT行業又一顛覆性的技術,備受關注已是毋庸置疑的事實。它好比是21世紀的石油和金礦,是一個國家提升綜合競爭力的又一關鍵資源。大數據既是一類數據,也是一項技術,還是一種理念。大數據的理念、大數據的原理、大數據的應用,每個人都應或多或少地進行掌握。特別是大數據的思維方式,個人認為,大數據的理念和思維方式已經成為人們應該具備的基本常識。
(2)課程教育從2015年國務院常務會議通過的《關於促進大數據發展的行動綱要》非常強調開發應用好大數據這一基礎性戰略資源,教育部高等學校教學指導委員會也將「大數據」列為十三五期間高等學校的教學改革和教學建設的重點,同時教育部高等教育司也於2016年在普通高等學校本科專業設置中增加了《數據科學與大數據技術》專業(專業代碼080910T),以及面向高職的《大數據技術與應用》專業(專業代碼:610215)。新專業的設置為目前國內高校的學科布局帶來了新的挑戰與機遇。
(3)技術體系自從大數據出來後,數據管理界發生了巨大的變化,技術驅動成為大數據管理系統的一個主要變革力量,並開始走向成熟。大數據技術的軟體棧也基本成型,得到了業界與學術界的基本認可。大數據目前主要的幾個發展趨勢包括:分布式計算已逐漸成為主流計算方式、數據分析算法逐漸豐富同時工具普及化、Hadoop、Spark及其生態系統將重構數據處理市場、以及大數據產業鏈日益繁榮等。
因此,「數據強國」已經上升到國家的戰略高度,國家領導人也在不同場合多次指出:
「當今世界,科技進步日新月異,網際網路、雲計算、大數據等現代信息技術深刻改變著人類的思維、生產、生活、學習方式,深刻展示了世界發展的前景。」
「因應信息技術的發展,推動教育變革和創新,構建網絡化、數位化、個性化、終身化的教育體系,建設「人人皆學、處處能學、時時可學」的學習型社會,培養大批創新人才,是人類共同面臨的重大課題。」
二、數據科學:從大數據到行動作為大數據背後的學科基礎,數據科學可以看作是:「思維+計算機科學+統計+應用」的一個綜合體。它包含三個層面的意思:
首先,建立數據思維方式,學習怎樣利用數據;
其次,應該了解數據清理、集成、探索等相關技術;
最後,洞見和商業意識也至關重要。
1.數據科學的三大支柱數據科學天生就是一個交叉學科,和數據科學最為密切的一些學科包括:計算機科學與技術、數學、統計學、信息管理、情報學等。因此,數據科學的三大支柱可以歸納為:
Datalogy(數據學):對應數據管理(Datamanagement)
Analytics(分析學):對應統計方法(Statisticalmethod)
Algorithmics(算法學):對應算法方法(Algorithmicmethod)
2.數據科學的五大要素在此基礎之上,我們凝練了數據科學的五大要素,並用一個我們稱之為A-SATA的模型來表示,包括:分析思維(Analytical Thinking)、統計模型(Statistical Model)、算法計算(Algorithmic Computing)、數據技術(Data Technology)、以及綜合應用(Application)。這些是數據科學中關鍵的內容。
3.數據科學的核心知識點從這個模型,我們可以導出數據科學的核心知識點,這也是後來課程建設的關鍵:
分析思維(Analytical thinking):包括計算思維(Computational thinking)和統計思維(Statistical thinking)
數學基礎:微積分、線性代數、概率統計、離散數學等
數據建模與評估:統計模型、回歸模型、模型評估等
算法實現:問題求解能力和算法涉及
數據管理:涉及數據的整個生命周期,包括感知、存儲、計算、分析、可視化等。
知識轉化:溝通交流,道德規範等。
實際上,目前國內外的很多大數據相關學院、專業都是在圍繞上述核心知識點來進行課程開發和整合。同濟大學也是如此,例如這學期開設的《數據科學通識導論》課程,便是圍繞上述內容展開的。
三、對於數據科學的思考對大數據和數據科學另外一個重要的思考是希望能將它們作為通識課來進行教授。
首先,數據科學(包括大數據)非常適合作為一門通識課程。所謂通識教育,旨在為學生帶來完整的知識結構,養成觸類旁通的通用智慧。通識教育起源於古希臘,指公民所應當具備的知識與能力。比起「知識點」,通識課更側重於「思考點」和「實踐點」,因此,它強調的是以學為中心,老師會想方設法去激發學生自主學習,讓學生自覺地就思考點去搜集資料、思考問題、表達觀點、自我辯護、開展實踐,在實踐中使思考能力與語言能力,以及動手能力的合一。而這些訓練,全都是培養視野廣闊、人格完整、智識踐行的人不可缺少的。這正是通識教育的意義。
基於這種思想,大數據和數據科學實際上是非常適合作為一門通識實踐課程的,可以看到:
數據科學有利於培養資訊時代一個健全的人;因為資訊時代和數據信息打交道是無所不在的。
數據科學有利於培養跨學科視野;數據科學的本質便是跨學科的。
數據科學有利於培養表達自我所必備的技能;目前的資訊時代,包括圖表都是一種很好的表達能力。
數據科學有利於培養個人的科學思維方式;特別是數據科學中的量化思維和計算思維。無論是理工科還是人文社科類的學生都應該掌握。
數據科學有利於圍繞數據開展實踐。因為數據已極大豐富,獲取數據已成為越來越容易的事情。
而「通識教育」中有一類特殊的課程是每個學生都都必修的,這就是「自由教育」的課程,其精神支柱和思想來源就是現在經常聽到的「Liberalarts」,我將這個詞翻譯為「自由博雅」。「自由博雅」通常包括自然科學(Sciences),社會科學(Social Sciences)和人文學科(Humanities)三部分。LiberalArts旨在培養一流的頭腦、一流的心靈。只有有了一流的頭腦與心靈,才有可能產生一流的科學家、藝術家和思想家。否則,大學生產的只是一群高級工匠,知其然而不知其所以然。相對於具體的職業教育而言的,LiberalArts的目標不在於教會學生某些具體的謀生的技能,而是從多方面對學生進行教育,使其成為一個高素質,有教養的文化人。上述有幾個方面都和數據科學的「世界觀」不謀而合,我認為,Liberalarts理念可以向數據科學注入「博雅」之心,為給數據科學帶來:
問正確問題的能力;
科學方法觀;
團隊協作的精神;
溝通交流的能力;
三觀正確的決策。
而這些,也都是數據科學所應該關注的。
四、數據科學課程建設與教學實踐因為在高校的原因,下面我著重說說數據科學在課程建設方面的內容,並結合自己的教學實踐談談心得體會。從2016年開始,我陸續在學校陸續開設了兩門和數據科學(包括大數據)相關的導論類課程:「大數據原理與實踐」和「數據科學通識導論」。這裡從幾個方面簡單談談。
1.課程內容的設置首先就是課程內容的設置,以《數據科學通識導論》為例,我們圍繞前面提出的A-SATA的模型構建了這門課程的知識體系,包括思維概念、數據技術、數據分析、算法編程和綜合應用五大模塊,共16節課,基本覆蓋了上述數據科學的核心知識點。
2.「自由博雅」實踐其次,我們重點開展了「自由博雅」的實踐,總結起來共16個字:建立對話;激發思辨;協作交流;動手實踐。這裡,我們藉助了兩個平臺:微信公眾號平臺(微信號:Datahui)和數據科學實踐平臺(建設中)。
(1)微信公開課實踐為了更好的服務學生,以及體現通識導論課程的性質,我們藉助了「微信」這個強大而普世的平臺開展師生之間的連接和互動。例如,每周課程的更新方式如下:
周二:發布本周課件初稿,授課;
周三、周四:互動、點評與問答;
周五:發布最終版課件以及相應文本注釋;
周末:課外閱讀文章。
希望通過這種方式,激發出學生與老師的潛力,可以很好的建立老師和學生之間的連接,圍繞數據科學進行師生互動,結合課程思考題,達到建立對話、激發思辨的目的。
(2)數據科學實踐平臺實踐出真知,數據科學者們課程尤其如此。因此,我們採取了多種方式相結合,儘量給學生提供數據以及動手的機會,達到協作交流、動手實踐的目的。這裡主要包括三類:
課內的課程設計
引入課外競賽:Kaggle、上海SODA、阿里巴巴天池等
數據馬拉松(Datathon):類似Hackthon,以集中的時間完成項目
同樣,結果還是比較令人滿意的,學生做出了一些非常令人讚嘆的作品,例如:上海地鐵系統進站流量圖、基於人流指數預測的商圈公共安全預警系統、軌道交通運維大數據分析等。部分作品獲得了一些相關比賽的獎勵,也產生了教研結合的後續項目。
五、大數據實踐平臺建設數據科學的時間需要一個非常好的平臺,為老師和學生提供實踐服務。由於是大數據的原因,希望能引入校企合作,目前也與上海的大數據高科技公司共同建設大數據實踐平臺。目前的大數據還是技術驅動型的方面,很多技術還不完善,高校研發力量無法跟上國家大數據的發展,需接觸一些企業界來共同合作。
包括課程體系、習題庫、在線實踐、案例庫還是比較容易解決的,但大數據還需強大的基礎設施來指導實踐,隨著大數據的成熟,在平臺建設方面會更加便捷。
六、總結:未來的挑戰目前高校的數據科學實踐平臺還非常依賴於技術,願景是好的,挑戰也頗大,特別是在技術上:數據上雲、分析上雲、教育上雲等,同時,容器技術、HCI技術、分布式處理技術等也面臨著很大的挑戰。
願景是希望未來建設P級的大數據公共實踐教學平臺,可以為一個學校,甚至是一個區域資源優勢共享的目的。
謝謝大家今天的收聽!我今天的分享就到這裡,大家後面有什麼疑問可以後面聯繫我進一步了解,同時也歡迎關注我們的公眾號,給我們多提出寶貴意見。
第三十二屆CIO班招生 法國布雷斯特商學院碩士班招生 北達軟EXIN網絡空間與IT安全基礎認證培訓 北達軟EXIN DevOps Professional認證培訓責編:houlimin