2017年1月10日,廈門大學信息科學與技術學院助理教授林子雨在CIO時代APP微講座欄目作了題為《關於高校大數據教學若干關鍵問題的探討》的主題分享,從大數據實驗平臺的搭建方法、雲計算與大數據課程知識交叉問題解決方法以及大數據教學資源建設三個方面,對高校大數據教學關鍵問題進行了探討。
一、如何搭建大數據實驗平臺在高校大數據教學過程中,實踐是很重要的環節,因此,很多高校在開設大數據課程時,不僅要選擇好的教材,同時也要選擇好的大數據實驗平臺。總體而言,當前國內有以下幾種大數據實驗平臺方案:
(一)建設統一的大數據實驗機房目前,在國內有兩種典型的大數據實驗機房建設方案:
第一,多臺終端機採用雲桌面方式連接到中心伺服器。這種模式在一部分高校已得到廣泛使用。通常而言,中心伺服器採用高密度伺服器,採用虛擬化技術得到很多虛擬化資源,所有的終端機都可以連接到中心伺服器,共享這些虛擬化資源,因此,終端機僅起到雲桌面的作用,數據處理運行都是在中心伺服器上進行的,因此,這種模式對終端機的配置要求較低。這種模式在實際的高校部署中,又會有兩種不同的方案:第一種方案是在學校本地機房放置中心伺服器,各個終端機直接連接到本地伺服器。另外一種方案是中心伺服器不是放在高校實驗室的內部機房中,而是放置在阿里雲等公有雲平臺上,或者放在大數據實驗平臺供應商自己的數據中心裡,高校可以通過瀏覽器訪問雲端的大數據實驗環境。
第二,用多臺物理機器構建分布式環境。在這種模式中,每臺物理機器都構成一個分布式計算節點,多個節點構成分布式的集群環境。在這種模式下,高校的通常做法是將學生進行分組,比如5個學生一組,為5個學生分配5臺物理機器,由學生完成大數據集群環境搭建,或者,機房管理員已經為這5臺機器統一安裝了大數據集群環境,學生可以直接在這5臺物理機上進行相關大數據實驗。
(二)單機構建實驗環境既然已經有了統一的大數據實驗機房,為什麼還需要單機方式呢?主要有三個方面的原因:
(1)有些學校沒有建設統一的大數據實驗機房,需要教師和學生自己在電腦上安裝大數據實驗平臺;
(2)學校有統一的機房,但是,上機時間有限,學生需要在宿舍或者實驗室,進行大量的課後上機實踐,需要在自己電腦上安裝大數據實驗平臺,隨時實踐
(3)學校的統一機房本身就採用每臺機器獨立安裝的方式。很多機房都具有統一的管理平臺,可以把大數據實驗平臺製作成鏡像,然後自動快速把鏡像部署到機房的每臺電腦上。
如果採用這種單機構建模式,通常對整個實驗室內部單機配置要求較高。一般而言,學生或老師的機器大多數為Windows系統,單機安裝方式的具體方法是,在Windows系統基礎上安裝虛擬機軟體,比如VMWare或者VirtualBox,在虛擬機軟體上安裝Linux作業系統,再在Linux作業系統上安裝Hadoop等大數據相關軟體。這種架構對底層的硬體配置要求是比較高的,因為要同時運行Windows系統和Linux系統,此時對底層資源的消耗比較大,尤其是對內存要求較高。一般而言,如果採用虛擬機方式(不是雙作業系統方式),則單機方式構建大數據實驗平臺時,單機配置至少需要8GB的內存,否則系統運行會很緩慢。單機環境如何快速部署到其他機器中呢?老師首先在自己的電腦上完成大數據實驗環境的構建,再將其導出做成「鏡像」,存放到雲盤,供學生下載,學生在自己本地電腦的虛擬機軟體中直接導入鏡像,就可以生成大數據實驗環境,直接使用,避免了繁瑣的大數據實驗環境搭建過程。
(三)實驗室多機構建分布式環境在實驗室內部,完成一些相關科研數據的處理、分析,或學生進行一些大數據教學案例分析,學生或老師僅用自己的電腦構建虛擬機方式是無法高效處理分布式大數據實驗的,因此,需要利用實驗室內部三到五臺機器搭建起真正的物理分布環境,使龐大的數據進行分布式物理計算,這也是學生或老師採用的多機分布式物理環境。
二、如何解決雲計算與大數據課程的知識交叉當前,大數據、雲計算這兩門課程很多高校都在開設,其中可能會遇到一些尷尬問題,如雲計算和大數據兩門課程知識點重合度高,沒有合理地安排內容,尤其是Hadoop等大數據只是在兩門課程中可能均有介紹,使得兩門課程在大數據知識方面高度重合,於是兩門課程老師要花費大量時間多次講解同一項技術。導致學生要重複學習同一種知識,也導致了老師相互之間的尷尬等問題。出現這個問題的原因是教材選擇出現了問題,目前遇到問題的雲計算課程在選擇教材時,雲計算教材中包含了大量的大數據知識,包括Hadoop生態系統的各個組件(HDFS、HBase、MapReduce、Pig、Hive、Zookeeper等),都有詳細介紹。而老師上課通常都是圍繞教材講課的,教材寫了什麼內容,基本上就要講什麼內容。雲計算教材中包含了大量關於Hadoop等大數據知識,任課教師就只能按照教材講大量屬於大數據的內容。那麼,為什麼會導致這一現象的出現呢?這就要從雲計算和大數據的淵源說起。
(一)雲計算和大數據的淵源雲計算技術誕生於2006年,雲計算最初主要包含了兩類含義:一類是以谷歌的分布式文件系統GFS和分布式並行編程模型MapReduce為代表的大規模分布式並行計算技術;另一類是以亞馬遜的虛擬機和對象存儲為代表的「按需租用」的商業模式,也就是說,通過網絡以服務的方式為用戶提供非常廉價的IT資源這樣一種商業模式,就像我們今天的百度雲盤、阿里雲等,都屬於這種商業模式。所以,較早期的一些雲計算教材,就會包含上述兩類內容,因此,會包含大量介紹Hadoop等大數據技術的知識。但是,到了2009年2010年附近的時候,隨著大數據概念的提出,雲計算中的分布式計算技術開始更多地被列入大數據技術,所以,現在人們提到雲計算時,更多指的是底層基礎IT資源的整合優化以及以服務的方式提供IT資源的商業模式(如IaaS、PaaS、SaaS),而很少會去談及Hadoop等已經被單列為大數據的技術。
正是因為上述原因,在2010年附近出版的一些雲計算教材,通常都會包含虛擬化、數據中心、分布式存儲GFS和分布式處理MapReduce等內容,這類教材我們稱為「雲計算大數據複合型教材」,也就是說,這類複合型教材,雖然教材名稱是「雲計算」,但是,包含了大量講解Hadoop等大數據知識的章節,而不是簡略介紹Hadoop。因為,2010年之前,大數據和雲計算的技術都是混在一起的,Hadoop等大數據技術,之前都叫雲計算,那時還不叫大數據。
2010年到2014年之間,雲計算已經大規模普及,但是,大數據還沒有大規模普及,因此,很多高校都沒有開設大數據課程,都只開設了雲計算課程,這樣,在10年到14年之間,使用複合型雲計算教材上課,當然是不會遇到問題的。但是,到了2015年附近,越來越多高校開始開設大數據課程,大數據課程講解的是Hadoop等大數據技術。這個時候,對於那些選用複合型雲計算教材的高校而言,問題馬上暴露出來,這些高校突然發現,由於前期選擇了複合型雲計算教材,導致大數據課程和雲計算兩門課,內容重合度很高,兩門課程老師相互之間也很尷尬,到底如何協調好彼此的上課內容,顯得很棘手。
(二)如何協調雲計算和大數據兩門課程知識點如何解決這個兩門課程知識點過高重合的問題呢?較好的方法是,在現在的雲計算課程中,不能繼續使用複合型雲計算教材(裡面包含過多屬於大數據技術的內容),也就是說,到了2015年以後,如果一個高校同時開設雲計算和大數據課程,在雲計算教材的選擇方面,最好把複合型雲計算教材更換成「單一型雲計算教材」。所謂的單一型雲計算教材是指,雲計算教材中,不能把Hadoop等屬於大數據課程的內容作為核心內容,只要用一個章節簡單概要介紹Hadoop等大數據技術即可,不能用好幾個章節進行大量介紹。也就是說,在「單一型雲計算教材」中,Hadoop等大數據技術只是教材的「次要內容」,只是為了考慮到雲計算和大數據的緊密關係和歷史淵源,才加以介紹,在實際授課時,用2個課時做簡單講解即可。採用「單一型雲計算教材」以後,就徹底解決了雲計算和大數據課程知識點高度重合的問題,雲計算課程只會有2個課時的大數據技術簡單介紹,詳細的大數據技術,都需要學生在大數據課程上通過32個學時來學習。
採用「單一型雲計算教材」以後,雲計算和大數據兩門課程的知識重點就有了明顯的區分,不會重合:
(1)雲計算的教學重點:雲計算概念、雲計算體系架構、數據中心、虛擬化技術(平臺虛擬化、資源虛擬化、虛擬機的動態遷移、雲作業系統)、SOA架構及開發技術、雲數據中心設計與測試、雲數據中心維護與管理、雲安全架構、桌面雲、PaaS應用開發平臺、開源的雲計算管理平臺Openstack、Docker容器、大數據存儲與管理(最多2個學時,不需要實驗,只是知識介紹)。
(2)大數據的教學重點:系統論述大數據的基本概念、大數據處理架構Hadoop、分布式文件系統HDFS、分布式資料庫HBase、NoSQL資料庫、雲資料庫、分布式並行編程模型MapReduce、大數據處理架構Spark、流計算、圖計算、數據可視化以及大數據在網際網路、生物醫學和物流等各個領域的應用。
三、如何建設優質的大數據教學資源優質的大數據教學資源,直接影響到大數據課程的順利開設和大數據教學水平的發展。由於當前大數據教學正處於推廣期,大數據教學資源還比較稀缺。同時,大數據知識體系非常龐雜,包含了數據生命周期內的各種技術,而且大數據知識更新換代非常快,類似Hadoop等大數據技術,剛興起幾年,又有Spark等新興技術的崛起,這進一步加劇了教師開課的難度。
為了緩解高校大數據教學資源稀缺的現狀,全國高校教育界同仁都在不斷努力,建設資源。全國高校大數據教育聯盟多次組織召開大數據教學研討會,組織相關高校教師共同開發教學資源。
(一)建立高校大數據課程公共服務體系的重要性建立高校大數據課程公共服務體系可以解決以下幾方面的問題:
提供豐富的教學資源
降低大數據課程開課門檻
提升學生學習效果
加快高校大數據課程建設進程
不斷提升高校大數據教學水平
(二)案例廈門大學資料庫實驗室致力於打造中國高校大數據課程公共服務平臺,建設了目前為止國內高校最完備的大數據課程公共服務體系,已經成為全國高校大數據教學知名品牌。平臺以開放共享方式提供免費教學資源,緩解大數據教育資源稀缺的問題,降低大數據的開課門檻。目前,平臺建設了11個1工程,包括1本教材、1個教師服務站、1個學生服務站、1個公益項目、1堂巡講公開課、1個示範班級、1門在線課程、1個交流群、1個保障團隊、1個培訓基地、1個實驗平臺。訪問廈門大學資料庫實驗室網站,即可免費訪問平臺上的所有教學資源。
平臺向全國高校免費提供開設大數據課程所需七大黃金資源:
1.《大數據技術原理與應用》教材
2.大數據軟體安裝和編程實踐指南
3.教師備課指南
4.授課視頻
5.實驗指南
6.大數據課程實驗案例《網站用戶購物行為分析》
7.Spark入門教程
隨著大數據的全面普及,高校大數據專業建設也會加快推進,優秀大數據人才的培養和優質教學資源的建設,離不開全國高校教育界同仁、以及社會上的教育服務機構的共同努力。最後,祝願我國高校大數據教學事業不斷邁上新的臺階!
第三十屆CIO班招生 法國布雷斯特商學院碩士班招生 北達軟EXIN網絡空間與IT安全基礎認證培訓 北達軟EXIN DevOps Professional認證培訓責編:林子雨