【摘要】
對於包括教育在內的許多領域的企業來說,「大數據」正迅速成為一個非常重要的領域。簡單地說,它指的是各種來源的數據和數據中的理解模式的組合,這些數據可以用於各種目的,如改善市場情報和教育研究。大大小小的企業都在實施(或計劃實施)大數據戰略。除了市場情報,它還被應用於不同的領域,如醫療保健和其他科學研究,航空和重型機械等複雜製造業,改善公用事業和交通管理,石油和天然氣勘探,電信,零售,銀行和保險,國防和安全。在這篇文章中,我們將介紹大數據及其在包括教育在內的各個領域的一些應用。我們還描述了如何使用大數據來監控社交媒體(例如LinkedIn、Facebook和Twitter),以實現市場增長和品牌管理。文中提到了各高校開設的一些大數據培訓班。本文提到的在教育行業的應用包括結合各種關於學生的信息來源,如一段時間內的考試記錄、行為模式和教師觀察,以提供更準確和及時的幹預。此外,我們還討論了新的評估形式,如電子評估和適應性測試,它們將提供新的數據流,可用於更詳細地研究考生的表現,並用於監測和評估考試。大數據
近年來的技術進步帶來了大量的數據,這些數據現在已經在日常生活中產生,如購物、旅遊、銀行、製造和貿易、公用事業、國家和治理、體育、娛樂、科學、教育和衛生。商業組織、研究機構和政府已經開始意識到利用這些數據促進自身發展的重要性。因此,大數據研究在不同研究領域的學者中獲得了突出地位(Einav&Levin,2013;Mayer-Schönberger&Cukier,2013),並引起了非學術界的興趣(BBC,2013;Lohr,2012)。
大數據的概念包括數據的收集,從各種來源收集的數據的組合,處理和使用這樣獲得的結果。具體地說,大數據是指需要複雜處理和可視化的大型資料庫,傳統的數據處理軟體無法有效地處理這些數據(維基百科,2014a)。根據麥肯錫全球研究所(McKinsey Global Institute)的說法,「大數據是指其大小超出了典型資料庫軟體工具捕獲、存儲、管理和分析能力的數據集」(Manyika等人,2011年)。被歸因於Gartner Inc.的一種著名的大數據模型(稱為3V模型)。將其定義為「大數據是大容量、高速度和/或高多樣性的信息資產,需要新的處理形式以增強決策、洞察力發現和流程優化」(Beyer&Laney,2012)。這裡的術語「體積」指的是數據集的複雜性,而不一定是它們的大小。「多樣性」是指不同類型的結構化或非結構化數據,如文本和數字、視頻和音頻以及日誌文件。「速度」是指數據可用於分析的速度。有時其他的V,如「準確性」(目標是數據完整性和組織自信地使用數據的能力)或「價值」(新數據是否能使組織獲得更多價值?)。也突出了(Swoyer,2012;Villanova大學,2014)。
近年來,大數據的潛力不斷上升,導致各國政府為幾項新的倡議提供資金。歐盟最近啟動了大數據公私論壇(稱為BIG Project),與學者、公司和其他利益攸關方接觸,為大數據研究和創新制定明確的戰略。該項目的成果將作為Horizon 2020的投入,該倡議旨在確保歐洲的全球競爭力,並在歐洲創造新的增長和就業機會(BIG,2014年;歐盟委員會,2014年)。2012年,美國政府宣布為「大數據研究和開發計劃」提供2億美元的資金,該計劃旨在從科學與工程、國家安全和教學領域的大量複雜數據集合中獲得洞察力(Kalil,2012)。美國國家安全局正在猶他州建設一個數據中心,以處理他們通過網際網路收集的信息。與這項發展相關的私隱可能會受到一些關注,因為這可能會導致收集個人的個人數據,如網際網路訪問歷史、私人通信、信用卡使用情況和健康記錄等。
預計在猶他州的設施處理(不存儲)的數據量很可能是「yottabytes」-國際單位制(SI)中最大的單位前綴,並於1991年增加。一個yotabyte(前綴為yb)相當於1024個字節。表1列出了正在使用的數據存儲單元。千兆字節仍然是硬碟容量最常用的度量標準,但是TB和PB也開始被使用。今天,一個1TB的磁碟驅動器(大約2.5英寸寬)可以裝進一臺筆記本電腦。令人著迷的是,根據一項估計,在TB大小的驅動器上存儲一千兆字節需要100萬個城市塊大小的數據中心,與美國德拉瓦州和羅德島州一樣大(維基百科2014c;2014d;Diaz,2010)
這給出了一個概念,即未來幾年可能會有多少流量通過網際網路,以及政府(和私人組織)意識到這場數據革命的潛在影響所進行的投資(維基百科,2014a)。
根據計算技術行業協會(CompTIA)的數據,2013年,28%的英國公司在使用大數據,36%的公司計劃當年的大數據計劃,95%的公司認為數據是未來兩年成功的關鍵(raconteur Media,2013年)。他們還報告說,2013年全球IT支出年增長率為5%,而數據增長率為40%。近年來,從在線使用中獲得的數據呈現驚人的爆炸性增長。
根據一些估計(IBM,2013):
2012年,全球有14.3億人訪問了一個社交網站;
全球近八分之一的人擁有自己的Facebook主頁;
2012年,推特上每天都有100萬個新帳戶;
每月有300萬個新博客上線;l 65%的社交媒體用戶表示,他們使用它來了解更多關於品牌、產品和服務的信息。
預計在未來幾年,組織中收集的數據量將會增長。這可能是由於數據存儲和處理能力的效率提高和成本下降、數位技術的傳播、從網際網路和數字設備獲得的數據量以及用於處理的算法的複雜性。這些數據中有很大一部分將在網上產生,這將需要對數據存儲設施進行大量投資。最近有報導稱,Facebook目前正在瑞典建設一個11個足球場大小的數據中心,並在美國建設另外兩個數據中心,以收集和處理他們的數據(Bradbury,2013)。
教育組織對利用大數據和分析的應用程式有相當大的興趣,預計這一興趣將在不久的將來上升。然而,為了最大限度地利用大數據,組織應該明確他們到底想要調查什麼,以及他們計劃如何使用這些信息。我們認為,企業在實施大數據/社交媒體政策時需要考慮以下問題:
1.我們為未來做好準備了嗎?
2.這是炒作還是必然?
3.有沒有更簡單和/或更經濟的方法來獲得類似的結果?
4.開發內部能力和租用外部資源哪個更好?
5.我們的客戶/利益相關者會對這種監控感到滿意嗎?
6.我們是否需要向持份者宣傳我們的政策?如果是,我們有沒有這樣做?
7.我們的競爭對手的準備情況如何?
8.我們是否遵守數據隱私法?
9.人們的在線行為可以被賦予多少價值?
10.我們是否也在使用傳統的信息來源(如訪談和焦點小組)來補充在線指標?
11.我們是否也依賴於人的判斷來解釋數據(而不僅僅是依靠軟體生成的結果)?
12.我們是否與組織內的其他部門合作,制定一項全面的政策?
大數據的應用
大數據如何被用於各個領域的例子很多。雖然這些與教育領域沒有直接聯繫,但它們讓我們了解了數據對我們日常生活的影響(raconteur media,2013)。示例包括:
IBM的深雷天氣分析軟體包:幫助農民知道何時灌溉他們的作物;
SAS:使用大數據識別保險部門的欺詐行為;
英國航空公司的Knowledge Me計劃:使用收集的數據更好地洞察其常客的個人偏好和購買模式;
大曼徹斯特交通:使用實時交通信息避免道路擁堵;
美銀美林:基於對客戶需求的更全面、更全面的理解,為客戶創造實用有效的解決方案;
東肯特醫院大學NHS基金會信託基金:給予工作人員訪問數據的權限,以適應實時變化,例如根據站點間需求的變化在站點之間重新分配醫生和護士;
花旗:根據客戶行為估計有針對性的預測分析;
英國公共衛生:通過最近宣布的國家癌症資料庫,根據患者的實時反應創建高度有針對性的治療(數據包含1100萬條歷史記錄和每年增加的35萬個新條目);
Ocado:遞送在線購買的食品雜貨。它跟蹤車輛位置、駕駛風格和汽油消耗,同時每周遞送110萬件物品;
荷蘭皇家殼牌:每年花費6.5億GB彙編多個地點的大數據,以便他們能夠更準確地預測某個地點是否存在碳氫資源-這可能有助於他們節省鑽探成本(一次海上鑽探的成本可能高達6500萬GB);
埃森哲:通過使用數據和文本挖掘、語義、語言學和句法處理,收集社交媒體分析,用於情感分析;
Facebook:最近開始解碼照片(識別人臉和物體)和視頻的內容;
蘋果:獲得了一項專利,可以通過音頻竊聽來收集體溫和心率的數據;
谷歌:調整語言處理中的算法,使其與文化相關(例如,區分美國和英國的習語),並提高其語音識別能力;
Temetra:整理人們在家庭和企業中如何使用天然氣和水的信息,每15分鐘給他們一次數據,而不是每年的讀數;
Modak分析:在2014年4月至5月舉行的印度大選期間,挖掘了約18TB的8.1億選民的數據,這些數據涉及他們的客戶--一個政黨--的各種人口統計數據,如性別、年齡和經濟狀況(庫爾馬納特,2014年)。
在制定政府政策時使用大數據的一個有趣的應用是Behavioural Insight團隊(www.behaviouralinsights.co.uk),該團隊由英國政府和Nesta聯合擁有,網址為www.nesta.org.uk。該組織匯集了一系列相互關聯的學術學科(行為經濟學、心理學和社會人類學)的數據,以了解個人在實踐中如何做出決定,以及他們可能如何對各種選擇做出反應,從而使政府能夠相應地設計其政策或幹預措施。
大數據在教育領域的應用
學校和高等教育中正在產生大量的數據。教育領域的大數據可用於:
了解學生的表現和行為模式;
跟蹤學生在整個教育過程中的進展,以便在發現任何異常情況時及時進行幹預;
為每個學生開發個性化的內容和教學方法,以便在不羞辱或孤立學生或在同齡人面前讓他們難堪的情況下提供補救幫助;
評估學生在標準化測試(即預測性評估)中的表現;
找出哪些教學技巧最適合學生,並提供個性化教學(即診斷性評估);
實時反饋,幫助提高學生成績;l進行適應性測試;
合併學習管理和課程管理等系統;
整合學生在教室和家裡使用的信息通信技術設備,在自帶設備(BYOD)等倡議下提供大量有關他們的有用信息;
綜合各種數據來源,如課程記錄、學生出勤率、班級花名冊、課程參與度、學位成就、學科記錄和考試成績,從而能夠更有效地管理招生、行政和學術研究;(Hoit,2012;West,2012)。
除了上述應用之外,機構還可以利用數據在測試開發和標記監測等領域進行更全面的研究。他們亦可利用大量數據,而這些數據很可能是透過電腦化評估和其他資訊科技措施,例如電腦化的互動系統來出題而產生的。
大數據教育課程
麥肯錫報告稱,到2018年,僅美國就將面臨多達19萬名具有分析專業知識的人員以及150萬名擁有根據大數據分析理解和做出決策的技能的管理人員和分析師的短缺(Manyika等人,2011年)。E-Skills UK3最近為SAS準備的一份報告顯示,在接下來的五年裡,英國對大數據專業人員的需求年均增長率預計約為18%(相比之下,IT員工的需求增長率為2.5%)。這相當於到2017年每年創造約28,000個就業機會(總計132,000個)(電子技能,2013年)。
英國多所大學都在開設大數據/分析/數據科學/商業智能/營銷分析的碩士課程。這些學校包括倫敦大學學院(UCL)、帝國學院、皇家霍洛威大學、謝菲爾德哈勒姆大學、鄧迪大學、華威大學、阿斯頓大學和威斯敏斯特大學。
伯恩茅斯大學與SAS合作提供應用數據分析碩士學位。SAS還與伯明罕城市大學(Birmingham City University)合作推出了SAS學生學院,以滿足對大數據專家的需求(Shah,2012;Orater,2013)。
在國際上,提供類似課程的大學有新加坡國立大學(與合作)、喬治華盛頓大學、哥倫比亞大學、大數據研究所-維吉尼亞大學、舊金山大學和紐約大學。該領域的在線課程也由多個機構和MOOC(大規模開放在線課程)提供商提供,如史丹福大學、加州大學伯克利信息學院、大數據大學、麻省理工學院、Coursera和統計網站(KDnuggets,2014)。牛津大學和哈佛大學正在開辦短期專業課程。IBM、SAS、SAP和Google等技術供應商也在該領域開展各種學術項目(Nerney,2013)。
大數據和社交媒體
企業興旺發達的基礎是最大限度地了解他們的客戶。因此,對人們在線行為的監控對他們的成功來說變得越來越重要。各組織正在投資收集此類分析,將大數據作為監測社交媒體活動的關鍵組件,特別是在Facebook、Twitter和LinkedIn等社交網站上。
社交媒體分析是網際網路用戶行為的綜合。有關消費者的網頁瀏覽、網上購物行為、客戶反饋和社交網絡上的營銷研究等數據的可獲得性,使組織能夠及時和廣泛地洞察消費者。因此,機構可根據不同的目標,例如廣告及產品推出、宣傳及品牌管理、提升客戶忠誠度、為客戶提供個性化服務、密切留意市場趨勢及競爭對手、儘量減低風險、節省成本及全面拓展業務等,集中市場情報策略。
應用於社交媒體的大數據現象正在推動一個名為「情緒分析」的新的、不斷發展的研究領域的發展。它的目的是意識到人們在日常生活中說了什麼或分享了什麼。企業通過挖掘這些信息來了解他們的客戶,並相應地改進他們的運營。教育機構還可以「傾聽」學生的意見,進一步了解他們的看法。利用學生在社交網站上的活動,情緒分析提供了一個有用的工具,可以收集關於他們在線行為的信息,最重要的是,他們對教育系統不同方面的反饋,如大學招生過程、學歷特點、考試和他們的抱負。
組織可以將這些信息提供給制定他們的營銷戰略。這可以通過多種方式來實現,例如瞄準學生在線活躍度低於預期的國家/地區,根據在線論壇上的討論監控他們的考試體驗,了解他們的品牌對學生意味著什麼,以及獲得對新產品的反饋。
工具和指標
更多來源和形式的在線數據的可獲得性也導致了新工具的開發,以獲取信息並產生關於網站可見性的衡量標準。可以收集諸如網站訪問者所在的國家/城市、他們正在使用的網絡瀏覽器、他們用來搜索網站的關鍵字以及他們在訪問特定網站之前和之後訪問過的網頁之類的度量。下面介紹了一些這樣的指標。
網站排名
可以對網站進行排名,以估計某個網站在指定時間段(例如,六個月或一年)內相對於所有其他網站的受歡迎程度。排名由www.ranking.com和www.alexa.com等工具提供。排名越低,網站的受歡迎程度越高(例如,Google.com的排名為1,然後是Facebook.com和YouTube.com)。這些排名可以被組織用來評估他們網站的總體受歡迎程度,以及與他們的競爭對手相比的受歡迎程度。圖1顯示了兩個網站www.Education ation.gov.uk和www.Parents的排名比較。英國,2013年11月至2014年5月。
在線流量分析
在線工具,如Google Analytics和www.alexa.com,以表格和交互式圖形的形式提供網站的流量指標,用戶可以定製。有些工具還提供以電子表格形式收集的數據,組織可以使用這些數據來生成自己的圖表。提供的一些衡量標準包括:在特定時間段內訪問網站的總次數、獨立訪問者的數量、瀏覽的網頁總數、每次訪問中查看的網頁的平均數量、平均訪問持續時間以及跳出率,即單頁訪問的百分比(即用戶從第一個頁面離開網站而沒有繼續查看網站內的其他頁面的訪問)。一般來說,跳出率越低,網站吸引訪問者興趣的能力越強。50%的彈跳率被認為是平均值(維基百科,2014b)。所有這些指標都有助於組織更詳細地了解他們網站的訪問者,這些訪問者可以用來定位他們的產品和服務。這些指標還允許識別哪些網站部分受訪問者歡迎,哪些不受歡迎,這反過來可以幫助組織改進他們的網站。
社交媒體監控
組織可以通過Facebook、Twitter、LinkedIn、YouTube和博客等社交媒體網站與客戶保持定期聯繫。組織還可以使用Yammer等工具與員工和其他利益相關者(例如學生、客戶、外部顧問)進行互動,Yammer是一個私有社交網絡,可幫助跨部門、地點和業務應用進行協作。
組織還可以監控新聞,並找出在線對話中的關鍵貢獻者是誰。他們可以衡量其活動的結果,並監控潛在的問題。培訓提供者可以使用這樣的網站監控工具來幫助他們了解和提高培訓課程的覆蓋面。企業可以從了解其在線用戶之間的互連中受益。
使用一些提供基本指標的監控工具是免費的。然而,大多數真正能幫助企業的服務可能非常昂貴,每月從幾百英鎊到幾千英鎊不等。因此,對於企業而言,從戰略上規劃他們對在線監控工具的要求和期望是很重要的。這可能不是一件容易的事情,因為社交媒體是一個變化非常快的新領域。此外,這一領域的服務提供商數量正在快速增長,可能很難找到可靠的提供商。在選擇最合適的解決方案之前,可能需要試用一些工具。並不是所有的工具都能滿足每個組織的要求。這些工具生成的報告應該易於解釋,並且物有所值。
社交媒體監控工具
一些流行的社交媒體監控工具有:Yomego,Ubervu,HootSuite和VOVUS。表2和表3給出了社交媒體經理可能會覺得有用的其他工具。表2列出了幾個可用於從用戶自己的網站產生洞察力的網絡分析報告工具。數據使用可通過儀錶板自定義的圖形和表格進行可視化呈現。表3提供了網絡流量估計服務,幫助收集網站接收的流量。
雖然這類數據可能不完全準確,但對於市場研究來說,獲得一個整體情況是非常有用的。
結論
數據正在快速改變我們的世界。這一事實是不可否認的。我們買什麼,吃什麼,我們如何溝通,我們如何被管理,我們如何生活,都會受到數據使用的影響。然而,需要注意的是,在日常生活中使用數據並不是一個新概念。古代文明通過根據先前記錄的數據預測行星運動來設計他們的日曆。最近,數字和電信技術的進步導致了可用數據量的爆炸性增長。世界從未如此緊密相連。每個使用網際網路、電話或信用卡的人都會留下一系列信息,這些信息可以被組織用來預測他們的行為並做出相應的調整。任何支付公用事業帳單、提交納稅申報表或以某種方式向政府登記(選舉登記處、醫療服務等)的人都是如此。大數據還被用於政府倡議以及所有研究領域,包括衛生、經濟、製造、國防、安全和教育。
組織應仔細規劃其大數據和社交媒體政策,並將目光放在長遠的角度。由於這一領域的炒作,公司似乎急於收集大量的文本和非文本數據。然而,他們收集的數據不一定都是有意義的或必需的。從本質上講,大數據意味著將來自不同來源的數據組合在一起。有一種風險是,積累非常嘈雜的數據並弄清楚它的意義可能需要比它創造的回報更多的資源。組織還需要意識到僱傭「大數據」科學家的成本越來越高。因此,最好從一開始就進行成本效益分析。事實證明,數據政策不成功的風險可能會讓一個組織付出高昂的代價-無論是對其資產負債表還是對其品牌都是如此。
學校和教育組織擁有大量關於學生的數據。這可能包括總結性或診斷性評估中的傳記信息(如社會經濟地位和種族)和表現歷史(分數/成績/教師觀察)。諸如基於計算機的評估之類的應用程式允許收集和分析更多的數據來源,例如考生在每個問題上花費的時間。這有助於更全面地了解學生的表現,可以在課堂上使用,以便進行更有針對性和更及時的幹預。類似地,在線批改試卷使授予機構可以獲得更多(當然也更容易獲得)的數據,用於監控評卷和評估其考試。研究人員和企業可能期待數據的一些新的和創新的應用,以及更精細的統計方法來分析複雜的數據。
文章來源:2014年劍橋評估出版物「研究事項」中的一篇文章。
原文PDF文檔已上傳小編知識星球
,