百度大數據應用與實踐

2021-02-23 GitChat精品課

產生於網際網路的大數據應用,現階段正在向其他行業領域滲透,成為行業創新和轉型的重要驅動力。根據百度多年來在大數據領域的創新與實踐,闡述了大數據驅動搜尋引擎的發展,介紹了百度大數據引擎和行業應用實踐。重點分析了大數據發展的關鍵因素,並提出了大數據和人工智慧是未來信息技術發展的重要方向。

作者:陳尚義,百度公司

1 引言

隨著移動網際網路、物聯網的快速發展,信息採集成本不斷降低,加速物理世界向網絡空間的量化。數字世界與現實世界的融合過程中產生並積累了大量的數據。根據國際數據公司(IDC)發布的研究報告,全球所有信息數據中90%產生於近幾年,數據總量正在以指數形式增長,從2003年的5EB,到2013年4.4ZB,並將於2020年達到44 ZB,如圖1所示。

圖1 全球數據總量

數據爆炸將我們推向大數據時代,大數據是新一輪信息技術革命與人類經濟社會活動的交匯融合的必然產物,數據的關聯和挖掘將創造新的價值,提升效率。數據將和自然資源、人力資源一樣成為國家最重要的戰略資源,將成為產業升級的重要推動力。

大數據因其蘊含的社會價值和商業價值,已經成為一項重要的生產要素,大數據的應用將改變傳統行業的商業模式,拉動產業升級。數據已經成為傳統行業的核心資產。產生於網際網路的大數據應用,現階段正在向製造業、金融及商業、醫療衛生、國計民生等各個領域滲透。各行業也已經意識到數據價值挖掘的重要意義,加速探索並布局大數據應用。越來越多機構、企業都迫切希望從不同渠道獲取的多種類型、結構複雜的大數據中挖掘出有價值的趨勢洞察,快速、準確地制定決策,驅動商業和行業創新。

2 從搜尋引擎說起,大數據面面觀

2.1 搜尋引擎是個天然的大數據服務

大數據是信息技術及其應用發展到一定階段的「自然現象」,源於信息技術的不斷廉價化以及網際網路及其所帶來的無處不在的信息技術延伸應用。可以說大數據應用和技術是在網際網路的快速發展中產生的,網際網路企業尤其是搜尋引擎公司是大數據實踐的先行者和領跑者。搜尋引擎連接了人和信息、人和服務,本身就是一個完美的大數據應用實例,其目的就是為了更好地理解用戶的搜索需求,將信息與用戶匹配起來。

百度是當今中國人獲取信息的最主要入口,每天響應來自138個國家和地區的數十億次搜索請求,覆蓋95%以上的中國網民,平均每個中國網民每天使用10次百度。為了獲得更好的用戶體驗和搜索的精準對接,百度不斷在技術上挑戰自我,在搜索的實踐中積累了整套大數據的處理和實踐技術,佔據了世界領先的地位。同時,百度也積極在大數據的商業實踐上不斷探索,並取得了顯著的成績。

2.2海量的數據資源是大數據實踐的基礎

百度擁有海量的數據基礎,擁有EB級別的超大數據存儲和管理規模,並達到100PB/天的數據計算能力,可達到毫秒級響應速度。百度已收錄全世界超過一萬億張網頁,相當於5000個國家圖書館的信息量總和。同時承擔著每天百億次的訪問請求,可離線完成1000億網頁的處理與分析,時效性網頁從更新到索引只需要幾十秒,實現大數據量級下的低延遲和秒級響應。

百度的數據具有實時性和全面性的特點,囊括了全網搜索數據、全網評論信息、百度內部數據以及第三方合作數據等跨行業、跨地域基礎數據,海量的數據基礎是百度引領大數據實踐的基礎。

2.3 高效的雲計算基礎設施提供強大的計算能力

面臨龐大數據量帶來的計算能力和網絡帶寬的新挑戰,百度自主研發超大規模分布式存儲和計算系統,目前能夠支持14款用戶過億的產品。其中分布式存儲系統可以存儲長文本、語音、視頻等異構數據,實現單集群文件數達100億;大規模分布式計算系統通過自研技術提升50%以上MapReduce的性能,實時流計算系統吞吐量達10GB/s;百度創新性地實現了基於大數據的智能自動化運維框架,滿足超大規模集群運維的需求,實時分析3萬以上監控指標;2 min內完成分析和故障定位,保證系統可用性為99.99%。百度是全球首家大規模商用ARM伺服器的公司,建立了大規模GPU並行化平臺,單GPU計算能力可比百片CPU,極大程度地降低了能耗和計算成本。

百度自主研發萬兆交換機,逐步從吉比特網絡向萬兆網絡大規模切換,正在研製的4萬兆交換機也已經開始小規模試點和驗證,百度的萬兆集群是國內網際網路行業首個萬兆交換機的規模應用。

基於完全自主智慧財產權的高性能伺服器、整機櫃和網絡設備等,百度自主設計並建設了數個亞洲一流的數據中心,自主研發了整機櫃伺服器並已投入使用數十萬臺。通過基礎設施、IT設備及軟體協同,定製低功耗伺服器等多項綠色節能技術,百度自建數據中心全年約一半時間實現完全免費冷卻(freecooling)。2013年,該數據中心最佳PUE(power usage effectiveness,電力使用效率)為1.16,成為國內最節能、最環保的數據中心。

2.4 人工智慧技術全面提升大數據處理能力

百度高度重視人工智慧技術的發展,經過多年的堅持努力,在語音識別、圖像識別、自然語言理解、機器學習、智能交互、數據挖掘、個性化推薦的研究和應用領域打下紮實的技術積累,攻克多項技術難題,人工智慧技術已經達到國際領先水平。

百度目前已擁有全球最大規模的深度神經網絡,並實現全球最大規模的GPU並行計算平臺。百度的深度學習技術被應用在語音、圖像、文本識別、自然語言處理和CTR預估等商業產品領域,取得顯著的成效。同時,百度也積極將人工智慧技術應用於大數據領域,通過機器學習和深度學習等技術提升數據智能,尋求現有問題的解決方案,並實現更好的預測。

3 大數據推動搜尋引擎的演進

以百度為例,用戶在搜索的過程中留下信息,其中有大量的文本、圖片和影音等數據,形成了海量的數據資源,百度對這些複雜的異構數據進行處理分析,發掘價值,實現更多大數據應用。大數據技術推動著搜尋引擎不斷向前演進。

3.1 智能交互

隨著用戶需求更趨於複雜化和個性化,從最初的獲取信息,到現階段希望能夠通過搜尋引擎直接獲取答案、連接服務,這就需要實現海量數據的挖掘和智能處理,實現人和服務的精準匹配。另外用戶也更趨向於自然的交互方式,據統計,現階段在百度的搜索請求中10%是以語音的形式表達的,而未來5年使用語音和圖像來表達需求的比例將超過50%。基於如此真實強大的需求,為了不斷提升用戶體驗,百度在圖像識別和語音識別這兩項前沿技術領域實現突破,並取得了一系列領先成果。

百度在2010年開始進行智能語音及相關技術研發,推出了第一代基於雲端識別的網際網路應用「掌上百度」。2012年11月,百度上線了中國第一款基於DNN的漢語語音搜索系統,成為最早採用DNN技術進行商業語音服務的公司之一。目前已經積累了數萬小時的聲學訓練語料和海量文本語料[1],線上語言模型體積超過100GB,支持小時級別的海量語言模型更新。語音識別DNN深達9層,基於聽覺感知的深度學習聲學建模技術可以實現更高的精準度和識別率。在安靜情況下,百度的普通話識別率已達到95%以上,處於國際領先水平。百度語音技術對內應用於手機百度、百度輸入法、百度地圖、百度導航等一系列產品,同時對外推出開放平臺,提供多個垂直領域的識別和解析服務,合作夥伴超過30個,覆蓋汽車、醫療、手機、電商、家電和車載等十幾個領域和方向。

在圖像識別領域,百度在2012年底將深度學習技術成功應用於OCR識別和人臉識別,並推出相應的PC端和移動端搜索產品[2]。2013年,深度學習模型被成功應用於一般圖片的識別和理解。目前百度的人臉識別準確率超過98%,處於國際領先水平,圖像識別技術已經用於手機百度、百度識圖等多個應用中。從百度的經驗來看,深度學習應用於圖像識別不但大大提升了準確性,而且避免了人工特徵抽取的時間消耗,從而大大提高了在線計算效率。目前利用CNN(卷積神經網絡)和RNN(遞歸神經網絡)技術,百度成功地實現將圖像內容生成自然語言的描述性句子或段落,從而在高層語義層面建立了圖像和自然語言之間的橋梁,也就是「機器讀圖」,這可以說是人工智慧領域的一次技術飛躍。

3.2 知識圖譜

當用戶使用搜尋引擎時,需要的不止是索引到相關的網頁,更希望找到答案、加深了解以及發現更多的內容。為了使搜尋引擎更智能,信息的組織方式正在由網頁之間的超鏈聯繫向海量實體之間的知識聯繫演變,知識圖譜就是基於海量的網際網路數據,實現這種演變的最為重要的技術之一。

知識圖譜包含了萬物以及它們之間的聯繫,用實體以及實體關係刻畫這個世界。如圖2所示,百度知識圖譜依託於強大的網際網路數據分析技術,對網際網路海量數據進行挖掘,並應用高效精準的算法對數據進行分類梳理,將複雜的知識體系通過數據挖掘、信息處理、知識計量和圖形繪製顯示出來,構建宏大的知識網絡,以圖文並茂的方式展現知識的方方面面,讓人們更便捷地獲取信息、找到所求,這恰恰與百度的使命一脈相承。

圖2 百度知識圖譜示例

為了使網際網路中海量的數據及內容為機器所理解,進而形成知識供用戶獲取並使用,百度知識圖譜以實體為基點,創建了基於語義的連結關係,從海量的數據中提取出精華信息,完成了知識的匯集、整理、再加工,構建了與國際標準接軌的數據「智囊」,目前已建成涵蓋近20領域、幾十類別、上億實體量的龐大知識資料庫。通過強大的平臺與靈活的機制,應用到20多個產品線之中,為用戶帶來多角度、全方位的搜索體驗提升。

3.3 深度問答

深度問答是一種基於海量網際網路數據和深度語義理解的智能系統,基於對用戶自然語言的理解,實現對海量數據的深層分析和語義理解,並通過搜索和語義匹配技術,提煉出答案信息,對信息進行聚合、提煉,給出最全面、準確的結果。其實現的難點主要在於正確理解用戶複雜和多變的需求,並掌握海量結構化的知識庫數據,這就需要強大的人工智慧技術和海量複雜的大數據處理能力。深度問答其關鍵技術包括問題分析和理解技術、實體知識體系建模技術、文本分析和關係抽取技術以及語義分析和排序技術等。

●問題分析和理解技術:針對不同類型的問題,提取答案的技術也會不同。根據可採用的技術,問題可以大致分為實體類問題和非實體類問題兩大類。實體類問題是指答案是實體的問題,對於實體類問題,問題的答案可以是唯一實體或者實體的列表,需要通過問題分析技術分析出實體類別;對於非實體類的問題,需要通過問題分析技術,把這些類型的問題跟實體類問題區分開來,因為這些問題的答案不再是實體,答案的形態也更加複雜。

●實體知識體系建模技術:實體類問答離不開實體知識體系的支撐,實體的類別、實體間的同位、上下位關係都十分重要。因此,一個完備的實體知識體系建設(ontology)對於問題回答十分必要。實體的同位、上下位關係可以通過整合多種來源的知識獲取,包括一些結構化的數據如百度百科,也可以從普通文本中挖掘。

●文本分析和關係抽取技術:對文本的深層分析是深度問答用到的一項基礎技術。如圖3所示,文本的分析分為多個層次,包括分詞、實體識別、句法分析乃至語義角色標註,在這些分析的基礎上可以進行知識獲取。而通過對海量數據進行深層分析,可以有效過濾文本分析引入的噪音,使得知識更加精準。文本分析和關係抽取技術不僅可以用於從普通文本抽取知識,也可以用於語義匹配。

圖3 文本分析和知識抽取技術示例

4 百度大數據引擎及行業應用實踐

4.1 百度大數據引擎

百度堅信技術改變網際網路,網際網路可以改造傳統行業。為了助力傳統行業快速進入這個大數據的時代,充分發掘和利用大數據的價值,百度對外發布大數據引擎,向外界提供大數據存儲、分析及挖掘的技術能力,這也是全球首個開放大數據引擎。

如圖4所示,百度大數據引擎主要包含三大組件:開放雲、數據工廠和百度大腦。開放雲可以將企業原本價值密度低、結構多樣的小數據匯聚成可虛擬化、可檢索的大數據,解決數據存儲和計算瓶頸;數據工廠對這些數據加工、處理、檢索,把數據關聯起來,從中挖掘出一定的價值;百度大腦是建立在百度深度學習和大規模機器學習基礎上,最終實現更具前瞻性的智能數據分析及預測功能,以實現數據智能,支持科學決策與創造。百度積極開放輸出百度大腦的能力,一方面助力國家在人工智慧、大數據等技術上的整體提升;另一方面也幫助行業轉型升級,提升企業的核心競爭力。

圖4 百度大數據引擎

這三大組件作為3級開放平臺支撐百度核心業務及其拓展業務,也將作為獨立或整體的開放平臺,給各行各業提供支持和服務,支持百度的核心商業應用及社會企業的新興商業模式。

4.2 百度行業應用大數據實踐

4.2.1 公眾生活領域——大數據預測

百度基於海量的數據處理能力,利用機器學習和深度學習等手段建立模型,可以實現公眾生活的預測業務。目前,在百度預測產品中已經推出了景點舒適度預測和城市旅遊預測、高考預測、世界盃預測等服務。

以世界盃預測為例,在2014年巴西世界盃的四分之一決賽前,百度、谷歌、微軟和高盛分別對4強結果進行了預測,結果顯示:百度、微軟結果預測完全正確,而谷歌則預測正確3支晉級球隊;在小組賽階段的預測,谷歌缺席,微軟、高盛的準確率也低於百度。總體來看,無論是小組賽還是淘汰賽,百度的世界盃結果預測中均領先於其他公司。最終,百度又成功預測了德國隊奪冠,如圖5所示。

圖5 百度世界盃預測

預測準確度來自百度對大數據的強大分析能力和超大規模機器學習模型。在對體育數據的研究過程中,百度的科學家發現類似保羅章魚的賽事預測完全有可能藉助大數據的分析能力完成。因此,百度收集了2010-2013年全世界範圍內所有國家隊及俱樂部的賽事數據,構建了賽事預測模型,並通過對多源異構數據的綜合分析,綜合考慮球隊實力、近期狀態、主場效應、博彩數據和大賽能力等5個維度的數據。最終實現了對2014年巴西世界盃的成功預測。

4.2.2 公共衛生領域——疾病預

通過百度搜索數據與醫療數據、醫保數據等關聯,並結合圖像識別和語音識別技術、可穿戴設備數據採集等,通過大數據分析與挖掘能力可以實現人群疾病分布關聯分析等。通過對大量臨床電子病歷、臨床經驗和科研成果等醫學信息數據進行學習和理解,繪製人類疾病圖譜(人群分布),並建立疾病分析模型和治療路徑模型。這也將極大推動疾病研究、醫藥研發、藥品監管、居民醫療服務和全民健康教育等事業發展。

百度與中國疾病預防控制中心(CDC)合作開發的疾病預測產品,基於對網民每日更新的網際網路搜索的分析、建模,實時反饋流感、手足口、性病、愛滋病等傳染病,糖尿病、高血壓、肺癌、乳腺癌等流行病的爆發數據,並預測疾病流行趨勢,是國家疾病控制機構傳統監測體系的有力補充。結合大數據輿情分析、公共衛生危機事件預警產品,有效地融合非結構化大數據,建立了基於網際網路的新興公共衛生數據資源共享機制與服務價值鏈。

4.2.3 企業IT應用——硬碟故障預測

百度全球有幾十個的數據中心或者內容分發網絡(CDN)節點,擁有數十萬臺伺服器和數萬臺交換機,200多萬塊硬碟。這些硬碟的年報錯率為4%~7%,月均硬碟故障超過1萬起,佔全部硬體故障的80%以上。百度通過大數據分析與機器學習技術,對9億條實例進行採集處理,選取15萬個訓練樣本,監控240個特徵的實時變化,構建預測模型,並通過機器學習的算法可以提前一天預測出硬碟故障並遷移數據,該系統可以節約帶寬70%、節約計算資源85%、節省伺服器運行消耗10%,每年節省1萬多塊硬碟。如圖6所示,基於大數據實現硬碟故障預測的方法也可以用於實現行業硬體系統的運維和管理中。

圖6 基於大數據的硬碟故障預測

4.2.4 企業IT應用——智能化運維

近年來百度在伺服器規模、數據規模、單集群規模等方面出現爆發式增長。百度伺服器的規模近5年來增長了15倍以上,達到數十萬臺。數據規模已達到EB級別。在雲計算和大數據時代,集群規模和數據量爆發式增長,如何管理好雲計算平臺、如何提供高質量的服務,是雲計算的核心問題之一。

為了應對雲計算和大數據應用帶來的新的需求和挑戰,百度同樣利用大數據技術,把在線服務運維轉向智能化管理模式,並走在了行業的前列。百度已經建立起了六大數據倉庫之一的運維數據倉庫,囊括了伺服器、網絡、系統、程序、變更等各個方面的實時及歷史狀態數據,每天更新數據量接近100TB。

基於對運維大數據的挖掘、對歷史數據的學習和異常模式識別,實現對流量數據的預測。通過對包括訪問速度、系統容量、帶寬、成本等在內的10多個因子的實時自動分析,實現了在眾多數據中心間的流量自動調度,決策時間也由人工判斷的10幾分鐘大幅縮短到1min。這個系統的實際效果在故障中得到很好的檢驗,例如系統在沒有人工介入的情況下智能地把流量調度到另外的數據中心,拒絕流量僅有幾千個,避免類似故障可能造成數千萬的流量損失。

4.2.5 社會治理領域——上海外灘踩踏事故大數據分析

用戶去目的地之前,一般都會提前利用百度地圖搜索地點和規劃路線。同時,百度的搜索詞也會有一定的提前量預測某一事件。因此,對百度數據的分析可以應用於社會治理領域,實現基於大規模人群的事件預警和分析。

2015年初的上海外灘踩踏事件發生後,百度秉承「以數據說話」的理念,通過對百度的定位數據、搜索數據進行挖掘,對當時的情況進行了數據化描述。圖7標明了南京東路地鐵站附近區域、外灘源附近區域、事發地陳毅廣場附近區域和外灘區域位置在2014年12月31日事發當時的人群熱力圖。顏色越深表示人群越密集,顏色越淺表示越稀疏。

圖7 外灘地區人群熱力圖

對當晚外灘區域的人流進行量化分析,得到了如圖8所示的人群流動方向分布情況。圖8中每一扇形分區代表不同的人流方向,扇區半徑表示該方向人流量大小。圖8(a)和圖8(b)表示2014年中秋和國慶當晚的情況,可以看出,人流方向比較簡單和清晰,即南北向人流較多,其他方向人流較少。圖8(c)顯示了跨年當晚外灘區域的人流方向,除了南北雙向的人流,還有其他多個方向人流,人群流動方向分布混亂。

圖8 人群流動方向分布情況

為了挖掘用戶行為的時空特性,百度對大量歷史群體聚集場合的數據進行進一步分析,包括鳥巢足球賽等。分析發現,相關地點的地圖搜索請求峰值會早於人群密度高峰幾十分鐘出現。圖9為外灘的搜索量和人群數量之間的互相關性相對於時延的變化曲線,其中橫軸的值為時延量,負值表示提前量。例如,橫坐標-10對應的縱坐標值就是提前10h的搜索量與人群數量的相關性。從圖9中可以發現,兩個量的互相關性曲線在-1.5 h時達到了峰值,這意味著,根據地圖上相關地點搜索的請求量,至少可能提前幾十分鐘預測出人流量峰值的到來。

圖9 搜索量和人群數量相關性曲線

5 結束語

隨著我國各行業信息化的快速發展,數據量激增,我國已經成為數據大國。未來如何將這些數據得以有效、科學地利用,挖掘數據價值,將我國建設為大數據技術強國,是信息化發展的重要戰略問題。進入大數據時代,數據類型已不是單一的結構化數據,非結構化數據佔有非常大的比重,但是如果現有技術手段無法將大量的非結構化數據與結構化數據進行統一和整合,就無法發掘數據中的重要價值。而對於這些非結構化的數據進行分析和挖掘並實現其價值,人工智慧是重要的技術發展方向。大數據和計算技術的發展帶來了人工智慧的新浪潮,人工智慧的本質特徵之一是學習的能力,也就是說系統的性能會隨著經驗數據的積累而不斷提升。所以,大數據時代的到來給人工智慧的發展提供前所未有的機遇。

如圖10所示,在人工智慧領域,存在著一個正循環:通過人工智慧技術不斷優化產品,讓優秀產品吸引更多用戶,更多用戶產生更多數據,而更多的數據可以使人工智慧的性能得到提升,從而讓產品更優秀。

圖10 基於大數據的人工智慧正循環

在過去的20年裡,中國企業很多時候都只能扮演技術跟隨者的角色,但是現階段我國網際網路企業在大數據處理和人工智慧等領域不斷取得突破,推動了這個正循環運轉加速,引領我國信息技術的發展,並在世界範圍內樹立技術強國的形象,推動我國的大數據產業成熟和發展。

參考文獻

[1] 塗蘭敬. 百度的技術突破與應用. 中國計算機報, 2015-01-05

Tu LJ. Technology breakthrough and application of the Baidu. Chinese ComputerNewspaper, 2015-01-05

[2] 都大龍 , 餘軼男 , 羅恆等 . 基於深度學習的圖像識別進展 : 百度的若干實踐 . 中國計算機學會通訊 , 2015 ,11(4)

Du D L, Yu Y N, Luo H, et al . Progress of image recognition basedon deep learning:some of the Baidu practice. Communications of the CCF,2015,11(4)

本文轉載自199it.com,如有版權問題,請後天聯繫刪除。

相關焦點

  • 宋強:生態化大數據平臺的深度應用實踐
    宋強,小米公司 MIUI商業產品部技術總監、架構師,10多年的資深老碼農,做過後端開發,玩過大數據,略懂機器學習算法。
  • 2020年度大數據、AI最新技術實踐分享
    滴滴數倉高級專家曹雷14:15-14:55大數據治理優化在陌陌的探索與實踐陌陌數據倉庫工程師劉志祖15:00-15:40貝殼基於Druid的OLAP引擎應用實踐貝殼找房資深研發工程師王嘯15:45-16:25金融資管數據中臺體系在熵簡科技的探索與實踐熵簡科技技術合伙人金晨16:30-17:10ClickHouse在海量數據分析場景下的應用實踐
  • 百度萬億量級資料庫Tera架構應用、設計與實踐全攻略
    信息技術發展突飛猛進,網絡數據呈現爆炸之勢,搜尋引擎的實時性面臨巨大挑戰。百度搜尋引擎每天處理著數萬億次的連結分析和數百億次的網際網路資源採集。作為百度搜尋引擎的核心資料庫 Tera,是如何支撐萬億量級的實時數據處理呢?
  • 網易大數據平臺實踐
    做好大數據業務需要很多東西,比如你要有很好的想法,比如你的算法工程師要很厲害,懂得很多算法,但一個成功的大數據應用關鍵在於兩點:
  • 【PPT分享】手機大數據在空間規劃中的應用實踐丨城市數據派
    想要掌握學習手機大數據並不難!
  • ☞【案例】陳尚義:從搜尋引擎說起,百度大數據面面觀
    ☞【案例】陳尚義:從搜尋引擎說起,百度大數據面面觀【本文作者】陳尚義 百度技術委員會理事長,百度移動雲技術品牌總監,北航兼職教授。摘要:產生於網際網路的大數據應用,現階段正在向其他行業領域滲透,成為行業創新和轉型的重要驅動力。
  • 中間件技術在百度雲原生測試中的應用實踐
    導讀:百度測試中間件是百度QA自主研發的底層基礎技術,歷經10年的不斷發展,採用數據平面+控制平面的總體架構,與google istio設計理念異曲同工
  • 【BDTC先睹為快】百度沈國龍:BML百度大規模機器學習雲平臺實踐
    為了更好幫助企業深入了解國內外最新大數據技術,掌握更多行業大數據實踐經驗,進一步推進大數據技術創新、行業應用和人才培養,2015年12月10-12日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中國科學院計算技術研究所、北京中科天璣科技有限公司與CSDN共同協辦的2015
  • 百度的技術突破與應用
    百度應用深度學習技術和算法,不斷謀求人工智慧技術的突破,在語音識別、圖像識別和大數據等領域布局深耕,並積極探索無人駕駛等前沿技術領域,持續引發業界關注
  • 直播回顧|百度地圖時空大數據在國土空間規劃的應用及探索
    近日,百度地圖慧眼亮相國匠城直播間,以「百度地圖時空大數據如何助力國土空間規劃「為主題,分別從技術層、數據層、應用層、產品層與大家進行了深入的探討和交流。下面,讓小編帶領大家看看直播都講了哪些精選內容吧!
  • 【線上直播】渦度通量數據處理與分析實踐技術應用
    4【無人機遙感在農林信息提取中的實現方法與GIS融合應用高級實踐課程】5【植被參數遙感反演與數據同化實踐技術應用視頻課程】6【InVEST模型高級進階及在生態系統服務供需、碳中和、論文寫作等實際項目中的具體應用視頻課程】7【土地利用/土地覆蓋遙感解譯與基於CLUE模型未來變化情景預測8【Biome-BGC生態系統模型建模方法與實踐技術應用
  • ClickHouse大數據領域企業級應用實踐和探索總結
    ClickHouse是一個開源的,面向列的分析資料庫,由Yandex為OLAP和大數據用例創建。ClickHouse對實時查詢處理的支持使其適用於需要亞秒級分析結果的應用程式。ClickHouse的查詢語言是SQL的一種方言,它支持強大的聲明性查詢功能,同時為最終用戶提供熟悉度和較小的學習曲線。
  • 百度孫宇:百度語義理解技術ERNIE及其應用
    報告內容:近年來,預訓練技術在自然語言處理領域發展迅速,並獲得廣泛應用。2019年,百度NLP研發了基於知識增強的語義理解技術ERNIE,創新性地將大數據預訓練與多源豐富知識相結合,研發持續學習算法,不斷吸收海量文本數據中詞彙、結構、語義等方面的新知識,實現模型效果不斷進化,在有代表性的中英文16個任務上取得國際上最好的結果。ERNIE技術廣泛落地百度核心業務,取得了顯著應用效果。
  • 百度鄧凱鵬:飛槳視覺技術解析與應用
    飛槳視覺技術解析與應用首先,鄧凱鵬老師介紹了當前飛槳框架以及視覺模型庫CV的整體建設情況。飛槳框架是源自產業實踐深度學習框架,同時支持靜態圖和動態圖搭建網絡,支持高效大規模分布式訓練,同時推出了像PaddleSlim模型壓縮還有安全加密的工具,以及在服務端和移動端進行預測部署一些引擎。
  • Impala在網易大數據的優化和實踐
    今天將為大家分享下Impala在網易大數據的優化和實踐。Impala有哪些優勢,讓我們選擇Impala作為網易內部的OLAP查詢引擎?1. Impala在數據處理中的角色先來看一下Impala在數據處理中的角色。
  • 網易大數據用戶畫像實踐
    >導讀:網易大數據生態數量級巨大,且產品線豐富,覆蓋用戶娛樂、電商、教育等領域,並且APP活躍度高,積累了多維度的用戶行為數據。通過集團數據資產構建全域用戶畫像,旨在服務於域內眾多業務場景,同時也在探索外部商業化方案。今天藉此機會,同大家分享下網易在大數據用戶畫像中的實戰應用經驗。今天的介紹會圍繞下面三點展開:網易生態數據介紹用戶畫像中心分類網易用戶畫像實戰案例整個用戶畫像實踐經驗,都依賴於網易易數中臺,所以首先給大家介紹下網易生態數據情況。
  • 北京市大數據工作實踐與思考
    根據2019年大數據戰略重點實驗室發布的《大數據藍皮書:中國大數據發展報告No.3》,北京大數據發展總指數為74.11,在全國31個省域中排第1位。同年,北京市經濟和信息化局編制完成了《北京市大數據應用發展報告》(以下簡稱白皮書),白皮書研究認為,北京市在數據共享開放、應用場景拓展、政策支持出臺等方面仍有較大提升空間。
  • 【數據】2015年度大數據應用經典案例Top100
    掌握了核心數據,不單單可以進行智能化的決策,還可以在競爭激烈的行業當中脫穎而出,所以對於大數據的戰略布局讓越來越多的企業引起了重視,並重新定義了自己的在行業的核心競爭。在當前的網際網路領域,大數據的應用已十分廣泛,尤其以企業為主,企業成為大數據應用的主體。大數據真能改變企業的運作方式嗎?答案毋庸置疑是肯定的。
  • 某銀行大數據平臺架構設計及應用 | 最佳實踐
    本文介紹了該行如何借鑑國內外同業的先進經驗,同時結合行內實際業務需求,採用大數據平臺和配套產品,進行混搭大數據技術架構設計及平臺落地。【作者】社區ID kappyy,目前在省農信社負責大數據平臺架構和運維工作,對大數據平臺這塊具有豐富的實踐經驗。
  • AI+大數據+IoT:G7的架構實踐
    近來,5G概念的提出以及最近的落地實行,包括對AI數據的要求,對工程師的挑戰都將越來越大,大數據該怎樣去利用並運作?