DataFunCon:2020大數據、AI的最新技術實踐

2021-02-16 運籌OR帷幄


文章作者:Hoh Xil

出品平臺:DataFunTalk

導讀:7月25-26日,9:30-18:00,匯集了2020大數據、AI最新技術實踐的線上大會DataFunCon將如期舉行。本次大會由20餘位知名專家學者出品,設置了18場專題分享,有超過80位一線資深技術專家參與分享。

大會名稱:DataFunCon

大會主題:2020大數據、AI的最新技術實踐

指導單位:北京智源人工智慧研究院

活動主辦:DataFunTalk

聯合主辦:人民郵電出版社 | 異步社區

鑽石贊助:阿里雲開發者社區、網易大數據

鉑金贊助:騰訊大數據、微眾AI

舉辦日期:7月25-26日,9:30-18:00

03

04

出品人:陳煒於

閱文集團 | 智能業務中心高級總監

嘉賓簡介:陳煒於,閱文集團智能業務中心高級總監。8年半百度工作經驗,參與和負責過精準廣告系統,用戶畫像系統,百度推薦系統,WiFi定位系統等大型項目,對用戶畫像,精準推薦/廣告有較深刻的理解和洞察,並且能夠快速將技術和業務結合,形成新的突破點。18年中,加入閱文集團,擔任集團智能總體負責人,負責包括推薦,搜索,用戶畫像,內容理解等方向。期間從0到1建設了集團的智能技術體系,並且在各條業務線取得突破:通過智能風控解決公司審核人效和外露風險;通過推薦分發使得公司的主要產品轉化率成倍提升;完成用戶畫像和內容理解從0到1的統一建設,奠定集團智能的基礎能力。

徐函秋

小米 | 大數據部武漢用戶畫像負責人

內容摘要:數位化時代,網際網路產品面臨優質流量緊缺、獲客成本激增、優質用戶注意分散、劣質用戶泛濫等問題,產品*用戶的生命周期亟需精細化、深度的運營,個性化推薦、金融風控、廣告買量,種種用戶獲取與運營的手段,都指向「用戶畫像」這一基石的構建。本次分享旨在結合小米大數據豐富的實踐案例,回答「什麼是用戶畫像」,「如何從0到1構建用戶畫像」、「用戶畫像的關鍵技術與挑戰」、「用戶畫像如何衡量效果」等問題。嘉賓簡介:徐函秋,現為小米大數據部武漢用戶畫像負責人。於2016年加入小米公司,目前主要負責用戶畫像標籤挖掘、自然人ID圖譜等項目的建設與研發工作,為MIUI、廣告、新零售等小米核心業務提供了用戶畫像相關技術支持,並幫助業務團隊快速搭建了多維分析平臺,實現了精準運營。2012年曾在中科院自動化研究所擔任研發工程師,期間參與了實驗室的多個橫向、縱向項目,以及多次參加相關的國內、國際數據挖掘競賽,還曾在2013年首屆微軟(MSR-Bing)圖像檢索挑戰賽中,隨團隊贏得了季軍。

李嘉晨

貝殼找房 | 資深算法工程師

貝殼用戶畫像的背景與現狀

算法在用戶側的創新實踐

核心問題的演進與背後思考

下遊業務應用與賦能

嘉賓簡介:李嘉晨,貝殼找房資深算法工程師。18年加入貝殼用戶策略部,期間主導和參與了用戶側核心模型的多次迭代,並在用戶建模方向擁有多項專利。加入貝殼前,主要從事用戶側的分析和挖掘工作,服務行業包括信貸風控、視頻內容與智能設備。

王琛

神策數據 | 用戶畫像研發部 & 武漢研發中心負責人

嘉賓簡介:王琛先生是神策數據研發部架構師及分布式查詢引擎技術負責人,負責神策分析的技術規劃、基礎構建等工作,對大數據分析處理、分布式系統架構等方面有比較深刻的理解和實踐經驗,在大數據、機器學習、後端項目開發等多個領域都有深入研究。著有《深度學習原理與 TensorFlow 實踐》一書。

加入神策數據之前,王琛先生曾任職於百度大數據部高級研發工程師,參與百度日誌平臺、用戶數據倉庫、新日誌標準化、Impala 查詢優化等項目;曾擔任百納信息(海豚瀏覽器)研發總監、人工智慧實驗室負責人。王琛先生有 7 年以上大數據從業經驗,碩士畢業於英國愛丁堡大學人工智慧專業。

張長江

網易 | 數據部技術專家

姚凱飛

句逗科技 | 聯合創始人

嘉賓簡介:姚凱飛,句逗科技聯合創始人。前 Club Factory 推薦&風控算法負責人,前阿里推薦算法工程師,碩士畢業於上海交通大學,畢業至今一直從事推薦、搜索、風控、畫像相關的算法工作。

品人:朱張斌

騰訊微視 | 用戶增長算法技術負責人

騰訊微視用戶增長算法技術負責人,12年碩士畢業加入阿里巴巴,淘寶推薦早期成員。15年加入騰訊,先後從事超大規模機器學習模型、在線學習和強化學習在用戶增長、推薦和對話系統的應用。長期關注深度學習、強化學習和因果推斷等。

何晏成

騰訊 | 總監 & 技術專家

內容摘要:本次分享主要介紹用戶增長鏈路中新增、承接、留存、分享等環節主要面臨的技術問題,以及針對這些問題如何構建增長系統,提升用戶增長效率。嘉賓簡介:何晏成,擁有超過10年網際網路產品技術經驗,長期致力於人工智慧、大數據、用戶增長等方向研究。現任騰訊看點用戶增長技術總監,騰訊平臺與內容事業群技術專家,中國計算機學會自然語言處理專委會專委,在ACL、KDD、WWW等國際人工智慧頂級會議上曾發表多篇論文。

吳超

騰訊 | 技術專家

內容摘要:"網際網路的下半場"流量紅利增長進入瓶頸,"用戶增長"成為了網際網路產品熱門話題。不同形態產品隨著業務發展對用戶增長訴求會改變,相應AARRR增長模型下各層指標要求也不一樣。增長業務中,需要抽象業務的共性,沉澱增長能力,敏捷支持不同增長需求。增長中臺通過物料挖掘,智能投放,rta/dpa等技術聚焦增長AA環節,幫助業務獲量,實現業務增長。嘉賓簡介:吳超,騰訊技術專家。有8年多網際網路行業從業經歷,具備豐富系統與數據經驗。曾就職於百度、美團等網際網路公司。目前就職於騰訊,負責用戶增長系統建設。

天師

阿里巴巴 | 高級算法專家

嘉賓簡介:天師,阿里文娛高級算法專家。前獵豹移動海外feed流推薦系統負責人,前百度聯盟研發部資深工程師。

張殿鵬

騰訊 | 增長服務組副總監

內容摘要:用戶增長的五個輪子,通過案例分享用戶增長的核心路徑數據治理、增長的思維、敏捷的工具、實驗的習慣、科學的度量。嘉賓簡介:張殿鵬,騰訊增長服務組副總監。經歷了數據發展的各個階段,DBA、BI、數據分析、數據建模、增長方案、數據產品化等。具備豐富的行業分析、增長分析經驗,從業務指標體系設計、數據埋點規範、數據開發、業務問題轉化、分析思路設計、模型挖掘、增長策略、AB實驗等環節幫助業務增長。近兩年主要負責數據產品運營、中臺數據治理、業務增長方案研發等。

品人:宋世君

快手 | 數據分析部負責人

宋世君,快手數據分析部負責人,快手的數據分析部負責多業務相關的數據科學,用戶研究,生態和戰略分析。在加入快手之前,世君任滴滴數據科學部負責人。在此之前世君還在Google,Facebook擔任數據分析相關工作12年。世君畢業於北京大學統計學專業,並獲得UBC,CMU的統計學碩士學位。

陳峭霖 博士

騰訊遊戲 | 數據科學總監

嘉賓簡介:北京大學學士,UCLA生物統計系博士,2013年底畢業後在諾華製藥任首席統計師,從事臨床試驗統計分析和醫藥大數據研究;2017年加入SparkBeyond任資深數據科學家, 為世界五百強企業提供可落地的大數據解決方案。2018年加入騰訊遊戲數據挖掘團隊,目前致力於遊戲出海領域的機器學習、推薦系統、用戶畫像、知識圖譜等的研究和應用,同時打造業界領先的遊戲領域通用數據挖掘平臺。

楊淼鈺 博士

快手 | 經濟學家

內容摘要:我們從AB實驗評估指標體系、AB實驗與因果推斷和機器學習方法的結合、複雜實驗設計等三個方面,介紹快手在歸因分析方面的方法論進展。嘉賓簡介:華盛頓大學經濟學博士。曾在亞馬遜任職經濟學家,先後在亞馬遜電商、供應鏈技術優化、商務和企業發展部任職。現在在快手負責損益相關的生態分析。

金雅然 博士

快手 | 經濟學家

內容摘要:我們從AB實驗評估指標體系、AB實驗與因果推斷和機器學習方法的結合、複雜實驗設計等三個方面,介紹快手在歸因分析方面的方法論進展。嘉賓簡介:德克薩斯大學奧斯汀分校經濟學博士。在快手從事流量生態分析工作。

楊宇傑

網易嚴選 | 商業智能部技術專家

巴川

競技世界 | 首席數據科學家

內容摘要:在網際網路各細分行業中,遊戲算是用戶價值密度比較高的行業,如何利用知識圖譜、機器學習的各種算法模型,以及合理的融合策略規則,有效實現用戶增長和成本控制的平衡,有效促進用戶活躍而避免過多打擾用戶,有效實現收入增長又控制風險,這裡將和大家一起分享經驗、交流心得。嘉賓簡介:巴川,資深數據科學家,曾就職於中國搜索、搜狐暢遊等網際網路公司,現任競技世界(北京)網絡技術有限公司首席數據科學家。主要研究領域包括網際網路用戶行為挖掘、知識圖譜、精細化運營、產品分析、社交網絡挖掘、反作弊、風控體系、推薦系統、數據可視化等。中國計算機學會技術前線委員會(CCF TF)數據科學研討會主席,國家技術標準創新基地(貴州大數據)數字經濟專業委員會專家,中國教育創新校企聯盟首席數據科學家,北航兼職碩導,西安交大研究生院授課專家,多所高校兼職教師,多個行業峰會演講嘉賓及出品人。

大數據+AI:

品人:王峰

阿里巴巴 | 資深技術專家

王峰,阿里花名"莫問",阿里雲計算平臺事業部實時計算與開放平臺部門負責人,目前帶領團隊基於Flink、Hadoop以及Kubernetes開源技術體系打造的大數據實時計算平臺,不僅服務於阿里集團 ( 淘寶、天貓、聚划算、高德、優酷、飛豬和菜鳥等 ) 所有實時數據業務,同時也通過阿里云為廣大中小企業提供全球領先的實時計算產品服務。

周克勇

阿里巴巴 | 技術專家

分享主題:EMR Spark性能揭秘:Enhanced Optomizer和Native Runtime內容摘要:阿里雲EMR團隊在今年4月份再次打破TPCDS世界紀錄,比前紀錄提升了2倍,背後的技術是EMR團隊深度優化的Spark引擎。本Talk介紹EMR Spark在Optimizer和Native Runtime兩個方向上的探索和實踐。嘉賓簡介:周克勇,阿里花名"一錘",阿里巴巴計算平臺事業部EMR團隊技術專家,大數據領域技術愛好者,對Spark有濃厚興趣和一定的了解,目前主要專注於EMR產品中開源計算引擎的優化工作。

塗軼文

阿里巴巴 | 開發工程師

分享主題:Flink AI Flow 在疫情監控中的運用內容摘要:在如今的大數據在線和離線場景中,Flink + AI已經出現了越來越多的解決方案,作為大數據+AI場景下的頂層工作流抽象,AI Flow提供了端到端的機器學習全流程管理。本文將著重介紹AI Flow在疫情監控中的應用。嘉賓簡介:塗軼文,阿里花名"應言",2019年7月加入阿里巴巴,擔任開發工程師,專注於Flink AI生態領域的開發。

楊旭 博士

阿里巴巴 | 資深算法專家

分享主題:Alink:基於Flink的機器學習平臺內容摘要:Alink 是基於Flink的流批一體的機器學習平臺,提供的一系列算法,可以幫助處理各種機器學習任務,比如統計分析、機器學習、實時預測、個性化推薦和異常檢測。除了提供Java API也提供了PyAlink,可以輕鬆部署到單機及集群環境,通過Jupyter、Zepplin等notebook使用。Alink已在阿里巴巴內部支持了眾多的應用場景,並在2019年11月的Flink Forward Asia大會上宣布開源,隨後不斷迭代發布新的版本,增強功能,提升易用性。嘉賓簡介:楊旭,阿里花名"品數",阿里巴巴資深算法專家,阿里雲機器學習平臺 PAI 中基礎機器學習算法的負責人。2004 年獲南開大學數學博士學位;隨後在南開大學信息學院從事博士後研究工作;2006 年加入微軟亞洲研究院,進行符號計算、大規模矩陣計算及機器學習算法研究;2010 年加入阿里巴巴,從事大數據相關的統計和機器學習算法研發,2017 年帶領團隊研發基於Flink的流批一體的機器學習平臺 Alink,現已開源。出版《重構大數據統計》,《機器學習在線:解析阿里雲機器學習平臺》等著作。

李銳

阿里巴巴技術專家 | Apache Hive PMC

分享主題:Flink 1.11 Hive 集成與批流一體內容摘要:Flink從1.9.0開始提供與Hive集成的功能,隨著幾個版本的迭代,在最新的Flink 1.11中,與Hive集成的功能進一步深化,並且開始嘗試將流計算場景與Hive進行整合。本次議題,我們會分享在Flink 1.11中對接Hive的新特性,以及如何利用Flink對Hive數倉進行實時化改造,從而實現批流一體的目標。嘉賓簡介:李銳,阿里花名"天離",阿里巴巴技術專家,Apache Hive PMC成員,加入阿里巴巴之前曾就職於Intel、IBM等公司,主要參與Hive、HDFS、Spark等開源項目。

智能助手:

出品人:王浩 博士

天貓精靈 | 用戶理解和智能助手負責人

王浩,阿里巴巴阿里雲天貓精靈事業部用戶理解和智能助手負責人。加入前曾任奇虎360搜索首席科學家,致力於下一代智能搜索和推薦技術研發,包括搜索首條直接答案、360機器翻譯以及知識圖譜等。博士,畢業於日本東京大學,美國加州大學伯克利分校聯合培養。進入工業界之前在學術界中國科學院教授,主要研究方向包括:智能問答與對話技術、用戶建模與個性化信息流推薦、機器閱讀理解與自然語言生成等,已發表成果70餘篇,包括國際頂級會議和期刊,如KDD、AAAI、IJCAI、WWW、ICDE、ICDM、ACM MM、ECCV、CIKM、TOIS、TKDE、TPAMI、TIP、TAC等。

姜飛俊 博士

天貓精靈 | 語義理解團隊負責人

姜飛俊,天貓精靈語義理解團隊負責人。香港科技大學博士畢業後加入阿里巴巴,先後研發了電商圖像安全識別引擎,Aliexpress個性化推薦系統和天貓精靈人機對話系統。

曹湧

天貓精靈 | 內容助手負責人

曹湧,阿里雲天貓精靈內容助手負責人。之前是微軟亞洲研究院主管研究員,主要研究興趣為數據挖掘和自然語言處理,倡導以產品發布為驅動的研究模式,主導研究和開發了人立方關係搜索,微軟學術搜索,微軟讀心機器人等原型產品,研究成果轉化應用到微軟必應搜索,Office辦公組件以及微軟認知服務等產品中,並取得多項美國專利。

胡於響

阿里巴巴 | 算法專家

分享主題:天貓精靈算法交互體系的演進之路

內容摘要:本演講主要介紹天貓精靈在交互中的一些體系及算法上的創新,以及我們在算法技術方案上的一些思考。

嘉賓簡介:阿里巴巴天貓精靈事業部算法專家,主要負責天貓精靈語義理解,過去幾年完成天貓精靈領域內理解,端到端語音識別,流量劃分等,使得天貓精靈在算法交互體系效果上在業界保持領先。


分享主題:基於大規模無監督語音預訓練的語音語義理解

內容摘要:傳統的語音語義理解方案首先將輸入的語音信號經過聲學模型轉換為語音中間結果,然後通過兩種方式被下遊技術利用:一種是通過語言模型生成文字然後利用自然語義理解方法(NLU)對文字進行語義理解;另外一種是通過端到埠語理解模型(SLU)直接對語音中間結果進行語義理解。然而訓練數據不足是導致以上兩種方法效果不佳。基於此,我們提出通過引入語音語義預訓練方法,利用大規模無標註語音數據,對語音中間結果進行語義預訓練,使其從海量原始語音數據中學習到語義特徵,解決訓練數據不足的問題。

嘉賓簡介:王鵬偉,2018年博士畢業於華南理工大學,同時也是微軟亞洲研究院(MSRA)聯合培養博士生。目前就職於阿里巴巴天貓精靈事業部。主要研究方向為語音語音理解,大規模文本以及語音預訓練,自然語言處理以及知識圖譜相關工作。目前主要負責天貓精靈線上產品的語音語義理解以及內容搜索的研究與應用。


崔鳴

貝殼找房 | 資深NLP算法工程師

分享主題:經紀人的24h隨身助理—小貝諮詢助手

內容摘要:智能助手是AI在產業中應用最為廣泛的領域,在貝殼IM是經紀人與客戶在商機後環節的重要溝通場景,所以為智能助手的構建提供了強有力的場景和數據支持,小貝諮詢助手正是圍繞和依託IM場景實現對經紀作業的賦能與提效。

本次分享我們將重點介紹小貝諮詢助手構建的整體架構與流程,各個核心環節在技術構建的過程中遇到的問題與解決方案,以及在業務系統中是如何分析問題,最終實現各模塊聯動達到業務效果的提升。

嘉賓簡介:貝殼找房資深NLP算法工程師,2015碩士畢業於武漢大學,先後在新浪微博、小米從事推薦算法和機器學習相關工作,獨立負責了相關微博推薦與相關視頻推薦項目;2018 年加入貝殼,負責團隊自然語言理解、智能客服、智能審核等工作,參與了小貝諮詢助手從0到1的,構建過程,曾在QCON做過《智能客服算法優化與迭代》的主題分享。

王成龍

阿里巴巴 | 算法專家

分享主題:語音助手中的結構化語義表達方法演進

內容摘要:介紹當前主流語音助手中所使用的結構化語義表達方法及對應的解析算法在近幾年的演化過程。

嘉賓簡介:阿里巴巴集團-天貓精靈事業部算法專家,天貓精靈IOT領域算法負責人。致力於IOT等任務型人機互動領域的語音語義理解算法研發及業務場景落地,在機器學習和自然語言處理領域積累了多年的實戰經驗,發表過多篇學術論文和專利。

姚晟

阿里巴巴 | 高級技術專家

分享主題:智能助手對話交互式語音搜索技術

內容摘要:天貓精靈智能音箱一直處於國內首位,其中智能語音助手技術發揮著核心提升用戶體驗能力,這裡面有別於傳統技術方法諸多挑戰,比如語音識別輸出的用戶Query通常會有更多的錯誤嚴重影響後面的語義理解以及執行,以及口語Query通常表達更依賴對話上下文的綜合理解,這個報告將給大家分享口語Query 理解技術以及對話式搜索技術,與大家一同打造未來無框搜索的智能助手時代。

嘉賓介紹:阿里巴巴阿里雲天貓精靈事業部知識圖譜和語音搜索團隊負責人,十年阿里技術項目經驗,在知識圖譜、語音搜索、對話系統、大數據等方面有豐富的實踐經驗。

張躍偉

阿里巴巴 | 算法專家

分享主題:跨領域信息流推薦技術

內容摘要:跨領域信息流,跨領域的物料(服務、內容、商品、視頻)推薦結果極⼤地豐富了⽤戶體驗,滿⾜了⽤戶對不同推薦體裁的消費需求。如何將跨領域的多源異構物料在信息流推薦中更好的進⾏混排是⼀個⾮常有挑戰的問題。本次分享中,我們將介紹幾種實際場景中的信息流和相應挑戰,以及對應的解決探索方案和落地情況。

嘉賓簡介:阿里巴巴阿里雲天貓精靈事業部信息流推薦負責人,天貓精靈智能助手的初創成員,在搜索推薦信息流具有豐富的工業大型項目經驗,目前在助手對話信息流技術上不斷創新探索。

陳天健

微眾銀行 | AI部門副總經理

前百度主任架構師(T10),百度金融首席架構師。設計百度搜索、推薦、大數據、金融等多個業務的總體架構和關鍵系統。現在微眾銀行人工智慧部負責銀行智能化和聯邦學習技術生態的構建。

王禮斌

騰訊 | 高級工程師

分享主題:通過非對稱聯邦隱藏實際客戶

內容摘要:當前聯邦學習需要通過PSI等方法同步雙方的交集客戶樣本,但金融機構對暴露交集非常敏感:一是因為知道一個人是該機構客戶已是一種隱私暴露(客戶不想別人知道他們做了貸款或者投了保險);二是客戶是金融機構通過種種方法辛苦獲取,獲客成本不低,若客戶清單暴露可能被競爭對手挖角。非對稱聯邦通過算法創新,讓金融機構在樣本中混入大量無關客戶,掩蓋真實信息,但最終不影響實際訓練出來的模型,在生產時配合安全信息提取方法,就能徹底保護真實客戶清單。我們將為各位介紹我們如何做到這一點,且為客戶帶來了什麼價值。

嘉賓簡介:騰訊雲大數據與人工智慧產品部大數據平臺產品組神盾聯邦計算產品算法工程師,4年信貸大數據風控建模經驗,為微粒貸/微車貸等產品提供風控服務,現為神盾信貸計算開發特徵工程和聯邦算法組件,和進行具體項目落地。

湯韜

中國銀聯 | 博士後

分享主題:聯邦學習在小微企業信貸及營銷推薦領域的應用與探索

內容摘要:當前聯邦學習為機構間數據合作和價值挖掘探索提供了較好的技術思路和解決方案,但在應用落地和場景探索上依然有較大的努力空間。中國銀聯與微眾銀行基於當前良好的戰略合作關係,以小微企業信貸風險評估為具體應用場景,通過聯邦學習方法,將銀聯側小微企業工商數據及企業主數據和微眾銀行側小微企業信貸數據進行了有效的數據融合與價值挖掘,綜合縱向聯邦學習及特徵工程方法,實現了雙方數據價值的提升。我們將以此為案例,對聯邦學習技術落地應用及商業化探索進行介紹和細節分享。同時,我們針對當前場景探索的迫切需求,基於聯邦學習對營銷推薦場景下多方隱私數據的合理使用及離線、在線推薦系統的改造提出了相關的技術方案,相關細節也將進行介紹。

嘉賓簡介:湯韜,中國銀聯在站博士後。畢業於上海交通大學,2018年加入中國銀聯從事基於大數據的人工智慧金融風險防控相關研究,曾主持參與過銀聯營銷反欺詐偵測、黑灰產用戶人機識別及身份認證等課題。

張海寧

VMware | 技術總監

分享主題:雲原生聯邦學習的開源框架

內容摘要:本次演講介紹採用雲原生技術管理和運維聯邦學習平臺原理和方法,使聯邦學習任務能在公有雲、私有雲以及混合雲的環境中無縫運行。演講將結合開源項目FATE/KubeFATE,Kubeflow等進行演示和講解。

嘉賓簡介:張海寧(Henry),VMware中國研發技術總監,CNCF Harbor 開源鏡像倉庫項目創始人,聯邦學習開源項目KubeFATE代碼維護者,騰訊雲最具價值專家(TVP),《區塊鏈技術指南》作者之一。關注人工智慧、雲原生、區塊鏈等領域。

洪澄 博士

阿里巴巴 | 高級安全專家

分享主題:聯邦學習與安全多方計算

內容摘要:聯邦學習和安全多方計算是當前跨機構數據協同的兩類主流技術,本報告將從基本思想、安全性、性能等多個方面介紹二者的區別,並介紹阿里在安全多方計算方面的最新成果。

嘉賓簡介:洪澄,阿里巴巴集團高級安全專家,2006年獲中國科學技術大學軟體工程學士學位,2012年獲中國科學院大學信息安全博士學位。研究興趣包括資料庫安全、數據安全與隱私保護、應用密碼學等,曾在EUROCRYPT,SIGMOD、VLDB等國內外相關期刊、會議發表論文10餘篇,擔任密碼學報,IEEE Transactions on Dependable and Secure Computing (TDSC) 等審稿人。現在阿里安全部負責安全多方計算、同態加密等前沿技術的研究,及其在阿里經濟體的推廣應用。

範濤

微眾銀行 | 高級研究員

分享主題:FATE: 聯邦學習技術落地與應用實踐

內容摘要:隨著大數據的進一步發展,重視數據隱私和安全已經成為了世界性的趨勢。同時,大多數行業數據呈現數據孤島現象。如何在滿足用戶隱私保護、數據安全和政府法規的前提下, 進行跨組織間數據合作是困擾人工智慧從業者的一大難題。而「聯邦學習」將成為解決這一行業性難題的關鍵技術。主題將會圍繞兩方面展開:

1. 利用聯邦學習進行跨組織間多方聯合建模若干關鍵技術,這些關鍵技術如何落地到開源項目FATE,以及FATE 2020年展望。

2. 微眾銀行AI團隊已經推動FATE在信貸風控,客戶權益定價,監管科技等領域的一系列應用。

嘉賓簡介:FedAI聯邦學習開源平臺FATE和聯邦學習商業化FDN產品技術負責人。碩士畢業於中國科學技術大學,加入微眾前,曾任職百度,騰訊,負責AI,大數據相關項目研發,具備豐富的機器學習算法和產品實踐經驗。目前主要研究方向包括聯邦學習,機器學習,深度學習,遷移學習等。曾在"雷鋒網《金融聯邦學習公開課》","Linux Foundation AI Day中國站",深圳市金融科技協會舉辦的"深圳金融科技界 ( 人工智慧 ) 專題研討會","OpenI-開發者大會","CCF-TF","微眾銀行首屆FinTech Day AI 分論壇"進行聯邦學習主題分享,發表聯邦學習相關技術專利40多篇。

出品人:蔣鴻翔

網易杭研 | 大數據首席架構師

蔣鴻翔,2011年加入網易,現任網易杭研大數據首席架構師,《MySQL內核:InnoDB存儲引擎 卷1》作者之一,網易資料庫內核和數據倉庫平臺負責人,長期從事資料庫內核技術和大數據平臺底層技術開發,主導網易資料庫內核整體技術方案和大數據平臺先進技術調研和實現,先後主導了內部MySQL分支InnoSQL、HBase、自研時序資料庫、自研實時數據倉庫等各種不同的平臺,具有豐富的資料庫內核和大數據平臺相關經驗。

範欣欣

網易 | 資料庫內核開發負責人

分享主題:詳述數據湖在網易的實踐

嘉賓簡介:範欣欣,網易杭州研究院數據科學中心工程師,數據可內核開發負責人。他與Apache HBase PMC成員、小米公司HBase工程師胡爭合著的新書《HBase原理與實踐》,這也是業界第一本專門闡述HBase原理的書。

五羖

阿里文娛技術專家

分享主題:優酷大數據OLAP技術選型

內容摘要:數據驅動的方法論已深入人心,無論是開發、產品還是運營,根據數據進行決策是必備環節。你是否好奇過,在優酷這樣海量數據的場景下,是什麼樣的引擎在支撐著業務上林林總總的分析需求?大數據領域中,Kylin、Druid、ES、ADB、GreenPlum、ODPS 這些眼花繚亂的名字,它們之間又要什麼區別和聯繫、企業如何進行選型?本次演講將為揭曉答案。

嘉賓簡介:來自阿里文娛基礎平臺部,負責會員增長相關的數據挖掘與數據平臺建設工作。

溫正湖

網易 | 資料庫技術專家

分享主題:Impala 在網易大數據中的應用和優化實踐

嘉賓簡介:溫正湖,網易杭研資料庫開發專家。10年資料庫和存儲開發經驗,2013年起一直從事資料庫內核和資料庫雲服務相關工作,現為杭研資料庫內核團隊負責人;專注於資料庫內核技術和分布式系統架構,樂於挑戰和解決疑難問題;負責網易MySQL分支InnoSQL的開發和優化工作,大幅提升了線上業務的MySQL資料庫服務質量;主導並推動MGR、MyRocks等新方案在考拉海購、雲音樂、傳媒等業務場景大規模使用;累計申請10+技術發明專利(已授權8個),《MySQL 內核:InnoDB 存儲引擎 卷1》作者之一。

劉力雲

貝殼找房 | 資深工程師

分享主題:實時計算在貝殼的實踐

內容摘要:詳細介紹實時計算技術在貝殼找房的應用,主要從實時計算平臺的開發歷程,實時數倉的落地,事件驅動場景的探索和事件處理平臺的實現等幾個方面來講解。

嘉賓簡介:目前任職於貝殼找房數據智能中心,實時計算負責人。曾任職於滴滴、IBM。工作領域涉及實時計算、大數據平臺、推薦系統、文本分析、知識圖譜等。目前負責貝殼找房實時計算相關設計開發,承載了公司的實時ETL、數據分析等任務;支持實時數倉、實時指標的建設;支持實時事件處理相關的業務需求。

出品人:劉俊暉

愛奇藝 | 智能平臺部高級總監

劉俊暉愛奇藝高級總監智能平臺部人工智慧團隊負責人。畢業於復旦大學,曾就職於Intel和SAP,從事雲計算、大數據相關的研發和管理工作。2013年加入愛奇藝,目前負責帶領人工智慧團隊為公司的AI娛樂戰略賦能及創新研究,並在圖像與視頻理解、智能製作、多媒體技術、AR/VR等方面有大量的落地。在雲計算、大數據、人工智慧方面有大量的網際網路實踐經驗,並擁有相關德國、中國專利10餘項。

龍翔

百度 | 資深研發工程師

分享主題:高效且有效的實用目標檢測技術

內容摘要:目標檢測技術是計算機視覺技術的重要領域之一,在各行各業都已經得到了廣泛的應用。在實際應用中,選擇目標檢測模型時,往往都會面臨效果和效率的平衡問題。如何在保持高效的前提下,開發一個更有效的檢測模型,是十分重要的。本次演講則主要介紹開發這樣一個模型的方法和思路。

嘉賓簡介:2018年加入百度,現為資深研發工程師,主要負責目標檢測、視頻理解算法的研發和落地。在CVPR、AAAI、TACL等會議期刊上發表論文5篇。曾獲得2019 Object365目標檢測比賽冠軍和多項視頻理解比賽Kinetics、ActivityNet冠軍。

馬彬 博士

美團點評 | 技術專家

分享主題:本地生活場景的短視頻分析

內容摘要:美團點評圍繞豐富的本地生活服務場景,積累了海量視頻數據。如何通過計算機視覺技術更好地利用相關視頻數據,為用戶和商家提供更好的服務,是一項重要的研發課題。本次分享將主要介紹,短視頻內容理解與生成技術,在美團點評業務場景的落地實踐。

嘉賓簡介:馬彬,美團點評技術專家。2014年博士畢業於北航計算機學院,2017年加入美團點評,目前主要負責線上視頻理解與生成方向的技術研發工作。此前曾就職於佳能研究院,研究方向為圖像視頻中的場景文字識別。

雷語 博士

淘系技術部 | 資深算法專家

分享主題:多媒體電商的AI交互

內容摘要:在新興的多媒體電商(淘寶直播、VOD、短視頻、遊戲)成為電商新的形式,對於人機互動、信息呈現都帶來了新的挑戰;本議題主要分享團隊在多媒體電商中AI對內容實時理解、毫秒級的人機互動的相關實踐工作。

嘉賓簡介:博士畢業於上海交通大學,現任淘系技術部內容社交互動平臺的資深算法專家。目前帶領AI團隊,針對淘寶直播、淘系內容化,從事端AI、多模態視頻理解、AI/AR交互、AIGC等方向的研發工作。擅長AI內容化、CV、推薦、導購機器人,支持淘寶直播、互動、社交等業務,擁有7年以上相關的工業界實踐經驗。

劉祁躍

愛奇藝 | 科學家

分享主題:視頻精彩度分析算法及應用

內容摘要:對於視頻平臺,識別和創作精彩內容是吸引和留存用戶的關鍵因素,也是商業化的推動力。本次主要分享愛奇藝在視頻精彩度分析中的技術方案,並簡單介紹典型應用場景。

嘉賓簡介:愛奇藝科學家,智能平臺部視頻分析組負責人,負責對視頻內容的理解和生成,並應用到廣告、創作、分發等業務。

出品人:王斌 博士

小米人工智慧部AI實驗室主任,NLP首席科學家

中國中文信息學會理事,計算語言學、信息檢索、社會媒體處理、語言與知識計算等專委會委員及《中文信息學報》編委,中國計算機學會中文信息處理專業委員會委員。加入小米之前,在中科院計算所、信工所從事自然語言處理和信息檢索相關的科研工作,任研究員、博導,中科院大學教授。發表學術論文200餘篇,獲得授權專利15項,譯有《信息檢索導論》、《大數據:網際網路大規模數據挖掘與分布式處理》、《機器學習實戰》等暢銷書籍,在國際級評測或競賽中3次名列第一,領導研製的多個內容分析處理系統在國家部委長期實際運行,科研成果獲得國家科技進步二等獎2項,省部級科技獎3項,迄今培養博士、碩士近100名。長期擔任SIGIR、CIKM、ACL、IJCAI、AAAI、WWW等會議的程序委員會委員。

楊比特

丁香園 | 資深NLP算法工程師

分享主題:醫療健康領域的短文本理解

內容摘要:分享在丁香園的業務場景下,短文本理解的技術實踐,討論知識圖譜技術如何在醫療健康領域的搜索推薦中落地應用。

嘉賓簡介:楊比特,碩士畢業於軍事醫學科學院,負責丁香園大數據NLP組,目前專注於醫療健康領域下的自然語言處理、知識圖譜構建與應用、搜索與推薦技術。

羅錦文

騰訊 | 研究員

分享主題:熱點挖掘及應用

內容摘要:當前各大資訊社交類APP都在顯著的版面展示或者推薦熱點相關內容,信息流應用能否快速發現熱點、引導用戶閱讀熱點,是影響用戶體驗的重要因素。本次分享主要介紹騰訊看點在熱點方面的工作。基於搜索數據和自媒體文章,通過時序分析方法和內容聚類相結合的方法挖掘熱點,並將熱點聚類成事件和話題。用戶搜索和媒體生產能夠從消費和生產兩個方面更加準確的度量熱度,事件和話題同時能夠輔助用戶理解,做到熱點的個性化下發,從而提升信息流熱點體驗。

嘉賓簡介:本科畢業於蘭州大學,研究生畢業於北京大學。2016年阿里實習,然後2017下半年轉戰百度實習,於18年加入騰訊正式工作,負責新NLP新熱內容挖掘和詞法分析相關工作。

劉亮

美團 | 資深算法工程師

分享主題:O2O搜索場景下的查詢理解系統

內容摘要:介紹美團搜索中查詢理解系統的演進歷史,NLP技術在OTO搜索場景的應用,以及我們面臨的挑戰和解決思路。讀者可以從分享中了解美團查詢理解的在利用NLP技術解決實際問題的一些經驗。

嘉賓簡介:劉亮,美團資深算法工程師,8年搜索和nlp相關工作經驗,目前是美團搜索查詢理解方向架構師。

苗豔軍

愛奇藝 | 智能理解團隊負責人

分享主題:NLP技術在短視頻場景中的應用實踐

內容摘要:短視頻作為一種重要的信息傳播媒介,每天被大量的生產並上傳到各大短視頻內容平臺。如何加強對短視頻的內容理解和提高智能分發效率是各大短視頻平臺面對的一個重要課題。隨著深度學習和多模態技術的快速發展,NLP作為一種讓計算機智能理解語言的技術,在其中發揮著越來越重要的作用。本次分享主要介紹在愛奇藝短視頻場景下NLP技術的應用實踐,主要內容包括:實體識別、長短關聯、內容標籤等。

嘉賓簡介:2012年加入愛奇藝,主導和參與了NLP多個核心模塊的研發和產品落地,目前主要負責NLP算法、知識圖譜、Query理解、Query推薦等算法的研發和管理,相關技術和服務在愛奇藝內部被廣泛使用。

王凡

百度 | 主任架構師

分享主題:通用對話系統的現狀和未來

內容摘要:該演講會系統地介紹通用對話系統最前沿的技術,包括知識對話生成、基於強化學習的可控對話、大規模預訓練對話模型等等,以及展開對通用對話系統未來發展的討論。

嘉賓簡介:王凡,2012年加入百度,現任百度自然語言處理部主任架構師,負責在線學習、前瞻對話等技術方向工作,將強化學習技術廣泛落地到百度搜索、信息流、地圖等核心業務。帶隊兩次獲得NuerIPS強化學習賽事國際冠軍,在ACL、IJCAI、KDD等國際會議發表多篇論文。曾獲百度最高獎,百度驕傲最佳個人。

崔建偉

小米 | 工程師

分享主題:預訓練的應用挑戰與實踐探索

內容摘要:預訓練模型在NLP大放異彩,並開啟了預訓練-微調的 NLP 範式時代。由於工業領域相關業務的複雜性,以及工業應用對推理性能的要求,大規模預訓練模型往往不能簡單直接地被應用於 NLP 業務之中,本次演講介紹了小米在預訓練模型的探索與優化。本演講主要內容包括:

1. 預訓練技術簡介

2. 預訓練技術應用落地的挑戰:推理延時高、如何融入領域知識、根據具體任務進行結構與訓練調整;

3. 預訓練技術應用實踐探索,包括:

輕量級模型:知識蒸餾應用到小愛判不停

推理優化:低精度+FastTransformer應用到閒聊相關性計算

領域知識融入:槽位與實體信息融入應用到對話系統意圖識別

根據任務調整結構與訓練:多粒度分詞與閒聊生成式對話

4. 預訓練技術近期發展與展望

嘉賓簡介:崔建偉,小米人工智慧部AI實驗室NLP應用組負責人。2012年加入小米,先後參與分布式系統HBase、FDS、SDS等開發;2017年開始負責NLP應用組,包括閒聊對話、機器翻譯、預訓練平臺等項目,落地到小愛同學、小愛老師等重要業務。

出品人:李先剛 博士

滴滴出行 AI LABS 首席算法工程師,滴滴語音技術負責人

他長期從事語音識別、語音合成、說話人識別和口語對話理解的研究。曾參加Blizzard Challenge 2013國際語音合成比賽,搭建了當時最好的英語語音合成系統。加入滴滴前,他曾是百度語音技術部語音識別技術負責人,推動了包括DeepSpeech、DeepSpeaker等系統的研發迭代,以及其語音識別、說話人識別的產品性能的提升。其中DeepSpeech 2被 MIT Tech Review 評為 2016 十大技術突破之一。

陳果果 博士

seasalt.ai | 聯合創始人

分享主題:語音喚醒:開源、落地以及技術優化

內容摘要:介紹演講者在創辦KITT.AI的過程中,講語音喚醒技術進行開源、落地,以及後續的技術優化的過程。

嘉賓簡介:陳果果,清華大學本科學位,約翰霍普金斯大學博士學位,主要研究方向是語音識別以及關鍵詞檢索方向。博士期間為Google開發了Google的喚醒詞Okay Google的原型,現在已經用到的數以億計的安卓設備上。博士期間同時也參與開發語音識別開源系統Kaldi,以及神經網絡開源工具CNTK。博士畢業以後聯合創辦KITT.AI,專注於語音識別以及自然語言處理,2017年被百度收購以後,加入百度度秘事業部,擔任主任架構師。2020年聯合創辦Seasalt.ai及Vobil.com,專注於語音技術的落地與發展。

李秀林 博士

標貝科技 | 聯合創始人兼 CTO

分享主題:語音生成及相關拓展技術的應用實踐

內容摘要:人工智慧技術的進步,提升了用戶對語音個性化的使用需求,從「千人一面」到「千人千面」轉變。既定場景下 ,如何讓機器擁有情感的聲音與用戶對話,以提升用戶交互意願?另外,除了大家熟知的語音合成TTS外,我們還可以挖掘到聲音拓展的哪些應用價值?標貝科技聯合創始人兼CTO李秀林以語音生成與聲音拓展作為切入點,與大家分享標貝科技語音應用實踐。

嘉賓簡介:李秀林,標貝科技聯合創始人兼 CTO。中國科學院聲學所博士,15年以上語音行業相關經歷,個人語音專利30餘項。曾就職於滴滴、百度等企業,擔任語音相關業務負責人。

張學良 博士

大象聲科(深圳)科技有限公司 | CTO

分享主題:骨震動傳感器在TWS耳機通話降噪中的應用

內容摘要:近期TWS耳機熱度持續升高,獲得市場的極大關注。通話是 TWS (True Wireless Stereo) 耳機最重要的功能之一。但日常環境的噪音對通話質量的影響十分嚴重。因此,通話降噪算法在TWS耳機上已經成為標準配置。尤其以基於深度學習的降噪算法為代表,極大的提升了噪聲環境下的通話體驗。儘管如此,在某些地鐵和風噪的極限場景下,僅僅使用傳統麥克風的信號,算法依然無法獲得很好的降噪效果。本次報告中,我將介紹骨振動傳感器在TWS耳機通話降噪中的應用,如何利用骨振動傳感器提升算法的降噪效果。

嘉賓簡介:張學良,大象聲科(深圳)科技有限公司聯合創始人、CTO。內蒙古大學教授,博士生導師。2010年於中國科學院自動化研究所,模式識別國家重點實驗室獲博士學位。2015年-2016年,美國俄亥俄州立大學訪問學者。研究方向包括語音分離/增強,計算聽覺場景分析。已發表論文包括IEEE/ACM Transactions on Audio Speech and Language Processing、ICASSP、INTERSPEECH等40餘篇。

宋輝 博士

滴滴 | 高級專家研究員

分享主題:端到端語音分離技術及其應用

內容摘要:語音分離技術的基本框架,最新進展和應用。

嘉賓簡介:宋輝,滴滴AI Labs語音語義技術部,高級專家研究員。清華大學博士,2018年5月加入滴滴,語音研究實驗室負責人,主要研究方向為語音和音頻信號處理。

詹坤林

58同城 | AI Lab 負責人

分享主題:58同城智能語音分析平臺技術揭秘

內容摘要:語音是58同城用戶之間的重要溝通媒介,58同城C端用戶和B端用戶之間可以通過網絡音視頻通話、電話建立連接,58同城數千名銷售和客服人員會通過呼叫中心與客戶進行電話溝通,這些場景下會產生大量的語音數據,我們構建了一套智能語音分析平臺將這些語音數據轉譯成文本,並進行挖掘分析,以應用於各業務場景為平臺創造價值。本次議題首先將介紹語音分析平臺的總體架構,然後分享其中的NLP、語音識別算法,最後分享相關業務場景下的實際應用案例。

嘉賓簡介:詹坤林,58同城AI Lab負責人,技術委員會AI分會主席,2015年5月加入58,致力於推動AI技術在58的落地,打造AI中臺能力,以提高前臺業務人效和用戶體驗,目前主要負責智能客服、語音機器人、語音分析平臺、智能營銷系統、智能寫稿、語音識別、AI算法平臺等產品的研發。曾任騰訊高級工程師,負責推薦算法研發,2012年碩士畢業於中科院。

出品人:李鈺

阿里巴巴高級技術專家,Apache Flink & HBase PMC

李鈺,阿里巴巴計算平臺事業部高級技術專家,Apache Flink & HBase PMC。具備豐富的Flink、HBase大規模生產集群雙十一實戰經驗。

張照亮

阿里巴巴 | 技術專家

分享主題:阿里巴巴電商搜索推薦的實時數倉演進之路

內容摘要:阿里巴巴電商搜索推薦是面向產品算法,天貓淘寶行業運營的大數據解決方案,提供實時、離線、流批一體多維交互式查詢,日寫入千億行。在本次演講中將會分享搜索推薦實時數倉是如何一步步演進到Flink+Hologres 計算查詢數倉架構,以及現實時數倉在搜索推薦場景的最佳業務實踐。

嘉賓簡介:張照亮,阿里花名"士恆",阿里巴巴技術專家、阿里巴巴搜索推薦事業部-搜索推薦數據平臺基礎數據研發負責人,目前主要負責搜推大數據解決方案迭代演進和部分業務側數據產品架構設計和研發工作。

李金康

美團 | 高級技術專家

分享主題:配送實時特徵平臺建設實踐

內容摘要:美團配送是業界領先的智能物流平臺,擁有全球領先的實時配送網絡。美團配送是配送時長在1小時以內,平均配送時長約30分鐘的即時配送業務,過程涵蓋了用戶、商戶、騎手和平臺互相交錯的四元關係,美團配送策略團隊建立了配送的「超腦」配送系統,從用戶下單,商家接單騎手的接單送達,進行準確的時間、運力的預估,通過動態定價、智能派單、網絡規劃等系統來提升配送效率、優化用戶體驗、降低配送成本。這些準確的策略背後離不開對實時特徵數據的依賴,本次分享主要為大家介紹配送實時特徵平臺的發展歷程,關鍵技術和實踐經驗。

嘉賓簡介:2013年加入美團,現任美團配送數據組數據應用組的負責人,長期負責配送數據架構的系統開發與架構升級,主導配送實時數據建設、配送BI系統建設、實時特徵平臺建設,為全國海量騎手及各級管理團隊和算法團隊提供信息化支持。擁有多年網際網路研發及技術管理經驗,在大數據、高並發、高可用架構設計等領域積累了豐富的經驗。

張庭

菜鳥 | 數據工程師

分享主題:菜鳥進口實時數倉2.0升級之路

內容摘要:供應鏈物流場景下的業務複雜度高,業務鏈路長,節點多,實體多,實時數倉建設難度高。跨境進口業務場景更是如此,更複雜的場景帶來更複雜的實體數據模型,對接的業務系統多導致ETL流程特別複雜,還有海量的日均處理數據量,使得團隊在建設進口實時數倉的過程中,面臨著諸多挑戰,如:如何保證複雜實體關係下的數據準確性?如何降低多數據源情況下的數據處理複雜度?如何提升實時多流Join的處理效率?如何實現實時超時統計?如何實現異常情況下的數據狀態恢復?

嘉賓簡介:張庭,阿里花名"佳二",19年碩士畢業於浙江工業大學,畢業後便加入阿里巴巴菜鳥數據部,負責國際供應鏈相關的數據研發工作。工作期間負責了進口離線數倉升級、實時數倉升級等項目,負責過雙十一/618等大促的數據建設和保障工作。發表過相關技術創新提案多篇,在離線、實時數倉的技術探索,架構重構,性能優化等方面有著豐富的經驗。

馬進

網易杭研技術專家 | 網易流計算團隊負責人

分享主題:網易實時數倉的演進和發展

嘉賓簡介:負責網易資料庫中間件、數倉團隊,主導資料庫中間件的各類項目研發,曾先後參與分布式資料庫DDB,緩存NKV,分布式事務協調器TCC,數據運河NDC等項目。專注於分布式系統架構與資料庫技術,熱衷於構建高效的,高性能的分布式後臺系統。

出品人:費浩峻

度小滿金融 ( 百度金融 ) | 主任架構師

負責百度金融智能獲客技術架構。從0到1建立了百度金融以人工智慧為核心、大數據為基礎的多平臺的智能獲客系統,支持了千萬級的用戶獲取。專注於大數據、人工智慧方向研究,有大數據、nlp、計算廣告、信息處理等10餘篇專利。

嚴澄

度小滿金融 | 風控模型負責人

分享主題:大數據和人工智慧在度小滿金融風控的實踐

內容摘要:

嘉賓簡介:嚴澄,度小滿金融風控模型負責人。2010年入職百度,有10年以上一線大數據和機器學習的應用實踐,先後參與過百度聯盟廣告的CTR預估、百度糯米的產品推薦算法工作;2018年開始從事金融風控模型的相關工作,目前主要負責度小滿金融內部的風控模型,利用大數據和人工智慧技術提升金融科技的能力。

王力

螞蟻金服 | 高級算法專家

分享主題:共享智能在螞蟻金服的探索與實踐

內容摘要:隨著人工智慧的興起,數據的質量和數量,已經成為影響機器學習模型效果最重要的因素之一,如何在通過數據共享擴充數據量的同時,確保隱私不被洩露、數據不被濫用,已經成為人工智慧的一個重要研究方向。這裡主要介紹螞蟻金服在共享智能技術上的發展與應用,並分析這一領域未來的發展趨勢。

嘉賓簡介:王力,螞蟻金服人工智慧高級算法專家。上海交通大學計算機專業碩士畢業,2010年加入阿里巴巴,從事搜索算法研究工作,2016年加入螞蟻金服,從事共享智能技術研究與應用工作。

李漁 博士

熵簡科技 | 聯合創始人

分享主題:熵簡科技在投研數智化建設中的思考與實踐

內容摘要:在數位化浪潮的大背景下,金融資管行業的先行者正在積極探索將人工智慧、大數據等先進技術用於構建面向未來的智能化投資研究平臺。本次分享從金融資管領域對於新一代投研系統的建設重點和主要挑戰入手,詳細介紹熵簡科技在構建一站式投研系統中的思考和技術實踐。在數據層,為構建起全域數據獲取體系,我們利用tag2vec、前向網絡以及雲原生等技術手段,打造了一套日處理 TB 級的大數據採集系統。在中臺層,針對非結構化數據的處理,我們綜合運用遷移學習、半監督學習以及知識蒸餾等方向的前沿技術,構建了少樣本、輕機器等低資源場景下的自然語言處理方案;在此基礎上,為了將結構化數據淬鍊為知識,我們運用對象存儲、Spark、可視化等技術手段搭建一套面向海量異構數據處理的低成本離線大數據處理系統。在業務層,機器利用已經沉澱了分析師投研框架的研究圖譜,通過邏輯推理、風險控制等方式,將中臺層所獲取的大量知識進行分析和推理,最終形成具有決策參考價值的投研情報。以這幾套系統為核心,即可構建起自動化、工業化、24小時不停機的一站式智能投資研究系統。

嘉賓簡介:李漁,熵簡科技聯合創始人,博士畢業於清華大學電子工程系,以第一作者身份發表學術論文10餘篇,申請專利6項,致力於將先進的自然語言處理及深度學習技術真正落地於金融資管領域,讓科技賦能產業。目前負責熵簡科技NLP技術中臺的建設,包括層次化的分層架構、大數據泛採體系、持續部署的後臺支持以及前沿算法的領域內落地等,為熵簡科技的各大業務線提供底層技術支持和可落地的解決方案。

宋孟楠

360金融 | 算法工程師

分享主題:自動化特徵工程在金融領域應用

內容摘要:不同於深度學習大放異彩的圖像、語音和文本等領域,金融風控有著自己獨有的特點。金融風控模型通常面對的是海量的結構化數據,同時更強調模型的可解釋性,因此良好的特徵工程是風控建模的關鍵。然而特徵工程嚴重依賴於專家經驗,需要大量的時間和試錯成本,為此我們提出一種基於強化學習的自動化特徵工程,根據建模任務,可以從海量數據中自動的構造有效特徵。

嘉賓簡介:本科畢業於華南理工大學,碩士畢業於早稻田大學,長期從事風控模型工作,現任職於360金融算法工程師。

陶陽宇,騰訊專家工程師,目前擔任騰訊大數據智能學習團隊負責人,支持騰訊廣告推薦、金融支付、社交網絡等業務場景的算法模型優化、訓練與推理服務。他擁有10餘年機器學習、大數據、分布式系統領域從業經驗,2009年獲中國科技大學電子科技專業博士學位。陶陽宇的主要研究方向包括分布式機器學習系統、廣告推薦算法、大數據平臺等,曾帶領團隊獲得2015年世界排序大賽冠軍及2017年中國電子學會科技進步獎。


分享主題:DELTA 基於深度學習的語言技術平臺

內容摘要:近年來,隨著深度學習的高速發展,語音和自然語言處理有了越來越多的應用,而這些應用都離不開一套優秀的模型訓練和部署框架。為此,我們開發了一個基於深度學習的語言技術平臺DELTA,它主要基於TensorFlow構建,能同時支持NLP(自然語言處理)和語音任務及數值型特徵的訓練。整合了包括文本分類、命名實體識別、自然語言推理、問答、序列到序列文本生成、語音識別、說話人驗證、語音情感識別等重要算法模型,形成一致的代碼組織架構,整體包裝統一接口。本次演講會著重介紹DELTA的基本架構和使用,並也會針對滴滴在用DELTA在語音交互領域所做的工作做一個整體的梳理。

嘉賓簡介:韓堃畢業於The Ohio State University,2013年在微軟研究院實習,主要研究方向為語音處理和機器學習。韓堃於2014年獲博士學位,並加入Facebook從事語音,自然語言處理,機器學習等工作。2018年加入滴滴AI Labs,負責語音交互,對話理解等方向的研究與產品。

王輝

華為 | 開源工程師

分享主題:MindSpore簡介以及與TVM的聯動

內容摘要:MindSpore是一套最佳匹配昇騰AI處理器算力,可用於端邊雲全場景的開源深度學習框架。本次分享我將為您介紹MindSpore的大體框架,及其在WASM領域與TVM項目的聯動方案,最後我準備了一個Demo用於展示該方案的成果。

嘉賓簡介:王輝是一名來自華為的開源工程師,在過去的四年裡專注於新領域(人工智慧、晶片、雲)和開源技術研究。目前負責新型計算運行時(例如WebAssembly技術)研究和MindSpore AI框架的開源社區運營。在此之前,他作為OpenSDS Hotpot項目的PTL與OpenSDS團隊一起工作,同時也是OpenStack、OPNFV和Open Service Broker API等社區的積極貢獻者。

郭躍超

騰訊 | 應用研究員

分享主題:Angel深度學習在廣告推薦訓練系統中的實踐

內容摘要:Angel是騰訊開源的分布式深度學習框架,支持數據並行、模型並行等多種大規模機器學習模型的訓練和加速。本次演講將介紹Angel深度學習在廣告推薦中的應用實踐,解決廣告推薦CV、用戶行為等特徵模型訓練時的多機多卡擴展等加速問題,以及取得的實踐成果。

嘉賓簡介:郭躍超畢業於北京大學,主要研究方向是異構加速計算,分布式系統的設計開發和優化,語音/NLP等領域的算法優化等。目前在騰訊主要負責Angel平臺的深度學習方面的新技術研究,開發和業務場景的落地應用。

吳志華

百度 | 資深研發工程師

分享主題:飛槳框架和分布式訓練技術及其應用

內容摘要:飛槳是源於產業實踐的開源深度學習平臺。本次分享主要介紹飛槳的核心框架、基礎模型庫、工具組件。並針對分布式訓練模塊展開詳細介紹,帶大家深入了解飛槳超大規模深度學習模型訓練技術,以及在信息流、廣告、搜索等業務場景上的應用。

嘉賓簡介:百度飛槳資深研發工程師,主要負責飛槳分布式參數伺服器架構、PaddleRec推薦算法庫及其在信息流、廣告、搜索等業務上的應用。

李曉森

騰訊 | 高級研究員

分享主題:Angel圖計算技術與實踐

內容摘要:萬物互連構成了複雜的網絡世界,同時也積累了豐富的圖數據,並蘊藏著極大的價值;本次分享將介紹Angel是如何解決圖計算中的三駕馬車問題——傳統圖算法/圖表示學習/圖神經網絡,最終助力內部QQ、支付、音樂、安全等業務提升效果。

嘉賓簡介:李曉森 ( hansenli ),碩士畢業於北京大學,騰訊大數據高級研究員,騰訊圖計算開源協同項目Owner & PMC,參與Angel圖計算項目,專注於圖計算在金融支付、安全風控、廣告推薦、知識圖譜等多個場景的落地。

出品人:許靜芳 博士

搜狗副總裁,搜狗搜索事業部負責人,搜狗搜索首席科學家

曾負責搜狗網頁搜索、微信搜索、英文搜索、搜狗翻譯等多個產品線的整體研發工作,在AI領域推出多個首發產品。在ACL/IJCAI/SIGIR/AAAI/EMNLP等會議中發表多篇學術論文。

劉林

京東 | 搜索算法總監

分享主題:深度學習在京東電商搜索中的應用實踐

內容摘要:本次分享主要介紹深度學習技術在京東電商搜索實際業務場景中的應用,以及隨著電商業務的發展搜索算法面臨的挑戰和應對方案,具體會從檢索和排序幾個方面結合具體案例詳細探討。

嘉賓簡介:劉林,資深搜索算法專家,目前就職於京東搜索與推薦平臺部,擔任搜索算法總監。14年加入京東以來一直從事電商搜索相關領域的研究應用和實踐開發工作,對搜索系統和算法在電商行業的演進和發展有豐富的實戰經驗。


分享主題:語義計算在搜狗搜索全鏈路應用實踐

內容摘要:傳統的搜尋引擎基於關鍵字檢索,隨著語義計算技術的發展,搜尋引擎在此基礎上大量採用了語義計算技術,解決用戶表達和內容表達的語義鴻溝。本報告將介紹搜狗搜索在召回,粗排,精排,首條問答等關鍵路徑全面應用語義計算技術的實踐經驗。

嘉賓簡介:陳煒鵬,搜狗搜索研發高級總監,負責搜狗搜索、推薦技術研發。在信息檢索,自然語言處理,推薦系統有多年研發經驗。

劉知遠 博士

清華大學 | 副教授、博士生導師

分享主題:知識指導的神經網絡信息檢索

內容摘要:信息檢索是網際網路時代人們獲取信息的主要方式,相關技術在智能問答、對話系統、推薦系統等任務中扮演著重要角色。在信息檢索中,詞語間的相似度匹配對于衡量問題和文檔之間的相關性有著重要作用。由於網際網路文本信息蘊含大量的人類知識,僅依賴字面意思的匹配已經無法滿足人們獲取信息的需求。這裡,我們面向神經網絡信息檢索的最新技術方案,探索了如何更好地引入結構化知識,通過引入外部知識和弱監督訓練信號,提升文本語義匹配的能力,提升神經網絡信息檢索的效果。

嘉賓簡介:劉知遠,清華大學計算機系副教授、博士生導師。主要研究方向為表示學習、知識圖譜和社會計算。2011年獲得清華大學博士學位,已在ACL、IJCAI、AAAI等人工智慧領域的著名國際期刊和會議發表相關論文80餘篇,Google Scholar統計引用超過9000次。承擔多項國家自然科學基金。曾獲清華大學優秀博士學位論文、中國人工智慧學會優秀博士學位論文、清華大學優秀博士後、中文信息學會青年創新獎,入選《麻省理工科技評論》「35歲以下科技創新35人」中國區榜單(MIT TR-35 China)、智源青年科學家、中國科協青年人才託舉工程、中國計算機學會青年學者提升計劃。擔任中文信息學會青年工作委員會執委、副主任,中文信息學會社會媒體處理專委會委員、秘書長,SCI期刊Frontiers of Computer Science青年編委,ACL、EMNLP、COLING、IJCNLP領域主席。

宋睿華 博士

微軟(亞洲)網際網路工程院 | 首席科學家

分享主題:用搜索做好玩兒的對話

內容摘要:搜索是當今商用對話系統的基礎。在這個報告裡,我將重點介紹,如何在搜索對話系統中做基於上下文的情緒預測,如何利用預先設定的情節來控制對話,以及如何利用搜索創造比喻增加對話的驚喜。

嘉賓簡介:宋睿華博士,2003年加入微軟亞洲研究院,從事信息檢索與挖掘,推薦和文本生成的研究。她提出的網頁分塊及重要性預測獲得國際全球資訊網會議WWW 2004的最佳論文提名。她提出的從不同網站抽取主體內容的通用方法,是微軟瀏覽器IE 11之後的悅讀功能的核心。2017年5月,湛廬文化出版了人類史上第一本人工智慧詩集《陽光失了玻璃窗》,其中所有的詩歌正是由她主導研發的算法生成。隨後她加入微軟(亞洲)網際網路工程院的微軟小冰團隊,任首席科學家。她近期的研究興趣包括人工智慧創造、塑造人工智慧的內在、以及自然語言的多模態理解和表達。宋睿華博士也是具有國際影響力的科學家。她是多個國際一流會議(SIGIR, CIKM, EMNLP等)的領域主席、資深評審和評審,國際期刊(如Information Retrieval Jounal)的編委。2021年她將擔任SIGIR短文的主席。

出品人:任少斌

美團 | 研究員

分享主題:數據治理的根基:數據建模及其與服務層的連接

內容摘要:主要介紹數據治理領域中最為核心的數據建模技術,以及數據模型服務化的建設方案。

嘉賓簡介:14年IT從業者,曾在阿里、騰訊、百度等公司從事數據技術研發和管理工作,目前任職美團研究員,深耕於大數據治理及分析應用技術領域。

梁棟

字節跳動 | 數據研發 Leader

分享主題:字節跳動的EB級數據治理實踐分享

內容摘要:

1. 字節跳動在高速發展的背景下離線業務碰到的問題及痛點

2. 團隊面對問題及痛點時為什麼選擇做數據治理

3. 數據治理如何在字節從無到有

4. 詳細介紹字節的數據治理中較為成熟的存儲治理的1年期實踐

嘉賓簡介:現就職於字節跳動數據平臺,負責多條業務線的數倉架構,同時也是字節的數據治理髮起人之一。

翟東波

搜狐媒體 | 資深開發工程師

分享主題:搜狐智能媒體在數據倉庫體系建設中的技術實踐

內容摘要:介紹數據倉庫體系建設過程中,需要解決的主要問題和需求,以及搜狐智能媒體的數據團隊在解決這些問題和需求時採用的相關技術實踐活動。

嘉賓簡介:2018年5月加入搜狐智能媒體研發中心,負責數據基礎系統的研發工作,提升部門數據研發工作效率。10多年的軟體開發工作經驗,曾先後供職於中興、百度、優酷、阿里大文娛、偶數等公司,從事過網絡通訊協議、分布式OLAP/OLTP資料庫、數據處理任務調度系統等產品的研發工作,專注於分布式系統和大數據等技術領域。

布鴣

阿里文娛 | 技術專家

分享主題:阿里文娛數據服務平臺的進階之路

內容摘要:近些年,隨著雙11、618等各種營銷活動的常態化,傳統的離線數據分析已無法滿足強實時性的數據分析需求,且各業務都迫切需要數據驅動增長,這就對數據平臺提出了更靈活、高效穩定、低成本的要求。本次分享將介紹阿里巴巴文娛數據平臺的前生今世,包括實時計算、預計算數據立方體、數據平臺的架構設計以及實踐中的思路和趟過的坑,希望對大家有所啟發。

嘉賓簡介:來自阿里文娛數據工程團隊,主要從事數據平臺工程、數據分析方面工作。

餘謙

美圖 | 資深數據專家

分享主題:海量用戶下美圖大數據服務優化實踐

內容摘要:隨著美圖業務的快速擴張,傳統的通過加機器來保障算力的方式已經無法滿足業務以及成本的需求。海量用戶將給大數據服務帶來哪些挑戰?如何在提升大數據基礎設施算力的同時提升穩定性?本次分享將圍繞大數據平臺、服務重構、引擎優化升級這三個方面分享美圖大數據服務優化實踐。

大綱:

介紹美圖通過平臺化實現數據集成、計算(離線、實時)、可視化、監控等功能 於一體的大數據開放平臺

對開源組件如何進行二次改造實現基礎設施特性增強、提升穩定性的效果

介紹美圖引擎-3.0,如何實現集群、引擎、參數自動優選

嘉賓簡介:曾任職百度,負責海量數據下的多維度數據應用,具有8年的大數據從業經驗。2018年初加入美圖,負責美圖集群算力的提升、架構優化,現階段主要致力於美圖計算引擎-3.0的研發。當前主要負責美圖計算引擎-3.0的研發。在美圖期間,在集群算力提升與架構方面做了較多優化,為公司節約了數千萬成本。

廣告算法:

丁宗堯

百度鳳巢 | 副總監

08年加入百度,一直負責百度商業產品的技術研發和管理。

周國睿

阿里媽媽 | 高級算法專家

分享主題:Rethinking Rank:下一代排序技術體系

嘉賓簡介:周國睿,北京郵電大學碩士。研究領域包括大規模機器學習、自然語言處理、計算廣告、推薦系統等。現負責定向廣告預估方向模型算法研發,同時是阿里巴巴自研深度學習框架XDL核心開發者。研究成果發表於KDD/AAAI/CIKM等會議,其研究工作均落地於實際系統。

劉斌

360 | 資深算法工程師

分享主題:效果優化系統在360展示廣告的演進

內容摘要:360展示廣告平臺始終關注廣告投放效果,圍繞廣告後續優化問題先後開發了多款產品。本議題主要介紹了效果優化系統隨業務發展的演進過程,聚焦如何使用算法解決客戶痛點,實現廣告投放智能化。

嘉賓簡介:本科畢業於上海交通大學,研究生畢業於紐約州立大學。2014年作為算法工程師入職360。2015~2017年負責展示廣告商品庫和人群庫系統。2018~2020年專注廣告效果優化,作為項目主要負責人先後開發了預算分配系統和oCPC系統。

李勇保

快手 | 商業算法策略負責人

分享主題:短視頻場景下的信息流廣告投放技術

嘉賓簡介:李勇保,快手商業算法策略負責人,畢業於中科院自動化研究所。2016年加入快手,從0到1搭建快手商業變現算法體系,全面負責信息流廣告、聯盟廣告、作品推廣、電商廣告以及直播推廣等多條核心產品線的算法策略。短短三年帶領團隊通過AI高速提升商業變現效率,創造數百億商業價值,是快手商業流量分發和生態建設的中堅力量。主要研究方向為機器學習、計算廣告、數據挖掘等領域,致力於通過人工智慧提升商業變現效率。

劉鵠

京東 | 算法工程師

分享主題:視覺信息助力電商廣告排序

內容摘要:演講將介紹我們在京東搜索廣告落地,並於KDD2020發表的一篇工作《Category-Specific CNN for Visual-aware CTR Prediction at JD.com》。一方面,我們將介紹在工業場景下使用CNN將圖像加入CTR模型聯合建模的方法;另一方面,我們指出傳統用於分類任務的CNN並不適合電商場景。將電商場景中豐富的、具有強視覺先驗的「商品類目標註」作為CNN輸入的一部分,將有效降低CNN訓練的難度,提升排序效果。

嘉賓簡介:劉鵠,清華大學自動化系碩士。目前就職於京東,搜索廣告排序模型方向負責人。工作曾在CVPR,NIPS,KDD等頂級會議發表。

出品人:王昊奮 博士

同濟大學百人計劃,特聘研究員

中文知識圖譜zhishi.me創始人、OpenKG發起人之一、CCF理事、CCF術語審定工委主任、CCF TF執委、中文信息學會語言與知識計算委員會副秘書長,共發表80餘篇高水平論文,在知識圖譜、問答系統和聊天機器人等諸多領域有豐富的研發經驗。其帶隊構建的語義搜索系統在Billion Triple Challenge中榮獲全球第2名;在著名的本體匹配競賽OAEI的實體匹配任務中斬獲得全球第1名。曾主持並參與多項國家自然科學基金、863重大專項和國家科技支撐項目,以學術負責人身份參與Paypal、Google、Intel、IBM、百度等企業的合作項目。

鄭燁翰

百度 | 資深研發工程師

分享主題:知識圖譜在智能創作中的應用

內容摘要:融媒體是自上而下的趨勢,對於急需轉型的傳統媒體,基於知識圖譜的技術和數據,賦能媒體行業,為內容創作降本增效。內容包括主題圖譜構建(主題挖掘、主題屬性構建、主題關係抽取)、智能創作平臺、行業應用實踐等內容。

嘉賓簡介:從事知識圖譜技術應用研發多年,產品涉及C端推薦、B端媒體行業落地,基於知識圖譜為內容創作行業賦能,構建基於內容創作的主題圖譜,打造了基於自動、輔助創作的智能創作開放平臺,落地多家標杆媒體。


分享主題:助力新基建——基於知識圖譜構建新一代數據智能基礎設施

內容摘要:人工智慧作為國家新基建戰略的重點建設項目,是新一輪產業變革的核心驅動力量。當前人工智慧正由感知智能走向認知智能,而知識圖譜是實現認知智能的基石。知識圖譜作為是大數據時代的知識工程集大成者,以其強大的語義表示能力、存儲能力和推理能力,為網際網路時代的數據知識化組織和智能應用提供了有效的解決方案。本次分享將探討如何基於知識圖譜構建新一代數據智能基礎設施,實現海量多模態數據的深度語義化治理,具體內容包括:

使用知識圖譜強大的語義表示能力對多模態數據和知識的統一建模與表示,實現面向業務的元數據及知識的統一建模管理;

在傳統大數據治理的基礎上,進一步從非結構化、半結構化數據中提取得到結構化的知識(實體、屬性、關係和事件等),並從語義層面進行深度關聯與融合;

構建以圖資料庫為核心的多態存儲引擎,在實現大規模關聯數據高效存取的同時實現多模態數據與知識的高效存儲與利用。

此外,還將以金融大數據中的企業數據應用場景為例進行實踐分享,構建金融企業知識圖譜,並在此基礎上建設企業全息檢索、智能問答和異常關聯挖掘等智能應用場景。

嘉賓簡介:華東理工大學自然語言處理實驗室博士。10年知識圖譜研究及產業化經驗,多個國家級項目骨幹成員,ISWC、CCKS2017等國際會議、頂級期刊發表多篇論文,多次受邀參與行業頂級交流報告包括大規模存儲實戰解析、大規模知識圖譜應用、CCKS2017知識圖譜實戰報告等。知識圖譜全生命周期理論提出者。北理工大數據學習中心顧問。曾發布基於三大百科數據的SSCO和Zhishi.me通用知識圖譜;首次提出了行業知識圖譜的生命周期並逐步成為業界的標準。參編《2018知識圖譜發展報告》、《知識圖譜方法、實踐與應用》等標準與著作。2020年3月新冠疫情中,指導團隊基於AutoDI企業數據智能中臺提供《基於知識圖譜的智能疫情監測服務平臺》,入選中國電子技術標準化研究院發布《知識圖譜助力疫情防控和復工復產案例集》,同時參與《信息技術 人工智慧 知識圖譜技術框架》國家標準編制制定。

陳立瑋 博士

騰訊 | 高級研究員

分享主題:知識圖譜補全技術分享

內容摘要:當前知識圖譜已經被廣泛應用在自然語言處理的各項任務中,但知識圖譜中實體間關係的缺失也給其實際的應用帶來了很多問題。因此,目前學術界圍繞知識圖譜的補全進行了大量的研究工作。本次演講主要對知識圖譜補全相關的研究進展進行了歸納與分享。

嘉賓簡介:北京大學自然語言處理方向博士,博士期間主要研究方向為信息抽取和自動化知識庫構建。畢業後在入職百度,負責面向智能客服的自然語言對話解析算法設計與開發。入職騰訊後主要負責騰訊看點底層的興趣點圖譜建設及圖文理解技術研發。

杜振東

南京雲問網絡科技有限公司 | NLP研究院負責人

分享主題:面向垂直領域的OpenIE圖譜構建技術算法解析

內容摘要:OpenIE ( 開放領域信息抽取,全稱Open Information Extraction ) 一直是NLP領域中較為熱門的方向。由於其在應用過程中對業務數據依賴偏少,往往作為非結構化文本構建知識圖譜的重要手段之一。在過去十年內,OpenIE相關算法取得優異效果,其主流方法是運用NER與句法分析相關算法。然而,OpenIE的瓶頸也同樣十分明顯,無論是模型對於領域數據敏感度過高,還是整體算法相較CloseIE(封閉域信息抽取)精度下降過大,都導致其在圖譜構建上並未發揮出其最大價值。伴隨著深度學習相關算法研究的逐步增溫,以及Bert模型在多項任務的優異表現,使得OpenIE的相關技術突破成為可能。本次將重點討論如何運用深度學習模型完成對於OpenIE任務的優化,新算法在新聞、規範類文檔、對話數據上整體精度可以達到75%左右,其精度遠高於原有算法。本次還將分享OpenIE任務如何在知識圖譜相關項目落地的實現路徑,並討論現有知識圖譜構建相關方案的利弊分析。

嘉賓簡介:雲問科技NLP研究院負責人,擁有8年機器學習與文本挖掘相關技術經驗,6年中文自然語言處理相關項目實戰經驗,擅長pytorch、tensorflow等主流深度學習框架,擅長運用NLP前沿技術解決真實項目。在意圖識別、新聞推薦、多輪人機互動領域有數年實戰經驗。參與百萬級用戶金融資訊新聞推薦項目,作為算法主要負責人及整體框架設計者,主導全新智能新聞推薦系統的落地,並優化線上推薦算法,整體線上相較原有系統精度提高10%。主要設計面向任務驅動的多輪對話引擎,主導參與搭建NLP底層能力平臺,為企業提供底層能力的服務輸出。參與多家企業問答機器人系統、知識圖譜系統搭建,針對集團型知識管理與問答效果優化有豐富實戰經驗。參與制定國家人工智慧標準化總體組《人工智慧標準化與開源研究報告》、《人工智慧-術語》、《人工智慧-情感計算用戶界面框架》;參與制定中國電子工業標準化技術協會《信息技術 人工智慧 智能助理智能能力等級評估》;編寫書籍《人工智慧實踐錄》與《江蘇省新興產業戰略叢書-人工智慧分冊》;入選國家標準委人工智慧專家及AIIA人工智慧技術專家。 

王賀青

貝殼找房 | 資深知識圖譜研發工程師

分享主題:知識圖譜技術在貝殼房產領域的應用和演進

內容摘要:近幾年,知識圖譜已成為人工智慧應用及服務的基礎核心技術,賦能各種智能agent實現精準查詢、深度理解與邏輯推理等能力。圖譜技術也從通用領域遷移到垂直領域,並在產業網際網路中得到很好的落地應用,幫助產業網際網路升級改造。本次分享我們將重點介紹如何將知識圖譜遷移應用到房產領域:如何構建一個房產行業圖譜、知識圖譜技術如何助力房產智能應用的落地,以及知識圖譜在行業應用中的一點思考。

嘉賓簡介:貝殼找房資深知識圖譜研發工程師,2015年畢業於哈爾濱工業大學,曾在搜狗從事任務式對話、通用知識圖譜構建、及基於知識圖譜的精準問答研發工作,2018年加入貝殼,主要負責房產知識圖譜構建、KBQA、及房產領域事理圖譜研發工作;曾在DataFun社區分享過《知識圖譜在貝殼找房的從0到1實踐》。

出品人:喻宏勇

騰訊看點推薦研發總監 | 騰訊14級專家

工作10多年,主要在推薦、搜索、數據挖掘等領域研發以提升產品體驗。

丁卓冶 博士

京東 | 推薦算法負責人

分享主題:京東推薦算法的探索與實踐

內容摘要:本分享主要介紹京東推薦算法的一些探索和實踐,主要包括精準用戶畫像構建、推薦召回、推薦排序等關鍵技術,其中包括一些創新技術,也包括在業務中的落地實踐。

嘉賓簡介:京東推薦算法負責人。前雅虎實驗室研究員,多年推薦、廣告算法的相關經驗。博士畢業於復旦大學。多項工作發表於KDD、Sigir、IJCAI、WSDM等頂級會議。

謝曉輝 博士

Hulu | Principal research lead

分享主題:推薦系統中冷啟動問題探索與實踐

內容摘要:受限於訓練數據不足,如何做好內容/用戶/模型的冷啟動是一個推薦系統中非常值得研究和探討的課題。

嘉賓簡介:Hulu北京首席研究主管。具有近20年算法研發創新和管理經驗。專注於模式識別、多媒體信息處理、推薦模型與用戶理解等多個算法研究領域,對人工智慧、人機互動、推薦等相關領域的研究以及成果落地和產品化有豐富經驗,擁有100+相關專利,學術論文近20篇。本科畢業於西安交通大學實驗班,北京郵電大學取得模式識別領域博士學位。曾先後就職於松下電器研發中心、諾基亞北京研究院、聯想核心技術研究室等部門。

章鶯

網易雲音樂 | 資深算法工程師

分享主題:音樂推薦中用戶行為序列深度建模

內容摘要:雲音樂推薦系統致力於通過AI算法的落地,實現千人千面的個性化音樂推薦系統;本次分享重點介紹推薦系統在雲音樂的落地實踐,以及在音樂推薦系統中遇到的挑戰和解決方案。

嘉賓簡介:畢業於浙江大學數學系,目前就職於網易雲音樂,擔任資深推薦算法工程師,主要負責音樂推薦系統相關算法工作,在召回、排序、歌曲分發上有豐富的經驗。率先在雲音樂實踐百億級別實時推薦模型,並在多目標訓練和序列行為數據上有深入的研究。

潘建

小米 | 高級軟體工程師

分享主題:手機廠商怎麼做信息流推薦

內容摘要:小米信息流推薦技術簡介,從用戶畫像、資源召回、排序模型、多目標融合模型、資源混排模型全景介紹小米信息流推薦技術。

嘉賓簡介:畢業於北京科技大學,現任高級軟體工程師,負責小米信息流推薦策略。曾就職於百度,深度參與百度信息流建設。熟悉信息流用戶畫像、召回策略、排序策略、多目標融合等技術方向。

申恩兆

新浪微博 | 算法工程師

分享主題:微博推薦算法實踐與ML平臺演進

內容摘要:微博推薦算法實踐與ML平臺演進,微博作為全球領先的中文廣場社交平臺,擁有海量用戶與數據。如何從海量數據中挖掘出有價值的信息,來為業務賦能,微博都用了哪些推薦算法,分別作了什麼事情,踩過哪些坑,現在分別如何解決的。以及在長時間的改進與積累過程中,微博技術架構是如何演進的,當前架構如何更好的發揮算法的優勢,為業務產生更多有價值的支撐。

05

06

相關焦點

  • 全球最火DL課程Fast.ai 2020版今日上線!我們拿到了獨家授權,中文版同步免費放出
    fast.ai在2020年初對課程進行了一次全方位更新,加入了最新研究成果和案例。
  • 大數據應用技術課程教學改革與實踐
    分析了大數據人才培養的現實需求,指出了大數據人才培養的現存問題,然後以「大數據應用技術課程」為例,在重構教學體系、優化教學內容、改進教學方法、規範教學過程和完善教學評價等方面闡述了大數據專業教學改革的路徑選擇與實踐,致力於創新培養兼具工程實踐能力與技術創新能力的跨界複合型大數據人才。
  • 大數據學習資源之DataCamp
    」 ——託尼老師《Nature》雜誌早在2008年第一次提出「Big Data」的概念,到2015年國務院正式印發《促進大數據發展行動綱要》,標誌著大數據正式上升至國家戰略,再到2017年的大數據市場全面打開,各省市積極響應中央號召,大數據行業出現井噴之勢。
  • 華為大數據認證HCNA-Big data和HCNP-Big data V1.0中文版預發布通知
    結合大數據技術、應用和崗位角色特點與需求,將陸續推出大數據管理員、開發者、分析師和架構師認證,旨在培養ICT行業大數據領域專業技術人才,支撐大數據市場發展。        HCNA-Big data《大數據管理員》V1.0認證定位:大數據技術普及,FusionInsight HD 的規劃設計、部署實施、運維管理能力的構建、考核和認證。
  • TensorFlow 2.0 發布以來,又有哪些最新進展?|AI ProCon 2020
    【導讀】7 月 3-4 日,由 CSDN 主辦的第三屆 AI 開發者大會(AI ProCon 2020)在線上舉行。本次大會有超萬人報名參與,參與人群覆蓋 50+ 領域、4000 家企業。其中有來自行業內 70+ 頂尖企業、開源社區與科研高校的近 100 位行業領袖、技術大咖與研究學者。
  • TensorFlow 2.0 發布以來,又有哪些最新進展?| AI ProCon 2020
    其中有來自行業內 70+ 頂尖企業、開源社區與科研高校的近 100 位行業領袖、技術大咖與研究學者。他們用更新鮮、更有趣、更年輕的方式,聚焦智能時代 AI 技術的發展曲線以及 AI 與社會各行業結合的最新應用進展,深入解析熱門 AI 技術在行業中的實踐與落地經驗,揭示技術與行業發展面臨的機遇與挑戰。
  • 大數據(Hadoop、Spark、NoSQL)的技術與實踐
    現從事雲計算,NoSQL與大數據,企業IT架構、企業數據架構以及信息系統設計開發等方面的研究與實踐工作,涉及金融、電信及政府等多個行業。曾任空間信息領域教師,獲福建省,山東省引進高級人才計劃。相對於其它專注於培訓大數據技術的課程,本課程有如下特點:1、除了對各種大數據技術本身的原理、設計與使用方法進行全面深入的講解以外,更重要的是對各種技術的本質與特點進行了深入的分析、比較與討論,從而使學員對各種技術的真正適用場景能客觀準確的判斷;2、結合企業實際對大數據的概念進行了明確的澄清;3、結合企業應用實際,介紹了各種大數據技術具體定位與應用規劃與方法
  • 2019 年 1 月 AI 最佳網文榜單最新出爐!
    我們是巴黎的一家致力於開發敏捷數據(Agile data)的公司。我們本月榜單中的文章主題涵蓋強化學習、自然語言處理、人工智慧立法等。如果大家想要跟著這些教程進行實際操作,建議準備好一個 Python 環境。首先不妨來看一個本月的笑話:
  • Comma.AI 開源其首次成功無人駕駛的旅行數據
    Comma.ai是一家致力於研發基於人工智慧技術的汽車無人駕駛系統的公司,最近開源了一個7.25小時的公路駕駛的數據集。雖然開源的數據看起來可能不是很多,但就公路行駛的數據集來說,它是很大的一個數。這是 Hotz 用來構建首次成功的自駕車demo,存放在Bloomberg,作為comma.ai’s 的首次大公開亮相。「當我開始這個項目的時候,我不希望汽車上有放東西—— 我只是想玩一玩機器學習。」在接受採訪時Hotz解釋道。「但我環顧四周,沒有良好的數據來源做這件事。」
  • 谷歌 AI 開源 Deepfake 檢測數據集,3000+ 真人...
    這些模型已經被廣泛應用於各種各樣的應用中,包括:通過文本到語音的方式使世界各國的人變得更容易溝通,或者是用以生成醫學成像的訓練數據等。與任何變革性技術一樣,這些技術也帶來了新的挑戰。所謂的「Deepfake」就是其中之一,它可以由能夠操縱視頻和音頻剪輯的深度生成模型製作而得。
  • 英國開設大數據專業Big Data/Data Science的院校解析
    對於留學生而言,選擇「數據科學」這一專業,無疑對就業和薪資增加一萬點的經驗值!那麼要如何選擇大數據專業的留學國家呢?我的答案是:英國!下面,讓我們先簡單了解一下英國的大數據發展吧!  英國政府的大數據戰略不僅僅是口號,更落實在行動上。大數據革命已經觸及英國的各行各業,政府公開財政數據,研究機構紛紛成立,商業運作逐步展開,英國人已經開始擁抱大數據技術。
  • 大數據技術師資培訓班
    為推動中國ICT行業的發展,加快高層次人才培養,提高教師的知識、技術能力和教學水平,信息技術新工科產學研聯盟決定於2020年8月13日-8月17日舉辦大數據技術暑期師資培訓
  • 這是一份超全機器學習&深度學習資源清單(105個AI站點),請收藏!
    (http://www.17bigdata.com ): 專注數據分析、挖掘、大數據相關領域的技術分享、交流機器之心 (https://www.jiqizhixin.com): 機器之心 | 全球人工智慧信息服務雷鋒網 (https://www.leiphone.com): 雷鋒網 |
  • 英語流行語:「大數據 big data」英文怎麼說?
    新東方網>英語>英語學習>語法詞彙>流行語>正文英語流行語:「大數據 big data」英文怎麼說? 2019-05-29 11:37 來源:中國日報網 作者:   2019中國國際大數據產業博覽會5月26日在貴州省貴陽市開幕,為期4天的數博會吸引了來自59個國家和地區的448家企業參展,將展示大數據新產品、新方案、新技術
  • 2020年數據科學與大數據技術專業填報指南
    數據成為企業最寶貴的資源,大數據分析技術在提升企業經營管理、提高銷售業績、降低管理成本等方面發揮著日趨重要的作用。根據中國信通院數據,我國大數據核心產業規模2017年為236億元,同比增長40.5%,到2020年將達到586億元,2015-2020年間年均複合增長率達38.26%。 一方面是迅猛增長的產業規模,另一方面大數據相關人才高度稀缺。
  • Big data 大數據 | 地道英語
    Neil 認為自己很懂 "big data",並且可以借 "big data" 幫自己創辦一家公司。菲菲對 "big data" 有自己的想法。加入我們來學習一個非常 "big" 的短語吧!      Nov 27, 2019Feifei:Neil, what are you doing?
  • 這是一份超全機器學習&深度學習網站資源清單(105個AI站點),請收藏!
    (http://www.17bigdata.com ): 專注數據分析、挖掘、大數據相關領域的技術分享、交流機器之心 (https://www.jiqizhixin.com): 機器之心 | 全球人工智慧信息服務雷鋒網 (https://www.leiphone.com): 雷鋒網 |
  • AI創業公司大列表
    桃樹: http://www.taodatarobot.com/ , 整合企業內部數據和外部數據,把紛繁複雜的原始數據自動轉化為決策數據Momenta :Momenta成立於2016年9月初,是一個致力於打造無人車大腦,專注基於深度學習的環境感知、高精度地圖、駕駛決策技術的團隊。產品包括不同級別的自動駕駛方案,以及衍生出的大數據服務。
  • 【 Big Data 】大數據處理的五大關鍵技術及其應用
    重點要突破分布式高速高可靠數據爬取或採集、高速數據全映像等大數據收集技術;突破高速數據解析、轉換與裝載等大數據整合技術;設計質量評估模型,開發數據質量技術。基礎支撐層:提供大數據服務平臺所需的虛擬伺服器,結構化、半結構化及非結構化數據的資料庫及物聯網絡資源等基礎支撐環境。重點攻克分布式虛擬存儲技術,大數據獲取、存儲、組織、分析和決策操作的可視化接口技術,大數據的網絡傳輸與壓縮技術,大數據隱私保護技術等。完成對已接收數據的辨析、抽取、清洗等操作。
  • 數據治理:數據清洗的5個步驟和最佳實踐
    一文中,曾提到:數據治理不僅是一個苦活、累活,還是個受力不討好,經常背鍋,領導看不見價值的活。數據治理需要對每個數據域、數據實體、數據條目、數據項進行梳理和標準化,甚至有時候需要人工逐條、逐欄位的定義數據標準、核實數據質量。數據治理人員不僅要有良好的數據思維,還要有足夠的細心、耐心和體力才能打磨出適合企業的數據標準,實現企業數據質量的不斷提升。