2020 Techo Park開發者大會召開,作業幫分享拍搜系統架構演變歷程

2020-12-27 YNET.com北青網

12月19日至20日,由騰訊主辦的2020TechoPark開發者大會於北京召開。據悉,本次大會邀請了全球超200位頂級技術專家來到現場,與數千位參會者就雲計算、大數據和人工智慧等前沿技術話題展開深度交流,為中國及全球雲計算愛好者、從業者、開發者提供最具參考價值的創新分享。

作業幫視覺智能實驗室架構負責人程童受邀參加大會,並發表了題為《作業幫拍照搜題系統架構的演變》的主題演講,系統地介紹了作業幫拍搜系統概況、不同階段面臨的問題和應對方法,以及GPU服務虛擬化的實踐經歷和取得的遷移效果。

底層技術加持,作業幫拍搜助力用戶精準獲取全面信息

作為中國最大的K12在線教育公司,作業幫致力於用科技助力教育普惠,解決教育領域痛點,旗下擁有作業幫、作業幫直播課、作業幫口算、鴨鴨AI課、智能硬體喵喵機等多款教育產品,總日活用戶超5000萬,月活用戶超1.7億,累計激活用戶設備超8億。其中,作業幫APP是進入中國應用市場Top30的唯一一款教育類APP,作業幫直播課是中國在線教育領軍品牌,累計服務學員已超6500萬。

在作業幫的整套產品鏈條中,拍搜系統提供了底層的技術支持。據程童介紹,作業幫拍搜系統擁有多項OCR、檢索、系統專利,率先在業界實現「隨手一拍,秒出答案」。與此同時,隨著拍搜功能的不斷拓展,作業幫完成了從單題到整頁再到猜你想拍,從搜索到批改再到打分的全方位搜題場景設定,充分幫助學生提高學習效率。

據了解,作業幫拍搜算法架構主要分為OCR和檢索兩部分。其中,OCR系統主要任務是將所拍內容識別成文本,由多個策略&預處理模塊,以及大量使用GPU作為運算設備的深度學習在線推理服務組成;而檢索系統的主要任務是通過識別出的文本檢索答案,包含策略層、正排系統、倒排系統和離線建庫四個主要部分,針對拍照搜題這個垂直領域進行了大量的策略優化。

程童表示:「針對用戶在不同使用場景下可能出現的模糊、傾斜、低像素、幹擾等各類拍照問題,作業幫在持續5年以上的自主研發和數據積累中,不斷進行算法迭代和架構完善。」

在一次完整的文字識別流水線中,作業幫拍搜系統擁有超30種不同的神經網絡各司其職,平均一次識別可運行260次以上的神經網絡預測。此外,通過構建大規模的並行GPU集群,平均只需要200毫秒,便可完成一次完整的識別流程,且作業幫系統在一分鐘可完成百萬次這樣的搜題請求。對於識別出的題目內容,系統可以在索引量超過3億的題庫搜尋引擎中進行匹配,確保用戶獲取更全面和準確的信息。

從更快更準到快速應變,有限算力下的極限探索

程童在演講中提到,在過去的六年裡,作業幫拍搜系統以兩年為進化周期,大致可分為三個發展階段,每個階段因業務場景和系統規模不同,面臨的問題也有所不同。2015年至2016年屬於第一階段,作業幫拍搜系統業務剛起步,需要解決的核心問題是更快和更準。更快是為了提供更好的用戶體驗,更準則容易形成口碑傳播,吸引更多用戶。

為了實現「隨手一拍,秒出答案」的效果,作業幫視覺智能實驗室工程架構團隊從並行計算、調度策略、工程實現三方面做出了努力。團隊率先將GPU用於在線推理服務:使用CPU做預處理,利用GPU強大的並行運算能力運行深度神經網絡,上線後取得了10倍的加速效果,平均耗時從3秒以上縮短至300多毫秒,後續持續優化到平均200毫秒。團隊還自研輕量級RPC框架,設計適合多GPU協同的線程池和調度策略,高峰期GPU利用率達到90%以上。

伴隨業務流量的持續上漲,作業幫拍搜系統在2017年至2018年進入發展的第二階段,不斷擴張的業務引入了更多的算法模型,需要不斷開發交付新的服務;算力需求的快速上漲又帶來了成本上的壓力。這兩年,團隊在開發和運維雙線面臨挑戰。

團隊迅速調整策略,制定應對方案。首先,優先滿足業務發展需求,儘快交付服務,確保算法模型的快速上線;同時,盡力優化系統環境,減少技術債務。例如,針對環境異構的問題,團隊通過升級接入層,優化自研RPC客戶端,滿足多機房、多機型負載均衡以及實驗分流需求;通過遷移伺服器的機會收斂異構機型和環境;不斷根據業務情況調整優化系統部署,將日常操作自動化,提高管理效率。

經過技術團隊不懈努力,在業務不斷擴展、流量持續增加的情況下,系統有力支撐了作業幫拍照搜題類業務的發展,自身也成長到了一定規模。

虛擬化突破兩大矛盾,顯著遷移效果激發更多可能性

2019-2020年系統進入到第三階段,針對前期發展過程中的各種問題,程童和團隊沒有停留於表面,而是不斷回顧、總結和深挖,認為之前出現的很多問題,表現出的形式是性能和穩定性相關,但實際上是因為系統靈活性不足。在人力有限的前提下,以物理機(baremetal,裸金屬伺服器)作為資源分配和系統管理的最小單位,無法突破兩個矛盾,即日益頻繁的變動與系統管理之間的矛盾,和日益增長的需求與資源管理之間的矛盾。為了突破這一瓶頸,團隊選擇了虛擬化,具體實現形式是K8s和容器。

對於為什麼選擇K8s,程童解釋道:「在最關鍵的資源分配環節,K8s突破了機器的邊界,將資源抽象整合為資源池,應用按需申請,由調度器分配,解決了資源管理的矛盾;而通過抽象出pod、deployment、service等概念,可低成本實現應用整個生命周期的自動化,解決了系統管理的矛盾。」

為了減小系統遷移的風險,團隊制定了漸進式的遷移步驟,首先對環境進行標準化,對一些不適合容器環境使用的組件或功能進行改造;之後將整個系統容器化運行,了解和掌握相關數據;最後實現灰度環境驗證和線上系統遷移。針對K8s原生不支持按顯存調度的問題,團隊也通過研發調度插件給出了解決方案。

從目前的遷移效果來看,通過更細顆粒度的資源分配和服務混部,部分集群遷移後節省了50%的機器資源,資源利用率也大大提升;而通過遷移獲得的彈性伸縮能力,可以讓系統在應對流量高峰時更遊刃有餘;相比於集群調整平均需要2小時的物理機時代,如今平均只需要10分鐘即可完成;而在故障處理方面,也從原來的平均20分鐘縮短至平均5分鐘,對於簡單故障,系統可以實現無人工介入。

在程童看來,遷移效果遠不止如此,虛構化改造所帶來的靈活性,讓之前許多不方便的事情變得更加便捷,創造了許多可能性。未來,作業幫技術團隊將持續搭建先進技術系統,不斷突破在線教育發展所遇到的技術難題,真正實現以科技賦能在線教育創新發展。

責任編輯:韓璐(EN053)

相關焦點

  • 作業幫受邀參加GET2020教育科技大會 副總裁羅亮談後疫情時代教育...
    11月23日-24日,GET 2020教育科技大會在北京國際會議中心舉辦。作為國內最大的K12在線教育平臺,作業幫受邀參加本次大會,作業幫副總裁羅亮在大會領袖論壇上分享了「後疫情時代作業幫對教育科技的探索」。
  • 架構革新 高效可控 2020中國資料庫技術大會盛大召開
    2020年12月21日~12月23日,由IT168旗下ITPUB企業社區平臺主辦的第十一屆中國資料庫技術大會(DTCC2020),在北京隆重召開。  大會以「架構革新 高效可控」為主題,設置2大主會場,20+技術專場,邀請超百位行業專家,重點圍繞數據架構、AI與大數據、傳統企業資料庫實踐和國產開源資料庫等內容展開分享和探討,為廣大數據領域從業人士提供一場年度盛會和交流平臺
  • 騰訊Techo Park開發者大會 騰訊雲一站式數據湖服務助力企業挖掘...
    12月20日,騰訊Techo Park開發者大會在京召開,在「存儲加速度,海量存儲創造無限可能」分論壇上,騰訊雲發布了滿足企業低成本、高效率存儲需求的智能分層和深度歸檔兩款存儲產品方案,並與知乎、新東方等頭部網際網路企業技術大咖共同分享了數據爆炸時代下存儲技術的機遇和實踐
  • 騰訊Techo Park開發者大會無邊界計算分論壇:讓公有雲的算力無限...
    (原標題:騰訊Techo Park開發者大會無邊界計算分論壇:讓公有雲的算力無限延伸 接入隨處可得)
  • 騰訊Techo Park開發者大會 5G時代,企業如何更好獲得公有雲一樣的...
    12月19-20日,騰訊Techo Park開發者大會在北京舉行,200多位行業頂尖專家和5000多名開發者齊聚一堂,共同探討雲計算、大數據和人工智慧等前沿技術話題,並同步舉辦30多場分論壇交流,超百萬用戶也通過線上和線下方式參與到這場技術研討的年度盛會。
  • Techo Park開發者大會正式揭幕,騰訊雲發布系列重磅新品和計劃
    12月19日,在北京舉行的騰訊2020 Techo Park開發者大會上,圍繞新形勢下的技術變革與趨勢,騰訊雲展示了其在雲計算、大數據、人工智慧等眾多領域的最新技術、最新成果、以及最佳實踐。騰訊雲將圍繞成本、安全、創新、工具,以及智能等維度,持續加大基礎設施投入規模和自研技術創新力度,通過構建雲、邊、端一體化產品和服務體系,為千百萬開發者一站式提供設計、開發、測試、運維完整產品矩陣,助力開發者提升效率,快速上雲。」
  • 騰訊Techo Park開發者大會丨5G時代,企業如何更好獲得公有雲一樣的...
    12月19-20日,騰訊Techo Park開發者大會在北京舉行,200多位行業頂尖專家和5000多名開發者齊聚一堂,共同探討雲計算、大數據和人工智慧等前沿技術話題,並同步舉辦30多場分論壇交流,超百萬用戶也通過線上和線下方式參與到這場技術研討的年度盛會。
  • 2020騰訊遊戲開發者大會落幕
    12月10日,由騰訊遊戲學院舉辦的第四屆騰訊遊戲開發者大會(Tencent Game Developers Conference,簡稱TGDC)落幕。在為期4天的大會裡,30多位來自國內外的一線遊戲從業者、相關學者和專家等,分享了他們對於遊戲設計、研發、發行和價值探索等方面的獨特洞見,以及在前沿技術應用、產業基礎研究等領域的經驗成果。
  • vivo開發者大會11月19日召開 將發布全新OS
    今天,vivo的官方微信公眾號發布了一條聲明,指出2020年的vivo開發者大會將於11月19日在深圳舉行,該大會將側重於新的OS,應用程式,遊戲,業務合作,技術,物聯網等主題和發展一起交流和探索。至於在這次開發者大會上是否有新的硬體發布,目前還不清楚。
  • 延續「本原」核心理念,2020 vivo開發者大會驚喜連連
    近日,vivo在深圳舉辦了OriginOS發布會,大會上帶來了全新系統——OriginOS。其以出色的UI設計、豐富的特色功能、以及智能化的邏輯交互,給廣大用戶留下了十分深刻的印象。
  • HDC 2020:潤和軟體首發HiSpark系列智能硬體,全面支持HarmonyOS
    來源:時刻頭條9月10日至12日,華為開發者大會2020(HDC 2020)在東莞松山湖舉行。11日,潤和軟體在大會現場首發了HiSpark系列智能硬體,並宣布全面支持 HarmonyOS 2.0,率先成為HarmonyOS開源社區開發套件官方合作夥伴。 應大會特邀,潤和軟體董事長兼總裁周紅衛先生也出席了HDC VIP晚宴,並與華為高層領導就後續的緊密合作深入交流。
  • 2020 騰訊遊戲開發者大會圓滿落幕:Game 4 Change,為遊戲人打造更...
    在為期 4 天的大會議程中,超過 30 位來自國內外的一線遊戲從業者、相關學者/專家等,分享了他們對於遊戲設計、研發、發行和價值探索等方面的獨特洞見,以及在前沿技術應用、產業基礎研究等領域的最新趨勢洞察。   「2020 年,對遊戲行業來說是充滿變化的一年,玩家需求日趨個性化、遊戲玩法不斷創新,新技術也為行業打開了新的想像空間,」騰訊遊戲副總裁、騰訊遊戲學院院長夏琳在開場致辭中講到。
  • 2020全球C++及系統軟體技術大會圓滿落幕
    由Boolan主辦的2020全球C++及系統軟體技術大會成功在深圳機場凱悅酒店落下帷幕!    全球C++及系統軟體技術大會自2005年創辦以來,得到國際C++標準委員會和國內外系統級軟體領域眾多專家和研發人員的支持。
  • 華為開發者大會2020開幕,發布多項新開發者技術及系統|鈦快訊
    來源:鈦媒體APP華為開發者大會2020鈦媒體快訊 | 9月10日消息:今日,華為開發者大會2020(Together)今天在東莞松山湖拉開帷幕。在大會的主題演講中,華為帶來了HarmonyOS 2.0、EMUI 11、HMS、HUAWEI HiLink、HUAWEI Research等一系列創新發布。
  • 2020騰訊遊戲開發者大會圓滿落幕:為遊戲人打造更開放的平臺
    12月10日,由騰訊遊戲學院舉辦的第四屆騰訊遊戲開發者大會(Tencent Game Developers Conference,簡稱 TGDC)圓滿落幕。 今年 TGDC 的大會主題為「Game 4 Change」,旨在與開發者一起直面當下的機遇與挑戰,通過專注產品打磨、追求能力進化、探索技術趨勢、構建多元圈層四個維度,形成跨公司、跨行業的交流、共享與協作,從而助力新一代遊戲開發者。
  • 搶先看:筆者親歷的2020年中國.NET開發者大會活動紀實
    編者:2020年中國.NET開發者大會第一天活動已經結束,可以通過https://codechina.csdn.net/lives 回看。
  • 近幾年,知識付費系統源碼的演變歷程
    能夠有如今的成就,這都是之前摸爬滾打出來的,知識付費系統源碼其中的演變歷程可謂是命途多舛。今天,我們就來簡單梳理一下。知識付費系統源碼最初的知識付費平臺還只是簡單的音頻形式,目標群眾是上班族,利用上班族碎片化的時間進行營銷推廣。主要表現在喜馬拉雅等平臺的付費內容中。
  • 作業幫侯建彬:認知半徑與全局遊戲
    拍搜你的認知有多寬,你跑的就有多快。比如作業幫剛從百度獨立出來不久,侯建彬就給團隊制定過一個非常激進的目標,要把市場上絕大部分的流量都買過來。每天新增的拍照搜題流量,作業幫一定要獲得超過50%,為完成這個目標會堅定地砸錢。因為拍照搜題本質上是搜索,而搜索是具備一定的品牌規模性和示範效應的。
  • 第五屆VRCORE開發者大會正式開幕!精彩分享進行中
    一年一度的XR開發者盛宴——第五屆VRCORE開發者大會已於今日online 2020年是一個特殊的年份,突如其來的疫情影響了人們的溝通方式,重塑了大家對於XR的認知。 第五屆VRCORE開發者大會涵蓋硬體研發、時尚設計、工業生產、影視製作、遊戲研發、航空航天、線下娛樂七大XR行業細分領域,邀請了優秀研發團隊代表和來自中國、歐洲、東南亞、韓國的XR社區意見領袖,來分享自己的思考和經驗。