免費計算資源,百度一站式開發平臺:AI Studio零門檻實現AI能力

2021-01-09 機器之心Pro

機器之心發布,機器之心編輯部。

2018 年 7 月 4 日-5 日,百度在國家會議中心舉辦第二屆 AI 開發者大會。在今年的開發者大會上,百度發布了 PaddlePaddle3.0,既升級了核心框架,又提供了 EasyDL 快速應用平臺、AutoDL 網絡結構自動化設計,以及 AI Studio 在線實訓平臺。本文從功能簡介,實戰建模及 AI 能力應用等角度介紹了 AI Studio。

AI Studio 是百度推出的一站式開發平臺:一個囊括了 AI 教程、代碼環境、算法算力、數據集,並提供免費的在線雲計算的一體化編程環境。用戶不必糾結於複雜的環境配置和繁瑣的擴展包搜尋,只要打開瀏覽器輸入 aistudio.baidu.com,就可以在 AI Studio 開展深度學習項之旅。

據介紹,運用 AI Studio 開發者可以實現自定義的 AI 建模能力而無需考慮硬體成本、運維成本、人力成本。相比於在其他雲平臺上花錢買計算資源和存儲空間跑模型來說,AI Studio 提供全套免費服務(計算資源免費,空間資源免費,項目託管免費,視頻教程也免費)。

1.功能簡介

第一次進入主頁,首先的感覺是這是個類似 Kaggle 的數據競賽平臺,但是仔細看來,AI Studio 強化了工程項目的概念,一大亮點就是 AI 學習項目這個版塊,裡面包括大量真實場景的工程項目(圖像識別,情感分析,個性化推薦等);另一個重要組成就是比賽了,眾所周知構建良性循環的產、學、研社區是行業發展的重要組成部分,不過目前 AI Studio 組織的比賽還剛起步,希望後續比賽多多,大家在這裡都能學到知識,交到朋友,最重要的是,可以在學習的同時給自己賺點零用錢花花。

Figure 1 AI Studio 特性

AI Studio 主要功能有項目類的項目大廳,創建項目,樣例項目,共享項目等四大部分,有數據科學比賽,有各種經典數據集和自定義數據集,有詳盡的機器學習和深度學習的教程及視頻公開課等。下面就簡單的來介紹一下:

Figure 2 AI Studio 主要功能

1.1. 菜單欄

1.1.1.項目大廳

作為 AI Studio 的主頁,集成百度積累的經典 AI 學習項目,自我的項目管理及共享項目列表。整個平臺都是以項目為核心的,也凸顯了 AI Studio 的定位,就是以技術及資源輸出幫助個人開發者,中小企業快速擁有 AI 能力以更好的服務自身業務。

1.1.2.數據集

數據集包括一些經典的公開數據集, 像 MNIST,IMDB,CIFAR10,Penn Treebank,MovieLens 等;也包括一些開放的百度數據(中文短文本語料,信息抽取數據)。不過相比 Kaggle 近萬份數據集來說,仍然有很大的發展空間,但是個人感覺 AI Studio 的數據集還是要比 Tianchi 的數據集規整很多的。當然,用戶也可以上傳自定義數據進行模型開發。

1.1.3.比賽

這個模塊應該是所有玩數據的人最感興趣的了吧。我之前在 Kaggle 參加過一些項目,總的來說,Kaggle 在比賽這塊做的真的很好,賽制清晰,社區完善,每次參加比賽都能有很大的提高。相較 Kaggle,AI Studio 的比賽數量還不多,不過以上提到的功能都有,另外就是 AI Studio 提供雲端訓練平臺,這樣大家的武器庫相對平衡,能夠更公平的進行競賽。

Figure 3 AI Studio 比賽頁面

1.2. 創建項目

AI Studio 以項目為單元進行開發。創建項目,添加數據集,運行開發環境(notebook kernel),就可以開始構建自己的模型進行開發生產了。目前,環境僅支持 Python2.7(期待更多的環境,Python3,R 等),算法框架包括 PaddlePaddle 和 sklearn 等。

Figure 4 AI Studio 創建項目頁面

1.3. 教程&資訊

關於教程,PaddlePaddle 關於機器學習的教程應該是中文裡最好的教程之一,不僅有機器學習、深度學習的視頻公開課和教程文檔(獲取),而且包含了大量的各個方向的深度學習實例,比如圖像分類,詞向量,個性化推薦,情感分析,語義角色標註以及機器翻譯等,不僅從原理層面進行深入淺出的講解,更提供模型代碼逐行進行實操,可以說為 Everyone can AI 提供了強大的後盾。

1.3.1.樣例工程

樣例工程即是提供的機器學習經典應用場景及歷屆比賽的 notebook,我們可以把各個項目 fork 到自己的項目下進行開發學習。對於急於構建 AI 能力的中小企業,這個模塊是最大福音了,很久之前看過 Tensorflow 的文檔,只有幾個典型問題的教程及代碼,而這裡包括了大量的基於不同場景的 AI 模型可供拿來即用。

1.3.2.共享項目

顧名思義,AI Studio 也提供項目共享功能供大家互相學習。在開源的時代,能夠培育成熟活躍的社區是平臺發展的必要因素,這也是 Tensorflow 能夠在深度學習領域中快速推廣的重要原因。

1.3.3.我的項目

這裡是開發者自己的項目列表,不再贅述。

2.實戰建模

AI Studio 以項目為核心,創建項目的同時可以自定義上傳數據,也可以選取平臺已有數據集;目前,環境僅支持 Python2.7,算法庫包括 sklearn 和 PaddlePaddle。不需要費心在開發環境上,能夠安心構造模型,將建模工程雲服務化應該是未來趨勢(能夠方便中小企業快速構建 AI 能力)。在 AI Studio 各項目之間是獨立分配資源的,可以同時調試多個項目模型,這點還是非常贊的。

我這裡創建了兩個共享項目,查看代碼直接 fork 項目開箱即用(需百度帳號登錄:Titanic 項目,個性化推薦項目),代碼詳見附錄及共享項目。第一個項目是最最基礎的數據科學的入門問題 titanic 預測是否生還(自主上傳數據,調用 sklearn 隨機森林模型);第二,利用已有數據(MovieLens)及 PaddlePaddle 構建個性化推薦模型。一個小問題就是創建項目後進入項目頁面,進入運行狀態還需要點擊運行項目,這裡感覺有點冗餘;運行的項目就是一個簡潔的 notebook 開發環境,該有的功能都有,個人感覺速度比 Kaggle 要好很多(不知是不是我的網速渣)。

Figure 5 AI Studio 項目界面

開發環境主體是由 notebook 形式組成,熟悉 jupyter 的同學可以無縫銜接,比 notebook 好的一點就是項目的數據集都會形成列表,簡單一鍵獲取數據路徑。菜單欄更簡潔,基本功能都有,可以保存 notebook,有個有意思的地方是在創建項目的時候環境只能選 Python2.7,但這裡 kernel 選擇會出現 Python3。

Figure 6 AI Studio 開發頁面

3.群雄逐鹿

作為一站式 AI 建模開發平臺 AI Studio,如何在強手如雲的 AI 開發平臺市場殺出一條血路呢?最重要的途徑就是完善比賽社區的理念,通過 PaddlePaddle+AI Studio 的方式搶佔數據科學競賽這個領域,這裡就簡要比較一下幾家數據競賽平臺(AI Studio、Kaggle、天池、DataCastle 等)。以下將從對開發者的能力提升,平臺比賽的公平性和比賽收穫等三個方面闡述。

3.1. 能力提升

可以說參加數據建模比賽是最好的提升自身能力的方式了,在比賽中,不但能夠了解各行各業的業務形式,數據結構,也能真實的驗證我們對特徵和算法的不同理解,而良好的社區環境和代碼共享機制為自身能力的提升提供了溫床。在這方面,Kaggle 因為成立最早有很強的人才和代碼沉澱,投靠 Google 後,更是愈發的體現了其中的優勢。天池和 DataCastle 在社區建設上也投入了大量的精力,但是與 Kaggle 還是有較大的差距,不過在中文社區中應該算是佼佼者。AI Studio 顯然有後來者的劣勢,不過看過他們的樣例項目,還是很佩服他們在教程和文檔方面的思考,可以說在 AI 中文教程裡 AI Studio 大踏步的跨入了第一梯隊。

3.2. 比賽的公平性

這裡的公平性體現在兩個方面,第一是賽題的數據量要有一定的規模以防止數據量過小導致的模型穩定性問題;第二則是計算資源的公平性,舉個慄子,假如阿里組隊以 P100 GPU 集群的算力來參賽的話,恐怕其他人的勝算只能寄託於奇蹟了,而對於 ImageNet 那樣量級的數據,我們只有 PC 機的話恐怕連一次迭代也完成不了,更不要說模型調優了。

在這方面,AI Studio 具有極大的優勢,平臺不僅免費對參賽選手給予計算資源上的支持,更是提供最新版本的 PaddlePaddle 供選手調用。而天池在初賽階段是沒有集群算力支持的,只有進入複賽的選手才會有機會使用數加平臺。Kaggle 和 DataCastle 更是沒有平臺的支持。相比來說在比賽資源的公平性上 AI Studio 的優勢巨大。

3.3. 比賽收穫

這裡的收穫是只除了能力以外的物質方面的獲得,比如現金獎勵和簡歷背書。這兩點對於初入職場的新人還是非常重要的。客觀來講,國際影響力的話 Kaggle 絕對是 No.1,致力於進入 Google、facebook 的同學最好還是在 Kaggle 上挑選優質的比賽;針對國內的話,AI Studio、天池和 DataCastle 在獎金方面相差不大,由於 AI Studi 推出最晚,所以獎金相對來說高一些。

綜合來看,AI Studio 作為數據科學競賽中的新人,背靠百度資源,憑藉更加公平的平臺資源輸出,獎勵制度和完善的教程文檔體系將會在未來大規模的搶佔數據競賽市場。對開發者來說,免費使用 GPU 資源,更簡單的開發流程已經是很大的誘惑了。

4. 總結

AI Studio 是一個基於 PaddlePaddle 的集成了大量數據集、經典樣例項目及比賽項目的雲計算建模平臺,也是一個機器學習、深度學習的交流社區。AI Studio 最大限度的解放了數據科學家需要環境配置的煩惱,在雲端集成計算資源,項目管理,代碼管理,比賽等多種功能,形成一站式兼顧學習和工作的建模平臺。而且 AI Studio 提供計算資源,空間資源,視頻公開課都是免費的。最後,期待一下的更多比賽的推出。

相關焦點

  • 億元免費算力 | 百度大腦AI Studio重磅推出算力支持計劃
    「提供總計1億元免費算力,助力開發者成功」——百度大腦AI Studio大數據、大模型、大算力是深度學習發展的必備因素,算力的重要性不言而喻。4月23日,首屆 WAVE SUMMIT 2019深度學習開發者峰會,百度一站式開發平臺 AI Studio 重磅推出算力支持計劃:豪擲1億元免費算力,為普通開發者破除算力桎梏。
  • 百度再創中國AI速度 不用寫代碼一站式搞定工業質檢定製AI模型
    柳州源創電噴技術有限公司在校企合作項目下,基於百度EasyDL零門檻AI開發平臺創建了一個閥座智能檢測模型,正確率已達95%以上,實現了使用機器自動化快速高準確率的檢測方式,為公司全年節省超60萬成本。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    世界大會上百度大腦6.0的發布,持續引領 AI 技術高速發展。七八月50餘項能力的開源開放及升級,是夏日火熱的積澱,希望可以幫助您更高效實現產業智能化應用落地,快來一同閱讀您最關心的內容吧。重點概覽:乘風平臺發布,提供端到端一站式人臉通行考勤解決方案,滿足企業智能管理需求;智能招聘3大爆款功能(簡歷解析、人崗匹配、簡歷畫像)邀測進行中;醫療票據 OCR 方案,智能結構化方案全新上線;智能庭審輔助解決方案開放邀測;視頻分析邊緣計算盒 EM-BOX 上新5項技能,分析功能更豐富;百度飛槳推出工業級目標檢測模型 PP-YOLO,精度45.9%,推理速度72.9 FPS
  • 築造AI抗疫防線,百度開源業內首個口罩人臉檢測及分類模型
    今天,百度宣布免費開源業內首個口罩人臉檢測及分類模型。該模型可以有效檢測在密集人流區域中佩戴和未佩戴口罩的所有人臉,同時判斷該者是否佩戴口罩。廣大開發者和企業廠商可通過免費開源的AI模型,快速完成軟體開發,為打贏疫情阻擊戰貢獻科技力量!
  • 3小時極致學習AI開發,WAIC開發者日有一堂必上公開課
    除了全新發布,面向中小企業,飛槳企業版 EasyDL 全新升級,預置豐富網絡和模型,提供零門檻、便捷高效的開發。對企業開發者而言,EasyDL 可謂是一站式開發利器。在 EasyDL 開發平臺之外,2017 年百度 AI 開發者大會上也曾發布對話系統定製平臺 UNIT,搭載了業界領先的對話理解與對話管理技術,可以幫助開發者賦予產品智能對話的交互能力。
  • 百度大腦:端-雲-邊緣協作時代,如何小時級變身AI端計算工程師
    當前,我們進入了端-雲-邊緣協作的時代,不僅要看端計算的能力、算法的效果,更要看它們相互之間協作的效率,這也是影響企業能否真正實現 AI 轉型的最重要因素之一。那麼企業如何處理圖片、文本、視頻等不同類型的業務數據,又該選擇哪種端-雲-邊緣的協作方案,才能在這千變萬化的競爭時代,使用少量數據快速實現高精度的 AI 開發,抓住市場的機會呢?
  • 2019百度之星開發者大賽參賽「全攻略」發布
    一、百度之星FAQ-報名篇 Q1 如何組隊報名參賽?A1 目前頁面暫不支持報名組隊功能。若以團隊形式參賽,須指定其中一人為隊長。隊長作為團隊發言人與通訊聯絡人,註冊的百度帳號由團隊內部共享使用。參賽期間登錄AI Studio平臺需保持與該帳號一致。Q2 現有隊伍如何增加新成員?
  • AI戰「疫」:百度開源業界首個口罩人臉檢測及分類模型
    另一方面,人臉檢測模型基於百度自研的冠軍算法,整個研發過程都是基於百度開源的飛槳深度學習平臺,能夠進行高效、便捷的模型開發、訓練、部署。我們可以先看看口罩人臉檢測及分類模型的效果,其中綠色邊界框為戴口罩人臉、紅色邊界框為不戴口罩人臉。
  • 浪潮人工智慧開發平臺AIStation,支持AI訓練與推理一站式交付
    企業希望可以無縫銜接AI模型訓練開發與推理部署,進行高效的資源調度和模型管理,縮短業務上線周期。浪潮人工智慧開發平臺AIStation,可以助力企業更好應對以上挑戰。AIStation的浪潮專為企業級AI生產環境打造的人工智慧開發平臺。
  • 用AI提速生命科學研究 百度飛槳推出螺旋槳生物計算平臺
    (百度首席技術官、深度學習技術及應用國家工程實驗室主任王海峰)  本屆峰會,百度飛槳帶來八大全新發布與升級,有支持前沿技術探索和應用的生物計算平臺PaddleHelix螺旋槳,開發更加便捷的飛槳開源框架2.0
  • 浪潮發布AI計算系統及推理平臺:優化AI算力資源,覆蓋開發至部署全...
    MX1能夠同時支持多種AI加速器和超大規模神經網絡模型並行計算,提升AI架構部署效率;而AIStation可對AI訓練和推理進行一站式管理,簡化從開發到部署的全過程。彭震談到,AIStation擁有多元部署能力,能夠為不同應用場景提供一站式的AI推理服務,實現高效地優化、調度計算資源,進一步簡化AI的開發、訓練、優化和部署全流程。
  • 機器學習吧面向ai的中文機器學習資源與分享平臺
    機器學習吧,機器學習吧-面向ai的中文機器學習資源與分享平臺。裡面涵蓋了比較新的機器學習算法,可以看看。當然這僅僅是入門級的機器學習算法,下面會引入深度學習算法的文章。並且機器學習算法的理論比深度學習算法更加複雜,這裡有深度學習算法的專題篇。不管從什麼角度看,機器學習都是一個非常好的方向,希望你對機器學習有更多的了解。謝邀,想先通過搜尋引擎試試看能不能找到一些可以學習的資料。
  • 兆芯攜手百度飛槳 國產CPU助力AI應用創新
    百度飛槳 源於產業實踐的開源深度學習平臺飛槳(PaddlePaddle)以百度多年的深度學習技術研究和業務應用為基礎,是中國首個開源開放、功能完備的產業級深度學習平臺,包括飛槳開源平臺和飛槳企業版。飛槳開源平臺包含核心框架、基礎模型庫、端到端開發套件與工具組件,持續開源核心能力,為產業、學術、科研創新提供基礎底座。飛槳企業版基於飛槳開源平臺,針對企業級需求增強了相應特性,包含零門檻AI開發平臺EasyDL和全功能AI開發平臺BML。
  • 百度AI文本審核功能一步解決附教程
    導讀:使用百度AI內容審核,可以實現實時或定時進行內容的審核,主要可以應用在短網址生成、論壇發帖、論壇回復、網站留言、文章評論等方面。測試了目前市場上主流的短網址生成平臺,均沒有進行網址的檢測,直接就生成了網址,也許是後臺有人工審核獲取定時檢測功能吧!目前網站百度AI開發平臺步驟註冊帳戶、身份認證這兩項就不做演示了。
  • 全球三十大最佳 AI 創業公司公布
    7、第四範式 第四範式成立於 2015 年,是人工智慧技術與服務提供商,幫助企業實現智能變革、創造商業價值。第四範式的核心產品先知平臺 3.0——企業 AI 核心系統覆蓋了人工智慧落地應用的全過程,幫助企業完成一站式 AI 全系統建設,使企業既可以按需設計 AI 解決方案,又可靈活挖掘全新應用需求。
  • AI改變世界,百度讓AI「Native」
    與雲原生類似,原生AI是一種基於AI能力的價值建構體系,讓應用從AI的架構中成長起來。所以,百度首推的AI-Native,更是一種AI思維的釋放。在此基礎上,打造一體化雲計算服務,實現雲能力和AI能力深度融合。
  • 百度全功能AI開發平臺BML自動超參搜索技術全面解析
    百度全功能AI開發平臺BML帶著免費算力額度與自動超參搜索能力來了!先來介紹百度最近全新升級的BML,何方神聖?全功能AI開發平臺BML(Baidu Machine Learning),是為企業和個人開發者提供機器學習和深度學習一站式AI開發服務,並提供高性價比的算力資源,助力企業快速構建高精度AI應用。
  • 吳恩達離職百度後要去Drive ai?其妻子否認這種猜測
    【TechWeb報導】3月28日消息,百度首席科學家吳恩達宣布離職百度後,對於其下一站的去向引起了眾多的猜測。吳恩達妻子Carol Riley擔任總裁的創業公司Drive ai呼聲最高,但是來自騰訊科技的消息,Reiley對這一猜測明確表示不屬實。