雷鋒網AI開發者訊,微軟研究院的全球項目:強化學習開放原始碼節(RL Open Source Fest),目前已經開始面向全球接受申請。
強化學習(RL,Reinforcement Learning )開放原始碼節是一項全球性在線計劃,旨在讓學生與數據科學家和微軟研究院「真實世界強化學習」小組的工程師一起,進行開源強化學習程序和軟體開發。2020年5月至2020年8月,學生們將進行為期四個月的研究編程項目。被錄取的學生將獲得10,000美元的助學金。
學生來自世界各地,共同解決開放原始碼強化學習問題,在課程結束時,學生將在線向微軟研究院「真實世界強化學習」小組介紹各自的項目。三名學生及其項目將被選為「強化學習開放原始碼節」的決賽入圍者,並有機會在紐約市的微軟研究院實驗室親自介紹他們的項目,由微軟提供差旅和住宿。
申請期將於2020年3月6日截止。接下來的時間表是:3月23日,選定申請者;4月20日至30日,將進行學生和導師會議;5月18日,項目開始;8月10日至13日,項目介紹和評估;2020年8月17日,決賽入圍者宣布。
學生將在四個月裡使用 Vowpal Wabbit (以下簡稱VW)來開始研究編程項目。VW是由計算機科學家約翰·蘭福德(John Langford)創建,並在許多貢獻者的幫助下由微軟研究院開發的開源機器學習庫。它提供一種快速、靈活、在線和主動的機器學習解決方案,使人們能夠解決複雜的交互式機器學習問題,並且主要關註上下文強盜算法和強化學習。它既是研究原型,又是將前沿算法推向生產的工具。
約翰·蘭福德生於1975年,是2012年國際機器學習會議(ICML)的聯合主席,2016年ICML 的主席,也是2019年至2021年ICML的主席。
要獲得該計劃的資格,學生必須就讀於被認可的機構包括大學,碩士課程,博士學位課程或本科課程。在計劃期間,學生主要的責任是提交代碼,並通過代碼審查,定期反饋已完成的工作。最終實現一個成功的面向數據科學的項目,包括可重現的實驗,數據集,報告和可視化結果,以及測試和文檔。
微軟研究院也在申請網頁(https://www.microsoft.com/en-us/research/academic-program/rl-open-source-fest/)上列出了需要解決的「開源項目問題清單」,以下是簡要列表說明。
強化學習開放原始碼節項目問題清單:
1.VW對FlatBuff 和/或Protobuf的支持
包括對現代序列化框架的支持,比如FlatBuff或ProtoBuff。這將實現更容易的互操作、更好的穩定性和潛在的更高性能。
2.基於Jupyter筆記本的背景數據可視化
構建可視化以幫助理解上下文強盜策略和日誌的行為。
3.並行解析
現代機器經常利用多線程來實現性能。VW目前使用單個解析線程和單個學習線程,解析通常是瓶頸。擴展解析器以支持多線程將允許我們更好地利用資源。
4.VW伺服器模式改造
VW目前有守護程序模式,允許客戶發送示例、訓練、建模以及接收預測。目前使用的是原始套接字和二進位協議。我們想提供一個現代版本的VW伺服器模式,利用現代的RPC技術。
5.改善VW的Python體驗
VW的Python集成可以在幾個方面進行改進,使用戶更容易使用。
6.用於強化學習的端到端循環
強化學習庫有擴展點,允許交換框架,但是目前沒有簡單的方法讓它在本地端對端工作。使RLClientLib支持本地預測、日誌記錄將成為一個很好的原型工具。
7.張量觀察和張量板集成
張量板集成(TensorBoard)和張量觀察(TensorWatch)是調試和監控訓練的絕佳工具,使它們成為與VW和RLClientLib集成的絕佳選擇。
8.VW的ONNX算子集和模型格式
VW有自己的運行時,從自己的模型文件運行推理。然而,ONNX是定義模型和支持推理的新興標準,該項目使VW模型能夠與ONNX運行時互操作。
9.支持在Python中實現VW的減少
VW的所有縮減都是在C++中實現的。然而,為了允許快速原型開發和利用Python生態系統,使用Python來做這件事是有意義的。
10.支持RLClientLib擴展點的Python實現
RLCLientLib支持幾個可擴展性點,但這些只在C++公開。在Python中使用RLCLientLib時,能夠支持這些是很重要的。
11.上下文強盜算法的基準
有許多不同的上下文強盜算法。為了比較,一個標準的基準將是有用的。
12.上下文強盜算法評估庫
一種常見的評估庫是IPS,其他的是DR和偽逆(PseudoInverse)。這些評估庫在不同的環境下工作得更好或更差。這個項目探索每一個的參考實現,並允許它們之間比較,以幫助理解。
13.用Python進行可編寫腳本的特徵工程
VW通過命令行支持示例操作。它提供了很大的靈活性,但是除了固定的選項集,很難表達任何東西。其想法是使示例操作能夠在Python中作為解析管道中的一系列鉤子來編寫腳本。
雷鋒網雷鋒網雷鋒網