熱榜第四:GitHub開原始碼數據集界ImageNet,推出代碼搜索挑戰賽

2021-01-08 量子位

魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI

用別人的輪子,開自己的路。

在這個產品快速迭代的時代,搜索、調用別人的代碼避免重複造輪子,已是開發常態。

但是搜索代碼這件事,並不是百度一下就能解決的。

搜尋引擎們往往答非所問,難以理解程序猿們的需求。

現在,GitHub覺得,機器學習可以改善這個問題。不僅要讓AI搜代碼,還要搞出一套評估標準。

於是,CodeSearchNet挑戰賽上線了。

這一上線,就是日入200星的節奏,目前已經登上了趨勢榜第四的位置。

CodeSearchNet挑戰賽

CodeSearchNet挑戰賽是GitHub和Weights&Biases攜手推出的一項新賽事,旨在推動語義代碼搜索的相關研究。

雖然與其他的信息檢索任務相關聯,但代碼中使用的語言通常是縮寫,並且具有高度技術性,也就是說,在這項任務中,代碼語言和自然語言之間存在鴻溝。

所以,像GLUE這樣的基準測試顯然不太適合用來評估這一任務。

CodeSearchNet為NLP社區提供了一個新的平臺,包含:

大量的相關數據說明一系列基線模型的開原始碼,以及預訓練權重基線評估指標和實用程序一個新的排行榜

挑戰賽包括99種自然語言查詢(query),以及大約4000個專家注釋,這些注釋,來自GitHub為挑戰賽發布的CodeSearchNet語料庫。

語料庫 + 模型

CodeSearchNet語料庫的數據取自GitHub上的開源項目,經過了充分的預處理。

其中包含了約600萬種函數,取自Go,Java,JavaScript,PHP,Python和Ruby這六種程式語言的開原始碼。

還包含了通過機械抓取、預處理相關函數文檔,自動生成的類似查詢的自然語言,適用於200萬種函數。

數據集已經開放下載,大小約20GB。

GitHub還計劃在未來幾個月繼續擴展評估數據集,容納進更多程式語言,查詢和注釋。並且,他們也希望這一數據集能在其他NLP任務中得到應用。

GitHub的目標,是將其打造成代碼數據集界的ImageNet。

同時開源的,還有基準模型。

為了評估代碼搜索模型,GitHub從bing上收集了高點擊率的搜索查詢文字,將其與StaQC(數據集:StackOverflow-Question-Code-Dataset)查詢相結合,生成了99個與代碼相關的查詢。

而後,使用標準的Elasticsearch(開源搜尋引擎)安裝,並用基線模型從CodeSearchNet語料庫中為每個查詢搜索10個可能的結果。

最後,GitHub要求程式設計師,數據科學家和機器學習研究人員以 [0,3] 的評價標準來注釋搜索結果與查詢的相關性,0表示完全不相關,3表示完全符合。

精心製作,必屬良品。GitHub也指出,在他們的新數據集中訓練搜索方法,能顯著提高特定項目搜索查詢的性能。

現在,排行榜上還只有GitHub「自己人」,那麼,來挑戰一下嗎?

傳送門

CodeSearchNet挑戰賽簡介:

https://github.blog/2019-09-26-introducing-the-codesearchnet-challenge/

GitHub地址:

https://github.blog/2019-09-26-introducing-the-codesearchnet-challenge/

論文地址:

https://arxiv.org/pdf/1909.09436.pdf

— 完 —

相關焦點

  • GitHub開源項目代碼搜索技巧整理
    GitHub是全球最大的代碼託管平臺,支持開源項目以及私有項目,開發者戲稱github為全球最大同性交友網站。GitHub裡面有很多有價值的開源項目和代碼,如何在海量的代碼庫中搜索我們需要的信息,我們需要利用GitHub強大的搜索功能。
  • GitHub開原始碼分析引擎CodeQL 同步啟動3000美元漏洞獎勵計劃
    該計劃中,GitHub 不僅開源了代碼分析引擎 CodeQL,還設置了獎勵金最高為 3000 美元的漏洞獎勵計劃。GitHub 安全實驗室的任務是啟發並賦能全球安全研究社區,保護全球代碼的安全;意將進一步解決代碼安全難題,完善開源社區不足,為開源社區的優質代碼貢獻打下良好基礎。
  • GitHub開原始碼分析引擎CodeQL,同步啟動 3000 美元漏洞獎勵計劃
    該計劃中,GitHub 不僅開源了代碼分析引擎 CodeQL,還設置了獎勵金最高為 3000 美元的漏洞獎勵計劃。GitHub 安全實驗室的任務是啟發並賦能全球安全研究社區,保護全球代碼的安全;意將進一步解決代碼安全難題,完善開源社區不足,為開源社區的優質代碼貢獻打下良好基礎。
  • 丟人現眼……GitHub阿波羅11號代碼倉庫慘遭中文灌水
    昨天登上GitHub趨勢熱榜第一的阿波羅11號(Apollo 11)代碼倉庫,獲得了3萬多標星稱讚,但也同時慘遭中文灌水的侵擾,引發了眾多網友的熱議。  50年前,三位太空人搭乘阿波羅11號,完成人類第一次登月任務。
  • 資源| 自然語言語義代碼搜索之路
    選自GithubEngineering作者: hamelsmu、hohsiangwu機器之心編譯參與:Geek AI、張倩在本文中,作者向讀者分享了如何利用深度學習技術促進自然語言語義搜索的發展。此外,他們還分享了一個開源的示例,以及復現結果所需的代碼和數據。
  • 代碼搜尋引擎和代碼瀏覽器 Sourcegraph 宣布開源
    知名流行的代碼查看工具 Sourcegraph 日前已宣布開源(Apache License),代碼託管在 GitHub 上 https://github.com/sourcegraph/sourcegraph
  • 美國防部宣布開原始碼庫:快來 GitHub 提意見
    2月28日,外媒稱,美國五角大樓宣布了開原始碼網站 Code.mil(或 github.com/deptofdefense/code.mil),將用於公開聯邦僱員開發的非保密軟體代碼
  • 阿波羅11號原始代碼在GitHub開源
    IT之家7月19日消息 原始的阿波羅11制導計算機(AGC)指令和登月模塊的原始碼目前已經在GitHub網站開源。1969年7月20日,人類歷史上首次在另一顆星球表面行走,實現了1961年甘迺迪總統設定的目標,當時美國人甚至還沒有實現環繞地球飛行。
  • GitHub原始碼洩漏
    在官方GitHub DMCA倉庫(交數字千年版權法案,https://github.com/github/dmca)的可疑提交中,一個不知名的人上傳了機密原始碼,並利用Gi​tHub應用程式中的bug,偽裝成Github的執行長Nat Friedman。
  • 如何編譯使用GitHub代碼託管社區裡的開源項目代碼
    我們日常用的很多免費軟體和代碼,甚至包括一些無恥的和有恥的商業軟體或項目,都來源於偉大的開源社區平臺。我們下載的或利用的,都是開源技術的結晶。不管是我們純粹愛好學習代碼還是它們心懷叵測使用代碼,都離不開一個編譯使用。那麼GitHub這樣的代碼託管社區裡的開源項目代碼,怎麼用呢?比如某一個開源軟體的代碼,那麼我們該怎麼把上面分享的項目代碼編譯生成成型的軟體呢?有人會說,項目頁面不是有克隆按鈕嗎,的確如此,不過我們這裡是學習git。
  • 說人話,搜代碼,Facebook發布神經代碼搜索數據集+benchmark
    郭一璞 發自 中關村量子位 報導 | 公眾號 QbitAI怎麼才能方便的找自己需要的代碼?最好是能用人話來直接搜索、說什麼就給什麼那種。Facebook剛剛發布了新benchmark和數據集,用於評估神經代碼搜索模型。
  • 為子孫後代開源!GitHub打算將開原始碼在北極保存1000年
    「功在當代、利在千秋」的大事,開源軟體是人類現代文明的潛在基石,開原始碼是人類的共同遺產,需要留給子孫後代。 看起來,GitHub準備做一件「功在當代、利在千秋」的大事情:把開源軟體代碼保存1000年! 保存地點:北極
  • CVPR 2020論文開源項目一頁看盡,附代碼論文
    在最近的迭代中,在一個超網中共享參數的種群中的架構,將在具有幾個epoch的訓練數據集上進行調優。下一個演化迭代中的搜索將直接繼承超網和種群,加速了最優網絡的生成。進一步採用非支配排序策略,僅保留Pareto前沿的結果,以精確更新超網。經過0.4天的GPU連續搜索,可以生成多個模型大小和性能不同的神經網絡。
  • GitHub 推出代碼掃描線上工具,再也不怕Bug了
    Semmle,從那時開始,官方宣布將在 GitHub 的開發者代碼集成流程中引入代碼安全檢查的能力,至於何時真正發布還是未知數,而現在就是真正意義是上的代碼自動檢查了。在 2020年 5 月的 Github Satellite 大會上,GitHub 先推出了代碼掃描功能的 beta 版,免費提供開原始碼掃描功能,開始內測。
  • Android 開源項目 (AOSP) 代碼搜索工具正式發布
    Android開原始碼工程主管Jeff Bailey 等共同發文表示,目前,Android開源項目(AOSP)的代碼搜索工具已正式發布。要獲得或查看這些代碼,需要使用Git (一種開源版本控制系統)和repo (一種與Git相輔相成的代碼庫管理工具),也正因如此,很多開發者們慣用的工具無法與之很好地配合使用,如GitHub、Gitweb等。
  • GitHub 原始碼洩露,CEO 回應:這是個意外
    /web/20201104050026if_/https://github.com/github/dmca/tree/565ece486c7c1652754d7b6d2b5ed9cb4097f9d5但 RIAA 的禁令起到了相反的效果,很多開發人員開始對此表示抗議,並發布了更多代碼副本。事件發生以前,在 GitHub 上搜索 Youtube-dl 相關的項目只有 20 多個,而現在至少能搜出 4100 多個。
  • GitHub 原始碼洩露,CEO 回應:這是個意外
    疑似洩露代碼地址:https://web.archive.org/web/20201104050026if_/https://github.com/github但 RIAA 的禁令起到了相反的效果,很多開發人員開始對此表示抗議,並發布了更多代碼副本。事件發生以前,在 GitHub 上搜索 Youtube-dl 相關的項目只有20多個,而現在至少能搜出4100多個。其實對於 GitHub 來說,封禁項目不是什麼新鮮事。去年5月,GitHub 更新了用戶協議,表明 GitHub 的產品和服務適用於美國出口管制法律。
  • GitHub最大更新:直接運行代碼;人工智慧涼了?年度報告揭示真相
    很簡單,以後你不光能在GitHub上存儲和搜索代碼,而且還能直接運行部分代碼。這個期待已久的更新獲得一致好評。詳情如何,下面我們會仔細說。再說一下年度報告。作為全球最大的男性交友和開源協作和軟體項目託管平臺之一,GitHub掌握了全球軟體技術發展的大趨勢,以及程式設計師們的日常大數據。
  • github上的代碼 機器學習專題及常見問題 - CSDN
    過去幾年中,數據科學領域內的大部分突破性研究都曾作為研究結果出現在 NIPS 大會上。如果你想站在領域前沿,那這就是很好的資源!2、開源軟體庫2.1 TensorFlow 項目地址:github.com/tensorflow/tTensorFlow 是一種採用數據流圖(data flow graph)進行數值計算的開源軟體庫。
  • 被GitHub和微軟傷了心?這有9個開原始碼版本控制系統
    主要特性包括拉取請求、代碼分支和適合代碼討論的嵌入式註解。Bitbucket可以部署在雲上、本地伺服器或公司的數據中心,這取決於你的安全需求。GitLabGitLab在它的DVCS中包含了許多特性,包括一個集成的項目wiki和一個專用的項目網站。