全球數據競賽Top解決方案開源整理與匯總

2020-12-13 騰訊網

新智元報導

來源:Github

作者:Smilexuhc等

編輯:大明

【新智元導讀】想做數據科學家嗎?來看看前人大神走過的路吧!本文是來自Github的國內外數據競賽中Top解決方案總結貼,涵蓋NLP、計算機視覺等領域,乾貨滿滿喲。

隨著AI技術的日新月異,對AI人才的需求也水漲船高,AI技術構建離不開大量的數據。如何處理和利用這些數據,這個艱巨任務就落在了數據科學家的肩上。現在甚至有一種說法,稱數據科學家是21世紀最性感的工作。

儘管市場需求火爆,但並不是每個人都能成為一名合格的數據科學家。目前各大企業為了網羅數據科學的優秀人才,經常舉辦形式多樣的數據競賽。在競賽中常有令人眼前一亮的方案脫穎而出,也為後來人提供了寶貴經驗。

近日在Github上出現了一份乾貨資源總結貼,匯總了各大數據競賽中名列前茅的一些優選解決方案。如果你有志進軍AI行業,但對成為數據科學家還有些「心有餘而力不足」,相信多看看前人大神的解決方案一定會有所裨益。

首先感謝這個總結貼的作者Smilexuhc(Github主頁:https://github.com/Smilexuhc),為我們提供了如此全面和精彩的技術乾貨,目前此貼中的資源還在不斷更新中,歡迎各位小夥伴們一起添磚加瓦!

下面就一起來看看這個帖子都分享了哪些精彩內容:

數據競賽資訊內容整理

數據競賽資訊:

https://github.com/iphysresearch/DataSciComp

ApacheCN 的kaggle資料連結:

https://github.com/apachecn/kaggle

Kaggle top方案整理:

https://github.com/EliotAndres/kaggle-past-solutions

純數據競賽Top解決方案整理

1、2018科大訊飛AI營銷算法大賽

Rank1:https://zhuanlan.zhihu.com/p/47807544

2、2018 IJCAI 阿里媽媽搜索廣告轉化預測

Rank1:https://github.com/plantsgo/ijcai-2018

Rank2:https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution

Rank3: https://github.com/luoda888/2018-IJCAI-top3

Rank8: https://github.com/fanfanda/ijcai_2018

Rank8: https://github.com/Gene20/IJCAI-18

Rank9(第一賽季)https://github.com/yuxiaowww/IJCAI-18-TIANCHI

Rank29: https://github.com/bettenW/IJCAI18_Tianchi_Rank29

Rank41: https://github.com/cmlaughing/IJCAI-18

Rank48: https://github.com/YunaQiu/IJCAI-18alimama

Rank53: https://github.com/altmanWang/IJCAI-18-CVR

Rank60: https://github.com/Chenyaorui/ijcai_2018

Rank81: https://github.com/wzp123456/IJCAI_18

Rank94: https://github.com/Yangtze121/-IJCAI-18-

3、2018騰訊廣告算法大賽

Rank3: https://github.com/DiligentPanda/Tencent_Ads_Algo_2018

Rank6: https://github.com/nzc/tencent-contest

Rank7: https://github.com/guoday/Tencent2018_Lookalike_Rank7th

Rank9: https://github.com/ouwenjie03/tencent-ad-game

Rank10: https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th

Rank10(初賽): https://github.com/ShawnyXiao/2018-Tencent-Lookalike

Rank11:https://github.com/liupengsay/2018-Tencent-social-advertising-algorithm-contest

https://my.oschina.net/xtzggbmkk/blog/1865680

Rank26: https://github.com/zsyandjyhouse/TencentAD_contest

Rank33: https://github.com/John-Yao/Tencent_Social_Ads2018

4、2018高校大數據挑戰賽-快手活躍用戶預測

Rank1: https://github.com/drop-out/RNN-Active-User-Forecast

https://zhuanlan.zhihu.com/p/42622063

Rank4: https://github.com/chantcalf/2018-Rank4-

Rank13 (初賽 A榜rank2 B榜rank5): https://github.com/luoda888/2018-KUAISHOU-TSINGHUA-Top13-Solutions

Rank15: https://github.com/sunwantong/Kuaishou-Active-User

Rank20: https://github.com/bigzhao/Kuaishou_2018_rank20th

Rank28 (初賽A榜rank1,B榜rank2):https://github.com/YangKing0834131/2018-KUAISHOU-TSINGHUA-Top28-Solutions-

https://github.com/FNo0/2018-KUAISHOU-Top28

5、2018JDATA 用戶購買時間預測

Rank9:https://zhuanlan.zhihu.com/p/45141799

6、2018 DF風機葉片開裂預警

Rank2:https://github.com/SY575/DF-Early-warning-of-the-wind-power-system

7、2018 DF光伏發電量預測

Rank1:https://zhuanlan.zhihu.com/p/44755488?utm_source=qq&utm_medium=social&utm_oi=623925402599559168

https://mp.weixin.qq.com/s/Yix0xVp2SiqaAcuS6Q049g

8、AI全球挑戰者大賽-違約用戶風險預測

Rank1:https://github.com/chenkkkk/User-loan-risk-prediction

9、2016融360-用戶貸款風險預測

Rank7:https://github.com/hczheng/Rong360

10、2016 CCF-020優惠券使用預測

Rank1: https://github.com/wepe/O2O-Coupon-Usage-Forecast

11、2016 ccf-農產品價格預測

Rank2: https://github.com/xing89qs/CCF_Product

Rank35: https://github.com/wqlin/ccf-price-prediction

12、2016 ccf-客戶用電異常

Rank4: https://github.com/AbnerYang/2016CCF-StateGrid

13、2016 ccf-搜狗的用戶畫像比賽

Rank1: https://github.com/hengchao0248/ccf2016_sougou

Rank3: https://github.com/AbnerYang/2016CCF-SouGou

Rank5: https://github.com/dhdsjy/2016_CCFsougou

https://github.com/dhdsjy/2016_CCFsougou2

https://github.com/prozhuchen/2016CCF-sougou

https://github.com/coderSkyChen/2016CCF_BDCI_Sougou

14、2016 ccf-聯通的用戶軌跡

RankX: https://github.com/xuguanggen/2016CCF-unicom

15、2016 ccf-Human or Robots

Rank6: https://github.com/pickou/ccf_human_or_robot

16、菜鳥-需求預測與分倉規劃

Rank6: https://github.com/wepe/CaiNiao-DemandForecast-StoragePlaning

Rank10: https://github.com/xing89qs/TianChi_CaiNiao_Season2

自然語言處理類(NLP)

1、2018 DC達觀-文本智能處理挑戰

Rank1:https://github.com/ShawnyXiao/2018-DC-DataGrand-TextIntelProcess

Rank4: https://github.com/hecongqing/2018-daguan-competition

Rank10: https://github.com/moneyDboat/data_grand

Rank18: https://github.com/nlpjoe/daguan-classify-2018

Rank X: https://github.com/yanqiangmiffy/daguan

2、智能客服問題相似度算法設計——第三屆魔鏡杯大賽

Rank6:https://github.com/qrfaction/paipaidai

Rank16:https://github.com/guoday/PaiPaiDai2018_rank16

Rank29: https://github.com/wangjiaxin24/daguan_NLP

3、2018 JD Dialog Challenge 任務導向型對話系統挑戰賽

Rank3: https://github.com/zengbin93/jddc_solution_4th

4、2018CIKM AnalytiCup – 阿里小蜜機器人跨語言短文本匹配算法競賽

Rank2: https://github.com/zake7749/Closer

Rank12:https://github.com/Leputa/CIKM-AnalytiCup-2018

Rank18: https://github.com/VincentChen525/Tianchi/tree/master/CIKM%20AnalytiCup%202018

計算機視覺類(CV)

Kaggle-TGS

Rank56 :https://github.com/Gary-Deeplearning/TGS-Salt

一些經驗分享

介紹featexp 一個幫助理解特徵的工具包

http://www.sohu.com/a/273552971_129720

Ask Me Anything session with a Kaggle Grandmasterby Vladimir I. IglovikovPDF下載:https://pan.baidu.com/s/1XkFwko_YrI5TfjjIai7ONQ

一些大佬的Github

PS:希望大家star,fork一下

特別感謝金老師對整理比賽開源已做出的貢獻,特別是在2016年的ccf大賽中。

分享團隊聯繫方式:

資源連結:

https://github.com/Smilexuhc/Data-Competition-TopSolution

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號:aiera2015_3入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • TOP 10 開源的推薦系統簡介
    最 近這兩年推薦系統特別火,本文搜集整理了一些比較好的開源推薦系統,即有輕量級的適用於做研究的SVDFeature、LibMF、
  • GitLab開源數據分析解決方案Meltano
    不少中小型企業因為缺乏工程師,而無法進行數據分析的工作,而Meltano功能涵蓋整個數據科學的生命周期,最終目的是讓企業內每個人都可以輕易上手,著手進行數據分析。  程式碼託管服務GitLab釋出數據科學團隊的解決方案Meltano,可用於處理數據的提取、載入和轉換等工作。
  • 阿里雲推出深度學習開源利器Arena,使數據科學家不再犯難!
    為什麼創建Arena  如今,KubeFlow是Kubernetes社區中最流行的深度學習解決方案,那麼Arena是不是又重新造了輪子?KubeFlow是一種基於Kubernetes的可組合,便攜,可擴展的機器學習技術堆棧。它是一個端到端的解決方案,支持實現從Jupyter Hub模型開發,TFJob模型訓練到TF-serving,以及Seldon預測。
  • 富士施樂ESG解決方案與數據管理
    富士施樂作為可持續發展領域的積極推手,2016年即在港澳地區推出了ESG數位化信息管理軟體,幫助客戶解決ESG報告中的數據整合、數據轉換、數據完整性等挑戰,實現可持續的經營管理。富士施樂ESG解決方案與數據管理ESG數據系統化管理的意義        很多企業把ESG信息披露當作是完成任務,誤解了ESG信披背後的目的和意義其實在於強化企業內部對環境
  • HiKey亮相全球開源盛會,樂美客助力華為擁抱開源
    >日前,全球最大的開源盛會(OSCON) 在美國德克薩斯州Austin 隆重召開。來自全球200多個國家和地區的開源愛好者、專家和企業匯聚一堂,共享這一年度開源盛事,探討在開源以及雲、數據和移動技術創新的趨勢及展望。華為和樂美客科技在此次OSCON大會現場展示了全球第一款符合Linaro 96boards CE標準的開源硬體產品HiKey(LeMaker version)。
  • 2008』中國開源軟體競賽活動啟動儀式新聞通稿
    7月2日,「2008』中國開源軟體競賽活動暨開源軟體創新與企業應用大賽」在北京正式拉開帷幕。本次競賽活動是在國家科技部和原國家信息產業部歷年支持下舉辦的每兩年一屆的第三屆大賽,是我國開源運動最新、最好成果的聚萃盛會,代表著專業典範、社區典範和園區企業交融的最高境界。
  • 《工業大數據創新競賽白皮書(2018-2019)》發布
    8月30日,2020工業網際網路大會「工業網際網路新生代」活動上,中國信息通信研究院副院長、工業網際網路產業聯盟秘書長餘曉暉發布了《工業大數據創新競賽白皮書(2018-2019)》。
  • 開源中國 2018 新增開源軟體最受歡迎 TOP 50
    項目主頁:https://github.com/GoogleContainerTools/jib開源協議:Apache-2.0開發語言:Java所屬公司:GoogleSketch2Code 是微軟開源的將手繪草圖秒變代碼的項目。基於 Web 的解決方案,Sketch2Code 使用 AI 將手繪的用戶界面草圖轉換為可用的 HTML 代碼。
  • 卡巴斯基網絡安全解決方案增強數據保護和管理
    增強數據保護能力根據2016年IT安全風險調查,企業最關注的安全問題是數據保護。卡巴斯基實驗室的端點解決方案能夠有效解決這一問題。機器算法通過從卡巴斯基安全網絡獲取到的大數據進行訓練,從而檢測出威脅。基於雲的全球威脅情報平臺——卡巴斯基安全網絡會處理上千萬卡巴斯基實驗室產品用戶自願提交的元數據,而安全專家則在不斷改進數學模型,從而檢測最新的複雜威脅。
  • 2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習
    隨著 ULMFiT、BERT 等項目在 GitHub 上進行開源,自然語言處理(NLP)迅速成為社區中談論最多的領域。我致力於將自己最大的努力貢獻給這麼棒的 GitHub 社區,在這一年中,我精心挑選了每位數據科學家都應該了解的 TOP 5 開源項目,並整理成了月度榜單系列。
  • ​全球首個機器人抓取雲競賽落幕,華科奪冠,中國團隊包攬前三
    目前主流服務機器人的全自動行駛功能解決的是移動問題,只有配置了機械臂,才能執行更複雜、更貼近人類需求的任務。其中的一個典型應用場景就是機房運維:阿里巴巴達摩院人工智慧實驗室與阿里雲基礎設施部門聯合開發了全球首個可以在數據中心自動化運維的智慧機器人「天巡」。它的技能是「更換硬碟」:在五分鐘內完成故障硬碟的更換,並且全天候 24 小時執行機房自動巡檢和故障硬碟更換工作。
  • 2020語言與智能技術競賽啟動,百度提供最大規模中文數據集
    3月10日,2020語言與智能技術競賽正式啟動,面向全球開發者開啟報名通道。本屆競賽由中國中文信息學會(CIPS)和中國計算機學會(CCF)聯合主辦,百度公司、中國中文信息學會評測工作委員會和中國計算機學會中文信息技術專委會聯合承辦,並將在第五屆「語言與智能高峰論壇」舉辦技術交流和頒獎,獲勝團隊將分享總額35萬人民幣的獎金。
  • 【資料】TDW:騰訊開源的分布式數據倉庫
    騰訊分布式數據倉庫(Tencent distributed Data Warehouse,簡稱 TDW),是騰訊工程技術事業群數據平臺部基於開源軟體研發的大數據處理平臺,它基於Hadoop、Hive、PostgreSQL之上進行研發,並在開源軟體的基礎上做了大量的定製和優化。
  • 2018 年度新增開源軟體排行榜之國產 TOP 50
    Roses 提供可靠消息最終一致性分布式事務解決方案,提供基於調用鏈的服務治理,提供可靠的服務異常定位方案(Log + Trace)等等,一個分布式框架不僅需要構建高效穩定的底層開發框架,更需要解決分布式帶來的種種挑戰!
  • 最全的開源高可用軟體匯總
    由圖1可以看出,由於服務端通常是要有數據的,而為了保證切換後服務的完整性,顯然數據必須一致,因此高可用架構的伺服器通常要有一個共享存儲(後面介紹沒有共享存儲的方案)。企業應用的高可用設計除了業務軟體必須考慮容錯外,還需要依賴很多外部軟體,比如存儲數據的資料庫等。這些被依賴的軟體也要考慮容錯。對於資料庫來說,其中Oracle RAC就是資料庫高可用的解決方案。
  • 免費開源的集成電路IC設計行業管理系統解決方案
    01行業解決方案介紹開源智造·OdooIC行業解決方案選用世界排名第一的開源ERP Odoo深度行業化定製,在Odoo系統標準的CRM、銷售、倉庫、採購、財務功能基礎上,針對IC行業特點,在銷售環環節,晶片外協加工環節,倉庫及庫存管理環節,預配了行業特色功能。
  • 開源流數據公司原流數據科技StreamNative獲數百萬美元Pre-A輪融資
    8月12日消息,據36氪報導,開源流數據公司 StreamNative (北京原流數據科技發展有限公司)宣布完成數百萬美元 Pre-A 輪融資,本輪融資由源碼資本領投。StreamNative 在創立初期即獲得紅杉中國種子基金天使輪投資,在本次 Pre-A 輪紅杉中國種子基金繼續跟投。
  • 百度阿波羅發布全球最大的無人駕駛汽車數據集
    百度宣布發布了「 Apollo Scape」,據稱是全球最大的自動駕駛技術開源資料庫。該數據集是百度開放式自動駕駛平臺Apollo的一部分。數據集消除了手動收集數據所需的時間。數據集用於機器學習中的回歸和分類任務。
  • 國民技術:面向智能鎖市場提供「全系晶片與開源安全解決方案」!
    系列產品包括高集成度高性能的FR系列MCU晶片(N32G4FRx)、金融級安全的S系列安全晶片(N32S032,Z8IDA)、高性價比的380X系列讀卡晶片、雙核超低功耗的WB系列藍牙SOC晶片(N32WB452x)、智能鎖安全雲平臺以及一系列的開源智能鎖demo方案。
  • ...者輕鬆定製Medation系統,AdTiming全球首推Open Mediation開源...
    與以往廣告SDK開源項目不同,除了Mediation SDK開源外,AdTiming此次還將Mediation Server、Mediation DataCenter以及Mediation Dashboard全部開源在全球範圍內尚屬首次,開發者可以根據自己的變現及買量需求進行定製,真正意義上做到了業務全透明,數據私有化。