GitHub:數據增廣最全資料集錦

2021-02-25 機器學習算法與自然語言處理

轉載自公眾號:表哥有話講

作者:AgaMiko  |  編輯:Amusi

前言

CVer 陸續分享了GitHub上優質的AI/CV資料集錦,如圖像分類、目標檢測等,之前的分享詳見文末。很多同學反映這個系列很棒,因此系列將繼續更新。

本文將分享的內容是:數據增廣(Data Augmentation)。該方向的研究一直都很熱門,特別是現在仍十分依賴於數據,而且數據增廣對各個應用方向的漲點都是簡單粗暴的!

數據擴充可以簡單地描述為使我們的數據集更大的任何方法。例如,要創建更多圖像,我們可以放大並保存結果,我們可以更改圖像的亮度或旋轉它。為了獲得更大的聲音數據集,我們可以嘗試提高或降低音頻樣本的音調或放慢/加快速度。下圖提供了示例數據增強技術。

Amusi 在本文要分享的就是目前最全,最新的數據增廣開源項目、論文等合集。主要涉及圖像、音頻、自然語言處理和時序的數據增廣。

數據增廣

項目作者:AgaMiko

https://github.com/AgaMiko/data-augmentation-review

目錄

Images

Adversarial noise

Neural Style Transfer

Generative Adversarial Networks

Random erasing

Adding rain effects, sun flare...

Image blending

Contrast shift

Brightness shift

Blurring

Channel shuffle

Rotation

Scaling

Random cropping

Reflection

Affine transformations

Elastic transformations

Advanced transformations

Neural-based transformations

AudioNatural Language ProcessingTime Series Data Augmentation

Embedding space

GAN/Adversarial

RL/Meta-Learning

Warping

Jittering

Perturbing

Basic approaches

Advanced approches

計算機視覺(CV)數據增廣的開源項目

1. albumentations:一個Python庫,其中包含一組有用的,大型的和多樣化的數據增廣方法。它提供了30多種不同類型的增廣功能,易於使用。而且,正如作者證明的那樣,在大多數轉換中,該庫比其他庫要快。

https://github.com/albu/albumentations

2. imgaug:另一個非常有用且廣泛使用的Python庫。如作者所述:它可以幫助您為機器學習項目擴充圖像。它將一組輸入圖像轉換為一組稍有變化的新的,更大的圖像。它提供了許多增廣技術,例如仿射變換,透視圖變換,對比度變化,高斯噪聲,區域丟失,色相/飽和度變化,裁剪/填充,模糊。

https://github.com/aleju/imgaug

UDA:用於圖像文件的簡單數據增廣工具,旨在與機器學習數據集一起使用。該工具將掃描包含圖像文件的目錄,並通過對找到的每個文件執行一組指定的擴充操作來生成新圖像。此過程使開發神經網絡時可以使用的訓練示例數量成倍增加,並且應顯著提高所得網絡的性能,尤其是當訓練示例數量相對較少時。

https://github.com/google-research/uda

Data augmentation for object detection:該項目介紹了如何將數據增廣方法用於目標檢測任務。它們支持許多數據增廣,例如水平翻轉,縮放,平移,旋轉,剪切,調整大小。

https://github.com/Paperspace/DataAugmentationForObjectDetection

FMix - Understanding and Enhancing Mixed Sample Data Augmentation 

https://github.com/ecs-vlc/FMix

Super-AND

https://github.com/super-AND/super-AND

vidaug:這個Python庫可幫助您為深度學習架構擴充視頻。它將輸入的視頻轉換為一組稍有變化的新視頻。

https://github.com/okankop/vidaug

Image augmentor

https://github.com/codebox/image_augmentor

torchsample:該Python軟體包為Pytorch提供了高級訓練,數據增廣和實用程序。該工具箱提供了數據擴充方法,正則化器和其他實用功能。

https://github.com/ncullen93/torchsample

Compose()

AddChannel()

SwapDims()

RangeNormalize()

StdNormalize()

Slice2D()

RandomCrop()

SpecialCrop()

Pad()

RandomFlip()

Random erasing

https://github.com/zhunzhong07/Random-Erasing

data augmentation in C++:簡單的圖像增廣程序可通過旋轉,滑動,模糊和噪點轉換輸入圖像,以創建圖像識別的訓練數據。

https://github.com/takmin/DataAugmentation


Data augmentation with GANshttps://github.com/AntreasAntoniou/DAGANJoint Discriminative and Generative Learning

https://github.com/NVlabs/DG-Net

White-Balance Emulator for Color Augmentation 

https://github.com/mahmoudnafifi/WB_color_augmenter

DocCreator 

https://github.com/DocCreator/DocCreator

OnlineAugment 

https://github.com/zhiqiangdon/online-augment

自然語言處理(NLP)數據增廣的開源項目

Contextual data augmentation:上下文擴充是用於文本分類任務的獨立於域的數據擴充。通過用標籤條件的雙向語言模型預測的其他單詞替換單詞,可以增廣監督數據集中的文本。

https://github.com/pfnet-research/contextual_augmentation

nlpaug

https://github.com/makcedward/nlpaug

EDA NLP

https://github.com/jasonwei20/eda_nlp

侃侃

因為本數據增廣項目涵蓋的內容較多,這裡不再一一介紹,比如還有CV、NLP的數據增廣論文合集,語音、時序方向的項目和論文可以詳見此項目。相信對你的項目會有所幫助或者有所啟發。

下載1:四件套

在機器學習算法與自然語言處理公眾號後臺回復「四件套」

即可獲取學習TensorFlow,Pytorch,機器學習,深度學習四件套!


下載2:倉庫地址共享

在機器學習算法與自然語言處理公眾號後臺回復「代碼」

即可獲取195篇NAACL+295篇ACL2019有代碼開源的論文。開源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code

重磅!機器學習算法與自然語言處理交流群已正式成立

群內有大量資源,歡迎大家進群學習!

額外贈送福利資源!深度學習與神經網絡,pytorch官方中文教程,利用Python進行數據分析,機器學習學習筆記,pandas官方文檔中文版,effective java(中文版)等20項福利資源

獲取方式:進入群後點開群公告即可領取下載連結

注意:請大家添加時修改備註為 [學校/公司 + 姓名 + 方向]

例如 —— 哈工大+張三+對話系統。

號主,微商請自覺繞道。謝謝!

推薦閱讀:

工業界求解NER問題的12條黃金法則

三步搞定機器學習核心:矩陣求導

神經網絡中的蒸餾技術,從Softmax開始說起

相關焦點

  • GitHub:人群計數最全資料集錦
    作者:gjy3035  |  編輯:Amusi前言CVer 陸續分享了GitHub上優質的AI/CV資料集錦本文將分享的內容是:人群計數(Crowd Counting)最新資料合集。該庫可以在多種主流數據集上測試,提供很棒的baselines。https://github.com/gjy3035/C-3-Framework
  • GitHub:超解析度最全資料集錦
    前言CVer 陸續分享了GitHub上優質的AI/CV資料集錦本文將分享的內容是:超解析度(Super Resolution,SR)最全資料合集,涵蓋了SISR、VSR等。數據集系統性整理了非常多的數據集,並都提供了下載連結,整理的很用心。比如Set14、BSD100和Urban100等。
  • GitHub:語義分割最全資料集錦
    作者:mrgloom  |  編輯:Amusi前言CVer 陸續分享了GitHub上優質的AI/CV資料集錦https://github.com/open-mmlab/mmsegmentationhttps://github.com/zhanghang1989/PyTorch-Encodinghttps://github.com/speedinghzl/pytorch-segmentation-toolbox
  • 乾貨分享|梳理那些基於深度學習的數據增廣技術
    計算機視覺領域常用的數據增廣方法有很多,而隨著AI時代新興,在圖像分類任務中,數據增廣作為一種常用的正則化方法,同時已成為提升模型性能所必不可少的步驟。我們將先簡單分類常用且反響不錯的數據增廣方法,再根據類別分享各技術細節,注意不要錯過最後的數據增廣庫推薦。數據增廣方法分類標準數據增廣:泛指深度學習前期或更早期的一些常用數據增廣方法。
  • 【數據增廣】數據增廣之詳細理解
    ,主要用於增加訓練數據集,讓數據集儘可能的多樣化,使得訓練的模型具有更強的泛化能力.現有的各大深度學習框架都已經自帶了數據增廣,但是平時在用的使用只是直接調用了對應的接口函數,而沒有進行詳細的分析.在實際應用中,並非所有的增廣方式都適用當前的訓練數據,你需要根據自己的數據集特徵來確定應該使用哪幾種數據增廣方式.這篇文章的目的是為了更好地理解各種增廣方式及其背後的真正原理.
  • Python & 機器學習項目集錦 | GitHub Top 45
    作者:Donne Martin;[github-11811星]連結:https://github.com/donnemartin/interactive-coding-challenges② Python中算法和數據結構的最小樣本
  • 最全個人學習網絡安全錦集(紅隊和藍隊資料集錦)
    .html 新手指南:DVWA-1.9 全級別教程https://github.com/78778443/permeate php,常見漏洞靶場https://github.com/gh0stkey/DoraBox php,常見漏洞靶場https://github.com/stamparm/DSVW py2,常見漏洞靶場https://github.com
  • 深度學習全網最全學習資料匯總之入門篇
    作為人工智慧領域一個重要的研究分支,深度學習技術幾乎出現在當下所有熱門的AI應用領域,包括語音識別,語義理解,圖像識別,大數據分析等等,甚至有人把當前的人工智慧等同於深度學習。該課程非常適合初學者,以最簡單易懂的圖示和文字闡述了深度學習的基本原理、深度學習模型的各種訓練小技巧、遞歸神經網絡和一些常見的深度學習應用。目前已經有網友針對李教授的PPT進行了視頻講解,視頻連結也貼在下面。最後一個連結是李教授整個學期課程的資料,除了深度學習之外,還包括了線性代數的相關內容。
  • GitHub Star 破萬!Github 首選數據科學入門指南
    來源:開源最前線(ID:OpenSourceTop) 最近,在 Github 上發現了一份數據科學的
  • Github標星超7k!從零開始,最簡明扼要的數據科學學習路徑(附高效免費小工具)
    一周前,這份github資料被名為@jiaxianhua 的同胞翻譯出了簡體中文版,讓不想費力讀英文的同學也可以輕鬆上手啦。當然,先附上網址👇github地址:http://t.cn/EJaGK3EFacebook 群組http://t.cn/EJaGK3u下面根據這份資料給大家捋一捋如何高效入門數據科學。
  • 秋招最關鍵,分享整理的面試攻略,還有20G資料大全
    地址 https://github.com/frank-lam/fullstack-tutorial第二份資料:技術面試必備基礎知識、Leetcode地址 :https://github.com/CyC2018/CS-Notes第三份資料:C/C++ 技術面試基礎知識總結,包括語言、程序庫、數據結構
  • Github標星超7k!從零開始,最簡明扼要的數據科學學習路徑
    5天前,這份github資料被名為@jiaxianhua 的同胞翻譯出了簡體中文版,讓不想費力讀英文的同學也可以輕鬆上手啦。下面文摘菌根據這份資料給大家捋一捋如何高效入門數據科學。在這份github項目裡,這位外國小哥給出了基礎Python教程以及數據科學 Python 教程。其他的部分,包括高級Python、高等數學以及數學科學裡的數學知識,目前都還是「即將推出」的狀態。先學Python然後入門數據科學,這絕對是最高效的學習路徑。
  • GitHub 最受歡迎的 NLP 相關項目 | 資源推薦
    NLP-progresshttps://github.com/sebastianruder/NLP-progress跟蹤 NLP 最新進展。整理常見 NLP 任務的 SOTA 模型,及對應數據集。主要目的是讓讀者快速了解,他們感興趣任務的基準數據集和 SOTA 模型,為進一步研究奠定基礎。AILearninghttps://github.com/apachecn/AiLearning中文資料包含機器學習、深度學習、自然語言處理的學習路線圖、視頻、電子書、學習建議等。
  • 最全的中文語言處理數據集、平臺和工具!
    本文內容整理自:https://github.com/InsaneLife/ChineseNLPCorpus文本分類    新聞分類    今日頭條中文新聞(短文本)分類數據集 :https://github.com
  • Github最值一讀開源好書及BAT面試題庫
    (Github開源地址:https://github.com/chrislgarry/Apollo-11/blob/master/README.zh_cn.md)7、《How to Make a Computer Operating System》英文版學習資料《如何做一個作業系統》,這個存儲庫是一些舊課程的翻版。
  • 8月份GitHub上最熱門的Java項目
    https://github.com/crossoverJie/JCSprout Star 11958這是一個還處於萌芽階段的 Java 核心知識庫。https://github.com/spring-projects/spring-boot Star 28380從最根本上來講,Spring Boot 就是一些庫的集合,它能夠被任意項目的構建系統所使用。簡便起見,該框架也提供了命令行界面,它可以用來運行和測試Boot應用。框架的發布版本,包括集成的CLI(命令行界面),可以在Spring倉庫中手動下載和安裝。
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(二)(論文/教程/代碼/書籍/數據/課程等)
    【導讀】轉載來自ty4z2008(GItHub)整理的機器學習&深度學習知識資料大全薈萃,包含各種論文、代碼、視頻、書籍、文章、數據等等。是學習機器學習和深度學習的必備品!  介紹:Caffe模型/代碼:面向圖像語義分割的全卷積網絡,模型代碼.
  • 最全中文自然語言處理數據集、平臺和工具整理
    本文內容整理自:https://github.com/InsaneLife/ChineseNLPCorpus文本分類    新聞分類    今日頭條中文新聞(短文本)分類數據集 :https://github.com/fateleak/
  • NIPS 2017 深度學習論文集錦 (2)
    本文是NIPS 2017 深度學習論文集錦第二篇,第一篇是NIPS 2017 深度學習論文集錦 (1)本文是對上文的續