原標題:撿漏!用谷歌圖片搜索自製深度學習數據集 | 教程
銅靈 編譯整理
就怕前腳剛立志搞個新研究,後腳就發現沒有合適的數據集可用。AI工程師從入門到放棄,可能就是這麼一會的功夫。
別找了,現在深度學習數據集也能自制了。
在這份教程中,來自fast.ai的小哥哥Francisco Ingham就想手把手教你,如何利用谷歌圖片搜索,DIY一份自己的深度學習數據集出來,還不會違反谷歌服務條例。
整裝待發,這樣的好事其實需要六步就夠了。
Let’s Go
第1步:搜索圖像
非常簡單,就像平時在谷歌圖片中查找圖像一樣,輸入關鍵詞,搜索你感興趣的圖像。
谷歌圖像最多顯示700張圖像,所以一頁到底再點擊「顯示更多」,直到加載完畢。
小竅門:輸入的關鍵詞越精準,最後得到的數據集質量也越高。
第2步:下載圖片
在瀏覽器中運行下面這段Java代碼,創建數據集中所有圖像的URL:
然後將這些URL保存到一個文件夾中,以備後用。
第3步:創建目錄將URL傳至伺服器
上一步的成果,現在可以拿來用了。不過先得創建一個項目目錄。作者將其命名為mkdir MyProject,不過「MyProject」可以替換成你喜歡的項目名字。
按下「Upload」鍵,將上傳URL地址一鍵上傳到這個目錄中。
第4步:下載圖像
上傳到上面目錄後,就能把它們從各自的URL下載下來,得到了初版數據集。
也不麻煩,,每個目錄中都需要運行一次下面這段代碼:
download_images(path/file,dest,max_pics=200)
只需要指定URL文件名和目標文件,就能自動下載保存,在本地就能打開圖像了。
Tips:要下載圖像的數量可以自己選擇。
第5步:篩選圖像
查看新鮮出爐的圖像,可能會發現一些不需要的圖像,此時就需要你手動去篩選和刪除它們了。
如果一開始在谷歌搜索中的關鍵詞沒有設置好,那這一步可能得多費點時間嘍。
第6步:準備訓練目錄
和數據集的眾多兄弟姐妹一樣,在開始使用它前,最好還是把裡面的圖片分成訓練、驗證和測試集。
過完這道坎,你就擁有了一個DIY的深度學習數據集了,此時有沒有感覺贊贊的?
傳送門
GitHub項目地址:
https://github.com/lesscomfortable/google-image-dataset
此外,Francisco Ingham還將教程搬到了fast.ai的課程倉庫中,是用Jupyter Notebooks寫成的。不過剛量子位看時還沒有搬完。如果原地址找不到了,不妨來這裡看看:
https://github.com/fastai/course-v3/blob/master/nbs/dl1/download_images.ipynb
條條大路通教程,祝你學有所得~
— 完—返回搜狐,查看更多
責任編輯: