撿漏!用谷歌圖片搜索自製深度學習數據集 | 教程

2020-11-28 搜狐網

原標題:撿漏!用谷歌圖片搜索自製深度學習數據集 | 教程

銅靈 編譯整理

就怕前腳剛立志搞個新研究,後腳就發現沒有合適的數據集可用。AI工程師從入門到放棄,可能就是這麼一會的功夫。

別找了,現在深度學習數據集也能自制了。

在這份教程中,來自fast.ai的小哥哥Francisco Ingham就想手把手教你,如何利用谷歌圖片搜索,DIY一份自己的深度學習數據集出來,還不會違反谷歌服務條例。

整裝待發,這樣的好事其實需要六步就夠了。

Let’s Go

第1步:搜索圖像

非常簡單,就像平時在谷歌圖片中查找圖像一樣,輸入關鍵詞,搜索你感興趣的圖像。

谷歌圖像最多顯示700張圖像,所以一頁到底再點擊「顯示更多」,直到加載完畢。

小竅門:輸入的關鍵詞越精準,最後得到的數據集質量也越高。

第2步:下載圖片

在瀏覽器中運行下面這段Java代碼,創建數據集中所有圖像的URL:

然後將這些URL保存到一個文件夾中,以備後用。

第3步:創建目錄將URL傳至伺服器

上一步的成果,現在可以拿來用了。不過先得創建一個項目目錄。作者將其命名為mkdir MyProject,不過「MyProject」可以替換成你喜歡的項目名字。

按下「Upload」鍵,將上傳URL地址一鍵上傳到這個目錄中。

第4步:下載圖像

上傳到上面目錄後,就能把它們從各自的URL下載下來,得到了初版數據集。

也不麻煩,,每個目錄中都需要運行一次下面這段代碼:

download_images(path/file,dest,max_pics=200)

只需要指定URL文件名和目標文件,就能自動下載保存,在本地就能打開圖像了。

Tips:要下載圖像的數量可以自己選擇。

第5步:篩選圖像

查看新鮮出爐的圖像,可能會發現一些不需要的圖像,此時就需要你手動去篩選和刪除它們了。

如果一開始在谷歌搜索中的關鍵詞沒有設置好,那這一步可能得多費點時間嘍。

第6步:準備訓練目錄

和數據集的眾多兄弟姐妹一樣,在開始使用它前,最好還是把裡面的圖片分成訓練、驗證和測試集。

過完這道坎,你就擁有了一個DIY的深度學習數據集了,此時有沒有感覺贊贊的?

傳送門

GitHub項目地址:

https://github.com/lesscomfortable/google-image-dataset

此外,Francisco Ingham還將教程搬到了fast.ai的課程倉庫中,是用Jupyter Notebooks寫成的。不過剛量子位看時還沒有搬完。如果原地址找不到了,不妨來這裡看看:

https://github.com/fastai/course-v3/blob/master/nbs/dl1/download_images.ipynb

條條大路通教程,祝你學有所得~

返回搜狐,查看更多

責任編輯:

相關焦點

  • 谷歌推出數據集搜尋引擎,可支持中文搜索
    谷歌數據集搜索地址:https://toolbox.google.com/datasetsearch圖丨谷歌數據集搜索(圖源:DT 君)此前,谷歌在今年 7 月推出的數據集標記架構,能夠提取用戶搜索結果中的數據,讓用戶更直觀的看到經過可視化處理的結果
  • 深度學習變革視覺實例搜索
    該文章關注實例搜索的一個具體應用——位置識別。在位置識別問題中,給定一張查詢圖片,通過查詢一個大規模的位置標記數據集,然後使用那些相似的圖片的位置去估計查詢圖片的位置。作者首先使用Google Street View Time Machine建立了大規模的位置標記數據集,隨後提出了一種卷積神經網絡架構,NetVLAD——將VLAD方法嵌入到CNN網絡中,並實現「end-to-end」的學習。
  • 谷歌地圖重大升級 用深度學習實時更新街景
    每天,谷歌地圖都為成千上百萬的人們提供方位指示,實時路況信息以及商業信息。為了提供最佳的用戶體驗,地圖信息需要不斷的根據現實世界的變化做出調整。街景車每天收集數百萬張圖片,如果用人工分析每天超過800億張高清晰圖片來找出其中的新變化或者更新地圖信息,顯然是不可能的。
  • 谷歌大腦負責人Jeff Dean:深度學習技術及趨勢報告 | 網際網路數據...
    初期重點是:儘可能拓展計算機的感知和語言理解能力隨著時間推移,深度學習在谷歌得到越來越廣泛的應用神經網絡特點(略)深度學習在谷歌的應用語音識別(略)計算可以用一張數據流圖表示我們輸入數據、權重、誤差以及標籤,在不同節點進行不同的運算。
  • 深度學習遇上稀缺數據就無計可施?這裡有幾個好辦法!
    本文作者 Tyler Folkman 針對這一問題,為大家介紹了幾個在有限的數據上使用深度學習的方法,讓深度學習即便在面臨數據稀缺時,也能大展身手。唯一的問題是你既不在谷歌工作,也不在臉書工作,你的數據是稀缺的,那麼你該怎麼辦?你是能繼續使用是深度學習的能力,還是已無計可施?下面就讓我介紹幾個在有限的數據上使用深度學習的方法,以及闡述為什麼我認為這可能是未來研究中最令人興奮的領域之一。
  • 谷歌要構建10 億+ 級別的超大數據集,這樣能取代機器學習算法嗎?
    谷歌研究人員表示,構建超大規模的數據集應當成為未來研究的重點,他們的目標是朝 10 億+ 級別的數據進發。今年 3 月,谷歌大腦負責人 Jeff Dean 在 UCSB 做了一場題為《通過大規模深度學習構建智能系統》的演講。
  • 谷歌圖片搜索可顯示上下文信息
    當你下一次使用谷歌搜索並點擊圖片時,可能會看到一些與圖片內容相關的有用信息了。谷歌現在正在將其知識圖譜(Knowledge Graph)與網上找到的圖片進行更深入的整合。比如說你正在翻閱著名建築的照片,就像上面的 GIF 一樣,你會看到一個新的界面元素,突出顯示與當前圖片相關的人、地方或事物。然後你可以點擊這些來了解更多關於它們的信息,和往常一樣,你還會看到相關搜索提示。
  • 谷歌《Cell》論文:光學顯微鏡+深度學習=螢光顯微鏡
    螢光顯微技術中會用螢光分子染色需要觀察的目標(比如細胞核),這種做法能簡化分析過程,但其仍需要複雜的樣品製備。隨著包括圖像質量自動評估算法和協助病理醫師診斷癌組織在內的機器學習技術在顯微鏡領域的應用越來越廣泛,谷歌因此考慮是否可以結合透射光顯微鏡和螢光顯微鏡這兩種顯微鏡技術來開發一種深度學習系統,從而最大限度降低兩者的不足之處。
  • 深度學習與圖像識別 圖像檢測
    特別適合處理大數據       a、用較為複雜的模型降低模型偏差       b、用大數據提升統計估計的準確度       c、用可擴展的梯度下降算法求解大規模優化問題這個大數據是除了數量上的大,還有更重要的是維度的大,很多算法本身是無法處理高緯度數據的,例如Kernel學習機相關的算法, 雖然理論上是先將數據向高維空間映射
  • 用概念激活向量 (CAVs) 理解深度網絡
    這是數據科學家在每一個深度學習場景中都需要回答的問題。許多深度學習技術在本質上是複雜的,儘管它們在許多場景中都非常精確,但它們可能變得難以解釋。全局量化:可以用單個量化度量解釋整個類別或示例集,而不只是解釋單個數據輸入。 為了實現上述目標,TCAV方法定義為三個基本步驟:1) 定義模型的相關概念。2) 理解這些概念對預測的敏感性。3) 對各概念相對於每個模型所需要預測的類別的相對重要性進行整體定量解釋。TCAV方法的第一步是確定感興趣的概念(CAV)。
  • 「人工智慧」深度學習代碼教程:簡單線性回歸擬合,送源碼!
    每天更新教程,記得關注《編程高手傑瑞》哦!人工智慧——深度學習要說當前熱度最高的領域,非人工智慧領域莫屬。人工智慧的意義是:為機器賦予人的智能,而機器學習是實現「為機器賦予人的智能」的一種方法,深度學習則是一種實現機器學習的技術,準確來說,深度學習並不等於人工智慧,它只是人工智慧的一個子集而已。目前用來實現深度學習的框架有谷歌的TensorFlow、Facebook的Torch、Keras、Mxnet,除此之外還有百度最近開源的PddlePaddle Fluid框架等。
  • 超全深度學習細粒度圖像分析:項目、綜述、教程一網打盡
    由於深度學習的蓬勃發展,近年來應用了深度學習的 FGIA 取得了顯著的進步。本文系統地對基於深度學習的 FGIA 技術進行了綜述。具體來說,本文將針對 FGIA 技術的研究分為三大類:細粒度圖像識別、細粒度圖像檢索和細粒度圖像生成。本文還討論了其他 FGIA 的重要問題,比如公開可用的基準數據集及其在相關領域的特定應用。本文在結尾處強調了未來仍需進一步探討的幾個方向以及待解決的問題。
  • 為什麼說「無監督學習」才是深度學習的未來?
    我們已經在之前的一篇文章中探討了神經網絡和深度學習技術,現在是時候討論深度學習的另一個主要組成部分了:數據,即圖像,視頻,電子郵件,駕駛模式,短語,物體等等。   令人驚訝的是,儘管我們的世界幾乎被數據所淹沒,但很大一部分是未經標註未被整理過的,這意味著這些數據對於大多數目前的監督式學習來說是不可用的。
  • 谷歌推出相似圖片搜索工具
    首頁 > 傳媒 > 關鍵詞 > 谷歌最新資訊 > 正文 谷歌推出相似圖片搜索工具
  • 從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀
    但是該模型如果沒有谷歌的大型數據集,則很難復現這麼優秀的結果。 研究者在訓練過程中收集人類談判的數據集,訓練監督式循環網絡。然後,讓用強化學習訓練出的智能體自己與自己交流,直到獲得與人類相似的談判模式。 該機器人學會了一種真正的談判策略——對某個交易的特定方面假裝產生興趣,然後再放棄它們,以達到真實目標。
  • 谷歌圖片搜索加入「剪貼畫」和「線圖」兩種風格
    感謝谷歌瀏覽器中文論壇的投遞新聞來源:原創很 多時候我們使用谷歌的圖片搜索時,搜索的結果總是不能讓我們太滿意,比如說我想找某Google高管的臉蛋
  • 學習了!谷歌今日上線基於TensorFlow的機器學習速成課程
    例如 Python 的列表、字典和元組三大數據結構,還有循環和條件等基本表達式。而需要了解的第三方庫也是科學計算方面代表,如 NumPy、Pandas 和 Matplotlib 等。以下是 2017 年機器之心發過的教程,它基本上可以為讀者提供足夠的學習資料。靈魂追問 | 教程那麼多,你……看完了嗎?
  • 在谷歌搜索「Idiot」會出現川普的圖片,谷歌總裁作出回應
    摘要:一般在搜尋引擎進行搜索,只要輸入關鍵詞,就會出現相關聯的圖片、信息等。但美國的谷歌只要輸入「Idiot(白痴)」就會出現川普的圖片,為此,美國的國會要求谷歌CEO好好解釋一下。|搜索「白痴」出現川普?
  • OpenCV+深度學習預訓練模型,簡單搞定圖像識別 | 教程
    pyimagesearch網站今天發布了一份用OpenCV+深度學習預訓練模型做圖像識別的教程,量子位編譯整理如下:最近,OpenCV 3.3剛剛正式發布,對深度學習(dnn模塊)提供了更好的支持,dnn模塊目前支持Caffe、TensorFlow、Torch、PyTorch等深度學習框架。
  • 揭開谷歌 AutoML 的神秘面紗
    遷移學習是一種強大的機器學習技術,通過利用已經在類似的大型數據集上訓練過的預訓練模型,可以讓人們使用較小數據集或較低的計算能力獲得最先進的結果。因為通過遷移學習方式學習的模型不需要從頭學習,所以與不使用遷移學習的模型相比,它通常可以以更少的數據和計算時間達到更高的準確度。