谷歌開源 TFRecorder,幾行代碼即可高效創建數據集

2021-01-11 開源中國

在訓練計算機視覺機器學習模型時,數據加載常常會成為性能瓶頸,導致在等待將數據加載到模型中時 GPU 或 TPU 資源的利用率不足。以 TFRecord 格式存儲數據集是一個行之有效的方法,然而,創建 TFRecord 通常需要大量的複雜代碼。

於是,谷歌近期開源了 TensorFlow Recorder(即 TFRecorder)項目,旨在簡化 TFRecord 的創建流程。TFRecord是一種二進位文件格式,處理數據相對高效,但要將其他數據轉為 TFRecord 較為麻煩,通常需要編寫一個數據管道來解析結構化數據,從存儲中加載圖像,然後再將結果序列化為 TFRecord 格式。

而此次開源的 TFRecorder 能夠直接從 Pandas dataframe 或 CSV 等格式寫入 TFRecords,無需再編寫複雜的代碼。

使用 TFRecorder 創建 TFRecord 只需要幾行代碼,運行方式如下:

TFRecorder 期望寫入的數據與 Google AutoML Vision 的格式相同,也就是類似 pandas dataframe 或 CSV 的格式,例如:

目前,TFRecorder 支持的數據格式還很有限,將來會進一步擴展,以支持使用任何格式的數據。

對於更龐大的數據集,TFRecorder 還提供了與 Google Cloud Dataflow 的連接性,擴展到 DataFlow 僅需要多幾行代碼配置。

相關焦點

  • 幾行代碼即可高效創建數據集,谷歌開源 TFRecorder
    以 TFRecord 格式存儲數據集是一個行之有效的方法,然而,創建 TFRecord 通常需要大量的複雜代碼。於是,谷歌近期開源了 TensorFlow Recorder(即 TFRecorder)項目,旨在簡化 TFRecord 的創建流程。
  • 谷歌發布tf.Transform微軟劍橋推出DeepCoder|AI研習社周刊
    首先是谷歌發布了全新的 tf.Transform 組件,大大簡化了機器學習中的數據預處理問題;同時,從去年秋天開始傳聞的GPU雲端加速服務也終於在谷歌雲平臺實現了;另外,微軟公司聯合劍橋大學在最近發布的論文中闡述了一個機器學習系統DeepCoder,擁有了基礎編程能力,為不會編程的人提供了製作簡易程序的可能。最後,我們推薦幾個本周內雷鋒網出品的「高能」開發者資源合集,祝各位周末愉快。
  • 幾行代碼搞定ML模型,低代碼機器學習Python庫正式開源
    想提高機器學習實驗的效率,把更多精力放在解決業務問題而不是寫代碼上?低代碼平臺或許是個不錯的選擇。最近,機器之心發現了一個開源低代碼機器學習 Python 庫 PyCaret,它支持在「低代碼」環境中訓練和部署有監督以及無監督的機器學習模型。
  • 谷歌發布全新TensorFlow庫「tf.Transform」簡化機器學習數據預...
    在實際的機器學習開發中,開發者通常需要對數據集進行大量的耗時費力的預處理過程,以適應各種不同標準的機器學習模型(例如神經網絡)。這些預處理過程根據待解問題的不同和原始數據的組織形式而各不相同,包括不同格式之間的轉換,分詞、詞幹提取和形成詞彙,以及包括歸一化在內的各種數值操作等等。
  • 谷歌推出了TensorFlow記錄器,同時:你得為「海量數據集「付費
    ,谷歌為該機器學習框架開源了一個新工具,旨在推動記錄格式的發展。為了能夠達到這個目的,必須對原始數據進行轉換,這需要一些工作,並不是每個人都願意投入的。這也是Bernica和Ezequiel希望TensorFlow Recorder能夠發揮作用的地方,為用戶提供一個相對簡單的方法,只需要很少的額外代碼就可以從圖像/標籤集到TFRecords。
  • 輸入示例,自動生成代碼:TensorFlow官方工具TF-Coder已開源
    最近,谷歌 TensorFlow 開源了一個幫助開發者寫 TensorFlow 代碼的程序合成工具 TF-Coder。使用 TF-Coder,你只需提供一個輸入 - 輸出示例(M=3,N=4)即可完成該操作,無需逐行進行編程。
  • 輸入示例,自動生成代碼:TensorFlow工具TF-Coder開源
    最近,谷歌 TensorFlow 開源了一個幫助開發者寫 TensorFlow 代碼的程序合成工具 TF-Coder。使用 TF-Coder,你只需提供一個輸入 - 輸出示例(M=3,N=4)即可完成該操作,無需逐行進行編程。
  • 自動生成代碼:TensorFlow工具TF-Coder開源
    最近,谷歌 TensorFlow 開源了一個幫助開發者寫 TensorFlow 代碼的程序合成工具 TF-Coder。使用 TF-Coder,你只需提供一個輸入 - 輸出示例(M=3,N=4)即可完成該操作,無需逐行進行編程。
  • 谷歌TensorFlow 新模塊推出:幾行代碼,提高 AI 模型隱私性
    北京時間3月7日晚間消息,據美國科技媒體The Verge報導,谷歌今日為其機器學習框架「TensorFlow」發布了最新的模塊,開發者只需添加幾行額外的代碼,就能提高其AI模型的隱私性。
  • 谷歌重磅開源新技術:5行代碼打造無限寬神經網絡模型
    谷歌最新開源的Neural Tangents,旨在解決這個問題,讓研究人員能夠輕鬆建立、訓練無限寬神經網絡。甚至只需要5行代碼,就能夠打造一個無限寬神經網絡模型。這一研究成果已經中了ICLR 2020。戳進文末Colab連結,即可在線試玩。
  • 開放的一天,吳恩達、谷歌、Facebook紛紛開源數據集
    吳恩達幾個小時前開源的「胸片」數據集希望藉助 CV 輔助疾病診斷;Facebook 幾天前開源的「BISON」希望藉助 CV 與 NLP 學習文字與圖像的內在聯繫;而幾個小時前谷歌更是開源了大型「自然問答」數據集,他們希望藉助 NLP 學習人們谷歌問題並搜索答案的過程。
  • 業界| 谷歌發布tfdbg:讓TensorFlow機器學習模型調試更簡單
    選自Google Blog作者:蔡善清參與:李澤南、李亞洲隨著 2 月 16 日谷歌開發者大會上TensorFlow1.0的發布,這一最流行的深度學習框架邁進了新的時代。昨天,谷歌宣布開源 TensorFlow Debugger,一個專用於調試TensorFlow 代碼的新工具,希望以此讓開發者們能夠更輕鬆地構建機器學習項目。
  • 輸入示例,自動生成代碼:TensorFlow官方工具TF-Coder已開源
    最近,谷歌 TensorFlow 開源了一個幫助開發者寫 TensorFlow 代碼的程序合成工具 TF-Coder。使用 TF-Coder,你只需提供一個輸入 - 輸出示例(M=3,N=4)即可完成該操作,無需逐行進行編程。
  • Transformers2.0讓你三行代碼調用語言模型,兼容TF2.0和PyTorch
    例如:run_glue.py:在九種不同 GLUE 任務上微調 BERT、XLNet 和 XLM 的示例(序列分類);run_squad.py:在問答數據集 SQuAD 2.0 上微調 BERT、XLNet 和 XLM 的示例(token 級分類);run_generation.py:使用 GPT、GPT-2、Transformer-XL 和 XLNet 進行條件語言生成;其他可用於模型的示例代碼
  • 谷歌開源 TF-Ranking:專用於排序學習的可擴展 TensorFlow 庫
    雷鋒網 AI 科技評論按:日前,谷歌 AI 發布了最新成果 TF-Ranking,它是一個專門針對排序學習(learning-to-rank)應用的可擴展 TensorFlow 庫。TF-Ranking 快速且易用,並能創建高質量的排序模型,對構建 web 搜索或新聞推薦等基於真實世界數據的排序系統感興趣的人,都可以將 TF-Ranking 作為強穩的、可擴展的解決方案。
  • 1行代碼實現Python數據分析:圖表美觀清晰,自帶對比功能丨開源
    現在,GitHub上一位博主告訴你:不用學,用sweetviz就行。這是一個基於Python編寫的數據分析軟體,只要掌握3種函數用法,一行Python代碼就能實現數據集可視化、分析與比較。我們以Titanic數據集為例,輸入一行代碼:一個1080p的清晰網頁界面就出現在了眼前。
  • 谷歌布局大數據:開源平臺ApacheBeam正式發布
    這一頂級 Apache 開源項目終於成熟。這是大數據處理領域的又一大裡程碑事件——僅僅在上個月,騰訊宣布將在 2017 年一季度開源其大數據計算平臺 Angel 。現在看來,生不逢時的 Angel 可能迎來了它最大的對手。至此,谷歌終於也完成了對其雲端大數據平臺 Cloud Dataflow 開源的承諾。
  • 微軟、谷歌等創建開源安全基金會OpenSSF 為提高開源軟體安全性
    與前任 CEO 鮑爾默對開源世界的抵制不同,納德拉對開源世界十分友好,頻繁喊出「Microsoft Love Linux」的口號,同時將公司的老軟體開源出去,並收購了知名第三方代碼託管平臺 GitHub,以及在 Windows 中內置 Linux 環境等被外界認為這是微軟有意向開源組織示好的一種表現
  • 谷歌 AI 開源 Deepfake 檢測數據集,3000+ 真人...
    type=preview&sign=g3d2q7B6dqqAdnGqs6V5YoCdn5aEh33agquWoQ)該數據集一共包含了來自 28 個不同場景下,由真人演員現場拍攝的 3000 多段視頻。谷歌希望能夠通過這些視頻數據,更好的維護整個社會的網絡安全環境,並使得開發者能夠利用這些數據,開發新的 Deepfake 檢測工具,更高效地識別 Deepfake 假視頻。
  • 谷歌布局大數據:開源平臺 Apache Beam 正式發布
    這一頂級 Apache 開源項目終於成熟。這是大數據處理領域的又一大裡程碑事件——僅僅在上個月,騰訊宣布將在 2017 年一季度開源其大數據計算平臺 Angel 。現在看來,生不逢時的 Angel 可能迎來了它最大的對手。