輸入示例,自動生成代碼:TensorFlow官方工具TF-Coder已開源

2020-12-13 澎湃新聞

機器之心報導

編輯:魔王、陳萍

如何使編程更加便捷?最近,谷歌 TensorFlow 開源了一個幫助開發者寫 TensorFlow 代碼的程序合成工具 TF-Coder。

項目地址:https://github.com/google-research/tensorflow-coder

Google Colab 試用地址:https://colab.research.google.com/github/google-research/tensorflow-coder/blob/master/TF-Coder_Colab.ipynb

論文地址:https://arxiv.org/pdf/2003.09040.pdf

用過 TensorFlow 框架的應該都知道,在操縱張量時,需要跟蹤多個維度、張量形狀和數據類型兼容性,當然還需要考慮數學正確性。此外,TensorFlow 有數百種操作,找到要使用的正確操作也是一項挑戰。

那麼,除了直接對張量操縱進行編碼以外,如果僅通過一個說明性示例進行演示,就能自動獲取相應的代碼呢?這個想法聽起來很誘人,而 TensorFlow Coder(TF-Coder)使這成為可能!

TF-Coder 的原理是:給出期望張量變換的輸入 - 輸出示例,TF-Coder 運行組合搜索,找出能夠執行此變換的 TensorFlow 表達式,並最終輸出對應的 TensorFlow 代碼。

給出輸入 - 輸出示例,TF-Coder 在 1.3 秒內找出解決方案。

TF-Coder 的合成算法如下所示:

下面的動圖展示了使用 TF-Coder 解決張量操縱問題的過程:

那麼,TF-Coder 工具可以在哪些場景中起到作用呢?

TF-Coder:通過示例進行 TensorFlow 編程

假如你想將包含 M 個元素的向量(下例中指『rows』)和包含 N 個元素的向量(下例中指『cols』)依次進行相加,生成一個包含所有成對和的 M x N 矩陣。

使用 TF-Coder,你只需提供一個輸入 - 輸出示例(M=3,N=4)即可完成該操作,無需逐行進行編程。

例如輸入張量為:

inputs = {

'rows': [10, 20, 30],

'cols': [1, 2, 3, 4],

}

對應的輸出張量為:

output = [[11, 12, 13, 14],

[21, 22, 23, 24],

[31, 32, 33, 34]]

基於以上輸入 - 輸出信息(默認情況下已經輸入到 TF-Coder Colab 中),TF-Coder 工具將在一秒內自動找到合適的 TensorFlow 代碼:

tf.add(cols, tf.expand_dims(rows, 1))

這個簡單的例子旨在說明 TF-Coder 利用示例進行編程的思想。而 TF-Coder 的功能不止於此,它還可用於更難的編程問題中。

TF-Coder 幫你找到正確的函數

假設你正在處理數值特徵,如某個物品的價格。數據集中的價格範圍很廣,例如從低於 10 美元到超出 1000 美元不等。如果這些價格被直接用作特徵,則模型可能出現過擬合,在模型評估階段可能難以處理異常價格。

為了解決上述問題,你可能需要使用 bucketing,來將數字價格轉換為類別特徵。例如,使用 bucket 邊界 [10, 50, 100, 1000] 意味著低於 10 美元的價格應歸入 bucket 0,10 美元至 50 美元的價格應歸入 bucket 1,依此類推。

在選擇 bucket 邊界之後,如何使用 TensorFlow 將數值價格映射到 bucket 索引呢?例如,給出以下 bucket 邊界和物品價格:

# Input tensors

boundaries = [10, 50, 100, 1000]

prices = [15, 3, 50, 90, 100, 1001]

計算每個項的 bucket 編號:

# Output tensor

bucketed_prices = [1, 0, 2, 2, 3, 4]

儘管 TensorFlow 具備多種 bucketing 操作,但要弄清楚哪種操作適合執行這種 bucketing,也是比較棘手的事情。由於 TF-Coder 可以通過行為識別數百個 Tensor 操作,因此你可以通過提供輸入 - 輸出示例來查找正確的操作:

# Input-output example

inputs = {

'boundaries': [10, 50, 100, 1000],

'prices': [15, 3, 50, 90, 100, 1001],

}

output = [1, 0, 2, 2, 3, 4]

只需幾秒鐘,TF-Coder 就能輸出以下解決方案:

tf.searchsorted(boundaries, prices, side='right')

TF-Coder:用聰明的方式結合函數

現在我們來看另一個問題:計算一個 0-1 張量,它可以找出輸入張量每一行中的最大元素。

# Input tensor

scores = [[0.7, 0.2, 0.1],

[0.4, 0.5, 0.1],

[0.4, 0.4, 0.2],

[0.3, 0.4, 0.3],

[0.0, 0.0, 1.0]]

# Output tensor

top_scores = [[1, 0, 0],

[0, 1, 0],

[1, 0, 0],

[0, 1, 0],

[0, 0, 1]]

注意,如果一行內相同的最大元素重複出現(如 scores 中的第三行),則標記第一次出現的最大元素,這樣 top_scores 的每一行都只有一個 1。

與上一個問題不同,這裡不存在可執行該計算的 TensorFlow 函數。在文檔中搜索「max」,你可能找到 tf.reduce_max、tf.argmax 和 tf.maximum,但也不清楚到底該用哪一個?tf.reduce_max 輸出 [0.7, 0.5, 0.4, 0.4, 1.0],tf.argmax 輸出 [0, 1, 0, 1, 2],tf.maximum 不合適,因為它只能容納兩個參數。這些函數似乎都與該示例的期望輸出關聯不大。

而 TF-Coder 可以幫你解決這類棘手問題。你可以將這個問題寫成輸入 - 輸出示例的形式:

# Input-output example

inputs = {

'scores': [[0.7, 0.2, 0.1],

[0.4, 0.5, 0.1],

[0.4, 0.4, 0.2],

[0.3, 0.4, 0.3],

[0.0, 0.0, 1.0]],

}

output = [[1, 0, 0],

[0, 1, 0],

[1, 0, 0],

[0, 1, 0],

[0, 0, 1]]

TF-Coder 結合使用 tf.one_hot 和 tf.argmax,得到問題的解:

tf.cast(tf.one_hot(tf.argmax(scores, axis=1), 3), tf.int32)

通過對 TensorFlow 操作組合進行詳細搜索,TF-Coder 通常能夠發現優雅的解決方案,從而簡化步驟,加速 TensorFlow 程序。

TF-Coder:用更少的 debug,寫出準確的代碼

考慮通過將每一行除以該行之和,把整數出現次數列表歸一化為概率分布。例如:

# Input tensor

counts = [[0, 1, 0, 0],

[0, 1, 1, 0],

[1, 1, 1, 1]]

# Output tensor

normalized = [[0.0, 1.0, 0.0, 0.0],

[0.0, 0.5, 0.5, 0.0],

[0.25, 0.25, 0.25, 0.25]]

即使你知道可用的函數(tf.reduce_sum followed by tf.divide),寫出正確的代碼也並非易事。第一次嘗試可能是這樣的:

# First attempt

normalized = tf.divide(counts, tf.reduce_sum(counts, axis=1))

但是以上代碼是正確嗎?我們需要考慮許多潛在的問題:

代碼中 axis 的值正確嗎?是否應改為 axis=0?

counts 和 tf.reduce_sum(counts, axis=1) 的形狀與除法兼容嗎?需要改變形狀或執行轉置操作嗎?

counts 和 tf.reduce_sum(counts, axis=1) 都是 tf.int32 張量。tf.int32 張量可以被除嗎?是否需要先將其轉換為 float 數據類型?

兩個參數的順序對嗎?是否需要調換位置?

輸出的類型是 tf.int32、tf.float32,還是別的什麼?

是否存在更簡單或更好的方式?

而使用 TF-Coder,你只需要給出以下輸入 - 輸出示例:

# Input-output example

inputs = {

'counts': [[0, 1, 0, 0],

[0, 1, 1, 0],

[1, 1, 1, 1]],

}

output = [[0.0, 1.0, 0.0, 0.0],

[0.0, 0.5, 0.5, 0.0],

[0.25, 0.25, 0.25, 0.25]]

TF-Coder 給出解決方案:

tf.cast(tf.divide(counts, tf.expand_dims(tf.reduce_sum(counts, axis=1), axis=1)), tf.float32)

TF-Coder 生成以上解決方案時,可以確保代碼在示例輸入上運行時能夠準確生成示例輸出。TF-Coder 的解決方案避免了不必要的步驟。你可以快速找出以上潛在問題的答案:需要採用額外的 tf.expand_dims 步驟,使張量形狀與除法兼容;tf.divide 的答案必須是 tf.float32 類型。

通過這種方式,TF-Coder 可以幫助開發者編寫簡單準確的代碼,且無需痛苦的 debug 過程。

局限性

不過,TF-Coder 也有其局限性。目前它可以在一分鐘內找到涉及 3 到 4 種運算的解決方案,但短時間內找到涉及 6 種及以上操作的解決方案,對它來說還是太過複雜。此外,TF-Coder 尚不支持復張量、字符串張量或 RaggedTensor。

TF-Coder 支持操作的完整列表,參見:https://colab.research.google.com/github/google-research/tensorflow-coder/blob/master/TF-Coder_Colab.ipynb#scrollTo=Q6uRr4x9WHRC

此外,TF-Coder 只能保證解決方案對給出的輸入 - 輸出示例有效。該工具會搜索一個與給定輸入 - 輸出示例相匹配的簡單 TensorFlow 表達式,但有時候「過於簡單」,不能按預期進行泛化。儘可能讓示例無歧義會有所幫助,這一般可以通過向輸入和輸出張量添加更多數值來實現。

Amazon SageMaker 是一項完全託管的服務,可以幫助開發人員和數據科學家快速構建、訓練和部署機器學習 模型。SageMaker完全消除了機器學習過程中每個步驟的繁重工作,讓開發高質量模型變得更加輕鬆。

現在,企業開發者可以免費領取1000元服務抵扣券,輕鬆上手Amazon SageMaker,快速體驗5個人工智慧應用實例。

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com

原標題:《輸入示例,自動生成代碼:TensorFlow官方工具TF-Coder已開源》

閱讀原文

相關焦點

  • TensorFlow極速入門
    最後給出了在 tensorflow 中建立一個機器學習模型步驟,並用一個手寫數字識別的例子進行演示。1、tensorflow是什麼?tensorflow 是 google 開源的機器學習工具,在2015年11月其實現正式開源,開源協議Apache 2.0。
  • tensorflow極速入門
    一、前言目前,深度學習已經廣泛應用於各個領域,比如圖像識別,圖形定位與檢測,語音識別,機器翻譯等等,對於這個神奇的領域,很多童鞋想要一探究竟,這裡拋磚引玉的簡單介紹下最火的深度學習開源框架 tensorflow。本教程不是 cookbook,所以不會將所有的東西都事無巨細的講到,所有的示例都將使用 python。那麼本篇教程會講到什麼?
  • tensorflow安裝教程
    tensorflow是谷歌開源的人工智慧庫,有最完善的生態支持。是進行人工智慧領域開發和科研的必備工具。本文在windows10下,藉助anacondatensorflow as tf,有警告但是沒有報錯,說明安裝成功。
  • 官方文檔太辣雞?TensorFlow 2.0開源工具書,30天「無痛」上手
    開源電子書地址:https://lyhue1991.github.io/eat_tensorflow2_in_30_days/GitHub 項目地址:https://github.com/lyhue1991/eat_tensorflow2_in_30_days為什麼一定要學
  • 一行代碼切換TensorFlow與PyTorch,模型訓練也能用倆框架
    在早兩天開源的 TfPyTh 中,不論是 TensorFlow 還是 PyTorch 計算圖,它們都可以包裝成一個可微函數,並在另一個框架中高效完成前向與反向傳播。很顯然,這樣的框架交互,能節省很多重寫代碼的麻煩事。
  • 令人困惑的TensorFlow!
    讓我們來看看構建計算圖的一個示例。在下圖中,上半部分是我們運行的代碼及其輸出,下半部分是生成的計算圖。import tensorflow as tf計算圖:可見,僅僅導入 TensorFlow 並不會給我們生成一個有趣的計算圖。
  • TensorFlow發布JavaScript開發者的機器學習框架TensorFlow.js
    發布新的 TensorFlow 官方博客(http://blog.tensorflow.org/)與 TensorFlow YouTube 頻道;2. 面向 JavaScript 開發者的全新機器學習框架 TensorFlow.js;3.
  • 玩轉TensorFlow?你需要知道這30功能
    TFHub 模塊使它變得容易,並且可以在 https://tfhub.dev/ 這個開源軟體商店中使用。TF Hub 的地址是:tensorflow.org/hub/11)KerasKeras 如今直接集成在 TF 中,也就是 tf.keras。
  • TensorFlow 2.1指南:keras模式、渴望模式和圖形模式(附代碼)
    Keras模式import numpy as npimport tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras.layers import Input, Dense, Flatten, Conv2Dfrom tensorflow.keras
  • 正確debug的TensorFlow的姿勢
    當討論在tensorflow上編寫代碼時,總是將其與PyTorch進行比較,討論框架有多複雜,以及為什麼要使用tf.contrib的某些部分,做得太爛了。此外,我認識很多數據科學家,他們只用Github上已有的repo來用tensorflow。對這個框架持這種態度的原因是非常不同的,但是今天讓我們關注更實際的問題:調試用tensorflow編寫的代碼並理解它的主要特性。
  • 模型秒變API只需一行代碼,支持TensorFlow等框架
    這個工具能讓你一行代碼直接打包。專注於機器學習應用的人們知道,從訓練好的模型到實際的工業生產工具還有一定的距離。其中工作量很大的地方在於將模型打包,預留 API 接口,並和現有的生產系統相結合。近日,GitHub 上有了這樣一個項目,能夠讓用戶一行代碼將任意模型打包為 API。這一工具無疑能夠幫助開發者在實際的生產應用中快速部署模型。
  • TFLearn:為TensorFlow提供更高級別的API 的深度學習庫
    TFlearn是一個基於Tensorflow構建的模塊化透明深度學習庫。它旨在為TensorFlow提供更高級別的API,以促進和加速實驗,同時保持完全透明並與之兼容。TFLearn功能包括:通過教程和示例,易於使用和理解用於實現深度神經網絡的高級API。
  • TensorFlow 實現流行的機器學習算法的教程匯集
    不要擔心,運行這些案例時,該數據集會被自動下載下來(使用 input_data.py) 。/tflearn/blob/master/examples/nlp/dynamic_lstm.py城市名稱生成,使用 LSTM 網絡生成新的美國城市名: https://github.com/tflearn/tflearn/blob/master/examples/nlp/lstm_generator_cityname.py莎士比亞手稿生成,使用 LSTM 網絡生成新的莎士比亞手稿: https:/
  • 人工智慧神器TensorFlow環境安裝
    開源Python發行版本—AnacondaAnaconda指的是一個開源的Python發行版本,其包含了conda、Python等180多個科學包及其依賴項。Python編輯調試IDE—PyCharmPyCharm是一種Python IDE,帶有一整套可以幫助用戶在使用Python語言開發時提高其效率的工具,比如調試、語法高亮、Project管理、代碼跳轉、智能提示、自動完成、單元測試、版本控制。
  • 小叮噹機器學習:Python3.6配置TensorFlow的GPU版詳細安裝教程
    然而網上的大多數都是圍繞python2.7版本的tensorflow教程,下面我們就來看看在Centos7 +pyton3.6的環境下,我們怎麼安裝使用這個功能強大的開源庫的GPU版本。我們新打開一個終端,激活路徑,再次輸入命令:conda 發現此時conda已可使用。這表明Anaconda已安裝成功。
  • 玩轉TensorFlow Lite:有道雲筆記實操案例分享
    更多細節見官方文檔:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/docs_src/mobile/tflite/demo_android.md在 iOS 上,則需要使用 Makefile
  • 最簡單的深度學習TensorFlow應用舉例!
    小編我的電腦很一般,沒有32G內存,也沒有1080,就windows上直接裝了23333windows+python 3.6+pycharm+tensorflow cpu話不多說,直接線性回歸,上圖。代碼截圖代碼截圖
  • 機器學習:TensorFlow 2.0中的10個技巧
    用於構建輸入管道的tf.data API從張量構建管道Batch和Shuffle壓縮兩個Datsets映射外部函數1(b). ImageDataGenerator這是tensorflow.keras API的最佳特性之一。
  • 谷歌正式發布TensorFlow 1.5,究竟提升了哪些功能?
    昨天,谷歌在 GitHub 上正式發布了 TensorFlow 的最新版本 1.5.0,並開源了其代碼。支持 CUDA 9 和 cuDNN 7 被認為是本次更新的最重要部分。機器之心對這次更新的重大改變以及主要功能和提升進行了編譯介紹,原文請見文中連結。
  • DeepMind私貨公開,推出分布式機器學習庫,TF、Keras可用
    目前,TF-Replicator的編程模型已經作為TensorFlow中tf.distribute.Strategy的一部分開源。推特上的一位工程師驚嘆:這簡直是TensorFlow 2.0裡隱藏的寶藏啊!