Question

我正在使用tensorflow数据集api作为我的训练数据，输入_fn和生成器用于tf.data.Dataset.from_generator api

def generator():
    ......
    yield { "x" : features }, label


def input_fn():
    ds = tf.data.Dataset.from_generator(generator, ......)
    ......
    feature, label = ds.make_one_shot_iterator().get_next()
    return feature, label

然后我为我的Estimator创建了一个自定义的model_fn，代码如下：

def model_fn(features, labels, mode, params):
    print(features)
    ......
    layer = network.create_full_connect(input_tensor=features["x"], 
    (or layer = tf.layers.dense(features["x"], 200, ......)
    ......

培训时：

estimator.train(input_fn=input_fn)

但是，代码不起作用，因为函数model_fn的features参数是：

Tensor（“IteratorGetNext：0”，dtype = float32，device = / device：CPU：0）

代码“features [”x“]”将失败并告诉我：

......“site-packages \ tensorflow \ python \ ops \ array_ops.py”，第504行，在_SliceHelper中 end.append（s + 1） TypeError：必须是str，而不是int

如果我将input_fn更改为：

input_fn = tf.estimator.inputs.numpy_input_fn(
  x={"x": np.array([[1,2,3,4,5,6]])},
  y=np.array([1]),

代码继续，因为现在的功能是一个字典。

我搜索了估算器的代码，发现它使用了一些函数，例如

features, labels = self._get_features_and_labels_from_input_fn(
      input_fn, model_fn_lib.ModeKeys.TRAIN)

从input_fn检索功能和标签，但我不知道为什么它通过使用不同的数据集实现传递给我（model_fn）两种不同数据类型的功能，如果我想使用我的生成器模式，那么如何使用它类型（IteratorGetNext）的功能？

感谢您的帮助！

[增订]

我对代码进行了一些更改，

def generator():
    ......
    yield features, label

def input_fn():
    ds = tf.data.Dataset.from_generator(generator, ......)
    ......
    feature, label = ds.make_one_shot_iterator().get_next()
    return {"x": feature}, label

然而，在tf.layers.dense仍然失败，现在它说

“图层dense_1的输入0与图层不兼容：其排名未定义，但图层需要定义的排名。”

虽然这些功能是一个字典：

'x'：tf.Tensor'IteratorGetNext：0'shape = unknown dtype = float64

在正确的情况下，它是：

'x'：tf.Tensor'random_shuffle_queue_DequeueMany：1'shape =（128,6）dtype = float64

我从

中学到了类似的用法

https://developers.googleblog.com/2017/09/introducing-tensorflow-datasets.html

def my_input_fn(file_path, perform_shuffle=False, repeat_count=1):
   def decode_csv(line):
      ......
      d = dict(zip(feature_names, features)), label
      return d

   dataset = (tf.data.TextLineDataset(file_path)

但是没有关于生成器案例的官方示例，它将迭代器返回给自定义的model_fn。

Answer 1

根据examples on how to use from_generator，生成器返回值以放入数据集，而不是功能的字典。相反，您可以在input_fn。

中构建字典

如下更改代码应该可以使用：

def generator():
    ......
    yield features, label

def input_fn():
    ds = tf.data.Dataset.from_generator(generator, ......)
    ......
    feature, label = ds.make_one_shot_iterator().get_next()
    return {"x": feature}, label

回复更新：

您的代码失败，因为Dataset.from_generator的迭代器生成的张量没有定义静态shape（因为生成器原则上可以返回具有不同形状的数据）。假设您的数据确实始终具有相同的形状，~~您可以在feature.set_shape(<the_shape_of_your_data>) {/ 1} return之前调用input_fn（请参阅编辑打击以了解正确的方法来执行此操作）。~~

编辑：

正如您在评论中指出的那样，tf.data.Dataset.from_generator()有第三个参数来设置输出张量的形状，因此feature.set_shape()只需将形状作为output_shapes传递给from_generator() 1}}。

是否有一种简单的方法可以使用tf.data.Dataset.from_generator中的函数和张量流

1 个答案:

回复更新：

编辑：