将多个TensorFlow数据集交错在一起

时间:2018-03-01 21:23:58

标签: tensorflow tensorflow-datasets

当前的TensorFlow数据集交错功能基本上是一个交错的平面图,将单个数据集作为输入。鉴于当前的API,将多个数据集交错在一起的最佳方法是什么?说他们已经建成了,我有一个清单。我想从它们中交替生成元素,我想支持包含2个以上数据集的列表(即堆叠的拉链和交错会非常难看)。

谢谢! :)

@mrry可能会提供帮助。

3 个答案:

答案 0 :(得分:4)

编辑2:请参阅tf.contrib.data.choose_from_datasets。它执行确定性数据集交错。

编辑:请参阅tf.contrib.data.sample_from_datasets。即使它执行随机抽样,我想它也很有用。

即使这不是“干净”,但这是我想出的唯一解决方法。

datasets = [tf.data.Dataset...]

def concat_datasets(datasets):
    ds0 = tf.data.Dataset.from_tensors(datasets[0])
    for ds1 in datasets[1:]:
        ds0 = ds0.concatenate(tf.data.Dataset.from_tensors(ds1))
    return ds0

ds = tf.data.Dataset.zip(tuple(datasets)).flat_map(
    lambda *args: concat_datasets(args)
)

答案 1 :(得分:2)

在Tensorflow 2.0中

tot_imm_dataset1 = 105
tot_imm_dataset2 = 55
e = tf.data.Dataset.from_tensor_slices(tf.cast([1,0,1],tf.int64)).repeat(int(tot_imm_dataset1/2)) 
f=tf.data.Dataset.range(1).repeat(int(tot_imm_dataset2-tot_imm_dataset1/2))
choice=e.concatenate(f)
datasets=[dataset2,dataset1]
dataset_rgb_compl__con_patch= tf.data.experimental.choose_from_datasets(datasets, choice)

对我有用

答案 2 :(得分:1)

扩展user2781994 answer(进行编辑),这是我的实现方式:

import tensorflow as tf

ds11 = tf.data.Dataset.from_tensor_slices([1,2,3])
ds12 = tf.data.Dataset.from_tensor_slices([4,5,6])
ds13 = tf.data.Dataset.from_tensor_slices([7,8,9])
all_choices_ds = [ds11, ds12, ds13]

choice_dataset = tf.data.Dataset.range(len(all_choices_ds)).repeat()
ds14 = tf.contrib.data.choose_from_datasets(all_choices_ds, choice_dataset)

# alternatively:
# ds14 = tf.contrib.data.sample_from_datasets(all_choices_ds)

iterator = ds14.make_initializable_iterator()
next_element = iterator.get_next()

with tf.Session() as sess:
    sess.run(iterator.initializer)
    while True:
        try:
            value=sess.run(next_element)
        except tf.errors.OutOfRangeError:
            break
        print(value)

输出为:

1
4
7
2
5
8
3
6
9