TensorFlow Datasets 数据集载入

snowkylin · April 11, 2020, 3:32pm

TensorFlow Datasets 数据集载入

https://tf.wiki/zh/appendix/tfds.html

pepure · May 10, 2020, 1:58pm

我想请教下，map 这里如果不使用 lambda 表达式的话，直接使用函数，需要怎么写函数？
def preprocess (……):
……
return ……

原文代码如下：

使用 TessorFlow Datasets 载入 “tf_flowers” 数据集

dataset = tfds.load (“tf_flowers”, split=tfds.Split.TRAIN, as_supervised=True)

对 dataset 进行大小调整、打散和分批次操作

dataset = dataset.map (lambda img, label: (tf.image.resize (img, [224, 224]) / 255.0, label))
.shuffle (1024)
.batch (32)

迭代数据

for images, labels in dataset:
# 对 images 和 labels 进行操作

snowkylin · May 11, 2020, 1:15am

可以参考 https://tf.wiki/zh_hans/basic/tools.html#id5 中的 rot90 函数。

pepure · May 11, 2020, 3:24am

你好！我尝试了这个代码，提示报错，不知是否是我的代码有问题？

代码如下：
import tensorflow as tf
import tensorflow_datasets as tfds
import matplotlib.pyplot as plt

mnist_dataset = tfds.load (“mnist”, split=tfds.Split.TRAIN)

def rot90 (image, label):
image = tf.image.rot90 (image)
return image, label

mnist_dataset = mnist_dataset.map (rot90)

for image, label in mnist_dataset:
plt.title (label.numpy ())
plt.imshow (image.numpy ()[:, :, 0])
plt.show ()

提示报错信息如下：
Traceback (most recent call last):
File “C:/Users/Administrator/Desktop/certification/Answer/tfds_test3.py”, line 13, in
mnist_dataset = mnist_dataset.map (rot90)
…………
TypeError: in converted code:

TypeError: tf__rot90 () missing 1 required positional argument: 'label'

pepure · May 11, 2020, 7:05am

我打印了一下这个 mnist_dataset，是单个完整的结构，我感觉是不是需要转换或者提取成某种类似 (image, label) 的结构？
<_OptionsDataset shapes: {image: (28, 28, 1), label: ()}, types: {image: tf.uint8, label: tf.int64}>

我查询了 google 的关于这个数据集的文档，还是没有解决。

snowkylin · May 11, 2020, 3:57pm

一个比较简单的方法是载入时直接加入 as_supervised=True 选项。

pepure · May 31, 2020, 1:31pm

可以了， as_supervised=True 可以的，或者通过 Info 里的 Features 名称来索引到也可以。

pepure · June 1, 2020, 8:18am

请问下，有关于 Dataset 的数据增强的内容吗？

snowkylin · June 1, 2020, 8:32am

可以参考 https://tensorflow.google.cn/tutorials/images/data_augmentation

pepure · June 1, 2020, 9:15am

请教下，比如 image = tf.image.random_brightness (image, max_delta=0.5) # Random brightness，这条语句，比如输入的 image 参数是 10 张图片（0 维的长度是 10），通过处理，输出的长度是多少？怎么设置数据增强的倍数？就是哪个参数可以设定把图片数量增强多少倍？

snowkylin · June 7, 2020, 7:09am

可以参考文档 tensorflow.org/api_docs/python/tf/image/random_brightness 和 https://www.tensorflow.org/api_docs/python/tf/image/adjust_brightness

看文档的意思，输出的 shape 和输入是一样的。数据增强的话倍数应该不是在这种 API 的参数里设置的，这个 API 只是单纯地调整一下图片亮度而已。换言之，tf.data 的数据增强并不是说先建一个比之前的数据集大了 X 倍的增强数据集然后再来训练，而是在预处理数据的时候使用 map+ 增强函数动态增强数据，使得每次读入的数据都经过了额外的增强处理。这方面可以参考 https://www.tensorflow.org/tutorials/images/data_augmentation

pepure · June 7, 2020, 8:13am

嗯，这样理解完全明白了，谢谢~

YangXuanWang · June 17, 2020, 10:32am

请问我 install tensorflow_datasets 后，import tensorflow_datasets 报错提示：ImportError: cannot import name ‘extract_zipped_paths’，这是什么原因呢？

snowkylin · June 17, 2020, 6:14pm

我没有遇到过这种情况，或许可以参考 python 3.x - ImportError: cannot import name 'extract_zipped_paths' - Stack Overflow 。比如说，建立一个全新的 conda 环境再安 tensorflow 和 tensorflow_datasets

YangXuanWang · June 18, 2020, 2:12am

谢谢，我按照链接里面更改了 requests 的版本解决了

snow-zhai · August 18, 2020, 8:40am

你好，我 load 数据集时，出现这种错误，要怎么处理啊， The last failure: Unavailable: Error executing an HTTP request: libcurl code 6 meaning ‘Couldn’t resolve host name’, error details: Couldn’t resolve host ‘metadata’".感谢

snowkylin · August 18, 2020, 8:54am

看起来是网络问题。TensorFlow Datasets 需要从谷歌的服务器下载数据集，建议设置代理或使用 Colab 测试代码。

ai-lijunhua · October 10, 2020, 2:31am

怎么才能加载本地数据集呢

snowkylin · October 10, 2020, 4:44am

TensorFlow Datasets 一般用于下载并载入云端已经处理好的数据集。本地数据集可参考 TensorFlow常用模块 — 简单粗暴 TensorFlow 2 0.4 beta 文档

chauncygu · October 29, 2020, 1:44pm

出现版本错误，是否需要升级TensorFlow版本？ImportError: This version of TensorFlow Datasets requires TensorFlow version >= 2.1.0; Detected an installation of version 1.15.3. Please upgrade TensorFlow to proceed.