在 PyTorch 中使用 Datasets 和 DataLoader 自定义数据

人工智能 深度学习
有时候,在处理大数据集时,一次将整个数据加载到内存中变得非常难。唯一的方法是将数据分批加载到内存中进行处理,这需要编写额外的代码来执行此操作。对此,PyTorch 已经提供了 Dataloader 功能。

有时候,在处理大数据集时,一次将整个数据加载到内存中变得非常难。

因此,唯一的方法是将数据分批加载到内存中进行处理,这需要编写额外的代码来执行此操作。对此,PyTorch 已经提供了 Dataloader 功能。

DataLoader

下面显示了 PyTorch 库中DataLoader函数的语法及其参数信息。

  1. DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, 
  2.            batch_sampler=None, num_workers=0, collate_fn=None, 
  3.            pin_memory=False, drop_last=False, timeout=0, 
  4.            worker_init_fn=None, *, prefetch_factor=2, 
  5.            persistent_workers=False

几个重要参数

  • dataset:必须首先使用数据集构造 DataLoader 类。
  • Shuffle :是否重新整理数据。
  • Sampler :指的是可选的 torch.utils.data.Sampler 类实例。采样器定义了检索样本的策略,顺序或随机或任何其他方式。使用采样器时应将 Shuffle 设置为 false。
  • Batch_Sampler :批处理级别。
  • num_workers :加载数据所需的子进程数。
  • collate_fn :将样本整理成批次。Torch 中可以进行自定义整理。

加载内置 MNIST 数据集

MNIST 是一个著名的包含手写数字的数据集。下面介绍如何使用DataLoader功能处理 PyTorch 的内置 MNIST 数据集。

  1. import torch 
  2. import matplotlib.pyplot as plt 
  3. from torchvision import datasets, transforms 

上面代码,导入了 torchvision 的torch计算机视觉模块。通常在处理图像数据集时使用,并且可以帮助对图像进行规范化、调整大小和裁剪。

对于 MNIST 数据集,下面使用了归一化技术。

ToTensor()能够把灰度范围从0-255变换到0-1之间。

  1. transform = transforms.Compose([transforms.ToTensor()]) 

下面代码用于加载所需的数据集。使用 PyTorchDataLoader通过给定 batch_size = 64来加载数据。shuffle=True打乱数据。

  1. trainset = datasets.MNIST('~/.pytorch/MNIST_data/', download=True, train=True, transform=transform) 
  2. trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True

为了获取数据集的所有图像,一般使用iter函数和数据加载器DataLoader。

  1. dataiter = iter(trainloader) 
  2. images, labels = dataiter.next() 
  3. print(images.shape) 
  4. print(labels.shape) 
  5. plt.imshow(images[1].numpy().squeeze(), cmap='Greys_r'

自定义数据集

下面的代码创建一个包含 1000 个随机数的自定义数据集。

  1. from torch.utils.data import Dataset 
  2. import random 
  3.   
  4. class SampleDataset(Dataset): 
  5.   def __init__(self,r1,r2): 
  6.       randomlist=[] 
  7.       for i in range(120): 
  8.           n = random.randint(r1,r2) 
  9.           randomlist.append(n) 
  10.       self.samples=randomlist  
  11.   
  12.   def __len__(self): 
  13.       return len(self.samples) 
  14.   
  15.   def __getitem__(self,idx): 
  16.       return(self.samples[idx]) 
  17.   
  18. dataset=SampleDataset(1,100) 
  19. dataset[100:120] 

 

在这里插入图片描述

最后,将在自定义数据集上使用 dataloader 函数。将 batch_size 设为 12,并且还启用了num_workers =2 的并行多进程数据加载。

  1. from torch.utils.data import DataLoader 
  2. loader = DataLoader(dataset,batch_size=12, shuffle=True, num_workers=2 ) 
  3. for i, batch in enumerate(loader): 
  4.     print(i, batch) 

 写在后面通过几个示例了解了 PyTorch Dataloader 在将大量数据批量加载到内存中的作用。

 

责任编辑:姜华 来源: Python之王
相关推荐

2022-11-23 15:26:25

Ubuntu程序坞

2009-06-23 11:35:44

JSF的Naviati

2009-11-10 17:12:22

VB.NET自定义类型

2023-11-14 10:05:52

Java开发工具

2011-06-15 09:24:36

Qt Widget Model

2023-09-12 13:59:41

OpenAI数据集

2023-09-04 15:06:18

Pytorch静态量化动态量化

2021-12-02 18:05:21

Android Interpolato动画

2015-02-12 15:33:43

微信SDK

2019-12-25 11:47:27

LinuxFVWM

2010-10-25 16:05:07

oracle自定义函数

2022-01-14 09:17:13

PythonAPISIX插件

2011-06-20 16:54:40

Qt Widget model

2021-05-28 08:58:41

Golang网卡metrics

2023-12-29 08:01:52

自定义指标模板

2022-11-29 08:07:23

CSSJavaScript自定义

2020-07-25 16:33:02

tmuxGitLinux终端

2017-01-11 10:27:36

Linux终端自定义Bash

2015-02-12 15:38:26

微信SDK

2009-09-11 11:04:23

C# WinForm自
点赞
收藏

51CTO技术栈公众号