用 NumPy 中的视图来节省内存

存储 存储软件
如果您使用 Python 的 NumPy 库,通常是因为您正在处理占用大量内存的大型数组。为了减少内存使用,您可能希望尽量减少不必要的重复项。

[[416488]]

本文转载自微信公众号「Python中文社区」,作者Trauring。转载本文请联系Python中文社区公众号。

如果您使用 Python 的 NumPy 库,通常是因为您正在处理占用大量内存的大型数组。为了减少内存使用,您可能希望尽量减少不必要的重复项。

NumPy 有一个内置功能,可以在许多常见情况下透明地执行此操作:内存视图。而且,此功能还可以防止数组被垃圾回收,从而导致更高的内存使用率。在某些情况下,它可能会导致错误,数据会以意想不到的方式发生变异。

为了避免这些问题,让我们了解视图的工作原理以及对代码的影响。

预备知识:Python 列表

在查看 NumPy 数组和视图之前,让我们考虑一个有点相似的数据结构:Python 列表。

Python 列表与 NumPy 数组一样,是连续的内存块。当你对一个 Python 列表进行切片时,你会得到一个完全不同的列表,这意味着你正在分配一块新的内存:

  1. >>> from psutil import Process 
  2. >>> Process().memory_info().rss 
  3. 12247040 
  4. >>> list1 = [None] * 1_000_000 
  5. >>> Process().memory_info().rss 
  6. 20463616 
  7. >>> list2 = list1[:500_000] 
  8. >>> Process().memory_info().rss 
  9. 24580096 

切片列表分配了更多内存。由于第二个列表是一个独立的副本,如果我们改变它,这不会影响第一个列表:

  1. >>> list2[0] = "abc" 
  2. >>> print(list2[0]) 
  3. abc 
  4. >>> print(list1[0]) 
  5. None 

注意,复制到第二个列表中的数据是指向 Python 对象的指针,而不是对象本身的内容。因此,即使列表本身不同,底层对象仍然在两者之间进行共享。

切片时 NumPy 数组并不进行复制

NumPy 数组的工作方式不同。因为假设您可能正在处理非常大的数组,所以许多操作不会复制数组,它们只是让您查看原始数组指向的同一连续内存块。

第一个结果是切片不会分配更多内存,因为它只是原始数组的视图:

  1. >>> from psutil import Process 
  2. >>> import numpy as np 
  3. >>> arr = np.arange(0, 1_000_000) 
  4. >>> Process().memory_info().rss 
  5. 37810176 
  6. >>> view = arr[:500_000] 
  7. >>> Process().memory_info().rss 
  8. 37810176 

视图对象看起来像一个 500,000 长的 int64 数组,因此如果它是一个新数组,它将分配大约 4MB 的内存。但它只是针对同一个原始数组的一个视图,所以不需要额外的内存。

从技术上来说,可能会为视图对象本身分配一小部分内存,但这可以忽略不计,除非您有很多视图对象。在这种情况下,RSS(常驻内存)度量中没有出现新内存,因为 Python 预先分配了更大的内存块,然后用小的 Python 对象填充这些块。

视图导致内存泄漏

使用视图的后果之一是您可能会泄漏内存,而不是节省内存。这是因为视图可以防止原始数组被垃圾回收 - 对整个数组来说。

假设您已经决定只需要使用大数组的一小部分:

  1. >>> import numpy as np 
  2. >>> from psutil import Process 
  3. >>> arr = np.arange(0, 100_000_000) 
  4. >>> Process().memory_info().rss 
  5. 830181376 
  6. >>> small_slice = arr[:10] 
  7. >>> del arr 
  8. >>> Process().memory_info().rss 
  9. 830111744 

如果这是一个 Python 列表,删除原始对象将释放内存。然而,在这种情况下,即使我们没有对数组的直接引用,视图仍然可以起作用,这意味着内存没有被释放,即使我们只对其中的一小部分感兴趣。

您实际上可以通过视图访问原始数组:

  1. >>> small_slice 
  2. array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 
  3. >>> small_slice.base 
  4. array([0, 1, 2, ..., 99999997, 99999998, 99999999]) 

结果,只有当我们删除所有视图时,原始数组的内存才会被释放:

  1. >>> del small_slice 
  2. >>> Process().memory_info().rss 
  3. 29642752 

其他改变

使用视图的另一个后果是修改视图会改变原始数组。回想一下,对于 Python 列表,修改切片结果不会修改原始列表,因为新对象是一个副本:

  1. >>> l = [1, 2, 3] 
  2. >>> l2 = l[:] 
  3. >>> l2[0] = 17 
  4. >>> l2 
  5. [17, 2, 3] 
  6. >>> l 
  7. [1, 2, 3] 

使用 NumPy 视图后,改变视图确实改变了原始对象,它们都指向同一个内存地址:

  1. >>> arr = np.array([1, 2, 3]) 
  2. >>> view = arr[:] 
  3. >>> view[0] = 17 
  4. >>> view 
  5. array([17,  2,  3]) 
  6. >>> arr 
  7. array([17,  2,  3]) 

这个结果不是我们想要的!

由于某些 NumPy API 可能会根据情况返回视图或副本,因此更有可能发生意外变化。例如,某些切片结果可能不是视图:

  1. >>> arr = np.array([1, 2, 3]) 
  2. >>> arr2 = arr[:] 
  3. >>> arr2.base is arr 
  4. True 
  5. >>> arr3 = arr[[TrueFalseTrue]] 
  6. >>> arr3.base is arr 
  7. False 

改变 arr2 也会改变 arr,但改变 arr3 不会改变 arr。

使用 copy() 进行显式复制

当您不想引用原始内存时,显式复制允许您创建一个新数组。这对于防止改变很有用,并且在您不想将原始数组保留在内存中的情况下也很有用:

  1. >>> arr = np.arange(0, 100_000_000) 
  2. >>> Process().memory_info().rss 
  3. 829464576 
  4. >>> small_slice = arr[:10].copy() 
  5. >>> del arr 
  6. >>> Process().memory_info().rss 
  7. 29700096 
  8. >>> print(small_slice.base) 
  9. None 

在这种情况下,删除 arr 释放了内存,因为 small_slice 是副本,而不是视图。

要点:高效安全地使用视图

鉴于各种 NumPy API 会自动返回视图,您需要在编写代码时考虑它们: 

  • 在文档中注意 API 是否会返回视图、副本或两者。
  • 如果您想从内存中清除一个大数组,请确保不仅没有直接引用它,而且没有引用它的视图。
  • 如果你要改变一个数组,确保它不会因为它实际上是一个视图而意外改变其他一些数组。
  • 如果您不需要视图,请使用 copy() 方法。

 

责任编辑:武晓燕 来源: Python中文社区
相关推荐

2021-08-10 13:17:31

NumPy内存Python

2011-04-13 09:13:02

Java内存

2011-04-06 14:20:50

Java编程

2020-02-25 17:40:52

Python循环内存

2023-03-06 08:46:12

2017-09-30 12:53:28

内存

2017-10-09 16:27:27

Glide内存加载库

2024-12-17 08:04:04

2022-04-02 15:56:43

神经网络人工智能技术

2018-02-08 09:37:27

Pandas大数据Spark

2022-01-08 19:00:09

NumPyPython编程语言

2023-03-03 12:37:50

JavaJVM内存溢出

2023-03-07 15:55:31

谷歌Chrome浏览器

2021-09-29 08:00:00

Kubernetes集群容器

2021-09-26 08:42:51

RedisGeo 类型数据类型

2010-05-26 14:16:45

替代MySQL

2021-12-17 08:27:55

NumpyPython 机器学习

2019-11-11 13:40:45

Python 开发编程语言

2009-11-11 16:13:19

路由器协议

2018-01-17 17:11:13

OpenAI开源工具包
点赞
收藏

51CTO技术栈公众号