Python 下载大文件,哪种方式速度更快!

开发 后端
通过 Python 下载大文件,本文用两种方法来带你看看哪种方式速度更快。

通常,我们都会用 requests 库去下载,这个库用起来太方便了。

方法一

使用以下流式代码,无论下载文件的大小如何,Python 内存占用都不会增加:

def download_file(url):
local_filename = url.split('/')[-1]
# 注意传入参数 stream=True
with requests.get(url, stream=True) as r:
r.raise_for_status()
with open(local_filename, 'wb') as f:
for chunk in r.iter_content(chunk_size=8192):
f.write(chunk)
return local_filename

如果你有对 chunk 编码的需求,那就不该传入 chunk_size 参数,且应该有 if 判断。

def download_file(url):
local_filename = url.split('/')[-1]
# 注意传入参数 stream=True
with requests.get(url, stream=True) as r:
r.raise_for_status()
with open(local_filename, 'w') as f:
for chunk in r.iter_content():
if chunk:
f.write(chunk.decode("utf-8"))
return local_filename

iter_content[1] 函数本身也可以解码,只需要传入参数 decode_unicode = True 即可。另外,搜索公众号顶级Python后台回复“进阶”,获取一份惊喜礼包。

请注意,使用 iter_content 返回的字节数并不完全是 chunk_size,它是一个通常更大的随机数,并且预计在每次迭代中都会有所不同。

方法二

使用 Response.raw[2] 和 shutil.copyfileobj[3]

import requests
import shutil

def download_file(url):
local_filename = url.split('/')[-1]
with requests.get(url, stream=True) as r:
with open(local_filename, 'wb') as f:
shutil.copyfileobj(r.raw, f)

return local_filename

这将文件流式传输到磁盘而不使用过多的内存,并且代码更简单。

注意:根据文档,Response.raw 不会解码,因此如果需要可以手动替换 r.raw.read 方法

response.raw.read = functools.partial(response.raw.read, decode_content=True)

速度

方法二更快。方法一如果 2-3 MB/s 的话,方法二可以达到近 40 MB/s。

参考资料

[1]iter_content: https://requests.readthedocs.io/en/latest/api/#requests.Response.iter_content

[2]Response.raw: https://requests.readthedocs.io/en/latest/api/#requests.Response.raw

[3]shutil.copyfileobj: https://docs.python.org/3/library/shutil.html#shutil.copyfileobj

责任编辑:庞桂玉 来源: Python人工智能技术
相关推荐

2022-06-21 15:00:01

Python语言循环方式

2015-08-07 15:35:42

ios短点下载源码

2021-01-18 15:04:53

Linux内核开发者删除

2009-08-31 17:15:37

LinuxWindowsLinux操作系统

2024-07-02 10:18:18

2019-09-02 15:12:46

Python 开发数据分析

2021-04-19 05:41:04

JavaScript大文件下载

2015-08-25 15:53:08

LinuxcURL

2022-07-25 11:33:48

Python大文件

2022-08-18 09:51:50

Python代码循环

2018-06-20 09:49:11

数据储存pickle

2024-06-20 12:48:17

Rustfd

2015-03-03 13:15:19

ASP.NET大文件下载实现思路

2021-07-27 13:08:52

微软Chrome新提案

2011-08-04 10:25:32

联想激光打印机

2022-09-28 10:27:15

Python文件操作

2018-02-26 09:00:00

2013-03-22 14:42:01

OSS开放存储服务云计算

2023-03-17 11:33:18

数据中心

2021-06-26 06:16:30

Windows 11操作系统微软
点赞
收藏

51CTO技术栈公众号