一文教会你如何用 Python 分割合并大文件

开发 前端
使用 Python 的文件读写功能就可以实现文件的分割与合并,设置每个文件的大小,然后读取指定大小的字节就写入一个新文件,接收端依次读取小文件,把读取到的字节按序写入一个文件,就可以完成合并。

有时候,我们需要把一个大文件发送给别人,但是限于传输通道的限制,比如邮箱附件大小的限制,或者网络状况不太好,需要将大文件分割成小文件,分多次发送,接收端再对这些小文件进行合并。今天就来分享一下用 Python 分割合并大文件的方法。

思路及实现

如果是文本文件,可以按行数分割。无论是文本文件还是二进制文件,都可以按指定大小进行分割。

使用 Python 的文件读写功能就可以实现文件的分割与合并,设置每个文件的大小,然后读取指定大小的字节就写入一个新文件,接收端依次读取小文件,把读取到的字节按序写入一个文件,就可以完成合并。

分割

size = 1024 * 1000 * 10  # 10MB
with open("bigfile", "rb") as reader:
part = 1
while True:
part_content = reader.read(size)
if not part_content:
print("split done.")
break
with open(f"bigfile_part{part}","wb") as writer:
writer.write(part_content)

合并

total_parts = 5
with open("bigfile","wb") as writer:
for i in range(5):
with open(f"bigfile_part{i}", "rb") as reader:
writer.write(reader.read())

使用第三方库

虽然可以自己写,但是别人写好了,为什么不节省点时间直接用呢?直接 pip 安装就可以了:

pip install filesplit

分割

from filesplit.split import Split
split = Split("./data.rar", "./output")
split.bysize(size = 1024*1000*10) # 每个文件最多 10MB

执行之后,我们就可以在 output 文件夹里看到分割好的文件:

图片

你也可以按照文件行数进行分割:

split.bylinecount(linecount = 10000) # 每个文件最多 10000

合并

合并需要对文件夹里的小文件进行合并,该工具要求文件夹内必须有 manifest 文件,其格式如下:

filename,filesize,header
data_1.rar,10000000,False
data_2.rar,10000000,False
data_3.rar,10000000,False
data_4.rar,10000000,False
data_5.rar,1304145,False

合并文件的代码只需要指定要合并的目录,目标目录,合并后的文件名,代码如下:

from filesplit.merge import Merge
merge = Merge(inputdir = "./output", outputdir="./merge", outputfilename = "merged.rar")
merge.merge()

执行之后就可以在 merge 目录内看到合并后的文件:

图片

责任编辑:武晓燕 来源: Python七号
相关推荐

2021-05-12 07:55:02

.Net语言配置

2020-11-30 12:32:40

PyTorch语义分割python

2024-03-25 08:18:31

2023-05-11 08:26:56

2021-12-07 06:02:15

Redis Docker运维

2021-08-10 05:49:10

网络协议C语言Linux操作

2024-09-26 07:27:27

2023-12-27 07:40:43

HTTP服务器负载均衡

2022-02-20 09:56:28

TCPIP网络协议

2022-09-05 07:32:46

mock数据Stream

2023-07-31 21:56:54

哨兵系统redis

2017-05-09 07:06:54

python文件读取

2023-05-04 08:24:52

ChatGPT产品经理工业革命

2019-07-23 07:30:16

2018-08-16 08:19:30

2020-09-24 16:05:44

C语言sqlite3函数

2022-09-07 15:57:41

KubernetesCRD

2022-09-29 10:26:59

iOSScaffoldflutter

2021-11-26 22:01:26

Linux传输网络

2015-08-25 15:53:08

LinuxcURL
点赞
收藏

51CTO技术栈公众号