刚刚开始学习Python？了解二进制数据处理是必不可少的！-51CTO.COM

在Python中，我们通常使用文本文件存储和处理数据。但是，在某些情况下，文本文件并不够用。例如，当需要处理音频、视频或图像等多媒体数据时，它们可能会以二进制格式保存。此外，在与其他语言（如C++）编写的程序交互时，也可能需要处理二进制数据。

二进制文件通常是由一系列字节组成的，每个字节由8位（即一个字节）组成，可以表示0到255之间的整数。在Python中，有几个模块可以帮助我们读写二进制文件，包括 struct 模块、位运算和数据压缩和解压。这篇教程将介绍如何使用这些工具来处理二进制数据。

Python 中的 struct 模块

struct 模块是Python中处理二进制数据的重要工具。它允许我们将二进制数据转换为Python对象，或者将Python对象转换为二进制数据。它提供了一种简单的方式来处理各种类型的数据，包括整数、浮点数、布尔值、字符串和自定义结构体等。

struct 模块的作用和优势

在Python中，我们通常使用内置的数据类型（如整数、浮点数和字符串）来表示数据。这些数据类型在内存中的表示方式是固定的，即它们都具有相同的字节大小和排列顺序。

但是，在处理二进制数据时，其表示方式可能与Python中的数据类型不同。例如，一个整数可能由4个字节组成，这些字节的排列顺序可能是大端（MSB在前）或小端（LSB在前）。如果我们使用内置的数据类型来处理这样的数据，就需要考虑这些细节，并手工解析字节序列。这很容易出错，并且非常繁琐。

struct 模块提供了一种简单的方式来处理这些问题。它可以自动将二进制数据解析为Python对象，并根据需要进行字节序转换。它还提供了一种简单的方式来将Python对象转换为二进制数据，并使用正确的字节序。

结构体概念和使用方法

在 struct 模块中，可以使用结构体来描述二进制数据的格式。结构体是一种自定义数据类型，它指定了二进制数据中每个字段的类型和顺序。可以通过结构体将二进制数据转换为Python对象，或将Python对象转换为二进制数据。

结构体通常以字符串的形式给出，其中包含一个或多个格式代码。格式代码指定了数据类型和字节顺序等信息。下面是常用的格式代码：

格式代码	数据类型
b	有符号字节
B	无符号字节
h	有符号短整数（2个字节）
H	无符号短整数（2个字节）
i	有符号整数（4个字节）
I	无符号整数（4个字节）
q	有符号长整数（8个字节）
Q	无符号长整数（8个字节）
f	单精度浮点数（4个字节）
d	双精度浮点数（8个字节）
s	字符串

例如，假设我们有一个包含一个整数和一个浮点数的二进制数据，整数在前，浮点数在后，我们可以使用以下代码将其解析为Python对象：

import struct

# 定义结构体格式字符串
format_str = "if"

# 读取二进制数据
with open("data.bin", "rb") as f:
    data = f.read()

# 解析二进制数据
result = struct.unpack(format_str, data)

# 输出结果
print(result)  # (42, 3.14)

这里，我们首先定义了一个格式字符串 format_str，它包含两个格式代码：i 表示一个有符号整数，占据4个字节，f 表示一个单精度浮点数，占据4个字节。然后，我们使用 open() 函数打开二进制文件（注意要以 'rb' 模式打开），并使用 read() 方法读取其中的所有数据。最后，我们使用 struct.unpack() 函数将二进制数据解析为一个元组，并将其存储在变量 result 中。

如何使用 struct 模块进行二进制数据的转换

除了解析二进制数据之外，struct 模块还提供了一种简单的方式来将Python对象转换为二进制数据。我们可以使用 struct.pack() 函数将一个或多个参数转换为一个字节串，该字节串具有指定的格式。例如，如果要将一个整数和一个浮点数打包成一个字节串，可以使用以下代码：

import struct

# 定义结构体格式字符串
format_str = "if"

# 打包数据
data = struct.pack(format_str, 42, 3.14)

# 写入二进制文件
with open("output.bin", "wb") as f:
    f.write(data)

这里，我们首先定义了一个格式字符串 format_str，与上面的例子相同。然后，我们使用 struct.pack() 函数将整数和浮点数打包成一个字节串，并将其存储在变量 data 中。最后，我们使用 open() 函数打开二进制文件（注意要以 'wb' 模式打开），并使用 write() 方法将字节串写入文件中。

示例代码

下面是一个完整的示例代码，它将一个自定义结构体写入二进制文件，然后读取该文件并解析其中的数据：

import struct

# 定义自定义结构体
class Point2D:
    def __init__(self, x, y):
        self.x = x
        self.y = y

# 定义结构体格式字符串
format_str = "dd"

# 创建 Point2D 对象
p = Point2D(3.14, 2.71)

# 将 Point2D 对象打包成字节串
data = struct.pack(format_str, p.x, p.y)

# 写入二进制文件
with open("point.bin", "wb") as f:
    f.write(data)

# 从二进制文件中读取数据
with open("point.bin", "rb") as f:
    data = f.read()

# 解析二进制数据
result = struct.unpack(format_str, data)

# 创建新的 Point2D 对象
p2 = Point2D(result[0], result[1])

# 输出结果
print(p2.x, p2.y)

在这个例子中，我们首先定义了一个自定义结构体 Point2D，它包含两个属性 x 和 y。然后，我们定义了一个格式字符串 format_str，表示两个双精度浮点数。接着，我们创建了一个 Point2D 对象 p，并使用 struct.pack() 函数将其打包成一个字节串，并将该字节串写入文件中。

接下来，我们使用 open() 函数打开二进制文件，并使用 read() 方法读取其中的所有数据。然后，我们使用 struct.unpack() 函数将该字节串解析为一个元组。最后，我们使用解析出的结果创建一个新的 Point2D 对象 p2，并输出其中的属性值。

位运算

除了使用 struct 模块之外，另一种处理二进制数据的方式是使用位运算。位运算是一种操作二进制数据的方式，它可以对单个字节或多个字节进行逐位操作，并产生一个新的二进制数值作为结果。

位运算的基础知识和应用场景

在计算机中，每个字节由8个位组成，每个位可能是0或1。在二进制数据处理中，我们通常需要对这些位进行逐位操作，例如检查某个位是否为1、将某个位设置为1或0、取反某个字节等等。这就是位运算所涉及的内容。

位运算可以应用于许多领域，包括网络编程、密码学、图像处理等。例如，在网络编程中，IP地址通常被表示为32位的二进制数，所以需要使用位运算来提取其子网掩码或进行其他操作。在密码学中，位运算可以用于加密和解密数据。在图像处理中，位运算可以用于处理像素数据。

Python 中的位运算符及其使用方法

在Python中，有几个位运算符可供使用。这些运算符用于对整数进行逐位操作，并返回一个整数作为结果。以下是常用的位运算符：

运算符	描述
&	按位与
\|	按位或
^	按位异或
~	按位取反
<<	左移
>>	右移

例如，如果要将一个字节中的第3位设置为1，可以使用以下代码：

# 将第3位设置为1
b = 0b00001000
b |= (1 << 2)

# 输出结果
print(bin(b))  # 0b00001100

在这个例子中，我们首先定义了一个变量 b，它包含一个字节的二进制数据。然后，我们使用按位或运算符（|）和左移运算符（<<）将第3位设置为1。最后，我们使用 bin() 函数将修改后的值转换为二进制字符串，并输出结果。

如何使用位运算处理二进制数据

除了对单个字节进行逐位操作之外，位运算还可以应用于多个字节的数据。例如，如果要提取一个32位的IP地址中的子网掩码，可以使用以下代码：

import socket

# 解析IP地址和子网掩码
ip = "192.168.0.1"
netmask = "255.255.255.0"

ip_int = int.from_bytes(socket.inet_aton(ip), byteorder="big")
netmask_int = int.from_bytes(socket.inet_aton(netmask), byteorder="big")

# 提取子网掩码
subnet_mask = ip_int & netmask_int

# 输出结果
print(socket.inet_ntoa(subnet_mask.to_bytes(4, byteorder="big")))  # "192.168.0.0"

在这个例子中，我们首先使用 socket 模块中的 inet_aton() 函数将IP地址和子网掩码转换为32位整数。然后，我们使用按位与运算符（&）提取子网掩码。最后，我们使用 inet_ntoa() 函数将二进制数据转换为点分十进制格式，并输出结果。

示例代码

下面是一个完整的示例代码，它使用位运算将一个字节中的数据拆分为两个半字节，并输出其十六进制表示：

# 定义字节和位数
byte = 0xAB
bits_per_half_byte = 4

# 提取左半字节和右半字节
left = (byte >> bits_per_half_byte) & ((1 << bits_per_half_byte) - 1)
right = byte & ((1 << bits_per_half_byte) - 1)

# 输出结果
print(hex(left), hex(right))  # "0xA", "0xB"

在这个例子中，我们首先定义了一个字节 byte 和每个半字节包含的位数 bits_per_half_byte。然后，我们使用右移运算符（>>）和按位与运算符（&）提取左半字节和右半字节。最后，我们使用 hex() 函数将两个半字节的值转换为十六进制字符串，并输出结果。

总结

本文介绍了如何使用Python处理二进制数据，包括使用 struct 模块解析和生成二进制数据，以及使用位运算处理单个字节或多个字节的数据。这些技术对于网络编程、密码学、图像处理等领域都非常重要，掌握这些技能可以让你更好地理解计算机系统并开发高效的应用程序。