译者 | 李睿
审校 | 孙淑娟
随着Python越来越受欢迎,其局限性也越来越明显。一方面,编写Python应用程序并将其分发给没有安装Python的人员可能非常困难。
解决这一问题的最常见方法是将程序与其所有支持库和文件以及Python运行时打包在一起。有一些工具可以做到这一点,例如PyInstaller,但它们需要大量的缓存才能正常工作。更重要的是,通常可以从生成的包中提取Python程序的源代码。在某些情况下,这会破坏交易。
第三方项目Nuitka提供了一个激进的解决方案。它将Python程序编译为C语言二进制文件——不是通过将CPython运行时与程序字节码打包,而是通过将Python指令翻译成C语言。其结果能够以压缩包的形式分发,也可以与其他第三方产品一起打包到安装程序中。
Nuitka还试图保持与Python生态系统的最大兼容性,因此NumPy等第三方库可以可靠地工作。Nuitka还尽可能地对编译后的Python程序进行性能改进,但同样不会牺牲整体兼容性。但不能保证加快速度,因此它们在工作负载之间变化很大,并且某些程序可能不会体验到任何显著的性能改进。一般来说,最好不要依赖Nuitka来提高性能,而是作为捆绑解决方案。
安装Nuitka
Nuitka可以与Python 2.6到2.7和Python3.3到3.10配合使用。它可以为Microsoft Windows、macOS、Linux和FreeBSD/NetBSD编译二进制文件。需要注意的是,开发人员必须在目标平台上构建二进制文件;不能交叉编译。
对于每个平台,除了需要Python运行时外,还需要一个C编译器。在Microsoft Windows上,建议使用Visual Studio 2022或更高版本,但也可以使用MinGW-w64 C11(gcc 11.2或更高)。对于其他平台,可以在Visual Studio下的Windows上使用gcc 5.1或更高版本g++4.4或更高级别、clang或clang cl。
需要注意的是,如果使用Python 3.3或Python 3.4,由于工具依赖性,将需要Python 2.7。如果可以的话,所有这些都应该成为使用最新版本Python的理由。
最好将Nuitka与项目一起安装在虚拟环境中,作为开发依赖项而不是分发依赖项。Nuitka本身并未与项目捆绑在一起或被其项目使用;它执行捆绑。
首次使用Nuitka
在安装Nuitka之后,使用Nuitka或python-m nuitka调用它。
开发人员想要使用Nuitka做的第一件事是验证整个工具链是否正常工作,包括C编译器。要对此进行测试,可以编译一个简单的“Hello world”Python程序,将其命名为main.py:
使用Nuitka编译Python程序时,将入口点模块的名称作为参数传递给Nuitka,例如Nuitka main.py。当这样调用时,Nuitka将接收main.py并从中构建一个可执行文件。
需要注意的是,因为只是在测试Nuitka的功能,所以它只会将该Python文件编译为可执行文件。它不会编译任何其他内容,也不会捆绑任何内容以进行重新分发。但是编译一个文件应该足以确定Nuitka的工具链是否设置正确。
在编译完成后,应该会看到与Python程序位于同一目录中的二进制可执行文件。运行可执行文件以确保其正常工作。
还可以通过将--run作为命令行标志传递自动运行Nuitka编译的应用程序。
如果“Hello world”测试可执行文件有效,可以尝试将其打包为可再发行文件。以下解释这个过程。
需要注意的是,当使用Nuitka运行第一个测试编译时,它可能会在几秒钟内完成。而这只编译一个模块,而不是整个程序。使用Nuitka编译完整的程序可能需要几分钟或更长时间,具体取决于程序使用的模块数量。
使用Nuitka编译Python程序
在默认情况下,Nuitka只编译指定的模块。如果模块有来自程序中其他地方、标准库或第三方包的导入,则需要指定也应该编译这些导入。
考虑修改后的“Hello world”程序,其中有一个名为greet.py的相邻模块:
和修改后的main.py:
要编译这两个模块,可以使用--follow-imports开关:
该开关确保整个程序所需的所有导入都从导入语句中跟踪并一起编译。
另一个选项--nofollow-import-to允许从导入过程中排除特定的子目录。这一选项对于筛选出知道从未使用过的测试套件或模块很有用。它还允许提供通配符作为参数。
图1.使用Nuitka编译大型复杂程序。这个示例涉及编译Pyglet模块以及标准库中的许多模块,这需要几分钟的时间
(1)包括动态导入
现在出现了Python用户在尝试打包Python应用程序以进行分发时经常遇到的问题之一。--follow-imports选项仅遵循通过import语句在代码中显式声明的导入。它不处理动态导入。
为了解决这个问题,可以使用--include-plugin-directory开关为动态导入的模块提供一个或多个路径。例如,对于包含动态导入代码的名为mods的目录,可以使用:
(2)包括数据文件和目录
如果Python程序使用在运行时加载的数据文件,Nuitka也无法自动检测这些文件。要将单个文件和目录包含在Nuitka打包程序中,可能使用--include-data-files和--include-data-dir。
--include-data-files允许为要复制的文件指定通配符以及要将它们复制到的位置。例如,--include-data dir=/path/to/data=data会将/path.to/data中的所有内容复制到分发目录中的匹配目录数据。
-include-data-dir的工作方式大致相同,只是它不使用通配符;它只允许传递要复制的路径和要将其复制到的分发文件夹中的目标。例如,--include-data dir=/path/to/data=data会将/path.to/data中的所有内容复制到分发目录中的匹配目录数据。
(3)包括Python包和模块
指定导入的另一种方法是使用Python样式的包命名空间而不是文件路径,使用--include-package选项。例如,以下命令将包括mypackage,它在磁盘上的任何位置(假设Python可以找到它),以及它下面的所有内容:
如果包需要自己的数据文件,可以使用--include-package-data选项包含这些文件:
该命令告诉Nuitka获取包目录中实际上不是代码的所有文件。
如果只想包含单个模块,可以使用--include-module:
该命令告诉Nuitka只包含mypackage.mymodule,而不包含其他内容。
编译Python程序进行重新分发
当想用Nuitka编译Python程序以进行重新分发时,可以使用命令行开关--standalone来处理大部分工作。此开关自动跟随所有导入并生成一个dist文件夹,其中包含已编译的可执行文件和所需的任何支持文件。要重新分发程序,只需要复制此目录即可。
不要指望--standalone的程序在第一次运行时就可以工作。Python程序的一般动态性几乎保证了需要使用上述其他一些选项来确保编译的程序正常运行。例如,如果有一个需要特定字体的GUI应用程序,可能必须使用--include-data-files或--include-data-dir将它们复制到发行版中。
此外,如上所述,--standalone应用程序的编译时间可能比测试编译长得多。一旦对测试独立构建的应用程序需要多长时间有所了解,就为测试独立构建的应用程序所需的构建时间进行预算。
最后,Nuitka提供了另一个构建选项--onefile。对于那些熟悉PyInstaller的人来说,--onefile的工作方式与该程序中的相同选项相同:它将整个应用程序(包括其所有依赖文件)压缩为单个可执行文件,无需重新分发其他文件。但是,重要的是要知道--onefile在Linux和Microsoft Windows上的工作方式不同。在Linux上,它使用存档的内容安装一个虚拟文件系统。在Windows上,它会将文件解压缩到一个临时目录中并从那里运行它们,它必须为程序的每次运行执行这一操作。在Windows上使用--onefile可能会显著降低启动程序所需的时间。
原文标题:Intro to Nuitka: A better way to compile and distribute Python,作者:Serdar Yegulalp