在本文中,我将介绍一些经常被忽视的概念,这些概念将有助于优化Docker镜像开发和构建过程。
让我们从Docker构建过程的简短描述开始。这是通过使用Docker CLI工具运行docker build命令触发的过程。
docker build命令根据Dockerfile的文件中指定的指令构建Docker镜像。Dockerfile是一个文本文档,其中包含用户在命令行上调用以组装映像的所有有序命令。
Docker镜像由只读层组成。每层代表一个Dockerfile指令。这些层是堆叠在一起的,每个层都是上一层的变化的增量。通常可以认为这些层是缓存的一种形式。仅对更改的层进行更新,而不是对每个更改进行更新。
下面的示例描述了Dockerfile的内容:
- FROM registry.docker.com/baseimg/centos7-jdk8:latest
- MAINTAINER Luga "luga_sx@outofmemory.cn";
- RUN mkdir -p /tools/apps/{microserice}
- RUN mkdir -p /tools/apps/{microserice}/cache
- ADD {microserice}.jar /tools/apps/{microserice}/{microserice}.jar
- EXPOSE 9999
- ENV TZ 'Asia/Shanghai'
- ENTRYPOINT ["java","-Djava.security.egd=file:/dev/./urandom -Djava.awt.headless=true -Denv=DEV -Dapollo.cluster=DEFAULT -Dspring.profiles.active=prm -Dfile.encoding=utf-8","-jar","/tools/apps/{microserice}/{microserice}.jar"]
该文件中的每条指令代表Docker镜像中的单独一层。以下是每条指令的简要说明:
- FROM:从JDK创建一个层Docker镜像,(此处的镜像非Docker Hub上面直接拉取,而是基于源码自定义制作)
- COPY:从Docker客户端的当前目录添加文件
- RUN:使用make构建您的应用程序
- CMD:指定在容器中运行什么命令
基于上述命令行,在构建过程中执行上述命令时,将在Docker镜像中创建层,一个完整的Docker镜像将由此诞生。然而,在实际的项目活动中,我们需要从性能、稳定性、安全性等等方面对我们所创建的Docker镜像进行不断的调整、优化,以满足业务场景需求。
针对Docker的构建过程,我想分享一些优化建议,以帮助有效地构建镜像:
临时容器
Dockerfile定义的镜像会生成短暂的容器。在这种情况下,临时容器是指可以停放并销毁,然后重建的容器,并使用绝对最小的设置和配置替换为新生成的容器。临时容器可以认为是一次性的。每个实例都是新的,并且与以前的容器实例无关。在开发Docker镜像时,我们应该利用尽可能多的临时模式。
减少不必要的软件包
尽量避免安装不必要的文件和软件包。Docker镜像应保持精简。这有助于提高可移植性,缩短构建时间,降低复杂性并减小文件大小。例如,在大多数情况下,不需要在容器上安装文本编辑器。不要安装任何非必需的应用程序或服务。
实现.dockerignore文件
.dockerignore文件排除与在其中声明的模式匹配的文件和目录。这有助于避免将不必要的大文件或敏感文件和目录发送到守护程序,并避免将它们添加到公共镜像。
要在不重构源存储库的情况下排除与构建无关的文件,请使用.dockerignore文件。该文件支持类似于.gitignore文件的排除模式。
排序多行参数
尽可能通过字母数字排序多行参数来简化以后的更改。这有助于避免软件包重复,并使列表更易于更新。
解耦应用
依赖于其他应用程序的应用程序被视为“已耦合”。在某些情况下,它们托管在同一主机或计算节点上。这在非容器部署中很常见,但对于微服务,每个应用程序应存在于其自己的单独容器中。将应用程序解耦到多个容器中,可以更轻松地水平缩放和重用容器。例如,一个解耦的Web应用程序堆栈可能包含三个单独的容器,每个容器都有自己的唯一镜像:一个用于管理Web应用程序,一个用于管理数据库的容器以及一个用于内存中缓存的容器。将每个容器限制为一个进程是一个很好的经验法则。根据业务规则,使容器保持清洁和模块化。然后,如果容器相互依赖,则可以使用Docker容器网络来确保这些容器可以通信。
最小化层数
仅使用RUN、COPY和ADD等指令即可创建图层。其他指令仅仅是创建临时的中间镜像,并且最终不会增加构建的大小。在可能的情况下,我们可以在构建过程中包含其他工具或者调试信息,而无需增加最终镜像的大小。
利用构建缓存
在构建镜像时,Docker会逐步执行Dockerfile中的指令,并按顺序执行每个指令。在每条指令中,Docker都会在其缓存中搜索要使用的现有镜像,而不是创建新的重复镜像。
Docker镜像通常在构建的过程中遵循以下基本规则:
1、从已在缓存中的父镜像开始,将下一条指令与从该基本镜像派生的所有子镜像进行比较,以查看是否其中一个是使用完全相同的指令构建的。如果不是,则高速缓存无效。在大多数情况下,仅将Dockerfile中的指令与子镜像之一进行比较就足够。
2、对于ADD和COPY指令,将检查镜像中文件的内容,并为每个文件计算一个校验标识。在这些校验标识中通常不考虑文件的最后修改时间和最后访问时间。在缓存查找期间,将校验标识与现有镜像中的进行比较。如果文件中的任何内容(例如内容和元数据)发生了更改,则缓存将无效。
3、除了ADD和COPY命令外,缓存检查不会查看容器中的文件来确定缓存是否匹配。例如,在处理RUN apt-get -y update命令时,不会检查容器中更新的文件以确定是否存在缓存命中。在这种情况下,命令字符串用于查找匹配项。
4、缓存无效后,所有后续Dockerfile命令都会生成新镜像,并且不使用缓存。
在CI管道中优化Docker镜像构建
前面几节中提到的所有优化概念对于在CI管道中实施都是有效的。特别是缓存。如果Dockerfile发生了变化,那么利用缓存仍然是减少构建时间的最佳方法。作为CI管道的一部分,这是如何工作的?当使用Docker执行器作为构建作业的运行时,可以利用称为Docker层缓存(DLC)的功能来加快构建速度。
当构建Docker镜像是CI流程的常规部分时,DLC是一项很不错的功能。DLC将保存在作业中创建的镜像层。DLC会缓存在工作期间构建的任何Docker镜像的各个层,然后在后续的CircleCI运行中重用未更改的镜像层,而不是每次都重新构建整个镜像。
Dockerfile提交的次数越少,镜像构建步骤将运行得越快。DLC可以与机器执行程序和远程Docker环境(setup_remote_docker)一起使用。重要的是要注意,DLC仅在使用docker build,docker compose或类似的Docker命令创建自己的Docker镜像时有用,它不会减少所有构建启动初始环境所花费的时间。