使用 root 用户执行Docker、K8s命令？No!!!-docker root

随意使用 root 和特权可能会带来不必要的风险。本文展示了特权与 root 运行方式的不同之处以及特权的实际意义。

很多熟悉 Unix 系统的人（例如 macOS、Linux）都习惯于通过使用 sudo 随意提升我们的特权给 root 用户。在调试开发工具或尝试编辑受保护目录中的文件时，经常会发生这种情况，许多人在第一次尝试之后，执行命令不成功，都会默认使用 sudo。

了解 Docker 安全性的基础是了解实际的容器

Docker 提供了一个类似 --privileged flag，实际上这与我们随意使用的 sudo 有很大不同，它可能会使应用程序面临不必要的风险。本文将展示这与 root 运行方式有何不同（以及如何避免以 root 用户身份运行），并介绍特权（privileged）的实际含义。

作为 root 运行

Docker 允许其在主机操作系统上隔离进程、功能和文件系统，并且实际上，大多数容器默认以 root 身份运行。为了示例，本文将使用 DockerHub 上的三个最受欢迎镜像。

Postgres：

$ docker run -it postgres   
＃whoami   
root   
＃id -u   
0

Couchbase：

$ docker run -it couchbase sh   
＃whoami   
root   
＃id -u   
0

Alpine：

$ docker run -it alpine sh   
＃whoami   
root   
＃id -u   
0

我们可以看到，默认情况下，大多数镜像都以 root 用户身份运行。通常这可以简化调试过程，尤其是在我们要 exec 到容器时。尽管 root 用户的 Linux 功能非常有限，但最好还是避免以 root 用户身份运行。

避免以 root 身份运行

尽管在容器内部以 root 身份运行是非常正常的事，但是如果我们想要强化容器，仍然需要避免这种情况。首先，违反了最小特权原则，其次，更严格地说，容器将成为运行 Docker 命令的同一用户命名空间的一部分，并且如果容器能够转义，它将可以访问 volume、socket 等资源。

有两种避免以 root 用户身份运行的方法。

通过调整 Dockerfile 以使用特定用户：

// Dockerfile   
FROM microsoft/windowsservercore  
# Create Windows user in the container  
RUN net user /add patrick  
# Set it for subsequent commands 
 USER patrick

在运行时重写 User ID：

$ docker run -it --user 4000 postgres sh  
# whoami  
whoami: cannot find name for user ID 4000  
# id -u  
4000

关于特权

--privileged flag 将我们之前看到的用户 ID 直接映射到主机的用户 ID，并使其不受限制地访问其选择的任何系统调用。即使 root 在容器内部，在正常操作中，Docker 也会限制容器的 Linux 功能，例如限制 CAP_AUDIT_WRITE，它允许覆盖内核的审计日志，这是容器化工作负载不太需要的功能。

实际上，特权应该只在我们真正需要的特定设置中使用，它可以使容器访问主机（作为 root）几乎可以执行所有操作。从本质上讲，这是一个通行证，可以逃避容器包含的文件系统、进程、套接字和其他包含的项目。它有特定的用例，例如 Docker-in-Docker，其他 CI/CD 工具要求（从 Docker 容器内部需要 Docker 守护程序）以及需要极端网络的地方。

下面看一个使用 Ubuntu 镜像的示例（在 VM 内测试，这样就不会破坏任何东西）：

没有特权：

# whoami  
root # Notice here, we are still root!  
# id -u  
0  
# hostname  
382f1c400bd  
# sysctl kernel.hostname=Attacker  
sysctl: setting key "kernel.hostname": Read-only file system  # Yet we can't do this

有特权：

$ docker run -it --privileged ubuntu sh  
# whoami  
root. # Root again  
# id -u  
0  
# hostname  
86c62e9bba5e  
# sysctl kernel.hostname=Attacker  
kernel.hostname = Attacker # Except now we are privileged  
# hostname  
Attacker

Kubernetes 通过安全上下文提供相同的功能：

apiVersion: v1  
kind: Pod  
metadata:  
  name: nginx  
spec:  
  containers:  
  - name: nginx  
    image: nginx  
    securityContext:  
      privileged: true

此外，Kubernetes 有一个称为 PodSecurityPolicy 的强制机制，它是一个准入控制器（Kubernetes 在允许容器进入集群之前会对其进行检查），这里强烈建议不允许使用特权 Pod：

apiVersion: policy/v1beta1  
kind: PodSecurityPolicy  
metadata: 
  name: example  
spec: 
  privileged: false  # Don't allow privileged pods!

总结

到此为止，我们了解了一些有关 root 和 --privileged flag 的信息，以及它们与“主机”操作系统的关系。无论我们是否想限制容器的安全性或调试问题，都需要确保应用程序安全。