导读:
Kubernetes如今风靡一时,所有主要的云服务提供商都将其作为部署云原生应用的解决方案。Kubernetes有哪些显著的特性和工具优势,让企业开始接受它?本文作者给出了系统的梳理。
“Action without orchestration is burn out; orchestration w/o action is management.”
没有编排的行动是完蛋的,没有行动的编排是管理,行动加上编排是领导。― Orrin Woodward”
- Kubernetes是一种优化资源利用率的抽象概念,它允许跨节点集群高效地进行应用程序分发。
- Kubernetes,舵手 !
- Kubernetes是一个希腊语单词,意思是“舵手”。
它是一个由谷歌开始的开源项目,从Borg衍生而来,在谷歌内部使用了好几年,现在用于容器管理。目前由CNCF托管。
Kubernetes(缩写为K8S)是一种抽象,它通过容器来优化CPU和内存等资源的利用率,从而可以跨多个节点高效地进行应用程序分发。K8S可以在裸金属或任何云基础设施提供商的任何地方运行。这个新工具是云无关的,聚焦于在基础设施内部部署和调度容器,而不是直接利用节点/主机。
K8S提供的一些平台特性是:
- 使用pod进行容器分组
- 自愈
- 自动伸缩
- DNS管理
- 负载均衡
- 滚动更新或回滚
- 资源监控和日志记录
Kubernetes 架构
Kubernetes集群由主节点和一组worker/从属节点组成。
Kubernetes的主节点组成部分是:
- API服务器(API Server):用户通过Rest操作或kubectl cli与manifestyaml交互。它用于所有与API对象相关的操作,如pod创建,它是在etcd中存储所需状态的***组件。
- 调度器(Scheduler):用户使用kubectl cli向API服务器发出一个命令来创建pod。在执行此操作之后,调度程序根据资源需求将pods分配给可用节点。
- 控制器管理器(Controller Manager):控制器管理器基于集群状态对资源进行操作,并根据清单yaml进行更改,将当前状态应用程序达到所需状态。换句话说,控制器管理器可以将实际状态与所需的状态进行协调。在控制器管理器中有多个专用的控制器,以便简化集群管理。例如,节点控制器检查是否有当前正在运行的节点停机,并采取纠正措施,而复制控制器确保在节点中实际运行所需的pod数量。
- etcd:所有关于集群状态的配置信息都以key/value对的形式存储在etcd中,这个组件由CoreOS实现。这些状态显示了集群中包含的节点和需要在其中运行的pods。
- 插件(Addons):为了将服务器DNS记录添加到Kubernetes,我们需要一个集群DNS 插件。该插件有助于扩展与Kubernetes集群或节点相关的功能。还有许多其他的插件,比如用于日志记录的fluntd、基于角色访问的rbac等等。
安装在Kubernetes节点中的组件是:
- Docker: Docker守护进程在每个节点中运行。如果容器镜像不存在,那么它将从docker注册中提取并运行。
- Kubelet: Kubelet节点代理定期检查容器内容器的健康状况。此外,它还确保按manifest安装卷,并下载运行容器所需的敏感信息。它还将节点链接到API服务器。
- Kube-proxy: Kube-proxy在每个节点上运行,以便在pod中进行负载分配,并为外部主机提供可用的服务。它使用iptable规则或轮询调度来将请求转发到正确的容器。
对于高可用和容错的Kubernetes生产和部署,需要多个主节点和一个单独的etcd集群。如果运行了三个API服务器,则需要一个网络负载平衡器来正确地将负载分配到服务器。***剩下的问题是需要三个角色来管理控制器管理器和调度器以维护集群状态和分配节点。为了更高效、更可靠地执行它,只有一个参与者应该执行实际的更改,但是在机器宕机的情况下仍然需要其他实例。为了解决这个问题,我们可以在API中使用lease-lock 来执行主选,而使用它的标志是leader- elect。
Kubernetes通过以下任一种方式实现从Pod到Pod的联网:
- 第2层(切换解决方案)
- 第3层(桥接解决方案)
- overlay解决方案(weave andflannel)
它们允许在集群中进行Pod和Pod之间的通信,并为每个Pod提供***的IP地址。
Kubernetes关键特性
Pod: Collection of Containers容器集
pod是K8S中的一个部署单元,它有一个单独的IP地址。在它内部,Pause容器通过持有一个网络的名称空间、端口和ip地址来处理网络,而这个地址又被pod中的所有容器使用。
ReplicationController
ReplicationController确保在给定的时间内启动和运行所需的容器数量。Pod模板用于定义容器镜像标识符、端口和标签。使用liveness probes,它可以自动治愈pods,并按照期望的状态维持pods数量。也可以通过使用kubectl来手动控制副本计数。
存储管理
Pods本质是短暂的——任何储存在pod或容器中的信息都会丢失。为了存储数据,一个持久的系统是必需的,即使在一个pod被杀死或重新调度之后,如Amazon Elastic Block Storage (EBS),谷歌GCE PD,或一个分布式文件系统,如网络文件系统(NFS)或Gluster文件系统(GFS)。
资源监控
监控是成功运行基础设施的关键之一,它是可靠性等级的基础。Heapster是一个从kubelet收集指标的插件,与cAdvisor集成。cAdvisor用于收集与运行容器的CPU、内存、I/O和网络统计数据相关的指标。由Heapster收集的数据存储在influx DB中,并使用Grafana在UI中显示。还有其他可使用的接收器,如Kafka或Elastic Search,可以用于存储数据并显示在用户界面中。
健康检查
kubernetes的健康检查由kubelet代理完成。它分为liveness 和 readiness probes两种。
处理程序主要有三种类型:
- ExecAction:执行Shell命令,如果生成的退出代码为0,则意味着实例是健康的。在任何其他情况下,实例不健康。
- TCPAction: Kubelet将尝试连接到指定的端口,如果它建立到给定socket的连接,诊断成功。
- HTTPGetAction:基于应用程序公开的HTTP端点,kubelet对指定路径上的容器IP地址执行HTTP GET请求,如果返回200到300个响应代码,诊断就成功了。
每个probe通常有三个结果:
- 成功:容器通过诊断。
- 失败:容器未通过诊断。
- 未知:诊断失败,不要采取任何行动。
水平自动伸缩功能
自动伸缩使用基于负载的计算资源。K8S scale pod自动使用Horizontal Pod Autoscaler对象,从Heapster获取度量数据,并相应地减少或增加pod的数量。例如,如果自动伸缩是基于内存利用率,那么控制器就会开始在pod中观察内存使用情况,并根据容量对该副本计数进行扩展。
服务发现
Kubernetes pods是短暂的,ReplicationController 在任何节点上动态创建它们,因此在集群中发现服务是一个挑战。服务需要发现一个IP地址和动态的端口,以便在集群中进行通信。
有两种主要的方法来找到它——环境变量(Environment variables)和DNS。
更可取的是基于DNS的服务发现,它可以作为集群附加组件使用。跟踪集群中的新服务,并为每个服务创建一组DNS记录。
网络
要完全管理集群,必须正确设置网络,并解决三个网络问题:
- 容器到容器的通信:pods通过本地主机通信,并使用Pause容器网络名称空间,解决这个问题。
- Pod-to-Pod通信:由软件定义的网络解决,如上面架构图所示。
- 外部到pod通信:由服务覆盖。
Kubernetes提供了广泛的网络选择。现在还支持容器网络接口(CNI)插件,这是容器的通用插件架构。目前支持多种编排工具,如Kubernetes、Mesos和CloudFoundry。
有各种覆盖插件:
- Flannel来自CoreOS,是一个非常简单的etcd后端覆盖网络。它创建了另一个虚拟的、可路由的IP / Pod网络,运行在底层网络之上;ergo,称为覆盖网络。在这个覆盖网络中,每个Pod将被分配一个IP地址,并且会直接使用它们的IP进行通信。
- Weave通过CNI插件提供与Kubernetes兼容的覆盖网络。
服务
Kubernetes服务是一种抽象,它将通信路由到一组pod,以提供一个微服务。Kube-proxy在每个节点上运行,并通过设置一组iptable规则来管理服务。
设立服务的模式有三种:
- ClusterIP(只提供内部访问)
- NodePort(需要在端口上打开防火墙;不建议公开访问)
- 负载均衡器(由AWS或GKE等公有云供应商拥有)
ConfigMap和Secret
ConfigMap使注入基于环境的配置成为可能,同时使容器镜像在多个环境中保持一致。这些可以通过安装卷或环境变量(environment variables)来注入,并将这些值存储在key/value格式中。
Secrets用于存储敏感数据,如密码、OAuth令牌等。
滚动部署和回滚
部署对象持有一个或多个副本集,以支持回滚机制。换句话说,每次更改部署配置时都会创建一个新的副本集,并保留以前的版本,以便有回滚选项。只有一个副本集将在特定时间处于活动状态。
对于滚动部署,需要的策略类型是RollingUpdate和minReadySecs,它指定应用程序为服务流量所花费的时间。如果在应用程序pod还没有准备好时,将其保持默认状态,它将不可用。这个动作可以通过以下命令来完成:
或者,
通过替换部署yaml文件中的内容并运行以下命令:
如果新版本不像预期的那样,那么可以通过运行以下命令回滚到以前的版本:
如果所需版本是前一版本以外的版本,则运行:
Logging 记录
要监视应用程序的行为,必须检查日志——每个pod生成多个日志。要开始在仪表板UI中搜索日志,必须有一些机制收集并将它们聚合到一个日志查看器中。为了说明这一点,Fluentd是一个开源工具,也是CNCF的一部分,与 Elastic Search 和 Kibana ***结合。