news 2026/2/1 15:57:07

Kubernetes 运维实战:etcd 备份恢复、集群升级与证书更新

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Kubernetes 运维实战:etcd 备份恢复、集群升级与证书更新

在 Kubernetes 集群的日常运维中,etcd 数据管理、版本升级和证书更新是确保集群稳定运行的三大核心任务。本文将基于实战经验,详细介绍这三项关键操作的具体步骤和注意事项。

一、etcd 备份与恢复操作

etcd 作为 Kubernetes 的数据存储核心,其数据安全性对集群至关重要。无论是单节点还是多节点集群,定期备份和掌握恢复演练都是必备的运维工作。

1.1 备份操作

单 master 集群备份

bash

运行

ETCDCTL_API=3 etcdctl snapshot save /opt/etcd-back/snap.db \ --endpoints=https://127.0.0.1:2379 \ --cacert=/etc/kubernetes/pki/etcd/ca.crt \ --cert=/etc/kubernetes/pki/etcd/peer.crt \ --key=/etc/kubernetes/pki/etcd/peer.key

多 master 集群备份:需要在每个 master 节点执行备份命令:

bash

运行

# 在 k8s-01 节点 ETCDCTL_API=3 etcdctl --endpoints="https://127.0.0.1:2379" \ --cacert=/etc/kubernetes/pki/etcd/ca.crt \ --cert=/etc/kubernetes/pki/etcd/peer.crt \ --key=/etc/kubernetes/pki/etcd/peer.key \ snapshot save /snap-$(date +%Y%m%d%H%M).db # 在 k8s-02 节点执行相同命令

备份完成后,建议将快照文件复制到安全的外部存储,并验证备份文件完整性:

bash

运行

# 查看备份文件详情 etcdctl snapshot status snap.db -w table

1.2 恢复操作

单 master 集群恢复步骤

  1. 停止控制平面组件(通过移动静态 Pod 清单实现):

bash

运行

mv /etc/kubernetes/manifests/ /etc/kubernetes/manifests-backup/
  1. 备份现有数据目录:

bash

运行

mv /var/lib/etcd /var/lib/etcd.bak
  1. 从快照恢复数据:

bash

运行

ETCDCTL_API=3 etcdctl --endpoints="https://127.0.0.1:2379" \ --cert="/etc/kubernetes/pki/etcd/server.crt" \ --key="/etc/kubernetes/pki/etcd/server.key" \ --cacert="/etc/kubernetes/pki/etcd/ca.crt" \ snapshot restore /opt/etcd-back/snap.db --data-dir=/var/lib/etcd/
  1. 重启控制平面组件:

bash

运行

mv /etc/kubernetes/manifests-backup /etc/kubernetes/manifests

多 master 集群恢复步骤

  1. 在所有 master 节点停止控制平面组件并备份数据目录(同单节点步骤 1-2)

  2. 分别在每个节点执行恢复命令(以两个节点为例):

bash

运行

# 在 k8s-01 节点 ETCDCTL_API=3 etcdctl snapshot restore /snap-202207182330.db \ --name=k8s-01 \ --cacert=/etc/kubernetes/pki/etcd/ca.crt \ --cert=/etc/kubernetes/pki/etcd/peer.crt \ --key=/etc/kubernetes/pki/etcd/peer.key \ --initial-advertise-peer-urls=https://192.168.1.123:2380 \ --initial-cluster-token=etcd-cluster-0 \ --initial-cluster=k8s-01=https://192.168.1.123:2380,k8s-02=https://192.168.1.124:2380 \ --data-dir=/var/lib/etcd # 在 k8s-02 节点执行类似命令,注意修改节点名称和地址
  1. 在所有 master 节点重启控制平面组件

二、Kubernetes 集群升级指南

集群升级需要遵循严格的步骤,确保升级过程中业务不受影响。以下是从 v1.28.15 升级到 v1.29.15 的示例流程。

2.1 升级前准备

  1. 检查集群状态,确保所有节点健康:

bash

运行

kubectl get nodes kubectl get pods --all-namespaces
  1. 备份重要数据:
  • etcd 数据备份(参考第一节)
  • 关键配置文件备份:/etc/kubernetes/目录
  1. 检查可升级版本:

bash

运行

kubeadm upgrade plan

2.2 升级控制平面节点

  1. 验证升级计划差异:

bash

运行

kubeadm upgrade diff 1.29.15
  1. 执行升级:

bash

运行

kubeadm upgrade apply v1.29.15
  1. 升级 kubelet 和 kubectl:

bash

运行

yum update -y kubelet systemctl daemon-reload systemctl restart kubelet

2.3 升级工作节点

  1. 标记节点不可调度:

bash

运行

kubectl drain <node-name> --ignore-daemonsets
  1. 在工作节点执行升级:

bash

运行

kubeadm upgrade node yum update -y kubelet systemctl daemon-reload systemctl restart kubelet
  1. 恢复节点调度:

bash

运行

kubectl uncordon <node-name>

2.4 升级验证

升级完成后,验证集群状态:

bash

运行

kubectl get nodes # 确认所有节点版本已更新且状态为 Ready kubectl get pods --all-namespaces # 确认所有系统组件正常运行

三、Kubernetes 证书更新流程

Kubernetes 证书默认有效期为 1 年,需要定期更新以避免集群故障。

3.1 使用 kubeadm 自动更新(推荐)

  1. 检查证书过期时间:

bash

运行

kubeadm certs check-expiration
  1. 更新所有证书:

bash

运行

sudo kubeadm certs renew all
  1. 验证更新结果:

bash

运行

kubeadm certs check-expiration
  1. 重启控制平面组件:

bash

运行

# 对于静态 Pod 管理的组件,删除 Pod 使其重建 kubectl delete pods -n kube-system kube-apiserver-<node-name> kubectl delete pods -n kube-system kube-controller-manager-<node-name> kubectl delete pods -n kube-system kube-scheduler-<node-name>

3.2 手动更新证书(非 kubeadm 部署)

  1. 检查证书过期时间:

bash

运行

sudo openssl x509 -in /etc/kubernetes/pki/apiserver.crt -noout -text | grep "Not After"
  1. 生成新证书(以 apiserver 为例):

bash

运行

openssl genrsa -out apiserver.key 2048 openssl req -new -key apiserver.key -out apiserver.csr -subj "/CN=kube-apiserver" openssl x509 -req -in apiserver.csr -CA ca.crt -CAkey ca.key -CAcreateserial \ -out apiserver.crt -days 365
  1. 替换旧证书并重启组件:

bash

运行

# 替换证书 cp apiserver.crt apiserver.key /etc/kubernetes/pki/ # 重启服务 sudo systemctl restart kube-apiserver kube-controller-manager kube-scheduler

3.3 注意事项

  1. 证书更新前务必备份:

bash

运行

tar -czvf /root/kubernetes-pki-backup.tar.gz /etc/kubernetes/pki
  1. 确保所有节点时间同步,避免因时间差异导致证书验证失败

  2. 更新后全面检查集群状态,包括节点、Pod 和服务可用性

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/29 11:38:01

用Matlab探索齿轮系统的奥秘:刚度计算与动力学响应

Matlab计算齿轮啮合刚度计算&#xff0c;包括赫兹刚度弯曲刚度等子程序。 以及六自由度齿轮系统动力学响应计算。在机械传动领域&#xff0c;齿轮系统扮演着至关重要的角色。深入了解齿轮的啮合刚度以及系统的动力学响应&#xff0c;对于优化设计、提高性能和延长使用寿命都有着…

作者头像 李华
网站建设 2026/1/26 19:23:52

【node阅读-0】下载编译node

一、下载编译-windows build 工具要求安装方式Visual Studio 2022版本 17.13 或更高必须选 “Desktop development with C” workload必须安装 ClangCL 组件&#xff1a;- C Clang Compiler for Windows (Microsoft.VisualStudio.Component.VC.Llvm.Clang)- MSBuild support f…

作者头像 李华
网站建设 2026/1/31 17:49:38

EmotiVoice支持动态情感过渡,实现平滑情绪变化

EmotiVoice&#xff1a;让语音真正“动情”的合成引擎 在虚拟偶像的直播中&#xff0c;一句从温柔期待逐渐转为委屈落泪的台词&#xff0c;让弹幕瞬间刷满“破防了”&#xff1b;在互动叙事游戏中&#xff0c;NPC因玩家选择而情绪骤变&#xff0c;声音颤抖着说出那句“我信任你…

作者头像 李华
网站建设 2026/1/31 8:16:29

EmotiVoice推理时显存占用优化方案(适用于低配GPU)

EmotiVoice推理时显存占用优化方案&#xff08;适用于低配GPU&#xff09; 在AI语音技术飞速发展的今天&#xff0c;越来越多开发者希望将高表现力的文本转语音&#xff08;TTS&#xff09;系统部署到本地设备。EmotiVoice作为一款支持多情感合成与零样本音色克隆的开源TTS引擎…

作者头像 李华
网站建设 2026/1/30 2:41:41

EmotiVoice支持HTTPS加密传输,保障数据安全

EmotiVoice 支持 HTTPS 加密传输&#xff1a;构建安全可信的语音合成服务 在智能语音技术日益普及的今天&#xff0c;从虚拟助手到有声读物、在线教育乃至游戏中的角色对话&#xff0c;文本转语音&#xff08;TTS&#xff09;系统正深度融入我们的数字生活。开源项目如 EmotiVo…

作者头像 李华
网站建设 2026/1/31 5:04:41

2025年最新AI编程助手深度横评:按功能类型选对你的“副驾”

在AI编程工具百花齐放的2025年&#xff0c;开发者面临的不再是“有没有”的选择&#xff0c;而是“选哪个”的困惑。市场上没有绝对的“全能冠军”&#xff0c;就像长途驾驶需要不同专业副驾协同——有的擅长在高速公路上平稳巡航&#xff08;通用代码补全&#xff09;&#xf…

作者头像 李华