Kubernetes管理Skill：K8s集群操作 - 学习笔记-流行Skills

一、Kubernetes管理Skill的设计

Kubernetes管理Skill是一套基于AI的集群运维工具，旨在简化K8s操作命令、自动生成和审查YAML配置、降低K8s运维门槛。通过自然语言交互，开发者无需记忆复杂的kubectl命令即可完成日常集群管理任务。

该Skill的核心设计理念包括：将高频K8s操作封装为可复用的能力模块、通过AI解析自然语言意图并映射为正确的kubectl指令、在处理过程中自动注入安全最佳实践和运维规范。

自然语言驱动

用日常语言描述集群操作需求，自动转换为准确的kubectl命令

安全最佳实践

所有生成的YAML自动包含资源限制、健康检查、安全上下文

故障诊断

智能分析Pod日志和事件，快速定位问题根因

多集群管理

支持多个K8s集群上下文切换，统一管理入口

设计目标：让Kubernete集群管理像执行普通命令一样简单，同时确保生产环境的安全性和可靠性。

二、资源YAML生成和管理

YAML配置文件是Kubernete管理的核心。该Skill能够根据需求描述自动生成标准化的Deployment、Service、ConfigMap等资源YAML，并自动应用业界最佳实践。

2.1 生成Deployment YAML

通过自然语言描述即可生成完整的Deployment配置，包含副本数、镜像、端口、环境变量等关键信息。

示例：生成一个Nginx Deployment，3个副本，资源限制为CPU 500m/内存512Mi
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
  labels:
    app: nginx
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:1.25
        ports:
        - containerPort: 80
        resources:
          requests:
            cpu: 250m
            memory: 256Mi
          limits:
            cpu: 500m
            memory: 512Mi
        livenessProbe:
          httpGet:
            path: /
            port: 80
          initialDelaySeconds: 30
          periodSeconds: 10
        readinessProbe:
          httpGet:
            path: /
            port: 80
          initialDelaySeconds: 5
          periodSeconds: 5

2.2 生成Service和ConfigMap

支持生成ClusterIP、NodePort、LoadBalancer等多种类型的Service，以及ConfigMap和Secret配置管理。

生成一个NodePort Service，暴露端口30080到容器80
---
apiVersion: v1
kind: Service
metadata:
  name: nginx-service
spec:
  type: NodePort
  selector:
    app: nginx
  ports:
  - port: 80
    targetPort: 80
    nodePort: 30080

最佳实践：生成YAML时Skill会自动添加资源requests/limits限制、存活探针(livenessProbe)和就绪探针(readinessProbe)、以及Pod反亲和性配置，确保生产环境的高可用性。

2.3 审查YAML配置

Skill可以审查已有的YAML文件，识别潜在风险和问题，包括：资源限制缺失、安全上下文配置不当、镜像标签使用latest、环境变量泄露敏感信息、Pod安全策略不符合规范等。

审查发现的常见问题：

缺少资源限制 - 可能导致节点资源被过度消耗
容器以root权限运行 - 存在安全风险
使用latest镜像标签 - 难以追踪版本和回滚
缺少健康检查探针 - 流量可能被路由到不可用的Pod
ConfigMap中明文存储敏感信息 - 应使用Secret替代

2.4 多环境配置差异化

支持根据开发、测试、生产等不同环境生成差异化的YAML配置。通过定义环境变量覆盖和Kustomize overlay机制，实现一套基础配置多环境适配。

三、集群状态和监控

实时掌握集群运行状态是运维的基础。Skill提供了全面的集群状态检查和监控能力，涵盖节点、Pod、资源和事件等多个维度。

3.1 节点状态检查

快速查看集群中所有节点的状态、资源容量、已分配资源和节点条件等信息。

kubectl get nodes -o wide
kubectl describe node <node-name>
kubectl top nodes

3.2 Pod状态和事件查看

查看Pod的运行状态、重启次数、所在节点以及最近事件，快速识别异常Pod。

kubectl get pods --all-namespaces -o wide
kubectl get events --sort-by='.lastTimestamp'
kubectl describe pod <pod-name> -n <namespace>

3.3 资源使用监控

通过metrics-server获取CPU和内存使用数据，监控资源水位，及时发现资源瓶颈。

# 查看节点资源使用
kubectl top nodes

# 查看Pod资源使用（按CPU降序排列）
kubectl top pods --all-namespaces --sort-by=cpu

# 查看命名空间资源使用汇总
kubectl top pods -n <namespace>

监控建议：建议结合Prometheus和Grafana建立完整的监控体系，设置资源使用率告警阈值（如CPU使用率超过80%时告警）。

3.4 查看集群事件和告警

集群事件记录了所有重要操作和状态变更，是排查问题的第一手信息源。Skill可以对事件进行聚合分析和异常检测。

kubectl get events -A --watch
kubectl get events --field-selector type=Warning -A

监控经验：定期查看集群事件可以发现潜在的隐患。关注OOMKill、ImagePullBackOff、CrashLoopBackOff等异常事件，及时处理避免影响业务。

四、调试和故障排查

当应用出现异常时，快速定位和解决问题至关重要。Skill提供了一系列调试工具，从日志查看、容器调试到端口转发，覆盖各种故障场景。

4.1 查看Pod日志

查看Pod的日志输出是调试应用问题的第一步。支持实时跟踪、过滤关键字、查看历史日志等。

# 查看Pod日志
kubectl logs <pod-name> -n <namespace>

# 实时跟踪日志输出
kubectl logs -f <pod-name> -n <namespace>

# 查看前几行日志（如容器重启后）
kubectl logs --previous <pod-name> -n <namespace>

# 根据标签选择器查看多个Pod的日志
kubectl logs -l app=nginx --tail=100

4.2 exec进入容器调试

当需要深入容器内部排查问题时，可以通过exec进入容器执行诊断命令。

kubectl exec -it <pod-name> -n <namespace> -- /bin/sh
kubectl exec -it <pod-name> -n <namespace> -c <container-name> -- bash

调试常用命令：进入容器后可以执行 ps aux 查看进程、netstat -tlnp 检查端口监听、curl localhost:port 测试服务连通性、cat /etc/config/* 检查配置是否正确加载。

4.3 端口转发调试服务

对于集群内部的服务，可以使用端口转发将服务端口映射到本地，方便开发和调试。

# 将本地8080端口转发到Pod的80端口
kubectl port-forward pod/<pod-name> 8080:80 -n <namespace>

# 转发Service
kubectl port-forward service/<service-name> 8080:80 -n <namespace>

4.4 诊断Pod启动失败原因

当Pod无法正常启动时，系统化排查流程可以帮助快速定位根因。

现象	常见原因	排查命令
ImagePullBackOff	镜像不存在或拉取凭证错误	kubectl describe pod <pod>
CrashLoopBackOff	应用启动失败或探针检查失败	kubectl logs --previous <pod>
Pending	资源不足或PVC未绑定	kubectl describe pod <pod>
OOMKilled	内存限制过低	kubectl describe pod <pod>
CreateContainerConfigError	ConfigMap或Secret引用错误	kubectl describe pod <pod>

五、应用部署管理

应用部署的生命周期管理是集群运维的核心工作。Skill提供了从部署、更新、回滚到扩缩容的完整管理能力，支持多种部署策略和工具集成。

5.1 滚动更新和回滚

Skill支持执行滚动更新操作，控制更新速率和中断预算，并在更新出现问题时快速回滚到之前的版本。

# 更新镜像版本（滚动更新）
kubectl set image deployment/nginx-deployment nginx=nginx:1.26

# 查看更新状态
kubectl rollout status deployment/nginx-deployment

# 回滚到上一个版本
kubectl rollout undo deployment/nginx-deployment

# 回滚到指定版本
kubectl rollout undo deployment/nginx-deployment --to-revision=2

# 查看历史版本
kubectl rollout history deployment/nginx-deployment

滚动更新策略配置：可以通过 maxSurge 控制最大超出副本数，maxUnavailable 控制最大不可用副本数，确保更新过程中服务不中断。

5.2 手动/自动扩缩容

根据业务负载调整应用副本数，支持手动扩缩容和基于CPU/内存利用率的HPA自动扩缩容。

# 手动扩缩容
kubectl scale deployment/nginx-deployment --replicas=5

# 创建HPA自动扩缩容（CPU使用率超过60%时扩容）
kubectl autoscale deployment/nginx-deployment --cpu-percent=60 --min=3 --max=10

# 查看HPA状态
kubectl get hpa -w

5.3 Ingress和证书管理

配置Ingress规则将集群内部服务暴露到外部，并结合cert-manager自动管理TLS证书。

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: nginx-ingress
  annotations:
    cert-manager.io/cluster-issuer: "letsencrypt-prod"
spec:
  ingressClassName: nginx
  tls:
  - hosts:
    - example.com
    secretName: example-tls
  rules:
  - host: example.com
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: nginx-service
            port:
              number: 80

5.4 使用Helm管理Chart

Helm是Kubernete的包管理器，Skill支持Helm Chart的安装、升级、回滚和自定义配置。

# 添加Helm仓库
helm repo add bitnami https://charts.bitnami.com/bitnami

# 安装Chart（自定义配置）
helm install my-release bitnami/nginx --set service.type=NodePort --set resources.limits.memory=512Mi

# 升级Release
helm upgrade my-release bitnami/nginx -f values-prod.yaml

# 回滚Release
helm rollback my-release 1

# 查看Release状态
helm status my-release

核心要点总结：Kubernetes管理Skill通过AI能力将复杂的K8s运维操作简化为自然语言交互，涵盖资源YAML生成与管理、集群状态监控、故障排查调试、应用部署管理四大核心领域。掌握该Skill可以显著提升K8s集群的运维效率，降低操作风险和运维门槛，是DevOps工程师和平台工程师的必备工具。