優化 Kubeflow 部署,配置多 Master、共享存儲,使用 PyTorchJob/TFJob 配合 checkpoint 策略,保留 MLOps 全流程能力 這些優化的核心目標是: 1. 提高可用性 (HA):通過多 Master 消除單點故障。 2. 提升效率:通過共享存儲和合理的 Checkpoint 策略,加速訓練、方便模型複用和故障恢復。