Cụm GPU Clusters giờ đây bao gồm khả năng tự động mở rộng, RBAC, khả năng quan sát toàn diện và các hoạt động tự phục hồi được tích hợp sẵn. Chuyển từ hạ tầng GPU thử nghiệm sang các nền tảng AI sẵn sàng cho sản xuất với khả năng linh hoạt, quản lý đa đội và phục hồi tự động khi gặp sự cố.
Các khả năng chính: 👉 Tự động mở rộng với Kubernetes Cluster Autoscaler — Tăng cường khả năng GPU linh hoạt theo nhu cầu thời gian thực 👉 Hoạt động tự phục hồi — Kiểm tra sức khỏe chủ động và sửa chữa nút chỉ với 3 cú nhấp chuột để giảm MTTR 👉 Kiểm soát truy cập dựa trên vai trò — Quản lý đa đội có cấu trúc với sự phân lập dự án 👉 Quan sát toàn bộ ngăn xếp — Bảng điều khiển Grafana với thông tin telemetry về GPU, mạng và lưu trữ
116