• Supermicro bắt đầu giao hàng số lượng lớn (volume shipments) các rack AI mới: GB300 NVL72 và hệ thống HGX B300.
• Các giải pháp này được thiết kế dưới dạng plug-and-play, đã được kiểm thử trước (pre-validated) ở cấp hệ thống, rack, và cả quy mô trung tâm dữ liệu, nhằm giúp triển khai nhanh hơn.
________________________________________
Cấu hình & hiệu suất
Tài liệu (của NVIDIA & Supermicro) cho biết:
• Rack GB300 NVL72 sử dụng GPU NVIDIA Blackwell (thuộc “Blackwell Ultra”) với khả năng inferencing và training được cải tiến.
• GPU có thể dùng công suất lên tới ~1400W mỗi GPU trong cấu hình GB300, để tận dụng hiệu suất cao hơn trong inferencing cũng như các tác vụ AI phức tạp
Giá & kinh tế
• Mỗi rack GB300 NVL72 được báo ~ 3 triệu USD.
• Dòng GB200 NVL72 (thế hệ thấp hơn một chút) giá khoảng 2.6 triệu USD được đề cập trong bản tin.
• Việc sử dụng các rack có hiệu suất rất cao, cấp GPU nhiều (72 GPU) và công suất lớn đi kèm chi phí điện năng, làm mát và hạ tầng hỗ trợ (power delivery, cooling, networking) cũng sẽ lớn. Hiệu suất trên mỗi USD đầu tư có thể tốt hơn nếu được tối ưu hạ tầng, làm mát, và sử dụng liên tục.
________________________________________
Những điểm nổi bật & thách thức
Ưu:
• Đột phá về mật độ tính toán (compute density): 72 GPU trong một rack, khả năng liên kết nội bộ rất cao, giúp giảm độ trễ GPU-to-GPU, tốt cho AI training, inference, đặc biệt các mô hình lớn.
• Tiết kiệm năng lượng & làm mát nếu sử dụng làm mát bằng chất lỏng: giúp giảm chi phí vận hành (power + cooling) so với các hệ thống làm mát bằng gió (air cooling) khi công suất GPU cao.
• Triển khai nhanh: do được pre-validated, có giải pháp “rack plug-and-play”, giúp các data centre hoặc ai-factory có thể đi vào hoạt động nhanh hơn.
Thách thức:
• Chi phí đầu tư ban đầu rất cao: không chỉ giá rack, mà còn đòi hỏi hạ tầng mạnh: nguồn điện, điều hòa / hệ thống làm mát chất lỏng, hệ thống mạng có băng thông cao, chi phí bảo trì.
• Tiêu thụ điện & làm mát: các GPU công suất cao tỏa nhiệt lớn; nếu hệ thống làm mát, nguồn điện không đủ chuẩn sẽ ảnh hưởng hiệu suất, độ ổn định.
• Chỗ đặt & cơ sở hạ tầng vật lý: Một rack GB300 NVL72 có thể rất cao / nặng / cần không gian, cần hạ tầng chịu nhiệt, chống rung, trang bị PDU, CDUs, …
• Supermicro bắt đầu giao hàng số lượng lớn (volume shipments) các rack AI mới: GB300 NVL72 và hệ thống HGX B300.
• Các giải pháp này được thiết kế dưới dạng plug-and-play, đã được kiểm thử trước (pre-validated) ở cấp hệ thống, rack, và cả quy mô trung tâm dữ liệu, nhằm giúp triển khai nhanh hơn.
________________________________________
Cấu hình & hiệu suất
Tài liệu (của NVIDIA & Supermicro) cho biết:
• Rack GB300 NVL72 sử dụng GPU NVIDIA Blackwell (thuộc “Blackwell Ultra”) với khả năng inferencing và training được cải tiến.
• GPU có thể dùng công suất lên tới ~1400W mỗi GPU trong cấu hình GB300, để tận dụng hiệu suất cao hơn trong inferencing cũng như các tác vụ AI phức tạp
Giá & kinh tế
• Mỗi rack GB300 NVL72 được báo ~ 3 triệu USD.
• Dòng GB200 NVL72 (thế hệ thấp hơn một chút) giá khoảng 2.6 triệu USD được đề cập trong bản tin.
• Việc sử dụng các rack có hiệu suất rất cao, cấp GPU nhiều (72 GPU) và công suất lớn đi kèm chi phí điện năng, làm mát và hạ tầng hỗ trợ (power delivery, cooling, networking) cũng sẽ lớn. Hiệu suất trên mỗi USD đầu tư có thể tốt hơn nếu được tối ưu hạ tầng, làm mát, và sử dụng liên tục.
________________________________________
Những điểm nổi bật & thách thức
Ưu:
• Đột phá về mật độ tính toán (compute density): 72 GPU trong một rack, khả năng liên kết nội bộ rất cao, giúp giảm độ trễ GPU-to-GPU, tốt cho AI training, inference, đặc biệt các mô hình lớn.
• Tiết kiệm năng lượng & làm mát nếu sử dụng làm mát bằng chất lỏng: giúp giảm chi phí vận hành (power + cooling) so với các hệ thống làm mát bằng gió (air cooling) khi công suất GPU cao.
• Triển khai nhanh: do được pre-validated, có giải pháp “rack plug-and-play”, giúp các data centre hoặc ai-factory có thể đi vào hoạt động nhanh hơn.
Thách thức:
• Chi phí đầu tư ban đầu rất cao: không chỉ giá rack, mà còn đòi hỏi hạ tầng mạnh: nguồn điện, điều hòa / hệ thống làm mát chất lỏng, hệ thống mạng có băng thông cao, chi phí bảo trì.
• Tiêu thụ điện & làm mát: các GPU công suất cao tỏa nhiệt lớn; nếu hệ thống làm mát, nguồn điện không đủ chuẩn sẽ ảnh hưởng hiệu suất, độ ổn định.
• Chỗ đặt & cơ sở hạ tầng vật lý: Một rack GB300 NVL72 có thể rất cao / nặng / cần không gian, cần hạ tầng chịu nhiệt, chống rung, trang bị PDU, CDUs, …