Ngày đăng: 01/08/2020 10:25
NVIDIA vừa đưa ra con số đầu tiên về hiệu năng thực tế của dòng GPU Ampere A100 và nó thật sự là một con quái thú. Công ty đã phá vỡ tổng cộng 16 kỷ lục trong các bài benchmark về AI và cũng đánh bại luôn các đối thủ chính của mình trong hạng mục hiệu suất máy học với một khoảng cách dẫn trước rất lớn.
GPU NVIDIA Ampere A100 phá vỡ 16 kỷ lục thế giới về AI, nhanh hơn tới 4.2 lần so với Volta V100
Kết quả từ MLPerf, một nhóm đánh giá được thành lập vào năm 2018 với trọng tâm duy nhất là hiệu suất Machine Learning. Bộ đánh giá bao gồm tổng cộng tám bài kiểm tra và NVIDIA đã đưa ra các điểm số với tất cả các kỉ lục tốc độ training.
NVIDIA cũng đưa ra tám bảng kết quả bổ sung với hệ thống DGX SuperPOD của mình, đó là một cụm các hệ thống DGX A100 HPC được kết nối với nhau thông qua HDR InfiniBand. DGX SuperPod bao gồm 140 hệ thống DGX A100 với tổng số 1.120 con GPU A100, 170 Mellanox Quantum 200G Infiniband switches, 4PB lưu trữ và 15km cáp quang.
Nó có khoảng 7,7 triệu nhân CUDA bên trong hệ thống DGX SuperPod. Hệ thống này là một phần của kế hoạch mở rộng DGX V, bổ sung gần 700 Petaflops “mã lực điện toán” cho hệ thống hiện đang được triển khai tại trụ sở của NVIDIA ở Santa Clara, California.
Điểm benchmark AI – Ampere với Volta và các loại khác
NVIDIA đã so sánh Tensor Core trên A100 với người tiền nhiệm của họ Volta V100. Sự so sánh bao gồm các chip TPU thế hệ thứ 3 của Google và Ascend HPC của Huawei. Bản thân MLPerf có các bài benchmark chi tiết được liệt kê và cũng bao gồm các bộ tăng tốc AI sắp tới như CPU Xeon Cooper Lake-SP và TPU gen 4 của Google.
Theo MLPerf, bài benchmark của họ nhắm vào khối lượng công việc hiệu suất có liên quan nhất với máy học và AI. Ampere AI chỉ đơn giản là đánh bại Volta V100 với hiệu năng tăng tốc lên gấp 2.5 lần. Ngay cả ở mức thấp nhất, Ampere A100 mang lại khả năng tăng 50% so với GPU Volta V100, rất ấn tượng.
Chip Huawei Ascend cũng có hiệu năng kém hơn khi chỉ hoàn thành một bài test so với Volta V100 trong khi TPU V3 của Google hoàn thành đúng hai bài test. So với hệ thống 8 socket Cooper Lake-SP hoàn thành bài test phân loại hình ảnh trong 1104,53 phút, một hệ thống chạy dual A100 có thể hoàn thành bài test tương tự chỉ trong 33,37 phút. NVIDIA cũng dẫn đầu khi so sánh A100 với Google TPU V4 chưa được phát hành vẫn đang trong giai đoạn nghiên cứu và dẫn trước ít nhất là một năm.
NVIDIA cũng cho thấy hiệu suất GPU của họ đã được cải thiện theo thời gian với những cải tiến mới nhất cho AI. So với MLPerf 0.5 chạy trên Volta V100, MLPerf 0.7 chạy với Ampere A100 mang lại hiệu suất tăng gấp 4.2 lần.
Điều này cho thấy mức độ ấn tượng của con chip GPU NVIDIA Ampere A100 trong các bài đánh giá được công nhận bởi cộng đồng AI. Ampere A100 cũng được coi là GPU nhanh nhất từ trước đến nay khi so sánh với GPU Turing mặc dù nó cũng được trang bị tăng tốc ngay từ phần cứng khi chạy các tác vụ nhưng vẫn không thể so với Ampere A100 vì khoảng cách hiệu năng quá lớn. Tất cả điều này làm chúng ta cảm thấy phấn khích hơn khi dòng Ampere cho người dùng cuối sẽ ra mắt trong vài tháng tới.