NVIDIA tăng cường Llama 3.1 lên 1,9 lần

09 tháng 09, 2024

Các bộ tăng tốc AI NVIDIA HGX H200 đã được cải thiện đáng kể trong việc suy diễn Llama 3.1 nhờ thuật toán giải mã độc quyền của NVIDIA có tên “Medusa.”

Các bộ tăng tốc AI NVIDIA HGX H200 đã được cải thiện đáng kể trong việc suy diễn Llama 3.1 nhờ thuật toán giải mã độc quyền của NVIDIA có tên “Medusa.” Khi các mô hình ngôn ngữ lớn (LLMs) tiếp tục phát triển về kích thước và độ phức tạp, việc tính toán đa GPU trở thành điều cần thiết để cung cấp độ trễ thấp và thông lượng cao mà các ứng dụng AI tạo sinh thời gian thực yêu cầu.

Hiệu suất phụ thuộc vào khả năng của các GPU kết hợp để xử lý các yêu cầu như là “một GPU mạnh mẽ” với giao tiếp GPU-to-GPU siêu nhanh và phần mềm tiên tiến có khả năng tận dụng tối đa nhiều GPU. Bằng cách chia các phép toán của mỗi lớp mô hình giữa các GPU có sẵn bằng kỹ thuật gọi là phân phối tensor kết hợp với các thuật toán tiên tiến như giải mã suy đoán, độ trễ tạo token có thể được giảm, mang lại trải nghiệm người dùng tương tác.

Đối với phục vụ Llama 3.1 với độ trễ rất thấp, các dịch vụ đám mây có thể sử dụng một máy chủ NVIDIA HGX H200 đầy đủ, mỗi máy chủ bao gồm tám GPU Tensor Core H200 và bốn chip NVLink Switch all-to-all. Mỗi GPU trong máy chủ có thể giao tiếp với băng thông đầy đủ 900 GB/s tới bất kỳ GPU nào khác qua NVLink Switch. Băng thông mạng GPU-to-GPU cao là cần thiết để giữ cho việc giao tiếp đa GPU không trở thành điểm nghẽn trong các trường hợp sử dụng tương tác.

Để triển khai hiệu quả các thuật toán tối ưu hóa trên hệ thống NVIDIA H200 HGX, NVIDIA TensorRT-LLM được sử dụng. TensorRT-LLM là một thư viện TensorRT mã nguồn mở cung cấp hiệu suất suy diễn tiên tiến trên các LLM mới nhất bằng cách sử dụng nhiều kỹ thuật, bao gồm phân phối tensor và giải mã suy đoán.

Các tối ưu hóa TensorRT-LLM sắp tới, bao gồm cải thiện thuật toán giải mã suy đoán có tên Medusa, cung cấp hiệu suất độ trễ thấp xuất sắc trên Llama 3.1 70B và Llama 3.1 405B với tốc độ 268 token/giây/người dùng và 108 token/giây/người dùng, tương ứng trên HGX H200.

Các mô hình LLM dựa trên Transformer là tự hồi quy, có nghĩa là các token cần được tạo ra theo trình tự, giới hạn thông lượng mỗi bước tạo ra chỉ một token. Thông thường, trong suy diễn LLM, tốc độ mà một token đơn lẻ được tạo ra phụ thuộc vào việc các trọng số mô hình được tải vào bộ nhớ nhanh như thế nào. Điều này có nghĩa là khối lượng công việc có thể để lại các khả năng Tensor Core đáng kể của GPU H200 chưa được sử dụng hết.

Giải mã suy đoán là một kỹ thuật làm tăng thông lượng tạo token mỗi bước tạo token bằng cách sử dụng một “mô hình dự thảo” để cố gắng dự đoán nhiều token tiếp theo ngoài token tiếp theo. LLM mục tiêu sau đó “gộp” các ứng viên dự đoán và xác thực chúng song song với token tiếp theo, sử dụng hiệu quả hơn các tài nguyên tính toán GPU song song có sẵn. Nếu LLM gốc chấp nhận bất kỳ chuỗi ứng viên nào, nhiều token sẽ được tạo ra trong bước tạo và do đó tăng tốc quá trình tạo token.

Medusa, được mô tả trong tài liệu này, là một thuật toán giải mã suy đoán sử dụng mô hình gốc làm mô hình dự thảo, tránh được sự phức tạp hệ thống và sự khác biệt phân phối khi sử dụng một mô hình dự thảo riêng biệt. Kỹ thuật này sử dụng thêm các “đầu giải mã,” gọi là đầu Medusa, để dự đoán các token ứng viên ngoài token tiếp theo. Mỗi đầu Medusa tạo ra một phân phối các token ngoài token trước đó.

Với Medusa, một HGX H200 có thể sản xuất 268 token mỗi giây mỗi người dùng cho Llama 3.1 70B và 108 cho Llama 3.1 405B. Điều này nhanh hơn hơn 1,5 lần trên Llama 3.1 70B và hơn 1,9 lần trên Llama 3.1 405B so với không có Medusa. Mặc dù có sự biến động trong tỷ lệ chấp nhận Medusa giữa các nhiệm vụ tùy thuộc vào cách các đầu được tinh chỉnh, nhưng hiệu suất tổng thể của nó được tổng quát trên một loạt các nhiệm vụ.

Các đầu Medusa cho cả Llama 3.1 70B và Llama 3.1 405B đã được huấn luyện sử dụng tích hợp NVIDIA TensorRT Model Optimizer với khung NVIDIA NeMo. Huấn luyện đầu Medusa sử dụng một cấu trúc xương sống cố định, đảm bảo rằng việc sử dụng Medusa mang lại độ chính xác giống hệt như mô hình cơ sở.

./.

M.P theo Wccftech