AMD-135 là mô hình ngôn ngữ nhỏ đầu tiên

02 tháng 10, 2024
AMD vừa ra mắt mô hình ngôn ngữ nhỏ đầu tiên của mình, AMD-135M, sử dụng công nghệ giải mã suy đoán để tận dụng khả năng AI, dẫn đến một quy trình công nghệ cải tiến.

AMD vừa ra mắt mô hình ngôn ngữ nhỏ đầu tiên của mình, AMD-135M, sử dụng công nghệ giải mã suy đoán để tận dụng khả năng AI, dẫn đến một quy trình công nghệ cải tiến.

Trong bối cảnh AI đang không ngừng phát triển, các mô hình ngôn ngữ lớn (LLM) như GPT-4 và Llama đã thu hút được sự chú ý lớn nhờ vào khả năng ấn tượng trong xử lý và sinh ngôn ngữ tự nhiên. Tuy nhiên, các mô hình ngôn ngữ nhỏ (SLM) đang nổi lên như một đối tác thiết yếu trong cộng đồng mô hình AI, mang lại những lợi thế độc đáo cho các trường hợp sử dụng cụ thể.

AMD rất vui mừng khi giới thiệu mô hình ngôn ngữ nhỏ đầu tiên của mình, AMD-135M với công nghệ giải mã suy đoán. Công trình này thể hiện cam kết của AMD đối với một cách tiếp cận mở trong AI, dẫn đến sự tiến bộ công nghệ bao trùm, có đạo đức và đổi mới, giúp đảm bảo rằng lợi ích của nó được chia sẻ rộng rãi hơn và các thách thức được giải quyết một cách hợp tác hơn.

AMD-135M là mô hình ngôn ngữ nhỏ đầu tiên trong gia đình Llama, được đào tạo từ đầu trên các bộ tăng tốc AMD Instinct™ MI250, sử dụng 670B token và được chia thành hai mô hình: AMD-Llama-135M và AMD-Llama-135M-code. Mã nguồn đào tạo, tập dữ liệu và trọng số cho mô hình này được mã nguồn mở, giúp các nhà phát triển có thể tái tạo mô hình và hỗ trợ đào tạo các SLM và LLM khác.

Các mô hình ngôn ngữ lớn thường sử dụng phương pháp tự hồi quy cho suy diễn. Tuy nhiên, một hạn chế lớn của phương pháp này là mỗi lần truyền qua chỉ có thể tạo ra một token duy nhất, dẫn đến hiệu suất truy cập bộ nhớ thấp và ảnh hưởng đến tốc độ suy diễn tổng thể.

Sự xuất hiện của giải mã suy đoán đã giải quyết vấn đề này. Nguyên tắc cơ bản là sử dụng một mô hình nháp nhỏ để tạo ra một tập hợp các token ứng viên, sau đó được xác minh bởi mô hình mục tiêu lớn hơn. Phương pháp này cho phép mỗi lần truyền qua tạo ra nhiều token mà không làm giảm hiệu suất, qua đó giảm đáng kể tiêu thụ bộ nhớ và cho phép cải thiện tốc độ theo nhiều cấp độ.

./.

M.P theo Wccftech

Thảo luận bài viết

Thảo luận
AMD -135M

AMD-135 là mô hình ngôn ngữ nhỏ đầu tiên