Mô hình ngôn ngữ lớn (LLM) của Zalo AI đã vượt lên hàng đầu trong bảng xếp hạng.
Zalo AI vừa công bố Báo cáo về tình hình phát triển các mô hình ngôn ngữ lớn (Large Language Model – LLM) tiếng Việt trong năm 2024, dựa trên nền tảng đánh giá và xếp hạng năng lực tiếng Việt VMLU (Vietnamese Multitask Language Understanding Benchmark Suite for Large Language Models).
Bảng xếp hạng mô hình ngôn ngữ lớn tiếng Việt (VMLU Leaderboard) được xác định dựa trên điểm số về năng lực ở các lĩnh vực: tổng quát, STEM, khoa học xã hội, khoa học nhân văn và mở rộng (Kết quả tính tới ngày 31/12/2024).
Cộng đồng AI tại Việt Nam đã có bước tiến đáng chú ý trong việc phát triển LLM tiếng Việt. Với sự tham gia của nhiều tổ chức và cá nhân, VMLU đã công bố 45 LLM trên bảng xếp hạng, nhận được yêu cầu đánh giá từ hơn 155 tổ chức và cá nhân, tổng cộng 691 lượt tải bộ tiêu chuẩn đánh giá và 3.729 lượt đánh giá LLM từ nền tảng.
Ngoài các nhóm nghiên cứu phát triển trong nước, nhiều đơn vị nước ngoài cũng đã tối ưu hóa LLM cho tiếng Việt. Các nhà phát triển quốc tế như UONLP x Ontocord – Trường ĐH Oregon (Hoa Kỳ), DAMO Academy – Alibaba Group (Trung Quốc), SDSRV teams – Samsung cũng đã gửi đánh giá lên VMLU.
Đặc biệt, nhiều mô hình LLM do người Việt tự huấn luyện đã bứt phá và đạt vị trí cao trong bảng xếp hạng VMLU Leaderboard, cạnh tranh với các mô hình của các công ty lớn như Meta, OpenAI và Google. KiLM-13b-v24.7.1 (phát triển bởi Zalo AI) và ViGPT-1.6B-v1 (thuộc Vin BigData) là hai mô hình tiêu biểu của người Việt được xếp hạng cao trong bảng xếp hạng.
Với 9/10 LLM trong nước lọt Top 10 trong bảng xếp hạng LLM fine-tuned models, Việt Nam đang thể hiện xu hướng phát triển mạnh mẽ trong lĩnh vực phân tích ngôn ngữ tự nhiên. Điều này không chỉ thúc đẩy sự phát triển của AI tại Việt Nam mà còn khẳng định vị thế của đất nước trong cộng đồng nghiên cứu quốc tế. Các mô hình ngôn ngữ lớn (LLM) được cải tiến liên tục với điểm số không ngừng gia tăng cho thấy nỗ lực đáng ghi nhận trong việc bản địa hóa LLM cho người Việt. Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) đã đồng hành cùng Zalo AI trong quá trình xây dựng, vận hành VMLU.
Theo GS. Nguyễn Lê Minh, xu hướng phát triển LLM tại Việt Nam sẽ tập trung vào việc tận dụng những mô hình LLM mở như Llama để chuyển đổi phù hợp với các bài toán và dữ liệu chuyên ngành. Dù vậy, vẫn có các nhóm nghiên cứu tiếp tục huấn luyện mô hình ngôn ngữ lớn của riêng mình.
VMLU là thước đo năng lực tiếng Việt cho cộng đồng phát triển LLM, cung cấp bộ dữ liệu & tiêu chuẩn kiểm tra toàn diện. Sau khi sử dụng VMLU, các nhà phát triển LLM có thể so sánh năng lực mô hình của mình với các LLM khác để thúc đẩy việc huấn luyện. VMLU đã trở thành công cụ hữu ích đối với các đơn vị nghiên cứu AI, như VinBigData, một đơn vị tiêu biểu trong việc huấn luyện LLM với mô hình ViGPT-1.6B-v1.
TS. Đặng Trần Thái từ VinBigData cho biết VMLU không chỉ giúp đánh giá chất lượng LLM mà còn là thước đo cho tính hiệu quả của các thử nghiệm trong quá trình huấn luyện. VMLU – Tiêu chuẩn đánh giá năng lực tiếng Việt là một phần quan trọng để thúc đẩy sự phát triển của trí tuệ nhân tạo (AI) tổng quát và mô hình ngôn ngữ lớn (LLM) cụ thể. Để huấn luyện những mô hình chất lượng cao, chúng ta cần những bộ benchmark tốt như VMLU.
BXH Top 10 fine-tuned models (các LLM tinh chỉnh từ mô hình đã được huấn luyện trước).
VMLU không chỉ là một dự án đóng góp cho cộng đồng, mà còn là nguồn động lực để nâng cao trình độ huấn luyện LLM và phát triển các sản phẩm AI đa dạng, phục vụ nhu cầu thực tiễn.
TS. Châu Thành Đức, Trưởng Bộ phận Nghiên cứu & phát triển tại Zalo AI khẳng định: “Chúng tôi sẽ tiếp tục tối ưu bộ tiêu chuẩn đánh giá năng lực tiếng Việt VMLU để hỗ trợ cộng đồng AI Việt Nam trong việc nâng cao khả năng huấn luyện LLM. Hy vọng rằng sự phát triển trong nghiên cứu sẽ thúc đẩy ra đời nhiều sản phẩm tiên tiến và hữu ích cho người Việt.”
Zalo AI sẽ tiếp tục cung cấp VMLU miễn phí trong thời gian tới.
Góc quảng cáo
<
div class="thai">
<
h1>KẾT LUẬN Mô hình ngôn ngữ lớn (LLM) của Zalo AI đã bứt phá trên bảng xếp hạng năng lực tiếng Việt VLMU. Zalo AI đã công bố Báo cáo về các mô hình ngôn ngữ lớn tiếng Việt trong năm 2024, dựa trên nền tảng VMLU. Bảng xếp hạng VMLU Leaderboard cho thấy sự phát triển mạnh mẽ của các mô hình ngôn ngữ lớn hướng đến người dùng Việt Nam. Các mô hình LLM do người Việt tự huấn luyện đã bứt phá và đạt vị trí cao trong bảng xếp hạng, cạnh tranh trực tiếp với các mô hình của các công ty lớn trên thế giới. Điều này phản ánh nỗ lực và tiềm năng của Việt Nam trong lĩnh vực AI và phát triển mô hình ngôn ngữ lớn. Mô hình ngôn ngữ lớn (LLM) của Zalo AI đã bứt phá trong bảng xếp hạng. Việc cải tiến liên tục của các mô hình đã cho thấy sự nỗ lực đáng khen ngợi trong việc phát triển LLM cho người Việt. Đơn vị tiên phong trong việc thúc đẩy sự phát triển của cộng đồng AI, Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) đã hỗ trợ Zalo AI trong việc xây dựng và vận hành VMLU. Đánh giá về tình hình phát triển LLM tại Việt Nam, GS. Nguyễn Lê Minh đã cho biết rằng sự tăng cường về số lượng các mô hình ngôn ngữ lớn tại Việt Nam đã thể hiện sự quan tâm của nhiều tổ chức và cá nhân đối với GenAI. Trong tương lai, sự phát triển của LLM tại Việt Nam có thể tập trung vào việc sử dụng những mô hình LLM mở như Llama để đáp ứng các bài toán và dữ liệu chuyên ngành. Mô hình ngôn ngữ lớn (LLM) của Zalo AI đã đạt được bước bứt phá trong bảng xếp hạng. Sự ra đời của VMLU đóng vai trò quan trọng trong việc thúc đẩy sự phát triển của AI nói chung và LLM nói riêng. Đây là một dự án đóng góp cho cộng đồng, giúp nâng cao trình độ huấn luyện LLM và tạo ra các sản phẩm AI đa dạng phục vụ cuộc sống. TS. Châu Thành Đức, Trưởng Bộ phận Nghiên cứu & Phát triển tại Zalo AI, cam kết tiếp tục tối ưu VMLU để hỗ trợ cộng đồng AI Việt Nam. Zalo AI hy vọng sự phát triển của nghiên cứu sẽ mở ra cánh cửa cho việc sản xuất ra nhiều sản phẩm tiên tiến và hữu ích cho người Việt. : Hệ thống mô hình ngôn ngữ lớn (LLM) của Zalo AI đã vượt lên đứng đầu bảng xếp hạng. Mô hình ngôn ngữ lớn (LLM) của Zalo AI đã vượt qua các mô hình khác để đứng đầu bảng xếp hạng.