Được gọi là “M2M-100”, nó được đào tạo trên tổng số 2.200 hướng ngôn ngữ hoặc nhiều hơn 10 lần so với các mẫu đa ngôn ngữ lấy tiếng Anh làm trung tâm tốt nhất trước đây.



San Francisco, Facebook đã giới thiệu mô hình dịch máy đa ngôn ngữ (MMT) mã nguồn mở đầu tiên có thể dịch giữa bất kỳ cặp 100 ngôn ngữ nào mà không cần dựa vào dữ liệu tiếng Anh.

Được gọi là “M2M-100”, nó được đào tạo trên tổng số 2.200 hướng ngôn ngữ hoặc nhiều hơn 10 lần so với các mẫu đa ngôn ngữ lấy tiếng Anh làm trung tâm tốt nhất trước đây.

“Triển khai M2M-100 sẽ cải thiện chất lượng bản dịch cho hàng tỷ người, đặc biệt là những người nói các ngôn ngữ có nguồn tài nguyên thấp”, Facebook AI cho biết trong một tuyên bố.



Khi dịch, chẳng hạn như dịch từ Trung Quốc sang Pháp, hầu hết các mô hình đa ngôn ngữ lấy tiếng Anh làm trung tâm đào tạo từ tiếng Trung sang tiếng Anh và tiếng Anh sang tiếng Pháp, bởi vì dữ liệu đào tạo tiếng Anh có sẵn rộng rãi nhất.

Facebook ra mắt mô hình dịch máy đa ngôn ngữ đầu tiên
Facebook ra mắt mô hình dịch máy đa ngôn ngữ đầu tiên

Mô hình ML Facebook mới đào tạo trực tiếp dữ liệu từ tiếng Trung sang tiếng Pháp để lưu giữ ý nghĩa tốt hơn.

Nó làm tốt hơn các hệ thống lấy tiếng Anh làm trung tâm 10 điểm trên thước đo BLEU được sử dụng rộng rãi để đánh giá các bản dịch máy.

Mạng xã hội thông báo: “Chúng tôi cũng phát hành mô hình, đào tạo và thiết lập đánh giá để giúp các nhà nghiên cứu khác tái tạo và nâng cao hơn nữa các mô hình đa ngôn ngữ”.

Sử dụng các chiến lược khai thác mới lạ để tạo dữ liệu dịch, Facebook đã xây dựng tập dữ liệu thực sự “nhiều-nhiều” đầu tiên với 7,5 tỷ câu cho 100 ngôn ngữ.



Công ty cho biết: “Chúng tôi đã sử dụng một số kỹ thuật mở rộng quy mô để xây dựng một mô hình phổ quát với 15 tỷ tham số, giúp thu thập thông tin từ các ngôn ngữ liên quan và phản ánh tập lệnh đa dạng hơn về ngôn ngữ và hình thái học”.

Một thách thức trong dịch thuật đa ngôn ngữ là một mô hình số ít phải nắm bắt thông tin bằng nhiều ngôn ngữ khác nhau và các chữ viết đa dạng.

Để giải quyết vấn đề này, Facebook đã nhìn thấy lợi ích rõ ràng của việc mở rộng dung lượng của mô hình và thêm các thông số dành riêng cho ngôn ngữ.

“Sự kết hợp giữa tỷ lệ dày đặc và các tham số thưa thớt theo ngôn ngữ cụ thể (3,2 tỷ) cho phép chúng tôi tạo ra một mô hình thậm chí còn tốt hơn, với 15 tỷ tham số”.

Trong nhiều năm, các nhà nghiên cứu AI đã làm việc để xây dựng một mô hình phổ quát duy nhất có thể hiểu tất cả các ngôn ngữ trong các nhiệm vụ khác nhau.

Facebook cho biết: “Một mô hình duy nhất hỗ trợ tất cả các ngôn ngữ, phương ngữ và phương thức sẽ giúp chúng tôi phục vụ nhiều người hơn tốt hơn, cập nhật các bản dịch và tạo ra trải nghiệm mới cho hàng tỷ người như nhau”.



 

1 COMMENT

LEAVE A REPLY

Please enter your comment!
Please enter your name here