Thông tin luận án Tiến sĩ của NCS Ngô Thị Vinh
Tên đề tài luận án: Cải tiến chất lượng dịch máy dựa vào mạng nơron cho các ngôn ngữ tài nguyên hạn chế.
1. Họ và tên nghiên cứu sinh: Ngô Thị Vinh 2. Giới tính: Nữ
3. Ngày sinh: 02/08/1984 4. Nơi sinh: Thái Nguyên
5. Quyết định công nhận nghiên cứu sinh số: Quyết định số 654/QĐ-CTSV ngày 05/09/2016 của Hiệu trưởng Trường Đại học công nghệ, Đại học Quốc Gia Hà Nội.
6. Các thay đổi trong quá trình đào tạo: Quyết định điều chỉnh cán bộ hướng dẫn và đề tài luận án tiến sĩ số 166/QĐ-ĐT ngày 22/02/2019
7. Tên đề tài luận án: Cải tiến chất lượng dịch máy dựa vào mạng nơron cho các ngôn ngữ tài nguyên hạn chế.
8. Chuyên ngành:Khoa học máy tính 9. Mã số: 948.01.01.01
10. Cán bộ hướng dẫn khoa học: PGS. TS Nguyễn Phương Thái
GS. TS. Nguyễn Lê Minh
Thông tin luận án Tiến sĩ của NCS Ngô Thị Vinh (tiếng Anh)
11. Tóm tắt các kết quả mới của luận án:
Luận án đã đề xuất các cách tiếp cận khác nhau để nâng cao chất lượng dịch máy trong điều kiện tài nguyên song ngữ hạn chế trên các hệ thống dịch máy có liên quan đến tiếng Việt như sau:
i) Luận án đã đề xuất các hệ thống dịch máy dựa trên các phương pháp phân đoạn từ khác nhau cho cặp ngôn ngữ Nhật-Việt. Chúng tôi thử nghiệm và so sánh các hệ thống dịch máy dựa trên mức nhỏ hơn từ (subword), mức từ (word) và mức ký tự (character). Kết quả cho thấy các hệ thống dịch ở mức ký tự đạt được sự cải thiện tốt nhất trên kiến trúc Transformer (+3.92 điểm BLEU)so với với các hệ thống dịch còn lại. Bên cạnh đó, chúng tôi đề xuất phương pháp phân đoạn từ cho văn bản tiếng Việt sử dụng cách tiếp cận học không giám sát và đạt được hiệu quả dịch tương đương so với công cụ tách từ pyvi. Các thực nghiệm được tiến hành trên các bộ dữ liệu song ngữ Nhật – do chúng tôi thu thập từ nhiều nguồn khác nhau.
ii) Luận án đã đề xuất phương pháp làm giàu dữ liệu song ngữ theo cách tiếp cận đơn giản nhưng hiệu quả trong điều kiện tài nguyên song ngữ hạn chế. Phương pháp đề xuất có nhiều lợi thế so với các cách tiếp trước đó khi không đòi hỏi thêm các tài nguyên bên ngoài như mô hình dịch, mô hình ngôn ngữ được huấn luyện trước, từ điển song ngữ, dịch sử dụng bộ phân tích cú pháp. Phương pháp đề xuất đạt được sự cải thiện đáng kể (+4.0 điểm BLEU) trên các hệ thống dịch máy Trung – Việt và Nhật -Việt.
iii) Luận án đã đề xuất các hệ dịch đa ngữ cho các cặp ngôn ngữ có nhiều điểm tương đồng được kết hợp việc sử dụng mô hình ngôn ngữ để nâng cao chất lượng dịch máy. Đối với hệ thống dịch máy từ tiếng Trung, Nhật sang tiếng Việt, chúng tôi đề xuất sử dụng các phương pháp phân đoạn từ khác nhau cho văn bản tiếng Nhật và chỉ ra các lợi thế của các cặp ngôn ngữ trên từng phương pháp. Phương pháp đề xuất đã đạt được sự cải thiện đáng kể (+7.8 điểm BLEU) trên cả hai tác vụ dịch. Bên cạnh đó, chúng tôi đề xuất sử dụng các nhãn nhân tạo để tăng cường khả năng chia sẻ thông tin của các đơn vị dịch trong không gian đa ngữ. Đối với thử nghiệm này chúng tôi đạt được sự cải thiện +1.4 điểm BLEU so với hệ thống cơ sở. Đối với hệ thống dịch máy từ tiếng Anh, Pháp sang tiếng Việt, chúng tôi đề xuất hai phương pháp tăng cường dịch các từ hiếm trong không gian đa ngữ. Các thực nghiệm cho thấy các hệ thống dịch máy đa ngữ đạt được sự cải thiện đáng kể (+1.93 điểm BLEU) so với các hệ thống dịch cơ sở trong điều kiện tài nguyên hạn chế.
iv) Luận án đã đề xuất các kỹ thuật khác nhau để nâng cao chất lượng dịch các từ hiếm trong điều kiện tài nguyên hạn chế bao gồm:(1) cải tiến quá trình giải mã dựa trên các việc gán nhãn từ hiếm, phương pháp đề xuất đạt được sự cải thiện +1.8 điểm BLEU so với hệ thống cơ sở;(2) kết hợp vectơ nhúng từ trong câu nguồn, sử dụng tách từ có giám sát cho văn bản tiếng Anh và khai thác quan hệ đồng nghĩa từ cơ sở dữ liệu từ vựng WordNet. Các thực nghiệm cho thấy các phương pháp đề xuất đạt được những cải thiện đáng kể trên các cặp ngôn ngữ tài nguyên hạn chế (+0.9 điểm BLEU).
v) Luận án đã đóng góp thêm một số tập dữ liệu song ngữ liên quan đến tiếng Việt cho mục đích nghiên cứu như Anh-Việt, Pháp-Việt, Trung-Việt và Nhật-Việt.
12. Khả năng ứng dụng trong thực tiễn:
- Các kết quả của luận án có thể làm tài liệu tham khảo hữu ích cho việc học tập, nghiên cứu về xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng.
- Các phương pháp đề xuất trong luận án có thể áp dụng cho các hệ thống dịch máy trong thực tiễn.
13. Những hướng nghiên cứu tiếp theo:
- Thử nghiệm mở rộng các phương pháp đề xuất cho các cặp ngôn ngữ hạn chế tài nguyên khác như tiếng Lào-Việt, Khmer-Viet, Malaysian – Việt, … .
- Kết hợp các mô hình ngôn ngữ lớn hiện có (như Chat GPT, PhoBert), dịch đa ngữ để nâng cao chất lượng dịch cho các cặp ngôn ngữ tài nguyên hạn chế.
- Xem xét tích hợp các tri thức thức về ngôn ngữ để cải tiến chất lượng dịch máy đối với các ngôn ngữ ít tài nguyên.
- Cải tiến các phương pháp đã đề xuất trong luận án và đề xuất các phương pháp mới để nâng cao chất lượng dịch các từ hiếm, các tên riêng và các thuật ngữ.
14. Các công trình đã công bố có liên quan đến luận án:
[1]. Thi-Vinh Ngo, Van-Tan Bui, Phuong-Thai Nguyen, and Le-Minh Nguyen. Improving Multilingual Neural Machine Translation with Artificial Labels. Proceedings of the 12th International Symposium on Information and Communication Technology (SOICT 2023), Pages 79-84, DOI: https://doi.org/10.1145/3628797.3628964, Association for Computing Machinery (ACM).
[2]. Thi-Vinh Ngo, Phuong-Thai Nguyen, Van Vinh Nguyen, Thanh-Le Ha, and Le-Minh Nguyen (2022), “An Efficient Method for Generating Synthetic Data For Low-Resource Machine Translation: An empirical study of Chinese, Japanese to Vietnamese Neural Machine Translation”, Applied Artificial Intelligence, Volume 36, Issue 1, 2022, Open Access, DOI: 10.1080/08839514.2022.2101755, Taylor & Francis, SCIE.
[3]. Minh-Cong Nguyen-Hoang, Thi-Vinh Ngo, Van-Vinh Nguyen (2022), “A Simple and Fast Strategy for Handling Rare Words in Neural Machine Translation”, In Proceedings of the 2st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: Student Research Workshop (SRW AACL-IJCNLP 2022). November 21-23, 2022, Taiwan, China, Online. Association for Computational Linguistics.
[4]. Ngô Thị Vinh, Nguyễn Phương Thái (2021), “Nâng cao hiệu quả dịch từ hiếm cho cặp ngôn ngữ Trung-Việt và Nhật-Việt”, Hội thảo quốc gia lần thứ XXIV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông (VNICT 2021), Trang 325-330, Thái Nguyên, 13-14/12/2021. Nhà xuất bản khoa học kỹ thuật.
[5]. Thi-Vinh Ngo, Phuong-Thai Nguyen, Thanh-Le Ha, Khac-Quy Dinh, and Le-Minh Nguyen (2020), “Improving Multilingual Neural Machine Translation For Low-Resource Languages: French, English – Vietnamese”, In Proceedings of the 3rd Workshop on Technologies for MT of Low Resource Languages (LoResMT 2020), pages 55–61, Suzhou, China, Online. Association for Computational Linguistics.
[6]. Thi-Vinh Ngo, Minh-Thuan Nguyen, Minh Cong Nguyen Hoang, Hoang-Quan Nguyen, Phuong-Thai Nguyen, Van-Vinh Nguyen (2020), “The UET-ICTU Submissions to the VLSP 2020 News Translation Task”. In Proceedings of the 7th International Workshop on Vietnamese Language and Speech Processing (VLSP 2020), pages 71–76, December 18, 2020, Hanoi, Vietnam. Association for Computational Linguistics.
[7]. Thi-Vinh Ngo, Thanh-Le Ha, Phuong-Thai Nguyen, and Le-Minh Nguyen (2019), “How Transformer Revitalizes Character-based Neural Machine Translation: An Investigation on Japanese-Vietnamese Translation Systems”. In Proceedings of the 16th International Conference on Spoken Language Translation (IWSLT 2019), November 2-3, 2019, Hong Kong, China. Association for Computational Linguistics.
[8]. Thi-Vinh Ngo, Thanh-Le Ha, Phuong-Thai Nguyen, and Le-Minh Nguyen (2019), “Overcoming the Rare Word Problem for Low-Resource Language Pairs in Neural Machine Translation”. In Proceedings of the 6th Workshop on Asian Translation (WAT 2019), pages 207–214, November 4, 2019, Hong Kong, China. Association for Computational Linguistics.
[9]. Thi-Vinh Ngo, Thanh-Le Ha, Phuong-Thai Nguyen, and Le-Minh Nguyen (2018), “Combining Advanced Methods in Japanese-Vietnamese Neural Machine Translation”, 10th International Conference on Knowledge and Systems Engineering (KSE 2018), pages 318–322, November 1-3, 2018, Ho Chi Minh, Vietnam. Springer.
[10]. Ngô Thị Vinh (2018), “Dịch máy Nhật-Việt sử dụng mô hình mạng nơron học sâu”, Tạp chí khoa học công nghệ Đại học Thái Nguyên, Tập 178, số 2, Trang 9-14.