Thông tin luận án Tiến sĩ của Nghiên cứu sinh Bùi Văn Tân
Tên đề tài luận án: Tự động xác định quan hệ ngữ nghĩa của từ dựa trên học máy thống kê.
1. Họ và tên nghiên cứu sinh: Bùi Văn Tân 2. Giới tính: Nam
3. Ngày sinh: 12/08/1983 4. Nơi sinh: Nam Định
5. Quyết định công nhận nghiên cứu sinh số: 654/QĐ-CTSV, ngày 05 tháng 09 năm 2016 của Hiệu trưởng trường Đại học công nghệ, Đại học Quốc gia Hà Nội.
6. Các thay đổi trong quá trình đào tạo:
Quyết định gia hạn thời gian học tập được thể hiện trong Quyết định số 1127/QĐ-ĐT ngày 17 tháng 10 năm 2019 của Hiệu trưởng Trường Đại học Công nghệ.
7. Tên đề tài luận án: Tự động xác định quan hệ ngữ nghĩa của từ dựa trên học máy thống kê.
8. Chuyên ngành: Khoa học máy tính 9. Mã số: 9480101.01
10. Cán bộ hướng dẫn khoa học: PGS.TS. Nguyễn Phương Thái
Thông tin luận án tiến sĩ của NCS Bùi Văn Tân (tiếng Anh)
11. Tóm tắt các kết quả mới của luận án:
Luận án này nhắm đến nâng cao hiệu năng của các mô hình tự động xác định bốn quan hệ ngữ nghĩa của từ gồm bao thuộc, đồng nghĩa, trái nghĩa, tương đồng ngữ nghĩa. Những kết quả chính của luận án như sau:
Thứ nhất, luận án đã đề xuất một cải tiến cho mô hình mạng nơ-ron có trọng số động (Dynamic Weighting Neural Network – DWN) được đề xuất bởi Anh Tuan Luu và cộng sự. Mô hình cải tiến được gọi là EDWN, có khả năng học các vector nhúng từ chuyên biệt, các vector nhúng này được “chuyên biệt hóa” các đặc trưng về ngữ nghĩa, qua đó phù hợp cho bài toán xác định quan quan hệ bao thuộc.
Thứ hai, Luận án đã xác định các đặc trưng ngữ nghĩa mức dưới từ, và đề xuất một lược đồ trích chọn những đặc trưng này. Để xác định quan hệ bao thuộc, luận án đề xuất mô hình LERC, mô hình này đã sử dụng đặc trưng đầu vào được kết hợp từ vector nhúng từ và vector đặc trưng ngữ nghĩa dưới từ. Kết quả thực nghiệm được đánh giá trên một số bộ dữ liệu chuẩn của cả tiếng Anh, tiếng Việt đã chứng minh mô hình được đề xuất trong luận án có hiệu năng cao hơn đáng kể so với các mô hình tốt nhất tại cùng thời điểm.
Thứ ba, luận án đã đề xuất mô hình mạng nơ-ron DVASNet. Mô hình này không những sử dụng các đặc trưng phân phối của từ trong kho ngữ liệu mà còn khai thác được các thông tin về cấu trúc của từ. Kết quả thực nghiệm trên một số bộ dữ liệu chuẩn đã chứng minh mô hình DVASNet đạt hiệu năng cao hơn đáng kể so với năm mô hình cơ sở.
Thứ tư, luận án đề xuất mô hình GraphSim để nâng cao hiệu năng đo lường độ tương tự ngữ nghĩa của cặp từ tiếng Anh dựa trên thuật toán tìm đường đi ngắn nhất trên đồ thị.
Thứ năm, Luận án đề xuất mô hình ExtLeskSim, là một cải tiến của thuật toán Lesk để nó hoạt động hiệu quả hơn với đặc trưng của tiếng Việt.
Bên cạnh đó, luận án đã xây dựng bốn bộ dữ liệu đánh giá mô hình xác định quan hệ ngữ nghĩa, bao gồm: VLE-999, ViAS-1000, VSimLex-999, và VESim-1000.
12. Khả năng ứng dụng trong thực tiễn:
Các mô hình xác định quan hệ ngữ nghĩa của từ được đề xuất trong luận án có thể được áp dụng cho một số bài toán về xử lý ngôn ngữ tự nhiên, bao gồm: dịch máy, phân tích cảm xúc từ văn bản ([CT4]), đo lường độ tương tự ngữ nghĩa của câu ([CT3]), gióng hàng câu và xây dựng kho ngữ liệu song ngữ ([CT11]), qua đó nâng cao hiệu năng của những mô hình giải quyết các bài toán này.
13. Những hướng nghiên cứu tiếp theo:
Một số nghiên cứu gần đây quan tâm đến bài toán xếp hạng quan hệ bao thuộc (Graded Hypernymy). Trong các nghiên cứu tiếp theo, chúng tôi sẽ khai thác mô hình nhúng từ EDWN và các đặc trưng ngữ nghĩa mức dưới từ cho bài toán xếp hạng quan hệ bao thuộc. Thêm nữa, chúng tôi cũng quan tâm đến việc cải tiến lược đồ GraphSim theo hướng sử dụng thuật toán Floyd-Warshall để tìm đường đi ngắn nhất trên đồ thị có trọng số mờ. Do khoảng cách ngữ nghĩa giữa các từ có tính tương đối hay “mờ”, nên việc sử dụng số mờ để biểu diễn khoảng cách này sẽ tự nhiên hơn so với số “rõ”. Qua đó, thông tin về đường đi ngắn nhất tìm được trên đồ thị ngữ nghĩa trọng số mờ có thể được khai thác để ước lượng chính xác hơn độ tương tự ngữ nghĩa của cặp từ.
14. Các công trình đã công bố có liên quan đến luận án:
[CT1]. Van-Tan Bui and Phuong-Thai Nguyen, Van-Lam Pham. Combining Specialized Word Embeddings and Subword Semantic Features for Lexical Entailment Recognition. Data and Knowledge Engineering, 2022. (SCIE, Q2, IF = 1,5).
[CT2]. Van-Tan Bui and Phuong-Thai Nguyen. WEWD: A Combined Approach for Measuring Cross-lingual Semantic Word Similarity Based on Word Embeddings and Word Definitions. The 2021 RIVF International conference on computing and communication technologies, pages 1-6, 2021. (Scopus, DBLP).
[CT3]. Van-Tan Bui and Phuong-Thai Nguyen. Measuring semantic similarity of Vietnamese sentences based on lexical similarity and distribution semantic similarity. Lecture Notes in Networks and Systems, pages 259-270, 2021. (Scopus).
[CT4]. Hong-Viet Tran, Van-Tan Bui, Dinh-Tien Do, Van-Vinh Nguyen. Combining PhoBERT and SentiWordNet for Vietnamese Sentiment Analysis. The 13th International Conference on Knowledge and Systems Engineering (KSE), pages 1-5, 2021. (Scopus, DBLP).
[CT5]. Van-Tan Bui, Phuong-Thai Nguyen and Khac-Quy Dinh. Vietnamese Antonyms Detection Based on Specialized Word Embeddings using Semantic Knowledge and Distributional Information. The 12th International Conference on Knowledge and Systems Engineering (KSE), pages 159-164, 2020. (Scopus, DBLP).
[CT6]. Van-Tan Bui, Phuong-Thai Nguyen, Van-Lam Pham and Thanh-Quy Ngo. A Neural Network Model for Efficient Antonymy-Synonymy Classification by Exploiting Co-occurrence Contexts and Word-Structure Patterns. International Journal of Intelligent Engineering and Systems, Vol.13, No.1, pages 156-166, 2020. (Scopus).
[CT7]. Bui Van Tan, Nguyen Phuong Thai, Pham Van Lam and Dinh Khac Quy. Antonyms-Synonyms Discrimination Based on Exploiting Rich Vietnamese Features. 16th International Conference of the Pacific Association for Computational Linguistics, pages 374-387, 2019. (Scopus, DBLP).
[CT8]. Bui Van Tan, Nguyen Phuong Thai, Nguyen Minh Thuan. Enhancing Performance of Lexical Entailment Recognition for Vietnamese based on Exploiting Lexical Structure Features. The 10th International Conference on Knowledge and Systems Engineering (KSE), pages 341-346, 2018. (Scopus, DBLP).
[CT9]. Bui Van Tan, Nguyen Phuong Thai and Pham Van Lam. Hypernymy Detection for Vietnamese Using Dynamic Weighting Neural Network. 19th International Conference on Computational Linguistics and Intelligent Text Processing, 2018. Lecture Notes in computer science. (Scopus).
[CT10]. Bui Van Tan, Nguyen Phuong Thai, and Pham Van Lam. Construction of a Word Similarity Dataset and Evaluation of Word Similarity Techniques for Vietnamese. The 9th International Conference on Knowledge and Systems Engineering (KSE), pages 65-70, 2017. (Scopus, DBLP).
[CT11]. Van-Vinh Nguyen, Ha Nguyen-Tien, Huong Le-Thanh, Phuong-Thai Nguyen, Van-Tan Bui, Nghia-Luan Pham, Tuan-Anh Phan, Minh-Cong Nguyen Hoang, Hong-Viet Tran, Huu-Anh Tran. KC4MT: A High-Quality Corpus for Multilingual Machine Translation. The 13th Edition of its Language Resources and Evaluation Conference (LREC), 2022. (Rank A, Scopus, DBLP).
[CT12]. Bui Van Tan, Nguyen Phuong Thai and Nguyen Minh Thuan. Nâng cao hiệu quả đo độ tương tự ngữ nghĩa dựa trên mạng từ. Kỷ yếu Hội nghị Quốc gia lần thứ X về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), 2017.