Thông tin về luận án Tiến sĩ của NCS Vương Thị Hải Yến
Tên đề tài luận án: Modeling and learning textual and structural relations for deep legal information retrieval.
1. Họ và tên nghiên cứu sinh:Vương Thị Hải Yến 2. Giới tính: Nữ
3. Ngày sinh: 21/08/1994 4 . Nơi sinh: Hà Nội
5. Quyết định công nhận nghiên cứu sinh số:776/QĐ-CTSV, 31/07/2019 của Hiệu trưởng Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
6. Các thay đổi trong quá trình đào tạo: Quyết định thay đổi tên đề tài luận án theo Quyết định số 146/QĐ-ĐT ngày 11/03/2022; Quyết định gia hạn thời gian học tập cho nghiên cứu sinh theo Quyết định số 920/QĐ-ĐHCN ngày 21/10/2022, thời gian gia hạn đến 31/08/2024.
7. Tên đề tài luận án:Modeling and learning textual and structural relations for deep legal information retrieval.
8. Ngành dào tạo:Hệ thống thông tin 9. Mã số:9480104
10. Cán bộ hướng dẫn khoa học:
Cán bộ hướng dẫn chính: PGS.TS. Phan Xuân Hiếu
Cơ quan công tác:Trường ĐH Côngnghệ, ĐHQG HN
Cán bộ hướng dẫn phụ: GS.TS. Nguyễn Lê Minh
Cơ quan công tác: Viện Khoa học công nghệ và tiên tiến Nhật Bản (JAIST)
Thông tin luận án Tiến sĩ của NCS Vương Thị Hải Yến (tiếng Anh)
11. Tóm tắt các kết quả mới của luận án:
Luận án này đóng góp ở nhiều khía cạnh khác nhau: việc học biểu diễn các đặc điểm pháp luật, tăng cường dữ liệu, định nghĩa và tạo ra đồ thị tri thức pháp luật, khám phá và sử dụng các mối quan hệ đồ thị, và tích hợp mô hình học sâu lấy cảm hứng từ đồ thị. Đầu tiên, luận án tập trung vào khám phá và biểu diễn các mối quan hệ pháp luật giữa văn bản ở các cấp độ khác nhau để giải quyết các văn bản dài cũng như tận dụng cả mối quan hệ từ vựng và logic phức tạp vào một mô hình gọi là mô hình hỗ trợ để giải quyết nhiệm vụ truy hồi án lệ. Thứ hai, chúng tôi đề xuất một chiến lược gán nhãn yếu để vượt qua sự thiếu hụt dữ liệu được gán nhãn và cải thiện hiệu suất truy hồi. Thứ ba, chúng tôi định nghĩa và tạo ra một đồ thị tri thức không đồng nhất của các loại thực thể pháp luật khác nhau để tăng cường hiệu suất của vấn đề truy hồi pháp luật – án lệ. Chúng tôi cũng định nghĩa và xây dựng mạng tham chiếu để thu thập và sử dụng các kết nối hoặc mối quan hệ đồ thị giữa các văn bản pháp luật để cải thiện hiệu suất của nhiệm vụ trả lời câu hỏi. Hơn nữa, suốt suốt luận án này, chúng tôi đề xuất các kiến trúc mô hình sâu để tích hợp cả đặc điểm văn bản và cấu trúc pháp luật của dữ liệu pháp luật để cải thiện hiệu suất của các mô hình truy hồi thông tin và trả lời câu hỏi. Các kiến trúc mô hình được giới thiệu trong luận án được thí nghiệm thiết kế và thực hiện các thí nghiệm để xác nhận tính chính xác và hiệu suất của các mô hình được đề xuất trong luận văn, chứng minh hiệu suất cải thiện so với các tiêu chuẩn hiện tại, với một số kết quả tốt trên các bộ dữ liệu. Việc cải thiện hiệu suất được thể hiện thông qua các thí nghiệm kỹ lưỡng, phân tích, đánh giá làm sáng tỏ tính hiệu quả của các phương pháp và phương pháp đề xuất. Cuối cùng, phân tích và thảo luận trong suốt công việc này sẽ giúp cung cấp hiểu biết sâu sắc hơn về các văn bản pháp luật và các vấn đề xử lý, trình bày các tiến bộ và những hạn chế còn lại của NLP pháp luật nói chung và truy hồi thông tin pháp luật và trả lời câu hỏi pháp luật; và cũng sẽ đề xuất hướng nghiên cứu về truy hồi thông tin pháp luật và trả lời câu hỏi pháp luật trong tương lai, đặc biệt là đối với các ngôn ngữ ít tài nguyên như tiếng Việt.
Luận án đưa ra ba đóng góp chính:
- Chúng tôi nghiên cứu mối quan hệ hỗ trợ trong các văn bản pháp luật và đề xuất một phương pháp gọi là mô hình hỗ trợ có thể xử lý cả giai đoạn truy hồi và làm rõ trong nhiệm vụ truy hồián lệ. Ý tưởng cơ bản là các mối quan hệ hỗ trợ giữa các vụ án, giữa các đoạn văn và giữa các quyết định và đoạn văn để tăng cường tính liên quan cho việc truy hồi văn bản pháp luật. Ngoài ra, dựa trên mối quan hệ hỗ trợ, chúng tôi cũng đề xuất một phương pháp để tự động tạo ra một tập dữ liệu nhãn yếu lớn để vượt qua sự thiếu hụt dữ liệu được gán nhãn.
- Chúng tôi đề xuất và xây dựng một đồ thị tri thức không đồng nhất bao gồm các loại thực thể pháp luật khác nhau (án lệ, tòa án, pháp luật, và miền pháp luật) để cải thiện tổ chức và truy hồi thông tin pháp luật trong nhiệm vụ truy hồi pháp luật – án lệ.
- Chúng tôi nghiên cứu các mối quan hệ trích dẫn, tham chiếu giữa các điều luật và đề xuất một phương pháp mạng tham chiếu để tăng cường hiệu suất của nhiệm vụ trả lời câu hỏi văn bản pháp luật. Nhúng và mã hóa các tham chiếu cục bộ và các toàn cục (xa) giữa các bài viết pháp luật vào các mô hình ngôn ngữ đào tạo trước giúp mô hình QA trở nên mạnh mẽ và chính xác hơn. Ngoài ra, bằng cách phát hiện các kết nối ẩn giữa các luật, phương pháp của chúng tôi có thể hỗ trợ trong việc xác định những không nhất quán và lỗ hổng trong hệ thống pháp luật, từ đó cải thiện tính hiệu quả và đáng tin cậy của nó.
12. Khả năng ứng dụng trong thực tiễn:
Luận án tiến sĩ này đóng góp cho cả lĩnh vực khoa học và thực tiễn. Luận án trình bày một cái nhìn toàn diện về NLP miền pháp luật cho truy hồi và trả lời câu hỏi văn bản pháp luật. Nó cũng cung cấp cái nhìn sâu sắc về các đặc điểm của các văn bản pháp luật và mối quan hệ giữa chúng. Ngoài ra, các phương pháp biểu diễn, thiết kế kiến trúc của các mô hình, và các bước thực hiện cho việc huấn luyện và đánh giá các mô hình này được mô tả chi tiết trong luận án này.
13. Những hướng nghiên cứu tiếp theo:
Các nghiên cứu trong tương lai sẽ cải thiện phương pháp được đề xuất theo nhiều hướngkhác nhau. Đầu tiên, tiếp tục cải thiện các phương pháp để giải quyết các vấn đề liênquan đến độ dài và độ phức tạp của các tài liệu pháp lý. Thứ hai, hiệu quả của việc tíchhợp các mối quan hệ pháp lý vào các nhiệm vụ IR và QA của tài liệu pháp lý cho thấychúng ta có thể mở rộng các phương pháp của mình với sự trình bày kiến thức pháp lýlớn hơn và phức tạp hơn, tức là, về cả quy mô và đa dạng. Mở rộng nghiên cứu về biểudiễn logic trong các tài liệu pháp lý để cải thiện độ chính xác cho các nhiệm vụ truy hồinói riêng và NLP pháp lý nói chung. Ngoài ra, chúng ta có thể thử các mô hình ngôn ngữđược huấn luyện trước lớn hơn, đặc biệt là các mô hình chuyên sâu cho mỗi ngôn ngữ cụthể. Cuối cùng, phát triển các giải pháp và mô hình cho IR và QA pháp lý từ nhiều gócđộ khác nhau để phục vụ nhiều loại người dùng khác nhau bao gồm các nhà lập pháp,thẩm phán, nguyên đơn, bị đơn và người dùng không chuyên
14. Các công trình đã công bố có liên quan đến luận án:
[1] Yen Thi-Hai Vuong, Quan Minh Bui, Ha-Thanh Nguyen, Thi-Thu-Trang Nguyen, Vu Tran, Xuan-Hieu Phan, Ken Satoh, and Le-Minh Nguyen. “SM-BERT-CR: a deep learning approach for case law retrieval with supporting model.” Artificial Intelligence and Law 31, no. 3 (2023): 601-628. (SCIE, ISI/Q1 journal)
[2] Thi-Hai-Yen Vuong, Hai-Long Nguyen, Tan-Minh Nguyen, Hoang-Trung Nguyen, Thai-Binh Nguyen, and Ha-Thanh Nguyen. “NOWJ at COLIEE 2023: Multi-task and Ensemble Approaches in Legal Information Processing.” The Review of Socionetwork Strategies (2024): 1-21. (ESCI, WoS journal)
[3] Thi-Hai-Yen Vuong, Hoang Minh-Quan, Tan-Minh Nguyen, Hoang-Trung Nguyen, and Ha-Thanh Nguyen. “Constructing a Knowledge Graph for Vietnamese Legal Cases with Heterogeneous Graphs.” In 2023 15th International Conference on Knowledge and Systems Engineering (KSE), pp. 1-6. IEEE, 2023. (Scopus conference)
[4] Thi-Hai-Yen Vuong, Ha-Thanh Nguyen, Quang-Huy Nguyen, Le-Minh Nguyen, Xuan-Hieu Phan. “Improving Vietnamese Legal Question-Answering System based on Automatic Data Enrichment”. In JSAI-isAI 2022. Lecture Notes in Computer Science, Springer. (In press, Scopus conference)
[5] Hai-Long Nguyen, Thai-Binh Nguyen, Tan-Minh Nguyen, Ha-Thanh Nguyen, and Hai-Yen Thi Vuong. “Vlh team at alqac 2022: Retrieving legal document and extracting answer with bert-based model.” In 2022 14th International Conference on Knowledge and Systems Engineering (KSE), pp. 1-6. IEEE, 2022. (Scopus conference)
[6] Nguyen, Hai-Long, Dieu-Quynh Nguyen, Hoang-Trung Nguyen, Thu-Trang Pham, Huu-Dong Nguyen, Thach-Anh Nguyen, Thi-Hai-Yen Vuong and Ha-Thanh Nguyen. “NeCo@ ALQAC 2023: Legal Domain Knowledge Acquisition for Low-Resource Languages through Data Enrichment.” In 2023 15th International Conference on Knowledge and Systems Engineering (KSE), pp. 1-6. IEEE, 2023. (Scopus conference)