Thông tin luận án tiến sĩ của NCS Lê Hoàng Quỳnh

      Tên đề tài luận án: Trích chọn quan hệ ngữ nghĩa trong văn bản khoa học y sinh dựa trên học máy

1. Họ và tên nghiên cứu sinh: LÊ HOÀNG QUỲNH                  2. Giới tính: Nữ

3. Ngày sinh: 02/05/1987                                                           4. Nơi sinh: Hà Nội

5. Quyết định công nhận nghiên cứu sinh số: 985/QD-CTSV ngày 04 tháng 12 năm 2014 của Hiệu trưởng trường Đại học Công nghệ Đại học Quốc gia Hà Nội.

6. Các thay đổi trong quá trình đào tạo: Gia hạn thời gian đào tạo 2 năm.

7. Tên đề tài luận án: Trích chọn quan hệ ngữ nghĩa trong văn bản khoa học y sinh dựa trên học máy

8. Chuyên ngành: Hệ thống thông tin                                      9. Mã số: 9480104.01

10. Cán bộ hướng dẫn khoa học: GS. Nigel Collier và TS. Đặng Thanh Hải

Thông tin luận án tiến sĩ của NCS Lê Hoàng Quỳnh (tiếng Anh)

11. Tóm tắt các kết quả mới của luận án:

  • Luận án hòa vào dòng nghiên cứu trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên trong văn bản y sinh học nói chung và trích chọn quan hệ y sinh nói riêng. Luận án không đi sâu vào đề xuất các thuật toán mới mà thay vào đó là phát triển, kết hợp các phương pháp học máy tiên tiến trong một kiến trúc phù hợp để tận dụng ưu điểm của chúng và tăng hiệu suất mô hình. Luận án đã đề xuất nhiều kiến trúc học máy để giải quyết bài toán nhận dạng thực thể định danh và phân lớp quan hệ trong văn bản y sinh. Các kiến trúc áp dụng và cải tiến nâng cấp nhiều mô hình học máy như học không giám sát với skip-gram, học giám sát với máy véc tơ hỗ trợ, đánh chỉ mục ngữ nghĩa có giám sát, perceptron trung bình, mạng nơ ron hồi quy, mạng nơ ron tích chập, học từ xa (distant supervision learning); và nhiều kỹ thuật nâng cao như kỹ thuật chú ý trong học sâu, học kết hợp (join learning), mô hình kết hợp (ensemble learning) v.v.. Hầu hết các mô hình đề xuất đều cho kết quả khả quan và có thể so sánh với các phương pháp đạt kết quả cao nhất trong cộng đồng nghiên cứu.
  • Đề xuất một cách biểu diễn mới cho văn bản chứa các quan hệ liên câu dựa trên đồ thị cú pháp phụ thuộc và các thông tin đồng tham chiếu, thông tin từ kho tri thức.
  • Xây dựng và cung cấp một bộ dữ liệu tiêu chuẩn bạc ở mức câu phục vụ cho bài toán nhận dạng thực thể bệnh/thuộc và phân lớp quan hệ thuốc gây ra bệnh.

       12. Khả năng ứng dụng trong thực tiễn: Nghiên cứu trong luận án có thể được ứng dụng để xây dựng các hệ thống nhận dạng thực thể và trích chọn quan hệ y sinh học, đặt nền tảng quan trọng trong việc trích chọn và xử lý thông tin từ các công bố khoa học trong lĩnh vực y sinh.

      13. Những hướng nghiên cứu tiếp theo: Nghiên cứu sinh đang tiếp tục nghiên cứu của mình trong lĩnh vực này, hướng đến các bài toán phức tạp hơn như tóm tắt đa văn bản.

       14. Các công trình đã công bố có liên quan đến luận án:

– Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Quang-Thuy Ha and Nigel Collier (2016). “Sieve-based coreference resolution enhances semi-supervised learning model for chemical-induced disease relation extraction”. Database (2016), 2016: article ID baw102.

– Hoang-Quynh Le, Duy-Cat Can, Thanh Hai Dang, Mai-Vu Tran, Quang-Thuy Ha and Nigel Collier (2017). “Improving chemical-induced disease relation extraction with learned features based on convolutional neural network”. In proceedings of the 9th International Conference on Knowledge and Systems Engineering (KSE), pp. 292-297. IEEE.

– Thanh Hai Dang, Hoang-Quynh Le, Trang M. Nguyen, Sinh T. Vu (2018). “D3NER: Biomedical named entity recognition using CRF-biLSTM improved with fine-tuned embeddings of various linguistic information”. Bioinformatics, 34(20), pp 3539-3546.

– Hoang-Quynh Le, Duy-Cat Can, Sinh T. Vu, Thanh Hai Dang, Mohammad Taher Pilehvar and Nigel Collier (2018). “Large-scale Exploration of Neural Relation Classification Architectures”. In proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 2266-2277.

– Duy-Cat Can, Hoang-Quynh Le and Quang-Thuy Ha (2019). “Improving Semantic Relation Extraction System with Compositional Dependency Unit on Diverse Shortest Dependency Path”. In proceedings of the 11th Asian Conference on Intelligent Information and Database Systems (ACIIDS 2019), pp. 140-152. Springer, Cham.

– Duy-Cat Can, Hoang-Quynh Le*, Quang-Thuy Ha and Nigel Collier. “A Richer-but-Smarter Shortest Dependency Path with Attentive Augmentation for Relation Extraction”. In proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pp. 2902-2912. (*Corresponding author).

– Mai-Vu Tran, Hoang-Quynh Le, Duy-Cat Can, Huyen Nguyen, Linh Nguyen Tran Ngoc and Tam Doan Thanh. “Overview of VLSP RelEx shared task: A Data Challenge for Semantic Relation Extraction from Vietnamese News”. In Proceedings of the 7th international workshop on Vietnamese Language and Speech Processing (VLSP 2020). Association for Computational Linguistics, 2020.

– Hoang-Quynh Le, Quoc-An Nguyen, Quoc-Hung Duong, Minh-Quang Nguyen, Huy-Son Nguyen, Tam Doan Thanh, Hai-Yen Thi Vuong, and Trang M. Nguyen. “UETfishes at MEDIQA 2021: Standing-on-the-Shoulders-of-Giants Model for Abstractive Multi-answer Summarization”. In Proceedings of the 20th SIGBioMed Workshop on Biomedical Language Processing, NAACL-BioNLP 2021. Association for Computational Linguistics, 2021.

Bài viết liên quan