Chuyển giao hệ thống tự động phân tích dữ liệu truyền thông xã hội cho tỉnh Hà Tĩnh
Mới đây, đề tài “Hệ thống tự động phân tích dữ liệu truyền thông xã hội trực tuyến phục vụ quản lý và hỗ trợ ra quyết định trong kinh tế, chính trị, giáo dục và xã hội” do nhóm nghiên cứu khoa Công nghệ thông tin (Trường Đại học Công nghệ) thực hiện đã được chuyển giao cho tỉnh Hà Tĩnh triển khai. Phóng viên đã có cơ hội phỏng vấn TS. Trần Mai Vũ về phần mềm này.
Thưa Tiến sĩ, xuất phát từ ý tưởng như thế nào để nhóm nghiên cứu quyết định thực hiện đề tài này thưa Tiến sĩ?
Đề tài “Hệ thống tự động phân tích dữ liệu truyền thông xã hội trực tuyến phục vụ quản lý và hỗ trợ ra quyết định trong kinh tế, chính trị, giáo dục và xã hội” do nhóm nghiên cứu gồm các thành viên: PGS.TS. Phạm Bảo Sơn, PGS.TS Phan Xuân Hiếu, PGS.TS Hà Quang Thụy cùng các thành viên trong Phòng thí nghiệm Công nghệ tri thức thực hiện.
Nhóm nghiên cứu đã xây dựng phần mềm dựa trên các nghiên cứu từ đề tài QG.16.34 năm 2016 “VNU-SMM: Hệ thống tự động phân tích dữ liệu truyền thông xã hộitrực tuyến phục vụ quản lý và hỗ trợ ra quyết định trong kinh tế, chính trị, giáo dục và xã hội”. Phiên bản hiện tại được chuyển giao cho tỉnh Hà Tĩnh là phiên bản 3.0 được xây dựng từ tháng 03/2017-09/2017.
Sự phát triển của mạng xã hội và bùng nổ về thông tin, hằng ngày có rất nhiều bài viết mới được đưa lên internet, nhưng đối với các cá nhân và tổ chức để thu thập và hiểu được ý kiến đánh giá của các bài viết này lại là một thách thức lớn. Với khối lượng dữ liệu khổng lồ như vậy thì cá nhân hay tổ chức không thể làm một cách thủ công, mà cần có một công cụ tự động “lắng nghe” mạng xã hội, tự động thực hiện việc tổng hợp, phân tích, đánh giá, so sánh, tóm tắt tin tức… nhằm nắm bắt một cách nhanh nhất các thông tin cần quan tâm.
Do đó, tự động phân tích và theo dõi truyền thông xã hội trực tuyến (online social media monitoring – SMM) là một lĩnh vực nghiên cứu có ứng dụng rất phong phú, có thể áp dụng vào hầu hết các lĩnh vực trong đời sống xã hội như marketing, quảng cáo trực tuyến, thương mại điện tử, sản xuất, tài chính/ngân hàng, y tế/sức khỏe, giáo dục, văn hóa, và cả an ninh quốc gia.
Trong thực tiễn, hệ thống này có ý nghĩa như thế nào đối với xã hội nói chung và tỉnh Hà Tĩnh nói riêng, thưa Tiến sĩ?
Trước khi chuyển giao cho tỉnh Hà Tĩnh, phần mềm này đã được triển khai và thử nghiệm ở một số cơ quan ban ngành tại thành phố Hà Nội, hỗ trợ tuyển sinh tại ĐHQGHN và được các đơn vị đánh giá tốt với các tính năng phân tích thông minh.
Đối với xã hội, hệ thống có thể đáp ứng được nhiều bài toán thực tế, cụ thể:
- Phân tích và tổng hợp thông tin trên mạng xã hội.
- Phân tích và xác định các xu hướng thông tin trên mạng xã hội.
- Phân tích ý kiến, quan điểm của người dùng Internet để hỗ trợ ra quyết định trong quản lý trong nhiều lĩnh vực.
- Phân tích các đánh giá và phản hồi về sản phẩm, dịch vụ, và thương hiệu kinh doanh.
- Phân tích hành vi người dùng phục vụ marketing và thương mại điện tử.
Đối với tỉnh Hà Tĩnh, việc tổng hợp và quản lý các thông tin tại các cơ quan quản lý đang được thực hiện một cách thủ công, các nguồn thông tin có thể không đầy đủ hoặc chậm trễ. Hệ thống của trường Đại học Công nghệ cho phép các cơ quan quản lý thông tin của tỉnh Hà Tĩnh có thể truy xuất nhanh trên hàng chục nghìn nguồn thông tin với hàng triệu dữ liệu hàng ngày, hệ thống cũng cho phép các cơ quan quản lý có được các số liệu thống kê đầy đủ phục vụ công tác báo cáo hàng ngày, hàng giờ.
Tuy nhiên, trong quá trình thực hiện đề tài nhóm nghiên cứu gặp không ít khó khăn khi lượng dữ liệu lớn đòi hỏi một nền tảng phân tích dữ liệu có thể đáp ứng được. Vì vậy, các thành viên trong nhóm đã áp dụng các công nghệ Big Data để xây dựng một nền tảng xử lý dữ liệu hoạt động trên hàng chục server ảo hóa, nền tảng này cho phép mở rộng một cách dễ dàng khi số lượng dữ liệu tăng cao.
Nhóm nghiên cứu đã vấp phải khó khăn giống như các hệ thống phân tích thông tin hiện nay là việc dữ liệu từ các kênh truyền thông đa phương tiện là dạng văn bản, đòi hỏi các công nghệ hiểu ngôn ngữ và xử lý ngôn ngữ ở mức độ sâu.Nhưng với sự hỗ trợ của các chuyên gia xử lý ngôn ngữ tự nhiên và khoa học dữ liệu các bài toán về xử lý ngôn ngữ đã được giải quyết ở mức độ sâu với các kỹ thuật phân tích tiên tiến.
Giao diện “Hệ thống tự động phân tích dữ liệu truyền thông xã hội trực tuyến phục vụ quản lý và hỗ trợ ra quyết định trong kinh tế, chính trị, giáo dục và xã hội”
Tiến sĩ có thể cho biết tính năng và nguyên tắc hoạt động của phần mềm này như thế nào?
Hệ thống hoạt động trên nền tảng dữ liệu lớn (Big Data) và điện toán đám mây (Cloud Computing) thực hiện việc thu thập hàng trăm triệu dữ liệu hàng ngày từ hầu hết các nguồn thông tin trên các phương tiện xã hội (social media) như mạng xã hội, báo chí, diễn đàn, blog,… Tất cả dữ liệu được thu thập sẽ được tiến hành phân tích và xử lý bằng các kỹ thuật khai phá dữ liệu, học máy và xử lý ngôn ngữ tự nhiên ở mức sâu. Các mô hình và thuật toán phân tích được xây dựng bởi đội ngũ chuyên gia hàng đầu về Khoa học dữ liệu và Trí tuệ nhân tạo của trường Đại học Công nghệ, ĐHQGHN. Dữ liệu sau khi được phân tích sẽ được biểu diễn trực quan và thân thiện trên hệ thống giao diện người sử dụng.
Theo anh, những phần mềm được thương mại hóa và được các đơn vị đặt hàng có ý nghĩa như thế nào đối với các nhóm nghiên cứu nói riêng và trường ĐHCN nói chung?
Các phần mềm được thương mại hóa giúp hiện thực hóa các ý tưởng của các nhà khoa học trong trường Đại học. Các phần mềm và sản phẩm sẽ nhận được các ý kiến phản hồi của người sử dụng, thông qua đó các nhà khoa học hay các nhóm nghiên cứu có thể cải tiến ý tưởng cũng như đưa ra được các nghiên cứu thiết thực hơn để phục vụ xã hội.
Trong thời gian tới, nhóm nghiên cứu sẽ nâng cấp thêm một số tính năng phục vụ cho tỉnh Hà Tĩnh, phát triển thêm các tính năng phân tích thông minh khác. Dự kiến sẽ triển khai cho một số tỉnh khác, một số cơ quan quản lý thông tin hay doanh nghiệp cần theo dõi thương hiệu.
Cảm ơn Tiến sĩ.
Theo Tuyết Nga (Bản tin ĐHQGHN số 335+336)