Google huấn luyện AI để… viết các bài Wikipedia

23/02/2018
Huan Luyen AI

Huan Luyen AI

Một nhóm phát triển thuộc Google Brain – phòng nghiên cứu machine learning của Google – đã dạy AI cách viết các bài Wikipedia bằng cách tổng hợp thông tin từ các trang web, và đã đạt được những thành công nhất định.

Internet là một kho lưu trữ không giới hạn các bài báo, bài đăng trên mạng xã hội, meme, và các blog. Bạn không thể nào đọc hay theo dõi tất cả mọi thứ được. Việc sử dụng AI để xác định một chú chó hay mèo trong các bức hình là một ý tưởng thú vị, nhưng có bao giờ bạn nghĩ rằng sẽ tốt biết mấy nếu những AI đó biết cách tổng hợp và tóm tắt thông tin từ nhiều nguồn khác nhau thành những đoạn văn ngắn, giúp chúng ta dễ đọc và theo dõi hơn? Tất nhiên, việc này không dễ dàng chút nào.

Thật vậy, một bản báo cáo vừa được tung ra vào tháng trước đã miêu tả quá trình đầy khó khăn này.

Một vài công ty đã thử thực hiện điều này. Salesforce đã huấn luyện một mạng lưới thần kinh tái hồi sử dụng thuật toán học tăng cường để thu thập thông tin và kể lại chúng một cách tóm lược. Kết quả không tệ chút nào.

Tuy nhiên, các câu văn mà máy tính viết ra lại đơn giản và ngắn gọn. Chúng thiếu sự sáng tạo và vần điệu như các câu văn của con người. Nỗ lực mới nhất của Google Brain đã đạt được kết quả tốt hơn đôi chút: các câu văn đã dài hơn và đọc tự nhiên hơn.

Dưới đây là một ví dụ: ở bên phải bức hình là đoạn văn do con người viết về Wings over Kansas – một website về máy bay dành cho phi công và những người có cùng sở thích – được tìm thấy trên Wikipedia. Còn phía bên trái là đoạn văn do AI viết, với các thông tin được tổng hợp từ Internet.

Doan Van

Đoạn văn mà AI viết hơi khó đọc nếu không viết in hoa các chữ cái đầu câu, và hầu hết các câu văn đều có cấu trúc khá cứng nhắc. Tuy nhiên nhìn chung, đoạn văn vẫn có thể được đọc hiểu khá tốt, dù nội dung tóm tắt chưa thực sự là “tóm tắt” và vẫn dài hơn đoạn văn tương ứng trên Wikipedia.

AI này hoạt động bằng cách lấy thông tin từ top 10 website có liên quan đến chủ đề được đưa ra, ngoại trừ trang Wikipedia, hoặc lấy thông tin từ các đường dẫn trong mục tài liệu tham khảo của bài viết trên Wikipedia. Hầu hết các trang web được chọn được sử dụng vào việc huấn luyện, và một số trang khác được giữ lại để phát triển và kiểm tra hệ thống.

AI sẽ xếp hạng các đoạn văn từ mỗi trang, sau đó copy nội dung văn bản từ các trang này và đưa vào một tài liệu dài hơn, mã hoá và làm ngắn chúng lại theo phương thức tách chúng ra thành 32.000 từ riêng lẽ để làm “nguồn nguyên liệu” cho việc viết bài.

Những “nguyên liệu” này sau đó sẽ được đưa vào một bộ máy để cắt các câu dài thành các câu ngắn hơn. Đây là một “mánh” thông minh, vừa có thể ứng dụng để tạo lẫn tóm lược các đoạn văn bản. Các câu văn do AI tạo ra được lấy từ bước trích xuất nội dung trước đó và không phải xây dựng từ đầu, do đó dễ hiểu tại sao cấu trúc câu có vẻ lặp lại và cứng nhắc.

Huan Luyen AI

Mohammad Saleh – đồng tác giả bản báo cáo và là một kỹ sư phần mềm của nhóm Google AI cho biết: “Giai đoạn trích xuất giống như một chiếc cổ chai nhằm xác định phần nào của nội dung nhập vào có thể được chuyển sang giai đoạn ‘trừu tượng hoá’. Nhóm chúng tôi muốn thu được mọi thông tin từ các tài liệu tham khảo”.

“Thiết kế các hình mẫu và phần cứng có khả năng hỗ trợ các chuỗi nhập dài hơn hiện đang được chú trọng nghiên cứu nhằm loại bỏ mọi dưới hạn nêu trên”.

Vẫn còn rất lâu nữa chúng ta mới thấy những nội dung tóm lược hiệu quả. Và dù dự án Google Brain khá thú vị, nhưng việc sử dụng một hệ thống như thế này để tự động tạo ra các bài viết Wikipedia thì quả là không sáng suốt.

Bên cạnh đó, AI này lệ thuộc vào độ phổ biến của 10 website đầu tiên trong kết quả tìm kiếm của Google, do đó nếu những trang như thế này đưa ra các thông tin không dáng tin cậy, thì việc viết bài sẽ không đạt tính chính xác cao được.

Sưu tầm