Chatbot của OpenAI ngày càng cải thiện thông qua những công nghệ mới. Ảnh: New York Times. |
Tháng 9/2024, OpenAI ra mắt phiên bản ChatGPT tích hợp mô hình o1, có thể lý luận trong những tác vụ liên quan đến toán học, khoa học và lập trình máy tính.
Khác với phiên bản trước của ChatGPT, công nghệ mới sẽ dành thời gian “suy nghĩ” giải pháp cho những vấn đề phức tạp trước khi đưa ra phản hồi.
Sau OpenAI, nhiều đối thủ như Google, Anthropic và DeepSeek cũng giới thiệu các mô hình lý luận tương tự. Dù chưa hoàn hảo, đây vẫn là công nghệ nâng cấp chatbot đang được nhiều nhà phát triển tin tưởng.
Cách AI lý luận
Về cơ bản, lý luận nghĩa là chatbot có thể dành thêm thời gian giải quyết vấn đề được đưa ra bởi người dùng.
“Lý luận là cách hệ thống làm việc thêm sau khi nhận câu hỏi”, Dan Klein, giáo sư khoa học máy tính tại Đại học California (Mỹ), chia sẻ với New York Times.
Hệ thống lý luận có thể chia nhỏ vấn đề thành nhiều bước riêng lẻ, hoặc giải quyết thông qua các lần thử nghiệm và sửa sai.
Khi mới ra mắt, ChatGPT có thể trả lời câu hỏi ngay lập tức nhờ trích xuất và tổng hợp thông tin. Trong khi đó, hệ thống lý luận cần thêm vài giây (thậm chí vài phút) để giải quyết vấn đề và ra phản hồi.
![]() |
Ví dụ về quy trình lý luận của mô hình o1 trong chatbot chăm sóc khách hàng. Ảnh: OpenAI. |
Trong một số trường hợp, hệ thống lý luận sẽ thay đổi cách tiếp cận vấn đề, liên tục cải thiện giải pháp. Ngoài ra, mô hình có thể thử nghiệm nhiều giải pháp trước khi đưa ra lựa chọn tối ưu, hoặc kiểm tra tính chính xác trong các phản hồi trước đó.
Nhìn chung, hệ thống lý luận sẽ cân nhắc mọi cách trả lời câu hỏi. Điều này giống học sinh tiểu học, viết nháp trên giấy nhiều phương án trước khi chọn cách giải bài toán phù hợp nhất.
Theo New York Times, AI hiện nay có khả năng lý luận mọi chủ đề. Tuy nhiên, tác vụ sẽ hiệu quả nhất với câu hỏi liên quan đến toán học, khoa học và lập trình máy tính.
Hệ thống lý luận được đào tạo như thế nào?
Trên chatbot thông thường, người dùng vẫn có thể yêu cầu giải thích quá trình hoặc kiểm tra tính chính xác của phản hồi. Trên thực tế, nhiều bộ dữ liệu huấn luyện ChatGPT đã kèm quy trình giải quyết vấn đề.
Hệ thống lý luận thậm chí tiến bộ hơn khi có thể thực hiện thao tác mà không cần người dùng yêu cầu. Quá trình này diễn ra phức tạp và sâu rộng hơn. Các công ty dùng từ "lý luận" bởi hệ thống hoạt động tương tự cách suy nghĩ của con người.
Nhiều công ty như OpenAI kỳ vọng hệ thống lý luận là giải pháp cải thiện chatbot tốt nhất hiện nay. Trong nhiều năm, họ tin rằng chatbot hoạt động càng tốt nếu được huấn luyện từ càng nhiều thông tin trên Internet.
Đến năm 2024, những hệ thống AI đã sử dụng gần hết toàn bộ văn bản có sẵn trên Internet. Điều đó đồng nghĩa các công ty cần tìm giải pháp mới để nâng cấp chatbot, trong đó có hệ thống lý luận.
![]() |
Startup DeepSeek từng "gây sốt" với mô hình lý luận có chi phí thấp hơn OpenAI. Ảnh: Bloomberg. |
Kể từ năm ngoái, các công ty như OpenAI tập trung vào kỹ thuật học tăng cường (reinforcement learning). Quá trình này thường kéo dài vài tháng, trong đó AI sẽ học hỏi hành vi thông qua thử nghiệm và sửa sai.
Ví dụ, bằng cách giải quyết hàng nghìn bài toán, hệ thống có thể nhận biết phương pháp tối ưu để đưa ra câu trả lời đúng. Từ đó, các nhà nghiên cứu xây dựng cơ chế phản hồi phức tạp, giúp hệ thống nhận biết cách giải đúng và sai.
“Điều đó tương tự cách huấn luyện con chó. Nếu hệ thống hoạt động tốt, bạn tặng bánh cho nó. Ngược lại, bạn sẽ nói ‘chó hư quá’”, Jerry Tworek, một nhà nghiên cứu tại OpenAI, chia sẻ.
Có phải tương lai của AI?
Theo New York Times, kỹ thuật học tăng cường hoạt động hiệu quả với những yêu cầu về toán học, khoa học và lập trình máy tính. Đây là lĩnh vực có thể xác định rõ đáp án đúng hoặc sai.
Ngược lại, học tăng cường không hiệu quả trong sáng tác văn bản, triết học hay đạo đức, các lĩnh vực vốn khó phân biệt giữa tốt và xấu. Dù vậy, các nhà nghiên cứu khẳng định kỹ thuật này vẫn có thể cải thiện hiệu suất của AI, kể cả với các câu hỏi ngoài toán học.
“Các hệ thống sẽ học hỏi con đường dẫn đến kết quả tích cực và tiêu cực”, Jared Kaplan, Giám đốc Khoa học tại Anthropic, cho biết.
![]() |
Website của Anthropic, startup sở hữu mô hình AI Claude. Ảnh: Bloomberg. |
Cần lưu ý rằng học tăng cường và hệ thống lý luận là 2 khái niệm khác nhau. Cụ thể, học tăng cường là phương pháp xây dựng hệ thống lý luận. Đây là giai đoạn đào tạo cuối cùng để chatbot có khả năng lý luận.
Do vẫn tương đối mới, các nhà khoa học chưa thể chắc chắn chatbot lý luận hay học tăng cường có thể giúp AI suy nghĩ giống con người hay không. Cần lưu ý rằng nhiều xu hướng đào tạo AI hiện nay phát triển rất nhanh trong thời gian đầu rồi dần chững lại.
Ngoài ra, chatbot lý luận vẫn có thể mắc sai sót. Dựa vào xác suất, hệ thống sẽ chọn quy trình gần giống dữ liệu được học nhất, cho dù đến từ Internet hay thông qua học tăng cường. Do đó, chatbot vẫn có thể chọn giải pháp sai hoặc không hợp lý.
Nguồn: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html
Bình luận (0)