Vấn đề lớn của Veo 3

Veo3 là mô hình AI mới nhất của Google ra mắt cuối tháng 5, cho phép tạo video dựa trên câu lệnh. Mô hình này đã thu hút sự chú ý của cộng đồng sáng tạo nội dung khi cho phép tạo video có âm thanh và lời thoại, tính năng không có trên phiên bản mô hình trước đó của Google, do đó giống thật hơn.

Nhiều người dùng sử dụng các đoạn video Veo 3, dài tối đa 8 giây, để ghép thành quảng cáo, video ASMR, trailer phim giả tưởng và phỏng vấn đường phố hài hước.

Đạo diễn từng được đề cử Oscar, Darren Aronofsky, đã sử dụng công cụ này để thực hiện một phim ngắn tên Ancestra. Trong buổi họp báo, CEO của Google DeepMind, Demis Hassabis, so sánh Veo 3 với bước tiến "thoát khỏi kỷ nguyên phim câm” trong điện ảnh.

Phụ đề "dai dẳng" từ Veo 3

Tuy nhiên, nhiều người dùng phát hiện rằng công cụ này không hoạt động như kỳ vọng. Khi tạo clip có lời thoại, Veo 3 thường tự động chèn những dòng phụ đề vô nghĩa, lộn xộn, ngay cả khi câu lệnh đã ghi rõ là không thêm phụ đề.

Việc xóa những dòng phụ đề này không đơn giản. Người dùng buộc phải tạo lại clip, tốn “token” đồng nghĩa với tốn thêm tiền cho Google, hoặc dùng công cụ bên ngoài để xóa phụ đề, hoặc cắt xén video để loại bỏ phần phụ đề.

Veo 3 tạo ra hình ảnh như thật, thoại khớp với khẩu hình miệng, nhưng phụ đề vô nghĩa. Ảnh: Lesswrong.

Josh Woodward, phó chủ tịch Google Labs và Gemini, đã đăng trên X vào ngày 9/6 rằng Google đã phát triển các bản vá để giảm bớt tình trạng chữ rác. Nhưng hơn một tháng sau, người dùng vẫn tiếp tục phản ánh vấn đề này trên kênh Discord của Google Labs, cho thấy việc sửa lỗi trong các mô hình AI lớn không dễ dàng.

Cũng như các mô hình AI tạo video trước của Google, Veo 3 là mô hình mất phí, bắt đầu từ 249,99 USD mỗi tháng. Để tạo một video dài 8 giây, người dùng nhập mô tả vào Flow, Gemini hoặc nền tảng khác. Mỗi lần tạo clip bằng Veo 3 tốn ít nhất 20 tín dụng AI, và người dùng có thể nạp thêm với giá 25 USD cho 2.500 tín dụng.

Mona Weiss, một đạo diễn quảng cáo, cho biết việc tạo lại cảnh quay để loại bỏ phụ đề đang trở thành một khoản chi phí đáng kể. “Nếu bạn tạo một cảnh có lời thoại bằng Veo3, khoảng 40% sản phẩm đầu ra sẽ có phụ đề vô nghĩa khiến video không thể sử dụng được”, cô nói. “Tiêu tốn rất nhiều tiền để có một cảnh ưng ý, nhưng cuối cùng lại không dùng được”.

Phụ đề vô nghĩa khó loại bỏ trên Veo 3. Ảnh: Technology Review.

Khi Weiss báo cáo vấn đề này cho Google Labs qua Discord với hy vọng được hoàn lượng tín dụng bị lãng phí, nhóm hỗ trợ chuyển cô sang bộ phận hỗ trợ chính thức của công ty. Họ đề nghị hoàn lại tiền cho chi phí đăng ký Veo 3, nhưng không hoàn tín dụng. Weiss từ chối vì chấp nhận hoàn tiền đồng nghĩa với việc mất quyền truy cập vào mô hình.

Nhóm hỗ trợ trên Discord của Google Labs cho biết phụ đề có thể tự động được kích hoạt nếu phát hiện giọng nói, và họ đang nỗ lực sửa lỗi này.

Vấn đề từ cách làm của Google

Lý do Veo 3 tự động chèn phụ đề bắt nguồn từ dữ liệu mà mô hình được huấn luyện.

Mặc dù Google không công bố chi tiết danh mục dữ liệu đào tạo mô hình, nhưng rất có thể bao gồm video từ các nền tảng YouTube và TikTok, trong đó nhiều nội dung có phụ đề. Các phụ đề này được nhúng trực tiếp vào khung hình, do đó khó loại bỏ trước khi đưa vào làm dữ liệu đào tạo mô hình, theo Shuo Niu, nhà nghiên cứu về nền tảng chia sẻ video và AI tại Đại học Clark (Massachusetts, Mỹ).

“Các mô hình text-to-video được đào tạo bằng học tăng cường để tạo ra nội dung bắt chước video do con người làm ra, và nếu những video đó có phụ đề, mô hình có thể ‘học’ rằng việc chèn phụ đề giúp sản phẩm giống video do con người tạo hơn”, ông giải thích.

Veo 3 bị ảnh hưởng bởi dữ liệu đào tạo mô hình từ video YouTube, TikTok. Ảnh: Mashable.

Người phát ngôn của Google cho biết: “Chúng tôi đang liên tục cải tiến khả năng tạo video, đặc biệt là về văn bản, giọng nói tự nhiên và âm thanh đồng bộ hoàn hảo. Chúng tôi khuyến khích người dùng thử lại câu lệnh nếu thấy kết quả không nhất quán và phản hồi cho chúng tôi thông qua tính năng like hoặc dislike kết quả”.

Ngoài ra, lý do mô hình này bỏ qua chỉ dẫn như “Không có phụ đề” là vì các câu lệnh phủ định (yêu cầu AI không làm điều gì đó) thường kém hiệu quả hơn prompt khẳng định, theo Tuhin Chakrabarty, nhà nghiên cứu các hệ thống AI tại Đại học Stony Brook.

Để khắc phục triệt để vấn đề, Google sẽ phải kiểm tra từng khung hình của tất cả video đã dùng để đào tạo Veo 3, sau đó xóa hoặc gắn nhãn lại các video có phụ đề trước khi đào tạo lại mô hình. Việc này sẽ mất nhiều tuần, Chakrabarty nói thêm.

Katerina Cizek, nhà làm phim tài liệu và giám đốc nghệ thuật tại MIT Open Documentary Lab, cho rằng vấn đề này thể hiện Google vẫn sẵn sàng tung ra thị trường các sản phẩm chưa thực sự hoàn thiện.

“Google cần một chiến thắng”, Cizek nhận định. “Họ cần trở thành người đầu tiên tung ra công cụ có thể tạo ra âm thanh khớp với khẩu hình miệng. Và điều đó quan trọng hơn việc khắc phục sự cố phụ đề”.

Nguồn: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html