OpenAI ra mắt mô hình Sora: Tạo video từ văn bản dài 60 giây với độ chân thực kinh ngạc
Sự xuất hiện của Sora đánh dấu một cột mốc quan trọng trong kỷ nguyên AI sáng tạo, cho phép chuyển đổi những dòng mô tả văn bản đơn thuần thành những đoạn phim chất lượng điện ảnh với độ dài lên đến một phút.
Hôm nay, OpenAI - tổ chức đứng sau sự thành công của ChatGPT và DALL-E - đã chính thức công bố mô hình trí tuệ nhân tạo (AI) mới nhất mang tên Sora. Đây là một mô hình văn bản chuyển thành video (text-to-video) có khả năng tạo ra các cảnh quay phức tạp với nhiều nhân vật, các loại chuyển động cụ thể và chi tiết bối cảnh chuẩn xác. Sự kiện này ngay lập tức gây chấn động giới công nghệ toàn cầu, thiết lập một tiêu chuẩn mới về khả năng mô phỏng thế giới vật lý của máy tính.
Bước nhảy vọt về thời lượng và chất lượng
Trước khi Sora ra mắt, các mô hình tạo video từ AI hàng đầu như Runway Gen-2 hay Pika Labs thường chỉ giới hạn ở các đoạn clip ngắn từ 3 đến 4 giây với các chuyển động đôi khi còn rời rạc và thiếu tự nhiên. Sora đã phá vỡ rào cản đó bằng khả năng tạo ra các đoạn video dài tới 60 giây trong khi vẫn duy trì được độ phân giải cao và tính nhất quán của các đối tượng trong suốt toàn bộ khung hình.
Theo thông cáo từ OpenAI, Sora không chỉ hiểu những gì người dùng yêu cầu trong câu lệnh (prompt), mà còn hiểu cách những thứ đó tồn tại và vận động trong thế giới vật lý. Mô hình có "sự hiểu biết sâu sắc về ngôn ngữ", cho phép nó diễn giải chính xác các yêu cầu phức tạp và tạo ra các nhân vật biểu đạt cảm xúc sống động.
"Sora đại diện cho một bước tiến quan trọng trong việc xây dựng các mô hình có thể mô phỏng thế giới thực. Khả năng duy trì sự nhất quán của các vật thể khi chúng di chuyển hoặc tạm thời bị che khuất là một thành tựu kỹ thuật đáng nể mà chúng ta chưa từng thấy ở quy mô này trước đây."
— Tiến sĩ Lê Minh Hoàng, Chuyên gia cao cấp tại Viện Nghiên cứu AI quốc tế (Giả định).
Kiến trúc kỹ thuật và khả năng mô phỏng vật lý
Sora sử dụng kiến trúc diffusion transformer. Tương tự như các mô hình DALL-E 3, nó bắt đầu bằng một khung hình nhiễu tĩnh và dần dần tinh chỉnh bằng cách loại bỏ nhiễu qua nhiều bước để tạo ra hình ảnh hoàn chỉnh. Điểm đặc biệt của Sora là cách nó xử lý dữ liệu video dưới dạng các "patches" (mảnh dữ liệu nhỏ), tương tự như "tokens" trong các mô hình ngôn ngữ lớn (LLM). Điều này giúp mô hình có thể đào tạo trên nhiều loại dữ liệu hình ảnh và video với các thời lượng, độ phân giải và tỉ lệ khung hình khác nhau.
Mặc dù vậy, OpenAI cũng thừa nhận Sora vẫn còn những hạn chế nhất định. Mô hình đôi khi gặp khó khăn trong việc mô phỏng chính xác các tương tác vật lý phức tạp, chẳng hạn như nguyên nhân và kết quả. Một ví dụ điển hình được OpenAI nêu ra là: một người có thể cắn một miếng bánh quy, nhưng sau đó chiếc bánh quy có thể không có vết cắn. Việc phân biệt trái - phải hoặc hiểu các mô tả về vị trí camera theo thời gian cũng là một thách thức đang được tiếp tục hoàn thiện.
Vấn đề an toàn và đạo đức được đặt lên hàng đầu
Nhận thức được tiềm năng gây ra thông tin sai lệch (deepfake) và các vấn đề về bản quyền, OpenAI cho biết họ hiện đang làm việc với các chuyên gia "Red Teaming" để kiểm tra các lỗ hổng của mô hình. Các chuyên gia này sẽ cố gắng thực hiện các hành vi tấn công thử nghiệm để tìm ra các nội dung độc hại, gây thù ghét hoặc sai lệch.
- C2PA Metadata: Video tạo ra từ Sora sẽ bao gồm các siêu dữ liệu để xác định nguồn gốc là sản phẩm của AI.
- Bộ lọc nội dung: OpenAI áp dụng các thuật toán kiểm duyệt để từ chối các câu lệnh vi phạm chính sách về bạo lực, tình dục hoặc sử dụng hình ảnh người nổi tiếng.
- Phát hành hạn chế: Hiện tại, Sora chỉ được cung cấp cho một nhóm nhỏ các nghệ sĩ, nhà thiết kế và nhà làm phim để lấy ý kiến phản hồi trước khi phát hành rộng rãi.
Tác động đến ngành công nghiệp sáng tạo
Sự ra đời của Sora dự báo sẽ tạo ra một cuộc cách mạng trong các ngành quảng cáo, điện ảnh và trò chơi điện tử. Khả năng tạo ra các bản demo (concept) nhanh chóng với chi phí gần như bằng không sẽ giúp các nhà sáng tạo tiết kiệm hàng nghìn giờ làm việc. Tuy nhiên, điều này cũng dấy lên những lo ngại về tương lai nghề nghiệp của các nghệ sĩ kỹ xảo hình ảnh (VFX) và các nhà quay phim truyền thống.
Thống kê sơ bộ từ các nền tảng sáng tạo cho thấy, nhu cầu về các công cụ hỗ trợ AI đã tăng 150% trong năm qua. Với sự góp mặt của Sora, con số này được dự báo sẽ còn tăng trưởng đột biến trong giai đoạn 2024-2025.
Nhận định xu hướng
Kết luận lại, Sora không chỉ đơn thuần là một công cụ tạo video. Nó là minh chứng cho thấy ranh giới giữa thực tế và ảo đang dần bị xóa nhòa. Trong tương lai gần, chúng ta có thể chứng kiến sự kết hợp giữa Sora và các hệ thống AI thời gian thực để tạo ra những trải nghiệm thực tế ảo hoàn toàn do máy tính tạo ra một cách liền mạch. OpenAI đang đi những bước đi thận trọng nhưng đầy tham vọng, biến những ý tưởng viễn tưởng thành hiện thực ngay trước mắt chúng ta.
