OpenAI vừa công bố mô hình AI mới mang tên Sora, có khả năng tạo ra video từ đầu từ các văn bản đầu vào. Sora có thể tạo ra các video với độ phân giải và tỷ lệ khung hình khác nhau, cũng như chỉnh sửa video hiện có bằng cách thay đổi bối cảnh, ánh sáng hoặc phương pháp quay phim chỉ từ một prompt văn bản. Ngoài ra, Sora có thể tạo ra video dựa trên một hình ảnh đơn hoặc kéo dài video hiện có bằng cách lấp đầy các khung hình thiếu sót.
OpenAI chia sẻ hiện Sora có thể tạo ra video Full HD có độ dài lên đến 1 phút. Qua các mẫu video minh họa đã được công bố, chất lượng video do Sora tạo ra trông rất hứa hẹn. Người dùng có thể truy cập trang chủ của Sora để xem thêm nhiều mẫu video.
Sora có khả năng tạo ra các cảnh phức tạp với nhiều nhân vật, các loại chuyển động cụ thể, và chi tiết chính xác về chủ thể cũng như bối cảnh. Mô hình hiểu không chỉ yêu cầu của người dùng trong prompt mà còn hiểu cách các yếu tố đó tồn tại trong thế giới thực.
Sora hoạt động dựa trên kiến trúc transformer tương tự như ChatGPT, trong đó video và hình ảnh được trình bày dưới dạng các đơn vị dữ liệu nhỏ gọi là các lát cắt. Quá trình tạo video của Sora bắt đầu từ đầu với đầu vào là nhiễu và dần loại bỏ nhiễu để hình thành sản phẩm cuối cùng.
OpenAI cho biết họ sẽ áp dụng các biện pháp an toàn tương tự như đã áp dụng cho DALL-E 3 để kiểm soát Sora. Hiện tại Sora chỉ đang được thử nghiệm bởi các chuyên gia về an toàn để đánh giá nguy cơ trước khi chính thức ra mắt. OpenAI cũng sẽ thương lượng với các nhà hoạch định chính sách, nghệ sĩ và giáo dục để lắng nghe các lo ngại và ý tưởng sử dụng Sora. Hiện chưa có ngày ra mắt chính thức cho Sora.
Đây có thể coi là bước tiến quan trọng trong lĩnh vực tạo nội dung đa phương tiện bằng AI. Tuy nhiên, cũng còn nhiều vấn đề cần được giải quyết như việc kiểm soát nội dung, bảo vệ bản quyền và quyền riêng tư. Với tốc độ phát triển nhanh chóng, công nghệ như Sora hứa hẹn mang lại nhiều cơ hội cho người dùng nhưng cũng tiềm ẩn một số rủi ro cần phải được quản lý kỹ lưỡng.