OpenAI ha anunciado Sora 2, un nuevo generador de audio y vídeo acompañado de una aplicación social vinculada, Sora, en la que los usuarios podrán crear vídeos de sí mismos integrados en escenarios creados por inteligencia artificial y compartirlos en una lista algorítmica al estilo de TikTok. El nuevo modelo de IA generativa de vídeo ofrece grandes mejoras en física en comparación con la generación anterior y crea clips más largos, de 5 a 10 segundos, con cambios de escena complejos y en el estilo que se le solicite.
La nueva Sora 2 se estrena de momento en Estados Unidos y Canadá y por invitación, aunque OpenAI ha asegurado que espera ampliar su activación con rapidez en otros países. Si la primera Sora, lanzada en febrero del 2024, ya supuso un impacto por la calidad de las imágenes creadas con IA, esta segunda versión lo hace todo mucho más indistinguible de la realidad. El modelo puede generar audio a juego con el vídeo, incluyendo diálogos muy realistas y efectos de sonido.
Un par de alpinistas hablan a la cámara con gran realismo
Los modelos mostrados por OpenAI en su blog son impresionantes, con un gran realismo de las leyes de la física, como si hubiera sido todo grabado con cámaras en lugar de ser creado por una IA. Para explicar la mejora, la compañía ha señalado que “los modelos de vídeo anteriores son demasiado optimistas: transforman los objetos y deforman la realidad para ejecutar con éxito una indicación de texto”. El cambio con el nuevo modelo se explica con un ejemplo: “si un jugador de baloncesto falla un tiro, la pelota puede teletransportarse espontáneamente al aro. En Sora 2, si un jugador de baloncesto falla un tiro, la pelota rebotará en el tablero”.
Una de las funciones que promete ser la estrella en la app de Sora es Cameos, que permite a los usuarios insertarse a sí mismos en cualquier escena generada por la IA. Para poder utilizar su propia imagen en un vídeo generado, los usuarios tendrán que subir una grabación de vídeo y audio única para verificar su identidad y capturar su apariencia. OpenAI explica que el modelo “es capaz de seguir instrucciones complejas que abarcan múltiples tiros mientras mantiene con precisión el estado del mundo” y que “destaca por sus estilos realistas, cinematográficos y de anime”.
Un vaquero monta sobre un caballo que monta sobre un caballo
La compañía que lidera Sam Altman reconoce que Sora 2 “está lejos de ser perfecto y comete muchos errores, pero es una validación de que ampliar aún más las redes neuronales en los datos de vídeo nos acercará a la simulación de la realidad”. Para seleccionar lo que se le ofrece a cada usuario, OpenAI ha creado “una nueva clase de algoritmos de recomendación que pueden recibir instrucciones a través del lenguaje natural”, y asegura que ha añadido “ mecanismos para sondear periódicamente a los usuarios sobre su bienestar y ofrecerles de forma proactiva la opción de ajustar su feed de vídeos”.
Como medida de seguridad, OpenAI establecerá “límites predeterminados sobre el número de generaciones que los adolescentes pueden ver al día en el feed”, además de añadir “permisos más estrictos en los cameos” para ellos. Además de esas medidas de seguridad automatizadas, la compañía ha explicado que está ampliando sus equipos de moderadores humanos “para revisar rápidamente los casos de acoso que puedan surgir”.


