No es realismo mágico: de texto a video con Sora | El Nuevo Siglo
Foto: AFP.
Viernes, 16 de Febrero de 2024
Redacción internacional con Europa Press

UNA SIMULACIÓN del mundo real en un video creado a partir de una simple instrucción en texto es Sora, la mayor innovación en el campo de la inteligencia artificial -aún en perfeccionamiento- presentado por OpenAI, creador de ChatGPT y del generador de imágenes Dalle-E.

 

Esta nueva herramienta impulsada por la inteligencia artificial generativa permite crear escenas realistas de video, de hasta 60 segundos, solo con las instrucciones del usuario, dando un resultado detallado como movimiento de cámara complejo y  múltiples personajes con emociones.

La tecnológica estadounidense pretende continuar avanzando en las capacidades de la IA, en concreto, entrenando modelos que ayuden a las personas a resolver problemas que requieran interacción con el mundo real. Para ello, ha estado trabajando en formas de enseñar a la IA a comprender y simular el mundo físico en movimiento.

Como resultado, la start-up californiana -aliada de Microsoft- presentó ayer esta herramienta que permite la creación de videos muy realistas, con escenas "altamente detalladas", así como con un movimiento de cámara "complejo" y la integración de múltiples personajes que, incluso, muestran emociones, reseña la página web de la compañía.

Los usuarios tan solo deberán escribir una serie de indicaciones detallando qué características tiene que incluir la escena, como los personajes y las acciones que llevarán a cabo, el entorno, el clima, y los movimientos de cámara que se deban recrear.

Por ejemplo, uno de los videos de muestra que ha compartido OpenAI tiene las siguientes indicaciones: primer plano del parpadeo del ojo de una mujer de 24 años, de pie en Marrakech durante el atardecer, película cinematográfica rodada en 70mm, profundidad de campo, colores vivos, cinematográfico.

También se pudieron ver imágenes de dos perros subiendo por la nieve en una montaña. Otro video muestra cómo un animal imaginario comienza a volar ante un magnífico atardecer. En su lomo monta un hámster con ropa deportiva.

En concreto, la compañía dirigida por Sam Altman subrayó que el modelo puede llevar a cabo escenas tan precisas porque no solo comprende lo que el usuario solicita en sus indicaciones de texto, sino que también es capaz de comprender cómo existen esas cosas en el mundo físico.

Siguiendo esta línea, se ha de tener en cuenta su amplio conocimiento del lenguaje, lo que permite que Sora interprete todas las indicaciones de texto con "precisión", por ejemplo, creando personajes realistas que expresan "emociones vibrantes".

Incluso, Sora es capaz de generar un video a partir de una imagen fija existente, animando el contenido de la imagen con precisión y sin perder detalle. De la misma forma, también permite alargar la duración de un vídeo existente o completar algunos fotogramas.

Altman dijo que su empresa ofrecería "a un número limitado de creadores el acceso" a esta nueva herramienta, en el marco de una etapa experimental e invitó  a los usuarios a hacer propuestas para generar videos.

En cuanto a su funcionamiento, Sora genera un video a partir de otros que, según OpenAI, parecen "ruido estático". De esta manera, el modelo lo transforma gradualmente eliminando el ruido en muchos pasos, hasta llegar a la visualización de las imágenes realistas.

Asimismo, al igual que los modelos GPT, utiliza una "arquitectura de transformador" con la que, según la compañía, se desbloquea un rendimiento de escalado superior. Concretamente, las imágenes del vídeo se representan como "colecciones de unidades de datos más pequeñas", a las que se refiere como parches. Así, cada parche es el equivalente a un token en GPT.

Sora es una base para "programas capaces de comprender y simular el mundo real", explica la start-up, que espera que esta sea una "etapa importante en la concreción de la AGI", la Inteligencia Artificial General, un sistema altamente autónomo que superaría a los humanos en la mayoría de las tareas económicamente rentables.

Por el momento, el uso del nuevo modelo solo está disponible para los miembros del equipo rojo de OpenAI, grupo dedicado a la investigación del servicio, de cara a ponerlo a prueba y comprobar qué fallos presenta y cuáles son sus posibles riesgos.

Igualmente, Sora también está siendo probado por un grupo de artistas visuales, diseñadores y cineastas, de cara a conocer las posibles mejoras del modelo y hacer que sea lo más útil posible para los profesionales creativos, según ha explicado la compañía.

De hecho, tal y como ha compartido OpenAI, el modelo todavía presenta algunas dificultades para representar cuestiones relacionadas con el espacio, la física o las acciones de causa y efecto. Por ejemplo, si se detalla que en el vídeo debe aparecer una persona mordiendo una galleta, es posible que la galleta aparezca posteriormente en otra escena sin el mordisco.

De la misma forma, también pueden surgir errores como que el modelo mezcle la izquierda con la derecha, o que no sea capaz de seguir una trayectoria de cámara específica.

Blindaje

La compañía afirmó que la seguridad es un asunto clave en este desarrollo y afirmó que organizará simulaciones con usuarios a los que se les pedirá tratar de provocar errores o crear contenido inapropiado, para poder definir mejor los límites de la plataforma.

"Involucraremos a tomadores de decisiones políticas, educadores y artistas en el mundo para comprender sus preocupaciones e identificar los casos positivos de uso de esta nueva tecnología", aseguró OpenAI.

Subrayóque están tomando varias medidas de seguridad que implementarán en Sora antes de que el modelo esté disponible de forma general. Para ello el llamado equipo rojo también dispone de expertos en áreas de desinformación, contenido que incita al odio y perjuicios.

Por otra parte, la compañía de Altman está desarrollando herramientas para detectar contenido engañoso. Se trata de una serie de funciones que permitirán clasificar los vídeos generados por Sora, para identificarlos frente a otro tipo de vídeos o vídeos reales. Una de estas funciones es la implementación de metadatos de C2PA, un estándar que verifica el origen del contenido y la información relacionada.

Además de todo ello, actualmente también se están utilizando los métodos de seguridad que ya utilizan otros productos de la tecnológica impulsados por Dalle-3 que, según ha dicho, también son aplicables a Sora.

Estos métodos de seguridad verifican y rechazan las solicitudes de ingreso de texto que infrinjan las políticas de uso, como es el caso de cuestiones relacionadas con violencia extrema, contenido sexual, imágenes de odio o imágenes personales. 

Igualmente, disponen de clasificadores de imágenes que revisan los fotogramas de cada vídeo para garantizar que se cumplan las políticas de la compañía, antes de mostrarlo al usuario.

Meta, Google y Runway AI, que trabajan en aplicaciones similares, conocidas como "text-to-video", es decir que permiten pasar una idea escrita a video, también presentaron muestras de sus avances.