Llegó la noticia tan esperada por la comunidad fan de la I.A y el mundo audiovisual. Wan de Alibaba lanzó su nuevo modelo O.P de generación de video, WAN 2.2 disponible para todo el mundo desde Github y Hugging Face.
A diferencia del modelo 2.1, WAN 2.2 se entrenó con un 65,6 % más de imágenes y un 83,2 % más de vídeos. Mejorando notablemente la calidad, el movimiento y la estética general del modelo anterior.
Este nuevo lanzamiento es muy prometedor ya que se pone a la par de otros modelos de generación de video de pago como VEO3, Runway, Kling entre otros.
Nos permite lograr narrativas cinematográficas profesionales mediante un dominio profundo del lenguaje de tomas, ofreciendo un control preciso de la iluminación, el color y la composición para estilos versátiles con detalles delicados.
Nos permite trabajar fácilmente todo tipo de movimiento complejo, con mayor fluidez y control.
Comprende y ejecuta instrucciones con mayor eficacia para escenas complejas y generación multiobjeto en la creación de videos.
Videoclips y edición flexible: Nos permite trabajar películas por proyecto, usando la línea de tiempo para unir clips, editar videos y realizar más generación.

“Comparamos Wan2.2 con los principales modelos comerciales de código cerrado en nuestro nuevo Wan-Bench 2.0, evaluando el rendimiento en múltiples dimensiones cruciales. Los resultados demuestran que Wan2.2 alcanza un rendimiento superior al de estos modelos líderes.”

” Wan2.2 introduce una arquitectura de Mezcla de Expertos (MoE) en los modelos de difusión de video. Al separar el proceso de eliminación de ruido entre pasos de tiempo con potentes modelos expertos especializados, se amplía la capacidad general del modelo manteniendo el mismo costo computacional.”
Si bien a pesar de ser un modelo abierto para todos por el momento sólo podemos conseguir que este funcione a partir de la serie 4 de NVIDIA y más específicamente con tarjetas gráficas como la RTX 4090 con resultado óptimos y consistentes en 720p a 24fps.
” Wan2.2 utiliza en código abierto un modelo 5B creado con nuestro avanzado Wan2.2-VAE, que alcanza una relación de compresión de 16×16×4. Este modelo admite la generación de texto a vídeo e imagen a vídeo a una resolución de 720P a 24 fps y también puede ejecutarse en tarjetas gráficas de como la 4090. Es uno de los modelos de 720P a 24 fps más rápidos del mercado, capaz de funcionar simultáneamente en los sectores industrial y académico.”
Esto puede ser un poco desalentador para aquellos que no dispongan de una GPU de esa gama pero a no desesperar! porque acá lo más importante es que gracias a estos aportes desde las empresas a los usuarios y de los mismos desarrolladores que viven a través de una pantalla buscando que podamos usar todo 4free, no será mucho el tiempo que pase a partir de ahora para que podamos conseguir modelos cuantizados específicos GGUF para usarlos en GPU de gama media, con 6 y 8gb.
Solo queda esperar! Si llegaste hasta acá gracias por leerme y espero que te haya gustado la información. Nos vemos en la próxima. ☺️
Etiquetas: I.A, opensource, WAN