Qwen-Image de Alibaba, una vez más este gigante tecnológico nos vuelve a sorprender con el lanzamiento de un modelo de generación de imagen MMDiT de 20B open-source.
El lunes se dió a conocer este nuevo modelo de generación de imagen que viene a competir con flux de par a par, o por lo menos eso aseguran ellos.

Este modelo está orientado a la creación y edición precisa de imágenes y renderizado de texto complejo. Básicamente el objetivo de qwen-image es poder representar los textos de las imágenes de manera legible y optimizada, teniendo en cuenta todo tipo de cartelería, escrituras o cualquier texto. Principalmente textos logográficos como el chino pero también está entrenado en inglés, hice algunas pruebas en español pero no hubo caso. 😅

“Qwen-Image logra un desempeño de vanguardia en todos los puntos de referencia, demostrando sus sólidas capacidades tanto en generación como en edición de imágenes.”
Benchmark:

Cómo todos los modelos están entrenadas de maneras distintas y con diferentes bases de datos los resultados que podemos obtener con uno o con otro utilizando las mismas instrucciones pueden ser muy aleatorios. De todas formas qwen-image abre el abanico incorporando diversas variedades de estilos artísticos para que los creadores de contenidos, artistas y diseñadores creativos puedan tener al alcance una herramienta poderosa para crear imágenes realistas, posters, pinturas, diseños, dibujos, etc, etc. En cuanto a los dibujos el estilo anime se ve con muchísimo potencial.

Para que puedas usar qwen-image es tan fácil como ir a chat.qwen.ai elegir generación de imagen, tirar el prompt que más te guste y esperar la magia creativa.



También se encuentra disponible para utilizar en local con la última versión de ComfyUI. Aunque se requiere mucho hardware para usar el modelo tradicional, gracias a la comunidad y a nuestros amigos los devs que ya lanzaron los modelos destilados GGUF podemos tiralo con graficas de 6 y 8GB RAM o incluso un poco menos. La diferencia es que al ser modelos más chicos la calidad del resultado final es menor y el tiempo de renderizado es más amplio pero depende el caso, sinceramente trabaja muy bien y en unos pocos 20 pasos se generan imágenes muy buenas, creativas y de calidad muy óptima.



Si llegaste hasta acá gracias por leer, voy a seguir trabajando con el modelo para ver que cosas se pueden hacer y actualizando la nota. Si te interesa el tema podés escribirme por redes y compartimos conocimiento. Hasta la próxima !