

Tencent acaba de comenzar un nuevo modelo de la capaz de generar imágenes a partir de una solicitud de texto. Tradicionalmente, los modelos propietarios han dominado este tipo de tarea creativa, pero el modelo Tencent ha dado la sorpresa, y según varios puntos de referencia, puede generar mejores imágenes que los competidores restantes, incluidos los de Google y OpenAai.
Hunyuan Fig. 3.0. Este es el nombre del nuevo modelo Tencent que en el Clasificación de Lmarena Desde modelos más poderosos para la generación de imágenes del texto, logró superar la vista previa de la imagen flash Gemini 2.5 (popularmente conocida como nano plátanos), además de otros modelos patentados como GPT-IMage-1, Flux-1 context-Max o Qwen Image.
Coordinación ciega. Esta clasificación de LM Arena funciona a través de un sistema electoral ciego en el que los usuarios seleccionan sus imágenes favoritas sin saber qué modelo generaron. Y después de esta votación, este modelo Tencent excedió a todos sus oponentes, incluido el popular «Nano Banana» de Google. Por supuesto: el voto también tiene en cuenta los resultados a largo plazo, y el corto tiempo en que estaba disponible la imagen 3.0 de Hunyuan, los resultados se consideran «provisionales» y no definitivos.
Cómo funciona. Aquellos que son responsables de Tencent Explicar en la descripción del modelo Como ha utilizado una nueva arquitectura de difusión, el código dual (un LLM multimodal y otro que comprende mejor los caracteres en diferentes idiomas) y la optimización de RLHF (aumentando el aprendizaje de la retroalimentación humana que refina el resultado anterior) para la creación de imágenes con mayor calidad. El sistema utiliza además de un sistema de compresión, de modo que todo el proceso consume menos recursos sin pérdida de calidad.
Pesos abiertos y licencia comercial. Hunyuan Image 3.0 es un modelo que comparte Tu código en GitHub Y que ofrecen Una licencia Sorprendentemente libremente. De hecho, es posible usarlo con fines comerciales y profesionales.
El precio no es del todo económico. Aunque el modelo se puede probar de forma gratuita Sitio web del proyectoEn nuestras pruebas solo pudimos crear una imagen (10 créditos). Con la plataforma puede comprar créditos mensuales: permitir 8 USD por mes Comprar 500 créditosQué a priori nos permitiría crear 50 imágenes con 10 créditos cada una. Todos irían a 0.16 dólares estadounidenses si nano banana Tiene costos de $ 0.039, cuatro veces más bajo. Hay otras opciones para probar, p. Abrazar «habitaciones». También es posible obtener una clave API En Tencent Cloud Use localmente.
Gemini continúa ganando como «editor». Aunque el modelo Tencent es interesante y notable, Nano Banana continúa ganando el juego si creemos que se ha convertido en un reemplazo único para el Photoshop tradicional. Muchos usuarios ya no editan fotos, sino que tienen una en Gemini y luego le dicen a la IA qué cambios desea hacer en esta imagen.
Alibaba, más conversación. Aunque Hunyuan Image 3.0 puede permitir algo como esto, de hecho, Hay demostraciones En este sentido, la interfaz ahora está más dirigida a una sola solicitud de entrada para generar imágenes, no en una «conversación», como se permite Gemini. Otro de los protagonistas de este país es Alibaba, quien, con el editor de imágenes de Qwen, es el mismo enfoque que Google con Gemini y Nano-Banana. En este modelo de Alibaba, «hable» con su imagen para preguntar sobre los cambios lo que no se ve en el momento en que el modelo Tencent hace esto directamente (aunque no le parece difícil obtenerlo).
Pero ten cuidado. El diferencial aquí es que la generación de imágenes que parecían haber estado dominadas por modelos patentados aparentemente puede ser (o incluso superior) a través de modelos abiertos. Una vez más, el compromiso chino con esta filosofía es notable y es contrario al enfoque cerrado y el propietario de la mayoría de las compañías estadounidenses que desarrollan modelos de IA para generar imágenes y texto (o, por supuesto, videos).
Imagen | Hunyuan
En | En China, no corresponden a robots avanzados: una empresa ha desarrollado una cabeza que hace un gesto como una persona