La nueva herramienta de inteligencia artificial de Google, Whisk, utiliza instrucciones de imágenes en lugar de palabras.

Ads

Una nueva herramienta de inteligencia artificial de Google utiliza instrucciones en imágenes en lugar de palabras.

El último producto de inteligencia artificial de Google, “Whisk”, permite a los usuarios subir fotografías para obtener una imagen combinada generada por IA sin tener que escribir una palabra.

Antes de que Whisk mezcle las fotografías, los usuarios pueden proporcionar imágenes de sujetos, entornos y estilos.

En una entrada de blog, Google llamó a Whisk una “herramienta creativa” para una inspiración rápida, no un “editor de imágenes tradicional”. Whisk está destinado a ser una función de IA divertida, no una herramienta profesional.

Grandes empresas tecnológicas como Google y OpenAI se apresuran a ofrecer productos de consumo que demuestran la nueva y genial tecnología, aunque los detractores advierten que el crecimiento de la IA sin límites es peligroso para la humanidad.

Desde que OpenAI presentara Dall-E, una herramienta de producción de texto a imagen, en 2021, las obras de arte generadas por IA han invadido las redes sociales y han permeado los artículos de consumo. Google Whisk es un generador de imagen a imagen que se basa en generadores de texto a imagen.

Los usuarios de Whisk pueden modificar sus entradas y combinar categorías para crear peluches, pines de esmalte y pegatinas. Los usuarios pueden dirigir los detalles utilizando palabras, pero una imagen no es esencial.

“Whisk está diseñado para permitir a los usuarios mezclar un sujeto, una escena y un estilo de nuevas y creativas maneras, ofreciendo una exploración visual rápida en lugar de ediciones perfectas a nivel de píxeles”, afirmó Thomas Iljic, director de gestión de productos de Google Labs.

Google compró DeepMind en 2014 y utilizó su IA generativa para construir Whisk.

Whisk utiliza el servicio principal de IA de Google, Gemini, introducido en diciembre de 2023, e Imagen 3, el último generador de texto a imagen de DeepMind.

Imagen 3 recibe subtítulos de Gemini cuando los usuarios publican fotografías. Para remezclar la imagen final, la técnica captura la “esencia” del tema en lugar de una reproducción exacta, que puede desviarse de la indicación inicial.

Google declaró en una entrada de blog que la imagen creada puede diferir de las fotos iniciales en altura, corte de pelo y tono de piel.

Google recibió críticas en febrero cuando lanzó el convertidor de texto a imagen de Gemini porque creó imágenes históricamente incorrectas.

Whisk, un sitio web de Google Labs solo disponible en EE. UU., se encuentra en una etapa inicial de desarrollo, según declaró la empresa.

OpenAI presentó Sora, un generador de texto a video, mostrando la competitividad de los productos de consumo.

Dan Ives, director gerente de Wedbush Securities y analista senior de valores, afirmó a CNN que Whisk es otro “momento para mostrar los músculos” de Google en IA y tecnología.

Los productos de IA forman parte del “baúl del tesoro” de nuevos productos de Google para 2025, que incluye un nuevo sistema operativo Android desarrollado con Samsung y Qualcomm. “DeepMind es un activo clave para Google”, dijo Ives.