IA Generativa de Imágenes

Índice

Servicios y Limitaciones de la Generación Automática de Imágenes con IA

La inteligencia artificial generativa de imágenes permite crear representaciones visuales totalmente nuevas, a partir de descripciones de texto, en diversos estilos como el cómic, óleo, fotorrealismo, entre otros.

Aunque es una herramienta de gran utilidad, especialmente en educación para elaborar recursos visuales personalizados, actualmente presenta algunas limitaciones:

1. Incompatibilidad con el texto en imágenes:

La mayoría de estos sistemas tienen dificultades para añadir texto de manera exacta y fiel a lo solicitado. Incluso cuando el texto se incluye, es común que se altere o se cambie el idioma.

2. Precisión limitada en detalles técnicos y científicos:

Estos generadores aún tienen problemas para crear imágenes con precisión en temas complejos como biología (células, órganos) o historia (épocas específicas con detalles fieles).

Por ejemplo, un profesor de ciencias puede obtener una representación visual de una célula, pero no siempre será lo suficientemente precisa para el aprendizaje.

Lo mismo sucede en contextos históricos, donde los detalles pueden ser anacrónicos o inexactos.

3. Sistema de créditos y tokens:

La mayoría de estos servicios funcionan con un sistema de créditos que limitan el número de imágenes que se pueden generar y que se recargan automáticamente tras un periodo (diario o mensual).

Servicios gratuitos de IA generativa de imágenes

A continuación, presentamos una lista de servicios de IA generativa de imágenes gratuitos, clasificados según la necesidad de iniciar sesión o no, y que permiten recargar créditos o tokens de forma automática.

1. SIN necesidad de iniciar sesión

Stable Diffusion: No requiere créditos ni tokens, pero la velocidad de generación depende del número de usuarios conectados. Incluye un marcador para indicar la posición en la cola.

Catbird: Asigna créditos, pero sin indicación clara de cuándo se renuevan.

Craiyon: No requiere registro ni créditos; es una versión “mini” de DALL·E.

Picfinder: No necesita registro y permite generar un número ilimitado de imágenes con desplazamiento continuo en la página.

Scribble Diffusion: Genera imágenes a partir de bocetos dibujados a mano, ideal para proyectos de arte rápido.

2. CON necesidad de iniciar sesión

Generador de imágenes de Bing: Ofrece créditos renovables semanalmente. Disponible también en el chat de Bing, donde usa DALL·E 3 para una mayor precisión.

Recraft: Permite manipular y añadir texto a las imágenes de forma ilimitada.

DALL·E: Funciona con créditos que se renuevan mensualmente.

Leonardo.AI: Crea imágenes realistas con tokens que se recargan diariamente.

Ideogram: No utiliza créditos, pero puede generar esperas cuando está saturado.

NightCafe Studio: Especializado en arte, permite un número limitado de creaciones al mes.

Flux Pro AI: Ofrece tanto generación de texto a imagen como imagen a imagen.

Prompts para Generar Imágenes

El proceso de generación de imágenes comienza con la creación de un “prompt” o descripción breve.

Dependiendo del servicio utilizado, podemos ajustar el estilo (fotográfico, manga, óleo, etc.).

En plataformas como DALL·E 2 y el Generador de Imágenes de Bing, el estilo se puede indicar directamente en el prompt para obtener resultados específicos.

Ejemplos de prompts con Bing Chat

Pintura: «Haz una pintura donde se vea a los alumnos trabajando en grupo.»
Calidad fotográfica: «Crea una imagen con calidad fotográfica de alumnos trabajando en grupo.»
Cómic: «Diseña un póster vertical con temas históricos (prehistoria, Egipto, Edad Media) en estilo de cómic.»

Texto en las Imágenes

El uso de texto en las imágenes es un desafío técnico para estas IA. Actualmente, solo DALL·E 3 (en el Chat de Bing) e Ideogram (con la opción «typography«) reproducen el texto con cierta fidelidad.

No obstante, DALL·E 3 traducirá el texto al inglés, y Ideogram puede cometer errores ortográficos. Cuanto más breve sea el texto, más probabilidades habrá de que sea fielmente representado.

Ejemplos de texto en imágenes

Ideogram: “Música” rodeada de instrumentos y notas musicales.
DALL·E 3 en Bing: “Música” rodeada de instrumentos y notas musicales.

Extraer información por «Transcripción Visual»

Herramientas como Geminiy Copilot (y también disponibles en ChatGPT en su versión de pago) pueden extraer texto y describir el contenido visual de una imagen.

Al subir una imagen, estas IA pueden interpretar y transcribir el texto en ella, aunque presentan algunas limitaciones en términos de privacidad y precisión.

Ejemplo de privacidad en transcripción visual

– Gemini: Rechaza imágenes con ~~rostros humanos~~ y elimina automáticamente las fotos.
– Bing: Borra los ~~rostros~~ y después intenta interpretar el resto de la imagen.

Respuesta de Bing ante una foto de la película «Una noche en la ópera», de los hermanos Marx (CC BY-SA)

Ejemplo de transcripción visual (extraes texto de una imagen) y limitaciones

Con una viñeta de una escena en una sala de profesores, Gemini transcribe el texto con precisión, aunque puede errar en el contexto (ej., deducir incorrectamente la ubicación o el rol del personaje).

Interpretación de una imagen por Gemini. — Interpretación de Bing de la misma imagen. INTEF (CC BY-SA)

Comparación y Resultados

En general, Gemini (imagen a la izquierda) ofrece mejores resultados en transcripción que Bing (imagen a la derecha) gracias a su tecnología de base Google Lens, conocida por su precisión. Esto convierte a Gemini en una herramienta muy potente para extraer información de imágenes complejas y detalladas.