Los equipos creativos y de visualización producen hoy más assets, en más formatos y con plantillas más reducidas. La IA generativa puede acelerar ese trabajo, comprimiendo tareas que antes tomaban horas de esfuerzo manual en pipelines automatizadas y repetibles.
ComfyUI es una herramienta open source basada en nodos que corre localmente sobre GPUs NVIDIA RTX. Conecta generación de imagen, síntesis de video y modelos de lenguaje en pipelines que los equipos pueden personalizar y extender, sin depender de la nube ni dejar que los datos salgan del cliente. Esta guía recorre tres flujos listos para producción del NVIDIA GenAI Creator Toolkit, adaptados del curso DLI de GTC 2026 Create Generative AI Workflows for Design and Visualization in ComfyUI. Cada flujo es independiente y corre local sobre NVIDIA RTX.
¿Qué se logra con esta guía?
Al terminar tendrás:
- Una imagen descompuesta en capas separadas: foreground, midground y background, cada una con una máscara alfa limpia, lista para llevar a cualquier herramienta de composición.
- Un objeto no deseado eliminado de una foto, con la IA rellenando lo que debería estar ahí, sin tocar el resto de la imagen.
- Una foto convertida en un modelo 3D texturizado (solo Windows), un archivo en formato .GLB que podés abrir y usar como punto de partida para previsualización o layout.
Cada flujo se carga directamente en ComfyUI como un grafo de nodos preconstruido. Subís una imagen, hacés clic en Run y obtenés resultados.
¿Qué hace falta saber antes de empezar?
- Manejo básico de un navegador y subida de archivos.
- Comodidad inicial ejecutando scripts desde la línea de comandos.
- No se requiere experiencia previa con ComfyUI: los workflows vienen prearmados, solo hay que cargarlos y correrlos.
- Conocer conceptos de imagen (capas, máscaras, canales alfa) ayuda pero no es obligatorio.
Requisitos de hardware y software
Hardware:
- Windows: GPU NVIDIA RTX con 24 GB de VRAM, recomendado 32 GB o más.
- Linux: GPU NVIDIA RTX con 32 GB de VRAM, recomendado 48 GB o más.
- 150 GB de espacio en disco disponible para los modelos que requieren estos flujos.
Software:
- Sistema operativo Windows o Ubuntu Linux.
- Git (instalación acá).
- ComfyUI (app de escritorio para Windows o instalación manual para Linux).
- Para el flujo de objeto 3D (módulo 08): cuenta autorizada en huggingface.co/facebook/dinov3-vitl16-pretrain-lvd1689m, iniciar sesión y aceptar el acceso al repositorio.
Tiempo y nivel de riesgo
- Tiempo estimado: 30 minutos de trabajo activo más la descarga inicial de modelos, que supera los 50 GB en la primera corrida.
- Riesgo: bajo. Los tres flujos son de solo lectura respecto del archivo de entrada, la imagen original nunca se modifica. Las salidas se guardan en el directorio
output/de ComfyUI. Para revertir basta con eliminar las carpetas agregadas encustom_nodes/y los modelos descargados enmodels/.
¿Cómo se instalan los flujos?
En Windows, abrir un command prompt y ejecutar:
git clone https://github.com/NVIDIA/NVIDIA-GenAI-Creator-Toolkit
cd NVIDIA-GenAI-Creator-Toolkit
install.bat C:\path\to\ComfyUI --modules 02,03,08Hay que pasar la ruta de la instalación de ComfyUI (la carpeta que contiene .venv, models y custom_nodes\). Si no la conocés, en la app de escritorio aparece en Settings > About > Arguments.
En Linux, las instrucciones completas están en el repo: NVIDIA-GenAI-Creator-Toolkit/LINUX_COMFYUI_INSTALLATION.md:
git clone https://github.com/NVIDIA/NVIDIA-GenAI-Creator-Toolkit
cd NVIDIA-GenAI-Creator-Toolkit
bash install.sh /path/to/ComfyUI --modules 02,03El instalador descarga los modelos de IA (alrededor de 150 GB en total), instala los plugins requeridos y copia los workflows a ComfyUI. Puede tomar entre 30 y 60 minutos según la conexión a Internet.
¿Cómo se descompone una imagen en capas?

Qué se obtiene: una foto separada en archivos PNG distintos (foreground, midground, background), cada uno con transparencia limpia. Se importan directamente a Photoshop, After Effects, DaVinci Resolve o cualquier herramienta que soporte capas.
Cómo abrir el flujo: en ComfyUI, hacer clic en Browse Templates (menú superior) y buscar 02-image-deconstruction dentro de la sección NVIDIA Creative Workflows.
- En la caja Load Image, subir una foto con un sujeto claro: un retrato, un producto, una toma arquitectónica o una escena con elementos en primer y último plano.
- Hacer clic en Run.
Eso es todo. No hace falta enmascarar manualmente, la IA lee la profundidad de la imagen automáticamente.
Qué esperar: tres o cuatro archivos PNG, uno por capa, cada uno con áreas transparentes donde estaban las otras capas. La capa de fondo se rellena en las zonas donde antes estaba el primer plano.
(Tip: las fotos con profundidad clara funcionan mejor: una persona delante de una pared, un producto sobre una mesa, un edificio contra el cielo. Imágenes planas y uniformes no se separan en capas interesantes porque no hay profundidad para que la IA lea).
Detalles adicionales: NVIDIA-GenAI-Creator-Toolkit/workflows/02-image-deconstruction.
Para ir más lejos
Combinar este flujo con uno de motion graphics, animando cada capa por separado para un efecto parallax, o ajustando el color grading capa por capa para cambiar el mood sin tocar la imagen completa.
¿Cómo se elimina un objeto de una foto?

Qué se obtiene: una versión limpia de cualquier foto con un elemento no deseado (una persona en el fondo, un logo, basura visual) eliminado y reemplazado por lo que correspondería estar ahí.
Cómo abrir el flujo: en ComfyUI, hacer clic en Browse Templates y buscar 03-targeted-inpainting.

- En Load Image, hacer clic para subir la foto a editar.
- Click derecho sobre la miniatura de la imagen y seleccionar Open in Mask Editor. Usar el pincel para pintar de blanco lo que se quiere eliminar. Blanco significa "cambiá esto", negro significa "dejalo igual". Hacer clic en Save al terminar.
- Hacer clic en Run (o en Queue Prompt).
Qué esperar: la foto con el área pintada eliminada y rellenada de manera limpia. Los resultados se guardan en la carpeta output/ de ComfyUI.
Tip: pintar un poco más grande que el objeto en sí. Darle a la IA un margen extra suele producir un resultado más limpio. Si el relleno no se ve bien, conviene agregar una descripción de lo que debería estar (por ejemplo "wooden floor" o "plain white wall") en el cuadro de prompt.
Si nada cambia: probablemente no se pintó la máscara. Volver atrás, hacer click derecho sobre la imagen y pintar antes de correr de nuevo.
Detalles adicionales: NVIDIA-GenAI-Creator-Toolkit/workflows/03-targeted-inpainting.
Para ir más lejos
Este workflow también permite agregar cosas. Describir un objeto en el prompt de texto, pintar dónde debería aparecer y la IA lo genera dentro de la escena, ajustando la iluminación y el estilo a la imagen circundante.
¿Cómo se convierte una foto en un modelo 3D?
Solo Windows. Este flujo requiere Windows. El soporte para Linux todavía no está disponible.

Qué se obtiene: un modelo 3D texturizado (archivo GLB) a partir de una sola foto de cualquier objeto. Se abre en Blender, en un motor de juego o en cualquier app 3D para previsualización, layout o trabajo posterior.
Antes de correrlo, un paso extra: el modelo de IA requiere aprobación de cuenta gratuita por parte de Meta. Visitar huggingface.co/facebook/dinov3-vitl16-pretrain-lvd1689m, iniciar sesión y aceptar el acceso al repositorio. La aprobación toma típicamente entre 24 y 48 horas. El instalador avisa antes de intentar la descarga.
Cómo abrir el flujo: en ComfyUI, hacer clic en Browse Templates y buscar 08-image-to-3d.
- En Load Image, subir una foto de un objeto: un mueble, un prop, un zapato, una escultura. Sujetos claros sobre fondos planos funcionan mejor para el primer intento.
- Hacer clic en Run.
Qué esperar: un modelo 3D que iguala la forma y la superficie de la foto. El workflow muestra una previsualización rotando dentro de ComfyUI. El archivo GLB queda guardado en output/ y se abre en Blender con File > Import > glTF.
(Tip: cuanto más limpia la foto, mejor el modelo. Conviene fotografiar contra un fondo plano, asegurar que el objeto entero sea visible y evitar ángulos extremos. Tomas frontales o a tres cuartos le dan a la IA más material para trabajar).
Detalles adicionales: NVIDIA-GenAI-Creator-Toolkit/workflows/08-image-to-3d.
¿Cómo se libera el hardware al terminar?
Para liberar memoria GPU y recursos del sistema:
- Windows: cerrar la app de escritorio de ComfyUI desde la bandeja del sistema o la barra de tareas.
- Linux: presionar Ctrl+C en la terminal donde corre ComfyUI.
Las salidas generadas quedan en el directorio output/ y los modelos descargados permanecen en ComfyUI/models/. Nada se elimina. Para liberar espacio en disco se puede remover los archivos de modelo de un módulo con --clean. Los modelos compartidos con otros módulos instalados se preservan automáticamente.
# Windows:
install.bat C:\path\to\ComfyUI --clean --modules 02,03# Linux:
bash install.sh /path/to/ComfyUI --clean --modules 02,03Para retomar, basta con relanzar ComfyUI y recargar el workflow.
Contexto LATAM y costo de entrada
Los requisitos de hardware ponen una barrera concreta: una RTX con 24 GB de VRAM mínima implica una RTX 4090 (24 GB, alrededor de 2.000.000 CLP en distribuidores chilenos al cierre de abril 2026) o una RTX 5090 nueva. Para 32 a 48 GB se entra en territorio de RTX 6000 Ada o A6000, fuera del alcance del prosumer típico. La descarga de 150 GB de modelos también supone una conexión estable, algo no trivial fuera de Santiago.
La alternativa para equipos creativos chilenos sin acceso a hardware tope es correr ComfyUI sobre instancias rentadas (RunPod, Vast.ai, Lambda Labs) por entre 0,40 y 0,80 dólares por hora con una RTX 4090, lo que mantiene la opción de pipeline local sin la inversión inicial. La diferencia es que ahí los datos sí dejan el cliente, perdiendo una de las ventajas centrales que NVIDIA destaca para esta arquitectura.
Tres flujos como puerta de entrada
Estos tres workflows son apenas el inicio de una colección más amplia de pipelines creativas que NVIDIA viene empaquetando. La apuesta de la empresa es que la generación de assets (imagen, video, 3D) se mueva hacia la edge sobre RTX en vez de seguir centralizada en clusters cloud, una transición que aprovecha el hardware ya desplegado en estudios de cine, productoras publicitarias y equipos de game dev.




