Count Anything: el modelo IA que cuenta lo que le pidas por prompt

Investigadores de Tsinghua liberaron el código en GitHub: combina SAM3 de Meta con dos contadores complementarios, baja el error a la mitad y se entrenó sobre CLOC, dataset propio de 220.000 imágenes.

Publicado el 15 de junio de 2026 · 06:05 p. m.3 min de lectura

Al grano

Count Anything es el primer modelo IA que cuenta objetos en cualquier tipo de imagen usando solo un prompt de texto.

Los investigadores de Tsinghua construyeron el modelo sobre SAM3 de Meta, agregando adapters en lugar de re-entrenar desde cero.

Combina contador por bounding boxes para objetos grandes y por puntos para densos, fusionando resultados sin doble conteo.

Por qué importa

El benchmark BabyVision es revelador: modelos frontier por debajo de un niño de 3 años contando bloques 3D ocluidos. Count Anything no resuelve eso, pero baja a la mitad el error en counting general con prompt único, y eso es útil para casos prácticos como salud (células en biopsia), agricultura (espigas por dron) o monitoreo urbano (autos satelital). El detalle clave: es open source en GitHub, no depende de la API de un proveedor.

Los modelos de lenguaje grandes pueden describir imágenes, interpretar gráficos y extraer texto de fotos. La multimodalidad ya es estándar en los sistemas IA modernos. Pero una tarea aparentemente simple sigue siendo sorprendentemente difícil: contar objetos en una imagen de forma confiable.

Tener esos conteos correctos tiene consecuencias reales: un médico leyendo un escaneo, un agricultor estimando rendimiento de cosechas, un planificador urbano analizando tráfico. Hasta ahora, cada una de esas tareas requería su propio sistema especializado.

Acá entra Count Anything, el nuevo modelo IA de investigadores de la Universidad de Tsinghua y otras instituciones que apunta a contar objetos a través de tipos de imagen muy distintos, ya sea cabezas en multitudes, autos en fotos satelitales, células en escaneos médicos o colonias bacterianas en laboratorio.

El problema es familiar: un sistema que cuenta cabezas en multitudes suele atragantarse con células densas bajo microscopio o vehículos diminutos vistos desde arriba. Los investigadores quieren un solo modelo que tome input de texto, marque cada objeto contado en la imagen y maneje tipos de imagen radicalmente diferentes.

Dos contadores son mejores que uno

La idea clave es combinar dos enfoques que se complementan:

Uno se especializa en objetos grandes y claramente visibles, dibujando bounding boxes a su alrededor.
El otro maneja objetos chicos y densos, poniendo un punto sobre cada target detectado.

Ambas predicciones se mergean al final. Una regla simple evita que el mismo objeto se cuente dos veces: cuando los dos contadores marcan el mismo target, solo sobrevive la predicción con mayor confianza.

El sistema se construye sobre un modelo preentrenado de Meta llamado SAM3, que procesa imágenes y texto juntos. Count Anything agrega pequeños componentes adapter en el tope para la tarea de counting, en lugar de reentrenar todo el modelo desde cero.

CLOC: un dataset que cruza seis dominios visuales

Para que el modelo aprenda a este nivel de amplitud, los investigadores primero tuvieron que construir un dataset acorde. Los datasets públicos existentes habitualmente estaban hechos para un solo propósito, como células tumorales o imágenes satelitales. El equipo los fusionó, limpió etiquetas en conflicto y liberó el resultado como CLOC, según ellos el dataset más grande para text-guided counting al día de hoy.

Las cifras del dataset:

220.000 imágenes
619 categorías
15 millones de objetos etiquetados
6 dominios visuales: fotos cotidianas, imágenes satelitales y de dron, muestras de tejido médico, células microscópicas, imágenes agrícolas (como espigas de trigo) y fotos de cultivo bacteriano.

Buen rendimiento en su propio benchmark

En los tests comparativos del equipo, Count Anything queda bien adelante de sistemas competidores como CountGD, CLIP-Count y Grounding DINO. En promedio, el modelo se equivoca por unos nueve objetos por categoría consultada en una imagen. El mejor modelo competidor se equivoca por más del doble.

Para counting de multitudes puro, Count Anything se mantiene competitivo pero no llega a igualar a los mejores sistemas especializados. En comparaciones directas se ubica consistentemente más cerca del conteo real que CLIP-Count, CountGD++ y SAM3 a través de todas las queries probadas.

Lo que todavía no funciona

Los investigadores reconocen limitaciones. Cuando los términos son ambiguos o altamente especializados, el modelo puede perder objetos o malclasificarlos. En escenas extremadamente densas con oclusión pesada, también es difícil distinguir si dos predicciones se refieren al mismo objeto o a dos distintos.

El código de Count Anything está disponible en GitHub y el paper en arXiv.

El contexto incómodo: BabyVision

Que los sistemas IA todavía sufren con tareas visuales básicas quedó reciente en evidencia con el benchmark BabyVision. En tests con 80 niños, la mayoría de los modelos frontier sacaron puntuaciones por debajo del promedio de un niño de tres años. Incluso modelos top como Gemini 3 Pro apenas llegaron al 50 por ciento, mientras los adultos sacaron sobre 94%.

La brecha fue especialmente brutal contando bloques 3D ocluidos: el mejor modelo logró 20,5%; los humanos resolvieron sin un solo error.

Count Anything: el modelo IA que cuenta lo que le pidas por prompt

Al grano

Por qué importa

Dos contadores son mejores que uno

CLOC: un dataset que cruza seis dominios visuales

Buen rendimiento en su propio benchmark

Lo que todavía no funciona

El contexto incómodo: BabyVision

Seguir leyendo

Kimi K3 y el giro de China hacia la IA de codigo abierto

Kimi K3: el modelo abierto chino que alcanza la frontera

Kimi K3: el modelo abierto de 2,8 billones que reta a Opus 4.8

Kimi K3 sacude a Wall Street y reabre el debate del codigo abierto

→Al grano

✦Por qué importa

Dos contadores son mejores que uno

CLOC: un dataset que cruza seis dominios visuales

Buen rendimiento en su propio benchmark

Lo que todavía no funciona

El contexto incómodo: BabyVision

Seguir leyendo

Kimi K3 y el giro de China hacia la IA de codigo abierto

Kimi K3: el modelo abierto chino que alcanza la frontera

Kimi K3: el modelo abierto de 2,8 billones que reta a Opus 4.8

Kimi K3 sacude a Wall Street y reabre el debate del codigo abierto

Al grano

Por qué importa