Los modelos de lenguaje grandes pueden describir imágenes, interpretar gráficos y extraer texto de fotos. La multimodalidad ya es estándar en los sistemas IA modernos. Pero una tarea aparentemente simple sigue siendo sorprendentemente difícil: contar objetos en una imagen de forma confiable.
Tener esos conteos correctos tiene consecuencias reales: un médico leyendo un escaneo, un agricultor estimando rendimiento de cosechas, un planificador urbano analizando tráfico. Hasta ahora, cada una de esas tareas requería su propio sistema especializado.
Acá entra Count Anything, el nuevo modelo IA de investigadores de la Universidad de Tsinghua y otras instituciones que apunta a contar objetos a través de tipos de imagen muy distintos, ya sea cabezas en multitudes, autos en fotos satelitales, células en escaneos médicos o colonias bacterianas en laboratorio.
El problema es familiar: un sistema que cuenta cabezas en multitudes suele atragantarse con células densas bajo microscopio o vehículos diminutos vistos desde arriba. Los investigadores quieren un solo modelo que tome input de texto, marque cada objeto contado en la imagen y maneje tipos de imagen radicalmente diferentes.
Dos contadores son mejores que uno
La idea clave es combinar dos enfoques que se complementan:
- Uno se especializa en objetos grandes y claramente visibles, dibujando bounding boxes a su alrededor.
- El otro maneja objetos chicos y densos, poniendo un punto sobre cada target detectado.
Ambas predicciones se mergean al final. Una regla simple evita que el mismo objeto se cuente dos veces: cuando los dos contadores marcan el mismo target, solo sobrevive la predicción con mayor confianza.
El sistema se construye sobre un modelo preentrenado de Meta llamado SAM3, que procesa imágenes y texto juntos. Count Anything agrega pequeños componentes adapter en el tope para la tarea de counting, en lugar de reentrenar todo el modelo desde cero.
CLOC: un dataset que cruza seis dominios visuales
Para que el modelo aprenda a este nivel de amplitud, los investigadores primero tuvieron que construir un dataset acorde. Los datasets públicos existentes habitualmente estaban hechos para un solo propósito, como células tumorales o imágenes satelitales. El equipo los fusionó, limpió etiquetas en conflicto y liberó el resultado como CLOC, según ellos el dataset más grande para text-guided counting al día de hoy.
Las cifras del dataset:
- 220.000 imágenes
- 619 categorías
- 15 millones de objetos etiquetados
- 6 dominios visuales: fotos cotidianas, imágenes satelitales y de dron, muestras de tejido médico, células microscópicas, imágenes agrícolas (como espigas de trigo) y fotos de cultivo bacteriano.
Buen rendimiento en su propio benchmark
En los tests comparativos del equipo, Count Anything queda bien adelante de sistemas competidores como CountGD, CLIP-Count y Grounding DINO. En promedio, el modelo se equivoca por unos nueve objetos por categoría consultada en una imagen. El mejor modelo competidor se equivoca por más del doble.
Para counting de multitudes puro, Count Anything se mantiene competitivo pero no llega a igualar a los mejores sistemas especializados. En comparaciones directas se ubica consistentemente más cerca del conteo real que CLIP-Count, CountGD++ y SAM3 a través de todas las queries probadas.
Lo que todavía no funciona
Los investigadores reconocen limitaciones. Cuando los términos son ambiguos o altamente especializados, el modelo puede perder objetos o malclasificarlos. En escenas extremadamente densas con oclusión pesada, también es difícil distinguir si dos predicciones se refieren al mismo objeto o a dos distintos.
El código de Count Anything está disponible en GitHub y el paper en arXiv.
El contexto incómodo: BabyVision
Que los sistemas IA todavía sufren con tareas visuales básicas quedó reciente en evidencia con el benchmark BabyVision. En tests con 80 niños, la mayoría de los modelos frontier sacaron puntuaciones por debajo del promedio de un niño de tres años. Incluso modelos top como Gemini 3 Pro apenas llegaron al 50 por ciento, mientras los adultos sacaron sobre 94%.
La brecha fue especialmente brutal contando bloques 3D ocluidos: el mejor modelo logró 20,5%; los humanos resolvieron sin un solo error.




