SenseTime, la firma china conocida por su tecnología de reconocimiento facial, liberó este martes un nuevo modelo open source que, según afirma, genera e interpreta imágenes mucho más rápido que los modelos punteros de sus competidores estadounidenses. SenseNova U1 podría ayudar a la compañía a recuperar el terreno perdido luego de caer del grupo de los principales jugadores en la carrera china por la IA.

El truco del modelo está en su capacidad de "leer" imágenes sin traducirlas primero a texto, lo que acelera el proceso y reduce la potencia de cómputo necesaria. "El proceso completo de razonamiento del modelo ya no se limita al texto. Puede razonar también con imágenes", dijo Dahua Lin, cofundador y científico jefe de SenseTime, en una entrevista con WIRED.

Lin, quien además es profesor de ingeniería de la información en la Universidad China de Hong Kong, sostiene que los modelos capaces de procesar imágenes directamente permitirán a futuro que los robots entiendan mejor el mundo físico.

Al igual que el último modelo insignia de DeepSeek, SenseTime asegura que U1 puede correrse sobre chips fabricados en China. "Varios diseñadores chinos de chips terminaron de optimizar la compatibilidad con nuestro nuevo modelo", afirma Lin. El día del lanzamiento, 10 fabricantes locales, entre ellos Cambricon y Biren Technology, anunciaron soporte de hardware para U1.

Independencia forzada del hardware occidental

Esa flexibilidad importa porque los controles de exportación de EE.UU. restringen a las firmas chinas el acceso a los chips de IA más avanzados del mundo, en particular los que se usan para entrenamiento y que en este momento desarrollan principalmente compañías occidentales como Nvidia. "Vamos a seguir empujando para entrenar sobre más chips distintos", asegura Lin. Pero también reconoce que SenseTime "podría seguir necesitando los mejores chips para asegurar la velocidad de iteración".

SenseTime publicó U1 gratis en Hugging Face y GitHub, otra señal de cómo las compañías chinas se están convirtiendo en algunas de las contribuyentes más activas a la IA open source.

Fundada en 2014, SenseTime fue líder mundial en visión por computadora, una tecnología clave para aplicaciones como reconocimiento facial y conducción autónoma. Pero cuando ChatGPT y otros sistemas de IA basados en procesamiento de lenguaje natural se convirtieron en lo más caliente de la industria, la empresa empezó a tener problemas para generar utilidades y quedó por debajo de startups chinas más nuevas como DeepSeek y MiniMax.

La firma espera que liberar SenseNova-U1 públicamente le ayude a alcanzar tanto a sus competidores domésticos como a los occidentales. Lin dice que la compañía finalmente decidió el año pasado enfocarse en open source por la retroalimentación útil que recibe de los investigadores, lo que le permite iterar más rápido. "Hoy, ser open source o closed source no es el factor ganador; lo es la velocidad de iteración", explica Lin.

Apostar al open source también ayuda a SenseTime a seguir colaborando con investigadores internacionales sin la interferencia de la geopolítica. La compañía fue sancionada repetidas veces por el gobierno de Estados Unidos en los últimos años, bajo acusaciones de que su tecnología de reconocimiento facial habría alimentado sistemas de vigilancia usados para monitorear y detener a uigures y otras minorías en la región china de Xinjiang. Como resultado, las firmas estadounidenses no pueden invertir en SenseTime ni venderle ciertas tecnologías sin licencia. (SenseTime ha negado las acusaciones).

SenseNova U1 demo
SenseNova U1 demo

Ver con claridad

En un reporte técnico que acompañó al lanzamiento, SenseTime asegura que SenseNova-U1 genera imágenes de mayor calidad que cualquier otro modelo open source actualmente disponible. Su rendimiento es comparable al de modelos chinos closed source punteros como Qwen de Alibaba y Seedream de ByteDance, aunque todavía queda por debajo de líderes de la industria como GPT-Image-2.0, lanzado apenas la semana pasada.

Pero el principal argumento de venta del modelo es su capacidad para generar imágenes mucho más rápido que esos modelos. Esto descansa sobre una estructura técnica innovadora llamada NEO-Unify, que SenseTime adelantó a comienzos de este año.

La nueva arquitectura, que podría mejorar eficiencia y rendimiento, es lo que distingue a U1, según Adina Yakefu, investigadora de IA en Hugging Face. "Es una aproximación más ambiciosa, ya que todavía enfrenta desafíos prácticos significativos", afirma. "Es bueno que hayan decidido liberarlo en open source para que la comunidad pueda explorarlo y testearlo más ampliamente". El modelo además es lo suficientemente compacto para correr en PCs y teléfonos, lo que lo vuelve potencialmente útil en muchos escenarios.

Lin sostiene que la técnica que desarrolló SenseTime será especialmente útil en robótica. Cuando un robot intenta procesar el mundo visual, debe filtrar una enorme cantidad de información. "Tiene que pensar: cómo lidio con todo el desorden de esta habitación, si hay una máquina compleja frente a mí, qué botón debería apretar. Todo esto es información, y necesita integrarse en el juicio interno del modelo", explica. Como puede entender imágenes de forma nativa, Lin confía en que la tecnología de SenseTime ayudará a los robots a actuar más rápido y cometer menos errores en entornos complejos.

China atraviesa un boom de robots humanoides. Aunque SenseTime no desarrolla actualmente sus propios robots, Lin asegura que trabaja estrechamente con ACE Robotics, una startup liderada por otro cofundador de SenseTime. La compañía también está desarrollando modelos especializados en comprensión geoespacial, es decir, en crear simulaciones del mundo real.