En el mundo de las palabras de moda, el acrónimo 'IA' ha sido, sin duda, el término más comentado durante al menos los últimos años. Donde antes términos como 'inteligente' bastaban para promocionar un producto, ahora nos dicen que vivimos en una era donde esta supuesta 'inteligencia artificial' moderna lo hace todo más rápido y mejor, mientras cura el cáncer como actividad secundaria. Sin embargo, como dijo un sabio en una ocasión: “Sigues usando esa palabra. No creo que signifique lo que tú crees que significa”.

La implicación obvia de usar un término como 'inteligencia artificial' de esta manera es que evoca una versión moderna del lenguaje de 'cerebro electrónico' de principios del siglo pasado, junto con el auge de las computadoras digitales. Sin embargo, en lugar de electrones en tubos de vacío y semiconductores impulsándonos hacia un nuevo mundo de superinteligencia, ahora solo usamos dichos dispositivos para el doom scrolling y para participar en comunicaciones en línea pasivo-agresivas, como los grupos de primates típicos en una selva virtual defendiendo su territorio.

Del mismo modo, el término IA está masivamente sobrevendido hoy en día, sobre todo por la suposición inherente de que de alguna manera finalmente hemos descifrado el misterio del cerebro y hemos creado una inteligencia que puede competir cara a cara con los humanos e incluso con nuestros amigos córvidos. Quizás la peor parte es que existe una verdadera montaña de algoritmos fascinantes y otros constructos que nos ayudan a automatizar muchas tareas hoy en día, lo que hace algo grosero simplemente rendirse y llamar a todo 'IA' como si no hubiéramos aprendido nada de la fiebre de la IA de los años 80.

Entonces, ¿qué se está ocultando exactamente bajo el brillante marketing de que 'todo es IA'?

Cognición versus Inteligencia

Recientemente cubrí el tema de la inteligencia, tanto en el sentido de su definición como en la evidencia empírica. Dentro de esa definición, ya es bastante obvio que animales como las aves son bastante inteligentes y pueden competir con el humano promedio en una serie de métricas. De los diferentes tipos de inteligencia, la inteligencia fluida (Gf) es quizás la más crucial, ya que pertenece a lo que podría ser la señal más clara de inteligencia: el razonamiento.

Teoría CHC actual y ampliada de habilidades cognitivas. Fuente: Flanagan & McGrew (1997).
Teoría CHC actual y ampliada de habilidades cognitivas. Fuente: Flanagan & McGrew (1997).

La comprensión de este modelo teórico permite visualizar cómo se estructuran las capacidades cognitivas. Si añadimos a esto la memoria (conocimiento y recuerdo), así como las habilidades adquiridas, obtenemos los conceptos básicos de la inteligencia general. Se podría argumentar absolutamente que de esto trata la inteligencia: la adquisición de datos, su procesamiento y el uso del razonamiento para llegar a nuevas conclusiones. Sin embargo, como se puede ver en el artículo de referencia, el modelo básico de inteligencia CHC puede ser, y ha sido, ampliado para incluir métricas sensoriales, motoras y de eficiencia, las cuales son muy centradas en cada especie.

Por supuesto, es cierto que dentro de los procesos cognitivos es difícil excluir la entrada sensorial y la salida a través de actuadores como los músculos para realizar algún tipo de acción física. Después de todo, ningún tipo de inteligencia es de mucha utilidad si no hay entrada y salida, tal como necesitamos al menos uno de nuestros cinco sentidos para ser conscientes del mundo que nos rodea junto con alguna forma de interactuar. Si la inteligencia podría desarrollarse sin ambos es también una pregunta válida.

Los desacuerdos resultantes en la comunidad académica sobre dónde trazar la línea entre inteligencia y cognición no ayudan a reducir el alcance de la 'inteligencia', ya que hace posible asignar la etiqueta a algo como la visión artificial. Incluso cuando este es un sistema que simplemente replica partes del proceso cognitivo visual sin el razonamiento y la comprensión subyacentes que acompañan a este proceso cognitivo en nosotros, los animales.

Lo que podemos concluir de esto, sin embargo, es que lo que llamamos 'inteligente' o 'IA' son simplemente sistemas que intentan replicar tal fragmento del proceso cognitivo humano.

Visión Artificial

Quizás la mayor fortaleza de la visión artificial (MV) es que permite delegar una tarea cognitiva a un sistema informático que nunca sufrirá fatiga ni se distraerá. Esto es esencial en tareas como el control de calidad, por ejemplo, en las líneas de producción. En lugar de tener a un humano verificando cada artículo que pasa por ciertas propiedades, alineaciones, etc., un sistema de visión artificial puede asumir esta tarea cognitiva siendo, indiscutiblemente, mucho más eficiente.

La MV abarca una amplia gama de implementaciones, todas dirigidas a una tarea específica que puede utilizar diferentes sensores y salidas para lograr un objetivo. Por ejemplo, en las líneas de ensamblaje de PCB y la producción de alimentos, existen muchos sistemas de MV que utilizan luz visible, así como infrarrojo cercano y otros tipos de cámaras y sensores para detectar fallas, deterioro y otros problemas. Estos datos se pasan luego por el resto del sistema, donde algún tipo de programación permite la detección de cualquier problema.

Inspección manual de una PCB rechazada por la automatización. (Crédito: Gamers Nexus, YouTube)
Inspección manual de una PCB rechazada por la automatización. (Crédito: Gamers Nexus, YouTube)

La imagen muestra cómo los sistemas automatizados filtran componentes, dejando la decisión final al operario humano. En la fábrica de placas, las PCB sospechosas se identifican y luego se retiran de la cinta transportadora para ser entregadas a un humano, quien puede confirmar el problema y solucionarlo o desecharlo, o bien marcarlo como un falso positivo del sistema y devolverlo a la línea. La principal ventaja aquí es que reduce la carga cognitiva sobre los humanos, quienes son notoriamente malos para largos periodos de trabajo aburrido.

Otra área donde la MV es esencial es la de los vehículos autónomos, donde la combinación de sensores y la interpretación de características en una escena utilizando, por ejemplo, detección de bordes y reconocimiento mediante una red neuronal convolucional (CNN) es primordial. Esto replica el proceso cognitivo humano de navegación y dirección, aunque debe señalarse que estos sistemas requieren muchos más sensores, incluyendo radar y Lidar, para hacer su trabajo de manera algo efectiva.

Aquí debe notarse que la MV no reemplaza la cognición humana. Más bien, sirve para complementarla desde una perspectiva de automatización general. Es por esto que los vehículos puramente autónomos (Nivel 5) siguen siendo ficción y, a veces, fallas de ensamblaje de PCB cómicamente obvias pueden pasar a través del control de calidad automatizado, incluso si, en general, es una ganancia neta para los trabajadores humanos.

Reconocimiento de Patrones

Gran parte de la profesión médica trata sobre el reconocimiento de patrones y el diagnóstico diferencial, ya que los síntomas y los resultados de las pruebas deben ser categorizados y analizados. Dentro de este campo, ha habido un impulso hacia el diagnóstico asistido por computadora (CAD) durante décadas, también aquí para tratar de reducir la carga cognitiva del personal médico. El inicio de esto fue con sistemas expertos implementados, por ejemplo, en Lisp, que utilizan una base de conocimientos y un sistema de inferencia para llegar a una conclusión o resolver un problema.

Un problema aquí es, por supuesto, que esta base de conocimientos tiene que ser mantenida constantemente, razón por la cual los diseños de redes neuronales artificiales se han vuelto más populares, siendo los modelos de lenguaje de gran tamaño (LLM) un ejemplo particular de estos. Dichos modelos pueden actualizarse más fácilmente, con el pequeño inconveniente de que al no tener ya el sistema experto mantenido por seres humanos y, en cambio, depender de lo que son esencialmente modelos estadísticos, se está abandonando la parte del 'experto'.

Es por esto que los LLM han sido desplazados cada vez más por cosas como la generación aumentada por recuperación (RAG), que fundamenta las respuestas en datos verificables.

Vía Hackaday.