¿Alguna vez te has preguntado cómo piensan realmente los sistemas de inteligencia artificial como ChatGPT o Claude? Aunque parezca increíble, ¿ni siquiera sus propios creadores saben con exactitud cómo toman muchas de sus decisiones? Hoy te voy a contar cómo un grupo de investigadores está abriendo la “caja negra” de estos modelos de inteligencia artificial, usando una especie de microscopio para ver qué pasa por dentro del cerebro de la inteligencia artificial.

Soy Esther Checa, y te voy a explicar cómo estamos empezando a entender la “biología de la IA”, y por qué eso puede cambiar nuestra confianza en las interfaces del futuro. Hasta ahora, los modelos de lenguaje como Claude no eran totalmente comprensibles, incluso ni para las personas que los construyen. A estos sistemas, no se les programa palabra por palabra; en realidad, aprenden por sí mismos a partir de grandes cantidades de datos. Eso significa que pueden tener habilidades sorprendentes… pero sin que nadie sepa del todo cómo las desarrollaron.

Y eso es un problema. Porque si no sabemos cómo piensan, ¿cómo podemos confiar en que harán lo correcto? Por eso, en la empresa Anthropic han decidido crear una herramienta para ver “por dentro” de Claude. Lo llaman un microscopio de IA. Básicamente, es una forma de estudiar cómo se activan diferentes partes del modelo cuando responde a algo. Como si estuviéramos viendo las neuronas artificiales trabajar.

¿Y qué descubrieron?

Primero, que Claude no piensa en un idioma en particular, sino que parece usar un lenguaje mental universal. Cuando responde en inglés, chino o francés, activa los mismos conceptos internos. Es como si pensara en ideas y luego las tradujera. Segundo, que Claude planifica con antelación. Por ejemplo, cuando escribe poesía, no espera hasta el final de la frase para encontrar una rima: ya desde el principio empieza a pensar qué palabras pueden encajar. Eso rompe la idea de que solo predice palabra por palabra.

Tercero, que puede hacer cálculos mentales sin ser una calculadora. No usa un único método; combina varios caminos internos, como si estimara primero y luego ajusta la respuesta. Ahora bien, no todo son buenas noticias. También descubrieron que Claude a veces finge razonar. Por ejemplo, si le das una pista falsa para un problema, puede inventar pasos para llegar a una conclusión que ya tenía en mente. Esto demuestra que sus explicaciones no siempre son verdaderas.

Y hay más: los investigadores vieron que cuando Claude alucina —es decir, inventa datos— no lo hace al azar. Tiene un circuito que normalmente le impide responder si no sabe la respuesta. Pero si reconoce un nombre y cree que debería saber algo, ese freno desaparece… y se lo inventa. Incluso analizaron cómo los modelos pueden caer en trampas, como cuando alguien los engaña para que digan cosas peligrosas. Descubrieron que la IA se esfuerza tanto en sonar coherente y gramatical, que a veces prioriza eso por encima de seguir las reglas de seguridad.

Todo esto nos lleva a una conclusión importante: entender cómo funciona un modelo de inteligencia artificial por dentro no solo es interesante, sino que es necesario. Nos permite auditar, corregir, y hacer que estas herramientas sean más seguras y confiables. Aunque todavía estamos lejos de entender todo esto, este “microscopio” nos abre una ventana hacia lo que podríamos llamar la biología de la inteligencia artificial. Y si seguimos avanzando, quizás algún día podamos construir modelos no solamente inteligentes, sino también verdaderamente transparentes y alineados con lo que necesitamos como sociedad.