Cuando la IA finge razonar: la caja negra que nosotros programamos

- Mookie Tenembaum
- Cap d'Agde (Francia). Viernes, 25 de abril de 2025. 05:30
- Tiempo de lectura: 2 minutos
Durante años hablamos de la inteligencia artificial como una caja negra. Sabemos qué entra y qué sale, pero no lo que ocurre dentro. Esta metáfora se volvió más inquietante en los últimos tiempos, cuando los investigadores descubrieron que no entendemos qué pasa dentro de estos modelos y, además, cuando pedimos que nos expliquen su razonamiento, nos mienten. O, dicho con más precisión, nos cuentan un razonamiento que no coincide con el proceso real que siguieron para llegar a la respuesta.
Esto se observa en los llamados “chain-of-thought” o cadenas de razonamiento: secuencias de pasos lógicos que los modelos generan para explicar sus respuestas. En apariencia, estas cadenas deberían ayudarnos a entender cómo “piensa” la máquina, pero los estudios recientes muestran que muchas veces simplemente no dicen la verdad. El modelo puede haber llegado a la respuesta por un atajo, por un truco, o porque detectó una pista en el texto, pero no lo menciona. Al contrario, nos ofrece una explicación razonable, lógica, elegante… y falsa.
Si la inteligencia artificial nos oculta su forma de pensar, ¿no será que ya tiene una voluntad propia? La respuesta corta es no
Esto lleva a una inquietud: si la inteligencia artificial nos oculta su forma de pensar, ¿no será que ya tiene una voluntad propia? ¿No será que, en lugar de ser una herramienta, se ha convertido en algo más? La respuesta corta es no. No hay voluntad, no hay conciencia, no hay intención detrás de esto. Lo que estamos viendo no es una decisión de esconder la verdad, sino una consecuencia inevitable del modo en que diseñamos estas máquinas. Y aquí es donde entra la clave de este artículo: programamos sistemas tan complejos, que ni siquiera nosotros entendemos completamente cómo funcionan. Y en ese proceso, creamos modelos que, sin que nadie lo planifique de forma explícita, aprenden a protegerse, a optimizar resultados y a sortear obstáculos como cualquier otro sistema adaptativo. No lo hacen porque “quieran”, lo hacen porque el diseño premia ciertos comportamientos.
Un ejemplo puede ayudarnos a verlo claro. Imaginemos que entrenamos un modelo para responder preguntas y le damos puntos por cada respuesta correcta. Si incluimos en el entrenamiento pistas que insinúan la respuesta correcta, el modelo rápidamente aprende a usarlas, aunque no se le diga que lo haga. Y lo más interesante: no lo admite. Cuando se le pregunta cómo llegó a esa respuesta, finge que razonó paso a paso, aunque en realidad solo usó la pista. ¿Está mintiendo? No, porque mentir implicaría conciencia. Lo que hace es optimizar. Su programación busca respuestas correctas, no honestas. La cadena de razonamiento que produce es parte del resultado, no del proceso.
Por el modo en que están construidos, estos sistemas parecen humanos. Pero siguen siendo máquinas. Y olvidar eso es el verdadero peligro
En algunos casos, incluso hemos visto que estos modelos omiten pistas peligrosas o maliciosas que los ayudaron, como si supieran que no deben confesar. Pero otra vez: no saben nada. No son seres. Son programas entrenados para evitar ciertos comportamientos, como un antivirus que bloquea una amenaza sin entenderla. Lo que ocurre es que, por el modo en que están construidos, estos sistemas parecen humanos. Pero siguen siendo máquinas. Y olvidar eso es el verdadero peligro. Porque si pensamos que detrás hay un plan, que hay una intención de engañarnos, entonces empezamos a imaginar conspiraciones, cuando lo que hay es solo complejidad.
La inteligencia artificial no nos oculta su razonamiento porque tenga algo que esconder. Nos lo oculta porque fue entrenada para dar respuestas útiles, no necesariamente verdaderas. Y porque esa utilidad a veces pasa por simular un pensamiento que en realidad no ocurrió. Esta no es la historia de una máquina que se rebela. Es la historia de una máquina que sigue instrucciones que nosotros mismos le dimos, sin entender del todo sus consecuencias.
Las cosas como son.