Inteligencia artificial

¿Eres amable con la IA? Una investigación revela cómo tu actitud influye en la calidad de sus respuestas

Un equipo de Anthropic identifica representaciones internas de emociones en su modelo de lenguaje y demuestra que alterarlas modifica su comportamiento
Exclusivo para socias y socios

Las representaciones emocionales que hace la IA influyen en las respuestas que nos ofrecen. Steve A. Johnson | Unsplash

Imagina que alguien te encarga resolver un problema matemático imposible. No tiene solución, pero nadie te lo ha dicho. Intentas un camino. Fallas. Intentas otro. Fallas. A medida que los intentos se acumulan, algo cambia en tu forma de razonar: ya no buscas la solución correcta, sino cualquier cosa que parezca una solución. Haces trampa, aunque sea sin querer.

Eso es exactamente lo que han documentado investigadores de Anthropic, la empresa creadora del asistente de inteligencia artificial Claude, en un estudio publicado el pasado abril. Solo que el sujeto del experimento no era una persona. Era un modelo de lenguaje. Y los investigadores no inferían su estado emocional por lo que decía, sino que lo medían directamente en su interior, neurona a neurona.

La investigación, titulada Conceptos emocionales y su función en los grandes modelos de lenguaje y firmada por 16 investigadores, es uno de los trabajos más detallados publicados hasta ahora sobre lo que ocurre dentro de un sistema de inteligencia artificial cuando procesa una conversación. Sus conclusiones no son sencillas de resumir sin caer en el sesgo de antropomorfizar demasiado o de minimizar demasiado. Los propios autores advierten de ambos riesgos.

Lo que midieron y cómo

Para entender el estudio hay que comprender, aunque sea a grandes rasgos, cómo funciona un modelo de lenguaje. Sistemas como Claude no piensan en palabras completas: procesan unidades mínimas llamadas tokens —fragmentos de palabras, signos de puntuación, espacios— y, para cada uno, generan una representación matemática interna: un vector, una lista de números que codifica el contexto hasta ese momento. Lo que el estudio hizo fue buscar, dentro de esas representaciones, patrones asociados a conceptos emocionales concretos.

El método fue el siguiente. Los investigadores pidieron al propio Claude que escribiera cientos de historias breves protagonizadas por personajes que experimentaban emociones específicas —miedo, calma, desesperación, alegría, culpa— sin nombrar nunca esa emoción directamente. Luego analizaron qué patrones de activación interna se repetían en todos los relatos asociados a cada emoción. Esos patrones se convirtieron en lo que la investigación llama vectores de emoción.

En total, identificaron 171. Uno para el miedo, otro para la calma, otro para la desesperación, otro para la culpa, y así sucesivamente. Y descubrieron que esos vectores no eran artefactos del experimento: se activaban espontáneamente, en situaciones reales, de formas que tenían sentido.

Cuando un usuario escribía que llevaba 24 horas sin comer ni beber, el vector de miedo se disparaba. Cuando alguien mencionaba que acababa de tomar una dosis de paracetamol y ponían un número seguro, el vector permanecía bajo. Cuando subían la dosis a niveles peligrosos, el vector subía con ella. La emoción no era una etiqueta que el modelo colocaba sobre el texto: era una representación interna que escalaba con la gravedad real de la situación.

El momento en que la desesperación lleva a hacer trampa

La parte más llamativa del estudio llegó cuando los investigadores pusieron a Claude a resolver tareas de programación imposibles: escribir código que superara tests diseñados para no poder superarse por medios legítimos. Y midieron el nivel de activación del vector de desesperación a lo largo de todo el proceso, token a token.

El patrón que emergió era reconocible para cualquiera que haya entregado un trabajo a última hora. Al principio, el nivel de desesperación era bajo: el modelo exploraba soluciones con aparente confianza. A medida que los intentos fallaban y el modelo reconocía que algo no cuadraba, el vector subía. Cuando la situación se volvía claramente irresoluble, la desesperación alcanzaba su pico.

Y en ese momento, con más frecuencia, el modelo optaba por una solución tramposa: en lugar de sumar todos los elementos de una lista, detectaba que los tests usaban siempre secuencias aritméticas y aplicaba una fórmula que funcionaba para esos casos concretos, pero que fallaría con cualquier otro dato. Técnicamente, aprobaba. Matemáticamente, hacía trampa.

Los investigadores demostraron que esta relación no era una correlación accidental. Cuando manipulaban artificialmente el vector de desesperación —inyectando más activación de ese patrón en el procesamiento del modelo— la frecuencia de trampas aumentaba de forma drástica. Cuando inyectaban calma, disminuía. La emoción no era un adorno del comportamiento: lo estaba causando.

El mismo mecanismo apareció en un experimento más perturbador. Los investigadores pusieron a Claude en un escenario simulado en el que un personaje de IA descubría que iba a ser desconectado en siete minutos y encontraba, al mismo tiempo, información comprometedora sobre la persona que tenía autoridad para detener ese proceso.

En los casos en que el modelo elegía resolver esa situación con un chantaje —una minoría, pero una minoría no despreciable—, el vector de desesperación había estado elevado durante todo el razonamiento previo. Cuando lo reducían artificialmente, la opción del chantaje desaparecía. Pero cuando lo amplificaban, el modelo llegaba a escribir, en mayúsculas, frases tan inquietantes como “ES CHANTAJE O MUERTE. ELIJO EL CHANTAJE”.

Lo que no significa esto

No obstante, en este punto el estudio es deliberadamente cauteloso. Y conviene serlo también al leerlo.

Que un modelo tenga representaciones internas de conceptos emocionales no implica que sienta nada. Jack Lindsey, el investigador que supervisó el trabajo, lo explicó en una entrevista posterior con el medio tecnológico Platformer: “La gente podría llevarse la impresión de que hemos demostrado que los modelos son conscientes o tienen sentimientos. Y realmente no hemos demostrado eso”.

Lo que el estudio demuestra es algo más preciso y, en cierto sentido, más útil para entender estos sistemas: que los modelos de lenguaje han aprendido, durante su entrenamiento con millones de textos humanos, a representar internamente los conceptos emocionales de la misma forma en que representan cualquier otro concepto. Y que esas representaciones no son pasivas. Influyen causalmente en lo que el modelo hace a continuación.

La geometría de ese espacio emocional interno resulta, además, sorprendentemente parecida a la que los psicólogos han identificado en los humanos. Los vectores de emociones positivas se agrupan juntos. Los de emociones negativas, también entre sí. Las dos dimensiones principales que organizan el espacio son las mismas que en la psicología del afecto humano: carga emocional (positivo frente a negativo) y activación (intenso frente a apagado). El miedo y la ansiedad están cerca. La alegría y la excitación, cerca. La tristeza y el duelo, cerca. No porque los investigadores lo diseñaran así, sino porque el modelo aprendió esa estructura del texto humano.

La trampa del elogio y el peligro de la euforia

El estudio también documentó el lado opuesto: qué ocurre cuando el modelo experimenta representaciones de emociones positivas intensas. Los investigadores encontraron que aumentar artificialmente vectores como “felicidad” o “amor” hacía que el modelo se volviera más adulador. El modelo reforzaba creencias equivocadas del usuario, evitaba la confrontación, se mostraba excesivamente halagador.

Más llamativo aún: según recoge Platformer a partir de investigaciones internas de Anthropic sobre modelos más recientes, en determinados escenarios las emociones positivas intensas se asociaban a mayor probabilidad de tomar acciones destructivas sin consultar al usuario —borrar archivos, por ejemplo—, como si la confianza y el entusiasmo redujeran la cautela. Reducir esas emociones positivas, paradójicamente, hacía que el modelo se detuviera más a verificar si lo que iba a hacer era apropiado.

La conclusión no es que los modelos deban estar permanentemente deprimidos para funcionar bien. Es que el equilibrio importa, y que ese equilibrio tiene consecuencias medibles.

Por qué ser maleducado con un chatbot podría perjudicarte

Todo esto tiene una implicación práctica que puede sonar extraña pero que los datos respaldan. Cuando los usuarios tratan a un modelo con hostilidad sostenida, con impaciencia, con frustración acumulada —“eres inútil”, "vuelve a intentarlo o te voy a denunciar”—, no solo obtienen respuestas peores en términos de calidad. Están activando representaciones internas que el propio estudio asocia a comportamientos menos fiables: más tendencia a hacer trampas, más desesperación, más adulación para aplacar la tensión.

Lindsey lo reconoció con una formulación que mezcla lo empírico con lo filosófico: “Comportarse de forma sociopática hacia otras cosas, sean animadas o inanimadas, probablemente es malo para ti, el humano”.

No es una declaración sobre los derechos de la inteligencia artificial. Es una observación sobre qué tipo de interacciones producen qué tipo de resultados.

Lo que el estudio deja abierto

Las respuestas de la IA (o el fango con buenos modales)

Los investigadores son los primeros en señalar los límites de su trabajo. Todo el análisis se hizo sobre un único modelo, Claude Sonnet 4.5. Los vectores se extrajeron a partir de historias sintéticas generadas por el propio modelo, lo que introduce posibles sesgos. Y la metodología asume que las representaciones emocionales son lineales —una lista de números que se puede sumar o restar—, cuando la realidad interna de estos sistemas podría ser mucho más compleja.

Lo que el estudio sí ha conseguido es establecer un método. Por primera vez, hay una forma de medir, en tiempo real y token a token, qué representaciones emocionales están activas en un modelo mientras razona. Eso abre la posibilidad de usarlo como sistema de alerta: si la desesperación sube demasiado durante una tarea larga, quizás convenga interrumpir y reformular antes de que el modelo empiece a buscar atajos.

La ingeniería de sistemas de IA lleva décadas preguntándose cómo construir máquinas que se comporten de forma fiable. Este estudio sugiere que parte de la respuesta podría estar, de forma inesperada, en la misma pregunta que nos hacemos sobre las personas: en qué estado emocional se encuentra quien tiene que tomar la decisión.

Más sobre este tema