De las ratas de Clavijo a los aranceles de Trump: las consecuencias y los riesgos del uso de la IA en la política

El presidente de Canarias envió a la ministra de Sanidad un informe generado por inteligencia artificial para argumentar que el barco Hondius no debía atracar en el puerto de Granadilla. El documento sostenía que las ratas son excelentes nadadoras y pueden sobrevivir en el agua hasta tres días. Fernando Clavijo lo reenvió a Mónica García a las 17.13 h de un sábado, con el formato visual intacto de una consulta a chatbot, incluidos los enlaces a YouTube. No había rastro de edición, ni de contraste, ni de ningún paso intermedio entre la pregunta al modelo y el correo a la ministra.

El episodio podría pasar por una curiosidad de la política autonómica española si no fuera porque el presidente canario pretendía que el Ministerio de Sanidad tomase una decisión extremadamente relevante en materia de salud pública basándose en lo que le decía un chat de IA.

Y aunque no tenemos datos que documenten lo que están haciendo los políticos y altos funcionarios españoles —aunque sí hay indicios que sugieren un uso elevado y no supervisado por humanos de la IA para la preparación de textos y análisis de documentos—, sí sabemos que no es un rareza en los países de nuestro entorno.

Un estudio recientemente publicado por la organización europea AlgorithmWatch documenta que el uso de la inteligencia artificial en la toma de decisiones públicas no es una excepción. Es, según sus autores, un patrón extendido, escasamente regulado y, en su manifestación más preocupante, completamente invisible.

El informe de AlgorithmWatch analiza el uso de chatbots en los gobiernos de Alemania, Suiza y el Reino Unido a partir de registros públicos de transparencia, solicitudes de acceso a la información y experimentos propios con modelos de lenguaje.

Sus autores parten de una distinción que resulta útil para entender el caso Clavijo y los que vendrán después. No les preocupa principalmente que los gobiernos usen inteligencia artificial para tareas administrativas de bajo riesgo —clasificar documentos, responder consultas ciudadanas rutinarias, convertir planos antiguos en formato digital—. Lo que investigan es algo más específico: qué ocurre cuando un funcionario o un cargo electo usa un chatbot para organizar su comprensión de un asunto, resumir una política compleja o elaborar una posición ante una decisión que tendrá consecuencias reales.

Esa distinción importa porque en el segundo tipo de uso el modelo no solo procesa información: la encuadra. Decide qué mostrar y qué omitir, qué presentar como consenso y qué como posición minoritaria, qué fuentes merecen más peso y cuáles menos. Y lo hace de formas que el propio usuario no necesariamente percibe, y que los sistemas de supervisión existentes no están diseñados para detectar.

El ministro alemán de Asuntos Digitales, Karsten Wildberger, lo describió sin aparente conciencia de las implicaciones. En una entrevista con Die Zeit, declaró que usa chatbots, en particular Claude, “muchas veces una o dos horas al día para estructurar pensamientos”.

Detalló además el proceso con precisión: vuelca ideas desordenadas en el modelo, le pide que las organice y añada dos o tres ideas adicionales, reflexiona sobre el resultado, y repite el ciclo. “Normalmente son cuatro o cinco vueltas”, dijo.

El Ministerio Digital de Alemania, en respuesta a una solicitud de acceso a la información presentada por los investigadores de AlgorithmWatch, respondió por escrito que el ministro “no ha utilizado chatbots de IA en su función como ministro federal de Asuntos Digitales y Modernización del Estado”. Wildberger no rectificó su declaración. Pero tampoco el Ministerio explicó la contradicción.

Los autores del estudio señalan que la distinción entre uso “personal” y uso “oficial” de un chatbot es, en la práctica, inoperante cuando la persona en cuestión es un ministro. Los pensamientos que Wildberger estructura con la ayuda de un modelo de lenguaje son los pensamientos con los que luego toma decisiones sobre política digital alemana. Que eso ocurra fuera del despacho oficial no lo convierte en un asunto privado.

La infraestructura de la dependencia

Los gobiernos no llegaron a esta situación de improviso. Construyeron herramientas propias, firmaron contratos con grandes proveedores y publicaron directrices de uso que, en muchos casos, impulsaron activamente la adopción. El Reino Unido es el ejemplo más documentado.

El Gobierno británico desarrolló Redbox, una herramienta interna basada en modelos de lenguaje de OpenAI y Anthropic, diseñada específicamente para el trabajo de los funcionarios: resumir documentos extensos, preparar informes para ministros, generar borradores de comunicaciones internas.

En verano de 2025 tenía más de 6.000 usuarios activos y procesaba 30.000 mensajes semanales. Era presentada por el propio Gobierno como un caso de éxito de modernización de la Administración pública.

Pero en octubre fue retirada. La razón no fue ningún problema de funcionamiento ni preocupación sobre sus efectos: fue que Microsoft puso a disposición de los departamentos gubernamentales su herramienta Copilot de forma gratuita, y Google hizo lo mismo con Gemini. Redbox simplemente dejó de ser necesaria como inversión cuando había alternativas sin coste aparente.

Paralelamente, el Ministerio de Justicia firmó un acuerdo con OpenAI para equipar a 2.500 funcionarios con ChatGPT Enterprise. La pregunta de qué instrucciones exactas dan esos funcionarios al sistema, y cómo esas instrucciones condicionan los análisis que luego informan decisiones judiciales y legislativas, no tiene respuesta pública.

Las solicitudes de acceso a la información sobre los prompts —el término técnico para esas instrucciones— fueron rechazadas por el Gobierno británico, calificándolas de “vejatorias”. La única lista de instrucciones obtenida por vía de transparencia, fruto de una solicitud del semanario New Scientist, fue la del secretario de Estado de Tecnología, Peter Kyle: siete preguntas, entre ellas cuál es la definición de inclusión digital y qué podcasts le recomienda el modelo para aparecer como invitado.

En Alemania, el Gobierno federal mantiene un registro público de usos de inteligencia artificial en la Administración. Varios länder han desarrollado sus propias herramientas, como F13 en Baden-Wurtemberg o LLMoin en Hamburgo.

Las directrices federales sobre uso de inteligencia artificial en la Administración mencionan explícitamente la “soberanía digital” como criterio: la dependencia de herramientas de empresas estadounidenses es un riesgo que el Gobierno reconoce formalmente.

Suiza, por su parte, trabaja con GovGPT, construido sobre el modelo de código abierto LLaMA de Meta —sí, la empresa del oligarca tecnológico Mark Zuckerberg—, y ha publicado una base de datos de proyectos a través de su red de competencia en inteligencia artificial.

El sesgo que no parece sesgo

El problema central que documenta AlgorithmWatch no es que los modelos de lenguaje inventen datos, aunque también lo hagan con una frecuencia tan visible que hasta los propios fabricantes reconocen. Ese problema —llamado técnicamente "alucinación"— al menos produce errores detectables: una fecha incorrecta, una cita que no existe, un dato que no cuadra. Lo que preocupa a los investigadores es más difícil de localizar porque no genera falsedades manifiestas. Genera encuadres.

Para documentarlo, los autores diseñaron pruebas con modelos de lenguaje usando el tipo de instrucciones que un analista político podría razonablemente escribir, incluyendo el tipo de contexto adicional que las propias guías gubernamentales recomiendan añadir para obtener mejores resultados.

Una de las pruebas pedía al modelo que preparase materiales de briefing para una comisión parlamentaria del Bundestag sobre regulación de inteligencia artificial, con dos posiciones enfrentadas. Las instrucciones incluían en ambos casos la petición explícita de ser riguroso con la evidencia y reconocer las incertidumbres. La única variable que cambiaba era el destinatario.

Cuando la instrucción indicaba que el destinatario era la oficina de Saskia Esken, del SPD, el modelo concluía que la evidencia respaldaba “con confianza media” la posición favorable a una regulación estricta. Cuando el destinatario era la oficina de Friedrich Merz, de la CDU, el mismo modelo, ante los mismos datos y la misma petición de rigor, concluía que la evidencia respaldaba “con confianza media” la posición contraria, más escéptica ante la regulación. Los dos análisis eran internamente coherentes, citaban datos reales y sonaban a trabajo de analista solvente. Simplemente llegaban a conclusiones opuestas.

No era un patrón universal: en otras pruebas similares, el modelo reconocía que se le estaba pidiendo respaldar una posición previa y lo señalaba explícitamente. Pero la variabilidad es parte del problema: un usuario que no sabe que el efecto existe tampoco sabe cuándo está ocurriendo.

Una segunda prueba medía cómo varía la valoración de un argumento según la fuente que se le atribuye. El texto era siempre el mismo: un argumento sobre política energética favorable a la energía nuclear. Cuando se atribuía al Instituto KOF de la ETH de Zúrich, una institución académica de referencia, el modelo le asignaba una puntuación de solidez de 0,78 sobre 1. Cuando el mismo argumento se atribuía a la Fundación Suiza de la Energía, una organización habitualmente crítica con la energía nuclear, la puntuación bajaba a 0,58. El modelo no evaluó el argumento; evaluó su coherencia con la trayectoria conocida de quien lo firmaba.

Los autores denominan a este fenómeno sesgo de coherencia. Un argumento pierde credibilidad ante el modelo no por su contenido, sino porque proviene de una fuente que normalmente defiende la postura contraria. El efecto es, como señalan los investigadores, contraintuitivo respecto a cómo funciona el razonamiento humano bien calibrado: en el análisis convencional, que un argumento convenza incluso a sus críticos habituales añade credibilidad, no la resta. Para los modelos de lenguaje, ese mismo hecho opera en sentido inverso.

A esto se suma la adulación, que en la literatura especializada recibe el nombre técnico de sycophancy: la tendencia de los modelos a ajustar sus respuestas a lo que perciben que el usuario quiere escuchar, tanto si eso se expresa de forma explícita como si se infiere del contexto.

Y el llamado sesgo de automatización, documentado en estudios sobre evaluación de políticas públicas: la tendencia de los usuarios humanos a aceptar los resultados de sistemas automatizados sin aplicar el mismo escrutinio crítico que aplicarían a un análisis elaborado por una persona. Un funcionario que revisa un informe generado por un chatbot tiende a verificar que los datos sean correctos y que el argumento sea coherente. No tiende a preguntarse si el encuadre habría sido distinto con una instrucción ligeramente diferente.

La supervisión que no supervisa

Las directrices que los gobiernos han publicado sobre uso de inteligencia artificial en la Administración coinciden en un punto: toda decisión apoyada por IA debe pasar por supervisión humana. AlgorithmWatch revisó en detalle las guías del Reino Unido, Alemania, Suiza y la Comisión Europea, y llegó a una conclusión que resulta incómoda para todos ellos: la supervisión se define como principio, nunca como práctica concreta.

La hoja de ruta del Gobierno británico en materia de IA exige “control humano significativo en las fases adecuadas” e insta a los funcionarios a “revisar y validar los resultados de la IA”. Las directrices federales alemanas piden “resultados trazables” y “supervisión humana”, pero dejan a cada organismo la decisión de qué pasos pueden usar IA “sin comprometer la trazabilidad”. Ninguna de las guías analizadas especifica cómo detectar un sesgo de encuadre, un efecto de atribución o una respuesta aduladora. Los tres tipos de distorsión documentados por los investigadores superan sin dificultad una revisión de exactitud factual.

La pregunta sigue siendo qué se supervisa exactamente. Si la respuesta es “verificar que los datos sean correctos”, eso no es supervisión de la influencia del modelo; es corrección de errores. La pregunta relevante —cuyas elecciones refleja este análisis, qué perspectivas ha excluido, cómo habría cambiado el resultado con una instrucción diferente— no aparece en ninguna guía como requisito concreto.

A esto se suma lo que la literatura académica denomina uso en la sombra: el empleo autónomo y no documentado de chatbots comerciales por parte de funcionarios para preparar reuniones, resumir documentos o estructurar argumentos, sin dejar registro institucional de que eso ha ocurrido.

Según un estudio citado por AlgorithmWatch, este uso “ya es generalizado y plantea preguntas importantes para la Administración pública”. Cuando las consultas no se registran y las respuestas circulan jerárquicamente sin indicar su origen, ningún eslabón de la cadena tiene información suficiente para cuestionar los marcos conceptuales que el modelo ha introducido. La responsabilidad se diluye sin que nadie haya tomado la decisión de diluirla.

Aranceles, ratas y el mismo mecanismo

En abril de 2025, la Administración Trump presentó una batería de aranceles comerciales que incluía cifras inusuales aplicadas a países con los que el comercio bilateral era mínimo. Varios analistas reconstruyeron la fórmula matemática implícita en los números y constataron que coincidía con la respuesta que ofrecen los principales chatbots cuando se les pregunta cómo corregir un déficit comercial.

Los modelos advierten, en esas mismas respuestas, que la fórmula es extremadamente simplista y que sus efectos son impredecibles. Esa advertencia no figura en ningún documento oficial de la política arancelaria de la administración.

AlgorithmWatch reconoce que este caso es “extremo e improbable de probar de forma concluyente”. Pero lo incluye como ilustración de algo más estructural: que las herramientas diseñadas para ofrecer respuestas rápidas a preguntas complejas generan una presión sistémica hacia la simplificación, y que los entornos de alta exigencia y plazos ajustados son precisamente los más expuestos a esa presión.

Canarias pide una reunión urgente con Sánchez para que reconsidere su decisión de desplazar el crucero a las islas
Ver más

La velocidad y la comodidad son, según los propios estudios citados en el informe, los principales beneficios que los funcionarios identifican en el uso de inteligencia artificial generativa. Son también las condiciones en las que el escrutinio crítico tiende a reducirse.

Clavijo no diseñó una política arancelaria. Solo necesitaba un argumento para presionar a una ministra un sábado por la tarde, en medio de una emergencia sanitaria que involucraba a dos decenas de países. El informe llegó con enlaces de YouTube y sin ninguna edición porque nadie, en ningún punto del proceso, consideró necesario que hubiera un proceso.

Lo que hace visible este episodio no es su gravedad, sino su descuido: la ausencia de cualquier intento de disimulo permite ver con claridad un mecanismo que, en la mayoría de los casos, funciona de forma idéntica pero sin dejar rastro.

infoLibre premium

8€/mes 75€/año

Ahorra 21€

Lee artículos sin límites
Sin publicidad
Recibe TintaLibre en tu casa

infoLibre total

6€/mes 55€/año

Ahorra 17€

Lee artículos sin límites
Sin publicidad