La IA no llena internet de mentiras, sino de consenso: tres años de datos revelan sus efectos en la web

Un tercio de internet ya no lo escriben personas. Esa es la conclusión central de la primera investigación a gran escala sobre el impacto del texto generado por inteligencia artificial en la web publicada hace unas semanas por investigadores de Stanford, el Imperial College de Londres y el Internet Archive. En contra de lo que cabía esperar, el hallazgo más inquietante no es que la IA mienta más que los humanos —el estudio demuestra que no es así—, sino que está haciendo que internet sea más uniforme, más amable y, en cierta forma, más aburrida.

El trabajo, firmado por los investigadores Jonas Dolezal, Sawood Alam, Mark Graham y Maty Bohacek, analizó una muestra representativa de páginas web publicadas entre agosto de 2022 —meses antes de que ChatGPT se lanzara al público— y mayo de 2025. Utilizaron el archivo histórico de la Wayback Machine —una especie de biblioteca digital de lo que se ha publicado durante años en internet— para construir la muestra y aplicaron sobre ella un detector de texto con IA llamado Pangram v3, capaz de distinguir entre texto íntegramente generado por máquina, texto asistido por IA y texto puramente humano.

Los resultados son llamativos. Antes de noviembre de 2022, cuando ChatGPT irrumpió en el mercado de consumo, el porcentaje de webs con texto generado por IA era prácticamente cero. Tres años después, en la primera mitad de 2025, el 35% de los sitios web recién publicados contenía texto generado o asistido por inteligencia artificial. El crecimiento no fue lineal: hubo un primer pico en torno a principios de 2023, luego siguió una estabilización y después tuvo lugar una segunda aceleración, ya en 2024, que se ha prolongado hasta el presente, lo que sugiere que el porcentaje actual es mucho mayor.

Los investigadores no se limitaron a medir cuánto texto de IA circula por internet. También quisieron saber qué piensa la gente sobre lo que está ocurriendo. Para ello encuestaron a 903 adultos estadounidenses —muestra representativa por edad, sexo y etnia— y les preguntaron si creían que el auge del contenido generado por IA estaba causando seis efectos negativos concretos.

Los resultados de esa encuesta son un mapa de los miedos colectivos. El 75% de los encuestados cree que la IA está provocando que circulen más informaciones falsas en internet. El 83% cree que está homogeneizando los estilos de escritura y haciendo desaparecer las voces individuales. El 70% cree que los artículos enlazan cada vez menos a fuentes externas, creando burbujas de información sin referencias. El 61% cree que los textos son más largos, pero menos densos: más palabras y menos contenido.

Cuatro hipótesis ampliamente compartidas (y desmentidas)

El análisis cuantitativo no encontró correlación estadísticamente significativa entre el aumento de texto generado por IA y un incremento de los errores factuales. Tampoco halló que los textos de IA sean estilísticamente más uniformes que los humanos —al menos no de forma medible—, ni que enlacen menos a fuentes externas, ni que sean más largos con menos contenido útil.

Pero esto no significa que la IA no tenga efectos sobre internet, sino que los efectos que tiene son distintos de los que la mayoría imagina. Porque el estudio sí confirma dos hipótesis con solidez estadística, y las dos apuntan en la misma dirección.

La primera es la contracción semántica. Los textos generados por IA se parecen más entre sí que los textos escritos por humanos. En términos técnicos, la similitud semántica promedio entre webs con contenido de IA es un 33% mayor que entre webs con contenido humano. Dicho de otro modo: las ideas que circulan en la parte de internet escrita por máquinas son más parecidas entre sí, más previsibles, más concentradas en torno a la media.

El espacio de los puntos de vista posibles —lo que los autores llaman la "ventana de Overton online", es decir, lo que la mayoría considera aceptable— se está estrechando. No porque la IA prohíba ciertos temas, sino porque tiende a producir versiones suavizadas, centradas y consensuales de cualquier asunto que aborda.

La segunda hipótesis que parece confirmarse es el desplazamiento hacia la positividad. El texto generado por IA tiene un sesgo hacia el tono positivo que es medible y significativo. Los documentos producidos o asistidos por máquinas tienen una tasa de sentimiento positivo que casi dobla la de los textos humanos —0,70 frente a 0,34 en la escala utilizada—.

Internet, en su porción creciente escrita por IA, se está volviendo más amable, más optimista y más edulcorado. El debate, la tensión y el tono crítico o negativo que caracteriza buena parte de la escritura humana están siendo desplazados por la tecnología de moda.

Estos dos efectos combinados producen algo que los investigadores describen como una web más uniforme en ideas y más agradable en tono. No más falsa. No más insulsa en densidad informativa. Pero sí más parecida a sí misma y menos incómoda.

Por qué esto importa más de lo que parece

La tentación es interpretar estos resultados como una buena noticia. La IA no miente más, no escribe peor y no elimina los enlaces. Pero los autores advierten que los efectos que han logrado confirmar son potencialmente más insidiosos que los desmentidos.

Un internet donde el 35% de los textos tienden hacia el consenso y la positividad no es necesariamente un internet más honesto. Es un internet donde las voces discordantes, el análisis crítico, la incomodidad intelectual y la diversidad de perspectivas tienen menos peso, aunque ningún algoritmo las haya censurado. La homogeneización no necesita prohibir nada: le basta con ahogar al discrepante.

Los autores del estudio lo enmarcan en términos de democracia deliberativa. El debate público sano necesita conflicto. Precisa que se digan cosas desagradables, que existan voces minoritarias y que los problemas se narren también desde el malestar. Un entorno inundado de texto amable y uniforme no es neutral: favorece el statu quo y margina la disidencia sin necesidad de ejercer ninguna censura visible.

Hay, además, un problema más técnico, pero igualmente grave. Si el 35% de internet ya es texto de IA, los modelos que se entrenen con datos web en los próximos años estarán ingiriendo una cantidad creciente de su propia producción. Los investigadores utilizan el concepto de colapso de modelos: la degradación que puede sufrir una IA cuando aprende de contenido generado por otra IA en lugar de por humanos. Lo que hasta hace poco era una preocupación teórica se convierte, con estos datos, en un problema urgente.

Este fenómeno de autoconsumo de IA tiene consecuencias profundas que van más allá de la simple proliferación de contenido basura. Cuando los modelos de lenguaje se entrenan con conjuntos de datos que incluyen creaciones de otros modelos, tienden a repetir patrones, amplificar errores y perder la diversidad creativa que solo surge de la experiencia humana.

Los investigadores han documentado que esto produce una homogeneización progresiva del contenido: los textos se vuelven más genéricos, menos matizados y cada vez más difíciles de distinguir entre sí. El problema se acelera exponencialmente porque cada nueva generación de IA entrenada con datos contaminados por IA anterior genera contenido de calidad aún inferior, creando un ciclo de degradación que se retroalimenta.

Lo alarmante es que este colapso no solo afecta la calidad del contenido, sino que compromete la capacidad futura de las propias IA para generar información fiable, creativa y útil. En un escenario donde la mayoría del contenido digital es generado por IA, el riesgo es que perdamos acceso a la materia prima esencial para el entrenamiento de sistemas inteligentes: la autenticidad humana.El estudio detectó además un patrón llamativo en la encuesta de opinión. Las personas que usan la IA con poca frecuencia tienden a creer más en sus efectos negativos que quienes la usan a diario. Los usuarios frecuentes, con una tasa de acuerdo con las hipótesis negativas del 76%, son menos pesimistas que los esporádicos, que llegan al 88%. La brecha es de 12 puntos porcentuales.

Una explicación posible es que quien usa la IA regularmente ha desarrollado una comprensión más matizada de sus capacidades y límites reales. Otra, menos tranquilizadora, es que la familiaridad genera tolerancia hacia efectos que desde fuera resultan más visibles.

Lo que el estudio no puede resolver —y sus autores lo reconocen— es si los efectos documentados ahora se intensificarán a medida que el porcentaje de texto de IA siga creciendo. El 35% de hoy puede ser el 50% de mañana. Y lo que, a escala de un tercio, produce una contracción semántica medible puede producir, a escala de la mitad, algo cualitativamente distinto.

Lo que los reguladores no han contemplado

La investigación termina con una advertencia sobre las herramientas disponibles para responder a este fenómeno. Las plataformas digitales tienen infraestructuras para detectar discursos de odio o desinformación factual. No tienen —nadie tiene— mecanismos para gobernar la diversidad semántica o la calidad de la información que nutre la conversación pública.

Las regulaciones aprobadas hasta ahora, incluido el Reglamento de IA europeo, apuestan por la transparencia mediante marcas de agua en el contenido generado por IA. Los autores señalan que esas marcas son fácilmente eludibles y que la detección retroactiva tiene límites inherentes. Su propuesta alternativa pasa por sistemas de verificación criptográfica de la autoría humana —similares al estándar C2PA, ya en uso para imágenes— y por ajustar los algoritmos de recomendación para que premien la diversidad semántica y el origen humano verificado, en lugar de premiar exclusivamente el volumen o el engagement.

La investigación de Stanford, el Imperial College y el Internet Archive completa otras que se están ocupando de investigar el auge del contenido basura generado por IA, que los anglosajones han bautizado como slop (bazofia).

Un estudio de la Universidad de Florida publicado en marzo en el Journal of Marketing Research estableció que el slop perjudica simultáneamente a consumidores y creadores profesionales. Según Tianxin Zou, profesor de marketing en la Universidad de Florida y coautor del estudio, "ahora hay una inundación de contenido de relativamente baja calidad. Debido a que la cantidad es tan grande, congestiona los sistemas de recomendación, por lo que se hace más difícil encontrar contenido verdaderamente de alta calidad".

Otra investigación publicada en febrero por Nature documentó específicamente la expansión masiva del slop en el ecosistema académico. El artículo reveló que la presentación de publicaciones científicas se ha duplicado desde el lanzamiento de ChatGPT en noviembre de 2022. Y los rechazos mensuales se multiplicaron por cinco, superando los 2.400 artículos por mes. Los investigadores califican la bazofia generada por IA como una "amenaza existencial" para el sistema académico tradicional.

Cuando el algoritmo escribe mejor que tú: así se ha colado la IA en la industria literaria
Ver más

Un tercer estudio de Kapwing —una herramienta online de edición de vídeo— sobre YouTube, publicado el pasado mes de enero, encontró que el 21% de los vídeos cortos de esta plataforma son producto de la IA y que un 33% adicional es lo que los anglosajones llaman brainrot (contenido repetitivo y absurdo diseñado para captar atención hipnóticamente, que se puede traducir como "idiotización"). España es el país más afectado, con más de 20 millones de suscriptores a canales de este tipo. Para luchar contra este fenómeno, YouTube eliminó a comienzos de año 35 millones de suscriptores y 4.700 millones de visualizaciones de 16 de los 100 canales slop con más éxito.

Las conclusiones transversales de todos los estudios señalan que las plataformas deberían etiquetar claramente el contenido generado por IA para ayudar a los consumidores a identificar qué quieren encontrar antes de abandonar la plataforma por completo.

El impacto en la calidad general de internet es degradante: el slop hace que internet sea más ruidoso, menos confiable y más difícil de filtrar. Los sistemas generativos tienden a amplificar patrones repetitivos y a priorizar la cantidad sobre la calidad, lo que favorece un ecosistema informativo degradado.

infoLibre premium

8€/mes 75€/año

Ahorra 21€

Lee artículos sin límites
Sin publicidad
Recibe TintaLibre en tu casa

infoLibre total

6€/mes 55€/año

Ahorra 17€

Lee artículos sin límites
Sin publicidad