Un detective en los corrales de comedia: así consigue la IA sacar del anonimato las obras del Siglo de Oro
Se dice que Lope de Vega escribió más de 1.800 comedias, 400 autos, cientos de poemas líricos, media docena de poemas épicos, tres novelas largas, cuatro cortas y un abundante epistolario, en sus 72 años de vida. Una producción inabarcable que, aún a día de hoy, nos sigue impresionando por su volumen. Tal era su capacidad, que el propio Lope llegó a asegurar que era capaz de escribir más de 100 obras en un solo día. Sin embargo, durante años, a esa abundante producción le faltaba un título. Una obra que llevaba siglos viendo pasar los siglos en una estantería de la Biblioteca Nacional y que, hasta ahora, ni los críticos, ni los estudiosos, ni los expertos en literatura del Siglo de Oro habían podido atribuir al escritor
“Era un texto perdido, no salía en los registros y nadie sabía su autoría. Creemos que en 400 años nadie lo ha leído”, explica Álvaro Cuéllar, investigador de la Universidad de Viena que ha conseguido, junto al catedrático de la Universidad de Valladolid Germán Vega García-Luengos, averiguar que el autor de La francesa Laura, una obra dramática del Siglo de Oro hasta ahora anónima, era el Fénix de los Ingenios. Sin embargo, no han estado solos en la investigación, han contado con la inestimable ayuda de un compañero de viaje muy particular, la inteligencia artificial.
Cuéllar y Vega lideran un proyecto llamado ETSO (Estilografía aplicada al Teatro del Siglo de Oro), donde ponen en marcha innovadoras técnicas de IA para lograr lo que hace unos años parecía una quimera: atribuir de una forma fiable textos de la época dorada de la literatura española hasta la fecha anónimos. “El teatro del Siglo de Oro tiene enormes problemas de autoría, en esa época no existía nada parecido al copyright ni a los derechos de autor, y muchas veces, a los escritores solo les preocupaba que esas obras se representaran y tuvieran éxito de público para poder cobrar. Luego, si los textos impresos llevaban su firma o no, les importaba bastante poco”, explica Cuéllar. Además de esta despreocupación hay un segundo factor que afecta mucho a las atribuciones del Siglo de Oro: la censura. Muchos autores, cuando deseaban denunciar algún problema social, decidían no firmar sus obras para ahorrarse problemas legales. Este es, por ejemplo, el caso del archiconocido Lazarillo de Tormes o del Quijote de Avellaneda.
Pese a la dejadez de muchos autores, Lope de Vega fue, sobre todo al final de su vida, uno de los escritores que sí se preocuparon por realizar listados recogiendo obras de su autoría, pero el dramaturgo madrileño se encontró con un gran obstáculo: su inabarcable producción. Al ser un autor tan prolífico, muchos de sus textos se quedaron fuera, pasando a la historia como anónimos. Ese fue el caso de La francesa Laura, cuya atribución tenía además un problema extra: ni siquiera se podía recurrir a la comparación de la caligrafía de Lope con la del texto dramático, ya que este no estaba escrito por el propio escritor, sino por un copista que vivió un siglo después del autor.
Entonces, ¿Cómo Cuéllar y Vega consiguieron la aparentemente imposible tarea de sacar del anonimato a La francesa Laura? La respuesta se resume en una palabra: estilografía, una técnica que, gracias a la inteligencia artificial, permite comparar textos para encontrar patrones estilísticos que puedan atribuirse a un autor determinado. “Todo se basa en la frecuencia de las palabras. Sin embargo, no tienen por qué ser palabras como ‘amor’, ‘árbol’ o ‘castillo’, sino que pueden ser incluso estructurales como ‘que’, ‘la’ y ‘del’. De hecho, cuando nos preguntan sobre qué palabras son las claves para analizar los textos, solemos decir que no son expresiones concretas, sino una suma de los usos de todas las palabras que analizamos”, explica el investigador. “Después de tanto tiempo investigando, hemos visto que lo que mejor funciona es coger las 500 palabras más frecuentes de un texto y compararlas entre todos los autores que tenemos. La máquina lo que va haciendo es ir viendo las pequeñas diferencias que se dan en el uso de estas palabras entre los distintos autores, entender sus relaciones y, al final, dar un resultado", explica el investigador..
El proceso seguido por la IA es tan complicado que, asegura Cuéllar, ni siquiera ellos saben, en muchas ocasiones, qué está sucediendo exactamente durante el proceso: “Son fórmulas matemáticas que se van repitiendo miles y miles de veces para mejorar. Tú introduces unos datos y la máquina te da un resultado, pero lo que sucede en el centro muchas veces es opaco, ya que para un ser humano es imposible entenderlo de forma completa”.
Una de las principales claves para que esta técnica funcione y sea lo más precisa posible, es el corpus de textos disponible para la máquina. Este debe ser lo más amplio posible para así tener la posibilidad de aprender y comparar mejor el estilo. Para compilar este corpus, es fundamental trascribir el texto desde el manuscrito al ordenador, otra de las tareas que hasta hace unos años era muy complicada pero que ahora, Cuéllar y Vega, han podido realizar de forma eficiente gracias a la IA. “Lo que hicimos fue entrenar a la máquina para que aprendiera a hacer las transcripciones con millones y millones de palabras bien transcritas. Después de un tiempo, la IA aprendió a hacerlo por sí misma, y así pudimos transcribir 1.000 impresos y unos 500 manuscritos. Con esos textos y todos los que teníamos de antes, al final juntamos unas 3.000 obras de teatro”, asegura Cuéllar.
En ese punto es donde entra la comparación de textos… y dónde surgió la magia con La francesa Laura. “Cuando estábamos analizando todas las obras, de repente una transcripción automática de un manuscrito salta como una obra de Lope de Vega, claro, eso habitualmente no nos suele pasar”, comenta Cuéllar. En ese momento, afirma, sintieron mucha emoción, no solo por el logro, sino también porque siempre que consiguen atribuir a un autor una obra suya “es como restituir su honor”.
Sin embargo, el proceso no termina, ni mucho menos, con el veredicto de la inteligencia artificial. Cuéllar asegura que la IA les proporciona “pistas” que de otra forma sería imposible que tuvieran, pero después, deben realizar una labor de comprobación donde utilizan técnicas y recursos más tradicionales. “Cuando la inteligencia artificial nos dice esto, comenzamos a observar, ya de forma humana, cómo el autor utiliza las palabras en relación con otras obras del Siglo de Oro y de Lope, cómo usa las ideas, las expresiones, si la métrica de los versos encaja con las obras de Lope, el contexto histórico… Son muchísimos los estudios que hay que hacer, pero en el caso de La francesa Laura, todos nos llevaban a Lope, y así lo han corroborado también todos los estudiosos que se han acercado a ella”, explica el investigador.
Pese a las verificaciones "humanas" que siempre realizan, la inteligencia artificial no suele fallar. Para probar su fiabilidad, Cuéllar realizó un experimento que da cuenta de la potencia de esta herramienta. El investigador proporcionó a la máquina 1.000 obras, de las cuales 300 eran escritos cuya autoría era segura de Lope de Vega, mientras que las 700 restantes eran de otros escritores. Cuando pidió a la IA que las identificara, su tasa de acierto fue superior al 99%. De hecho, asegura que nunca, con las comprobaciones posteriores, han tenido que contradecir el veredicto de la inteligencia artificial.
Anabel Arias (IA Ciudadana): "El reconocimiento biométrico en espacios públicos puede ampliar racismo y pobreza"
Ver más
Además de La francesa Laura, Cuéllar y Gil han conseguido confirmar o cambiar la autoría de varias obras del Siglo de Oro. Una de ellas es la archiconocida comedia El burlador de Sevilla, donde se da origen al mito del Don Juan, y que tradicionalmente se había atribuido a Tirso de Molina. Los estudiosos han confirmado que la obra no fue escrita por el religioso madrileño, sino por Andrés de Claramonte, el cual, según Cuéllar, era un dramaturgo muy desconocido, pero que gracias a estas nuevas atribuciones se está erigiendo como uno de los autores más importantes del Siglo de Oro. Otra obra interesante es La monja alférez, un texto muy poco habitual para la época, donde su protagonista es una religiosa que se escapa del convento, se disfraza de hombre y acaba dirigiendo los Ejércitos españoles en América. El autor de este texto se pensaba que era Juan Pérez de Montalbán, pero gracias a la inteligencia artificial, ahora sabemos que su verdadero padre fue el novohispano Juan Ruiz de Alarcón
La pregunta ahora es saber cuánto de potente puede ser una herramienta que mejora año a año y que se presume decisiva para reducir significativamente el número de anónimos y de atribuciones erróneas de nuestra literatura. De hecho, los investigadores están trabajando para que la IA pueda, además de identificar el estilo, aprender cómo era la caligrafía de los escritores y así, poder por medio de su letra, identificar las obras que aún no sabemos que escribieron. “Si la IA pudiera detectar la caligrafía de Lope de Vega, podríamos lanzar a la máquina por todos los documentos de la Biblioteca Nacional y quizás, entre todos ellos, también salga algo de Lope que no tuviéramos controlado”, explica Cuéllar.
Pese a ese potencial, hay barreras que aún son insalvables para los investigadores. La IA necesita un gran volumen de textos para poder aprender el estilo de los autores y, aunque el teatro del Siglo de Oro es particularmente prolífico con miles de obras para investigar, hay otras épocas o estilos que tienen menos suerte. Es el caso del Lazarillo de Tormes, la obra anónima de la literatura española por antonomasia, cuya época no tiene textos suficientes en prosa para realizar las pruebas y que, si no sucede nada, su autoría continuará siendo un misterio durante mucho tiempo.