lunes, 24 de abril de 2017

Palabras, palabras

'Semántica distribucional' es el pomposo nombre aplicado a un área de investigación que desde hace veinte años acapara prácticamente todas las publicaciones en el terreno de la lingüística. Para no haber conseguido nada en todo este tiempo, veinte años son muchos años, pero ello no impide que la teoría haya alcanzado unos niveles de complejidad desproporcionados. Y el proceso parece imparable.

No es difícil entender cómo se ha llegado a este punto. En los años 90, cuando Internet empezó a llegar a los usuarios no especializados, se hizo evidente que la futura Web no serviría de mucho sin una herramienta de búsqueda radicalmente nueva. Hasta entonces, Pepe podía llamar por teléfono a Lolita sólo si conseguía su número, o si conocía sus apellidos y consultaba el listín. En los casos dudosos la dirección de Lolita era una pista importante pero, a falta de un detective privado, Pepe no tenía manera de localizarla sabiendo sólo que era "aquella rubia alta que estudia biológicas y que el sábado pasado bebía daikiri en una discoteca de Ibiza".

La Web era cualitativamente distinta de la red telefónica. Muy pronto fue evidente que en pocos años se extendería por todo el planeta, y que ofrecería datos de cualquier tipo imaginable en todo tipo de formatos y soportes y en todos los idiomas conocidos. La pregunta inevitable era: ¿cómo estructurar tal avalancha de datos?

Antes de existir la Web, lo más parecido que conocíamos eran las bibliotecas. Para que los usuarios pudieran orientarse, el bibliotecario clasificaba los ejemplares en secciones o departamentos atendiendo a ciertos criterios, en ocasiones borrosos. ¿La Celestina es una obra de teatro o una novela? ¿Encajarán bien Corín Tellado y Finnegans Wake en una misma estantería? ¿Los ejemplares de autoayuda son libros de psicología o de humor? ¿Deberíamos poner juntos Das Kapital y Mein Kampf? ¿En qué momento empezó a ser un clásico La Montaña Mágica?

Desde luego, la estructura de las bibliotecas es más útil que la de un listín telefónico, pero aún insuficiente. En La Celestina, ya que hablamos de ella, hay una frase que exclama Calisto una noche ante la puerta de Melibea y que a mí me emocionó mucho cuando la leí. Recuerdo su contenido, pero no las palabras concretas. Ni siquiera recuerdo si el interlocutor de Calisto es Parmeno o Sempronio. Es de noche. Calisto quiere reunirse con su amada, pero la puerta de ella está cerrada y el criado así se lo hace ver. Entonces Calisto, encolerizado, exclama que un simple trozo de madera no puede ser un obstáculo para que su amor se consume. (En realidad la cosa es más sutil todavía porque, aunque nadie lo dice explícitamente, el verdadero problema no es la puerta, sino el padre de Melibea, que duerme en una de las habitaciones). Ahora explíqueme usted cómo localizo yo esa frase en una biblioteca sin necesidad de leerme el libro entero otra vez.

De hecho, ni siquiera en la Web conseguí localizarla hace algunos años. Tuve que leer de nuevo el libro -no hay mal que por bien no venga-, y fue así como descubrí que, en lugar de 'madera', Calisto había hablado de 'palo'. Hoy, varios años después de aquella búsqueda, he tardado mucho menos, pero aun así he necesitado leerme varias páginas del Acto XII hasta encontrar la frase (y averiguar, de paso, que el interlocutor de Calisto no es Parmeno ni Sempronio, sino la propia Melibea). El pasaje es el siguiente:

MELIBEA.-  Las puertas impiden nuestro gozo, las cuales yo maldigo y sus fuertes cerrojos, y mis flacas fuerzas, que ni tú estarías quejoso ni yo descontenta.

CALISTO.-  ¿Cómo, señora mía? ¿Y mandas que consienta a un palo impedir nuestro gozo? Nunca yo pensé que, demás de tu voluntad, lo pudiera cosa estorbar. ¡Oh molestas y enojosas puertas!, ruego a Dios que tal fuego os abrase como a mí da guerra, que con la tercia parte seríais en un punto quemadas.

Para localizar hoy estas frases no he necesitado consultar mi biblioteca, ni me he tenido que poner a hojear el libro sin saber por dónde empezar, y si hubiera recurrido a mi memoria habría fracasado estrepitosamente. Esta vez lo único que he necesitado ha sido un buscador. O, hablando en términos técnicos, un motor de búsqueda.

¿Cómo funciona un motor de búsqueda? En el caso de la frase de Calisto, no es difícil imaginarlo. En respuesta a las palabras "calisto melibea noche puerta", la Biblioteca Virtual Miguel de Cervantes, que ha sido el primer resultado de mi indagación, me ha permitido acceder a un texto que contenía 8 veces la palabra 'noche', 12 veces 'puerta', 43 veces 'Calisto' y 31 veces 'Melibea'. No creo que haya otro documento en el planeta Tierra que contenga esas cuatro palabras con tal generosidad. Así pues, el único mérito del buscador ha sido, en este caso, la rapidez de la respuesta.

Sin embargo, si sustituyo 'puerta' por 'madera' el Acto XII desaparece de los resultados, que me remiten en cambio a los Actos XIV, VI, VII y IX. Aparentemente, el buscador desconoce algo para nosotros tan elemental como la relación entre el palo y la madera. Sin embargo, si pregunto sólo "palo madera", ese mismo buscador me ofrece diez millones de resultados. Lo que sucede, pues, no es que el buscador desconozca esa relación: sabe que existe, pero no lo que significa. Dicho de otro modo, los motores de búsqueda saben cuándo y cuánto usamos las palabras, pero no cómo ni por qué.

Tal vez estoy equivocado al hacer una afirmación así, pero el caso es que hasta la fecha nadie, que yo sepa, ha emprendido experimento alguno para demostrarla o refutarla de una vez por todas. ¿Cómo es posible eso?, se preguntará el cándido lector.

Se me ocurren dos respuestas, que en realidad son la misma: una ausencia palmaria de espíritu científico, compensada con creces por las ventajas de ser funcionario. Dame pan y dime tonto. Hubo un tiempo en que los científicos eran, simplemente, personas que se hacían preguntas y no se conformaban con cualquier respuesta, con independencia de que una universidad los acogiera o no en su seno. Lo que realmente contaba era la validez y solidez de sus argumentos. Es cierto, muchos de ellos tropezaron también con dificultades, y algunos tardaron incluso siglos en ser reconocidos pero, en lingüística al menos, el mundo académico actual es una fortaleza inexpugnable. Y subsidiada.

De modo que, deslumbrados por la posibilidad de juguetear con el ingente acervo de palabras que les ha empezado a ofrecer la tecnología digital, los burócratas/investigadores han aceptado sin discusión que la proximidad entre las palabras de un texto encierra el secreto de su significado. Así que, para descubrir ese secreto, lo único que hay que hacer es acumular una cantidad enorme de textos, convertirlos en vectores (en realidad, matrices o tensores), reducir su dimensión para hacerlos manejables y representar los resultados en forma de enigmáticas superficies o volúmenes, o tablas estadísticas.

Naturalmente, y pese al aspecto impresionante de tales resultados, nadie ha conseguido realmente mucho más que constatar que el burro y la serpiente pertenecen al reino animal, o que perder el tranvía tiene una cierta relación con llegar tarde al trabajo.

¿Estoy siendo demasiado sarcástico? Tal vez, pero llevo muchos años pensando en todas esas cosas, y todavía no he conseguido que nadie acuse recibo, no ya de mis respuestas, sino simplemente de mis preguntas. Yo creía que la ciencia era otra cosa, lo confieso.

¿Qué tipo de preguntas? Por ejemplo, si la proximidad entre palabras encierra el secreto de su significado ¿por qué las figuras que construimos durante una partida de dominó no tienen ningún significado? Dicho de otro modo, si reuniéramos un millón de configuraciones resultantes de otras tantas partidas de dominó y les aplicáramos un modelo de semántica distribucional, ¿alguien esperaría obtener algún mapa de significados mínimamente aceptable?

Otro ejemplo: en un artículo de los años 50 que es ya un clásico en ingeniería de la información, Claude E. Shannon explica cómo construir frases artificiales basándose no en el significado de las palabras, sino simplemente en la frecuencia con que escribimos unas a continuación de otras. El resultado es algo así como trocear tres mil telegramas y construir después un mensaje juntando unos cuantos trozos escogidos al azar. ¿Alguien esperaría encontrar algún significado o cosa similar después de procesar estadísticamente un millón de frases de ese tipo? Y, sin embargo, bastaría con llevar a cabo cualquiera de esos dos experimentos para refutar (o, cosa que dudo, validar) las bases teóricas de la semántica distribucional.

De hecho, si los delirios de la semántica distribucional tuvieran algún fundamento el manuscrito de Voynich habría sido ya descifrado hace mucho tiempo. Wilfrid Woynich, un librero polaco con un pasado revolucionario y una mente un tanto fantasiosa, compró a finales del siglo XIX un curioso manuscrito a un miembro de la orden jesuita, cuyas propiedades estaban siendo confiscadas por el nuevo Estado italiano. El manuscrito está escrito en un idioma hasta ahora indescifrable, contra el que se han estrellado algunos de los más brillantes expertos mundiales en criptografía.

Sus dos precedentes más conocidos fueron la piedra de Rosetta, una roca en la que pueden leerse tres versiones distintas de un edicto egipcio contemporáneo de Ptolomeo V, y lineal B, un sistema silábico de escritura micénica hablado en el siglo XV antes de nuestra era. Ambas lenguas fueron descifradas -tras ímprobos esfuerzos- gracias a los nombres propios que los investigadores consiguieron identificar en ellas, pero el manuscrito de Voynich no contiene ninguna referencia reconocible, y los estudiosos no han conseguido ponerse de acuerdo ni en una sola de las especies botánicas dibujadas en sus páginas. Sería el material perfecto para que un semántico distribucional se cubriera de gloria. Pues nada.

En los últimos tiempos, algunos investigadores han empezado a abordar la semántica distribucional desde una perspectiva más sensata. En lugar de buscar significados más o menos esotéricos en las estadísticas, hacen lo que cualquier persona con sentido común haría en su lugar: recurrir a referentes externos para calibrar los resultados. Es decir, a estructuras de conceptos lo más objetivas posible, externas al material con el que experimentan.

Inevitablemente -en mi opinión-, la única estructura de conceptos que terminará validando los experimentos será un modelo que explique correctamente el intrincado universo de la semántica. Para entender lo que quiero decir, imaginemos que un astrofísico provisto de un telescopio reúne un millón de fotografías del sistema solar. ¿Conseguirá deducir la ley de la gravitación universal procesando estadísticamente las fotografías? Es dudoso, pero lo que es indiscutible es que, si averiguamos la expresión matemática de esa ley, como hizo Newton, todas las fotografías del hacendoso astrofísico concordarán perfectamente con la fórmula de Newton.

Y lo que es más bochornoso: serán innecesarias.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

No hay comentarios:

 
Turbo Tagger