Ciencia y tecnología

Verdejo:"Con la crisis, los investigadores estamos a la expectativa"

Felisa Verdejo, coordinadora del proyecto MAVIR

Isabel Hernández de Diego | Lunes 26 de enero de 2009

Felisa Verdejo Maillo es directora del Departamento de Lenguajes y Sistemas Informáticos de la UNED y coordinadora del proyecto MAVIR que investiga la programación de ordenadores para que comprendan el lenguaje natural del ser humano. Esta investigadora y docente explicó a Madridiario cómo avanza la investigación para hacer caer las barreras del lenguaje entre el hombre y la máquina. Recientemente participó en el Foro sobre Tecnologías de la Información, organizado por la Fundación para el Conocimiento Madri+d, en cuyo marco se celebraron las III Jornadas MAVIR para divulgar estas tecnologías.



¿En qué estadio se encuentra actualmente la investigación en tecnologías de procesamiento del lenguaje natural? ¿Qué aplicaciones tiene en el día a día?
Actualmente ya hay una tecnología utilizable y que incorporan muchos productos de los que usamos todos los días. Por ejemplo, en los correctores ortográficos de los periódicos. También en los sistemas de atención al usuario, sobre todo de pregunta-respuesta, en empresas como Telefónica, bancos… Son lo que se llama asistentes virtuales, que permiten formular preguntas de una manera natural y gestionando esa pregunta, proporcionan una respuesta. Otros sistemas ayudan a profesionales, como a los traductores. Existen traductores absolutamente automáticos, que no tienen la calidad del traductor humano, pero sí pueden ayudar mucho en hacer una pre-traducción.

Tenemos sistemas de buscadores que tratan, o bien de reformular la consulta que ha hecho el usuario, o bien de integrar técnicas de lenguaje natural para hacer una interpretación precisa de lo que se pregunta. En estos campos hay tecnología del lenguaje natural que ya está incorporada en muchos productos de los que utilizamos todos los días.

¿En qué mejora el proceso de búsqueda en Internet la tecnología de reconocimiento de entidades?
La mejora en que, por ejemplo, el usuario introduzca en la búsqueda ‘Zapatero’ o ‘José Luis Rodríguez-Zapatero’ y el sistema identifique que se está refiriendo a la misma persona. Imagina que soy un periodista que trabajo en una agencia de prensa de una universidad y todos los días tengo que ver lo que se ha publicado acerca de esa universidad. Al rector de la universidad le pueden llamar ‘el rector de la UNED’, el ‘rector de la Universidad a Distancia’, ‘el profesor Gimeno’ y todo ello son referencias a la misma persona. Pues esta tecnología identifica todas las noticias que tienen que ver con la misma persona. Si yo quiero hacer un seguimiento de alerta de noticias para ver cómo se refleja la imagen del rector de la UNED en la prensa, un sistema de este tipo te facilita mucho la operación.

También puede ir mucho más allá, por ejemplo, haciendo un reconocimiento de entidades también con geolocalización. Tú por ejemplo puedes decir Madrid y a lo mejor hay seis o siete en todo el mundo. Entonces, si tienes una noticia sobre Madrid e introduces referencias geográficas añades más información que te permite encontrarla. Relacionas una determinada cadena lingüística con la entidad a la que te estás refiriendo.

¿Los grandes buscadores en qué nivel se encuentran en cuanto al reconocimiento del lenguaje natural del usuario?
En general, tienen todavía poca tecnología lingüística, aunque la van incorporando de una forma bastante rápida. Por ejemplo Google empezó con temas de traducción automática, relativamente hace poco tiempo. En su traducción hay siempre una caja interactiva en la que muestra la traducción que él cree.  Al principio era malísima, pero tienen un sistema que brinda al usuario la oportunidad proponer cómo lo traduciría. Recopilando esta información los usuarios están colaborando a mejorar el producto y se ve que ahora la traducción que ofrecen está cada vez mucho mejor.

En otros buscadores, como Exalead, el buscador base de ese proyecto que había de hacer un buscador europeo, sí hay un cierto procesamiento del lenguaje natural.  Por ejemplo, una de las cosas que hace es clasificar toda la información, no presentando simplemente una lista de URLs como en Google, sino categorizando, ofreciendo los resultados agrupados. Y luego para cada tipo de resultados te ofrece la posibilidad de expandir tu búsqueda y te sugieren términos relacionados. Hay buscadores españoles también con esta tecnología. El buscador de la empresa Bitext que se llama Natural Finder permite poner la pregunta directamente en lenguaje natural. Y hay otros productos especializados, como por ejemplo las webs que te recomiendan un producto a través de los consejos y comentarios de los usuarios. Muchas empresas están trabajando en productos que puedan aplicarse a las redes sociales para hacer análisis automáticos y dar más funcionalidad a las búsquedas…Otro campo en el que también empieza a aparecer es en el de los buscadores de imágenes y vídeos. Analizando la descripción y comentarios de las fotos se pueden mejorar las búsquedas.

¿Cómo funciona y en qué trabaja actualmente el consorcio MAVIR?
MAVIR es un proyecto financiado por la Comunidad de Madrid y consiste en un consorcio de grupos de investigación en el que participan el CSIC, la Universidad Autónoma, la Carlos III, la UPM, la Universidad Europea y la UNED que es coordinadora. Dentro del consorcio hemos creado una comunidad de empresas y otros grupos de investigación asociados que van participando en todas nuestras actividades. Estas son evidentemente de investigación, trabajando en la recuperación de información en un entorno multilingüe y multimedia, sistemas automáticos de procesamiento del lenguaje natural, temas de web semántica, clasificación de documentos, representación y extracción de información lingüística, comunicación científica  a través de la web. Se estudian también métodos automáticos para hacer un ranking y para determinar por ejemplo, la visibilidad de sitios académicos.

En los años que llevamos trabajando, y vamos a empezar el cuarto, una de las cosas que consideramos muy importantes es la diseminación y transferencia de tecnología, para la que celebramos las jornadas MAVIR... El consorcio tiene una dimensión importante de formación con un programa de postgrado y seminarios y tenemos un portal MAVIR donde ponemos a disposición de empresas y entidades investigadoras todos nuestros resultados. Además creamos un corpus de material que sirve de entrenamiento para la gente que necesita refinar sus sistemas. Tratamos de hacer un círculo de valor añadido para poner a disposición de empresas e investigadores.

¿Qué otras líneas de investigación desarrollan a nivel europeo?
Tenemos tres proyectos europeos. En el primero las tecnologías del lenguaje se ponen al servicio de las agencias médicas acreditadas. Actualmente hay mucha información en la red sobre temas de salud. Hay una preocupación importante por certificar qué páginas contienen información documentada. Las agencias de acreditación –por ejemplo- la Web Médica Acreditada que es una de ellas, pueden disponer de un sistema de ayuda que hace una primera identificación de estas páginas atendiendo a una serie de indicadores, por ejemplo, las instituciones de referencia, los términos que están utilizando, etc.

Otro investiga en el dominio del patrimonio cultural. Imagina que eres un profesor y quieres que tus alumnos estudien a Van Gogh. A través de este buscador puedes hacer consultas temáticas especializadas, por ejemplo, del tema de las flores en Van Gogh y partiendo de ahí puedes encontrar qué críticas ha habido sobre el tema, qué imágenes hay, donde ha habido exposiciones relacionadas, con qué otros cuadros puede estar relacionados…lo más interesante es que es multilingüe y multimedia.

¿Existe un verdadero interés por parte de empresas e instituciones públicas en introducir este tipo de aplicaciones en sus webs?
Es un tema en el que se tiene cada vez más interés por que para instituciones como los museos la presencia en la red tiene cada vez más importancia y de hecho, los mejor posicionados a nivel internacional incorporan estas tecnologías. Aquí en España también hay preocupación por estos temas, sobre todo por la proyección multilingüe que es muy importante de cara al turismo. El acceso de la tecnología al patrimonio cultural es un tema prioritario para la comunidad europea.

¿En qué lugar se encuentra España en el desarrollo de este tipo de tecnologías?
Si miramos atrás, hemos avanzado mucho. Hace veinte años éramos muy pocos y testimoniales. En este momento tenemos presencia internacional, participamos en la organización de proyectos, eventos y competiciones internacionales en las que quedamos en buen lugar. Pero si nos comparamos con otros países nos pasa como en otros muchos campos, que no somos bastantes. Tendrían que crecer en masa crítica los investigadores, la investigación a nivel de empresas tendría que mejorar bastante, por que hay pocas empresas de carácter spin-off tecnológico.

La transferencia de tecnologías es uno de los aspectos pendientes. Sería muy importante una acción estratégica y un apoyo por parte del Ministerio en este tema, por que es importante desde el punto de vista tecnológico, de la innovación, para el fomento del español en la red… sobre todo ahora que hay necesidad de innovación para que mejore nuestra economía. La crisis ha afectado a los fondos de investigación, hay programas que no se van a convocar y los investigadores estamos a la expectativa.