Para que la Inteligencia Artificial sea capaz de entender los contenidos de texto es necesario que el conocimiento esté representado de forma que sea legible por los ordenadores, esté consensuado, y sea reutilizable. Las ontologías, cuya definición más general de ontologías es el de la “especificación explícita y formal de una conceptualización compartida”, están formadas por una taxonomía relacional de conceptos y por un conjunto de axiomas o reglas de inferencia que proporcionan la vía para inferir este conocimiento por parte de la Inteligencia Artificial.
En las ontologías, los conceptos son expresados en una red terminológica que define sus atributos, cuyo alcance y comportamiento se establece por medio de reglas, permitiendo ésta deduzca, o por lo menos proponga, a qué clase o categoría puede pertenecer cada nuevo concepto que se ingresa. Esta conceptualización debe ser representada de una manera formal, legible y utilizable por los ordenadores.
Sin embargo, para lograr que las máquinas alcancen las funcionalidades de la Web Semántica, se necesitan lenguajes de marcado apropiados que representen el conocimiento de las ontologías. Mediante anotaciones RDF-RDFSchema se pueden representar algunas facetas sobre conceptos de un dominio y crear, mediante relaciones taxonómicas, una jerarquía de conceptos.
En el contexto de la Web Semántica las ontologías suponen una capa por encima de RDF y los esquemas RDF. No obstante, RDF(S) se coloca en el extremo de la mínima expresividad, porque fue concebido para ser aplicable a toda la variada gama de recursos de la web. Según Staab (2000), RDF(S) carece de capacidades para describir la semántica de conceptos y relaciones mas allá de aquella provista por los mecanismos de herencia. Esto lo convierte en un lenguaje muy débil, ya que RDF(S) proporciona sólo las instancias más básicas para el modelado de ontologías.
RDF(S) no fue concebido para ser una respuesta definitiva en la representación de conocimiento en un dominio particular, sino un núcleo susceptible de ser extendido (extensible core language). Por tanto, como expone Lydia Silva Muñoz, se necesitan todavía lenguajes de marcado basados en RDF con mayor expresividad y capacidad de razonamiento para representar los conocimientos que contienen las ontologías.
Niveles de anotación en RDF
Respecto a las tendencias de investigación sobre ontologías para la Web Semántica, se destaca el artículo de Aguado de Cea et al. titulado Primeras aproximaciones a la anotación lingüístico-ontológica de documentos de la Web Semántica: OntoTag. En éste se menciona el hecho que los investigadores en Inteligencia Artificial están buscando un nuevo modelo de anotación semántica de la web, pero que ignoran los estudios de la Lingüística de Corpus, sobre todo en los niveles distintos del semántico.
Además de presentar un conjunto de pautas, estándares y recomendaciones, la Lingüística de Corpus parte del criterio de capturabilidad, que postula que “el esquema de anotación debe contener los distintos niveles de análisis del texto”. Los niveles estratificados de análisis lingüístico que generan sus propios tipos de anotación son los siguientes:
- Anotación de lemas (lematización): supone acompañar cada token léxico con su lema, es decir, la palabra que uno buscaría realmente en un diccionario.
- Anotación morfosintáctica: la etiquetación POS (part-of-speech) o etiquetación gramatical es la anotación de la clase gramatical (por ejemplo, nombre, verbo, etc) de cada token léxico de un texto.
- Anotación sintáctica: añade la anotación de las relaciones sintácticas en un nivel superior. Las categorías morfosintácticas son determinadas, por ejemplo, mediante estructuras de frase o análisis de dependencias.
- Anotación semántica: se distinguen dos tipos principales, el primero parte de las relaciones semánticas entre elementos del texto; el segundo parte de las características semánticas de las palabras del texto, esencialmente la anotación de los significados de las palabras de una forma u otra. Para este segundo tipo, se proponen un conjunto de criterios de referencia para diseñar un sistema de anotación de corpus basado en campos semánticos.
La autora defiende la combinación de los modelos de anotación semántica de la Inteligencia Artificial con las anotaciones propuestas para cada nivel lingüístico por la Lingüística de Corpus para que así los ordenadores comprendan el texto contenido en una página de la Web Semántica.
Este mismo artículo muestra el proyecto ContentWeb, cuyo objetivo es presentar la complementariedad de las anotaciones lingüística y ontológica para la Web Semántica, para lo que se crea una plataforma basada en ontologías e integrada en WebODE (2003) que permite a los usuarios, por una parte, hacer consultas a aplicaciones de comercio electrónico usando lenguaje natural, y por otra, recuperar información de manera automática a partir de documentos web anotados con información ontológica y lingüística.
Para conseguir el segundo objetivo (elaboración de un modelo y entorno para la anotación híbrida de documentos web – OntoTag), la autora realizó una prueba mediante la anotación en los lenguajes XML y RDF(S) a partir de una muestra del corpus de ocio y espectáculos extraído de diversos portales de Internet dedicados a estos temas. La anotación en RDF(S) para los tres primeros niveles fue la siguiente:
- En el nivel morfosintáctico se da a cada palabra o elemento léxico un Universal Resource Identifier o URI. A cada conjunto de etiquetas se le asigna una clase distinta en el espacio de nombres.
- En el nivel sintáctico, a cada relación entre elementos morfosintácticos se le da un nuevo URI para que se pueda referenciar en relaciones de nivel más alto o por otros niveles del modelo de anotación.
- En el nivel semántico se anotan algunos componentes, ya establecidos en niveles inferiores, con referencias semánticas a los conceptos, atributos y relaciones determinados por la ontología (de dominio), implementada en el lenguaje DAML+OIL.
A pesar de tratarse de un modelo teórico bien desarrollado, el proyecto se ve sujeto, como comenta la autora, a las limitaciones impuestas por la tecnología actual, derivadas de la dificultad de delimitación y especificación de los procesos y del hecho que la anotación de un documento web en los diferentes niveles aumenta la complejidad del proceso de descarga.