Acessibilidade / Reportar erro

Marcado semántico enriquecido para programas de posgrado en Latinoamérica

Marcação semântica enriquecida para programas de pós-graduação na América Latina

Enriched semantic markup for postgraduate programs in Latin America

RESUMEN

El marcado semántico enriquecido proporciona significado a los contenidos y permite interoperabilidad entre las máquinas, favoreciendo la visualización de la información para los usuarios, como el uso de los rich snippets, que amplían la información de los resultados ofrecidos por motores de búsqueda. El objetivo de este trabajo fue analizar y enriquecer semánticamente los contenidos de programas de posgrados entregados a los usuarios, para que sean interoperables y contribuir a la comunidad1 1 Schema.org Comunity Group encargada del desarrollo y mantenimiento de estos vocabularios, Universidades, diseñadores y desarrolladores de sitios web, etc. mediante la reutilización y propuesta de extensión de una nueva entidad. La metodología utilizada fue descriptiva mediante la compilación y sistematización de información cualitativa y cuantitativa, análisis y caracterización de los contenidos que entregan las páginas Web en estudio y del vocabulario de Schema.org. Como resultado se presenta una propuesta de marcado de contenidos enriquecido semánticamente para los programas de posgrado ofrecidos por universidades latinoamericanas, en una nueva entidad basada en el vocabulario de Schema.org, llamada ProgramaPosgrado. Concluyéndose que el marcado semántico enriquecido mediante el uso de rich snippets es una aplicación real de la Web Semántica que agrega visibilidad e interoperabilidad a los contenidos Web, verificándose que, Schema.org es un vocabulario que puede ser extendido para ser usado en diferentes ámbitos.

Palabras clave:
Marcado semántico; Schema.org; Rich snippets; Posgrados

RESUMO

A marcação semântica enriquecida fornece significado aos conteúdos e permite a interoperabilidade entre as máquinas, incentivando a visualização da informação para os usuários, tais como o uso dos rich snippets, que expandem as informações dos resultados fornecidos pelos motores de busca. Assim, o objetivo do trabalho foi analisar e enriquecer semanticamente os conteúdos dos programas de pós-graduação entregues aos usuários, para que sejam interoperáveis ​​e contribuir para a comunidade mediante o reuso e a proposta de extensão de uma nova entidade. A metodologia utilizada foi descritiva com base na compilação e sistematização de informações qualitativas e quantitativas, análise e caracterização dos conteúdos que atualmente contêm as páginas web em estudo e o vocabulário do Schema.org. Como resultado se apresenta uma proposta de marcação de conteúdos semanticamente enriquecida para os programas de pós-graduação oferecidos por algumas universidades latino-americanas contida em uma nova entidade nomeada ProgramaPosgrado, baseada no vocabulário do Schema.org. Concluiu-se que o enriquecido usando rich snippets é uma aplicação real da Web Semântica que adiciona visibilidade e interoperabilidade aos conteúdos da Web, verificando-se que o Schema.org é um vocabulário que pode ser estendido para uso em diferentes campos.

Palavras-chave:
Marcação semântica; Schema.org; Rich snippets; Pós-graduação

ABSTRACT

Enriched semantic markup provides meaning to content and allows interoperability between machines, encouraging the visualization of information for users, such as the use of rich snippets, which expand the information provided by search engines. The objective was to analyze and enrich semantically the contents of the graduate programs delivered to the users, so that they are interoperable and contribute to the community through the reuse and proposal of extension of a new entity. The methodology used was descriptive based on the compilation and systematization of qualitative and quantitative information, analysis and characterization of the contents that currently contain the studied web pages and the Schema.org vocabulary. As result, a content semantically enriched markup proposal is presented for the postgraduate programs offered by some Latin American universities contained in a new entity named ProgramaPosgrado, based on the vocabulary of Schema.org. It was concluded that enriched semantic markup using rich snippets is a true Semantic Web application that adds visibility and interoperability to Web content, verifying that Schema.org is a vocabulary that can be extended for use in different fields.

Keywords:
Semantic markup; Schema.org; Rich snippets; Postgraduate

1 Introducción

Las entidades del vocabulario Schema.org según la documentación de su modelo de datos fueron creadas pensando principalmente en el mundo empresarial, teniendo este vocabulario un carácter dinámico y creciente, se hace necesario reflexionar acerca de la relevancia y beneficios de contar con un conjunto de esquemas para el marcado de datos estructurados de páginas Web para otros ámbitos como, por ejemplo, el de las universidades.

Con el marcado de los datos se busca que, los contenidos sean enriquecidos semánticamente y se amplié la información ofrecida en los resultados de los motores de busca con contenidos más completos para los usuarios que ofrezcan más informaciones. Adicionalmente, el marcado semántico favorece la interoperabilidad semántica, la recuperación de la información y contribuye a comunidades como los responsables del desarrollo y mantenimiento de estos vocabularios (Schema.org Comunity Group), Universidades, diseñadores y desarrolladores de sitios web, motores de búsqueda, entre otros.

Vale destacar que, la Web semántica proporciona significado a los contenidos permitiendo a las máquinas recuperar la información, específicamente el marcado semántico enriquecido por medio de la adición de etiquetas semánticas y/o estructuración de los contenidos. Con esto, se aumenta la visibilidad de los sitios Web al proporcionar a los buscadores pautas de clasificación mediante la indexación de los sitios, conllevando a una presentación de resultados con más información durante el proceso de búsqueda de los usuarios y facilitando para ellos determinar sí los resultados retornados guardan relación con su consulta a partir de las descripciones (snippets) proporcionadas por el motor de búsqueda.

Por otra parte, dado que existe una amplia oferta de programas de formación pos-gradual a nivel de especializaciones, maestrías y doctorados principalmente, que convierten a las páginas Web de las universidades en el principal medio al cual acuden los interesados en esta oferta, es imprescindible estudiar cómo puede ser marcada semánticamente la información de los programas de posgrado para que sea más visible y se obtengan otras ventajas dadas por el etiquetado semántico enriquecido que serán discutidas más adelante. Por todo esto, el objetivo de este trabajo es analizar y enriquecer semánticamente los contenidos de programas de posgrados entregados a los usuarios, a partir del análisis y caracterización de la información que actualmente contienen las páginas Web de algunos programas de posgrado en universidades latinoamericanas y del vocabulario de Schema.org., sin contemplar la implementación en una herramienta de programación.

La metodología utilizada para el desarrollo de esta investigación fue descriptiva a partir de una revisión documental de temas relacionados a marcado de contenidos semántico, enriquecimiento semántico mediante el uso de rich snippets, documentación del vocabulario Schema.org e su mecanismo de extensión, e programas de posgrado de universidades latinoamericanas. También fue compilada y sistematizada información cualitativa y cuantitativa siguiendo el método de trabajo para etiquetado de contenidos Web, que consta de un conjunto de pasos que permitió proponer un esquema de marcado semántico enriquecido de contenidos Web de los programas de posgrado de las universidades latinoamericanas analizadas, la recolección de la información fue realizada a través de visitas a páginas web, artículos científicos del área y documentos públicos.

La propuesta de este trabajo es a partir del mecanismo de extensión del vocabulario Schema.org, construir una entidad (esquema) que contenga las informaciones de los programas de posgrados de las universidades latinoamericanas que pueden ser marcadas semánticamente y enriquecidas por medio de la utilización de rich snippets, lo cual favorecerá la interoperabilidad semántica en la Web mediante la reutilización del esquema propuesto, que a su vez permitirá a los usuarios durante el proceso de recuperación, obtener resultados más completos y con elementos de visualización que tornaran los contenidos más atractivos en los motores de búsqueda.

A continuación se presentan los principales conceptos en los cuales se enmarca este trabajo, comenzando por las definiciones dentro del contexto del marcado semántico y Schema.org, con sus principales ventajas, los tipos de formatos y la metodología para la implementación del marcado semántico enriquecido o rich snippet. Posteriormente se contextualizan y revisan los elementos asociados a los contenidos de los programas de posgrado que ofrecen las universidades latinoamericanas seleccionadas susceptibles de ser marcados semánticamente y enriquecidos mediante el uso de rich snippets, para luego proponer un esquema de marcación semántica enriquecida de estos contenidos y al final se presentan las conclusiones derivadas del trabajo realizado.

2 El contexto del marcado semántico

Para entender a qué se refiere y cuál es la importancia del marcado semántico, es necesario definir la Web Semántica como:

[…] una extensión de la actual web en la que a la información disponible se le otorga un significado bien definido que permita a los ordenadores y las personas trabajar en cooperación. Está basada en la idea de proporcionar en la web datos definidos y enlazados, permitiendo que aplicaciones heterogéneas localicen, integren, razonen y reutilicen la información presente en la web. (BERNERS-LEE; HENDLER; LASILLA, 2001BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American, v. 284, n. 5, p. 28-37, 2001., p. 34, traducción propia).

De esta definición se puede subrayar que la Web Semántica no es una nueva Web, sí en cambio un modelo en el cual los datos e información disponibles tienen un significado definido no solo para las personas sino para las máquinas, permitiendo con esto integración y reutilización, es decir, interoperabilidad. Donde “la Web Semántica define nuevas capas superpuestas para que la interoperabilidad de la información sea a nivel sintáctico, estructural y semántico” (PASTOR-SANCHEZ, 2013PASTOR-SANCHEZ, J. A. Marcado semántico: tecnologías y aplicación para la representación de sistemas de organización del conocimiento en el contexto Linked Open Data. Scire, v. 19, n. 2, p. 55-68, 2013., p. 62).

El “significado bien definido” (semántica) que se pretende dar a los datos se refiere a la necesidad de marcar la información indicando a que se refiere y que sea entendible el significado de los contenidos por las máquinas y así sea fácil su localización e interpretación. Esta acción de “marcar” se realiza al contenido dentro del código y es visible para las máquinas sin representar cambios para los usuarios.

2.1 Marcado semántico

Técnicamente puede decirse que el marcado semántico consiste en añadir etiquetas semánticas a los contenidos, es decir, etiquetas o tags especiales que definen significados y permiten que las máquinas extraigan información.

De manera más completa y formal el marcado semántico de contenidos “se trata de añadir determinados atributos (de un modo transparente al lector) al marcado (X)HTML, con la finalidad de identificar tanto objetos como propiedades de los mismos, así como las relaciones entre ellos.” (PASTOR-SANCHEZ; ORDUNA-MALEA; SAORIN, 2013PASTOR-SANCHEZ, J. A.; ORDUNA-MALEA, E.; SAORIN, T. Automatic semantic markup in content management systems: integration and quantification. El profesional de la información, v. 22, n. 5, p. 381-391, 2013., p. 383).

Algunos autores afirman que aunque el uso del marcado semántico no siempre agrega semántica sino estructuración dependiendo de la etiqueta, incrementa la visibilidad de un sitio Web porque los buscadores sabrán cómo clasificar su contenido al ser indexado y así mejorar su posicionamiento web2 2 Posicionamiento web: Conjunto de técnicas que mejoran la visibilidad de una página web en los buscadores, logrando que el sitio aparezca en los primeros lugares de los resultados de búsqueda. . Además el marcado semántico:

[…] puede incorporar información acerca de la importancia de los contenidos de los diferentes perfiles de usuario. Otro uso importante […] es la descripción clara de las secciones de un contenido; comprender esta especificación permitirá que la información pueda ser accesible para usuarios con capacidades diferentes. (PIEDRA et al., 2012PIEDRA, N. et al. Estado del arte sobre tecnologías de la Web Social y Web Semántica para la mejora de accesibilidad en educación superior. In: CONGRESO INTERNACIONAL SOBRE APLICACIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIONES AVANZADAS, 4., 2012. Ecuador. Actas… 2012. p. 77-91., p. 85).

El acceso a la información por parte de los usuarios como otro foco resaltado por el autor, puede ser dado mediante el uso del marcado semántico, es decir, que además de estructurar los contenidos para que sean entendibles por las máquinas, el marcado semántico establece un vínculo entre los usuarios no humanos (máquinas) y humanos.

En este contexto, para Pastor-Sanchez (2013)PASTOR-SANCHEZ, J. A. Marcado semántico: tecnologías y aplicación para la representación de sistemas de organización del conocimiento en el contexto Linked Open Data. Scire, v. 19, n. 2, p. 55-68, 2013., el marcado semántico también propone una relación en lo que él denomina dos sentidos, siendo estos, el que conlleva a la estructuración y marcado de contenidos para la interoperabilidad semántica de la información que la torna reutilizable y el segundo en camino inverso, como la reutilización de conjuntos de datos y aplicación de servicios para enriquecimiento semántico de los contenidos. De esta forma,

El primero de ellos nos muestra la tierra prometida de los contenidos web totalmente reutilizables y procesables de forma automática, para extraer su significado exacto utilizando servicios y aplicaciones como, por ejemplo, los motores de búsqueda. El segundo rompe con el tradicional aislamiento de los conjuntos de datos y por ende con la separación entre la Web de las personas y la Web de las

máquinas

. (PASTOR-SANCHEZ, 2013PASTOR-SANCHEZ, J. A. Marcado semántico: tecnologías y aplicación para la representación de sistemas de organización del conocimiento en el contexto Linked Open Data. Scire, v. 19, n. 2, p. 55-68, 2013., p. 56).

Para realizar el marcado semántico de contenidos Web, existen tres formatos principales y ampliamente usados: los microdatos, los microformatos y las extensiones RDF.

  • a) Microdatos: son porciones de código HTML (o XHTML) que permiten estructurar información aprovechando los atributos id o class empleadas por algunas etiquetas del HTML.

  • b) Microformatos: son una de las principales aportaciones del HTML5. Trabajan agrupando los ítems con propiedades nombre-valor. Emplea el atributo itemscope dentro del elemento div para marcar un paquete de datos que luego serán descritos con el atributo itemprop.

  • c) RDFa: es un conjunto de extensiones XHTML que permiten introducir semántica en este tipo de documentos.

Estas etiquetas estandarizadas se utilizan para marcar los contenidos de una web, de tal forma que será más sencillo para un buscador rastrearlos, leerlos y clasificarlos. Así, los microformatos, microdatos y RDFa representan un modelo de clasificación de contenidos, al tiempo que una sintaxis de programación (SENSO, 2014SENSO, J. A. Microdatos, microformatos y RDFa: parecen lo mismo, pero no. Tecnologías web para servicios de información. 2014. Disponible en: <http://tecnologiasweb.jsenso.es/microdatos-microformatos-y-rdfa-parecen-lo-mismo-pero/>. Acceso en: 10 jun.2018.
http://tecnologiasweb.jsenso.es/microdat...
).

Según Montenegro et al. (2014)MONTENEGRO, L.; OCHOA, V.; ESPINOZA-MEJÍA, M. Mejorando la visibilidad de sitios Web usando tecnología semántica. Maskana, v. 65, n. Supl, 2014., los microdatos tienen cierta ventaja en cuanto al posicionamiento en las páginas de resultados de un buscador sobre los otros formatos dado que está basado en el vocabulario Schema.org que es compatible con los principales motores de búsqueda, aclarando que dicho vocabulario también soporta RDFa, y es más amplio y detallado que el de los microformatos.

La elección de un formato no condiciona el proceso realizado para establecer los contenidos que serán marcados semánticamente, sin embargo, deberán ser revisadas las limitaciones y especificaciones de cada uno de los formatos durante la implementación.

2.2 Schema.org

A través de una comunidad de colaboradores Schema.org se encarga de crear, mantener y promover esquemas para datos estructurados (datos específicos etiquetados) en Internet, ofreciendo una colección de vocabularios (esquemas de metadatos) compartidos que pueden utilizarse para marcar páginas de manera que puedan ser comprendidos por los principales buscadores: Google, Microsoft, Yandex y Yahoo!. Estos vocabularios cubren entidades, relaciones entre entidades y acciones, y pueden ser extendidos fácilmente por medio de su documentación dado su modelo de extensión.

Para García-Marco (2013, p. 169)GARCÍA-MARCO, F. J. Schema. org: la catalogación revisitada. Anuario ThinkEPI, n. 1, p. 169-172, 2013., Schema.org:

[…] supone una iniciativa y un avance importante en dos direcciones: por un lado, la incorporación de la world wide web a la normalidad en el ámbito de la recuperación de información, en la que la categorización en campos y el control del vocabulario se usan para mejorar la llamada o exhaustividad y la precisión […]; y, por otro, la democratización de la web semántica o, si se quiere, el lanzamiento de una web semántica fácilmente incorporable por cualquier webmaster, que ahora puede ser casi cualquier persona con acceso a internet.

Así, por medio de Schema.org pueden ser estructurados los contenidos de las páginas Web siguiendo esquemas comunes basados en la categorización en campos y el control de vocabularios que favorece la recuperación de la información. Adicionalmente, para el autor citado, los esquemas en Schema.org son considerados microformatos de catalogación que se integran en la Web Semántica de manera fácil por los webmasters y son soportados por los buscadores. Cabe resaltar, que Schema.org es una iniciativa que surgió en el campo de los motores de búsqueda, es decir, en la recuperación de la información.

El vocabulario de Schema.org puede ser usado con diferentes codificaciones, incluidas RDFa, Microdata y JSON-LD y se estima que más de 10 millones de sitios usan Schema.org para marcar sus páginas web y mensajes de correo electrónico. (SCHEMA.ORG, 2017SCHEMA.ORG. Home - schema.org. 2017. Disponible en: <https://schema.org/>. Acceso en: 26 jun. 2018.).

Con respecto a cada esquema, este es definido como un conjunto de “tipos” que tiene asociadas las propiedades con las que se puede codificar el contenido de las páginas web, agrupando estas propiedades en entidades y definiéndolas en dos jerarquías: una para los valores de propiedad de texto y otra para las “cosas” o Thing3 3 Principal jerarquía Schema.org: una colección de tipos (o "clases"), cada uno de los cuales tiene uno o más tipos de padres. que ellos describen.

Los tipos de datos que contiene una propiedad pueden ser: un valor, una enumeración o una entidad. Los tipos de valores están definidos dentro del DataType (Boolean, Date, DateTime, Number, Text, Time, etc.) y las enumeraciones son listas fijas de valores autorizados que en algunos casos contienen subcategorías (DUESA, 2015DUESA, A. S. Schema. org,: la mejora de la visualización de los resultados en los buscadores y mucho más. BiD: Textos universitaris de biblioteconomia i documentación, n. 34, p. 12, 2015. Disponible en: <http://bid.ub.edu/es/34/sule.htm>. Acceso en: 23 jun. 2018.
http://bid.ub.edu/es/34/sule.htm...
).

La Figura 1, presenta un ejemplo de algunas de las propiedades del esquema (entidad) EducationalOrganization.

Figura 1
Propiedades del esquema EducationalOrganization.

El vocabulario básico principal de Schema.org se compone de 598 tipos, 862 propiedades, y 114 valores de enumeración, y se encuentra en constante crecimiento debido a que cuenta con un mecanismo definido de extensión (SCHEMA.ORG, 2017SCHEMA.ORG. Home - schema.org. 2017. Disponible en: <https://schema.org/>. Acceso en: 26 jun. 2018.).

Al analizar el metamodelo representado en UML de Schema.org descrito por Tort y Olivé (2015)TORT, A.; OLIVÉ, A. An approach to website schema.org design. Data & Knowledge Engineering, v. 99, p. 3-16, 2015., se encuentra que para la creación de nuevos objetos (ObjectType), dada la relación de jerarquía o herencia existente, estos nuevos objetos pueden ser de tipo: enumeración, tipo de dato o entidad, donde cada uno (ObjectType) tiene propiedades o atributos (property) que los describen.

Vale destacar que, antes de la aparición de Schema.org ya existían vocabularios que permitían dar valor semántico al contenido de las páginas web y algunos todavía son utilizados, entre ellos se encuentran: DataVocabulary.org (http://www.datavocabulary.org/) y Microformats (http://microformats.org/) para marcar el contenido de las páginas web.

2.3 Rich snippets

Recapitulando, el marcado semántico permite proporcionar informaciones adicionales a los buscadores para que entiendan el significado de los contenidos. Además, su uso puede ayudar a generar rich snippets en las páginas de resultados de los buscadores. Para entender a qué se refiere esto, definiremos inicialmente lo que es un snippet como: una pequeña descripción que muestran los buscadores para cada uno de los elementos resultado de una consulta.

Un snippet generalmente presenta información relacionada con el título de la página que contiene el resultado de la búsqueda, url, breve descripción del contenido y en algunos casos otras informaciones.

A partir de la definición anterior entonces el término rich snippet es una descripción enriquecida, es decir, que contiene más información para un usuario final que un snippet porque presenta datos más específicos dependiendo del tipo de contenido, la cual puede ser según cada caso: “[…] nombre del autor de la página; fotografía de este autor; fecha de publicación; valoraciones de los usuarios; tiempo de cocción en el caso de recetas,[…]” (ROVIRA; CODINA; MONISTROL, 2013ROVIRA, C.; CODINA, L.; MONISTROL, R. Rich snippets: información semántica para la mejora de la identidad digital y el SEO. El profesional de la información, v. 22, n. 6, p. 554-561, 2013. Disponible en: <http://dx.doi.org/10.3145/epi.2013.nov.08>. Acceso en: 5 jul. 2015., p. 555-556).

Entre los tipos de rich snippets que existen actualmente y ejemplificados por Zoilo Andrés Domínguez (2011)DOMINGUEZ, Z. Rich snippets para mejorar el SEO y las visitas a tu web. ZoiSEO.es. 2011. Disponible en: <http://www.zoiseo.es/31/08/2011/11-rich-snippets-mejorar-seo-visitas/>. Acceso en: 13 mar. 2016.
http://www.zoiseo.es/31/08/2011/11-rich-...
, se encuentran: (a)Opinión, (b)Noticias, (c)Vídeo, (d)Social, (e)Eventos, (f)Recetas, (g)Breadcumbs, (h)Música, (i)Ubicación mediante mapas, (j)Artículos en profundidad, (k)Perfil de Contacto, (l)Tabla de datos, (m)Autores, (n)Software, (o)Rich snippet con botón +1 activado y (p)Snippet tradicional optimizado para el SEO. A continuación, en el Cuadro 1 se presenta la visualización de estos tipos de rich snippets:

Cuadro 1
Tipos de Rich Snippets

Para cada uno de estos tipos de contenido presentados en el cuadro 1, existen atributos específicos que permiten indicar a Google o cualquier otro buscador cuáles son las principales características de ese contenido y durante su presentación, “enriquecer” el snippet que el usuario visualiza.

Un ejemplo de snippets y rich snippets pueden observarse en la Figura 2, en la cual se observa un rich snippet del tipo breadcrum y otros resultados como simples snippets. Los resultados fueron obtenidos en el motor de búsqueda Google con los términos: doctoral program library and information science.

Figura 2
Ejemplo de snippets y rich snippet

El tipo de rich snippet breadcrumb señalado en la figura 2, es usado para facilitar la navegación sobre websites (UL MUSTAFA; NAWAZ; LALI, 2015UL MUSTAFA, R.; NAWAZ, M. S.; LALI, M. I. Search engine optimization techniques to get high score in SERP’s using recommended guidelines. Science International, v. 27, n. 6, p. 5079‑5086, 2015. ), dado que en una página indican la posición de la página dentro de la jerarquía del sitio.

Después de realizada una revisión de diversas fuentes (blogs, artículos, libros y páginas web principalmente) se encuentran entre los beneficios y ventajas de la utilización de marcado con Rich Snippets: mayor visibilidad, listas de resultados con mayor atracción de tráfico donde los usuarios tienden a hacer clic más veces, una relación directa en el posicionamiento web, un claro ejemplo de la Web Semántica real en la mejora de la identidad digital, mayor cantidad de información sobre un resultado en la vista ofrecida por el buscador, facilidad del ordenamiento y clasificación de los contenidos a los buscadores y finalmente las especificidades e información complementaria ampliada de los contenidos marcados permiten a los usuarios determinar si el resultado obtenido corresponde con su búsqueda, además de proporcionar fiabilidad.

3 Propuesta de marcado semántico enriquecido para contenidos de programas de posgrados

A partir de las ventajas y los diferentes tipos de marcado semántico enriquecido o rich snippets expuestos, además, considerando el carácter dinámico y creciente de las entidades definidas en el vocabulario Schema.org, las cuales según la documentación de su modelo de datos, fueron creadas pensando principalmente en el mundo empresarial, es importante reflexionar acerca de la relevancia y necesidad de contar con un conjunto de esquemas para el marcado de datos estructurados de contenidos de páginas web para otros ámbitos como el de las universidades, en este caso específicamente para los contenidos relacionados a los programas de posgrado ofrecidos por la universidades mediante sus páginas Web.

3.1 Método de trabajo

Se describe como método de trabajo utilizado para el desarrollo de esta propuesta, el proceso de implementación del marcado semántico enriquecido Web como el mismo conjunto de pasos usado para un etiquetado no enriquecido, los cuales según Pastor-Sanchez (2013, p. 57)PASTOR-SANCHEZ, J. A. Marcado semántico: tecnologías y aplicación para la representación de sistemas de organización del conocimiento en el contexto Linked Open Data. Scire, v. 19, n. 2, p. 55-68, 2013. son:

  • 1) Identificar el objeto a describir.

  • 2) Definir la taxonomía del objeto: persona, lugar, objeto de arte, tema, documento, etc.

  • 3) Identificar las características o propiedades del objeto descrito.

  • 4) Identificar posibles relaciones del objeto descrito con otros objetos.

  • 5) Seleccionar los esquemas de metadatos u ontologías adecuadas.

  • 6) Realizar el marcado semántico añadiendo los atributos (X)HTML necesarios.

En este trabajo serán desarrollados los cinco primeros pasos, es decir, el alcance está limitado hasta la etapa de Selección del esquema de metadatos y sus anteriores, las cuales permitirán a través del análisis, caracterización y diseño elaborar una propuesta del esquema de metadatos, dado que el paso 6 está asociado a la implementación del mismo y que esta puede ser desenvuelta en cualquier formato, no es de interés abordarla aquí.

3.2 Resultados

En esta sección serán descritos los resultados obtenidos a partir de la aplicación de cada uno de los pasos anteriormente definidos como método de trabajo, indicándose en cada paso los elementos que fueron considerados determinantes para la identificación y definición de lo proyectado en cada etapa.

Para el primer paso de identificación del objeto a describir , fueron considerados los elementos a seguir:

a) Tipos Schema.org más populares en Google Search Engine Results Page (SERP)

En la Figura 3, se observa que un 21% de los usos más populares de Schema.org, corresponde al tipo Offer (oferta), siendo los programas o cursos de posgrado parte del portafolio de servicios ofrecido por las universidades, pudiendo aprovecharse entonces algunas de las propiedades asociadas a este tipo de Schema.org para marcarlas semánticamente y construir el rich snippet de interés.

Figura 3
Tipos más populares del Schema.org en Google SERP

a) Posgrados: Una necesidad para el crecimiento profesional (UNIVERSIA, 2015UNIVERSIA. Postgrados: una necesidad para el crecimiento profesional. Noticias Universia Argentina. 2015. Disponible en:<http://noticias.universia.com.ar/estudiar-extranjero/noticia/2015/06/03/1126298/ postgrados-necesidad-crecimiento-profesional.html>. Acceso en: 20 jun. 2018.
http://noticias.universia.com.ar/estudia...
)

Esta afirmación, es decir, los posgrados como una necesidad para el crecimiento profesional, es la respuesta del 60% de los iberoamericanos de un total de 5.135 personas de 10 países (Argentina, Brasil, Chile, Colombia, España, México, Perú, Portugal, Puerto Rico y Uruguay) que participaron en la cuarta encuesta realizada por la Comunidad Laboral UniversiaTrabajando.com. Adicionalmente, en este estudio, Bertie Benegas Lynch, Director general de Universia Argentina señala con respecto a la idea de que la formación continua amplía las posibilidades profesionales que: “[…] muchas universidades aprovechan estas oportunidades mediante el posicionamiento de una gran variedad de ofertas para el mercado local y el de estudiantes extranjeros”.

Además, según el 56% de los encuestados, las páginas Web institucionales de las universidades son la fuente principal de búsqueda de posgrados, lo cual puede observarse en la Figura 4, donde son presentados de forma discriminada este valor por países.

Figura 4
Respuestas a la pregunta ¿Dónde buscarías información para elegir un posgrado?

Las secciones 3.2.1 y 3.2.2., permitieron determinar que el objeto a describir está asociado al contenido web de los Cursos o Programas de Posgrado de una universidad.

Continuando con el paso 2. Definir la taxonomía del objeto: persona, lugar, objeto de arte, tema, documento, etc. , para esta etapa, fueron revisados los sitios Web que contienen la información de posgrados de algunas universidades latinoamericanas, siendo seleccionadas las primeras diez universidades del QS Latin American University Rankings 2018 (QSTOPUNIVERSITIES, 2017QSTOPUNIVERSITIES. QS Latin American University Rankings 2018. Top Universities. 2017. Disponible en: <https://www.topuniversities.com/university-rankings/latin-american-university-rankings/2018>. Acceso en: 20 jun. 2018
https://www.topuniversities.com/universi...
), a continuación en la Tabla 1, se encuentran las universidades seleccionadas e información general relacionada a su posición en el ranking, ubicación (país), tipo de institución (pública o privada) y cantidad de estudiantes (total, extranjeros, de posgrado).

Tabla 1
Información General de universidades

En cada sitio Web de las universidades listadas, se navegó dentro de la página Web buscando la información de sus programas de posgrado, después fue seleccionado uno de estos programas de forma aleatoria. Con esto, se localizaron los contenidos que son presentados a los usuarios, en la Tabla 2 están listados los contenidos más relevantes encontrados y señalados con una x aquellos contenidos presentados en la página Web de cada programa seleccionado por universidad.

Tabla 2
Contenidos de los programas de Posgrado

Para llegar a la información que proporciona cada universidad de sus programas fue necesario en la mayoría de los casos visitar antes al menos otras tres páginas web de la misma universidad y en algunas de ellas acudir al buscador propio de programas con el cual cuenta el sitio institucional, esto indica que la información no se encuentra de manera directa a partir de la página principal de cada institución.

A partir de la tabulación de los datos de la Tabla 2, fueron marcados en negrilla aquellos en que se observa la mayor frecuencia, que corresponde a los datos de contacto (email, teléfono, dirección), objetivo del programa, líneas de investigación, nombre del coordinador y requisitos de admisión. Estos elementos serán propuestos como componentes de la taxonomía para el contenido semántico enriquecido de este trabajo, es decir, aquellos contenidos que presentaron mayor frecuencia. En la Figura 5 se muestra la taxonomía propuesta de Programa de Posgrado (Objeto a describir).

Figura 5
Taxonomía propuesta de un Programa de Posgrado

Para realizar los pasos: 3. Identificar las características o propiedades del objeto descrito e 4. Identificar posibles relaciones del objeto descrito con otros objetos, fueron tomados cada uno de los elementos identificados de la taxonomía del paso anterior y representados en un diagrama con sus respectivos atributos, relaciones y cardinalidad. La Figura 6 presenta el diagrama de atributos, relaciones y cardinalidad del objeto Programa de Posgrado, el cual se encuentra compuesto por el objetivo del programa (texto descriptivo), línea(s) de investigación (texto descriptivo), los requisitos de admisión (documento o página web), datos de contacto (con los atributos e-mail, teléfono y dirección) y coordinador (nombre de persona que puede o no contener los mismos atributos de datos de contacto).

Figura 6
Diagrama de atributos, relaciones y cardinalidad del objeto Programas de Posgrado.

En la misma Figura 6, es importante resaltar que un programa de posgrado generalmente tiene más de una línea de investigación (por ello la cardinalidad 1..n) y que el nombre del coordinador puede considerarse igualmente un dato de contacto, por cuanto se establece una relación entre estos los objetos coordinador y datos de contacto. Adicionalmente, se encontró en las páginas revisadas que los requisitos de admisión en algunos casos son un enlace y en otros un documento.

Continuando con la etapa 5. Seleccionar los esquemas de metadatos u ontologías adecuadas , los esquemas fueron definidos a partir de la revisión del vocabulario Schema.org, el cual permitió determinar los metadatos que describen las características y relaciones de los contenidos del objeto Programas de Posgrado seleccionados en los pasos anteriores y que fueron mostrados en la Figura 5 y Figura 6, los cuales hacen parte de la propuesta para ser marcados semánticamente. Para esto, se debe tener en cuenta que es necesario adicionar una subetapa para el enriquecimiento semántico que se busca con esta propuesta, siendo este paso: 5.a reutilizar atributos precisos de algunos de los tipos de rich snippets existentes, lo cual permitirá a los buscadores identificar estas características como marcado semántico enriquecido y diferenciarlos de los snippets tradicionales.

Dado el metamodelo del vocabulario Schema.org que permite su extensión y la creación de nuevos elementos, se propone la creación de un nuevo objeto (ObjectType) de tipo entidad denominada ProgramaPosgrado, siguiendo el formato y contemplada dentro de la estructura jerárquica de Schema.org, así: Thing > Organization > EducationalOrganization > CollegeOrUniversity > ProgramaPosgrado.

En la Figura 7, se encuentra al inicio el nombre de esta entidad propuesta, seguido del nivel jerárquico dentro del vocabulario de Schema.org donde se propone su ubicación, en este caso dentro de CollegeOrUniversity, se incluye además una pequeña descripción de la entidad.

Figura 7
Entidad ProgramaPosgrado propuesta en formato de Schema.org.

Vale destacar, que para cada una de las propiedades o atributos de la entidad propuesta se presenta: su nombre (Property), tipo de dato esperado (Expected Type) y descripción (Description). Esta nueva entidad tomará valores principalmente de las entidades de Schema.org: Thing, ContactPoint, Place, Person, Datadownload, ItemList y BreadcrumbList. Con respecto a la información acerca de la entidad de donde provienen los atributos, esta se presenta en la columna Entities Used con el nombre de la propiedad especifica que será utilizada entre paréntesis.

Posteriormente, en la misma Figura 7, están representados en una tabla los atributos o propiedades específicos de la nueva entidad propuesta ProgramaPosgrado, con una columna al final indicando que algunas propiedades como por ejemplo name (nombre o denominación del programa), description (objetivo del programa) hacen parte de la entidad Thing. De igual forma, ContactPoint (datos de contacto del programa como email e teléfono) provienen de la entidad ContactPoint y coordinador (persona que coordina el programa) de la entidad Person, dado esto porque se consideró que son las propiedades reutilizadas que mejor describirán estos contenidos en la entidad propuesta.

En la tabla contenida en la Figura 7, se incluyen otras propiedades de la entidad Place como address y hasMap que se encuentran relacionadas con la ubicación física de contacto para información requerida del programa. Se incluyó itemListElement para almacenar la información relacionada con las líneas de investigación y el conjunto de las páginas web que permitirán indicar el camino o ruta desde la página principal hasta donde se encuentra la información que el usuario requiere mediante breadcrumb o “migas de pan”. Otra propiedad usada fue additionalType para marcar los requisitos de admisión que pueden estar en formato texto, redireccionados a otra página Web o como un archivo para descargar, por lo tanto pueden ser usadas la propiedades additionalType/url de la entidad Thing o Dataset de la entidad DataDownload.

De las propiedades mencionadas, se destacan a continuación, aquellas que fueron propuestas y enriquecerán semánticamente los contenidos de los programas de posgrado mediante el uso de atributos de los rich snippets existentes según el análisis realizado:

  • a) Presentación de las líneas de investigación con el tipo de rich snippet Tabla de Datos;

  • b) Ubicación mediante mapa de la dirección física de contacto (rich snippet de Ubicación mediante Mapa);

  • c) Perfil de contacto del coordinador del programa principalmente (tipo de rich snippet Perfil de Contacto).

Adicionalmente, incluir un breadcrumb, ruta o “migas de pan” para que los buscadores en lugar de mostrar la URL en el resultado de búsqueda, presenten la ruta afín con la estructura del sitio, lo cual permitirá al usuario ampliar directamente la información o conocer de otros programas en caso de requerirlo, dado que el acceso a un determinado programa de posgrado no es directo en la mayoría de los sitios Web de las universidades analizadas. Cabe resaltar que los rich snippets referidos para ser utilizados en los contenidos de la nueva entidad propuesta fueron presentados en el Cuadro 1.

4 Consideraciones finales

El marcado semántico es una aplicación real de la Web Semántica por cuanto proporcionar el significado de los datos mediante etiquetas que son transparentes para los usuarios pero entendibles para las máquinas, facilita la interoperabilidad semántica y la reutilización de la información. Además los rich snippets o marcado semántico enriquecido son una oportunidad para proponer esquemas de metadatos que permitan un etiquetado semántico que aumente el posicionamiento Web y la visibilidad a partir del ofrecimiento de información más amplia y atractiva en la listas de resultados de búsqueda en Google y otros buscadores.

A partir del objetivo del presente estudio, de proponer un esquema de marcación semántica enriquecida para los programas de posgrado de las universidades, fue determinada la información común y de relevancia que actualmente se encuentra en las páginas Web de los programas de posgrado en las universidades analizadas, lo que permitió obtener un conjunto de atributos tales como: el objetivo del programa, datos de contacto, nombre del coordinador, líneas de investigación y requisitos de admisión, para los cuales se propuso la creación de una nueva entidad llamada ProgramaPosgrado con sus respectivas propiedades basado en el formato de Schema.org.

Estas propiedades consideran la adición de atributos de los tipos de rich snippets que existen actualmente como la presentación de las líneas de investigación en una tabla de datos, la ubicación mediante mapa de la dirección física de contacto, el perfil de contacto del coordinador del programa y el uso de breadcrumb, enfocándose este marcado hacia la visualización como un rich snippet cuando las páginas marcadas con estos contenidos propuestos se muestren en los resultados de una búsqueda de Google.

El mecanismo de extensión de Schema.org permite ampliar este vocabulario de carácter dinámico y creciente con contenidos diferentes al ámbito empresarial, lo cual propiciará que organizaciones como Universidades y otras puedan contar con un conjunto ampliado de metadatos que describan la especificidad de sus contenidos, como el esquema propuesto en este documento que es el producto del seguimiento metodológico para marcado semántico enriquecido de contenido de programas de Programas de Posgrado.

AGRADECIMIENTOS

Los autores agradecen al Grupo de Inteligencia Computacional (GICO) adscrito al Departamento de Sistemas de la Universidad del Cauca (Colombia), al Grupo de Pesquisa em Novas Tecnologias da Informação (GPNTI) de la Universidade Estadual Paulista - Unesp (Brasil), a la Asociación Universitaria Iberoamericana de Posgrados (AUIP) y al Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq).

Referencias

  • BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American, v. 284, n. 5, p. 28-37, 2001.
  • DOMINGUEZ, Z. Rich snippets para mejorar el SEO y las visitas a tu web. ZoiSEO.es. 2011. Disponible en: <http://www.zoiseo.es/31/08/2011/11-rich-snippets-mejorar-seo-visitas/>. Acceso en: 13 mar. 2016.
    » http://www.zoiseo.es/31/08/2011/11-rich-snippets-mejorar-seo-visitas/
  • DUESA, A. S. Schema. org,: la mejora de la visualización de los resultados en los buscadores y mucho más. BiD: Textos universitaris de biblioteconomia i documentación, n. 34, p. 12, 2015. Disponible en: <http://bid.ub.edu/es/34/sule.htm>. Acceso en: 23 jun. 2018.
    » http://bid.ub.edu/es/34/sule.htm
  • GARCÍA-MARCO, F. J. Schema. org: la catalogación revisitada. Anuario ThinkEPI, n. 1, p. 169-172, 2013.
  • MONTENEGRO, L.; OCHOA, V.; ESPINOZA-MEJÍA, M. Mejorando la visibilidad de sitios Web usando tecnología semántica. Maskana, v. 65, n. Supl, 2014.
  • PASTOR-SANCHEZ, J. A.; ORDUNA-MALEA, E.; SAORIN, T. Automatic semantic markup in content management systems: integration and quantification. El profesional de la información, v. 22, n. 5, p. 381-391, 2013.
  • PASTOR-SANCHEZ, J. A. Marcado semántico: tecnologías y aplicación para la representación de sistemas de organización del conocimiento en el contexto Linked Open Data. Scire, v. 19, n. 2, p. 55-68, 2013.
  • PIEDRA, N. et al. Estado del arte sobre tecnologías de la Web Social y Web Semántica para la mejora de accesibilidad en educación superior. In: CONGRESO INTERNACIONAL SOBRE APLICACIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIONES AVANZADAS, 4., 2012. Ecuador. Actas… 2012. p. 77-91.
  • QSTOPUNIVERSITIES. QS Latin American University Rankings 2018. Top Universities. 2017. Disponible en: <https://www.topuniversities.com/university-rankings/latin-american-university-rankings/2018>. Acceso en: 20 jun. 2018
    » https://www.topuniversities.com/university-rankings/latin-american-university-rankings/2018
  • ROVIRA, C.; CODINA, L.; MONISTROL, R. Rich snippets: información semántica para la mejora de la identidad digital y el SEO. El profesional de la información, v. 22, n. 6, p. 554-561, 2013. Disponible en: <http://dx.doi.org/10.3145/epi.2013.nov.08>. Acceso en: 5 jul. 2015.
  • SEARCHMETRICS. Schema.org analysis: rich snippets & microdata 2014. Searchmetrics. 2014. Disponible en: <http://www.searchmetrics.com/knowledge-base/schema/>. Acceso en: 23 jun. 2018
    » http://www.searchmetrics.com/knowledge-base/schema/
  • SCHEMA.ORG. Home - schema.org. 2017. Disponible en: <https://schema.org/>. Acceso en: 26 jun. 2018.
  • SENSO, J. A. Microdatos, microformatos y RDFa: parecen lo mismo, pero no. Tecnologías web para servicios de información. 2014. Disponible en: <http://tecnologiasweb.jsenso.es/microdatos-microformatos-y-rdfa-parecen-lo-mismo-pero/>. Acceso en: 10 jun.2018.
    » http://tecnologiasweb.jsenso.es/microdatos-microformatos-y-rdfa-parecen-lo-mismo-pero/
  • TORT, A.; OLIVÉ, A. An approach to website schema.org design. Data & Knowledge Engineering, v. 99, p. 3-16, 2015.
  • UL MUSTAFA, R.; NAWAZ, M. S.; LALI, M. I. Search engine optimization techniques to get high score in SERP’s using recommended guidelines. Science International, v. 27, n. 6, p. 5079‑5086, 2015.
  • UNIVERSIA. Postgrados: una necesidad para el crecimiento profesional. Noticias Universia Argentina. 2015. Disponible en:<http://noticias.universia.com.ar/estudiar-extranjero/noticia/2015/06/03/1126298/ postgrados-necesidad-crecimiento-profesional.html>. Acceso en: 20 jun. 2018.
    » http://noticias.universia.com.ar/estudiar-extranjero/noticia/2015/06/03/1126298/ postgrados-necesidad-crecimiento-profesional.html
  • 1
    Schema.org Comunity Group encargada del desarrollo y mantenimiento de estos vocabularios, Universidades, diseñadores y desarrolladores de sitios web, etc.
  • 2
    Posicionamiento web: Conjunto de técnicas que mejoran la visibilidad de una página web en los buscadores, logrando que el sitio aparezca en los primeros lugares de los resultados de búsqueda.
  • 3
    Principal jerarquía Schema.org: una colección de tipos (o "clases"), cada uno de los cuales tiene uno o más tipos de padres.

Fechas de Publicación

  • Publicación en esta colección
    Jul-Sep 2018

Histórico

  • Recibido
    11 Abr 2017
  • Acepto
    16 Jul 2018
Escola de Ciência da Informação da UFMG Antonio Carlos, 6627 - Pampulha, 31270- 901 - Belo Horizonte -MG, Brasil, Tel: 031) 3499-5227 , Fax: (031) 3499-5200 - Belo Horizonte - MG - Brazil
E-mail: pci@eci.ufmg.br