Étiquettes

, , , , , ,

Avec le développement du Web sémantique, le besoin de métadonnées se fait de plus en plus ressentir. Si le HTML5 offre la possibilité d’inclure des métadonnées pour décrire une page web, il est encore difficile de l’étendre à l’ensemble d’un site.

Dans leur article Approche extensive des métadonnées pour un site web : principes d’élaboration et applications d’une taxonomie, Nathalie Pinède et David Reymond proposent une méthodologie basée sur une taxonomie des unités lexicales d’hypertexte (ULH) qui permettrait d’offrir une vision synthétique d’un site web.

ULH ?

Qu’est-ce que ces fameuses ULH ? Ce sont les hyperliens qui permettent d’accéder, depuis la page d’accueil, aux couches plus profondes du site web, comme les onglets de navigation. Sur ce blog, on peut donner comme exemple « À propos de » ou « Master ID » situés en haut à gauche de la page. Ce sont des « textes passeurs » pour reprendre l’expression d’Yves Jeanneret dans son livre Y a-t-il (vraiment) des technologies de l’information ?.

Le postulat de départ de Pinède et Reymond est que les ULH sont suffisamment porteuses de sens par rapport à leur site web pour qu’elles puissent être utilisées comme métadonnées vis-à-vis de son contenu. En effet, Jakob Nielsen et Marie Tahir, dans leur livre L’art de la page d’accueil présentent la page d’accueil comme la table des matières, le point d’orientation du site web. Pour cette raison, les ULH qui la composent sont sélectionnées avec soin.

Méthodologie

Ne pouvant naturellement pas s’intéresser à l’ensemble du web, nos auteurs ont délimité leur terrain d’études aux sites web organisationnels, plus particulièrement à ceux des universités françaises. Le choix de ces sites s’explique principalement en raison de leur complexité – puisqu’en réalité le site web regroupe une mosaïque de sites rattachés à l’université par un même nom de domaine – et de leur besoin de créer une image institutionnelle malgré cette diversité.

Puis, Pinède et Reymond ont analysé les pages d’accueil en se basant sur le travail de Nielsen et Tahir et les ont décomposées en trois zones de navigation : structurelle, par profil et des liens outils.

© Pinède et Reymond, 2011.

Schéma d’une page d’accueil – © Pinède et Reymond, 2011.

La navigation structurelle regroupe l’accès aux contenus du site. La navigation par profil adapte le site aux différentes cibles – étudiants, chercheurs, etc. – ou à la langue de l’utilisateur. Enfin, les liens outils correspondent aux différentes aides à la navigation.

Les pages d’accueil analysées et décomposées, les ULH, ont d’abord été récoltées manuellement, puis de façon automatisée. Malheureusement, nous n’avons pas les détails de la procédure.

Mise en place de la taxonomie

Une fois les données recueillies, les auteurs ont procédé à leur classement qui a fait l’objet d’ajustements progressifs. Certaines ULH n’ont finalement pas été intégrées, car spécifiques à un domaine d’études ou ambivalentes.

Premier constat. La majorité des ULH se situent dans la catégorie structurelle et, parmi celle-ci, au sein des classes « formation », « recherche » et « ressources documentaires », ce qui s’avère cohérent avec les différentes missions d’une université.

Ensuite, bien que les unités lexicales ont été reprises telles quelles et n’ont pas été normalisées, Pinède et Reymond ont pu constater une moyenne globale de 68% au plan de recouvrement, ce qui tend à démontrer l’existence d’un phénomène de standardisation naturelle et à encourager l’extension de la taxonomie à d’autres types de sites organisationnels.

Un outil de gestion collaborative

Une fois établie, la taxonomie devait être capable de s’adapter aux évolutions des sites web. L’automatisation étant très lourde à mettre en place, si ce n’est impossible, nos auteurs ont établi une plate-forme de gestion des ULH collaborative, conçue pour offrir différentes applications, telles que la mesure de la marginalité et la visualisation d’un profil informationnel d’un site web.

La marginalité d’une page d’accueil se mesure au nombre d’ULH peu fréquentes la composant. Elle peut servir d’outil de décision lors du choix des termes, que ce soit en vue d’une normalisation ou au contraire d’un souci d’originalité.

La visualisation du profil informationnel d’un site web est une représentation sous forme de radar de la popularité des thèmes. Chaque ULH trouvée sur la page d’accueil et correspondant à la taxonomie augmente le thème ad hoc. Cette vue permet de vérifier l’adéquation de la structure d’un site avec les domaines et activités de son institution et constitue, de ce fait, un outil stratégique.

© Pinède et Reymond, 2011.

Profil informationnel d’un site web – © Pinède et Reymond, 2011.

Conclusion

Si on peut critiquer un certain flou sur la méthodologie utilisée, que ce soit le nombre exact de sites dans le corpus ou la technique d’automatisation de la récolte d’ULH, l’article de Pinède et Reymond propose un outil aux potentialités intéressantes, bien que, contrairement aux autres articles traités dans le séminaire, il ne s’intéresse pas ou très peu à l’usager. Pour cela, le web designer devra utiliser l’application en complément d’autres outils comme l’oculométrie.