Folksonomie, un nouveau pouvoir du peuple
classification, pertinence, folksonomie, ontologie, tag, métatag, catégorie, Tim Berners-Lee
Le web a été créé pour répondre à un problème de gestion et de diffusion de l'information, grâce à une bonne catégorisation. La possibilité de classer l'information est donc au coeur même de la raison d'être du web. Voici une petite histoire pour illustrer cette affirmation.
Tim Berners-Lee travaillait au CERN, Centre européen de recherches nucléaires, à la frontière entre la Suisse et la France, près de Genève[1].
Un jour, un des responsables de recherche débarque dans son bureau et lui explique qu'il doit construire une base de données accessible à tous avec une hiérarchie où le département A est tout en haut de la pyramide de l'information. Pour accéder aux départements B, C et D, il faut passer par le département A. Mais le responsable du département B débarque dans son bureau et lui explique, au contraire, que le système doit mettre en valeur le département B, car c'est le plus important et qu'il a le plus gros budget. Voilà que débarque ensuite le responsable du département C, qui lui signifie que personne n'utilisera le système aux dépens du département C si la base de données met en évidence le département A ou B.
À chaque fois, Tim Berners-Lee doit repenser un système. Quelque peu exaspéré, il décide d'utiliser une catégorisation de type « bazar » et non plus de type « cathédrale ». C'est-à-dire qu'au lieu d'avoir une clé de voûte dont tout dépend, il choisit le système où toutes les informations sont liées les unes aux autres. On peut avoir plusieurs sommaires, plusieurs catégorisations sans qu'une ne prédomine nécessairement sur l'autre. Ainsi, tout le monde est content ! C'est comme ça que le web est né.
Sommaire
Les mots-clés ou "tags"
Le système de catégories, ordonnées une fois pour toutes, a montré ses limites. La classification des informations a franchi une nouvelle étape. Plutôt que les ranger dans des catégories, on leur accroche des étiquettes qui disent en quelques mots de quoi elles traitent. Ces "étiquettes" ("tag" en anglais) sont aussi appelés "mots-clés". Très vite, les concepteurs de sites web se sont donc mis à ajouter des mots-clés aux pages web qu'ils créaient. Par exemple, un site qui traite de petites annonces de véhicules motorisés mettra comme mots-clés « petites annonces », « voiture », « auto », « moto », « 4 roues », « seconde main », etc Ces mots-clés ne sont pas toujours visibles pour le lecteur. Ils sont parfois cachés dans le code informatique de la page web.
A quoi servent-ils alors, si personne ne peut les voir ?
A l'origine ils servaient aux moteurs de recherche qui indexaient ces pages. Comme un moteur de recherche ne peut pas lire et comprendre tout seul de quoi parle une page web, on est obligé de lui indiquer : cette page parle de "voitures", "motos", "4 roues", etc. et chaque fois qu'un lecteur tape ces mots dans le formulaire de recherche, il voit s'afficher la page dans le résultat de sa recherche.
Le passage de la catégorie au mot-clé est déjà une petite révolution en soi car elle ouvre des perspectives : alors qu'un document ne peut être rangé que dans une seule catégorie, la multiplicité des mots clés que l'on peut lui attacher permet de le retrouver sous plusieurs angles, par des personnes qui s'intéressent à des sujets différents.
Ce n'est pas la fin de l'histoire. Malheureusement, des vandales ont très vite eu l'idée de détourner ce système performant, de mettre des faux mots-clés pour tromper les moteurs de recherche. On met ainsi des mots-clés très recherchés ("sexe" est un des plus populaires depuis les débuts du web grand public) pour conduire vers des sites de publicité. Ou des mots-clés anodins pour conduire vers des sites pornographiques. La multiplication des mots-clés détournés a rendu le système inutilisable. Aujourd'hui, Google et d'autres moteurs de recherche repèrent les sites web non plus sur la base de ce que les responsables de site donnent comme mots-clés, mais uniquement en fonction des textes qui sont disponibles dans le site, en plus du nombre et du contenu des liens qui pointent sur chaque page du site. C'est le système du « PageRank » qui, dès la fin des années 1990, classe les résultats de recherche selon un algorithme d'évaluation de la pertinence, complexe et secret, ce qui augmente sensiblement la qualité des recherches.
Depuis, les mots-clés ont connu une seconde vie. Ils ne se cachent plus dans le code informatique des sites Web. Désormais, ils s'affichent sur les pages.
Folksonomie
La musique folk, c'est la musique populaire. Volkswagen, c'est la voiture du peuple. La folksonomie est la catégorisation par le peuple. En clair, un système de description de contenus sans autorité supérieure qui décide des bons mots-clés pour catégoriser, mais où chacun choisit de faire comme il le veut, souvent pour lui-même avant tout.
Ce qui peut apparaître comme une porte ouverte à l'anarchie (laisser aux gens le soin de catégoriser selon leur subjectivité) est en réalité tout à fait en phase avec la culture du web. On retrouve l'organisation de type « bazar », donc chaotique, en lieu et place de l'organisation de type « cathédrale », avec une autorité supérieure qui définit d'avance un système de classification rigide (les catégories par exemple). La folsonomie est aussi en phase avec les propriétés du numérique : n'importe qui peut, par la simple qualité de ses contributions à la catégorisation d'articles, non pas imposer mais inspirer largement les contributions futures à des mots-clés. Une personne qui va employer un mot-clé aura l'habitude de regarder d'abord ceux qui ont déjà été postés sur une même ressource. Le pari de la folksonomie est de faire émerger du bazar un ordre naturel. Si chacun peut librement ajouter les mots-clés de son choix aux documents, tout le monde va avoir tendance à imiter plus ou moins fidèlement les autres membres de la communauté et ainsi les mots-clés utilisés vont converger progressivement.
Comment taguer (encadré)
Voici quelques suggestions pour choisir les "tags" ou mots-clés de vos publications :
- géographique : local, régional, national ;
- temporel : jour/mois/année ;
- linguistique : FR, EN, DE ou français, anglais, allemand ou French, English, German ;
- thématique / sectoriel : par domaine d'action ;
- type d'information : opinion, FAQ, mode d'emploi/recette/howto ;
- format : article à lire en ligne, article à imprimer (PDF), vidéo, audio, diaporama :
- public cible / niveau : débutant, expert ;
- maturité : brouillon, bêta/RFC, mûr, dépassé mais laissé en ligne pour archive.
Une bonne manière de se représenter cette convergence progressive est le "nuage de mots-clés" que l'on voit sur certains sites web. Dans ces "nuages", la taille de chaque mot-clé est proportionnelle à la fréquence de leur utilisation dans le site. On voit ainsi qu'il n'y pas une répartition complètement égale des mots-clés dans le site, mais que certains d'entre eux ont tendance à être (beaucoup) plus utilisés que d'autres.
A chaque communauté son vocabulaire
Le principe de folksonomie est certes populaire, mais il est souvent critiqué aussi. Certains disent par exemple qu'il ne peut fonctionner qu'au sein de communautés homogènes qui donnent le même sens aux mots qu'ils utilisent. Mais dans le cas de sites complètement ouverts, les malentendus peuvent être très nombreux, car les mots peuvent avoir des sens très différents selon le contexte dans lesquels on les emploie. Le mot "java" par exemple peut désigner au moins trois choses différentes (en fait il y en a bien plus [2] : une île de l'archipel indonésien, une danse ou un langage informatique. Quelqu'un qui cliquerait sur ce mot-clé dans un site web généraliste pourrait se retrouver devant une liste de pages n'ayant aucun rapport entre elles. Pire encore, il existe plusieurs mots pour désigner une même réalité. Selon les cas, les utilisateurs utiliseront le terme "bateau", "navire" ou "nef" pour désigner la même réalité.
C'est pour cette raison qu'on a voulu stabiliser le sens des mots-clés selon les contextes et les communautés qui y agissent. On a créé des listes de vocabulaire contrôlés sur lesquels une communauté définie est d'accord : d'abord pour utiliser un même mot pour désigner une même réalité, mais aussi pour définir un mot de la même manière. Ces "vocabulaires contrôlés", c'est ce qu'on appelle des ontologies. Car à partir du moment où le sens des mots est stabilisé, et qu'il n'y pas de confusion possible, alors on peut établir des relations de sens entre les mots. Si l'on a défini que le mot "Java" par exemple désigne une île et non une danse ou un langage informatique, alors on peut dire à coup sûr que "Java" est une partie de "Indonésie". Plus que des listes de mots, les ontologies sont donc des listes de mots qui ont des relations entre eux. Les applications de ces ontologies sont innombrables. Elles relèvent de ce qu'on appelle le "web sémantique" dont le principal initiateur n'est autre que ... Tim Berners-Lee. La boucle est ainsi bouclée !
Comment bien décrire l'information ? On voit que sur le web la question est cruciale. Quels mots utiliser ? comment les organiser ? Qui décide des mots qu'on l'on doit utiliser ? Quel sens leur donner ? Catégories, mots-clés, folksnonomies et ontologies sont des réponses différentes - et pas forcément incompatibles - à ces questions. On voit aussi que ce sont différentes manières d'envisager les relations humaines - hiérarchies, foules ou communautés qui s'y expriment.
Notes et références
- ↑ Le CERN est une entité avec un budget de plusieurs milliards d'euros et des départements de recherche très importants au rayonnement international.
- ↑ http://fr.wikipedia.org/wiki/Java