Folksonomie, un nouveau pouvoir du peuple

De Wiki livre Netizenship

classification, pertinence, folksonomie, tag, métatag



Le Web a été créé pour répondre à un problème de gestion et de diffusion de l'information, dont une partie repose sur une bonne catégorisation. Tim Berners-Lee travaillait au CERN[1], à la frontière entre la Suisse et la France, près de Genève. Le CERN est une entité avec un budget de plusieurs milliards d'euros et des départements de recherche très importants.

Un jour, un des responsables de recherche débarque dans son bureau et lui explique qu'il doit construire une base de données accessible pour tous avec une hiérarchie où le département A est tout en haut de la pyramide de l'information et pour accéder aux départements B, C et D, il faut passer par le département A. Ensuite, le responsable du département B débarque dans son bureau et lui explique, au contraire, que le système doit mettre en valeur le département B, car c'est le plus important et qu'il a le plus gros budget.

Mais voilà que débarque le responsable du département C, qui lui signifie que personne n'utilisera le système aux dépens du département C si la base de données met en évidence le département A ou B.

À chaque fois, Tim Berners-Lee doit repenser un système. À un certain moment, il en a tellement assez qu'il décide d'utiliser une catégorisation de type « bazar » et non plus de type « cathédrale ». C'est-à-dire qu'au lieu d'avoir une clé de voûte dont tout dépend, il choisit le système où toutes les informations sont liées les unes aux autres et on peut avoir plusieurs sommaires, plusieurs catégorisations sans qu'une ne prédomine nécessairement sur l'autre. Ainsi, tout le monde est content ! C'est comme ça que le Web est né.

Les mots-clés ou "tags"

Si le système de catégories bien rangées une fois pour toutes a montré ses limites, il faut pourtant bien retrouver les documents dans le bazar. Plutôt que les ranger dans des catégories, on va alors leur accrocher des étiquettes qui diront en quelques mots de quoi ils traitent. Ces "étiquettes" ("tag" en anglais) sont aussi appelés "mots-clés". Très vite, les concepteurs de sites web se sont donc mis à ajouter des mots-clés aux pages web qu'ils créaient. Par exemple, un site qui traite de petites annonces de voitures mettra comme mots-clés « petites annonces », « voiture », « auto », « moto », « 4 roues », « seconde main », etc Ces mots-clés ne sont pas toujours visibles pour le lecteur. Ils sont parfois cachés dans le code informatique de la page web. A quoi servent-ils alors, si personne ne peut les voir ?

A l'origine ils servaient aux moteurs de recherche qui indexaient ces pages. Comme un moteur de recherche ne peut pas lire et comprendre tout seul de quoi parle une page web, on est obligé de lui indiquer : cette page parle de "voitures", "motos", "4 roues", etc. et chaque fois qu'un lecteur tapera ces mots dans le formulaire de recherche, il verra s'afficher la bonne page.

Le passage de la catégorie au mot-clé est déjà une petite révolution en soi car elle ouvre des perspectives : alors qu'un document ne peut être rangé que dans une seule catégorie, la multiplicité des mots clés que l'on peut lui attacher permet de le retrouver sous plusieurs angles, par des personnes qui s'intéressent à des sujets différents.

Encadré : Tag et tag

Tag dans la rue : petite note de quelqu'un pour mentionner sa présence, manière populaire d'exprimer qu'on existe. Tag sur l'Internet : la même chose. Il y a des tags qui sont des comportements de vandales comme visiter un wiki et effacer le contenu d'un article utile pour y mettre de la publicité ou de l'autopromotion. Il y a aussi des tags utiles, comme associer des mots-clés à un article pour que tout le monde puisse faire des recherches dans une base de données d'articles en fonction des mots-clés. Par exemple pour cet article, les tags seraient « tags, catégorisation, folksonomie, histoire, Tim Berners-Lee, Web ».

Fin d'encadré

Ce n'est pas la fin de l'histoire, malheureusement : des petits malins ont très vite eu l'idée de détourner ce système performant, de mettre des faux mots-clés pour tromper les moteurs de recherche. On met ainsi des mots-clés très recherchés ("sexe" est un des plus populaires depuis les débuts du Web grand public) pour conduire vers des sites de publicité. Ou des mots-clés anodins pour conduire vers des sites pornographiques. La multiplication des mots-clés détournés a rendu le système inutilisable. Aujourd'hui, Google et d'autres moteurs de recherche ne repèrent les sites web non plus sur la base de ce que les responsables de site donnent comme mots-clé, mais uniquement en fonction des textes qui sont disponibles dans le site, en plus du nombre et du contenu des liens qui pointent sur chaque page du site. C'est le système du « PageRank » qui, dès la fin des années 1990, classe les résultats de recherche selon un algorithme d'évaluation de la pertinence, complexe et secret, ce qui augmente sensiblement la qualité des recherches.

La grande nouveauté était toute simple, il suffisait d'y penser, et les premiers investisseurs de Google ont mis des centaines de millions pour permettre à Google de ramasser le marché de la recherche sur le Web. On aurait pu penser que le succès de Google rendrait tout cet arsenal de catégories et de mots clés complètement inutile. On retrouve les pages par les mots du texte qui le composent et on les classe par le nombre de liens qui pointent vers elles, et cela suffit.

Eh bien pas du tout. Depuis, les mots-clés ont connu une seconde vie. Et d'abord en ne se cachant plus dans le code informatique des sites Web. Désormais, ils s'affichent sur les pages Web. Deux innovations très différentes et qu'on a l'habitude d'opposer ont permis cette évolution. Permettez-nous de vous présenter les deux frères ennemis de la description d'information : ontologie et folksonomie.


Folksonomie

La musique folk, c'est la musique populaire. Volkswagen, c'est la voiture du peuple. La folksonomie est la catégorisation par le peuple. En clair, un système de description de contenus sans autorité supérieure qui décide des bons mots-clés pour catégoriser, mais où chacun choisit de faire comme il le veut, souvent pour lui-même avant tout.

Le problème a priori d'un chaos s'avère en réalité en phase avec la culture du Web, de type « bazar » et donc chaotique plutôt que « cathédrale », avec une autorité supérieure qui définit d'avance un système de classification rigide. C'est d'ailleurs en phase avec les propriétés du numérique, c'est-à-dire que n'importe qui peut, par la simple qualité de ses contributions à la catégorisation d'articles, non pas imposer mais inspirer largement les contributions futures à des mots-clés, car une personne qui va employer un mot-clé aura l'habitude de regarder d'abord ceux qui ont déjà été postés sur une même ressource. Le pari du principe de folksonomie est que du bazar émerge "naturellement" un certain ordre. Si chacun peut librement ajouter les mots-clés de son choix aux documents, tout le monde va avoir tendance à imiter plus ou moins fidèlement les autres membres de la communauté et ainsi les mots-clés utilisés vont converger progressivement.


Encadré : Comment taguer ?

Voici quelques suggestions pour choisir les "tags" ou mots-clés de vos publications :

  • géographique : local, régional, national ;
  • temporel : jour/mois/année ;
  • linguistique : FR, EN, DE ou français, anglais, allemand ou French, English, German ;
  • thématique / sectoriel : par domaine d'action ;
  • type d'information : opinion, FAQ, mode d'emploi/recette/howto ;
  • format : article à lire en ligne, article à imprimer (PDF), vidéo, audio, diaporama :
  • public cible / niveau : débutant, expert ;
  • maturité : brouillon, bêta/RFC, mûr, dépassé mais laissé en ligne pour archive.

Fin d'encadré

Une bonne manière de se représenter cette convergence progressive est le "nuage de mots-clés" que l'on voit sur certains sites web. Dans ces "nuages", la taille de chaque mot-clé est proportionnelle à la fréquence de leur utilisation dans le site. On voit ainsi qu'il n'y pas une répartition complètement égale des mots-clés dans le site, mais que certains d'entre eux ont tendance à être (beaucoup) plus utilisés que d'autres.

Tagsynternetorg.png

A chacun son vocabulaire

Le principe de folksonomie est certes populaire, mais il est souvent critiqué aussi. Certains disent par exemple qu'il ne peut fonctionner qu'au sein de communautés homogènes qui donnent le même sens aux mots qu'ils utilisent. Mais dans le cas de sites complètement ouverts, les malentendus peuvent être très nombreux, car les mots peuvent avoir des sens très différents selon le contexte dans lesquels on les emploie. Le mot "java" par exemple peut désigner au moins trois choses différentes (en fait il y en a bien plus [2] : une île de l'archipel indonésien, une danse ou un langage informatique. Quelqu'un qui cliquerait sur ce mot-clé dans un site web généraliste pourrait se retrouver devant une liste de pages n'ayant aucun rapport entre elles. Pire encore, il existe plusieurs mots pour désigner une même réalité. Selon les cas, les utilisateurs utiliseront le terme "bateau", "navire" ou "nef" pour désigner la même réalité.

C'est pour cette raison qu'on a voulu stabiliser le sens des mots-clés selon les contextes et les communautés qui y agissent. On a créé des listes de vocabulaire contrôlés sur lesquels une communauté définie est d'accord : d'abord pour utiliser un même mot pour désigner une même réalité, mais aussi pour définir un mot de la même manière. Ces "vocabulaires contrôlés", c'est ce qu'on appelle des ontologies ; et c'est très puissant. Car à partir du moment où le sens des mots est stabilisé, et qu'il n'y pas de confusion possible, alors on peut établir des relations de sens entre les mots. Si l'on a défini que le mot "Java" par exemple désigne une île et non une danse ou un langage informatique, alors on peut dire à coup sûr que "Java" est une partie de "Indonésie". Plus que des listes de mots, les ontologies sont donc des listes de mots qui ont des relations entre eux. Les applications de ces ontologies sont innombrables. Elles relèvent de ce qu'on appelle le "web sémantique" dont le principal initiateur n'est autre que ... Tim Berners-Lee. La boucle est ainsi bouclée !

Comment bien décrire l'information ? On voit que sur le web la question est cruciale. Quels mots utiliser ? comment les organiser ? qui décide des mots qu'on l'on doit utiliser ? Quel sens leur donner ? Catégories, mots-clés, folksnonomies et ontologies sont des réponses différentes - et pas forcément incompatibles - à ces questions. On voit aussi que ce sont différentes manières d'envisager les relations humaines - hiérarchies, foules ou communautés qui s'y expriment.

Notes et références

  1. Centre européen de recherches nucléaires.
  2. http://fr.wikipedia.org/wiki/Java