Folksonomie, le pouvoir de classer l'information

De Wiki livre Netizenship

Notions-clés : organisation du web, catégorie, classification, pertinence, folksonomie,nuage de mots-clés, tag,catégorisation, bazar, cathédrale, web sémantique, étiquette.

Profils-clés : Berners-Lee Tim, Centre européen de recherches nucléaires (CERN), Arpanet, Google,PageRank.


Le web a été créé pour répondre à un problème de gestion et de diffusion de l'information, grâce à une bonne catégorisation. La possibilité de classer l'information est donc au cœur même de la raison d'être du web. Voici une petite histoire pour illustrer cette affirmation.

En 1980, Tim Berners-Lee travaillait au CERN, Centre européen de recherches nucléaires, près de Genève[1]. Sur son lieu de travail, il est connecté au réseau interne et à l'Arpanet, l'ancêtre d'internet.

Un jour, un des responsables de recherche débarque dans son bureau et lui explique qu'il doit construire une base de données accessible à tous avec une hiérarchie où le département A est tout en haut de la pyramide de l'information. Pour accéder aux départements B, C et D, il faut passer par le département A. Mais le responsable du département B débarque dans son bureau et lui explique, que le système doit, au contraire, mettre en valeur le département B, car c'est le plus important et qu'il a le plus gros budget. Voilà que débarque ensuite le responsable du département C, qui lui signifie que personne n'utilisera le système aux dépens du département C si la base de données met en évidence le département A ou B.

À chaque fois, Tim Berners-Lee doit repenser un système. Quelque peu exaspéré, il décide d'utiliser une catégorisation de type bazar et non plus de type cathédrale. Il développe une solution d'affichage de page dans lequel il y a plusieurs sommaires interconnectés, plusieurs catégories et hiérarchies de l’information, sans qu'aucune ne prédomine nécessairement sur les autres. Avec ce système, tous les responsables de département du CERN sont contents ! C'est ainsi qu’est né le web[2].

Le grand bazar des tags

Dès les débuts du web, le système de catégories ordonnées une fois pour toutes a montré ses limites. La classification des informations a franchi une nouvelle étape. Plutôt que de les ranger dans des catégories, on leur accroche des étiquettes qui disent en quelques mots de quoi elles traitent. Ces étiquettes (tag en anglais) sont aussi appelées mots-clés. Très vite, les concepteurs de sites web se sont donc mis à ajouter des mots-clés aux pages web qu'ils créaient. Par exemple, un site qui traite de petites annonces de véhicules motorisés mettra comme mots-clés petites annonces, voiture, auto, moto, 4 roues, seconde main, etc. Ces mots-clés ne sont pas toujours visibles pour le lecteur. Ils sont parfois cachés dans le code informatique de la page web.

À quoi servent-ils alors, si personne ne peut les voir ? À l'origine, ils servaient aux moteurs de recherche qui indexaient ces pages. Comme un moteur de recherche ne peut pas lire et comprendre tout seul de quoi parle une page web, on est obligé de lui indiquer : cette page parle de voitures, motos, 4 roues, etc. Et chaque fois qu'un lecteur tape ces mots dans le formulaire de recherche, il voit s'afficher la page dans le résultat de sa recherche.

Le passage de la catégorie au mot-clé est déjà une petite révolution en soi car elle ouvre des perspectives : alors qu'un document ne peut être rangé que dans une seule catégorie, la multiplicité des mots-clés que l'on peut lui attacher permet de le retrouver sous plusieurs angles, par des personnes qui s'intéressent à des sujets différents.

Ce n'est pas la fin de l'histoire. Malheureusement, des vandales ont très vite eu l'idée de détourner ce système performant, de mettre des faux mots-clés pour tromper les moteurs de recherche. On met ainsi des mots-clés très recherchés (sexe est l'un des plus populaires depuis les débuts du web grand public) pour conduire vers des sites de publicité. Ou des mots-clés anodins pour conduire vers des sites pornographiques. La multiplication des mots-clés détournés a rendu le système inutilisable.

Aujourd'hui, Google et d'autres moteurs de recherche repèrent les sites web non plus sur la base de ce que les responsables de site donnent comme mots-clés, mais uniquement en fonction des textes qui sont disponibles dans le site, en plus du nombre et du contenu des liens qui pointent sur chaque page du site. C'est le système du PageRank qui, dès la fin des années 90, classe les résultats de recherche selon un algorithme d'évaluation de la pertinence, complexe et secret, ce qui augmente sensiblement la qualité des recherches.

Depuis, les mots-clés ont connu une seconde vie. Ils ne se cachent plus dans le code informatique des sites web. Désormais, ils s'affichent sur les pages.

Premiers pas de folksonomie

La musique folk, c'est la musique populaire. Volkswagen, c'est la voiture du peuple. La folksonomie est la catégorisation par le peuple. En clair, un système de description de contenus sans autorité supérieure qui décide des bons mots-clés pour catégoriser un contenu qu’il publie sur le web (article dans un blog, vidéo, photos, etc.). Chacun choisit d’associer à une vidéo, un texte, une image, les mots-clés qu’il veut, souvent pour lui-même avant tout.

Ce qui peut apparaître comme une porte ouverte à l'anarchie (laisser aux gens le soin de catégoriser selon leur subjectivité) est en réalité tout à fait en phase avec la culture du web. On retrouve l'organisation de type bazar, donc chaotique, en lieu et place de l'organisation de type cathédrale, avec une autorité supérieure qui définit d'avance un système de classification rigide (les catégories par exemple).

La folksonomie est aussi en phase avec les propriétés du numérique : n'importe qui peut, par la simple qualité de ses contributions à la catégorisation d'articles, non pas imposer mais inspirer largement les contributions futures à des mots-clés. Une personne qui va employer un mot-clé aura l'habitude de regarder d'abord ceux qui ont déjà été postés sur une même ressource. Le pari de la folksonomie est de faire émerger du bazar un ordre naturel.

Si chacun peut librement ajouter les mots-clés de son choix aux documents, tout le monde va avoir tendance à imiter plus ou moins fidèlement les autres membres de la communauté et ainsi les mots-clés utilisés vont converger progressivement.


Comment taguer ?

Voici quelques suggestions pour choisir les tags ou mots-clés de vos publications :

  • géographique : local, régional, national ;
  • temporel : jour/mois/année ;
  • linguistique : FR, EN, DE ou français, anglais, allemand ou French, English, German ;
  • thématique / sectoriel : par domaine d'action ;
  • type d'information : opinion, FAQ, mode d'emploi/recette/howto ;
  • format : article à lire en ligne, article à imprimer (PDF), vidéo, audio, diaporama :
  • public cible / niveau : débutant, expert ;
  • maturité : brouillon, version bêta, mûr, dépassé mais laissé en ligne pour archive.

Une bonne manière de se représenter cette convergence progressive est le nuage de mots-clés que l'on voit sur certains sites web. Dans ces nuages, la taille de chaque mot-clé est proportionnelle à la fréquence de son utilisation dans le site. On voit ainsi qu'il n'y a pas une répartition complètement égale des mots-clés dans le site, mais que certains d'entre eux ont tendance à être (beaucoup) plus utilisés que d'autres.

Un bazar bien organisé

Le principe de folksonomie est certes populaire, mais il est souvent critiqué aussi. Certains disent par exemple qu'il ne peut fonctionner qu'au sein de communautés homogènes qui donnent le même sens aux mots qu'elles utilisent. Mais dans le cas de sites complètement ouverts, les malentendus peuvent être très nombreux, car les mots peuvent avoir des sens très différents selon le contexte dans lequel on les emploie.

Le mot java, par exemple, peut désigner au moins trois choses différentes (en fait il y en a bien plus[3]) : une île de l'archipel indonésien, une danse ou un langage informatique. Quelqu'un qui cliquerait sur le tag java dans un site web généraliste pourrait se retrouver devant une liste de pages n'ayant aucun rapport entre elles. Pire encore, il existe plusieurs mots pour désigner une même réalité. Selon les cas, les utilisateurs utiliseront le terme bateau, navire ou embarcation pour désigner la même réalité.

C'est pour cette raison qu'on a voulu stabiliser le sens des mots-clés selon les contextes et les communautés qui y agissent. Dans chaque domaine, des experts ayant une position dominante dans leur organisation (académique, entreprise, etc.) ont créé, seuls ou dans des groupes relativement fermés, des catalogues de mots-clés relativement non-modifiables par les utilisateurs, pour mettre des concepts dans des cases prédéfinies. Ces vocabulaires contrôlés sont ce qu'on appelle des ontologies. Car à partir du moment où le sens des mots est stabilisé, et qu'il n'y a pas de confusion possible, on peut alors établir des relations de sens entre les mots. Si l'on a défini que le mot Java par exemple désigne une île et non une danse ou un langage informatique, alors on peut dire à coup sûr que Java est une partie de l'Indonésie.

Les ontologies sont donc des listes de mots qui ont une relation entre eux. Dans un bazar, on trouvera un coin avec toutes les épices et un autre avec tous les tissus, ces deux types de produits n'étant pas mélangés. De même, dans nuage de tags, si l'ontologie est appliquée, les mots-clés seront organisés par famille. Les applications de ces ontologies sont innombrables. Elles relèvent de ce qu'on appelle le web sémantique, dont le principal initiateur n'est autre que... Tim Berners-Lee, créateur du web. La boucle est bouclée !

Alors comment bien décrire l'information ? On voit que sur le web la question est cruciale. Quels mots utiliser ? Comment les organiser ? Qui décide des mots qu'on l'on doit utiliser ? Quel sens leur donner ? Catégories, mots-clés, folksnonomies et ontologies sont des réponses différentes - et pas forcément incompatibles - à ces questions. On voit aussi que ce sont différentes manières d'envisager les relations humaines - hiérarchies, foules ou communautés - qui s'y expriment.

Le mode de classement est révélateur des croyances. La bonne solution serait probablement de reconnaître la sagesse des foules[4] et leur faire confiance. Ces foules ont permis à Wikipedia de se développer de manière folksonomique, tout en y développant sa propre ontologie pour les mots-clés à sens multiple en utilisant le principe d’homonymie, qui répertorie les différents sujets et articles partageant un même nom.

Voir par exemple la dizaine de définitions du mot java sur Wikipedia[5]. Et ça marche. Les tags font sens. Leur usage se développe sur le web. Y mettre de l’ordre en rajoutant une couche ontologique, pour éviter les confusions, ne requiert donc pas forcément des experts du domaine concerné, mais plutôt du bon sens et une bonne capacité à discuter entre pairs. Cette approche en deux temps, d’abord les tags, puis la réduction des confusions entre tags via l’ontologie, elle aussi sous une forme participative, permet d’établir des bases de connaissances pertinentes et durables, décentralisées et basées sur la qualité des contributions plutôt que les titres académiques.

Ainsi, pour des contributeurs éveillés et bienveillants, dont le nombre est croissant, un site sans option de contribution avec tag, sans liens sur un wiki pour contribuer, est un site web qui révèle la méfiance ou l’ignorance de ces auteurs et, en conséquence, qui a moins de valeur à leurs yeux qu’un site participatif. Mais pour parvenir à un classement des connaissances de qualité, il est néanmoins bien utile que des initiateurs, animateurs, modérateurs (et autres facilitateurs des coopérations décentralisées sur le web) créent un environnement favorable aux contributions de chacun-e, en y passant du temps. L’enjeu du classement n’est alors plus technologique, mais philosophique.

Notes et références

  1.  Le CERN est une entité avec un budget de plusieurs milliards d'euros et des départements de recherche très importants au rayonnement international.
  2. C'est en mai 1990 que Tim Berners-Lee adopte l'expression de World Wide Web pour nommer son projet. Avec l'ingénieur belge Robert Cailliau, ils développent les trois principales technologies du Web  : les adresses web (URL), l'Hypertext Transfer Protocol (HTTP) et l'Hypertext Markup Language(HTML). Pour favoriser cette mise en commun généralisée dans un espace créatif, ils développent aussi le premier navigateur web, éditeur web (dénommé World Wide Web et développé sur NeXTSTEP) et serveur HTTP. Voir l'article « World Wide Web », Wikipedia.
  3. Article « Java », Wikipedia (consulté le 24.07.2014).
  4. Voir l'article La sagesse des foules, chapitre 6.
  5. Article « Java », Wikipedia (consulté le 23.09.2014).