Bases de données

De Wiki livre Netizenship

information, moteur de recherche, tag, pertinence, annuaire, base de données, méthodologie, crawling, indexation.


En 2011, il y existe des milliards et des milliards de pages web, des bases de données innombrables, ne serait-ce que sur votre téléphone mobile ou le disque dur de votre ordinateur. Comment s'y retrouver ? Un concept fondamental : les bases de données. Voici quelques bases pour trouver de l'information et identifier les sources.

Première étape : identifier la base ou les bases dans lesquelles faire une recherche. Dans la vie de tous les jours, si vous avez perdu vos clés, vous allez chercher dans les tiroirs, dans les poches, sous le lit, autant d'espaces de stockage possibles pour vos clés. Une base de données, ça fonctionne de la même manière. Lorsqu'on fait une recherche, il faut d'abord savoir dans quel espace le plus approprié chercher.

Comment ça fonctionne : une base de données immense a pris le dessus, qui est un peu le mastodonte d'internet, Google. Mais il y a plein d'autres bases de données, qui fonctionnent de la même manière, avec des mots-clés, des tags pour les référencer.

Moteurs de recherche généralistes : principes de fonctionnement

Le moteur de recherche est l'outil de base pour les recherches sur internet :

  • Il récupère en permanence les pages web sur les sites, même celles qu'il a déjà visitées pour trouver des mises à jour. On parle de crawling : le moteur arpente le web en suivant les liens de page en page jusqu'à avoir parcouru tout le réseau, ou presque.
  • Ensuite, chaque page est analysée, décortiquée, pour en extraire les mots qu'elle contient puis stockée dans le cœur du moteur de recherche. On parle ici d'indexation : au lieu d'avoir une correspondance dans le sens page → contenu, il va également être capable de donner une correspondance entre un mot et l'ensemble des pages web qui le contiennent.
  • Enfin, la partie émergée du moteur de recherche est l'interrogation, accessible via une page web utilisable par les visiteurs du moteur de recherche. À une requête, énoncée sous forme de mots-clés, il va répondre par la liste de toutes les pages contenant ces termes.

Pertinence

Un problème généralement constaté par les utilisateurs de moteurs de recherche est la multitude de résultats. La moindre recherche comportant un seul terme retourne des dizaines de millions de pages : impossible de toutes les parcourir ! C'est ici qu'intervient une notion majeure en matière de recherche d'information : la pertinence. Les entreprises qui conçoivent des moteurs de recherche ont mis au point des algorithmes pour évaluer la pertinence d'une page web sur chacun des mots qui la composent. Et c'est là qu'un moteur de recherche à succès se distinguera d'un autre : sur sa capacité à afficher en premier les résultats les plus pertinents sur les mots-clés entrés par ses utilisateurs.

Autres approches

Cependant, même si on parle souvent du moteur de recherche comme outil principal pour trouver une ressource sur le web, il existe également d'autres sites qui ont des orientations moins généralistes : les moteurs de recherche spécialisés. Au lieu d'arpenter tout le web, ils se focalisent sur certains types d'informations : les livres imprimés, les blogs, les articles scientifiques, les petites annonces immobilières...
L'avantage de ces outils spécialisés est le suivant : ils proposent des recherches plus pointues car ils peuvent stocker l'information de manière plus structurée. Par exemple, on pourra demander à un moteur de recherche immobilier de donner uniquement les résultats relatifs aux appartements de plus de trois pièces dans la région de Grenoble, coûtant moins de 300 000 euros. Ce type de recherche ne serait pas possible avec un moteur de recherche généraliste (comme Google ou Bing). Autre exemple : indiquer les publications d'un scientifique, parues entre 1995 et 2005.

Recherche par tags

Mais même pour une recherche généraliste, il y a d'autres moyens de classement de l'information, qui ne s'appuie pas sur le contenu des pages web. Par exemple, les site de marque-page collaboratifs, comme Delicious ou Diigo. Dans ces sites, chacun peut gérer ses propres signets grâce à des tags, sortes de mots-clés relatifs à une ressource (page web, document PDF, image, vidéo...). Ainsi, on pourra sauvegarder l'adresse d'une recette de gâteau au chocolat avec les mots-clés suivants : gâteau, cake, recette, gastronomie, goûter, dessert. L'intérêt est en premier lieu de gérer ses propres signets, afin de pouvoir s'y retrouver. Mais on peut également rendre public tout ses ginets ou une partie de ses signets : les classements que chacun fait pour son propre compte servent alors à alimenter une base de données collective. On parle de folksonomie.

Ces sites proposent donc ainsi de faire des recherches sur la base de tags attribués par les internautes. On peut donc trouver des ressources sur le mot-clé « gastronomie » sans pour autant que la page elle-même ne contienne le terme ! De plus, la folksonomie ne nécessite pas une instance centrale qui déciderait d'une architecture unique de classement (une taxonomie). C'est directement l'intelligence collective qui est à l'œuvre. À force d'être tagguée, une ressource sera associée à des mots-clés plus pertinents, fruit de l'expertise humaine de nombreux internautes.

L'autre intérêt de ces marque-pages collaboratifs est la sélection de ressources dignes d'intérêt. Les pages nécessitent une intervention humaine pour être intégrées dans la base. C'est donc un outil intéressant et complémentaire aux moteurs de recherche.

Annuaires de sites

Avant qu'apparaissent des moteurs de recherche aussi pertinents qu'à l'heure actuelle, il fallait parcourir de nombreuses pages de résultats avant de trouver la page correspondant à notre recherche. Même si le web était 1000 fois plus petit (en nombre de ressources publiées), cela faisait déjà beaucoup !

Il existait donc un premier type de classification : les annuaires. Yahoo! en était la figure de proue. Le principe est simple : il s'agit d'une classification (de type taxonomie) par catégories et sous-catégories, dans lesquelles des humains classent les ressources soumises manuellement par des visiteurs (par exemple les créateurs de sites). Cela permet de référencer chaque ressource au bon endroit et d'avoir un nombre raisonnable de ressources par catégorie. Dès qu'une catégorie grossit trop, des sous-catégories sont créées pour affiner le classement.

L'inconvénient majeur des annuaires généralistes est le caractère changeant du web. Les employés chargés de valider chaque demande se sont vite trouvé submergés. Impossible de suivre le rythme...

Il reste à présent un unique annuaire généraliste : le projet ODP (Open Directory Project, également connu sous le nom de DMOZ), qui ne peut survivre que grâce à la gestion bénévole du contenu.

Les 6 étapes d'une bonne recherche

Voici un canevas méthodologique simple pour faire une recherche sur internet :

  • Étape 1 : analyser le sujet. Avant de vous lancer dans la recherche à proprement parler, vous devez faire le point sur ce que vous voulez trouver : des informations générales, pratiques, historiques, des tarifs, des modes d'emploi... Vous ne pourrez trouver ce que vous recherchez que si vous avez une vision claire de ce à quoi peut ressembler le résultat !
  • Étape 2 : développer une stratégie de recherche. Identifiez les concepts principaux du sujet et les termes du même champ sémantique. Familiarisez-vous avec la terminologie du domaine.
  • Étape 3 : trouver de l'information générale. Pour rassembler de l'information à caractère général, utilisez les notes que vous auriez déjà prises sur le sujet, les livres ou encyclopédies que vous avez à disposition.
  • Étape 4 : approfondir la recherche. Utilisez les différentes bases de données à votre disposition, comme le catalogue d'une bibliothèque, des moteurs de recherche académiques, des publications périodiques et des livres pour trouver de l'information approfondie.
  • Étape 5 : évaluer les sources d'informations. Avant d'exploiter, voire simplement de conserver vos découvertes, vous devez évaluer chacune d'entre elles pour vous assurer qu'elles sont pertinentes et sûres.
  • Étape 6 : les références. Si vous devez exploiter les documents trouvés dans un travail académique, ou dans une quelconque publication, assurez-vous de bien citer la référence pour que vos écrits montrent la qualité de votre recherche préalable.

Ce processus n'est pas linéaire, c'est-à-dire que vous ne suivrez sans doute pas les étapes 1 à 6 de manière linéaire. La recherche est souvent un processus itératif : on fait les étapes 1 à 4, puis on revient à l'étape 2, en fonction de ce qu'on a trouvé. Si on a des résultats trop éloignés, on devra ajouter un terme ou en utiliser un plus précis. Si on n'a pas de résultats satisfaisants, alors on réduira le nombre de termes de la recherche pour affiner, ensuite, en fonction des résultats obtenus. Une bonne connaissance du domaine de recherche facilite la convergence de la requête vers le but. Si on recherche des ressources expertes, il faudra employer des termes très précis, alors que si on recherche de la vulgarisation, on se limitera à un vocabulaire plus basique.

À noter, tout le savoir humain ne figure pas sur le web, ni dans des livres : il faut aussi parfois identifier et contacter des personnes-ressources qui possèdent la fameuse réponse ne figurant dans aucun écrit. La recherche sur des forums consacrés au sujet pourra aussi être d'un grand secours. Pensez aussi aux blogs des spécialistes de la question. Certains ont la gentillesse de répondre aux requêtes par mail.