Rechercher des informations numériques

De Wiki livre Netizenship
Révision datée du 1 octobre 2011 à 17:58 par RaphaelRousseau (discussion | contributions) (Mots-clés, gras italique)

recherche, information, moteur de recherche, tag, pertinence, annuaire, base de données, méthodologie



Principes

En 2011, il y existe des milliards et des milliards de pages web, des bases de données innombrables, ne serait-ce que sur votre téléphone mobile ou le disque dur de votre ordinateur. Votre profil se trouve sur divers serveurs web. Comment s'y retrouver ? Voici quelques bases pour trouver de l'information et identifier les sources.

Concept fondamental : les bases de données.

Première étape : identifier la base ou les bases sur lesquelles faire une recherche. Dans la vie de tous les jours, si vous avez perdu vos clés, vous pourriez les retrouver chez vous, dans votre logement c'est votre réservoir à objets (comme une base de données pour les informations). Vous allez pouvoir chercher dans les tiroirs, dans les poches, sous le lit, c'est autant d'espaces de stockage possibles pour vos clés. Une base de données, ça fonctionne de la même manière ; et lorsqu'on fait une recherche, il faut d'abord savoir dans quelle base de données vous allez faire une recherche qui a des chances d'aboutir, parce que c'est clair que vous si n'allez chercher que dans la maison alors qu'en fait elles se trouvent dans votre voiture ou dans le garage, ça n'ira pas.

Comment ça fonctionne : il y a bien une base de données immense qui a pris le dessus, qui est un peu le mastodonte de l'Internet, qui s'appelle Google, mais y a plein d'autres bases de données, qui fonctionnent de la même manière, avec des mots-clés, avec des tags pour les référencer, avec des folksonomies, etc.

Moteurs de recherche généralistes

Principes de fonctionnement

Le moteur de recherche est l'outil de base pour les recherches sur Internet :

  • Il récupère en permanence les pages web sur les sites, même celles qu'il a déjà visitées pour trouver leurs mises à jour. On parle de crawling : il va arpenter le web en suivant les liens de page en page jusqu'à avoir parcouru tout le réseau, ou presque.
  • Ensuite, chaque page est analysée, décortiquée pour en extraire les mots qu'il contient puis stockée dans le cœur du moteur de recherche. On parle ici d'indexation : au lieu d'avoir une correspondance dans le sens page → contenu, il va également être capable de donner une correspondance entre un mot et l'ensemble des pages web qui le contiennent.
  • Enfin, la partie émergée du moteur de recherche est l'interrogation, accessible via une page web utilisable par les visiteurs du moteur de recherche. A une requête, énoncée sous forme de mots-clés, il va répondre par la liste de toutes les pages contenant ces mots-clés.
Pertinence

Un problème généralement constaté par les utilisateurs de moteurs de recherche est la multitude. La moindre recherche comportant un seul terme retourne des dizaines de millions de résultats : impossible de tous les parcourir ! C'est ici qu'intervient une notion majeure en matière de recherche d'information : la pertinence. L'apparition d'un terme dans une page indexée par un moteur de recherche suffit à ce qu'elle apparaisse lorsque j'entre ce terme dans le formulaire du moteur de recherche. Cependant, ce n'est pas pour autant que ladite page est pertinente sur ce mot-clé... Les entreprises qui conçoivent des moteurs de recherche ont donc mis au point des algorithmes pour évaluer la pertinence d'une page web sur chacun des mots qui la composent. Et c'est là qu'un moteur de recherche à succès se distinguera d'un autre : sur sa capacité à afficher en premier les résultats les plus pertinents sur les mots-clés entrés par ses utilisateurs.


Autres approches

Cependant, même si on parle souvent du moteur de recherche comme outil principal pour trouver une ressource sur le web, il existe également d'autres sites qui ont des orientations moins généralistes : les moteurs de recherche spécialisés. Au lieu d'arpenter tout le web, ils se focalisent sur certains types d'informations : les livres imprimés, les blogs, les articles scientifiques, les petites annonces immobilières... L'avantage de ces outils spécialisés est qu'ils proposent des recherches plus pointues car ils peuvent stocker l'information de manière plus structurée. Par exemple, on pourra demander à un moteur de recherche immobilier de ne donner que des résultats relatifs aux appartements de plus de 3 pièces dans la région de Grenoble, coûtant moins de 300'000 €. Ce type de recherche ne serait pas possible avec un moteur de recherche généraliste (comme Google ou Bing). Autre exemple : indiquer les publications d'un scientifique donné, parues entre 1995 et 2005.

Recherche par tags

Mais même pour une recherche généraliste, il y a d'autres moyens de classer l'information qu'en se focalisant sur le contenu des pages web ; par exemple les site de marque-page collaboratifs, comme Delicious ou Diigo. Dans ces sites-là, tout un chacun peut gérer ses propres signets grâce à des tags, sortes de mots-clés relatifs à une ressource (page web, document PDF, image, vidéo...). Ainsi, on pourra sauvegarder l'adresse d'une recette de gâteau au chocolat avec les mots-clés suivants : gâteau, cake, recette, gastronomie, goûter, dessert. L'intérêt est en premier lieu de gérer ses propres signets, mais on peut également rendre publics tout ou partie de ses signets : les classements que chacun fait pour son propre compte servent alors à alimenter une base de données collective ; on parle de folksonomie. Ces sites proposent donc aussi de faire des recherches sur la base de ces tags. On peut donc trouver des ressources sur le mot-clé "gastronomie" sans pour autant que la page elle-même ne contienne le terme ! De plus, la folksonomie ne nécessite pas une instance centrale qui déciderait d'une architecture unique de classement (une taxonomie). C'est directement l'intelligence collective qui est à l'œuvre car à force d'être tagguée, une ressource sera associée aux mots-clés les plus pertinents au sens de ceux qui rechercheront une information sur ce sujet.

L'intérêt également de ces marque-pages collaboratifs est qu'uniquement les ressources ayant un intérêt sont marqués car ils nécessitent une intervention humaine pour entrer dans la base. C'est donc un type d'outils intéressants comme moyen de recherche complémentaire aux moteurs de recherche.

Annuaires de sites

Avant qu'apparaissent des moteurs de recherche aussi pertinents qu'à l'heure actuelle, il fallait parcourir de nombreuses pages de résultats avant de trouver une page correspondant à notre recherche. Même si le web était mille fois plus petit (en nombre de ressources publiées), cela faisait beaucoup !

Il existait donc également un classification qui avait beaucoup de succès : les annuaires. Yahoo! en était la figure de proue, la star. Le principe est simple : il existe une classification (de type taxonomie) avec des catégories et sous-catégories dans lesquelles des humains classaient les ressources soumise manuellement par des visiteurs (par exemple, les auteurs de sites web). Cela permettait que chaque ressource soit classée au bon endroit, et que le nombre de ressources par catégorie soit raisonnable, car dès qu'un catégorie grossissait trop, des sous-catégories étaient créées pour affiner le classement.

L'inconvénient majeur des annuaires généralistes, cherchant à classifier tout le web, était que ce système était inadapté pour un univers aussi changeant que le web : les employés chargés de valider chaque demande étaient submergés et ne pouvaient tenir le rythme ; il y a eu une période où l'on pouvait payer pour passer en priorité, mais même cette mesure était inapte à régler un problème structurel de cette ampleur : quelques humains ne pouvaient suivre le rythme effréné de publication et de mise à jour du reste du monde !

Il reste à présent un unique annuaire généraliste : le projet ODP (Open Directory Project, également connu sous le nom de DMOZ), qui ne peut survivre que parce que la gestion du contenu de l'annuaire est pris en charge par des bénévoles.

Encart : les 6 étapes d'une bonne recherche

Voici un canevas méthodologique simple pour faire une recherche sur le web :

  • Étape 1 : analyser le sujet. Avant de vous lancer dans la recherche à proprement parler, vous devez faire le point sur ce que vous voulez trouver : des informations générales, pratiques, historiques, des tarifs, des modes d'emploi... Vous ne pourrez trouver ce que vous recherchez que si vous avez une vision claire de ce à quoi peut ressembler le résultat !
  • Étape 2 : développer une stratégie de recherche. Identifiez les concepts principaux du sujet et les termes du même champ sémantique. Familiarisez-vous avec la terminologie du domaine.
  • Étape 3 : Trouver de l'information générale . Pour rassembler de l'information à caractère général, utilise les notes que vous auriez déjà prises sur le sujet, les livre ou encyclopédies que vous avez à disposition.
  • Étape 4 : Approfondir la recherche. Utilisez les différentes bases de données à votre disposition, comme le catalogue d'une bibliothèque, des moteurs de recherche académiques, des publications périodiques et des livres pour trouver de l'information approfondie.
  • Étape 5 : évaluer les sources d'informations. Avant d'exploiter, voire simplement de conserver vos découvertes, vous devez évaluer chacune d'entre elles pour vous assurer qu'elles sont pertinentes et sûres.
  • Étape 6 : les références. Si vous devez exploiter les documents trouvés dans un travail académique, ou dans une quelconque publication, assurez-vous de bien citer la référence au document pour que vos écrits montrent la qualité de votre recherche préalable.

Ce processus n'est pas linéaire, c'est à dire que vous ne ferez sans doute pas les étapes 1 à 6 directement avec, à l'issue de l'étape 6, le résultat escompté. La recherche est souvent un processus itératif : on fait les étapes 1 à 4 puis on recommence l'étape 2 en fonction de ce qu'on a déjà trouvé : si on a des résultats trop éloignés de ce qu'on recherche, on devra ajouter un terme, ou utiliser un terme plus précis en remplacement d'un plus général ; si on n'a pas de résultats, ou des résultats qui ne nous satisfont pas du tout car pas sur le sujet recherché, alors on réduira le nombre de termes de la recherche pour affiner ensuite, en fonction des résultats obtenus. Une bonne connaissance du domaine dans lequel on recherche facilitera la convergence de la recherche vers le but ; sinon, il faudra tâtonner avec plusieurs requêtes afin de s'orienter vers des résultats intéressants. Si on recherche des ressources expertes, il faudra employer des termes très précis, alors que si on recherche de la vulgarisation, on se limitera à un vocabulaire plus basique.

On notera enfin que tout le savoir humain n'est pas sur le Web ni dans des livres : il faut aussi parfois identifier des personnes-ressource qui sauront répondre à des questions dont la réponse ne figure dans aucun écrit. Dans un tel cas, la recherche de forums consacrés au sujet de notre recherche pourra nous aider, ou bien des blog de spécialistes de la chose.

Encart : analyser une URL

Une URL, c'est comme les coordonnées géographiques sur une carte ; cela permet de mémoriser l'emplacement d'une ressource, de la transmettre à un correspondant ou de la garder pour y retourner ultérieurement. Savoir lire les URLs, c'est une des bases pour pas se faire arnaquer car mieux vaut savoir d'avance sur quel site on va chercher ses informations avant de cliquer en suivant un lien.

Exemple : http://www.tous-les-toutous.net/ressources/veterinaires.html :

  • http : il s'agit du protocole par lequel on accède à cette ressource. HTTP est le protocole du web, donc la plupart des URLs qu'on connait commencent par http:// ou https:// (HTTPS est la version sécurisée pour des interactions confidentielles entre votre navigateur et le serveur)
  • www.tous-les-toutous.net : c'est le nom de la machine, le serveur, qui gère les données et auquel le navigateur va s'adresser, au travers d'Internet, pour accéder à la ressource. Si son nom est bien choisi, il désigne une sous-catégorie du site.
  • /ressources/veterinaires.html : c'est l'emplacement de la ressource sur le serveur www.tous-les-toutous.net où l'on distingue :
    • /ressources/ : le chemin jusqu'à la ressource
    • veterinaires.html : le document en lui-même, sans doute ici un fichier Web (d'où l’extension .html qui indique qu'il est au format HTML)

Avec une telle URL, on peut présumer qu'on tombera sur un ensemble de ressources en accèdant directement à http://www.tous-les-toutous.net/ressources/ en modifiant l'URL dans la barre d'adresse de notre navigateur...

Comprendre les URLs, c'est aussi être vigilant, lorsqu'on suit un lien, de vérifier qu'on est sur le site sur lequel on veut aller. Par exemple dans les courriels demandant de vérifier votre code d'identification, si vous allez sur un site dont le nom du serveur n'a rien à voir avec celui de votre banque, c'est qu'on essaye de vous piéger (ici, on parle de Phishing ou hammeçonnage). L'apparence de la page ne doit pas suffire à vous rassurer !