Bases de données et bibliothèques

De Wiki livre Netizenship

Version PDF et imprimée



Version en ligne

Principes

En 2011, il y a des milliards et des milliards de pages web, des bases de données très nombreuses, y compris sur votre téléphone portable ou votre disque dur local. Votre profil se trouve sur divers serveurs web. Comment s'y retrouver ? Voici quelques bases pour trouver de l'information et identifier les sources.

Concept fondamental : les bases de données.

Première étape : identifier la base ou les bases sur lesquelles faire une recherche. Dans la vie de tous les jours, si vous avez perdu vos clés, vous pourriez les retrouver dans chez vous, votre maison c'est votre base de données. Vous allez pouvoir chercher dans les tiroirs, dans les poches, sous le lit, c'est autant d'espaces de stockage possibles pour vos clés. Une base de données, ça fonctionne de la même manière ; et lorsqu'on fait une recherche, il faut d'abord savoir dans quelle base de données vous allez faire la recherche, parce que c'est clair que vous si n'allez chercher que dans la maison alors qu'en fait elles se trouvent dans votre voiture ou dans le jardin, ça n'ira pas.

Comment ça fonctionne : il y a effectivement une base de données qui est très grande et qui a pris le dessus, qui est un peu le mastodonte de l'Internet, qui s'appelle Google, mais y a plein d'autres bases de données, qui fonctionnent de la même manière, avec des mots-clés, avec des tags pour les référencer, avec des folksonomies, etc.

Moteurs de recherche généralistes

Principes de fonctionnement

Le moteur de recherche est l'outil de base pour les recherches sur Internet : il récupère en permanence les pages web sur les sites, même ceux qu'il a déjà visité pour trouver leurs mises à jour. On parle de crawling : il va arpenter le web en suivant les liens de page en page jusqu'à avoir parcouru tout le réseau, ou presque. Ensuite, chaque page est analysée, décortiquée pour en extraire les mots qu'il contient et stockée dans le cœur du moteur de recherche. On parle ici d'indexation : au lieu d'avoir une correspondance dans le sens page -> contenu, il va également être capable de donner une correspondance entre un mot et l'ensemble des pages web qui le contiennent. Enfin, la partie émergée du moteur de recherche est la page d'interrogation, accessible par les visiteurs du site du moteur de recherche.

Pertinence

Un problème généralement constaté par les utilisateurs de moteurs de recherche est la multitude. La moindre recherche comportant un seul terme retourne des dizaines de millions de résultats : impossible de tous les parcourir ! C'est ici qu'intervient une notion critique en matière de recherche d'information : la pertinence. L'apparition d'un terme dans une page indexée par un moteur de recherche suffit à ce qu'elle apparaisse lorsque j'entre ce terme dans le formulaire du moteur de recherche. Cependant, ce n'est pas pour autant que ladite page est pertinente sur ce mot-clé... Les entreprises qui conçoivent des moteurs de recherche ont donc mis au point des algorithmes pour évaluer la pertinence d'une page web sur chacun des mots qui la composent. Et c'est là qu'un moteur de recherche à succès se distinguera d'un moteur de recherche peu utilisé : sur sa capacité à afficher en premier les résultats les plus pertinents sur les mots-clés entrés par ses utilisateurs.


Autres approches

Cependant, même si on parle souvent du moteur de recherche comme outil principal pour trouver une ressource sur le web, il existe également d'autres sites qui ont des orientations moins généralistes : les moteurs de recherche spécialisés. Au lieu d'arpenter tout le web, ils se focalisent sur certains types d'informations : les livres imprimés, les blogs, les articles scientifiques, les petites annonces immobilières... L'avantage de ces outils spécialisés est qu'ils proposent des recherches plus pointues car ils peuvent stocker l'information de manière plus structurée. Par exemple, on pourra demander à un moteur de recherche immobilier de ne donner que des résultats relatifs aux appartements de plus de 3 pièces dans la région de Grenoble, coûtant moins de 300'000 €. Ce type de recherche ne serait pas possible avec un moteur de recherche généraliste (comme Google ou Bing). Autre exemple : indiquer les publications d'un scientifique donné, parues entre 1995 et 2005.

Mais même pour une recherche généraliste, il y a d'autres moyens de classer l'information qu'en se focalisant sur le contenu des pages web ; par exemple les site de marque page collaboratifs, comme Delicious ou Diigo. Dans ces sites-là, tout un chacun peut gérer ses signets grâce à des tags, sortes de mots-clés relatifs à une ressource (page web, document PDF...). Ainsi, on pourra sauvegarder l'adresse d'une recette de gâteau au chocolat particulièrement savoureux avec les mots-clés suivants : gâteau, cake, recette, gastronomie, goûter, dessert. L'intérêt est en premier lieu de gérer ses propres signets, mais on peut également rendre public tout ou partie de ses signets : les classements que chacun fait pour son propre compte servent alors à alimenter une base de données collective ; on parle de folksonomie. Ces sites proposent donc aussi de faire des recherches sur la base de ces tags. On peut donc trouver des ressources sur le mot-clé "gastronomie" sans pour autant que la page elle-même ne contienne le terme ! De plus, la folksonomie ne nécessite pas une instance centrale qui déciderait d'une architecture unique de classement (une taxonomie). C'est directement l'intelligence collective qui est à l'œuvre car à force d'être tagguée, une ressource sera associée aux mots-clés les plus pertinents au sens de ceux qui rechercheront une information sur ce sujet.

L'intérêt également de ces marque-pages collaboratifs est qu'uniquement les ressources ayant un intérêt sont marqués car ils nécessitent une intervention humaine pour entrer dans la base.



Faire un petit encart : comment faire une bonne recherche. Dire qu'il y a plein d'autres moyens de faire des recherches.

Manque : dans le web : géographie et histoire, encart sur les URL, et expliquer que lire les URL c'est la base pour pas se faire arnaquer (mieux vaut savoir d'avance sur quoi on va atterrir avant de cliquer, il faut savoir lire l'URL → trouver image) Ou alors faire un article à part entière qui parle des URL.

Recherches : Les 6 étapes d’une recherche : Action-Compétence-Analyser-Définition du sens de la recherche d‘informations-Identifier les mots-clés permettant de faire une recherche appropriée-Anticiper les réponses types issues des procédures automatiques de recherche-Soumettre une requête au bon moteur de recherche-Trier et classer les informations obtenues suite à la recherche Valider Les informations triées afin d‘assurer leur pertinence avant de les utiliser

Encart

Définition. Recherche d'information.

Question : Aujourd'hui la plupart de l'information que l'on utilise est numérique. De façon générale, cette information est indexée et organisée dans différents répertoires ou catalogues. Ceux-ci peuvent être automatisés ou non. Appelons-les "banques de données". Ces banques de données peuvent par exemple être interrogées à l'aide de mots-clés pour faciliter la recherche. Dans ce contexte, il est indispensable de savoir où et comment chercher l'information de façon efficace. Parmi les options ci-dessous, quelles sont les trois clés de succès les plus importantes lors de la recherche d'information numérique? (plusieurs bonnes réponses)

A) Évaluer quelles banques de données sont les plus adaptées aux besoins de la recherche

B) Connecter son ordinateur à Internet à travers le réseau de la bibliothèque universitaire afin d'avoir accès à des documents bien classés.

C) Référencer les informations dans les pages web avec les bons mots-clés dans le code HTML

D) Choisir les mots-clés les plus pertinents dans les champs de requête

E) Gérer les moteurs de recherche informatiques au niveau du poste client.

F) Raffiner progressivement ses requêtes jusqu'à satisfaction

G) Connaître par coeur les fonctions de recherche avancée et tous les opérateurs booléens

H) Savoir à quelle fréquence le document que l'on recherche est indexé par les moteurs de recherche

I) Saisir à dix doigts pour pouvoir taper plus de requêtes en moins de temps et ainsi augmenter son efficacité

J) JOKER! Je ne connais pas suffisamment le sujet pour répondre à la question.