Aux premiers temps du développement du Web apparurent des sites qui tentaient de répertorier de façon
globale les ressources du Réseau.
Ainsi, le CERN créé en 1991 une WWW Virtual Library
qui classe les sites selon une arborescence et un plan de classement particulier. C'est un site pionnier, puisqu'il
est l'initiative de Tim Berners-Lee, un chercheur désireux de garder la trace du développement du
World Wide Web, qu'il venait juste de créer.
En France, l'UREC (Unité réseaux du CNRS) propose en 1994
une liste de serveurs Web français, ainsi qu'un lien vers un service américain
particulièrement intéressant : le Virtual tourist. A partir d'une
carte du monde, vous pouvez cliquer sur un continent pour en afficher une carte ; puis vous cliquez sur un
pays pour obtenir la carte géographique figurant les serveurs connectés. Vous vous promenez ainsi
virtuellement à travers le monde, ce fut une des premières attractions du Web naissant.
Cette même année allait voir apparaître un nouveau concept sur l'Internet : les moteurs
de recherche (search engines). Le fondement général de ces serveurs est une base de données
et un logiciel plus ou moins perfectionné (appelé " 'bot ", de robot, ou spider,
l'araignée) qui doit parcourir la totalité des serveurs présents sur le Réseau, afin
d'en répertorier les pages. Le logiciel part de quelques serveurs importants, puis suit les différents
liens hypertextes successifs.
Selon ce principe, Jerry Yang et David Filo, deux étudiants de la Stanford University
créent en 1994 un index basé sur un plan de classement arborescent, mais en y rajoutant la faculté
de rechercher par mots-clés (sur la base de résumés descriptifs des serveurs) .
Ce service intitulé Yahoo ! (le cri d'enthousiasme
de l'internaute apercevant la lumière) eut immédiatement beaucoup de succès et
l'année suivante, plusieurs moteurs de recherches différents furent mis en ligne :
Webcrawler, Infoseek, Excite, Lycos... Pour les trois premiers,
l'initiative est partie aussi d'étudiants qui, en fin d'études, ont emporté leur bébé
pour le transformer en produit commercial.
Aujourd'hui encore, s'il est loin d'être le plus complet (avec 260 000 sites répertoriés),
Yahoo ! est resté le plus populaire des moteurs de recherches. Sa charte graphique aux couleurs
vives y est certainement pour quelque chose. Sa particularité fondamentale réside en son plan de
classement : si des " robots " parcourent le Réseau à la recherche de nouvelles
adresses, c'est une équipe d'une trentaine d'indexeurs humains qui qualifie le site et le classe dans une
catégorie précise. Paradoxalement, nous retombons dans une situation bien connue des professionnels
de l'information : si ce choix permet d'offrir un contexte sémantique aux utilisateurs, l'intitulé
des menus étant lui-même un repère significatif, il comporte une grande part de subjectivité.
Chaque site doit en effet trouver la rubrique la plus pertinente susceptible de l'accueillir.
Comme d'autres sites, Yahoo ! a choisi la rentabilité par le biais des bannières publicitaires
cliquables qui jalonnent désormais le serveur. Le développement de l'entreprise est au rendez-vous
du succès, avec la création d'un moteur européen et d'un autre destiné aux enfants
(Yahooligan).
Inutile de détailler l'ensemble de ces serveurs, il suffit de savoir
qu'une page du serveur de Netscape les regroupe tous pour ensuite les consulter et les comparer.
Le site en vogue actuellement est incontestablement Altavista. Lancé
au début de l'année 1996 par Digital Equipment, ce serveur répertorie 30 millions de pages
sur le Web, et 14 000 forums. Très rapidement ce serveur a vu le nombre de requêtes grimper vertigineusement.
Il faut dire qu'il propose une méthode de recherche selon la logique booléenne (opérateurs
ET, OU, SAUF) et qu'il permet les recherches selon des champs (auteur, titre, adresse URL...). L'aide consultable
en ligne est très bien réalisée, à l'aide de multiples exemples, et montre la puissance
du moteur.
Ce type de serveur est donc devenu un passage incontournable pour tout utilisateur du Réseau.
" Le moteur de recherche, c'est l'antidépresseur du débutant. Et le chien de chasse de
l'internaute confirmé. ".
Cependant, pour certains, une bonne connaissance de leurs méthodes d'indexation et
de recherche est requise. Sinon on se retrouve à chaque requête avec des lots de plusieurs milliers
de réponses à examiner. L'utilisateur devra donc prendre connaissance des pages d'aide de son serveur
favori pour parfaire ses requêtes. Quelques mises en garde générales sont à prendre
en compte.
Il ne faut tout d'abord pas se méprendre sur les capacités du système informatique :
la recherche se fait par mots-clés, et non en langage naturel. Ce point ne devrait pas poser de difficultés
au bibliothécaire-documentaliste habitué aux recherches documentaires en ligne.
La majorité de ces serveurs recherchent sur le mot-clé rentré : du fait de problèmes
d'homonymie et de synonymie, ils en résultent des lots de réponses qui répondent à
la forme recherchée mais ne sont pas homogènes sur le fond. Un service tente de pallier à
ce problème. Excite considère votre terme de recherche soit comme un mot-clé, soit
comme un concept. Dans ce dernier cas, il utilisera un système complexe de rapprochements statistiques afin
d'élaborer un lot de réponses moins systématique que lors de l'utilisation d'un mot-clé.
La logique booléenne est appliquée différemment selon les serveurs : alors que Yahoo
et Webcrawler utilisent un ET implicite entre les mots d'une recherche, Lycos utilise un OU. La recherche
avancée avec parenthèse est une fonctionnalité encore rare : seul Altavista semble
l'autoriser.
Il faut faire attention à la casse (majuscules / minuscules) des mots employés. Si la plupart
des systèmes y sont insensibles, Altavista offre un traitement plus complexe : si les mots sont
tous en minuscules, ils sont recherchés indépendamment de leur casse ; si l'on précise
les majuscules de certains termes, le moteur ignorera les termes qui n'y correspondent pas strictement.
L'utilisation des champs, quand elle est autorisée, est un moyen subtil d'affiner ses recherches.
La plupart de ces services étant anglo-saxons, l'utilisation de caractères composés est
elle aussi délicate. La plupart des moteurs appauvrissent tous les caractères de la requête
avant la recherche. Altavista se distingue encore : comme pour le respect de la casse, si un terme
présente des caractères composés, la réponse sera en stricte concordance avec la requête.
Lors de la réponse du serveur, les critères de classement sont également variables, le
classement le plus commun étant le nombre d'occurrences d'un mot-clé dans la page obtenue.
Une dernière précision : le mode de consultation particulier du Web
ne permet pas de travailler en session continue, et donc de mémoriser les recherches successives. En l'absence
d'historique, c'est à l'utilisateur de consigner manuellement les différentes étapes de sa
recherche.
Du fait de leur caractère mondial, ces serveurs sont souvent difficiles à joindre, et les réponses
concernent l'ensemble de l'Internet. Il est donc conseillé de faire une utilisation différenciée
des moteurs, en fonction des recherches entreprises. Quelques serveurs à couverture géographique
plus modeste existent.
Yelloweb est un service qui ne recherche que des sites européens.
De même, Ecila n'indexe que les sites français. Ce dernier
est très rapide et permet ainsi de commencer ses recherches à l'échelon national, avant de
lancer la sonde dans le cyberespace mondial.
Certains serveurs, comme Altavista et Deja News, proposent de faire la recherche dans les articles
des news. Très puissant, ce service recèle des potentialités dangereuses, puisqu'en entrant
le nom ou l'e-mail d'une personne, on peut retrouver ses contributions des mois passés, les groupes dans
lesquels elles ont été faites et donc de se faire une idée rapide de l'individu.
D'autres services se sont développés pour faire office d'annuaires d'adresses
électroniques. Il en existe déjà plusieurs, on citera à titre d'exemple l'Internet
adress finder, qui a eu le mérite de retrouver l'adresse de votre serviteur.
Ces services sont dans leur grande majorité gratuits, financés par la publicité et le partenariat.
Cependant d'autres services tentent de développer une valeur ajoutée dans des produits en ligne payants.
Infoseek, dont l'accès de base est gratuit, propose un service commercial d'accès à
des bases de données, ainsi que la possibilité de se créer un profil de recherche personnalisé.
OCLC, le réservoir bibliographique bien connu des bibliothèques universitaires, a créé
Netfirst, une banque de données avec format structuré, descripteurs et utilisation de la classification
Dewey. Les sites ne sont recensés que s'ils sont assez importants et si leur durée de vie prévisible
semble assez longue.
Altavista, qui s'appuie sur Digital Equipment, mais vit sans publicité, compte développer
plusieurs logiciels destinés aux serveurs privés d'entreprises, ainsi qu'une version personnelle
d'Altavista pour rechercher des informations au sein du disque dur d'un PC.
|