Le Fonctionnement
- Tous les moteurs de recherches (du moins ceux cités plus haut) ne cherchent en fait pas vraiment sur la toile. Ils cherchent tous dans leurs bases de données qui contiennent les textes contenus dans les milliards de pages web, qu´ils ont récoltées sur des millions de serveurs. Quand vous faites une recherche sur le web, tout ce que vous obtiendrez ne sera en fait qu´une copie de la page réelle. Seulement quand vous cliquez sur le lien vous verrez la page actuelle stockée sur le serveur.
- Les bases de données sont fournies par des programmes robots appellés "spiders" (arraignées (par analogie à la toile)). Ils "rampent" (crawl) à travers la toile en cherchant des pages liées dans les pages qu´ils connaissent déjà en suivant tous les liens qu´ils y trouvent et qu´ils n´ont pas encore dans leurs bases de données. Ils ne peuvent pas penser ou saisir une URL par eux-mêmes et encore moins décider sur la qualité d´une page visitée ou décider par eux-mêmes de visiter telle ou telle page sur la toile rien que pour voir ce qu´ils y trouvent. (Les ordinateurs deviennent de plus en plus sophistiqués mais ils n´ont toujours pas de cervelle).
- Si une page n'est jamais citées ailleurs, les araignées ne la trouveront jamais. Le seul moyen pour une toute nouvelle page (ou site) - sur le/laquel(le) aucun lien n´existe - d´être trouvé(e) est qu'un être human aille saisir cette URL directement dans les sociétés (auxquelles les moteurs appartiennent) aux endroits prévus pour et inclure cette URL manuellement dans leurs bases de données. Tous les moteurs de recherche offrent cette opportunité.
- Une fois que les araignées sont passées elles donnent le contenu à des autres programmes qui eux se chargeront de l´indexation de la page. C´est ce programme qui identifiera le contenu de la page ainsi que ses liens et autres et sauvegarde le tout dans la BDD, afin que le moteur puisse en conséquence la trouver par mots clé, description suivant les services offerts; ce n´est qu´alors que cette page sera trouvée suivant les mots recherchés.
- Beaucoup de pages web sont exclues dans les moteurs de recherche suivant leurs CGs. Par exemple des catalogues, ou librairies sont exclues car les araignées ne peuvent pas visiter les multiples pages, n´y ayant pas accés. Tous ce "materiel" est alors référencé comme "toile invisible" - ce qui veut dire que vous ne les verrez jamais en résultats de recherche.