Tout autour de l´internet - Les Robots - ou Araignées (Spiders ou Crawlers)

Les Robots
(ou "Spiders" ou "Crawlers" ou "Wanderer")

Etymologie: Le mot "Robot" est issu des langues slaves est ne veut rien dire d'autre que "travail" ("Robotnyk" = travailleur en tchèque).
Ce terme, désignant des humains artificiels, fut utilisé pour la première fois par Karel Čapek en 1917.
Isaac Asimov, considéré aujourd´hui comme étant le pape de la science fiction, a créé le terme "Robotic" en 1942 et également créées les trois lois de la robotique moderne:

A robot may not injure a human being or, through inaction, allow a human being to come to harm.
(Un robot ne peut porter atteinte a un être humain, ni restant passif, permettre qu´un étre humain soit exposé au danger.)
A robot must obey orders given to it by human beings, except where such orders would conflict with the First Law.
(Un robot doit obéir aux ordres que lui donne un être humain, sauf si de tels ordres entrent en conflit avec la première loi.)
A robot must protect its own existence as long as such protection does not conflict with the First or Second Law.
(Un robot doit protéger son existence tant que cette protection n´entre pas en conflit avec la première ou la seconde loi.)

En informatique le terme "robot" est utilisé pour ces programmes qui parcourent l´internet à la recherche de pages à visiter. Ils font cela dans le but de rassembler un maximum d´informations qu´ils sauvegardent dans les bases de données de leurs moteurs de recherches respectifs.
Par analogie au "Web" (la toile) ils sont aussi appelés "Spider" (araignée), ou tout simplement "Crawler" (rampeur (du verbe ramper)), "Bot" (abbréviation du mot Robot), "Wanderer" (marcheur) ou "Voyager" (voyageur).

Ce qui est important à savoir est que sur l´Internet TOUT est permis tant que ce n´est pas explicitement interdit. Ainsi ces robots iront examiner toutes les pages de tous les sites qu´ils trouvent (et ce uniquement et exclusivement à l´aide d´hyperliens contenus dans les pages), ils les classent, les sauvegardent dans leurs BDD, que cela plaise aux webmestres de sites ou non, et ce sans que quiconque le leur demande.
A moins que ..............
Il existe un moyen d´interdire aux robots de visiter vos pages: Le fichier "robots.txt" Ce fichier devra:

s´appeler robots.txt (tout en minuscules)
être placé au niveau de la racine du site
être l´unique fichier de ce nom

Comme nous l'avons vu précédemment tout est permis, donc le but essentiel de robots.txt sera de prime abord d´interdire (les exceptions confirmant la règle). TOUS les robots (sans exception) cherchent en premier ce fichier à la racine du site visité. S´il n´y est pas, tout leur est permis.

Les propriétaires de sites Web utilisent /robots.txt pour donner aux robots des instructions concernant leurs sites; ceci est appelé "Robots Exclusion Protocol".
Ça fonctionne de la manière suivante: un robot veut visiter une URL, disons http://www.exemple.com/bienvenue.html. Avant de le faire, il vérifie la présence de http://www.exemple.com/robots.txt et trouve:

User-agent: *

Disallow: /
Le "User-agent: *" signifie que la section s´applique à tous les robots. Le "Disallow: /" dit au robot qu´il ne doit visiter aucune page sur le site.
Il y a deux réflexions à prendre en considération en utilisant un robots.txt:

Un robot peut ignorer votre robots.txt. Spécialement les robots mal-intentionnés qui scannent la toile en vue de failles de sécurités, ou en quête d´adresses courriel utilisées pour des spams.
Le fichier /robots.txt est un fichier public accessible par tous. Chacun peut y voir les sections de votre serveur que vous ne voulez pas que les robots utilisent. Donc n´utilisez pas /robots.txt pour cacher des informations.

Les robots les plus connus (bénins)(à la date du 01.03.2009) sont:

ABCdatos BotLink
Acme.Spider
Ahoy! The Homepage Finder
Alkaline
Anthill
Walhello appie
Arachnophilia
Arale
Araneo
AraybOt
ArchitextSpider
Aretha
ARIADNE
arks
AskJeeves
ASpider (Associative Spider)
ATN Worldwide
Atomz.com Search Robot
AURESYS
BackRub
Bay Spider
BBot
Big Brother
Bjaaland
BlackWidow
Die Blinde Kuh
Bloodhound
Borg-Bot
BoxSeaBot
bright.net caching robot
BSpider
CACTVS Chemistry Spider
Calif
Cassandra
Digimarc Marcspider/CGI
Checkbot
ChristCrawler.com
churl
cIeNcIaFiCcIoN.nEt
CMC/0.01
Collective
Combine System
Conceptbot
ConfuzzledBot
CoolBot
Web Core / Roots
XYLEME Robot
Internet Cruiser Robot
Cusco
CyberSpyder Link Test
CydralSpider
Desert Realm Spider
DeWeb(c) Katalog/Index
DienstSpider
Digger
Digital Integrity Robot
Direct Hit Grabber
DNAbot
DownLoad Express
DragonBot
DWCP (Dridus' Web Cataloging Project)
e-collector
EbiNess
EIT Link Verifier Robot
ELFINBOT
Emacs-w3 Search Engine
ananzi
esculapio
Esther
Evliya Celebi
FastCrawler
Fluid Dynamics Search Engine robot
Felix IDE
Wild Ferret Web Hopper #1, #2, #3
FetchRover
fido
Hämähäkki
KIT-Fireball
Fish search
Fouineur
Robot Francoroute
Freecrawl
FunnelWeb
gammaSpider, FocusedCrawler
gazz
vGCreep
GetBot
GetURL
Golem
Googlebot
Grapnel/0.01 Experiment
Griffon
Gromit
Northern Light Gulliver
Gulper Bot
HamBot
Harvest
havIndex
HI (HTML Index) Search
Hometown Spider Pro
ht://Dig
HTMLgobble
Hyper-Decontextualizer
iajaBot
IBM_Planetwide
Popular Iconoclast
Ingrid
Imagelock
IncyWincy
Informant
InfoSeek Robot 1.0
Infoseek Sidewinder
InfoSpiders
Inspector Web
IntelliAgent
I, Robot
Iron33
Israeli-search
JavaBee
JBot Java Web Robot
JCrawler
Jeeves
JoBo Java Web Robot
Jobot
JoeBot
The Jubii Indexing Robot
JumpStation
image.kapsi.net
Katipo
KDD-Explorer
Kilroy
KO_Yappo_Robot
LabelGrabber
larbin
legs
Link Validator
LinkScan
LinkWalker
Lockon
logo.gif Crawler
Lycos
Mac WWWWorm
Magpie
marvin/infoseek
Mattie
MediaFox
MerzScope
NEC-MeshExplorer
MindCrawler
mnoGoSearch search engine software
moget
MOMspider
Monster
Motor
MSNBot
Muncher
Muninn
Muscat Ferret
Mwd.Search
Internet Shinchakubin
NDSpider
Nederland.zoek
NetCarta WebMap Engine
NetMechanic
NetScoop
newscan-online
NHSE Web Forager
Nomad
The NorthStar Robot
nzexplorer
ObjectsSearch
Occam
HKU WWW Octopus
OntoSpider
Openfind data gatherer
Orb Search
Pack Rat
PageBoy
ParaSite
Patric
pegasus
The Peregrinator
PerlCrawler 1.0
Phantom
PhpDig
PiltdownMan
Pimptrain.com's robot
Pioneer
html_analyzer
Portal Juice Spider
PGP Key Agent
PlumtreeWebAccessor
Poppi
PortalB Spider
psbot
GetterroboPlus Puu
The Python Robot
Raven Search
RBSE Spider
Resume Robot
RoadHouse Crawling System
RixBot
Road Runner: The ImageScape Robot
Robbie the Robot
ComputingSite Robi/1.0
RoboCrawl Spider
RoboFox
Robozilla
Roverbot
RuLeS
SafetyNet Robot
Scooter
Sleek
Search.Aus-AU.COM
SearchProcess
Senrigan
SG-Scout
ShagSeeker
Shai'Hulud
Sift
Simmany Robot Ver1.0
Site Valet
Open Text Index Robot
SiteTech-Rover
Skymob.com
SLCrawler
Inktomi Slurp
Smart Spider
Snooper
Solbot
Spanner
Speedy Spider
spider_monkey
SpiderBot
Spiderline Crawler
SpiderMan
SpiderView(tm)
Spry Wizard Robot
Site Searcher
Suke
suntek search engine
Sven
Sygol
TACH Black Widow
Tarantula
tarspider
Tcl W3 Robot
TechBOT
Templeton
TeomaTechnologies
TITAN
TitIn
The TkWWW Robot
TLSpider
UCSD Crawl
UdmSearch
UptimeBot
URL Check
URL Spider Pro
Valkyrie
Verticrawl
Victoria
vision-search
void-bot
Voyager
VWbot
The NWI Robot
W3M2
WallPaper (alias crawlpaper)
the World Wide Web Wanderer
w@pSpider by wap4.com
WebBandit Web Spider
WebCatcher
WebCopy
webfetcher
The Webfoot Robot
Webinator
weblayers
WebLinker
WebMirror
The Web Moose
WebQuest
Digimarc MarcSpider
WebReaper
webs
Websnarf
WebSpider
WebVac
webwalk
WebWalker
WebWatch
Wget
whatUseek Winona
WhoWhere Robot
Wired Digital
Weblog Monitor
w3mir
WebStolperer
The Web Wombat
The World Wide Web Worm
WWWC Ver 0.2.5
WebZinger
XGET