(ou "Spiders" ou "Crawlers" ou "Wanderer")
Etymologie: Le mot "Robot" est issu des langues slaves est ne veut rien dire d'autre que "travail" ("Robotnyk" = travailleur en tchèque).
Ce terme, désignant des humains artificiels, fut utilisé pour la première fois par Karel Čapek en 1917.
Isaac Asimov, considéré aujourd´hui comme étant le pape de la science fiction, a créé le terme "Robotic" en 1942 et également créées les trois lois de la robotique moderne:
- A robot may not injure a human being or, through inaction, allow a human being to come to harm.
(Un robot ne peut porter atteinte a un être humain, ni restant passif, permettre qu´un étre humain soit exposé au danger.) - A robot must obey orders given to it by human beings, except where such orders would conflict with the First Law.
(Un robot doit obéir aux ordres que lui donne un être humain, sauf si de tels ordres entrent en conflit avec la première loi.) - A robot must protect its own existence as long as such protection does not conflict with the First or Second Law.
(Un robot doit protéger son existence tant que cette protection n´entre pas en conflit avec la première ou la seconde loi.)
En informatique le terme "robot" est utilisé pour ces programmes qui parcourent l´internet à la recherche de pages à visiter. Ils font cela dans le but de rassembler un maximum d´informations qu´ils sauvegardent dans les bases de données de leurs moteurs de recherches respectifs.
Par analogie au "Web" (la toile) ils sont aussi appelés "Spider" (araignée), ou tout simplement "Crawler" (rampeur (du verbe ramper)), "Bot" (abbréviation du mot Robot), "Wanderer" (marcheur) ou "Voyager" (voyageur).
Ce qui est important à savoir est que sur l´Internet TOUT est permis tant que ce n´est pas explicitement interdit. Ainsi ces robots iront examiner toutes les pages de tous les sites qu´ils trouvent (et ce uniquement et exclusivement à l´aide d´hyperliens contenus dans les pages), ils les classent, les sauvegardent dans leurs BDD, que cela plaise aux webmestres de sites ou non, et ce sans que quiconque le leur demande.
A moins que ..............
Il existe un moyen d´interdire aux robots de visiter vos pages:
- s´appeler robots.txt (tout en minuscules)
- être placé au niveau de la racine du site
- être l´unique fichier de ce nom
Les propriétaires de sites Web utilisent /robots.txt pour donner aux robots des instructions concernant leurs sites; ceci est appelé "Robots Exclusion Protocol".
Ça fonctionne de la manière suivante: un robot veut visiter une URL, disons http://www.exemple.com/bienvenue.html. Avant de le faire, il vérifie la présence de http://www.exemple.com/robots.txt et trouve:
User-agent: *
Disallow: /
Le "User-agent: *" signifie que la section s´applique à tous les robots. Le "Disallow: /" dit au robot qu´il ne doit visiter aucune page sur le site.
Il y a deux réflexions à prendre en considération en utilisant un robots.txt:
- Un robot peut ignorer votre robots.txt. Spécialement les robots mal-intentionnés qui scannent la toile en vue de failles de sécurités, ou en quête d´adresses courriel utilisées pour des spams.
- Le fichier /robots.txt est un fichier public accessible par tous. Chacun peut y voir les sections de votre serveur que vous ne voulez pas que les robots utilisent. Donc n´utilisez pas /robots.txt pour cacher des informations.
Les robots les plus connus (bénins)(à la date du 01.03.2009) sont:
- ABCdatos BotLink
- Acme.Spider
- Ahoy! The Homepage Finder
- Alkaline
- Anthill
- Walhello appie
- Arachnophilia
- Arale
- Araneo
- AraybOt
- ArchitextSpider
- Aretha
- ARIADNE
- arks
- AskJeeves
- ASpider (Associative Spider)
- ATN Worldwide
- Atomz.com Search Robot
- AURESYS
- BackRub
- Bay Spider
- BBot
- Big Brother
- Bjaaland
- BlackWidow
- Die Blinde Kuh
- Bloodhound
- Borg-Bot
- BoxSeaBot
- bright.net caching robot
- BSpider
- CACTVS Chemistry Spider
- Calif
- Cassandra
- Digimarc Marcspider/CGI
- Checkbot
- ChristCrawler.com
- churl
- cIeNcIaFiCcIoN.nEt
- CMC/0.01
- Collective
- Combine System
- Conceptbot
- ConfuzzledBot
- CoolBot
- Web Core / Roots
- XYLEME Robot
- Internet Cruiser Robot
- Cusco
- CyberSpyder Link Test
- CydralSpider
- Desert Realm Spider
- DeWeb(c) Katalog/Index
- DienstSpider
- Digger
- Digital Integrity Robot
- Direct Hit Grabber
- DNAbot
- DownLoad Express
- DragonBot
- DWCP (Dridus' Web Cataloging Project)
- e-collector
- EbiNess
- EIT Link Verifier Robot
- ELFINBOT
- Emacs-w3 Search Engine
- ananzi
- esculapio
- Esther
- Evliya Celebi
- FastCrawler
- Fluid Dynamics Search Engine robot
- Felix IDE
- Wild Ferret Web Hopper #1, #2, #3
- FetchRover
- fido
- Hämähäkki
- KIT-Fireball
- Fish search
- Fouineur
- Robot Francoroute
- Freecrawl
- FunnelWeb
- gammaSpider, FocusedCrawler
- gazz
- vGCreep
- GetBot
- GetURL
- Golem
- Googlebot
- Grapnel/0.01 Experiment
- Griffon
- Gromit
- Northern Light Gulliver
- Gulper Bot
- HamBot
- Harvest
- havIndex
- HI (HTML Index) Search
- Hometown Spider Pro
- ht://Dig
- HTMLgobble
- Hyper-Decontextualizer
- iajaBot
- IBM_Planetwide
- Popular Iconoclast
- Ingrid
- Imagelock
- IncyWincy
- Informant
- InfoSeek Robot 1.0
- Infoseek Sidewinder
- InfoSpiders
- Inspector Web
- IntelliAgent
- I, Robot
- Iron33
- Israeli-search
- JavaBee
- JBot Java Web Robot
- JCrawler
- Jeeves
- JoBo Java Web Robot
- Jobot
- JoeBot
- The Jubii Indexing Robot
- JumpStation
- image.kapsi.net
- Katipo
- KDD-Explorer
- Kilroy
- KO_Yappo_Robot
- LabelGrabber
- larbin
- legs
- Link Validator
- LinkScan
- LinkWalker
- Lockon
- logo.gif Crawler
- Lycos
- Mac WWWWorm
- Magpie
- marvin/infoseek
- Mattie
- MediaFox
- MerzScope
- NEC-MeshExplorer
- MindCrawler
- mnoGoSearch search engine software
- moget
- MOMspider
- Monster
- Motor
- MSNBot
- Muncher
- Muninn
- Muscat Ferret
- Mwd.Search
- Internet Shinchakubin
- NDSpider
- Nederland.zoek
- NetCarta WebMap Engine
- NetMechanic
- NetScoop
- newscan-online
- NHSE Web Forager
- Nomad
- The NorthStar Robot
- nzexplorer
- ObjectsSearch
- Occam
- HKU WWW Octopus
- OntoSpider
- Openfind data gatherer
- Orb Search
- Pack Rat
- PageBoy
- ParaSite
- Patric
- pegasus
- The Peregrinator
- PerlCrawler 1.0
- Phantom
- PhpDig
- PiltdownMan
- Pimptrain.com's robot
- Pioneer
- html_analyzer
- Portal Juice Spider
- PGP Key Agent
- PlumtreeWebAccessor
- Poppi
- PortalB Spider
- psbot
- GetterroboPlus Puu
- The Python Robot
- Raven Search
- RBSE Spider
- Resume Robot
- RoadHouse Crawling System
- RixBot
- Road Runner: The ImageScape Robot
- Robbie the Robot
- ComputingSite Robi/1.0
- RoboCrawl Spider
- RoboFox
- Robozilla
- Roverbot
- RuLeS
- SafetyNet Robot
- Scooter
- Sleek
- Search.Aus-AU.COM
- SearchProcess
- Senrigan
- SG-Scout
- ShagSeeker
- Shai'Hulud
- Sift
- Simmany Robot Ver1.0
- Site Valet
- Open Text Index Robot
- SiteTech-Rover
- Skymob.com
- SLCrawler
- Inktomi Slurp
- Smart Spider
- Snooper
- Solbot
- Spanner
- Speedy Spider
- spider_monkey
- SpiderBot
- Spiderline Crawler
- SpiderMan
- SpiderView(tm)
- Spry Wizard Robot
- Site Searcher
- Suke
- suntek search engine
- Sven
- Sygol
- TACH Black Widow
- Tarantula
- tarspider
- Tcl W3 Robot
- TechBOT
- Templeton
- TeomaTechnologies
- TITAN
- TitIn
- The TkWWW Robot
- TLSpider
- UCSD Crawl
- UdmSearch
- UptimeBot
- URL Check
- URL Spider Pro
- Valkyrie
- Verticrawl
- Victoria
- vision-search
- void-bot
- Voyager
- VWbot
- The NWI Robot
- W3M2
- WallPaper (alias crawlpaper)
- the World Wide Web Wanderer
- w@pSpider by wap4.com
- WebBandit Web Spider
- WebCatcher
- WebCopy
- webfetcher
- The Webfoot Robot
- Webinator
- weblayers
- WebLinker
- WebMirror
- The Web Moose
- WebQuest
- Digimarc MarcSpider
- WebReaper
- webs
- Websnarf
- WebSpider
- WebVac
- webwalk
- WebWalker
- WebWatch
- Wget
- whatUseek Winona
- WhoWhere Robot
- Wired Digital
- Weblog Monitor
- w3mir
- WebStolperer
- The Web Wombat
- The World Wide Web Worm
- WWWC Ver 0.2.5
- WebZinger
- XGET