
----------------------------------------------------------------------------------
L' indexation
Les
moteurs de recherche scrutent le web inlassablement pour découvrir
de nouvelles pages web et référencer de nouveaux sites internet.
Si on prend l'exemple de Google, qui reste incontestablement le leader
mondial pour les recherches sur le web, indexer un site dans sa base de
données en obtenant des liens sur un site ( meme à faible
page rank ) semble plus rapide et efficace qu'une soumission standard.
C'est d'ailleurs en utilisant cette méthode que le site teteaweb.free.fr
est présent dans la base de données Google.
LE
FICHIER ROBOTS
Lorsque
les robots des moteurs de recherche (spiders) scrutent un nouveau site
ils recherchent en priorité le fichiers robots.txt, qui doit se
trouver à la racine de votre site. Ce fichier permet d'interdire
l'accès à certains répertoires sensibles de votre
site, ou à certains robots.Il ne peut exister qu'un seul fichier
robots.txt sur un
site.
Logiquement les robots des grands moteurs respectent les instructions
qui sont fournis dans ce fichier.
Il faut que ce fichier soit édité avant de commencer votre
référencement bien sur. Sinon, il présentera peu
d'interet, si vos repertoires sensibles ont déjà été
visités par les spiders.
Si ce fichier n'existe pas, les spiders des moteurs indexeront toutes
vos pages sans restriction.
SYNTAXE
DU FICHIER ROBOTS.TXT
Voici
un exemple de la syntaxe d'un fichier robots.txt.
User-agent: *
Disallow: /cgi-bin/
Disallow: /sessions/
Disallow: /images/
Disallow: /restrict/prix.html
Dans l 'exemple ci dessus, User-agent: * signifie
que l'accès est accordé à tous les agents (tous les
spiders), quels qu'ils soient.
Les robots n'iront pas explorer les répertoires /cgi-bin/, /sessions/,
/images/ du serveur ni le
fichier /restrict/prix.html.
User-agent: *
Disallow: /
Dans
l 'exemple ci dessus, tous les robots sont concernés, tous les
fichiers et dossiers sont interdits .
User-agent: Slurp
Disallow: /
Dans
l 'exemple ci dessus, Slurp Précise le nom du robot concerné
( Celui de Yahoo ).
Cette commande interdit au robot de Yahoo la visite du site .
#
apres ce signe vous pouvez placer vos commentaires
User-agent: *
Allow: /restrict/visite.htm
Disallow: /restrict
Dans
l 'exemple ci dessus, le repertoire
perso est interdit excepté le fichier visite.htm .
Une
ligne vide indique aux robots une nouvelle commande.
L'étoile (*) n'est utilisable que dans le champ User-agent.
Respectez la casse des ordres et de vos fichiers
Vous devez écrire Disallow et non disallow, sans espace entre Disallow
et :
Vous devez laisser un espace entre Disallow: et la suite .
Respectez la casse ; Slurp et non slurp.
Un signe dièse (#) vous permet d'inclure des commentaires ( voir
plus haut dans l'exemple ).
REMARQUE
CONCERNANT LE FICHIER ROBOTS
Attention,
certains spiders ne respectent pas les instructions imposés par
le fichier robots.txt.
Si vous ne souhaitez pas que votre site soit visité par certains
spiders, vous devez en protéger l'accés avec le fichier
.htaccess.
|