Qu'est-ce que robots.txt ?
C'est comme une pancarte « personnel autorisé seulement » à l’entrée d’un hangar : les personnes honnêtes la respectent, mais ce n’est pas un coffre-fort. Le fichier robots.txt oriente les robots de recherche vers ou hors certaines zones et peut référencer vos sitemaps XML. Il fait partie du SEO technique — distinct des balises meta robots déjà couvertes dans une autre fiche.
Comment ça marche ?
Requête sur la racine du domaine ; parsing par bots ; combinaison avec directives meta robots et en-têtes HTTP page par page. Les URLs bloquées peuvent rester indexées si découvertes ailleurs sans crawl du contenu — d’où l’importance des compléments noindex si nécessaire.
Après chaque refonte ou changement CDN, revérifier que le bon fichier est servi — erreur classique sur environnements multiples.
L'Impact Business
Un robots.txt qui bloque accidentellement des ressources critiques ou tout le site peut faire chuter l’exploration et la visibilité. Bien utilisé, il réduit le crawl de facettes inutiles et oriente le budget vers les URLs rentables.
Bonnes pratiques vs Erreurs communes
- ✅ À faire : Versionner le fichier dans le dépôt ; tester avec Search Console ; documenter la raison de chaque règle ; surveiller après migration ou CDN.
- ❌ À éviter : Bloquer des ressources nécessaires au rendu. Directives contradictoires. Croire que le fichier sécurise des données privées.
Prompt IA
Écris un robots.txt minimal pour : autoriser tout sauf
/wp-admin/, pointer deux sitemaps, et rappelle trois pièges fréquents (majuscules, chemins, sous-domaines).