robots.txt et meta robots : lequel gagne ?

Les directives les plus restrictives au niveau page s’appliquent après crawl possible ; robots.txt empêche le crawl mais pas toujours l’index si URL connue par ailleurs.

Empêcher indexation avec robots.txt ?

Insuffisant seul : préférer noindex ou suppression ; robots.txt évite surtout le crawl, pas la désindexation garantie.

Public par nature ; ne jamais y exposer chemins secrets — utiliser auth réelle.

Qu'est-ce que robots.txt ?

C'est comme une pancarte « personnel autorisé seulement » à l’entrée d’un hangar : les personnes honnêtes la respectent, mais ce n’est pas un coffre-fort. Le fichier robots.txt oriente les robots de recherche vers ou hors certaines zones et peut référencer vos sitemaps XML. Il fait partie du SEO technique — distinct des balises meta robots déjà couvertes dans une autre fiche.

Comment ça marche ?

Requête sur la racine du domaine ; parsing par bots ; combinaison avec directives meta robots et en-têtes HTTP page par page. Les URLs bloquées peuvent rester indexées si découvertes ailleurs sans crawl du contenu — d’où l’importance des compléments noindex si nécessaire.

Après chaque refonte ou changement CDN, revérifier que le bon fichier est servi — erreur classique sur environnements multiples.

L'Impact Business

Un robots.txt qui bloque accidentellement des ressources critiques ou tout le site peut faire chuter l’exploration et la visibilité. Bien utilisé, il réduit le crawl de facettes inutiles et oriente le budget vers les URLs rentables.

Bonnes pratiques vs Erreurs communes

✅ À faire : Versionner le fichier dans le dépôt ; tester avec Search Console ; documenter la raison de chaque règle ; surveiller après migration ou CDN.
❌ À éviter : Bloquer des ressources nécessaires au rendu. Directives contradictoires. Croire que le fichier sécurise des données privées.

Prompt IA

Écris un robots.txt minimal pour : autoriser tout sauf /wp-admin/, pointer deux sitemaps, et rappelle trois pièges fréquents (majuscules, chemins, sous-domaines).