Sitemap XML : tutoriel complet

XML Sitemap
Shares

La création d’un fichier sitemap.xml est une phase essentielle de la création d’un site web. Cependant, de nombreux débutants sont effrayés par l’aspect et l’apparence trop compliqués de cette tâche. Nous avons donc décidé de rassembler et de systématiser les connaissances disponibles dans ce domaine. Désormais, il sera extrêmement facile de créer un sitemap !

C’est quoi un sitemap.xml ?

Le sitemap (ou plan du site) est un fichier contenant une liste des pages du site web. Il aide les robots à indexer et à atteindre les ressources essentielles. En particulier celles qui viennent d’être créées et celles qui sont difficiles d’accès.

Selon les instructions de Google, le sitemap en tant que fichier unique ne doit pas dépasser 50 Mo et 50 000 URL, et doit être au format XML.

Ce n’est pas toujours une bonne idée d’inclure toutes les sous-pages dans un sitemap, car beaucoup d’entre elles peuvent avoir la valeur d’attribut rel “nofollow” ou “noindex”. Mais ne vous inquiétez pas, vous pouvez en savoir plus sur les URL à inclure dans votre sitemap dans cet article.

Quelles sont les données contenues dans sitemap.xml ?

Le format XML vous permet de présenter vos données de manière structurée. L’utilisation de ce format signifie que tout le monde soumet les informations URL de la même manière et que les robots d’exploration les liront sans problème. Le fichier sitemap.xml doit être encodé en UTF-8 et se composer de trois balises obligatoires.

Les balises les plus importantes dans un fichier sitemap.xml

  • <urlset> Contient le fichier et une référence à la norme de protocole actuelle. C’est l’élément de début et de fin de chaque fichier sitemap.xml. Il contient toutes les balises.
  • <url> La balise parent de chaque entrée d’URL. Vous pouvez y ajouter des balises supplémentaires.
  • <loc> La balise représente l’emplacement de la sous-page. La balise location doit contenir l’URL dans sa forme complète. C’est-à-dire avec le protocole HTTP/HTTPS.

Les balises optionnelles dans le fichier sitemap.xml

  • <lastmod> Indique la date de la dernière modification. Les robots savent si le contenu d’une sous-page donnée a été modifié depuis la dernière analyse. Dans lastmod, nous utilisons la date du W3C (JJ-MM-AAAA).
  • <priority> Cette balise est censée indiquer les sous-pages les plus importantes. Les valeurs de cette balise vont de 0,0 à 1,0, la priorité par défaut pour les sous-pages étant de 0,5. Malheureusement, Google Robots ne tient pas compte de cette balise (source).
  • <changefreq> Balise spécifiant la fréquence des changements. En principe, cet élément devait aider à déterminer la fréquence de balayage d’une sous-page donnée. Vous pouvez insérer l’une des valeurs suivantes :
    • toujours – documents qui changent à chaque fois qu’ils sont ouverts ;
    • toutes les heures – changement toutes les heures ;
    • journalier – change tous les jours ;
    • hebdomadaire – change toutes les semaines ;
    • mensuel – change tous les mois ;
    • annuel – change tous les ans ;
    • jamais – ne change pas.
Sitemap
Image par Mugé de Pixabay

Quel type d’URL sont comprises dans le sitemap?

Comme je l’ai mentionné au début de cet article, toutes les URL ne doivent pas être incluses dans votre sitemap. Certains éléments peuvent nuire au processus d’indexation. Veillons donc à ce que le sitemap ne contienne que des sous-pages de valeur :

  • Pages générant le code de réponse 200 ;
  • Pages non bloquées dans robots.txt ;
  • Liens canoniques ;
  • Pages utiles à l’utilisateur ;
  • Pages non protégées par un mot de passe ou dont l’accès est difficile ;

Si l’on considère le type de site web, il s’agira de la page d’accueil, des catégories et pages de produits. Mais également des entrées de blog, des catégories de blog, des pages FAQ et des pages statiques.

Quelles URL ne devraient pas se retrouver dans le sitemap?

Il est nécessaire de savoir quelles sont les adresses à éviter lors de la création d’un sitemap :

  • URL avec redirections ;
  • Pages d’erreur 40X et 50X ;
  • Pages bloquées par robots.txt ;
  • Pages marquées avec noindex ;
  • Pages de peu de valeur pour les utilisateurs (règlements, politiques de confidentialité) ;
  • Pages de pagination ;
  • Pages de résultats de recherche ;
  • Pages avec paramètres de filtrage ou de tri ;

Comment générer un sitemap ? Les techniques les plus fréquemment utilisées

En fonction de la taille du site web et du CMS utilisé, la génération d’un sitemap peut se faire à l’aide d’outils gratuits (générateurs sitemap.xml), d’outils intégrés ou de plugins.

Comment générer un fichier sitemap.xml pour WordPress ?

Commençons par le CMS le plus populaire. La manière la plus rapide et la plus simple de créer un sitemap est d’utiliser le plugin Yoast SEO. Il crée automatiquement un sitemap pour nous. Il nous suffit de choisir les paramètres appropriés et de décider des ressources à inclure. Le plugin est très intuitif et facile à utiliser. En outre, sa version de base propose des options qui suffisent à la plupart des webmasters.

Sitemap XML
Comment générer un sitemap dans Yoast SEO
Sitemap XML
Des sitemaps de UltaHost générés par Yoast SEO

Comment générer des fichers sitemap.xml pour d’autres SGC ?

D’autres systèmes de gestion de contenu (SGC) populaires disposent également de systèmes de modules d’extension valables. Mais si vous ne trouvez pas de plugin ou de module que vous pouvez utiliser pour créer votre sitemap. Cela ne signifie pas que vous devez le préparer manuellement. Il existe de nombreux outils gratuits et payants que vous pouvez utiliser pour vous aider.

Dans cet article, je veux couvrir les questions décisives liées à sitemap.xml. Donc il n’est pas utile de faire de comparaison des générateurs de sitemap gratuits. Utilisez le “générateur de sitemap XML gratuit” de Google et vous obtiendrez des douzaines de résultats.

Le générateur en ligne gratuit qui crée un sitemap a certaines limites. La plupart du temps, il s’agit du maximum de 500 URL que vous pouvez mettre dans sitemap.xml. Donc, si votre site web n’est pas trop compliqué, vous trouverez un générateur sitemap.xml gratuit en ligne. Si votre site est complexe, il vous faudra consacrer plus de temps au choix d’un bon logiciel.

Les sitemaps créés manuellement ne sont pas mis à jour automatiquement. N’oubliez pas de les mettre à jour après avoir ajouté de nouveaux produits, de nouvelles entrées ou de nouvelles pages.

Où se trouve le fichier sitemap.xml ?

Le fichier sitemap.xml généré se trouve généralement dans le répertoire racine du site web auquel il se rapporte et est disponible à l’adresse https://yourwebsite.com/sitemap.xml. Généralement, mais pas toujours. Le nom et le chemin d’accès peuvent différer selon que le sitemap a été ajouté manuellement ou que nous avons utilisé des solutions intégrées.

Pour faciliter l’accès des robots d’indexation à votre sitemap, il est conseillé d’indiquer le chemin d’accès dans votre fichier robots.txt. Il ne nous reste plus qu’à ajouter la règle Sitemap.

Les types de sitemap.xml les plus répandus

Les sitemaps ne sont pas toujours les mêmes. Selon le type et la taille de votre site web, vous pouvez avoir besoin de différents types de sitemaps. Découvrez ce qu’est un index sitemap, quand il est utile d’opter pour une carte graphique et comment votre sitemap est lié à Google News.

Un sitemap XML standard

Un sitemap XML standard renvoie aux pages de votre site web. Le plus souvent connu sous le nom de sitemap.xml

L’index sitemap

L’index sitemap n’est rien d’autre qu’un sitemap contenant d’autres sitemaps. Il est utilisé pour les sites web complexes, lorsqu’un seul sitemap de grande taille dépasserait 50 Mo. Il faut alors le diviser en plusieurs petits plans et les relier entre eux à l’aide de l’index sitemap.

Par ailleurs, le plugin Yoast SEO mentionné précédemment crée un index sitemap pour différents types de pages. Yoast SEO crée un sitemap distinct pour les pages, les articles de blog, les catégories de blog ou les auteurs.

Index sitemap
Photo par Christina Morillo de Pexels

Sitemap avec fichiers images et vidéos

Si vous souhaitez que vos fichiers images apparaissent dans le moteur de recherche d’images de Google, vous pouvez augmenter les chances d’y parvenir en créant un sitemap dédié. Si les robots d’exploration n’ont aucun mal à trouver et à indexer les fichiers graphiques, des paramètres tels que lazyload peuvent leur compliquer la tâche.

Le sitemap pour les articles sur Google News

Google News est devenu une source d’information pour de nombreux utilisateurs. Il vaut la peine de se battre pour y obtenir une bonne position. Le plan du site avec les articles d’actualité doit contenir des liens vers des articles ne datant pas de plus de deux jours.

Comment enregistrer sitemap.xml dans Google Search Console ?

Nous ne créons pas de sitemaps pour nous-mêmes ou pour les utilisateurs, mais pour les robots d’exploration. Je recommande de publier votre sitemap et de le soumettre à Google Search Console afin que les robots de Google puissent facilement l’atteindre.

Étape 1: Rendez-vous dans l’onglet “Sitemaps” dans le menu latéral.

Étape 2: Saisissez le chemin d’accès à votre plan du site. Il s’agit généralement de sitemap.xml ou sitemap-index.xml.

Étape 3: Vérifiez le statut du sitemap après l’avoir téléchargé. Vous devez vérifier la date de téléchargement, la dernière lecture, le statut et les URL détectées. Si le message “Échec du téléchargement” s’affiche, soumettez à nouveau votre sitemap. Si l’erreur se répète, vérifiez si le fichier est disponible à l’adresse indiquée.

Pourquoi sitemap.xml est-il si important en matière de référencement ?

La création des sitemaps en 2005 a constitué une étape importante vers une meilleure indexation des sites web par les moteurs de recherche. Au fil des ans, les moteurs de recherche et leurs robots d’exploration ont évolué et trouvent mieux les ressources dans les sous-pages.

La vérification et l’optimisation de votre sitemap sont également devenues une partie essentielle des audits de référencement. Les robots qui disposent d’une bonne structure de site web et de liens internes de qualité n’auront aucun problème à indexer vos sous-pages. Cependant, ils le feront lentement.

La création d’un plan du site est une activité relativement rapide et simple qui facilitera la recherche des pages difficiles d’accès. Elle peut contribuer à accélérer la découverte des pages par les robots. Grâce à la soumission de votre sitemap dans Google Search Console, vous obtiendrez plus rapidement des résultats en matière de référencement.

En conclusion

Le plan du site est l’un des éléments de base de l’optimisation d’un site web. Vous pouvez créer un plan du site à l’aide du SGC et de ses fonctions intégrées ou à l’aide d’outils généralement disponibles. La génération et l’ajout d’un sitemap dans le SGC permettront aux robots d’accéder plus facilement à toutes les sous-pages que vous souhaitez indexer. L’ajout d’un plan du site est particulièrement important pour les sites Web nouveaux et de grande taille.

Si vous avez aimé cet article, alors vous aimerez la plateforme d’hébergement UltaHost. Bénéficiez d’une assistance 24h/24 et 7j/7 de la part de notre service clientèle. Notre infrastructure optimisée se concentre sur la mise à l’échelle automatique, la performance et la sécurité. Laissez-nous vous montrer la différence ! Découvrez nos offres !

1 comment
  1. Merci Melvin pour ces explications. La question que je me pose, c’est quel sitemap utiliser entre celui de Yoast-SEO et celui de JetPack ? N’y a-t-il pas un risque pour le référencement si je laisse les 2, comme actuellement ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Previous Post
Optimizing Website Images for SEO

8 conseils pour optimiser les images de votre site

Next Post
Why WordPress Emails End up in Spam

Pourquoi vos emails WordPress finissent dans les spams ?

Related Posts