12 de marzo de 2018

¿Qué es y cómo crear un archivo Sitemap?

Un Sitemap es un archivo XML (eXtensible Markup Language - Lenguaje de Marcas Extensible) que contiene una lista con todos los enlaces de las páginas Webs que hay alojadas en nuestro Sitio Web. Es fundamental, que este archivo Sitemap esté alojado en el directorio raíz del hosting.

Sitemap es una lista de las Webs del Sitio
Sitemap contiene una lista de las páginas Webs del Sitio
Además, la URL del archivo Sitemap tiene que estar definida en nuestro archivo robots.txt porque, como hemos dicho, contiene un listado con todas las páginas Webs que hay alojadas en un Sitio Web y que deben ser rastreadas e indexadas por los robots de los motores de búsqueda.

También ofrece información adicional a los robots, como por ejemplo: con qué frecuencia cambian las páginas Webs su contenido, cuándo se actualizó, la importancia que tienen una página Web con respecto a otras páginas Webs alojadas en el servidor Web, etc...

Todo estos datos ayudarán a los robots a rastrear y a indexar todas las páginas Webs del Sitio Web en función a su importancia y frecuencia de actualización, con lo que conseguiremos mejor el posicionamiento Web de las páginas de un Site.

Un ejemplo, sobre la importancia de una página Web sobre otra, podría ser la página de un artículo y la página de los avisos legales, evidentemente la página del artículo sufre más cambios y tiene más prioridad, por lo que nos interesa que los robots pasen a rastrear la página de un artículo con más frecuencia y le den más prioridad que la página de los avisos legales.

¿Cómo se crea un archivo Sitemap?


La creación del archivo Sitemap debe seguir unas pautas y reglas específicas, mediante el uso de una serie de etiquetas XML que han sido estandarizadas por los principales motores de búsqueda (Google, Bing y Yahoo!), y para que estas etiquetas XML sean las mismas para todos los robots, facilitándoles el trabajo de rastreo e indexado, pero también facilita el trabajo de creación del sitemap.xml al Webmaster.

    Existen una serie de etiquetas que son obligatorias para que el sitemap.xml estén estandarizado y sea rastreado sin dificultad por los robots de Google, Yahoo! o Bing.

    Las etiquetas que se usan para crear el archivo sitemap.xml son las que vamos a describir a continuación.

    ¿Cuáles son las etiquetas obligatorias de un archivo Sitemap?


    El archivo Sitemap se construye mediante unas reglas de modelado definidas por una serie de etiquetas XML estandarizadas por los motores de búsqueda, escritas en un archivo de texto y con codificación UTF-8, que se guardará con la extensión “.XML”, que se define en inglés, como: eXtensible Markup Language, y se puede traducir al español, como: "Lenguaje de Marcado Extensible" o "Lenguaje de Marcas Extensible".

    En el caso de que se usen caracteres especiales, se deben utilizar códigos de escape para estos caracteres especiales.

    Por ejemplo, si necesitamos utilizar las comillas dobles (") deben ser reemplazadas por "&quot;" y los signos menor que (<) o mayor que (>) por "&lt;" y "&gt;" respectivamente.

    Habiendo visto la excepciones, que debemos usar para crear un archivo Sitemap, tenemos que saber, que para comenzar a crear un sitemap.xml, existen una serie de etiquetas que son obligatorias, para que cumpla con los estándares marcado por los motores de búsqueda.

    El Sitemap tiene que comenzar con las etiquetas de apertura y dentro estas etiquetas, se incluirán las etiquetas que especifican la URL de la página Web que tiene que rastrear el robot en el Site, luego se escribirán sus respectivas etiquetas de cierre, para verlo más claro, veamos cómo comienza y cómo se crean este archivo sitemap.xml:

    • El archivo sitemap.xml debe comenzar con una etiqueta de apertura <urlset> y terminar con una de cierre </urlset>. En esta etiqueta se especifica el protocolo estándar dentro de la etiqueta de apertura <urlset>.
    • Incluimos una entrada <url> por cada dirección URL, que corresponderá a cada una de las páginas del sitio. (Nodo XML padre).
    • Y dentro del Nodo XML padre (<url>), incluiremos un nodo XML hijo <loc> para cada URL de cada una de las páginas Webs del Site.

    Podéis observar en este ejemplo de un archivo sitemap.xml de un sitio Web con dos páginas, tenéis la estructura mínima y las etiquetas obligatorias que todo Sitemap tiene que llevar para cumplir con los estándares marcados por los motores de búsqueda.

    Observaréis, que es un ejemplo muy simple para que sea más fácil de comprender:

    <?xml version="1.0" encoding="UTF-8"?>
    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
    <loc>http://www.ejemplo.com/</loc>
    </url>
    <url>
    <loc>http://www.ejemplo.com/contacto.html</loc>
    </url>
    </urlset>

    Etiquetas obligatorias en un Sitemap
    Vigila las etiquetas obligatorias de un archivo Sitemap

    ¿Cuáles son las etiquetas de un archivo Sitemap opcionales?


    Cada nodo padre <url> , además del nodo hijo <loc> obligatorio, puede contener una serie de etiquetas XML que ofrecen una información útil para los robot, facilitándoles el proceso de rastreo e indexado y que lo hagan de una forma más eficiente. Los nodos opcionales son:

    <lastmod>Fecha</lastmod>


    Se refiere a la fecha de la última modificación o actualización de la página Web que figura en la etiqueta XML, <loc>. Esta fecha debe expresarse en formato AAAA-MM-DD, por ejemplo 2018-08-16.

    <changefrec>Frecuencia</changefrec>


    Hace referencia a cuánto tiempo se cambia o se actualiza la página que figura en la etiqueta <loc> (nodo hijo) y es un dato que indicará al robot con qué frecuencia debe volver a rastrear o visitar esta página Web. Es un valor orientativo, es decir, no significa que el robot vuelva a rastrear forzosamente en el tiempo indicado en esta etiqueta XML, pero se le da las indicaciones para que lo haga más o menos en el periodo de tiempo indicado.

    Esta frecuencia de rastreo, se usa para páginas Web que cambian con una más frecuencia y se le puede asignar los siguientes valores, en función de la necesidad que tengamos para que el robot vuelva a rastrear la página Web:

    • Hourly: Cada hora.
    • Daily: Cada día.
    • Weekly: Cada semana.
    • Monthly: Cada mes.
    • Yearly: Cada año.
    • Never: Nunca.

    <priority>Valor</priority>


    Esta etiqueta trata la importancia que tiene una página con respecto de las demás páginas Webs. Es una manera de indicar la prioridad o la importancia que tiene cada una de las páginas Webs dentro del Sitio Web, pero sin ningún efecto hacia el exterior del Sitio Web, es decir, los usuarios no percibirán que existen dentro del Sitio Web unas páginas Webs más relevantes que otras.

    Valor que puede tomar esta etiqueta va entre 0 y 1, el valor por defecto es 0.5 y cuanto mayor es el número, mayor será la prioridad, por ejemplo: 0.0 sería la menor prioridad y 1 la mayor prioridad.

    En este ejemplo de un archivo Sitemap, hemos agregando los atributos opcionales:

    <?xml version="1.0" encoding="UTF-8"?>
    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
    <loc>http://www.ejemplo.com/</loc>
    <lastmod>2018-08-17</lastmod>
    <changefrec>monthly</changefrec>
    <priority>0.8</priority>
    </url>
    <url>
    <loc>http://www.ejemplo.com/contacto.html</loc>
    <lastmod>2018-08-17</lastmod>
    <changefrec>yearly</changefrec>
    <priority>0.3</priority>
    </url>
    </urlset>

    El archivo sitemap.xml se aloja en el servidor, como un archivo más del Sitio Web y se recomienda colocar el archivo sitemap.xml directamente en el directorio raíz del hosting.

    Además se debe indicar la URL, donde está alojado este archivo sitemap.xml en el archivo robots.txt, que también debe estar alojado en el directorio raíz del hosting.

    Una vez, que tengamos creado el archivo sitemap.xml y lo hemos colocado en el directorio raíz del Sitio Web, solo queda enviar la URL del Sitemap a los buscadores, para que puedan disponer del archivo sitemap.xml y que los robots empiecen a rastrear las URL indicadas en este archivo Sitemap.

    ¿Qué herramientas online puedo usar para generar el sitemap.xml?


    Existe muchas herramientas online para generar automáticamente el archivo sitemap.xml, que te pueden ayudar a crearlo, sin tener que complicarte la vida creando este archivo sitemap.xml de una manera rápida y sencilla, como por ejemplo puedes usar las siguientes herramientas online para generar el sitemap.xml:


    Pero aunque estas herramientas nos hagan el trabajo sucio para crear un archivo sitemap.xml de forma automática, siempre es conveniente saber cúal es su estructura y la teoría de cómo se crea un archivo Sitemap, pero sobre todo para comprender las diferentes opciones que nos van a pedir estas herramientas para generar el Sitemap.

    ¿Cómo indico a los buscadores dónde está el archivo sitemap.xml?


    Una vez que tengamos creado el archivo sitemap.xml es necesario, avisar a los motores de búsqueda y a los robots, dónde pueden encontrar este archivo, para hacerlo tenemos que hacer dos cosas:

    La primera, es incluir la dirección o URL del archivo sitemap.xml en el archivo robots.txt, para que cuando los robots accedan a este archivo lean la instrucción y sepan a dónde dirigirse para rastrear todas las páginas Web, que hayamos incluido en este archivo Sitemap, este es el motivo por lo que el sitemap.xml es importante para mejorar el SEO, ya que ayudamos al robot a rastrear e indexar todas las páginas Web nuestro Sitio, ofreciéndole una lista con todas las páginas Webs, fecha de creación de las Webs, la frecuencia con que se actualizan y la prioridad o importancia que tiene una página Web sobre las otras páginas Webs de Site.

    Para hacer esto solo tendremos que añadir en una línea con esta instrucción al final del archivo robots.txt, por ejemplo:

    User-agent: Mediapartners-Google
    Disallow:
    User-agent: *
    Allow: /
    Sitemap: http://antoniocruzgomez.blogspot.com/sitemap.xml

    La instrucción para indicar al robot, dónde está el archivo Sitemap
    debe incluirse en la última línea del archivo robots.txt y tiene que incluir la palabra “Sitemap:” y a continuación la URL dónde se ha alojado en nuestro hosting el archivo sitemap.xml.

    La segunda forma de enviar a los motores de búsqueda el archivo Sitemap, pero es necesario dos cosas:

    1. Tener creado un usuario (un email), para poder acceder a las herramientas de Webmaster, que nos ofrece Google en su caso se llama: Search Console Google y Bing, que se llama: Bing - Webmaster Tools, esta última herramientas también ayudará a que Yahoo! rastree e indexe nuestras páginas Web en este buscador.
    2. Y haber agregado la propiedad del Sitio Web a estas herramientas de Webmaster.

    Una vez, que cumplimos estos dos requisitos, ya podremos indicar sesión en estas herramientas para indicar cuál es la URL, dónde se encuentra alojado nuestro sitemap.xml, en este caso os mostraré primero:

    ¿Cómo subir el archivo Sitemap a Yahoo! y Bing?


    Para subir el archivo sitemap en Bing y Yahoo! usaremos la herramienta de Webmaster de Bing que se llama Bing Webmaster Tools, y seguiremos los siguientes pasos para subir el archivo sitemap.xml de nuestro Site a Bing y Yahoo!:
    1. Nos logueamos y accedemos a la herramienta.
    2. Una vez que estamos en la herramienta de Webmaster de Bing, nos dirigimos:
      • Panel -> Configurar mi sitio -> Sitemap
    3. Y en el campo de texto del formulario escribimos la URL, dónde está alojado el archivo sitemap.xml de nuestro Sitio Web, una vez incluida la dirección, pulsamos el botón: “Enviar”.
    Herramienta de Webmaster de Bing
    Herramienta de Webmaster de Bing para incluir sitemap.xml

    ¿Cómo subir el archivo Sitemap a Google?


    En el caso usaremos la herramienta de Webmaster de Google, que la han llamado Search Console Google, seguimos los siguientes pasos para indicar a Google, donde puede encontrar el archivo sitemap.xml de nuestro Site:
    1. Nos logueamos y accedemos a la herramienta.
    2. Rastreo -> Sitemap
    3. Cuando se cargue la página, nos aparece el botón: “Añadir o probar Sitemap”, cuando lo pulsemos aparece un formulario con un campo de texto, donde escribimos la URL del archivo sitemap.xml del Site, y finalmente pulsamos el botón: “Enviar”.
    Herramienta de Webmaster de Google
    Herramienta de Webmaster de Google para incluir sitemap.xml

    Una vez, que hemos avisado a los buscadores, dónde pueden localizar el archivo Sitemap con estas herramientas de Webmaster que nos ofrecen los motores de búsqueda, tendremos que esperar unos cuantos días para darle tiempo a los robots a arrojar resultados sobre el estado rastreo e indexado de las páginas Web del Sitio Web.

    Conclusión:


    El archivo Sitemap es muy importante para mejorar el posicionamiento Web, porque facilitamos el trabajo de rastreo e indexación de los robots de los motores de búsqueda.

    Es importante tenerlo alojado en directorio raíz de nuestro servidor Web, porque ofrece mapa completo de todas las páginas Webs, que deben de rastrear los robots de los motores de búsqueda, cuando llegan a un Sitio Web, mejorando el trabajo de rastreo y la indexación de las todas las páginas Web, además de ofrecerles información adicional sobre la prioridad o valor que tienen cada página Web.

    Google, Yahoo! y Bing, en su día llegaron a un acuerdo para que el formato Sitemap 0.90 fuese el aceptado por todos los motores de búsqueda, y estandarizar el formato del archivo Sitemap, facilitando el trabajo de rastreo e indexación de los robots, además de no tener que crear diferentes archivos Sitemap para cada uno de los robots de los diferentes buscadores.

    También es importante, avisar a estos buscadores a través de las herramientas de Webmaster, como Search Console o de Bing - Webmaster Tools para indicarles la URL, dónde está alojado el archivo sitemap.xml y proporcionarles toda la información de las páginas Webs que contienen nuestro Sitio Web a los robots de los motores de búsqueda.

    En caso de que necesites más información, puedes visitar la Web oficial:
    Espero, que este artículo os haya servido de ayuda y dejéis vuestro comentario sobre, cómo creáis vosotros un archivo Sitemap, qué herramientas usáis o cualquier duda que os surja.

    Un saludo:

    Antonio

    2 comentarios:

    1. Creo que he aprendido como crear mi sitemap-xml

      ResponderEliminar
      Respuestas
      1. Ese es el objetivo de este artículo. 🎯

        Mi intención es, que quien consulte mi Blog, se le queden las ideas claras sobre el tema tratado, y si no es así, puede consultarme, que intentaré ayudarle dentro de mis posibilidades y conocimientos. 😅👍

        Gracias por tu comentario, porque es un aliento de ánimo para seguir trabajando y publicando artículos. 👌😎

        Eliminar

    No olvides dejar tu opinión o comentario, entre todos podemos aprender más sobre los temas, que en este Blog se tratan. Y muchas gracias por tu tiempo. 👋😎

    Pero sobre todo, no te olvides seguidme en Twitter o Facebook. Gracias. 😎👍