En qué consiste los Robots.txt
La decisión de usar robots.txt se adoptó en 1994 como parte de la Norma de Exclusión de Robots. Según Google Help Center, el objetivo principal del archivo no es evitar que las páginas web se muestren en los resultados de búsqueda, sino limitar el número de solicitudes realizadas por los robots a los sitios, así como reducir la carga del servidor.
En términos generales, el contenido del archivo robots.txt debe verse como una recomendación para los rastreadores de búsqueda que define las reglas para el rastreo de sitios web. Para acceder al contenido del archivo robots.txt de cualquier sitio, todo lo que tiene que hacer es escribir "/robots.txt" después del nombre de dominio en el navegador.
¿Para qué se utiliza robots.txt?
La función principal del documento es evitar el escaneo de páginas y archivos de recursos para que el presupuesto de rastreo se asigne de manera más eficiente. En la gran mayoría de los casos, el archivo robots.txt oculta información que no proporciona a los visitantes del sitio web ningún valor y no afecta a los rankings de SERP.
Nota: El presupuesto de rastreo es el número de páginas web que un robot de búsqueda puede rastrear. Para usarlo más frugalmente, los robots de búsqueda solo deben dirigirse al contenido más importante de los sitios web y bloquear el acceso a información inútil.
¿Qué páginas y archivos se suelen cerrar a través de robots.txt?
1. Páginas que contienen datos personales.
Los datos personales pueden incluir nombres y números de teléfono que los visitantes indican durante el registro, paneles personales y páginas de perfil, números de tarjetas de pago. Por razones de seguridad, el acceso a dicha información debe protegerse adicionalmente con una contraseña.
2. Páginas auxiliares que solo aparecen después de ciertas acciones del usuario.
Tales acciones suelen incluir mensajes que los clientes reciben después de completar con éxito un pedido, formularios de cliente, páginas de autorización o recuperación de contraseña.
3. Panel de administración y archivos del sistema.
Archivos internos y de servicio con los que interactúan los administradores de sitios web o webmasters.
4. Páginas de búsqueda y clasificación de categorías.
Las páginas que se muestran después de que un visitante del sitio web ingresa una consulta en el cuadro de búsqueda del sitio generalmente se cierran de los rastreadores de motores de búsqueda. Lo mismo ocurre con los resultados que obtienen los usuarios al ordenar los productos por precio, clasificación y otros criterios. Los sitios de agregadores pueden ser una excepción.
5. Filtrar páginas.
Los resultados que se muestran con un filtro aplicado (tamaño, color, fabricante, etc.) son páginas separadas y se pueden ver como contenido duplicado. Como regla general, los expertos en SEO también evitan que sean rastreados, excepto en los casos en que generan tráfico de palabras clave de marca u otras consultas de destino.
6. Archivos de un cierto formato.
Tales archivos pueden incluir fotos, videos, . Documentos PDF, archivos JS. Con la ayuda de robots.txt, puede restringir el escaneo de archivos individuales o específicos de extensión.
¿Cómo crear un archivo robots.txt y dónde ponerlo?
Herramientas para configurar robots.txt
Dado que el documento tiene una extensión .txt, cualquier editor de texto que admita la codificación UTF-8 será adecuado. La opción más fácil es el Bloc de notas (Windows) o TextEdit (Mac).
También puede utilizar una herramienta de generador robots.txt que generará un archivo robots.txt basado en la información especificada.
Título y tamaño del documento
El nombre del archivo robots.txt debería verse exactamente así, sin el uso de mayúsculas. De acuerdo con las directrices de Google, el tamaño permitido del documento es de 500 KiB. Superar este límite puede resultar en que el robot de búsqueda procese parcialmente el documento, no rastree el sitio web en absoluto o, a la inversa, escanee el contenido de un sitio web en su totalidad.
Dónde colocar el archivo
El documento debe estar ubicado en el directorio raíz del host del sitio web y se puede acceder a través de FTP. Antes de realizar cualquier cambio, se recomienda descargar el archivo robots.txt en su forma original.
sintaxis y directivas robots.txt
Ahora echemos un vistazo más de cerca a la sintaxis de un archivo robots.txt que consta de directivas (reglas), parámetros (páginas, archivos, directorios) y caracteres especiales, así como las funciones que realizan.