Esta guía para usar noindex, nofollow y disallow será útil si sus páginas web necesitan ser invisibles para los motores de búsqueda, robots de indexación y rastreadores de páginas web.
Puede haber ocasiones en las que necesite hacer que sus páginas web sean invisibles para los motores de búsqueda, los robots de indexación y los rastreadores de páginas web. En estos casos, podría considerar añadir «noindex», «nofollow» y/o «disallow» a los atributos, etiquetas, metadatos y comandos de su página web; esto incluye los sitios utilizados para el desarrollo, pruebas o puesta en escena, o si desea limitar el acceso a las páginas (por ejemplo, los portales de inicio de sesión o las galerías de fotos), o si las páginas o ciertos enlaces se consideran redundantes, obsoletos, archivados o contienen contenido trivial.
Esta guía le ayudará a comprender cómo utilizar «noindex», «nofollow» y/o «disallow» como parte de su rutina de mantenimiento y gestión del sitio web.
Ejemplos de sintaxis
Índice de páginas web
Los siguientes ejemplos resaltan varias opciones y combinaciones disponibles para las etiquetas de metadatos que se pueden añadir dentro de la
etiqueta.Esta etiqueta de metadatos le dirá a todos los motores de búsqueda que indexen todo su sitio web; también indexará todas sus otras páginas web.
<name="robots" content="index, follow">
Esta etiqueta de metadatos instruirá a los motores de búsqueda para que no indexen esta página en particular, pero se arrastrará por el resto de las páginas web de su sitio web.
<name="robots" content="noindex, follow">
Esta etiqueta de metadatos le dice a los motores de búsqueda que sólo indexen esta página y dejen de rastrear más.
<name="robots" content="index, nofollow">
Esta etiqueta de metadatos indica a los motores de búsqueda que no indexen esta página y que no rastreen más.
<name="robots" content="noindex, nofollow">
Supongamos que sólo desea bloquear la indexación de su sitio web por parte de «googlebot»; utilizaría esta sintaxis.
<name="googlebot" content="noindex">
Enlace
También puede utilizar el «nofollow» dentro de enlaces activos específicos dentro de las páginas que no desee indexar. La sintaxis para un enlace nofollow se parece a esta etiqueta de anclaje ColdFusion cfm ejemplo.
<una href=#ref=#relativepath#any-directory/any-webpage.cfm rel="nofollow">
Robots.txt no permitido
También puede utilizar un archivo robots.txt y ponerlo en su directorio raíz web u otro directorio dependiendo de la configuración de su servidor web. Un archivo robots.txt típico contendrá sólo unas pocas líneas de código, lo que da el comando a los robots utilizando lo que se conoce como el Protocolo/Estándar de Exclusión de Robots. Los ejemplos de sintaxis que aparecen a continuación ilustran varias formas de implementar la característica.
Este ejemplo ordena a todos los robots que se mantengan fuera de su sitio web.
User-agent: *Disallow:/ /Disallow:/Disallow:/Disallow:/Disallow:/Disallow:/Disallow:/Disallow:/Disallow:/Disallow:/Disponible
Este ejemplo ordena a todos los robots que se mantengan fuera de directorios específicos.
User-agent: *Disallow: /backup/Disallow: /archivo/Desactivar: /cgi-mail/
Este ejemplo ordena a todos los robots que se mantengan fuera de un archivo específico.
User-agent: *Disallow: /cualquier directorio/cualquier archivo.htm
Puede listar múltiples robots específicos para mantenerlos fuera de áreas específicas o de todas las áreas de su sitio web. A continuación se muestran varios ejemplos.
User-agent: badbot Disallow: /private/ User-agent: anybot-news Disallow: / User-agent: googlebotDisallow: /
Advertencia
Aunque estas estrategias le ayudarán en la búsqueda de la gestión del acceso, su uso no garantiza automáticamente que sus etiquetas o comandos «noindex», «nofollow» y/o «disallow» sean observados por todos los motores de búsqueda, arañas y rastreadores. Puede tomar tiempo para que estos métodos surtan efecto, especialmente si previamente se permitió que las páginas se indexaran o siguieran y luego se ajustaran a un nofollow o a un noindex. Es posible que siga viendo las páginas en los resultados de los motores de búsqueda porque su indexación no se ha actualizado recientemente.