O Arquivo robots.txt conhecido também como Robot exclusion standart ou robot exclusion protocol permite que os mecanismos de buscas possam identificar quais pastas e artigos devem ser lidos no site.

Arquivo bastante útil caso você deseje que algum arquivo não seja indexado para aparecer nos resultados, seja por datas específicas, ou por alguma parte do site não estiver sido concluída, ou caso ache desnecessário que seja indexada, etc.

Cada arquivo precisa ser configurado para cada origem, precisa ser único ou seja, caso tenha um subdomínio, ele precisa ter seu robots.txt, o mesmo para protocolo ou portas.


1
2
3
4
<span style="color: #104e8b;"><a class="external free" href="http://seusite.com/robots.txt" target="_blank" rel="nofollow noreferrer noopener">http://seusite.com/robots.txt</a>
<a class="external free" href="http://seo.seusite.com/robots.txt" target="_blank" rel="nofollow noreferrer noopener">http://seo.seusite.com/robots.txt</a>
<a class="external free" href="https://seo.seusite.com/robots.txt" target="_blank" rel="nofollow noreferrer noopener">https://seo.seusite.com/robots.txt</a>
<a class="external free" href="http://seo.seusite.com:8080/robots.txt" target="_blank" rel="nofollow noreferrer noopener">http://seo.seusite.com:8080/robots.txt</a> </span>

Basicamente existem três comandos mais utilizados:

  • User-agent – são os robôs de busca, usando o asterisco (*) estará dizendo que todos os crawlers poderão ler o destino especificado, o user agent poderá também ser especificado o bot que passará em seu site, Veja a lista de alguns deles aqui
  • Allow – Significa permitir, especificando o nome do arquivo, permitirá que os crawlers leiam o conteúdo do site, por padrão todo conteúdo do site é lido sem que tenha que usar esse parâmetro, ele é usado caso tenha bloqueado alguma pasta de diretório, mas tenha algum subdiretório ou arquivo que deva ser lido. ex.
  • Disallow – Bloquear a indexação.

1
2
<span style="color: #104e8b;">User-agent::Bingbot
Disallow:: /</span>

Aqui estamos bloqueando a leitura do robô do Bing, quando colocamos barra (/) e não especificamos o diretório, estamos bloqueando todo o site, muito usado quando se começa um site e até concluirmos, barramos a leitura dele pelos buscadores.


1
2
3
<span style="color: #104e8b;">User-agent*: *
Disallow:: /wp-content
Allow:: /wp-content/uploads</span>

Aqui estamos dizendo com o (*) que permitimos todos os motores de buscas:

  • Disallow:/wp-content – a pasta wp-content não deve ser lida
  • Allow:/wp-content/uploads – no comando acima vetamos o acesso a pasta wp-content, mas permitimos a pasta uploads, que estão os arquivos que devem ser lidos.

1
2
<span style="color: #104e8b;">User-agent: *
Disallow: /directory/file.html</span>

Você pode usar o Plugin WP Robots Txt no WordPress para fazer isso de forma simples.

Links úteis:

Páginas Relacionadas