Como usar robots.txt, sitemap, nofollow e canonical em SEO

robots.txt, sitemap, nofollow e canonical para SEO

Embora a comunidade de desenvolvedores SEO esteja significativamente envolvida na inovação e na criação de mais e mais ferramentas para uso dos webmasters que utilizam de SEO para empresas e organizações que desejam otimizar seu conteúdo, uma grande variedade de ferramentas e serviços são fornecidos pelos próprios mecanismos de busca para facilitar a vida dos webmasters em seu trabalho de SEO.

O Google, por exemplo, tem toda uma gama de ferramentas, análises e conteúdo consultivo especificamente para webmasters que buscam aprimorar seu relacionamento com o gigante do setor de busca e otimizar seus sites de acordo com as recomendações do Google. Afinal, quem entende melhor otimização do mecanismo de busca do que os próprios sites de busca?

Vejamos uma lista com alguns atributos SEO para otimização de sites para os mecanismos de busca:

robots.txt – O que é e como usar

Este atributo funciona através do arquivo robots.txt, que geralmente é encontrado no diretório raiz de um site (por exemplo, www.seusite.com.br/robots.txt). Ele fornece diretrizes para os rastreadores dos sites de busca (que são automatizadas) em relação a uma série de questões, tais como guiar bots quanto a onde eles podem encontrar os dados do sitemap, quais áreas de um site estão fora dos limites ou não permitidas e não devem ser rastreadas e nem indexadas.

Exemplo:

User-agent: *
Disallow: /wp-admin/
Disallow: /unit/
Allow: /wp-admin/admin-ajax.php
Crawl-delay: 10

Sitemap: https://seusite.com.br/sitemap.xml

Aqui está uma lista de comandos que podem ser usados no arquivo robots.txt para instruir os robôs:

Disallow

Isso impede que os robôs de busca rastreiem ou indexem determinadas páginas ou pastas de um site.

Crawl delay

Ele fornece aos robôs de busca uma taxa (em milissegundos) na qual eles devem rastrear páginas em um servidor.

Sitemap

Mostra aos robôs onde eles podem encontrar o sitemap e os arquivos relacionados a ele.

Cuidado: enquanto a maioria dos robôs seguem as informações contidas no Sitemap e não seguem e nem indexam os arquivos informados como Disallow, existem alguns robôs intencionalmente projetados com mal intenções e não seguem os protocolos, e portanto, não aderem às diretrizes encontradas nos arquivos robots.txt.

Esses robôs são usados por alguns indivíduos desonestos para roubar informações privadas e acessar o conteúdo não destinado a eles. Para se proteger contra isso, é melhor deixar o endereço de seções administrativas ou áreas privadas de um site público de outra forma como o arquivo robots.txt e alternativamente a meta tag robots que também pode ser usada para instruir os mecanismos de busca que não devem rastrear essas páginas. Você pode descobrir mais informações sobre a meta tag robots ainda nesta aula.

O Google Search Console pode ser usado para acessar e analisar os protocolos do mecanismo de busca do seu site como o robots.txt e o sitemap.xml ( https://www.google.com/webmasters/tools/robots-testing-tool )

Como criar um Sitemap

O Sitemap (mapa do site) pode ser considerado um mapa do tesouro que orienta os mecanismos de busca na melhor maneira de rastrear o seu site. O Sitemap ajuda os mecanismos de busca a localizarem e classificarem o conteúdo de um site que na ausência deles o trabalho dos mecanismos de busca seria muito mais difícil e demorado, arriscando até de algumas páginas de seu site não serem localizadas e nem indexadas.

Há uma variedade de formatos que são usados para disponibilizar o sitemap e que podem mostrar o caminho(links) para diferentes formas de conteúdo, sejam arquivos audiovisuais ou formatos específicos para dispositivos móveis.

Uma ferramenta chamada XML-Sitemaps.com pode ser usada para criar seu próprio sitemap de forma amigável e fácil ( https://www.xml-sitemaps.com/ )

Ou se você usa o WordPress recomendamos o Google XML Sitemaps ( https://br.wordpress.org/plugins/google-sitemap-generator/ )

Existem três formatos de arquivos que podem ser feito o sitemap:

RSS

Há um debate um pouco engraçado sobre se o RSS significa Really Simple Syndication ou Rich Site Summary. É um dialeto XML e bastante conveniente em termos de manutenção, pois podem ser codificados para ter propriedades de atualização automatizada com a adição de novos conteúdos. No entanto, uma desvantagem para o RSS é que sua gestão é difícil quando comparada com outros formatos, devido a essas qualidades de atualização.

XML

XML significa Extensible Markup Language, XML é o no momento o formato mais recomendado pela maioria dos mecanismos de busca e webmasters, e não é coincidência que seja também o formato mais usado. Sendo significativamente mais aceitável pelos mecanismos de busca, ele pode ser criado por um grande número de geradores de sitemaps. Ele também fornece o melhor controle granular de parâmetros para uma página.

No entanto, a desvantagem dessa última qualidade mencionada é que torna o tamanho de arquivo sitemap mais pesado em comparação com os outros formatos.

TXT

O formato .txt é bem mais fácil de criar, utilizando um bloco de texto vai adicionando uma URL por linha até no máximo 50.000 linhas. Infelizmente, porém, não permite a adição de meta-elementos para as páginas.

Meta tag robots

Você pode usar a Meta tag robots para fornecer instruções para os robôs dos mecanismos de busca que se aplicam a uma página específica. Esta Tag deverá ser incluída na seção <head> de uma determinada página HTML.

Aqui está um exemplo de uma Meta tag robots para o mecanismo de busca:

<html>
<head> 
<title>Minha página de exemplo</title> 
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW"> 
</head> 
<body> 
<h1>Minha página de exemplo</h1> 
</body> 
</html>

A tag acima instrui os mecanismos de busca a não indexar esta página e também a não seguir(rastrear) os links encontrados nesta página. Você pode descobrir mais sobre os tipos de meta tags acima na seção sobre meta-tags encontradas no Módulo 3 deste Curso.

nofollow

Você pode se lembrar da aula sobre os links nofollow no Módulo 3. Se você desejar pode voltar para um estudo mais detalhado do atributo rel = “nofollow” e seus usos.

Para resumir aqui, podemos dizer que os links nofollow permitem que os motores de busca indexem a página mas não não permite que os links que ela contém sejam indexadas, portanto é seu seu voto ou aprovação para o benefício dos mecanismos de busca. Embora os mecanismos de busca respeitem seu desejo de não ter tais links rastreados, eles ainda podem rastreá-los por suas próprias razões, talvez para descobrir novas áreas da internet.

canonical

É possível ter intencionalmente ou não um número de URLs diferentes que levem a páginas idênticas e de conteúdo idêntico. Isso pode não parecer um bom negócio, e tem repercussões negativas para os proprietários de sites e SEOs que procuram melhorar as classificações e o rank de suas páginas. Isto devido a um motivo muito simples, como já discutido anteriormente, que os mecanismos de busca ainda não são tão inteligentes como gostaríamos que eles fossem e eles podem entender que são quatro páginas em vez de uma, levando a uma desvalorização do conteúdo dividindo-o por quatro e consequentemente uma redução no ranking. Pense nisso como uma quantidade de suco sendo dividido em quatro copos em vez de tê-lo em um grande copo.

Esta é uma página que pode ser entendida como quatro páginas diferentes:

http://www.notarealwebsite.com
http://notarealwebsite.com
http://www.notarealwebsite.com/default.asp
http://notarealwebsite.com/default.asp

A tag canonical é usada para informar aos mecanismos de busca sobre qual delas contar como a página que deve ser indexada para fins de resultados e ignorando as outras para efeitos de resultados nas pesquisas feitas por usuários nos sites de busca. Isso é que faz com que o mecanismo de busca entenda isso, que as demais páginas são apenas versões de uma única página a qual deve ser indexada.

Continue lendo as demais aulas deste CURSO ONLINE GRÁTIS – Curso SEO – Otimização de Sites

Avalie esta página! Obrigado!
[kkstarratings]

26 de novembro de 2017

Como usar robots.txt, sitemap, nofollow e canonical em SEO

robots.txt – O que é e como usar

Meta tag robots

Continue lendo as demais aulas deste CURSO ONLINE GRÁTIS – Curso SEO – Otimização de Sites

0 responses on "Como usar robots.txt, sitemap, nofollow e canonical em SEO"

Deixe sua mensagem Cancelar resposta

Acessar Minha Conta

Últimos Cursos publicados