Vyhledávací roboti

Soubor robots.txt

Soubor robots.txt umístěný v kořeni webu zabraňuje (povoluje) procházení a indexování určitých částí webu vyhledávacím robotům (Google, Yahoo! atd.). Tento soubor respektují pouze "slušní" roboti.

Parametry:

  • User-agent – název robota
  • Disallow – zakázaná hodnota
  • Allow – povolená hodnota (používá se pro povolení např. podadresáře v zakázaném adresáři)
  • Sitemap – umístění souboru sitemap.xml (sitemap.xml.gz), který narozdíl od souboru robots.txt roboty informuje o struktuře webu (tj. seznamem adres, které robot navštívit má)
  • Crawl-delay – doba čekání mezi dotazy

Příklady

Procházení a indexace je povolena pro celý web (není zakázáno nic = je povoleno vše):

User-agent: *
Disallow:

Procházení a indexace je pro celý web zakázána (je zakázán kořen webu):

User-agent: *
Disallow: /

Komplexnější příklad (robotu s názevem W3C-checklink, kontorlující správnost odkazů, je povoleno procházet vše):

User-agent: *
# Directories
Disallow: /scripts/
# Files
Disallow: /cron.php
Disallow: /INSTALL.txt
# Paths (clean URLs)
Disallow: /admin/
# Paths (no clean URLs)
Disallow: /?q=admin/
# Images
Disallow: /*size=
# Sitemap
Sitemap: http://www.tomas.dankovi.info/sitemap.xml
# Crawl-delay
Crawl-delay: 10
# Link Checker
User-Agent: W3C-checklink
Disallow:
# majesticseo.com
User-Agent: MJ12bot
Disallow:

Odkazy

Soubor sitemap.xml

Soubor sitemap.xml umístěný v rořeni webu poskytuje vyhledávacím robotům relevantní údaje k lepší orientaci na daném webu. V případě rozsáhlejších webů je vhodné soubor zagzipovat (sitemaps.xml.gz).

Minimální struktura souboru sitemap.xml:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.tomas.dankovi.info/</loc>
  </url>
</urlset>

Doplňkové značky náležející dovnitř značky url:

  • lastmod – datum (a čas) poslední modifikace podle ISO 8601:
    • 2008-03-30
    • nebo v UTC: 2008-03-30T12:25:00
    • nebo v SELČ: 2008-03-30T14:25:00+02:00
  • changefreq – frekvence změn prováděných na příslušné stránce:
    • always
    • hourly
    • daily
    • weekly
    • monthly
    • yearly
    • never
  • priority – relativní priorita stránek na popisovaném webu (0.0 až 1.0)
    • pokud více stránek z Vašeho webu vychází na stejnou pozici ve vyhledávání, vyhledávač upřednostní stránku s vyšší prioritou. Výchozí priorita je 0.5

Všechny hodnoty, které sitemap obsahuje jsou pro vyhledávače pouze informativní!

XML Sitemap generátor:

Odkazy