Soubor robots.txt umístěný v kořeni webu zabraňuje (povoluje) procházení a indexování určitých částí webu vyhledávacím robotům (Google, Yahoo! atd.). Tento soubor respektují pouze "slušní" roboti.
Parametry:
Procházení a indexace je povolena pro celý web (není zakázáno nic = je povoleno vše):
User-agent: * Disallow:
Procházení a indexace je pro celý web zakázána (je zakázán kořen webu):
User-agent: * Disallow: /
Komplexnější příklad (robotu s názevem W3C-checklink, kontorlující správnost odkazů, je povoleno procházet vše):
User-agent: * # Directories Disallow: /scripts/ # Files Disallow: /cron.php Disallow: /INSTALL.txt # Paths (clean URLs) Disallow: /admin/ # Paths (no clean URLs) Disallow: /?q=admin/ # Images Disallow: /*size= # Sitemap Sitemap: http://www.tomas.dankovi.info/sitemap.xml # Crawl-delay Crawl-delay: 10 # Link Checker User-Agent: W3C-checklink Disallow: # majesticseo.com User-Agent: MJ12bot Disallow:
Soubor sitemap.xml umístěný v rořeni webu poskytuje vyhledávacím robotům relevantní údaje k lepší orientaci na daném webu. V případě rozsáhlejších webů je vhodné soubor zagzipovat (sitemaps.xml.gz).
Minimální struktura souboru sitemap.xml:
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.tomas.dankovi.info/</loc> </url> </urlset>
Doplňkové značky náležející dovnitř značky url:
Všechny hodnoty, které sitemap obsahuje jsou pro vyhledávače pouze informativní!
XML Sitemap generátor: