Robots.txt guide

Wat is robots.txt

Robots.txt is is een krachtig hulpmiddel dat je SEO en ook je Advertising campagnes kan helpen. Deze post laat je zien hoe je robots.txt gebruikt en waarom het belangrijk is voor jouw marketing doeleinden. Het robots.txt is niets meer dan een tekstbestand van jouw website. Hierin staan bepaalde regels en richtlijnen die jij aan zoekmachines geeft wat ze wel en niet op jouw website moeten of mogen crawlen.

Waarom is een robots.txt belangrijk?

Een robots.txt is belangrijk omdat het zoekmachines vertelt welke delen van je site ze beter niet kunnen crawlen. Dit kan om allerlei redenen gebruikt worden, bijvoorbeeld als je niet wilt dat de zoekmachine gevoelige of vertrouwelijke inhoud indexeert. Het is belangrijk omdat het invloed kan hebben op hoe goed je website scoort in SERPS (Search Engine Results Pages). Ik vertel je welke opties je hebt in de robots.txt en waar je ze voor gebruikt.

Disallow

1. Crawl delay

Je kunt crawlers het crawlen van specifieke delen van je website of hele secties van je site beletten door richtlijnen in het volgende formaat toe te voegen: Disallow: */sites*. Bijvoorbeeld als je wilt dat Googlebot (en andere zoekmachine crawlers) niets onder de “Sites” directory op je server crawlen.

Let op: Je belet Google en andere zoekmachines alleen in het crawlen van bepaalde urls. Deze urls kunnen nog steeds geïndexeerd worden en dus getoond worden in de zoekresultaten. Bijvoorbeeld wanneer er naar die pagina’s gelinkt wordt. Ook worden deze pagina’s met een disallow niet verwijderd wanneer ze al in de zoekresultaten staan.

Wil je dat pagina’s helemaal niet geïndexeerd worden? Gebruik dan een noindex meta-tag, op de pagina zelf.

Sitemap-300x300

2. Sitemap

Het is verstandig om de url van de sitemap van je website in de robots.txt te plaatsen wanneer deze niet in de root van je server staat (dus: www.website.nl/sitemap.xml).

Je plaatst dan de volgende regel in je robots.txt: sitemap: https://www.website.nl/sitemaps/sitemap.xml.

User-agent-300x300

3. User agent

In het robots.txt bestand kun je verschillende richtlijnen aangeven voor verschillende crawl-bots. Je kunt dus instellen dat bepaalde pagina’s bijvoorbeeld door Google niet gecrawld worden, maar wel door Bing. In de praktijk zul je per zoekmachine uiteraard niet zoveel verschillende richtlijnen willen instellen. Echter Google gebruikt bijvoorbeeld een aparte crawl-bot voor Ads campagnes. Heb je bijvoorbeeld een webshop dan gebeurt veel dat bijvoorbeeld bepaalde filter en sorteer urls (bijv. www.kledingwebsite.nl/broeken?kleur=rood) niet gecrawld mogen worden. Echter worden deze filter urls wel vaak weer gebruikt voor advertentiecampagnes. Dan kun je met de user-agent optie ervoor zorgen dat de AdsBot-Google die urls wel crawlt. Het robots.txt bestand komt er dan als volgt uit te zien:

————–

user-agent: *

Disallow: *?kleur=*

user-agent: AdsBot-Google

Allow: /

————–

Crawl-delay-300x300

4. Crawl delay

Met crawl delay kun je bepaalde zoekmachines afremmen in het crawlen van je pagina’s. Bijvoorbeeld: crawl-delay: 10. Zorgt ervoor dat zoekmachines niet meer dan 1 pagina per 10 seconden crawlt. Dit stel je bijvoorbeeld in om de server load te minimaliseren.

Het nadeel van crawl-delay is dat veel zoekmachines deze niet ondersteunen. Google negeert deze bijvoorbeeld volledig. Voor Google kun je de crawl snelheid in het Google Search Console apart instellen.

Dussss: Robots.txt

Robots.txt is een heel belangrijk bestand dat zoekmachines vertelt wat ze wel en niet op je website kunnen crawlen, wat resulteert in betere controle over de inhoud van de SERPs van je website en een belangrijk wapen met zoekmachine optimalisatie. Dit artikel heeft enkele van de basisprincipes over robots.txt voor beginners behandeld, en ook hoe je het effectiever kunt gebruiken met specifieke voorbeelden uit ervaring met het werken in de praktijk met een robots.txt. 

Als je hulp zoekt bij het opzetten of bijwerken van je eigen site, neem dan gerust contact met me op wanneer je maar wilt!

Robots.txt guide