Wanneer je wilt dat zoekmachines je website goed begrijpen en efficiënt crawlen, speelt het robots.txt-bestand een essentiële rol. Het geeft bots instructies over welke pagina’s ze wel of niet mogen bezoeken. In dit artikel leggen we uit wat robots.txt precies is, hoe je het correct toepast en welke fouten je absoluut moet vermijden als je jouw SEO-prestaties serieus neemt.
Wat doet een robots.txt-bestand precies?
Een robots.txt-bestand is een tekstbestand dat zich bevindt op de root van je domein, zoals jouwdomein.nl/robots.txt. Zoekmachines bekijken dit bestand vóórdat ze beginnen met crawlen. Je kunt er paden mee uitsluiten van crawlers (zoals /admin/ of /filter?=) of juist bepaalde bots specifieke toegang geven.
Belangrijk: een robots.txt voorkomt dat bots pagina’s crawlen, maar het voorkomt niet altijd dat ze worden geïndexeerd. Voor het uitsluiten uit zoekresultaten gebruik je een noindex-tag of HTTP-header.
Hoe is een robots.txt-bestand opgebouwd?
De basis bestaat uit eenvoudige regels die bots instrueren. Meest gebruikte elementen zijn:
User-agent: *
Disallow: /private/
Allow: /private/hulp
Sitemap: https://www.jouwdomein.nl/sitemap.xml
Uitleg:
- User-agent: specificeert voor welke crawler de regels gelden.
*betekent: alle bots. - Disallow: voorkomt dat bots een bepaald pad crawlen.
- Allow: maakt uitzonderingen op een Disallow-regel.
- Sitemap: verwijzing naar je XML-sitemap(s) om crawlers verder te helpen.
Wat kun je ermee bereiken?
Een goed ingestelde robots.txt helpt bij:
- Het besparen van crawlbudget (bots verspillen geen tijd aan irrelevante pagina’s)
- Het uitsluiten van duplicaten, filters of interne zoekresultaten
- Het afschermen van technische mappen zoals
/cgi-bin/, /checkout/, of stagingomgevingen - Het correct verwijzen naar je sitemap(s)
Voor grotere sites met veel URL-variaties (zoals e-commerce of platformomgevingen) is een goede robots.txt essentieel om de crawl-efficiëntie hoog te houden.
Veelgemaakte fouten met robots.txt
Belangrijke content blokkeren
Per ongeluk een hele blogdirectory blokkeren met Disallow: /blog/ komt vaker voor dan je denkt. Hierdoor crawlt Google niets meer van die sectie.
Verwarring met ‘noindex’
Een Disallow voorkomt dat Google een pagina crawlt maar de URL kan nog steeds verschijnen in de zoekresultaten als deze wordt gelinkt vanaf elders.
Robots.txt gebruiken voor privacy
Het bestand is publiek toegankelijk. Alles wat je daarin noemt, is voor iedereen zichtbaar inclusief concurrenten en bots met minder goede bedoelingen.
Vergeten van hoofdlettergevoeligheid
/Admin/ en /admin/ worden als verschillend gezien. Wees consistent en gebruik kleine letters waar mogelijk.
Geavanceerde toepassingen
Naast de standaardinstructies kun je ook geavanceerdere zaken instellen, bijvoorbeeld:
Alleen Googlebot toestaan
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
Crawlvertraging instellen (voor bots die dit respecteren)
User-agent: Bingbot
Crawl-delay: 10
Let op: Googlebot negeert Crawl-delay.
Specifieke bestandstypes blokkeren
User-agent: *
Disallow: /*.pdf$
Robots.txt en stagingomgevingen
Veel ontwikkelaars gebruiken robots.txt om staging- of testomgevingen af te schermen. Dat lijkt logisch, maar is risicovol. Googlebot kan alsnog indexeren via externe links. Gebruik liever een htpasswd-beveiliging of IP-whitelist als je echt zeker wilt zijn dat staging niet vindbaar is.
Hoe test je of robots.txt goed werkt?
In Google Search Console:
- Ga naar de robots.txt-tester (onder instellingen)
- Test specifieke URL’s om te zien of crawlers toegang hebben
Met externe tools:
- TechnicalSEO robots.txt tester
- Screaming Frog SEO Spider (checkt gedrag per user-agent)
- Ahrefs Site Audit of Sitebulb
Tips voor een SEO-vriendelijke robots.txt
- Zet de sitemap-verwijzing onderaan je bestand.
- Gebruik wildcards spaarzaam en alleen als je exact weet wat ze doen (
*,$). - Test altijd vóór je live gaat (zeker bij nieuwe regels).
- Documenteer wijzigingen zodat je fouten snel kunt herleiden.
Wat als bots zich niet aan robots.txt houden?
Niet alle bots volgen de regels. Kwaadwillende crawlers (scrapers, spammers) negeren robots.txt volledig. Voor serieuze beveiliging gebruik je server firewalls, CAPTCHA’s of botsignatures (zoals via Cloudflare of mod_security).
Klein bestand, grote impact
Een goed ingestelde robots.txt is een essentieel hulpmiddel om zoekmachines te sturen en crawlbudget efficiënt te gebruiken. Maar pas op: één verkeerde regel kan grote SEO-gevolgen hebben. Gebruik het bestand bewust, test regelmatig en combineer het met andere technieken zoals noindex, canonical tags en sitemaps voor een complete controle over je indexatieproces.