Kennisbank
Semrush-toolkits
SEO
Site Audit
Problemen met Site Audit oplossen

Problemen met Site Audit oplossen

Werkt je Site Audit niet goed?

Er zijn verschillende redenen waarom pagina's mogelijk worden geblokkeerd door de Site Audit-crawler, afhankelijk van de configuratie en structuur van je website, waaronder:  

  • Robots.txt blokkeert crawler
  • Crawlbereik sluit bepaalde onderdelen van de site uit
  • Website is niet rechtstreeks online vanwege gedeelde hosting
  • Landingspagina is groter dan 2 MB
  • Pagina's bevinden zich achter een gateway of beveiligde gebruikersomgeving van de website
  • Crawler wordt geblokkeerd door noindex-tag
  • Domein kon niet worden opgelost door DNS; het domein dat bij de configuratie is ingevoerd is offline
  • Website-content is gebouwd op JavaScript; hoewel Site Audit JS-code kan renderen, kan het toch bepaalde problemen veroorzaken

Stappen voor probleemoplossing

Volg deze stappen voor probleemoplossing om te zien of je zelf aanpassingen kunt maken voordat je contact opneemt met ons ondersteuningsteam voor hulp.

Een robots.txt-bestand geeft instructies aan bots over hoe ze de pagina's van een website moeten crawlen (of niet crawlen). Je kunt bots zoals Googlebot of Semrushbot toestaan of verbieden om je hele website of specifieke onderdelen van je website te crawlen met opdrachten zoals Allow, Disallow, en Crawl Delay

Als je robots.txt onze bot verbiedt om je website te crawlen, zal onze Site Audit-tool niet in staat zijn om je website te evalueren. 

Je kunt je robots.txt controleren op eventuele disallow-opdrachten die crawlers zoals die van ons mogelijk verhinderen om toegang te krijgen tot je website. 

Om de Site Audit-bot (SiteAuditBot) van Semrush toe te staan om je site te crawlen, voeg je het volgende toe aan je robots.txt-bestand:

User-agent: SiteAuditBot

Disallow:   

(laat een lege ruimte na “Disallow:”)

Hier zie je een voorbeeld van een robots.txt-bestand:

Lijst van allow- en -disallowinstructies in een robots.txt-voorbeeldbestand. Disallow-instructies zijn aangeduid in het rood, allow-instructies in het lichtgroen. Er zijn ook aanvullende instructies aan de rechterkant van de schermafbeelding: Disallow = instructie voor bots om dit deel van de website NIET te crawlen (in het rood), Allow = instructie voor bots om dit deel van de website wel te crawlen (in het groen).

Merk op dat er verschillende opdrachten zijn afhankelijk van de useragent (crawler) waarop het bestand zich richt.

Deze bestanden zijn openbaar en moeten op het hoogste niveau van een website worden gehost om gevonden te kunnen worden. Om het robots.txt-bestand van een website te vinden, voer je in je browser het rootdomein van een website in gevolgd door /robots.txt. Het robots.txt-bestand op Semrush.com is bijvoorbeeld te vinden op https://semrush.com/robots.txt.

Dit zijn enkele termen die je op een robots.txt-bestand kunt tegenkomen:

  • User-Agent = de webcrawler waaraan je instructies geeft. 
    • Bijv: SiteAuditBot, Googlebot
  • Allow = een opdracht (alleen voor Googlebot) die de bot vertelt dat hij een specifieke pagina of onderdeel van een website mag crawlen, zelfs als de bovenliggende pagina of map disallowed is.
  • Disallow = een opdracht die de bot vertelt dat hij een specifieke URL of submap van een site niet mag crawlen. 
    • Bijv: Disallow: /admin/
  • Crawl Delay = een opdracht die bots vertelt hoeveel seconden ze moeten wachten alvorens een andere pagina te laden en te crawlen. 
  • Sitemap = duidt aan waar het sitemap.xml-bestand voor een bepaalde URL is.
  • / = gebruik het “/”-symbool na een disallow-opdracht om de bot te vertellen dat hij niet je volledige website mag crawlen 
  • * = een wildcard-symbool dat elke reeks mogelijke tekens in een URL vertegenwoordigt, wat wordt gebruikt om een deel van een website of alle useragents aan te duiden. 
    • Bijv: Disallow: /blog/* zou alle URL's in de blog-submap van een website aanduiden
    • Bijv: User-agent: * zou instructies voor alle bots aanduiden

Lees meer over de robots.txt-specificaties op Google of op de Semrush-blog.

Als je de volgende code op de hoofdpagina van een website ziet, vertelt dit ons dat we geen toestemming hebben om deze te indexeren of links erop te volgen, en dat onze toegang wordt geblokkeerd.



Een pagina die ten minste een van de volgende bevat: "noindex", "nofollow", "geen", zal eveneens leiden tot fouten bij het crawlen.

Om onze bot toe te staan een dergelijke pagina te crawlen, moet je deze “noindex”-tags uit de code van je pagina verwijderen. Lees dit artikel in het Google-helpcentrum voor meer informatie over de noindex-tag.

Om de bot op de whitelist te zetten, neem je contact op met je webmaster of hostingprovider en vraag je deze om SiteAuditBot op de whitelist te zetten.

De IP-adressen van de bot zijn: 85.208.98.128/25 (een subnet dat alleen door Site Audit wordt gebruikt)

De bot gebruikt standaard 80 HTTP- en 443 HTTPS-poorten om verbinding te maken.

Als je plug-ins (WordPress bijvoorbeeld) of CDN's (content delivery networks) gebruikt om je site te beheren, moet je ook het bot-IP in die systemen whitelisten.

Neem contact op met WordPress-ondersteuning om bots toe te voegen aan je whitelist op Wordpress.

Veelvoorkomende CDN's die onze crawler blokkeren zijn:

  • Cloudflare: lees hier hoe je de whitelist kunt aanpassen
  • Imperva: lees hier hoe je bots op de whitelist kunt zetten
  • ModSecurity: lees hier hoe je bots op de whitelist kunt zetten
  • Sucuri: lees hier hoe je bots op de whitelist kunt zetten

Let op: als je gedeelde hosting hebt, is het mogelijk dat je hostingprovider je niet toestaat om bots op de whitelist te zetten of het robots.txt-bestand te bewerken.

Hostingproviders

Hieronder vind je een lijst met enkele van de meest populaire hostingproviders op het internet en instructies voor elk van deze om een bot op de whitelist te zetten of het ondersteuningsteam te bereiken voor hulp: 

  1. Siteground: instructies voor whitelisten 
  2. 1&1 IONOS: instructies voor whitelisten 
  3. Bluehost*: instructies voor whitelisten 
  4. Hostgator*: instructies voor whitelisten 
  5. Hostinger: instructies voor whitelisten 
  6. GoDaddy: instructies voor whitelisten 
  7. GreenGeeks: instructies voor whitelisten 
  8. Big Commerce: neem contact op met ondersteuning 
  9. Liquid Web: neem contact op met ondersteuning 
  10. iPage: neem contact op met ondersteuning
  11. InMotion: neem contact op met ondersteuning
  12. Glowhost: neem contact op met ondersteuning
  13. Hosting: neem contact op met ondersteuning
  14. DreamHost: neem contact op met ondersteuning

* Let op: deze instructies zijn van toepassing voor HostGator en Bluehost als je een website op VPS of dedicated hosting hebt.

Als de grootte van je landingspagina of de totale grootte van de JavaScript/CSS-bestanden 2 MB overschrijdt, kunnen onze crawlers deze niet verwerken vanwege technische beperkingen van de tool.

Om meer te weten te komen over wat de oorzaak kan zijn van de overschreden grootte en hoe je dit probleem kunt oplossen, kun je dit artikel op onze blog doornemen.

Ga naar Profiel > Abonnementsgegevens en zoek naar "Pagina's om te crawlen" onder "SEO Toolkit" om te zien hoeveel van je huidige crawlbudget je al hebt gebruikt.

Afhankelijk van je abonnementsniveau ben je beperkt tot een vast aantal pagina's die je per maand kunt crawlen (maandelijks crawlbudget). Als je het aantal pagina's overschrijdt dat is toegestaan met je abonnement, moet je extra limieten kopen of wachten tot je limieten de volgende maand vernieuwd worden.

Als je tijdens de configuratie bovendien de foutmelding "Je hebt de limiet bereikt voor gelijktijdige campagnes" krijgt, betekent dit dat je de maximale hoeveelheid site-audits hebt bereikt die tegelijk kunnen worden uitgevoerd op jouw abonnementsniveau.

Elk abonnementsniveau omvat verschillende limieten:

  • Gratis account: 1 site-audit tegelijk
  • Pro SEO Toolkit: tot 2 gelijktijdige site-audits
  • Guru SEO Toolkit: tot 2 gelijktijdige site-audits
  • Business SEO Toolkit: tot 5 gelijktijdige site-audits

Als het domein niet kon worden opgelost door DNS, betekent dit waarschijnlijk dat het domein dat je tijdens de configuratie hebt ingevoerd offline is. Dit probleem komt vaak voor als gebruikers een rootdomein (voorbeeld.com) invoeren zonder zich te realiseren dat de rootdomeinversie van hun website niet bestaat en dat ze in plaats daarvan de www-versie van hun website moeten invoeren (www.voorbeeld.com).  

Om dit probleem te voorkomen kan de eigenaar van de website een omleiding toevoegen van het onbeveiligde 'voorbeeld.com' naar het beveiligde 'www.voorbeeld.com' dat op de server bestaat. Het omgekeerde van dit probleem kan ook voorkomen als iemands rootdomein beveiligd is, maar de www-versie niet. In dat geval moet je gewoon de www-versie omleiden naar het rootdomein.

Als je homepage links naar de rest van je site verborgen heeft in JavaScript-elementen, moet je JS-rendering inschakelen, zodat we ze kunnen lezen en die pagina's kunnen crawlen. Deze functie is beschikbaar met de Guru- en Business-niveaus van het SEO Toolkit-abonnement.

Een demonstratie van waar je JavaScript-rendering kunt inschakelen in de instellingen van Site Audit. Het juiste tabblad en het instellingengedeelte zijn aangeduid.

Om ervoor te zorgen dat je de belangrijkste pagina's op je website niet mist met onze crawl, kun je je crawlbron wijzigen van website naar sitemap. Op deze manier missen crawlers tijdens de audit geen pagina's die van nature moeilijk te vinden zijn op de website.

Demonstratie van waar je de instellingen voor de crawlbron kunt vinden in Site Audit. Het vervolgkeuzemenu is aangeduid en bevat alle beschikbare opties voor de crawlbron.

We kunnen ook de HTML van een pagina crawlen met enkele JS-elementen en de parameters van je JS- en CSS-bestanden beoordelen met onze prestatie-controles.

Je website blokkeert mogelijk de SemrushBot in je robots.txt-bestand. Je kunt de useragent wijzigen van SemrushBot naar GoogleBot. Je website zal de useragent van Google dan waarschijnlijk wel toestaan om te crawlen. Ga naar de instellingen van je project via het tandwielpictogram en selecteer je useragent om deze wijziging aan te brengen.

Instructie over waar je de instellingen voor de useragent in Site Audit kunt vinden. In het overzichtsrapport is het tandwielpictogram rechtsboven aangeduid om het vervolgkeuzemenu aan te geven dat opent wanneer de gebruiker erop klikt. In het instellingenmenu kun je omlaag scrollen om de exacte instellingen te vinden die je nodig hebt; in dit geval de useragent-instelling (deze lijn is ook aangeduid in het menu).

Als deze optie wordt gebruikt, wordt de blokkering van interne bronnen en pagina's waarvoor crawlcontroles geblokkeerd zijn, niet geactiveerd. Houd er rekening mee dat het eigendom van de website moet worden geverifieerd om dit te kunnen gebruiken.

Dit is nuttig voor websites die momenteel in onderhoud zijn. Het is ook nuttig wanneer de eigenaar van de website geen wijzigingen wil aanbrengen in het robots.txt-bestand.

Om een audit uit te voeren op privégedeelten van je website die met een wachtwoord zijn beschermd, voer je je aanmeldgegevens in bij de optie “Crawlen met je aanmeldgegevens” in de instellingen onder het tandwielpictogram.

Dit wordt ten zeerste aanbevolen voor websites die nog in ontwikkeling zijn of volledig met een wachtwoord zijn beschermd.

Problemen met Site Audit oplossen image 5

Je crawlerinstellingen zijn gewijzigd sinds je vorige audit. Dit kan je huidige auditresultaten en het aantal gevonden problemen beïnvloeden.

Deze melding verschijnt in Site Audit nadat je instellingen hebt bijgewerkt en de audit opnieuw uitvoert. Dit wijst niet op een probleem, maar is gewoon een kennisgeving dat als de crawlerresultaten onverwacht zijn veranderd, dit daar waarschijnlijke de reden voor is.

Bekijk onze blogpost, Veelvoorkomende SEO-problemen en hoe ze op te lossen.