Hvad er robots.txt? Hvordan bruger man robots.txt

Robots.txt er en tekstfil som man oploader til roden af sit webhotels webmappe. Denne fil fortæller søgemaskiner og andre, at det enten er tilladt eller ikke tilladt at crawle forskellige områder på din hjemmeside. Hvis en søgemaskine gerne må crawle alle dele af din hjemmeside behøver man i grunden ikke skrive noget i filen, da det per automatik er sådan at de godt må, medmindre andet er skrevet.

Synonymer: robots, robots.txt, sikring mod crawling, crawling, søgemaskiner, bruger agent

hvad er robots txt

Hvad er robots.txt?

Robots.txt filen er en tekstfil, der ligger på rodmappe af en hjemmeside og giver instruktioner til webcrawlers om, hvilke sider eller filer der må crawles og hvilke der ikke må. Den fungerer som en slags “adgangskontrol” for søgemaskiner og andre webcrawlers, så de ved, hvilke dele af hjemmesiden de skal ignorere.

Hvorfor bruger man robots.txt

Formålet med filen er at hjælpe hjemmesideejere med at styre, hvordan deres sider og filer bliver crawlet af søgemaskiner, så de kan kontrollere, hvilke dele af deres hjemmeside der vises i søgeresultaterne. På denne måde kan hjemmesideejere undgå, at uønskede sider eller filer vises i søgeresultaterne, hvilket kan hjælpe med at opretholde kvaliteten af søgeresultaterne og sikre, at de mest relevante sider vises for brugerne.

Nogle mener at man bruger filen til at styre hvilke sider der indekseres, men det er nu engang ikke tilfældet. Man styre hvilke sider der crawles, og det kan resultere i at de selv samme sider der ikke må crawles ikke indekseres.

Hvor skal robots.txt placeres?

Filen skal placeres i rodmappe af hjemmesiden, så den er let tilgængelig for webcrawlers, når de scanner hjemmesiden. Det er vigtigt at huske, at hvis robots.txt filen ikke placeres korrekt, kan webcrawlers ikke finde den og derfor instruktionerne i filen, hvilket kan resultere i, at hele hjemmesiden bliver crawlet.

Hvilke fordele er der ved at bruge robots.txt?

Der er flere fordele ved at bruge en robots.txt. Først og fremmest giver den hjemmesideejere kontrol over, hvilke sider og filer der skal crawles af søgemaskiner, hvilket kan hjælpe med at forbedre søgemaskineresultaterne og øge synligheden af vigtige sider. Derudover kan filen hjælpe med at forhindre webcrawlers i at crawle duplikerede eller irrelevante sider, hvilket kan bidrage til at forbedre hjemmesidens SEO (Search Engine Optimization).

Hvilke ulemper er der ved robots.txt?

På den anden side er der også nogle ulemper ved at bruge en robots.txt. En af ulemperne er, at det er muligt for webcrawlers at ignorere instruktionerne i filen og indeksere sider eller filer alligevel. Dette kan ske, hvis webcrawlers ikke respekterer reglerne i filen eller hvis hjemmesideejeren har lavet fejl i filen. Derudover kan misbrug af filen føre til, at vigtige sider ikke bliver indekseret af søgemaskiner, hvilket kan skade hjemmesidens synlighed og SEO.

Robots.txt syntax

For at bruge robots.txt-filen korrekt er det vigtigt at forstå filens syntaks. Syntax for filen består af to hovedelementer: User-agent og Disallow.

User-agent angiver, hvilken webcrawler eller søgemaskine instruktionerne gælder for, mens Disallow angiver, hvilke sider eller filer webcrawleren ikke må indeksere. For eksempel kan man skrive

User-agent: Googlebot
Disallow: /admin 

hvilket betyder, at Googlebot ikke må crawle sider i “/admin” mappen på hjemmesiden.

Disallow bruges til at specificere, hvilke dele af hjemmesiden webcrawlers ikke må crawle. For eksempel, hvis man skriver “Disallow: /images”, betyder det, at webcrawlers ikke må indeksere sider i “/images” -mappen på hjemmesiden. Det er vigtigt at huske, at Disallow instruktioner er relativ til rodmaappen, så hvis en mappesti start med “/” betyder det, at det er relativ til rodmappen, mens en mappesti uden “/” betyder, at det er relativ til den mappe, som robots.txt filen er placeret i.

Du kan finde mere hjælp hos google og deres guide til robots.txt:
https://developers.google.com/search/docs/crawling-indexing/robots/intro

Hvornår skal du bruge robots.txt?

Google har det de kalder et crawl budget som styre hvor mange sider de crawler på din hjemmeside hver dag eller en gang om ugen eller hvad de har sat for din side. For at sikre at relevante og vigtige sider crawles, så skal du fx sørge for at Google ikke crawler søgeresultatsider, og andre mindre vigtige sider såsom fx produkter der lægges i kurv via query, kurv, kasse og sådanne sider på din hjemmeside. Har du mange sider eller mange produkter på din hjemmeside er det derfor vigtigt at bruge robots.txt til at styre hvilke sider der crawles, så budgettet ikke bliver brugt op for hurtigt.

Hvornår skal man ikke bruge robots.txt filen?

Der er flere scenarier hvor man ikke skal bruge denne metode til at beskytte mod crawling. Det du skal huske på er at robots.txt kan tilgås af ALLE som har adgang til dit domæne/hjemmeside. Det betyder også at hvis det udelukkende er for at beskytte fx medlemsområder mod crawling, eller beskytte personlige data. Så er det en dom vej at gå, da du samtidig fortæller hvor de beskyttede områder så er, og gør det derfor nemmere for fx hackere at sætte ind de rette steder.

Det er meget bedre at sikre fx medlemssider og personlig data, ved at beskytte det med kode, og er man ikke logget ind, så skal den besøgende omdirigeres eller sende en 403 kode. Så er den side beskyttet.

Test din SEO leverandør

Sig til din SEO leverandør, eller din kommende SEO mand/SEO ekspert at du har hørt at man med en robots.txt kan blokkere for indeksering på forskellige sider, er dette rigtigt?

Svare de så, ja det kan man godt, så ved du allerede der at det ikke er den person du skal samarbejde med, da der er tale om meget basal viden inden for SEO. Og du vil ikke have en SEO leverandør som ikke ved bare det basale om SEO.

Hvordan sikre man så mod indeksering?

Jo der er flere måder, men i udgangspunktet skal man bruge et metatag som man kalder for “noindex robots metatag” dette tag læses af en søgemaskine når en side crawles, og det fortæller dem at denne side må ikke indekseres. Læs mere om noindex robots metatag her.

Når vi snakker hemmelige sider, så er det et spørgsmål om siden nu også sender de korrekte headere og at man rent faktisk skal bruge et login for at kunne se de sider.

kim tetzlaff

Om forfatteren

Se mere Kim Tetzlaff

Jeg har siden 1995 arbejdet med og haft stor fokus på Teknisk SEO og hastighed på hjemmesider. Jeg er programmør, nørd og stolt af det. Jeg bygger hjemmesider, hastighedsoptimere, ser på det SEO tekniske og det er mere end 25 års erfaring der ligger bag – Du er i gode hænder når jeg laver noget for dig 🙂

Skriv en kommentar

Kategorier og tags på dette indlæg

Måske du også vil læse disse indlæg

Ja, jeg har også skrevet andre indlæg som måske kunne have din interesse