Robots.txt er misforstået – Beskyt hjemmesiden mod crawling

Jeg høre og læser gang på gang at både fagfolk og ikke fagfolk inden for søgemaskineoptimering misforstår hvorfor det er man bruger robots.txt. og hvad disallow i robots.txt egentlig gør og hvad det ikke gør.
robots txt en udbredt misforstaaelse

Først og fremmest skal jeg gøre det klart, at disallow i en robots.txt fil, ikke forhindre at sider på en hjemmeside, bliver indekseret. Robots.txt og disallow bruges kun til at fortælle at der er sider eller områder på hjemmesiden som ikke må crawles af søgemaskiner.

HVAD ER FORSKELLEN PÅ INDEKSERING OG CRAWLING?

Jo det er egentlig meget enkelt. Crawling er det at en bot, som fx Googlebot skanner en hjemmeside for at læse og indsamle data om den side. Indeksering er hvor en given side bliver indekseret og gemt i søgemaskinen. Google behøver ikke crawle en hjemmeside for at kunne indeksere den, det eneste de behøver er links eller kendskab til url’s. Det er korrekt at indholdet ikke bliver indekseret når man indsætter en disallow i robots.txt, men det gør urlen/linket derimod.

FORKERT BRUG AF ROBOTS.TXT

Jeg har gennem tiden set mange eksempler på forkert brug af robots.txt filen.

BESKYT MOD INDEKSERING

Hjemmesideejere, webmastere og ja endda fagfolk, bruger tit robots.txt til at beskytte sider mod indeksering, fordi der er en risiko for Dobbelt indhold, eller fordi de er ved at udvikle en hjemmeside som helst ikke skal indekseres før den er færdig. I begge tilfælde tror de at det er en sikring mod indeksering, men det er det bare ikke.

HVORDAN BESKYTTER MAN SÅ MOD INDEKSERING?

Det kommer lidt an på situationen, der er nemlig forskellige fremgangsmåder for hvad man bør gøre. Den metode man typisk vil bruge, er er et lille tag ved navn robots metatag, i fagsprog kalder man det noindex robots metatag.

UNDER UDVIKLINGEN AF EN HJEMMESIDE

Beskyt siden med brugernavn og password, bruger du fx en apacheserver, kan du opsætte et brugernavn og password som skal indtastet inden man overhovedet får adgang til at se noget som helst på serveren. Søgemaskinerne bliver mødt af det samme.

SIDEN SKAL IKKE INDEKSERES

Der kan være forskellige grunde til at en side ikke skal indekseres, det kan fx være sider som giver brugeren en bedre oplevelse, men at det samtidig skaber dobbelt indhold, eller måske ikke giver nogen værdi at have disse sider indekseret.

I det tilfælde skal man bruge noindex robots metatagget, det er muligt at skrive to ting en robot skal gøre når de crawler siden, den ene er noindex, mens den anden er follow. Hvilket betyder at Søgemaskinen ikke må indeksere siden, men gerne må følge de links som er på siden.

Noindex robots metatagget ser ud sådan:

 

DIREKTE DOBBELT INDHOLD

Direkte dobbelt indhold er når det eksakt samme indhold, kan ses på 2 eller flere forskellige webadresser. I det tilfælde er det bedst at fjerne kilden til problemet ved at lave det man kalder en 301 redirect til originalsiden, altså den side som er blevet duplikeret. Det kræver typisk kendskab til programmering, og har du ikke muligheden for at programmere det selv, eller ikke vil bruge det det nu koster for at få fjernet kilden til problemet, må du tage andre midler i brug.

Hvis du bruger en apache server, spørg din udvikler eller webhost hvilken server du bruger, så vil du også kunne tage brug af .htaccess. i denne kan du lave dine 301 redirects på en nem måde, dog er det en omfattende måde hvis du har mange duplikerede sider, og det vil kræve løbende manuel opdatering.

Koden du skal bruge er følgende (htaccess):

redirect 301 /duplikat/side.htm http://www.ditdomæne.dk/originalside.htm

Andre metoder er via dynamisk serverside kode som fx PHP, her vil du kunne lave en masse regler for hvornår en side skal 301 redirectes, for på den måde at fjerne kilden uden at du manuelt skal ind og rette dette.

CANONICAL TAG / CANONICAL URL

Brugen af canonical URL kan også komme på tale hvis ingen af de ovenstående metoder er noget du vil give dig i kast med. Canonical skulle gøre det samme som 301 redirect, nemlig at fortælle at originalsiden ligger på en bestemt adresse, forskellen er bare at man som bruger og søgemaskine ikke bliver redirected til originalsiden. Dette kan dog skabe problemer andre steder, da brugerne fx stadig vil kunne se den dobbelte side, og kunne linke til den etc.

Det er som altid bedre at få et link direkte til den kanonikale side (original siden), frem for en side, der fortæller at den kanonikale side er en anden.

Canonical tagget ser ud sådan:

 

Fordelen ved canonical og 301 redirect er at siderne ikke vil blive indekseret og sider som er indekseret vil blive deindekseret. Det har dog vist sig at canonical ikke er lige så effektiv som 301 redirect. Ud over det så vil eventuel linkværdi også flyde over til den side som egentlig skulle have haft værdien fra starten, nemlig originalsiden, eller i hvert fald det meste af den værdi vil flyde til originalsiden.

Pas på med at bruge canonical på sider hvor du har noindex robots metatagget på også, da dette kan resulterer i at originalsiden også kan blive deindekseret, hvilket jo ikke er formålet med det.

DU HAR SIKKERT SET DET

I alle de tilfælde som er nævnt ovenfor, bliver Robots.txt ikke brugt. Og dette er alene fordi den intet har med indeksering at gøre, men udelukkende bruges til at beskytte mod crawling af sine sider. Der kan dog være få tilfælde hvor man ikke kan tage brug af nogle af de råd jeg skriver ovenfor, og derfor bliver nød til at gøre lidt for at gøre det sværere for Google at crawle de sider som skaber et problem på hjemmesiden. Man skal se på Robots.txt som sidste udvej og ikke det første man forsøger.

I alle løsningsmodellerne ovenfor skal søgemaskinen nemlig crawle eller forsøge at crawle siden, for at de finder ud af, eller læser at siden har en originalside som den bør indeksere i stedet for (301 redirect eller canonical), eller læse at siden ikke må indekseres (Noindex Robots Metatag).

Skriv en kommentar

Kategorier og tags på dette indlæg

, ,

Måske du også vil læse disse indlæg

Ja, jeg har også skrevet andre indlæg som måske kunne have din interesse