Stäng ut Google från testmiljön
29 januari 2010

Ett väldigt vanligt problem som vi stöter på ofta i vårt arbete är att sajters testmiljöer blir indexerade av sökmotorer. Det stora problemet med detta är duplicerat innehåll (duplicate content). Helt plötsligt finns det två (ofta helt identiska) kopior av samma sajt. Duplicerat innehåll ogillas mer och mer av sökmotorer och det är inte sällan man blir straffad för det.
Det blir både problem om testmiljön ligger på ens egen domän (ofta som en subdomän) t ex:
test.sajt123.se
eller om testmiljön ligger på en annan domän (ofta hos ens leverantör) t ex:
sajt123.webbyggarna123.se
I det senare fallet blir problemet extra stort om ens leverantör har en stark domän i sökmotorernas ögon och man själv har en helt ny domän. I så fall kan Google i värsta fall välja att indexera testmiljön hos din leverantör istället för din egen domän, vilket inte är en så kul start på din internetsatsning.
Hur stänger man ut Google och andra sökmotorer från ens testmiljö?
1. Robots.txt
Robots.txt är en enkel textfil som man lägger i roten på sin domän. Denna filen används bara av sökmotorer och i denna fil kan man ange att visa delar av ens sajt inte ska indexeras, t ex kan du säga till sökmotorerna att inte indexera test.sajt123.se
Teoretisk låter detta som en perfekt lösning. Tyvärr har vi dock i praktikten sett flertal exempel på att testmiljöer blir indexerad trots en korrekt Robots.txt fil
2. No index
Det går även att sätta No index på alla ens webbsidor i testmiljön. Detta ger samma effekt som en Robots.txt, det vill säga att du säger till sökmotorerna att inte indexera sidorna.
Tyvärr har denna lösning samma brist som Robots.txt, det vill säga att det inte är säkert att det kommer fungera även om man gjort helt rätt.
3. Inloggningsskydd
Det absolut säkraste sättet att stänga ute Google från din testmiljö och den metod som vi absolut rekommenderar är att inloggningsskydda din testmiljö. Genom att kräva ett lösenord för att komma åt testmiljlön blir det tvärstopp för Google och andra sökmotorer. Detta är ofta en väldigt enkel lösning att implementera och som även har fördelen att inga konkurrenter kan komma in och snoka i din testmiljö.
Ett alternativ till att kräva just lösenord är att endast ge vissa utvalda IP åtkomst åt testmiljön. Det ger samma önskad effekt.
Vad gör man om man fått sin testmiljö indexerad?
Om ”olyckan” varit framme och din testmiljö blivit indexerad så är det bästa att göra en 301 redirect från din testmiljö till den riktiga sajten. Detta innebär att man inte kan använda samma domän för testmiljön längre. Om man gör en 301 redirect från test.sajt123.se till sajt123.se så behöver man använda en ny subdomän för testmiljö framöver, t ex test2.sajt123.se.
Om man av någon anledning inte kan göra en 301 redirect är den näst bästa lösningen att göra någon av punkterna 1, 2 eller 3 ovan (vi rekommenderar som sagt punkt 3). Att inte göra en 301 redirect kommer innebära att det tar längre tid innan Google väljer att avindexera och bortse från testmiljön och det duplicerade innehåll som skapats.
Hur hittar Google testmiljön?
Om man på något sätt publikt länkar till sin testmiljö kan du vara säker på att Google hittar och indexerar din testmiljö. Men vi har även sett flera exempel på när en testmiljö blir indexerad utan några publika inlänkar, t ex kan det räcka om du skickar URL:en till testmiljön via Gmail för att Google ska snappa upp det och senare indexera det.
5 kommentarer
RSS-flöde för kommentarer till det här inlägget. TrackBack URL
Google-koden
Av Michael | 01 september 2010
Idag är det dags för ett gammalt hederligt boktips. Självklart har det med sökmotorer att göra. Jag har precis läst boken Google-koden av Andreas Ekström. Enligt uppgift är det den enda boken på svenska om företaget Google. Boken är klart läsvärd och rekommenderas varmt. Men förvänta dig inte att lära dig mer om sökmotoroptimering. Boken [...]
Kommentarer (2) | Nybörjare SEO
Matt Cutts om statiska sökvägar
Av Magnus | 25 augusti 2010
Kommer du ihåg att vi för inte allt för länge sen kunde visa att sökmotorvänliga sökvägar, med sökordet i url, är viktigt trots att Matt Cutts sagt att man skulle strunta i det? En av anledningarna till det lilla testet var att visa att man ska vara försiktig med hur mycket man lyssnar på Matt [...]
Kommentarer (10) | SEO
Fler än en träff i sökresultatet
Av Magnus | 24 augusti 2010
Idag har Google gjort en förändring i hur sökresultat presenteras. Som allra mest förut har man kunna få 2 resultat från samma site i ett sökresultat. Vi räknar här inte sitelinks eller eventuella subdomäner. Från och med idag kan du få fler resultat från samma site. På Webmaster Central-bloggen rapporterar man idag att en förändring [...]
Kommentarer (6) | SEO
Analysera inte sönder din sökmotoroptimering
Av Michael | 19 augusti 2010
En stor fördel med all former av internetmarknadsföring är att den är tydligt och enkelt mätbar. Detta gäller inte minst när man investerar i sökmotoroptimering eller sponsrade länkar på Google. Nästan alla använder sig av det förträffliga mätverktyget Google Analytics som ger möjlighet att skära och analysera statistik från din webbsajt på alla möjliga tänkbara [...]
Kommentarer (5) | Internetmarknadsföring Sponsrade Länkar Sökmotoroptimering
All SEO, eller frånvaro av SEO, innebär en risk
Av Magnus | 15 augusti 2010
Media och många andra har under ett antal år valt att ofta prata om risker med SEO, ett exempel är när BMW blir utsparkade ur sökresultatet. Det är klart att sånt får mer utrymme eftersom det har mer nyhetsvärde än alla dom gånger då det fungerar som det ska. Lätt drar man slutsatsen att SEO [...]
Kommentarer (14) | SEO


Tja
Det är ganska stor skillnad på att använda robots.txt och META-noindex. I robots.txt säger du till Google att inte läsa filen, dvs de läser inte innehållet – men de indexerar den (dock inte sagt att den tas med i serpen) och den kan få pagerank som vilken sida som helst (källa: Matt Cutts)
Använder du META-noindex så måste t.ex. Google först kunna läsa filen för att hämta noindex-taggen – när de gjort de ser de taggen och kommer inte indexera innehållet och inte heller indexera sidan.
Många känner inte till detta och kör ”hängslen och livrem” och det är då det blir som mest fel, t.ex. använda både robots.txt + noindex när de vill ha bort filer från serpen (t.ex. affiliatelänkar, pagineringar etc) men det enda som händer är att Google ser robots.txt där de står att de inte ska läsa filen, vilket medför att de aldrig ser meta-noindex taggen eftersom den ligger i innehållet vilket medför att sidan kommer ligga kvar i serpen :-)
Sen det vanligaste i en testmiljö är väl att man ändrar i sin hosts-fil så att ingen annan ens kan komma åt den?
Mvh Jonas
Kommentar by Jonas — 29 januari 2010 - 16:26
Tack för din kommentar, Jonas.
Ja, vid användande av Robots.txt så vet Google om att sidan finns men de spindlar aldrig sidan så det blir aldrig ett problem med duplicerat innehåll. Däremot är det precis som du säger att sidan ända kan hamna i SERP:en, ofta pga att sidan i fråga har inlänkar.
För er som inte sett vad Matt Cutts berättar om robots.txt rekommenderar jag videon som finns på följande sida:
http://www.mattcutts.com/blog/robots-txt-remove-url/
Håller med om att det inte är bra att använda både robots.txt och No Index.
Att använda sig av en host-fil lösning funkar såklart lika bra, men vår erfarenhet är många väljer en lösenordsskyddslösning.
Kommentar by Michael — 29 januari 2010 - 17:42
Hej,
Jag undrar en sak om just ”duplicate content” som du kanske kan svara på. Om man citerar (blockquote) känner sökmotorerna av det så man inte blir straffad för det?
Tack på förhand.
Kommentar by Mats — 01 februari 2010 - 17:38
Google förstår helt klart när man använder blockquote men det ger dig inget skydd. Det är helt klart ok att citera texter men taggen gör ju varken till eller ifrån huruvida Google ska visa sidan eller inte. De vill ju inte visa upp en kopia på texten oavsett hur man taggar upp den.
Vid citat är mitt förslag att citera bara det allra nödvändigaste och se till att tillföra något eget. Dessutom tycker jag att det är rimligt att länka till källan och inte bara ange i text var citatet kommer från.
Den stora grejen här är att inte bara ha ett citat, om du t ex skrivit en bloggpost där du citerar en annan bloggare men gör en analys eller liknande är det inget som Google kommer straffa dig för. Om du bara publicerar en citerad text kan du räkna med duplicate content-filter däremot.
Kommentar by Magnus — 01 februari 2010 - 18:10
Precis detta felet jag gjorde för något år sedan. Var inte så roligt när byggarbetsplatsen började synas på Google. Nu har man dock lärt sig en läxa! Gör numera med inloggningsskydd.
Kommentar by Olof — 03 februari 2010 - 16:07