Administrere nettstedets tilgjengelighet for søkemotorer

Nettstedet ditt er ubrukelig hvis det ikke kan bli indeksert av søkemotorer. Hvis du vil at den skal vises i søkeresultatene, må du sørge for at den kan nås av søkemotorer. Men noen ganger vil du begrense tilgangen til bestemte deler av nettstedet ditt, kanskje du vil gjemme irrelevante sider eller private dokumenter. I denne artikkelen lærer du hvordan du administrerer nettstedets tilgjengelighet for søkemotorer via en robots.txt fil eller roboter meta tag.


Fordeler med Robots Filer og Tags

Før vi graver inn detaljene for hvordan du oppretter en robots.txt-fil eller roboter-metatag, bør vi se på fordelene deres. Det er noen scenarier hvor implementeringen kan komme til nytte, for eksempel:

  • Forhindre duplikat innhold fra å bli indeksert (for eksempel utskrivbare versjoner av sider).
  • Til ufullstendige sider.
  • Begrensning av søkemotorer fra indeksering konfidensielle sider eller filer.

Dupliserende innhold fortynner din SEO-innsats som søkemotorer, finner det vanskelig å bestemme hvilken versjon som er mest relevant for brukerens søk. Dette problemet kan forhindres ved å blokkere dupliserte sider via en roboterfil eller en tag. Det er en annen måte å administrere duplikat innhold på, men vi diskuterer det senere.

Hvis du har nye, men ufullstendige sider på nettet, er det best å blokkere dem fra crawlere for å forhindre at de blir indeksert. Dette kan være nyttig for nye produktsider, for eksempel - hvis du vil beholde dem en hemmelighet til lanseringen, legger du til en roboterfil eller -kode.

Noen nettsteder har konfidensielle sider eller filer som ikke er blokkert av et påloggingsskjema. En enkel måte å skjule disse fra søkemotorer er via robots.txt-filen eller metataggen.

Nå som vi vet Hvorfor Vi bør administrere tilgjengeligheten til enkelte sider, det er på tide å lære hvordan vi kan gjøre dette.


Robots.txt filen

Crawlers er workaholics. De vil indeksere så mye som mulig, med mindre du forteller dem noe annet.

Når en robotsøker besøker nettstedet ditt, vil det søke etter robots.txt-filen. Denne filen gir instruksjoner på hvilke sider som skal indekseres og som bør ignoreres. Ved å opprette en robots.txt-fil kan du forhindre at robotsøkeprogrammer får tilgang til bestemte deler av nettstedet ditt.

Robots.txt filen må plasseres i toppnivå katalog av nettstedet ditt - for eksempel: www.domain.com/robots.txt. Dette filnavnet er også saksfølsomt.

Advarsel: Hvis du legger til en robots.txt-fil på nettstedet ditt, må du dobbeltsjekke for feil. Du vil ikke utilsiktet blokkere crawlere fra å indeksere viktige sider.


Opprette en robots.txt-fil

robots.txt er en enkel tekstfil med flere poster. Hver plate har to elementer: bruker agent og forby.

Brukeragentelementet forteller hvilke robotsøkeprogrammer som skal bruke uautoriseringsinformasjonen. Disallow forteller crawlers hvilken del av nettstedet ikke kan indekseres.

En plate vil se slik ut:

Brukeragent: * Tillat: 

Oppføringen ovenfor gir søkemotorer tilgang til alle sidene. Vi bruker stjernen (*) til å målrette mot alle robotsøkeprogrammer, og fordi vi ikke har angitt en disallow-side, kan de indeksere alle sider.

Men ved å legge til et fremoverstrekk i feltet Disallow, kan vi forhindre alle crawlere fra å indeksere hva som helst fra vår hjemmeside:

Brukeragent: * Tillat: / 

Vi kan også velge å målrette mot en enkelt crawler. Ta en titt på eksemplet nedenfor:

Brukeragent: Googlebot Disallow: / privat-katalog / 

Denne posten forteller at Google ikke skal indeksere den private katalogen; Googlebot brukes av Google til websøk. For en komplett liste over alle robotsøkeprogrammer, besøk webrobots databasen.

Kobling av en som ikke tillater en bruker-agent, ville være en tidkrevende jobb. Heldigvis kan vi legge til flere disallows i samme post.

Bruker-agent: Bingbot Disallow: / sample-directory / Disallow: /an-uninteresting-page.html Tillat: /pictures/logo.jpg 

Dette forhindrer Bing fra å indeksere prøvekatalogen, den uinteressante siden og logoen.

joker~~POS=TRUNC

Når vi leter på vanlige uttrykk her, kan vi også benytte jokertegn i en robots.txt-fil.

For eksempel bruker mange mennesker Wordpress som et CMS. Besøkende kan bruke den innebygde søkefunksjonen til å finne innlegg om et bestemt emne, og URL-en for et søk har følgende struktur: http://domain.com/?s=searchquery.

Hvis jeg vil blokkere søkeresultatene fra å bli indeksert, kan jeg bruke et jokertegn. Robots.txt-platen vil se slik ut:

Brukeragent: * Tillat: /? S = 

Du kan også bruke jokertegn for å forhindre at filtyper blir indeksert. Følgende kode vil blokkere alle .png-bilder:

Brukeragent: * Tillat: /*.png$ 

Ikke glem å legge til dollarskiltet på slutten. Det forteller søkemotorer at det er slutten på en URL-streng.

Testing robots.txt-filen

Det er alltid en god ide å teste robots.txt-filen din for å se om du har gjort feil. Du kan bruke Googles verktøy for nettredaktører for dette.

Under 'helse' finner du siden 'blokkerte webadresser'. Her finner du all informasjon om filen din. Du kan også teste endringer før du laster opp dem.


Roboter Metatag

Robotens metakode brukes til å administrere tilgjengeligheten av robotsøkeprogrammer til en enkelt side. Den forteller søkemotorer hvis siden kan gjennomsøkes, arkiveres eller om koblingene på siden kan følges.

Dette er hva robots metatag ser ut som:

   

Denne metakoden forhindrer crawlere fra å indeksere nettsiden. Foruten "noindex" finnes det flere andre attributter som kan være nyttige:

  • Indeks: Denne siden kan indekseres.
  • noindex: Denne siden kan ikke vises i søkeresultatene.
  • Følg: linkene på denne siden kan følges.
  • ingen følgere: Koblingene på denne siden kan ikke følges.
  • arkivet: En cache-kopi av denne siden er tillatt.
  • noarchive: En cache-kopi av denne siden er ikke tillatt.

Flere attributter kan brukes i en enkelt robots metatag, for eksempel:

   

Denne markeringen forhindrer crawlere fra å indeksere siden og følge koblingene.

Hvis du tilfeldigvis bruker motstridende koder, bruker Google det mest begrensende alternativet. La oss si at du bruker "" indeks "og" noindex "i samme tag, siden blir ikke indeksert (mest restriktivt alternativ, bare for å være trygt).


Bruker jeg robots.txt eller Meta Tags?

Som vi har diskutert, er det to måter å administrere tilgjengeligheten til nettsider: en robots.txt-fil og metakoder.

Robots.txt-filen er perfekt for blokkering av komplette kataloger eller bestemte filtyper. Med en enkelt tekstlinje kan du gjøre mye arbeid (og potensielt mye skade!) Men hvis du vil blokkere en individuell side, er det best å bruke roboten metataggen.

Noen ganger kan nettadresser som er blokkert via robots.txt-filen fremdeles vises i søkeresultatene. Når det er mange lenker som peker til siden, og Google mener det eneste relevante søkeresultatet for søket, vil det fremdeles vises. Hvis du absolutt ikke vil at siden skal vises, bør du legge til noindex metataggen. Dette kan høres komplisert, men Matt Cutts forklarer alt i detalj i utrykkede nettadresser i søkeresultater på YouTube.


Konklusjon

Med robots.txt-filen og robots meta-tagger kan du enkelt administrere nettstedets tilgjengelighet for søkemotorer.

Ikke glem å sjekke og dobbelkjekke metatagger og robots.txt-fil for å forhindre utilsiktet å blokkere robotsøkeprogrammer fra å indeksere viktige sider.