Definisjon av Spidering og Web Crawlers

Spiders & Web Crawlers: Hva du trenger å vite for å beskytte Nettstedsdata

Edderkopper er programmer (eller automatiserte skript) som "kryper" gjennom Internett på jakt etter data. Edderkopper reiser gjennom webadresser og kan trekke data fra nettsider som e-postadresser. Edderkopper er også vant til å mate informasjon som finnes på nettsteder til søkemotorer.

Edderkopper, som også refereres til som "web crawlers" søker på nettet, og ikke alle er vennlige i deres hensikt.

Spammere Spider Websites å samle informasjon

Google, Yahoo!

og andre søkemotorer er ikke de eneste som er interessert i krypende nettsteder - så er svindlere og spammere.

Edderkopper og andre automatiserte verktøy brukes av spammere til å finne e-postadresser (på internett blir denne øvelsen ofte referert til som "høsting") på nettsteder og deretter bruke dem til å lage spamlister.

Edderkopper er også et verktøy som brukes av søkemotorer for å finne ut mer informasjon om nettstedet ditt, men etterlot ukontrollert, kan et nettsted uten instruksjoner (eller "tillatelser") om hvordan du gjennomsøker nettstedet ditt, gi store sikkerhetsrisikoer for informasjon. Edderkopper reiser ved å følge koblinger, og de er svært flinke til å finne lenker til databaser, programfiler og annen informasjon som du kanskje ikke vil ha at de har tilgang til.

Webmastere kan se logger for å se hvilke edderkopper og andre roboter som har besøkt sine nettsteder. Denne informasjonen hjelper webmastere å vite hvem som indekserer nettstedet, og hvor ofte.

Denne informasjonen er nyttig fordi den tillater webmastere å finjustere sine SEO og oppdatere robot.txt-filer for å forby visse roboter fra å krysse nettstedet deres i fremtiden.

Tips om å beskytte nettstedet ditt mot uønskede robotsøkere

Det er en ganske enkel måte å holde uønskede crawlere ut av nettstedet ditt. Selv om du ikke er bekymret for ondsinnede edderkopper som gjennomsøker nettstedet ditt (forvirrende e-postadresse vil ikke beskytte deg mot de fleste crawlere), bør du fortsatt gi søkemotorer viktige instruksjoner.

Alle nettsteder skal ha en fil i rotkatalogen kalt en robots.txt-fil. Denne filen lar deg instruere webbrakere hvor du vil at de skal se på indekssider (med mindre annet er oppgitt i en bestemt sides metadata som ikke er indeksert) hvis de er en søkemotor.

Akkurat som du kan fortelle ønskede crawlere hvor du vil at de skal bla, kan du også fortelle dem hvor de ikke kan gå og til og med blokkere bestemte crawlere fra hele nettstedet ditt.

Det er viktig å huske på at en godt satt sammen robots.txt-fil vil ha enorm verdi for søkemotorer, og kan til og med være et nøkkelelement for å forbedre nettstedets ytelse, men noen robotsøkeprogrammer vil fortsatt ignorere instruksjonene dine. Av denne grunn er det viktig å holde all programvare, programtillegg og apper oppdatert til enhver tid.

Relaterte artikler og informasjon

På grunn av utbredelsen av informasjonshøsting som ble brukt til falske (spam) formål, ble loven vedtatt i 2003 for å gjøre visse fremgangsmåter ulovlige. Disse forbruksloven omfattes av CAN-SPAM-loven fra 2003.

Det er viktig at du tar deg tid til å lese om CAN-SPAM-loven dersom virksomheten din engasjerer seg i massemelding eller høsting av informasjon.

Du kan finne ut mer om anti-spam lover og hvordan du håndterer spammere, og hva du som bedriftseier kanskje ikke gjør, ved å lese følgende artikler: