Datoteka robots.txt pohranjena u korijenu vaše web-lokacije reći će web robote poput spiders tražilice koje imenike i datoteke kojima se dopuštaju indeksiranje. Lako je koristiti datoteku robots.txt, ali postoje neke stvari koje treba zapamtiti:
- Crni šeširi web roboti ignorirat će vašu datoteku robots.txt. Najčešći tipovi su špijunski roboti i roboti koji traže adrese e-pošte za žetvu.
- Neki novi programeri će pisati robote koji ignoriraju datoteku robots.txt. To se obično radi pogrešno.
- Svatko može vidjeti vašu datoteku robots.txt. Oni se uvijek nazivaju robots.txt i uvijek su pohranjeni u korijenu web stranice.
- Konačno, ako netko povezuje datoteku ili direktorij koji je vaša datoteka robots.txt isključena s stranice koja nije isključena datotekom robots.txt, tražilice će je ionako pronaći.
Nemojte koristiti datoteke robots.txt da biste sakrili sve što je važno. Umjesto toga, trebali biste staviti važne informacije iza sigurnih zaporki ili ih ostaviti isključivo s interneta.
Kako koristiti ove uzorke datoteka
Kopirajte tekst iz uzorka koji je najbliži onome što želite i zalijepite ga u datoteku robots.txt. Promijenite robote, imenik i nazive datoteka kako bi odgovarali željenoj konfiguraciji.
Dvije osnovne datoteke robots.txt
Korisnički agent: *
Disallow: /
Ova datoteka kaže da svaki robot (User-agent: *) koji ga pristupa mora zanemariti svaku stranicu na web stranici (Disallow: /).
Korisnički agent: *
Onemogući:
Ova datoteka kaže da je svaki robot (User-agent: *) koji mu pristupuje dopušten je pregled svake stranice na web stranici (Disallow:).
To možete učiniti tako da ostavite robots.txt datoteku prazno ili ga nemate na svom web mjestu.
Zaštitite određene direktorije iz robota
Korisnički agent: *
Disallow: / cgi-bin /
Disallow: / temp /
Ova datoteka kaže da svaki robot (User-agent: *) koji pristupa to treba ignorirati direktorije / cgi-bin / and / temp / (Disallow: / cgi-bin / Disallow: / temp /).
Zaštitite određene stranice od robota
Korisnički agent: *
Disallow: /jenns-stuff.htm
Disallow: /private.php
Ova datoteka kaže da svaki robot (User-agent: *) koji pristupa to treba ignorirati datoteke /ennns-stuff.htm i /private.php (Disallow: /enns-stuff.htm Disallow: /private.php).
Sprječavanje određenog robota od pristupa web sučelju
Korisnički agent: Lycos / xx
Disallow: /
Ova datoteka kaže da Lycos bot (User-agent: Lycos / xx) nije dopušten bilo gdje na web stranici (Disallow: /).
Dopusti samo jedan specifični robot pristup
Korisnički agent: *
Disallow: /
Korisnički agent: Googlebot
Onemogući:
Ta datoteka prvo onemogućuje sve robote kao što smo prethodno napravili, a zatim eksplicitno omogućuje da Googlebot (Korisnički agent: Googlebot) ima pristup svemu (Disallow:).
Kombinirajte višestruke linije da biste dobili točno one izuzeće koje želite
Iako je bolje koristiti vrlo uključivu liniju korisnika-agent, kao što je User-agent: *, možete biti što specifičniji koliko želite. Zapamtite da roboti čitaju datoteku u redu. Dakle, ako prvi redovi kažu da su svi roboti blokirani iz svega, a kasnije u datoteci kaže da je svim robotima dopušteno pristup svemu, roboti će imati pristup svemu.
Ako niste sigurni jeste li pravilno napisali datoteku robots.txt, pomoću Googleove alata za webmastere možete provjeriti datoteku robots.txt ili napisati novu datoteku robots.txt.