Un fitxer robots.txt emmagatzemat a l'arrel del vostre lloc web us dirà als robots web com a aranyes del motor de cerca quins directoris i fitxers se'ls permet rastrejar. És fàcil utilitzar un fitxer robots.txt, però hi ha algunes coses que recordeu:
- Els robots web de Blackhat ignoraran el fitxer robots.txt. Els tipus més comuns són robots de programari maliciós i robots que busquen adreces de correu electrònic per a la collita.
- Alguns programadors nous escriuran robots que ignoren el fitxer robots.txt. Això es sol fer per error.
- Qualsevol pot veure el fitxer robots.txt. Sempre s'anomenen robots.txt i sempre s'emmagatzemen a l'arrel del lloc web.
- Finalment, si algú vincula a un fitxer o directori exclòs del fitxer robots.txt d'una pàgina que no està exclosa del fitxer robots.txt, els motors de cerca poden trobar de totes maneres.
No utilitzeu fitxers robots.txt per ocultar res important. En lloc d'això, haureu de posar informació important darrere de les contrasenyes segures o deixar-lo completament fora de la xarxa.
Com s'utilitzen aquests fitxers d'exemple
Copieu el text de la mostra que està més a prop del que vulgueu fer i enganxeu-lo al fitxer robots.txt. Canvieu el nom del robot, el directori i el fitxer a la vostra configuració preferida.
Dos fitxers Robots bàsics.txt
Agent d'usuari: *No permetre: / Aquest fitxer diu que qualsevol robot ( Agent d'usuari: *) que accedeix, hauria d'ignorar totes les pàgines del lloc ( No permetre: /). Agent d'usuari: *No permetre: Aquest fitxer diu que qualsevol robot ( Agent d'usuari: *) que accedeix a ella, es permet veure totes les pàgines del lloc ( No permetre:). També podeu fer-ho deixant el vostre fitxer robots.txt en blanc o sense tenir-ne cap al vostre lloc. Agent d'usuari: *No permetre: / cgi-bin /No permetre: / temp / Aquest fitxer diu que qualsevol robot ( Agent d'usuari: *) que accedeix, hauria d'ignorar els directoris / cgi-bin / i / temp / ( No permetre: / cgi-bin / Disallow: / temp /). Agent d'usuari: *No permetre: /jenns-stuff.htmNo permetre: /private.php Aquest fitxer diu que qualsevol robot ( Agent d'usuari: *) que accedeix, ha d'ignorar els fitxers /jenns-stuff.htm i /private.php ( No permetre: /jenns-stuff.htm No permetre: /private.php). Agent d'usuari: Lycos / x.xNo permetre: / Aquest fitxer diu que el bot Lycos ( Agent d'usuari: Lycos / x.x) no es permet accedir a cap lloc del lloc ( Agent d'usuari: *No permetre: /Agent d'usuari: GooglebotNo permetre: Aquest fitxer no permetrà tots els robots anteriors i, a continuació, deixeu explícitament el botó de Google ( Agent d'usuari: Googlebot) Teniu accés a tot ( Tot i que és millor fer servir una línia d'agent d'usuari molt inclusiva, com ara Agent d'usuari: *, podeu ser tan específic com vulgueu. Recordeu que els robots llegeixen el fitxer en ordre. Així doncs, si les primeres línies diuen que tots els robots estan bloquejats de tot i, més endavant, en el fitxer, es diu que tots els robots tenen accés a tot, els robots tindran accés a tot. Si no esteu segur de si heu escrit correctament el vostre fitxer robots.txt, podeu utilitzar les Eines per a administradors web de Google per verificar el vostre fitxer robots.txt o escriure-ne un de nou. Protegeix els directoris específics dels robots
Protegeix pàgines específiques de robots
Evita que un robot específic accedeixi al vostre lloc
Permetre només un accés específic de Robot
Combineu diverses línies per obtenir exactament les exclusions que desitgeu