|
IL FILE ROBOTS.TXT - Guidiamo i Ragni
|
|
Il Robots Esclusion Standard, e' un sitema al quale hanno aderito buona parte dei motori di ricerca, esso consente di pilotare i singoli spider attraversoun file txt.
|
|
|
|
|
Robots.txt
|
Il Robots.txt e' un semplice file creato attraverso un text editor, nato dall'idea di un gruppo di ricercatori infastiditi dal libero scorazzare degli spider per il web, senza alcun vincolo o limitazione. Il suo compito per l'appunto è quello di adibire o no l'accesso al sito in questione filtrando singolarmente ogni spider, autorizzando ad
esaminare i nostri documenti e nel caso in cui ci sul nostro web
site vi sia una cartella o un file riservato, non consentirne l'accesso.
Oltre a limitare gli spider, questo file può bloccare tutti quei software utilizzati per il download di interi web
site, impedendone appunto lo scaricamento. Un altro sistema per controllare l'accesso dei software al nostro sito, sarebbe quello di modificare le impostazioni di controllo accessi all'interno del server ospitante il dominio, ma non credo che a tutti sia concessa la facolta' di un server personale.
La differenza sostanziale tra il file di robots ed il meta robots, è che il primo puo' pilotare ogni singolo spider consentendo l'accesso ad uno ed impedirlo all'altro, può rendere una directory o un file non indicizzabile e quindi rispettare la nostra privacy, inoltre, le istruzioni sono legge vigente all'interno di tutto il dominio e non come il meta, valido eclusivamente per quella determinata pagina ed ai link ad essa appartenenti.
|
|
Il Codice
|
Le due istruzioni chiave per realizzare questo tipo di file sono sostanzialmente:
1) User-agent: (determina lo spider da escludere)
2) Disallow: (determina l'area d'azione dello spider)
Altri comandi indispensabili sono: " * " ; " / " ; " # " dei quali vedremo presto il loro utilizzo.
Esempio: fingiamo di voler escudere lo spider di google il cui nome
è "Googlebot".
User-Agent: Googlebot
Disallow: /
Questi due comandi impediranno l'accesso allo spider di nome Googlebot a tutte le directory del sito. L'area di limitazione è stabilita dallo Slash, che in questo caso indica tutta l'area del sito considerato. Il file di robots è allocato nella root principale dove di solito è presente l'index. Importante osservazione! L'area di scrittura non è Case Sensitive, questo
significa che l'utilizzo del maiuscolo o minuscolo non influenza la correttezza del codice.
# Escludiamo adesso tutti gli spider dall'accesso di:
User-Agent: *
Disallow:/Personale/
Disallow:/Personal.htm
In questo modo abbiamo escluso l'accesso a tutti gli spider alla cartella "Personale ed al file Personal.htm", il carattere "#" verrà interpretato come riga di commento senza influenzare il codice.
Ogni software che accede al nostro sito con l'intento di interpretare il nostro html assume le sembianze di un "User-Agent", lo spider di un motore, un software per download senza
esclusione per gli stessi browser che permettono di visualizzare il nostro sito, quindi
tutto ciò che interpreta il nostro codice. Un'elenco dettagliato di tutti gli spider correlati dall'User-Agent, lo trovate all'indirizzo:
http://www.siteware.ch/webresources/useragents/spiders/
Definiremo in breve, diciamo pure gli "User-Agent" più in discussione per la loro inutilità, i quali appesantiscono il server con continue richieste, scansionano il nostro sito alla ricerca di e-mail o
altro, creando solamente confusione nei nostri file di log già abbastanza sporchi di costituzione.
User-Agent: Googlebot-Image (Indicizza tutte le nostre Immagini).
Disallow: /
User-agent: EmailCollector (Scansiona il Web alla ricerca di E-mail).
Disallow: /
User-agent: Teleport (Software per lo scaricamento di interi siti).
Disallow: /
|
|
Conclusione
|
Infine, date un'occhiata ai file di Robots dei siti piu' importanti, la locazione e' sempre la stessa "http:\\www.sito.it\robots.txt".
|