Semalt fornisce suggerimenti su come gestire robot, ragni e crawler

Oltre a creare URL compatibili con i motori di ricerca , il file .htaccess consente ai webmaster di impedire a bot specifici di accedere al proprio sito Web. Un modo per bloccare questi robot è attraverso il file robots.txt. Tuttavia, Ross Barber, il Customer Success Manager di Semalt , afferma di aver visto alcuni crawler ignorare questa richiesta. Uno dei modi migliori è utilizzare il file .htaccess per impedire loro di indicizzare i tuoi contenuti.

Cosa sono questi robot?

Sono un tipo di software utilizzato dai motori di ricerca per eliminare nuovi contenuti da Internet a fini di indicizzazione.

Eseguono le seguenti attività:

  • Visita le pagine Web a cui sei collegato
  • Controlla il tuo codice HTML per errori
  • Salvano le pagine Web a cui ti stai collegando e vedono quali pagine Web si collegano ai tuoi contenuti
  • Indicizzano i tuoi contenuti

Tuttavia, alcuni robot sono dannosi e cercano nel tuo sito indirizzi e-mail e moduli che vengono solitamente utilizzati per inviarti messaggi o spam indesiderati. Altri cercano anche falle nella sicurezza nel tuo codice.

Cosa è necessario per bloccare i crawler Web?

Prima di utilizzare il file .htaccess, è necessario verificare quanto segue:

1. Il tuo sito deve essere in esecuzione su un server Apache. Al giorno d'oggi, anche quelle società di web hosting decenti nel loro lavoro, ti danno accesso al file richiesto.

2. Dovresti avere accesso ai log dei server non elaborati del tuo sito Web in modo da poter individuare quali bot hanno visitato le tue pagine web.

Nota che non è possibile bloccare tutti i robot dannosi se non li blocchi tutti, anche quelli che ritieni utili. Nuovi robot escono ogni giorno e quelli più vecchi vengono modificati. Il modo più efficace è proteggere il tuo codice e rendere difficile per i robot spammarti.

Identificazione dei robot

I robot possono essere identificati dall'indirizzo IP o dalla loro "Stringa agente utente", che inviano nelle intestazioni HTTP. Ad esempio, Google utilizza "Googlebot".

Potrebbe essere necessario questo elenco con 302 bot se si dispone già del nome del bot che si desidera tenere lontano utilizzando .htaccess

Un altro modo è scaricare tutti i file di registro dal server e aprirli utilizzando un editor di testo. La loro posizione sul server può cambiare a seconda della configurazione del server. Se non riesci a trovarli, chiedi assistenza al tuo host web.

Se sai quale pagina è stata visitata o l'ora della visita, è più facile venire con un bot indesiderato. È possibile cercare il file di registro con questi parametri.

Una volta, hai notato quali robot devi bloccare; è quindi possibile includerli nel file .htaccess. Si noti che il blocco del bot non è sufficiente per fermarlo. Potrebbe tornare con un nuovo IP o nome.

Come bloccarli

Scarica una copia del file .htaccess. Effettuare backup se necessario.

Metodo 1: blocco tramite IP

Questo frammento di codice blocca il bot utilizzando l'indirizzo IP 197.0.0.1

Ordina Nega, Consenti

Nega da 197.0.0.1

La prima riga indica che il server bloccherà tutte le richieste corrispondenti agli schemi specificati e consentirà tutti gli altri.

La seconda riga dice al server di emettere una pagina 403: vietata

Metodo 2: blocco da parte dei programmi utente

Il modo più semplice è utilizzare il motore di riscrittura di Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

La prima riga garantisce che il modulo di riscrittura sia abilitato. La riga due è la condizione alla quale si applica la regola. La "F" nella riga 4 indica al server di restituire un 403: proibito mentre la "L" indica che questa è l'ultima regola.

Carichi quindi il file .htaccess sul tuo server e sovrascrivi quello esistente. Con il tempo, dovrai aggiornare l'IP del bot. Nel caso in cui si commetta un errore, è sufficiente caricare il backup effettuato.

mass gmail