Translate

domenica 7 aprile 2013

GUIDA E TOOLS PER L'ANALISI DEI FILES DI LOG


Guida ai file log SEO
Una guida all’analisi dei files di Log, per la search engine optimization,  non puo’ che partire dalla definizione dei files di log: 
 I files di log sono dei documenti, in formato di  testo, utilizzati dai WEB SERVER per  registrare una serie di informazioni relative alle visite che il nostro sito internet  ha ricevuto in un lasso di tempo definito.
I file di log sono due:

  1. File degli accessi ricevuti che ci fornisce indicazioni su tempi di download dei singoli oggetti facenti parte del nostro sito, la data e l’orario delle visite ricevute, l’indirizzo IP dal quale c’è stato il collegamento al nostro sito internet, le risorse richieste dal visitatore  e la tipologia di risposta che è stata  data al visitatore; 
  2. File degli errori registrati che ci elenca tutti gli errori riscontrati in fase di accesso.
Risulta chiaro che per un esperto SEO,  l’analisi di questi file diventa fondamentale per capire, almeno, due cose importanti: 
  • Quanto risulta interessante il nostro sito internet per lo spider di Google?
  • Quali errori ha riscontrato lo spider di Google consultando il nostro sito internet?
In questa guida ci limiteremo a capire bene quali tools ci possono essere utili per facilitare l’analisi di queste due problematiche.
Partiamo con il dire che per avere i files di log occorre interpellare l’amministratore del server, sul quale il nostro sito internet è caricato, e chiedere di metterli a vostra disposizione. Generalmente l’amministratore li posizionerà in una cartella nominata LOG.
Tramite un qualsiasi programma FTP (consiglio, uno per tutti, il famoso FILEZILLA) li scaricheremo sul nostro pc e tramite dei programmi specifici li analizzeremo nel dettaglio.
Il  software che utilizzo per procedere con quest’analisi  è Apache Log file Viewer.  E’ un programma gratuito (almeno per le applicazioni di base) che ci fornisce le seguenti informazioni :
  • File LOG degli accessi: IP ADDRESS di chi ci ha visitato, DATA e ORARIO della visita, la richiesta effettuata dal visitatore (quindi l’oggetto, l’immagine, la pagina, etc.), lo stato di risposta alla richiesta, la grandezza in KB della risorsa ottenuta in seguito alla richiesta e il Paese in cui è localizzato l’indirizzo IP del visitatore.
  • File LOG degli errori:  IP ADDRESS di chi ci ha visitato, DATA e ORARIO della visita, il messaggio di errore ottenuto dal visitatore e il Paese in cui è localizzato l’indirizzo IP del visitatore.
Se tra gli indirizzi IP del file degli accessi leggeremo  anche “crawl…” allora vorrà dire che il famigerato spider di Google, Googlebot,  ha effettuato una visita al nostro sito internet. E’ importante, quindi, che:
  • Googlebot ci venga a visitare quanto più spesso è possibile. Questo vuol dire infatti che Google considera il nostro sito interessante e invia il suo spider per registrare aggiornamenti di pagine già esistenti e/o pubblicazioni di nuove pagine.
  • La risposta del nostro sito internet, alla richiesta dello spider sia sempre positiva.  A volte può succedere che lo spider richieda dei file che non ci sono (per esempio il file robots.txt). In questo caso non è necessario crearli e caricarli. L’importante è che gli errori non siano su file e pagine che sono parte integrante del nostro sito internet.

Attenzione anche al peso delle risorse restituite al crawler (la colonna size del file degli accessi).


Se avete il sospetto che le dimensioni di qualche oggetto siano un po’ esagerate, effettuate una verifica con PageSpeed Insights — Google Developers per ottimizzare ogni singolo elemento del vostro sito internet. Seguendo le istruzioni di questo utilissimo tool, infatti, riuscirete sicuramente a migliorare le prestazioni delle vostre pagine internet in termini di velocità di download.


Dall’analisi di questi due files di LOG, riuscirete a capire quindi quali interventi impostare sul vostro sito internet per eliminare gli errori, assolutamente penalizzanti per il posizionamento, e quali risorse risultano esplorate maggiormente dal Googlebot.

Se queste ultime non corrispondono a quelle che ritenete più importanti ed interessanti per l’indicizzazione del vostro sito internet allora avete un problema da affrontare. 

Il mio consiglio, chiaramente, è quello di cominciare a risolvere questo problema leggendo con attenzione gli altri post di questo blog.

Buon lavoro!

sabato 26 gennaio 2013

GOOGLE PENGUIN: QUALI SITI INTERNET PENALIZZA?

Google Penguin

A quasi un anno dall’introduzione dell’aggiornamento dell’algoritmo di Google, ribattezzato GOOGLE PENGUIN,  possiamo provare a tirare le somme e capire quale impatto sembra ci sia  stato sui siti internet indicizzati in GOOGLE.
Per chi non lo sapesse ancora,  Google Penguin, come ho accennato nel post ALGORITMO GOOGLE PANDA: COME HA INCISO SUI SITI INTERNET, è un aggiornamento dell’algoritmo di Google lanciato il 26 aprile 2012 sul WEBMASTER CENTRAL BLOG, che punta all’individuazione e penalizzazione dei siti internet che utilizzano tecniche BLACK HAT per il posizionamento organico in GOOGLE.
Le tecniche BLACK HAT sono tutte  tecniche fraudolente, lontane dalle linee guida sulla qualità dei siti introdotte da GOOGLE nella seguente pagina.
 In sostanza le principali tecniche black hat sono:

  • ·         Keyword stuffing (letteralmente imbottitura di parole chiave) in cui il webmaster sovraccarica le pagine internet con parole chiave, magari anche con del testo nascosto.

  • ·         Testo e contenuto non originale, o addirittura generato automaticamente tramite strumenti specifici (RSS, frames etc.) che risultano assolutamente inutili per l’utente.

  • ·         Link non naturali, cioè collegamenti in uscita o in entrata, tra il nostro sito e altri siti, creati o tramite pagamento (acquisto di link), o tramite strumenti automatici o  tramite tecniche di scambio link. Queste ultime sono tollerate ed accettate se avvengono in maniera non esagerata e naturale (vedi post).

  • ·         Cloaking e Sneaky redirect (letteralmente mascherarsi e reindirizzamento subdolo). Con queste due tecniche  il webmaster riesce a presentare un contenuto differente del sito internet  in base al fatto che lo consulti lo spider di un  motore di ricerca o un utente reale.

  • ·          Doorway pages (letteralmente pagine d’ingresso). Il webmaster le crea per indicizzarle al meglio per una specifica parola chiave, ma le utilizza solo per rimandare l’utente ad un altro sito (spesso assolutamente inutile per l’utente).   

  • ·         Comportamenti maligni, come scaricare virus, malware, tentativo di raccogliere dati sensibili degli utenti etc.


L’aggiornamento Google Penguin, quindi mira ad individuare i siti internet posizionati con tecniche BLACK HAT e a penalizzarli.
Che tipo di risultati ha ottenuto questo aggiornamento, quindi?
Pare che l’impatto sia stato ancora più modesto rispetto a GOOGLE PANDA. Siamo, infatti, intorno al 3-5% dei siti indicizzati a livello globale. 
Nell’Ottobre 2012, inoltre, è stato introdotto un aggiornamento di Penguin, ribattezzato PENGUIN 3, che pare abbia avuto un impatto di mezzo punto percentuale sul totale delle ricerche.
Apprezzo molto lo sforzo di Google nel migliorare i risultati organici del proprio motore di ricerca.
Con il tempo i risultati cominciano finalmente a vedersi.
Lato SEO l’unica cosa che dobbiamo tenere in mente per non essere impattati dagli aggiornamenti PANDA E PENGUIN è costruire contenuti di qualità, freschi, originali, interessanti ed utili per il target che vogliamo colpire. 
Domandiamoci sempre: quanto è utile da 1 a 10 la mia pagina internet per l'utente che digita una query con le parole chiave da me scelte? La risposta DEVE essere sempre 10!
Questo sarà un punto sempre più determinante su cui sconfiggere la nostra concorrenza e balzare al primo posto in GOOGLE.