Indicizzazione 101

L’ispirazione a questo post viene da un anonimo che ha raggiunto questo blog cercando proprio “quanto tempo impiega google per indicizzare una pagina”.
Scuserete l’arroganza del titolo (originariamente doveva essere proprio la query in questione), ma – contando anche sugli eventuali commenti – penso possa uscirne sinceramente un post definitivo.
Ultima cosa: questo post non è per esperti. Loro non hanno neanche bisogno di leggere oltre (bisogno no, magari voglia si).

Ok, dunque: quanto tempo impiega google per indicizzare una pagina? La risposta è semplice: dipende! In realtà, è la domanda che è incompleta. E allora, dato che nella mia insonnia notturna mi capita spesso di vedere (è questione di pochi fotogrammi, ma l’inconscio, si sa, fa brutti scherzi) il faccione di Marzullo, mi faccio le domande e mi do le risposte. Voi in caso aggiungetene altre, che i commenti sono aperti anche per questo.

Prima però va fatto notare che da qualche tempo Google è capace di indicizzare le pagine molto più velocemente di quanto facesse prima. Non è raro trovare pagine pubblicate ed indicizzate in meno di un’ora. Se volete approfondire un po’ l’argomento, c’è un post di Matt Cutts che spiega meglio questa novità.

Veniamo ora ad una serie di domande più generiche. A questa novità non farò ulteriore riferimento, anche se un hint lo trovate al punto 2.

  1. Ho un sito nuovo. Quanto tempo impiega Google per indicizzarlo?

    Innanzitutto, bisogna tenere ben presente che Google (così come anche gli altri motori di ricerca più usati) usano i link per trovare nuove pagine e siti. Diciamola tutta: si aiutano (soprattutto Google) anche con altri mezzi. Ma fondamentalmente è grazie ai link che i motori di ricerca trovano nuove pagine da indicizzare.
    Va da sé che il link verso la nuova pagina da indicizzare deve essere presente all’interno di una pagina già indicizzata dai motori. Questo perché una pagina indicizzata è una pagina conosciuta ai motori, che ciclicamente torneranno a visitarla per verificarne il contenuto (e quindi, anche i link).
    Ci sarebbe (almeno?) una eccezione a questa regola: una pagina con il meta tag NOINDEX,FOLLOW, ma preferisco lasciar da parte le finezze, altrimenti non finiamo più 🙂
    Un ultima nota doverosa: mai mai mai mai mai usare l’addurl che qualche motore di ricerca ancora mantiene vivo (sospetto solo lato frontend, mentre nel backend c’è un bel buco nero). Se tutto va bene, infatti, segnalare un sito ad un motore di ricerca è inutile. In moltissimi sospettano sia addirittura dannoso
    Quindi, quanto tempo serve per indicizzare un nuovo sito? Dipende da quanto spesso lo spider passa per la pagina contenente il link verso il nuovo sito. Da quel momento, è generalmente necessario attendere qualche giorno (non esiste una regola precisa, può essere 1 giorno oppure 10 giorni). Aumentare il numero di link verso il sito tendenzialmente velocizza questo processo.

  2. Ho un sito già presente in Google. Ho creato una nuova pagina: in quanto tempo verrà indicizzata?

    Vale la stessa regola esposta nella risposta precedente: il link permette agli spider di trovare nuove pagine.
    C’è però una piccola differenza che ci può aiutare a prevedere più accuratamente quando la pagina verrà indicizzata: se il link è nel nostro sito, possiamo (dobbiamo poterlo fare!) verificare quando lo spider passa. Con questa informazione, già possiamo fare una stima. Ma se a questo aggiungiamo che possiamo anche fare proiezioni basate sulle pagine indicizzate in precedenza, possiamo arrivare ad una buona approssimazione. Io verifico che in siti “normali” il tempo che intercorre tra spiderizzazione ed indicizzazione è di uno o due giorni. Con i blog, può accadere anche molto più velocemente. Perché? Beh, banalmente, Google & co. leggono il nostro feed! 😉

  3. Il mio sito è on line da parecchi mesi/anni, ma non è presente in Google. Cosa devo fare?

    Se non è mai entrato nell’indice di Google, è probabile che non abbia mai ricevuto un link da pagine già note. Se siete sicuri che questo non è il vostro caso, però, c’è un problema. Probabilmente infatti il vostro sito risulta bannato. E son cazzi, come dicono i francesi.

  4. Ho creato una nuova pagina. Dopo due giorni era indicizzata su Google, ma ora, al terzo giorno, non la trovo più. Perché?

    Perché non esiste un Google. Google ha moltissimi datacenter raggiungibili via Internet e raramente sono perfettamente sincronizzati tra di loro. Quando ti colleghi a Google ti colleghi ogni volta ad un diverso datacenter. Se quindi il tuo sito è presente in qualche datacenter e in qualcun’altro no, dovrai solo avere la pazienza di aspettare un po’. A sincronizzazione avvenuta, troverai la tua pagina indicizzata sempre e comunque.

  5. Quanto costa essere indicizzati nei motori di ricerca?

    Nulla. O meglio, i motori di ricerca non chiedono soldi per indicizzare il tuo sito. Quello di cui hai bisogno per avere il tuo sito in un motore di ricerca è un link. Se poi sei costretto a pagare per avere quel link, è un altro discorso.

Come vedete ho cercato di non approfondire fino alla noia. D’altra parte, capitemi: se iniziavo a tirare in ballo robots.txt, meta tag, ban, redirect e chi più ne ha più ne metta, io non finivo più di scrivere. E voi di leggere.

p.s. in questi ultimi giorni ho una discreta propensione alla scrittura. Mi sembra quindi opportuno, dato che è in tema, segnalare anche la pagina dedicata all’indicizzazione che ho scritto pochi giorni fa su WebRising.