mercoledì 26 marzo 2008

Come ritrovare le pagine web scomparse

«Error 404. Page not Found». Oppure: «Exceeded bandwidth limit». Chiunque navighi in Internet si imbatte pressoché regolarmente in questi messaggi, e conosce bene la frustrazione del non riuscire ad accedere ai contenuti della pagina elettronica cercata. I motivi per cui un indirizzo web non è disponibile posso essere tanti: una pagina può essere irraggiungibile per via del cosiddetto effetto Slashdot (troppi utenti cercano di connettersi alla stessa Url nello stesso momento) o perché è stata rimossa dal server, o perché quel server non è più attivo. Comunque sia, prima di disperare e gettare la spugna è bene fare almeno un paio di tentativi per recuperare ciò che si stava cercando. Come? Le pagine wiki della sezione How-To di Wired danno qualche utile suggerimento in proposito.

OLTRE L'EFFETTO SLASHDOT – Tramite il servizio gratuito di Coral Cache è possibile accedere a un mirror di pagine temporaneamente non disponibili perché «slashdottate», ovvero quelle pagine che sono state linkate da blog molto popolari come Slashdot o Digg, e che per questo motivo si trovano improvvisamente sotto assedio e non riescono a far fronte all'alto traffico. In pratica, è sufficiente aggiungere «nyud.net» alla fine dell'Url che risulta irraggiungibile e aspettare qualche istante prima di essere finalmente collegati alla pagina richiesta.

SE LA PAGINA NON ESISTE PIÙ – Ma che si può fare quando ciò che impedisce di collegarsi a un'Url non è il troppo traffico ma la scomparsa della pagina dalla rete? Ci si può rivolgere alla memoria a lungo termine di Google, per esempio, e confidare nella sua cache: la grande G conserva infatti le copie delle pagine indicizzate e ne segnala la presenza nei risultati di ricerca tramite il link «cached» (o «copia cache»), posizionato accanto all'Url originale. Così, per arrivare a una pagina che non esiste più basta cercarla su Google e cliccare l'indirizzo della cache: ciò che sarà visualizzato corrisponde all'ultima registrazione effettuata dagli spider di Google per quella pagina. E questa, tuttavia, potrebbe non corrispondere a ciò che si stava cercando. Quindi, se nemmeno l'algoritmo di Mountain View fosse d'aiuto, ecco che entra in gioco il motore dell'Internet Archive, la Wayback Machine, che consente di accedere anche a pagine rimosse dal web anni fa. Questo perché, in pratica, Wayback Machine conserva tutte le pagine che nel corso degli anni sono state pubblicate sotto una determinata Url. Tramite il suo archivio riesce insomma a riesumare dalla profondità della rete contenuti che, in teoria, non dovrebbero più essere visibili.

MEGLIO PREVENIRE – Tuttavia, per avere la certezza di non perdere i contenuti web a cui si tiene particolarmente - o che potrebbero tornare utili in futuro - è consigliabile non limitarsi a memorizzare i link corrispondenti nella cartella dei preferiti: meglio usare servizi di social bookmarking che salvano sui loro server una copia della pagina selezionata. Magnolia è uno di questi.

Letto su Corriere della Sera.it