Come avete proceduto per la digitalizzazione delle collezioni de "La Stampa"?
La collezione cartacea comprende tutte le edizioni del giornale dalla sua fondazione ad oggi. Per motivi di praticità si è deciso di utilizzare la copia su microfilm dell'intera collezione, appositamente duplicata, di proprietà dell'Editrice La Stampa. Si tratta di un patrimonio di informazioni, per un totale di 1.761.000 pagine, che va dal 1867 sotto la testata "Gazzetta Piemontese" fino al 2005, compresi gli anni in cui fu pubblicata l'edizione del pomeriggio "Stampa Sera". Le pagine sono digitalizzate a partire da microfilm in bianco e nero (oltre 1.600 bobine da circa 1.000 pagine ciascuna). Questo metodo ci consente un buon livello di restituzione delle immagini in tempi più veloci di realizzazione. E' una soluzione che garantisce il miglior rapporto tra qualità dei risultati e costi di realizzazione. Ecco come si è proceduto nella pratica: Le pagine doppie su microfilm sono state acquisite da uno scanner specializzato e poi tagliate per avere pagine singole; Le pagine sono state indicizzate con le indicazioni principali (data, edizione, numero di pagina) e controllate per verificarne la leggibilità; Le immagini sono state ottimizzate, raddrizzate e ripulite per aumentarne la leggibilità da parte del software di OCR (Optical Character Recognition) per digitalizzare i testi; Un secondo software ha effettuato il riconoscimento automatico dei titoli al di sopra di una dimensione definita e delle aree occupate dagli articoli corrispondenti. Questa è stata la fase più impegnativa del progetto, la qualità a volte non ottimale e le differenze di impaginazione nel corso del tempo hanno reso a volte estremamente complicata l'individuazione di un articolo, che non sempre è perfetta; Tutti i dati, compresa la posizione di ogni parola in ogni pagina, sono stati sottoposti a verifica; Le immagini, i testi e tutti i metadati necessari alla consultazione sono stati predisposti e caricati su numerosi server per la messa on line.
Alcuni dati numerici
Le Collezioni La Stampa sono suddivise su due testate principali, La Stampa che nel periodo 1867-2005 ha avuto 47.243 edizioni giornaliere e Stampa Sera che dal 1931 al 1992 ha avuto 18.314 edizioni. Il giornale ha cambiato spesso impaginazione e anche nome: in origine nasce come Gazzetta Piemontese, con 4 pagine giornaliere su 4 colonne, per poi aumentare il numero di pagine e passare a 5, poi a 6 e successivamente a 7 colonne fino a 9 colonne. L'intero progetto completo di tutte le immagini in alta e bassa risoluzione, testi e metadati occupa uno spazio disco di circa 100 Terabite.
Che cosa si può vedere all'interno della Biblioteca Digitale?
Si possono visualizzare tutte le pagine di tutte le edizioni de La Stampa e di Stampa Sera, compresi gli allegati e le edizioni locali. In ogni pagina a partire dal 1910 sono individuati gli articoli principali con l'evidenziazione di titolo e testo, che sono stati digitalizzati da un processo automatico che ha consentito di individuare la maggior parte delle parole effettivamente leggibili sulla pagina per permetterne la ricerca. Una percentuale di errore all'interno dei testi è tollerata anche in funzione delle condizioni di conservazione della pagina originale, non sempre perfette.
A che livello qualitativo sono acquisite le immagini?
Le singole pagine sono state digitalizzate a 300 dpi in scala di grigi. Per la visualizzazione on line sono utilizzate immagini ad una risoluzione più bassa, ma comunque leggibili.
E' possibile stampare le pagine digitali?
Stampare le pagine di un quotidiano su stampanti che usano formati standard è molto complicato per la differenza nelle dimensioni delle pagine originali e quelle della carta comunemente disponibile. E' disponibile la possibilità di stampare la pagina intera a bassa risoluzione, nei formati standard più diffusi (A4, A3, A2) o in Adobe PDF.
Che tipo di ricerche si possono fare?
Dal menù principale in home page selezionare la voce Ricerche e saranno disponibili 3 livelli di ricerca diversi: Ricerca libera: consente di cercare una o più parole che siano presenti all'interno dello stesso articolo o pagina, è possibile collegare tra loro le parole con operatori booleani (AND, OR, NOT) di default il sistema utilizza AND. E' possibile inserire due parole tra virgolette per cercare un termine esatto (ad es. Un nome e cognome: "alberto rossi"). Il sistema restituisce per primi gli articoli dove le parole compaiono nel titolo, poi in ordinamento dal più recente al più vecchio quelli dove la parola cercata compare più volte; Ricerca per data: Range di date permette di cercare le edizioni di un periodo definito da un giorno iniziale e uno finale. Data specifica consente di cercare l'edizione di un giorno particolare o tutte le edizioni precedenti o successive a quella data. Solitamente rispetto alla data di un evento specifico è bene ricordare che il giornale che riporta quell'evento sarà quello del giorno seguente. Ricerca avanzata: permette di combinare tra loro le precedenti modalità di ricerca e di ordinare i risultati secondo criteri diversi. Nella sezione Dettagli sono disponibili le seguenti opzioni: ricerca libera: accetta parole chiave ed operatori booleani (AND, OR, NOT); tutte le parole: accetta parole chiave, applica in automatico l'operatore AND; le seguenti parole: accetta una frase e la cerca nell'archivio; qualunque parola: accetta parole chiave, applica in automatico l'operatore OR; testata: casella di scelta per la selezione di una testata associata all'archivio storico; restringi la ricerca: casella di scelta per cercare in: titolo e corpo dell'articolo; solo titolo dell'articolo; solo corpo dell'articolo. ordina per: casella di scelta per gestire l'ordinamento dei risultati in base a: rilevanza; titolo; data; testata; testata e data; testata, data e numero di pagina.
Sono sicuro che ci sia una parola in un'edizione ma con la ricerca non la trovo, cosa succede?
Il processo di riconoscimento ottico dei caratteri (OCR) legge le immagini digitali in modo completamente automatico. Una percentuale di errore è tollerata a causa delle dimensioni del carattere e delle condizioni di conservazione della pagina originale, che è stata sottoposta ad una serie di passaggi di riproduzione (dalla carta al microfilm, da microfilm originale a microfilm copia, da microfilm a file digitale) che in parte ne alterano la leggibilità. Se possibile cercare parole diverse presenti nello stesso articolo, oppure identificata l'edizione procedere alla lettura delle pagine originali per individuare l'articolo o la parola cercata.
Qual è il modo migliore per fare una ricerca?
La ricerca full text è molto potente e restituisce tutte le occorrenze presenti in tutti i testi dove la parola compare nell'archivio. Per evitare di ottenere troppi risultati è bene cercare di circoscrivere la ricerca inserendo più termini o incrociando la o le parole da cercare con una data o un intervallo di date. Quindi utilizzando il modulo di Ricerca avanzata si possono utilizzare i criteri di ricerca per data unitamente a quelli per parole e filtrare o ordinare i risultati.Consiglio: se non si conosce la data di un avvenimento la soluzione più semplice è cercare quell'avvenimento su www.wikipedia.it oppure con un motore di ricerca internet (ad esempio www.google.it ), individuare la data e cercare l'edizione del giornale del giorno seguente per poter leggere l'articolo riguardante quell'argomento.
Nei risultati della mia ricerca compaiono molte "Notizie" senza titolo, è normale?
La struttura dell'impaginazione di un quotidiano è molto complessa ed è cambiata molto nel corso del tempo. Il software automatico che individua gli articoli ha bisogno di elementi definiti per essere efficace. Il giornale del 1800, fino al 1910 circa aveva una struttura a colonna all'interno della quale si susseguivano le notizie, quasi sempre senza un titolo definito e di dimensioni tali da renderlo riconoscibile in modo automatico. La stessa cosa si verifica in anni recenti per le cosiddette "brevi", notizie di poche righe con titoli di dimensioni ridotte. Tutti questi elementi, non riconoscibili automaticamente sono comunque ricercabili, ma sono classificati con il titolo generico "Notizia" e come tali presentati in fase di ricerca.
Si possono scaricare i documenti consultati?
Si, sarà possibile scaricare i file di testo degli articoli riconosciuti come tali sono escluse tutte le edizioni dal 1867 al 1909 per la scarsa qualità dei testi digitalizzati che vengono utilizzati, in questa prima fase solo per effettuare le ricerche.
Come posso trovare un'edizione completa di un giorno del giornale a partire dalla prima pagina?
Per cercare un'edizione completa basta fare una ricerca per data, andare su Data specifica, inserire giorno, mese e anno e cliccare il pulsante "data esatta". Il risultato è un elenco di tutti gli articoli dell'edizione di quel giorno dalla prima pagina in avanti. Aprendo la prima pagina da uno degli articoli, può usare le frecce nella colonna dei pulsanti di destra per scorrere tutte le pagine dell'edizione, la seconda linguetta della colonna di destra per scorrere le miniature quattro alla volta fino all'ultima pagina.
Come si fa a scaricare il pdf di una pagina che ho trovato?
Per scaricare il PDF bisogna aprire una pagina direttamente dalla lista dei risultati della ricerca e inserire il codice che appare nell'immagine, ovvero le lettere dell'alfabeto che compaiono seminascoste nell'immagine, esattamente come sono riportate. Dopo aver inserito il codice, basta premere il pulsante "Crea PDF" e attendere un paio di secondi che si apra la finestra di scelta della posizione di salvataggio e dare l'ok dopo averla indicata. Al momento non è possibile salvare tutte le pagine di un'edizione in un unico fascicolo, ma solo una pagina alla volta, a partire dai risultati della ricerca e selezionando un articolo/notizia di quella pagina.
Posso fare delle ricerche all'interno dei necrologi?
Si i necrologi sono digitalizzati e ricercabili. Per fare questo tipo di ricerca bisogna cercare i termini che interessano (nome e cognome) tra virgolette nell'ordine che si presume sia stato utilizzato nello scrivere il necrologio. In Ricerca avanzata-Range di date è possibile impostare una data di inizio e una di fine periodo, in modo da delimitare il periodo a quello che interessa.
Ho cercato la parola "Partigiani" in una data del 1944 e non ho trovato nessun articolo/notizia, com'è possibile?
Cercando in un quotidiano bisogna sempre tenere in considerazione il periodo storico. Durante la guerra il giornale era allineato a posizioni governative e le informazioni erano prevalentemente frutto di comunicati ufficiali che difficilmente ammettevano e utilizzavano la parola "partigiani", che anche allargando ad un periodo più ampio compare molto raramente. Per rendere più efficace la sua ricerca sui partigiani, provi a fare la ricerca con il termine "banditi" oppure "comunisti", o abbinando i due. Erano questi i termini utilizzati per descrivere le azioni dei partigiani sui giornali dell'epoca.