File PDF (Portable Document Format)
Conversione in ASCII o postscript

Uno dei motivi che ha favorito la grande diffusione dei file di tipo PDF (Portable Document Format) è il fatto che essi possono essere condivisi da elaboratori dotati di sistemi operativi diversi. Negli ambienti con interfaccia grafica (ad esempio MacIntosh e Windows) si possono utilizzare programmi liberi per la visualizzazione e la stampa e altri programmi per la stesura e la correzione dei file PDF (v. ad esempio il programma Adobe Acrobat Reader) oppure Ghostscript.

Negli ambienti con interfaccia a carattere, invece, la consultazione dei file PDF risulta più difficile. Normalmente si utilizzano programmi che estraggono il testo come un file ASCII oppure HTML. Purtroppo questo processo comporta la perdita della maggior parte della struttura del file (impaginazione, tipi di carattere, immagini), ma ugualmente ci sono circostanze nelle quali può essere desiderabile svolgere questa operazione.

Di seguito è riportato un elenco dei programmi più usati a tale scopo in ambiente MS-DOS.
Per versioni più aggiornate vedere la pagina di Roberto Perotti.

XPDF 3.00 (DOS)
XPDF è dotato di due eseguibili principali:
  • pdftext.exe trasforma un file PDF in un file di testo ASCII;
  • pdftops.exe trasforma un file PDF in un file postscript adatto per la stampa.
Il software XPDF richiede la presenza nel path del programma gzip.exe, che non è incluso nel pacchetto originale, ma che può essere scaricato all'indirizzo www.gzip.org. In alternativa, prelevare l'archivio compresso gzip124.zip.
È disponibile anche una versione di XPDF specifica per Windows.
Pagina originale di XPDF.
Aladdin Ghostscript
Anche GhostScript consente di passare da PDF a testo ASCII oppure postscript, ma in aggiunta può estrarre il testo contenuto in un file postscript; invece non può elaborare file PDF protetti con password.
Seguire attentamente le istruzioni di installazione (in particolare, è necessario impostare alcune variabili di ambiente).
Oltre alla versione per MS-DOS, sono disponibili una versione interattiva per Win9x e una versione da linea di comando per finestra DOS di Win9x.
PDFTOHTML
PDF-TO-HTML trasforma un file PDF in un file HTML: la documentazione dichiara che questo programma è basato su XPDF. Per ulteriori informazioni, vedere la pagina originale di PDFTOHTML.

Allorché una qualunque protezione viene attivata dall'autore di un file PDF, il file stesso risulta cifrato. L'autore ha la facoltà di inibire selettivamente la stampa, la copia di testo e grafica, la correzione e l'aggiunta di annotazioni. Il software XPDF contiene il modulo pdfinfo.exe che consente di conoscere lo stato dei file PDF in merito alle proprietà di protezione.

Nel caso dei file PDF cifrati esiste dunque il problema di estrarre il testo allorché il file è abilitato per la stampa ma non per la copia. In questo caso il programma pdftext.exe non consente di estrarre il testo, ma solo di generare un file postscript adatto per la stampa. Per ottenere il testo occorre perciò elaborare quest'ultimo file postscript con un programma di conversione da postscript a testo ASCII: ad esempio, si può usare il programma ps2ascii accluso a qualunque versione di Ghostscript.

Per facilitare l'operazione di estrazione del testo da un file PDF, ho preparato una piccola procedura batch che si avvale del software XPDF e, nei casi di file protetti per la copia ma non per la stampa, anche di GhostScript. La procedura può essere usata in DOS nativo oppure in finestra DOS di Windows e, una volta che i programmi XPDF e GhostScript sono convenientemente installati, è di utilizzo immediato. La sintassi è la seguente:

   C:\>copdf.bat FileOrigine[.pdf] [FileDestinazione]
dove FileOrigine indica il nome del file PDF da elaborare (si può omettere l'estensione PDF). Il nome del file destinazione è facoltativo: se non viene indicato, la procedura adotta un nome di file temporaneo nella directory C:\TEMP e ne avvia la visualizzazione mediante il programma DOC.
Scarica la procedura per convertire file PDF protetti.
Nota bene. Naturalmente si intende che i file possono essere elaborati solo quando si conosce la relativa password.

Sono disponibili alcuni servizi di traduzione dal formato PDF ai formati testo oppure HTML. Basta inviare il file PDF come attachment a uno dei seguenti indirizzi:

I server che eseguono il servizio sono automatici e rispondono inviando un messaggio che contiene la traduzione del file PDF nel formato richiesto. Naturalmente non vengono tradotti documenti protetti con password.

Visualizza la directory util