Post

Visualizzazione dei post da giugno, 2023

Potente sistema di Riconoscimento Ottico di Caratteri sotto GNU/Linux per documenti PDF gestito da riga di comando e con rifinitura in Vim.

Immagine
1 Premessa 2 L’installazione dei componenti. 3 L’OCR di documenti in PDF con “tesseract”: descrizione dei passaggi. 4 I singoli passaggi. 5 Tutto in un unico comando! 6 E ora: Vim con RegEx 7 In conclusione {{% toc %}} 1 Premessa L’idea è nata dalla lettura di questo articolo a proposito del riconoscimento ottico dei caratteri (OCR) in ambiente GNU/Linux da immagini e PDF, gestito da linea di comando. Ovviamente i documenti PDF sono quelli di tipo scansionato da originale cartaceo, ovvero non ottenuti da salvataggio diretto di documento in formato digitale. Per questi ultimi non occorre alcun OCR. L’articolo è scritto molto bene ed il risultato finale è ottimo. Mi sono chiesto se fosse possibile aggregare tutti i passaggi in un unico comando di testo. In questo articolo riporto la mia soluzione. A seguire, poi, ho aggiunto alcuni passaggi con RegEx in Vim per riformattare il risultato grezzo d