Ces pdf ne passent guère qu'avec acrobat reader (acroread sous linux) et pdf_to_text ne peut pas les exploiter. Aussi vais-je ici décrire comment j'ai faitt pour les traduire en fichiers directement importable par LibreOffice (données brutes séaprées par des tabulations, pas d'en-tête de colonne).
obtention des pdf
Il faut passer par chromium car ça ne marche pas avec firefoxdu pdf au jpeg
Utiliser OCRFeeder. Y importer une à une les pdf de l'année civile à exploiter. Sauver le fichier sous le nom 458-2012 (par exemple). (attention : ne pas faire d'OCR avec OCRFeeder !!!). On obtient le fichier 458-2012.ocrf qui est en fait une archive zip.On l'exploite ainsi :
unzip -j 458-2012.ocrf images/*.jpg
du jpeg au texte brute
Il faut transformer le jpeg en pbm avec converter qui fait partie d'imagemagick.for j in *.jpg;do echo $j;convert $j ${j%.jpg}.pbm; done
et maintenant on fait l'OCR (c'est très rapide avec ocrad) :
for j in *.pbm;do echo $j ; ocrad <$j >>458_2012.txt ; done
obtention du texte final (.unl)
charger 458_2012.txt dans vim et exécuter la commande deux-points suivant (: omis)%s/^\(..\)\.\(..\) \(.*\) \(\d*\),\(\d*\)$/\1\/\2\/2012^I\3^I\4.\5/
(remplacer 2012 par l'année qui convient)
et sauver le fichier.
grep': grep "^..\." 458_2012.txt >458_2012.unl
Ouvrir 458_2012.unl dans LibrOffice avec tab comme séaparateur et pas de délimiteur. Il faut vérifier les colonnes des montants car les crédits sont pour l'instant au même niveau que les débits.