Ces pdf ne passent guère qu'avec acrobat reader (acroread sous linux) et pdf_to_text ne peut pas les exploiter. Aussi vais-je ici décrire comment j'ai faitt pour les traduire en fichiers directement importable par LibreOffice (données brutes séaprées par des tabulations, pas d'en-tête de colonne).
obtention des pdf
Il faut passer par chromium car ça ne marche pas avec firefoxdu pdf au jpeg
Utiliser OCRFeeder. Y importer une à une les pdf de l'année civile à exploiter. Sauver le fichier sous le nom 458-2012 (par exemple). (attention : ne pas faire d'OCR avec OCRFeeder !!!). On obtient le fichier 458-2012.ocrf qui est en fait une archive zip.On l'exploite ainsi :
unzip -j 458-2012.ocrf images/*.jpg
du jpeg au texte brute
Il faut transformer le jpeg en pbm avec converter qui fait partie d'imagemagick.for j in *.jpg;do echo $j;convert $j ${j%.jpg}.pbm; done
et maintenant on fait l'OCR (c'est très rapide avec ocrad) :
for j in *.pbm;do echo $j ; ocrad <$j >>458_2012.txt ; done
obtention du texte final (.unl)
charger 458_2012.txt dans vim et exécuter la commande deux-points suivant (: omis)%s/^\(..\)\.\(..\) \(.*\) \(\d*\),\(\d*\)$/\1\/\2\/2012^I\3^I\4.\5/
(remplacer 2012 par l'année qui convient)
et sauver le fichier.
grep': grep "^..\." 458_2012.txt >458_2012.unl
Ouvrir 458_2012.unl dans LibrOffice avec tab comme séaparateur et pas de délimiteur. Il faut vérifier les colonnes des montants car les crédits sont pour l'instant au même niveau que les débits.
Aucun commentaire:
Enregistrer un commentaire