mardi 29 octobre 2013

ficher ses dépenses

Le service en ligne LCL propose plusieurs années en arrière d'anciennes feuille de compte, mais uniquement sous format PDF. C'est assez ballot pour les exploiter avec un tableur ou une base de données.

Ces pdf ne passent guère qu'avec acrobat reader (acroread sous linux) et pdf_to_text ne peut pas les exploiter. Aussi vais-je ici décrire comment j'ai faitt pour les traduire en fichiers directement importable par LibreOffice (données brutes séaprées par des tabulations, pas d'en-tête de colonne).

obtention des pdf

Il faut passer par chromium car ça ne marche pas avec firefox

du pdf au jpeg

Utiliser OCRFeeder. Y importer une à une les pdf de l'année civile à exploiter. Sauver le fichier sous le nom 458-2012 (par exemple). (attention : ne pas faire d'OCR avec OCRFeeder !!!). On obtient le fichier 458-2012.ocrf qui est en fait une archive zip.

On l'exploite ainsi :

unzip -j 458-2012.ocrf images/*.jpg

du jpeg au texte brute

Il faut transformer le jpeg en pbm avec converter qui fait partie d'imagemagick.

for j in *.jpg;do echo $j;convert $j ${j%.jpg}.pbm; done

et maintenant on fait l'OCR (c'est très rapide avec ocrad) :

for j in *.pbm;do echo $j ; ocrad <$j >>458_2012.txt ; done

obtention du texte final (.unl)

charger 458_2012.txt dans vim et exécuter la commande deux-points suivant (: omis)

%s/^\(..\)\.\(..\) \(.*\) \(\d*\),\(\d*\)$/\1\/\2\/2012^I\3^I\4.\5/

(remplacer 2012 par l'année qui convient)

et sauver le fichier.

grep': grep "^..\." 458_2012.txt >458_2012.unl

Ouvrir 458_2012.unl dans LibrOffice avec tab comme séaparateur et pas de délimiteur. Il faut vérifier les colonnes des montants car les crédits sont pour l'instant au même niveau que les débits.