OCR tesseract
Posted: Sun 21 Jul 2013, 20:18
Pour ceux que ça intéresse, il est possible de faire de la reconnaissance de caractères (OCR) avec Tesseract, comme expliqué sur ce fil du forum ASRI édu.
Commencer d'abord par installer Tesseract (le programme de reconnaissance lui-même).
Celui-ci peut ensuite être utilisé au choix dans Xsane ou bien indépendamment grâce à OcrGui.
Tesseract
tesseract-3.00-i486.pet ........................ md5 : 301c411fb60d4faf5365318535027f70
tesseract-ocr-3.00.fra.pet .................... md5 : ec1d76f85bfce66f8318d30b90c6cf86
ImageMagick-6.6.9-5.pet ..................... md5 : 01ac3f278b5d2f221d529e75eaf31bf3
xsane2tess-1.0_asri_20130102.pet ..... md5 : cc91e3ed6a04712673dd8fe0032b299a
ocrgui-0.2.2-i486.pet ........................... md5 : 157d95bb4b7f267ff6edcf781665a3c2
Commencer d'abord par installer Tesseract (le programme de reconnaissance lui-même).
Celui-ci peut ensuite être utilisé au choix dans Xsane ou bien indépendamment grâce à OcrGui.
Tesseract
- 1) installer la librairie Leptonica : leptonica-1.68-i486.pet
2) installer le logiciel Tesseract : tesseract-3.00-i486.pet
3) installer le paquet de langue française : tesseract-ocr-3.00.fra.pet
- 1) installer ImageMagick : ImageMagick-6.6.9-5.pet
2) installer Xsane2Tess : xsane2tess-1.0_asri_20130102.pet
3) dans xsane aller dans Préférences > Configuration > OCR et remplir le champ Commande OCR avec : xsane2tess -l fra
4) utilisation :
- scanner avec comme cible la Visionneuse
- cliquer sur : Fichier > OCR - Sauver au format
- 1) installer ImageMagick : ImageMagick-6.6.9-5.pet
2) installer OcrGUI : ocrgui-0.2.2-i486.pet
3) faire le réglage dans OcrGUI : File > Preferences > Spell check > Dictionary path and name : /usr/share/hunspell/fr_FR
4) utilisation :
- scanner en .tif exclusivement
- traiter l'image si besoin avec un traitement d'image
- faire la reconnaissance avec OcrGui qui permet de comparer l'image et le texte reconnu, avec l'aide du correcteur orthographique hunspell.
tesseract-3.00-i486.pet ........................ md5 : 301c411fb60d4faf5365318535027f70
tesseract-ocr-3.00.fra.pet .................... md5 : ec1d76f85bfce66f8318d30b90c6cf86
ImageMagick-6.6.9-5.pet ..................... md5 : 01ac3f278b5d2f221d529e75eaf31bf3
xsane2tess-1.0_asri_20130102.pet ..... md5 : cc91e3ed6a04712673dd8fe0032b299a
ocrgui-0.2.2-i486.pet ........................... md5 : 157d95bb4b7f267ff6edcf781665a3c2