Kit Ocr

Post Reply
Message
Author
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

Kit Ocr

#1 Post by Dorothée »

Bonjour,

comme il m'arrive assez souvent de faire de la reconnaissance de caractères, j'ai fini par concocter un Kit_ocr contenant quelques outils dans ce but. Les langues installées sont le français, le portugais, l'espagnol, l'italien, l'allemand et l'anglais.

Je l'ai testé sur Precise 5.7.1, Tahr et Slacko. Il devrait donc normalement fonctionner sur Triton 5.7.3, Toopy, Triton 6 et Slacko.

Ce kit ocr vous permet de faire de la reconnaissance de caractères (OCR) par trois manières.

- La première est d'ouvrir OcrGui, qui affiche le résultat du scannage. Il y a le choix entre deux "programmes", Tesseract et Gocr, avec quelques réglages possibles. Il est possible d'enregistrer le résultat de plusieurs reconnaissances OCR.

- La seconde est d’ouvrir pic2text / feuille. Une interface gui s’ouvre, qui permet de faire de la reconnaissance de caratères image par image, en choisissant la langue dans un menu déroulant. On peut aussi modifier la taille des images avant de procéder à l’OCR.

- La troisième manière est d'ouvrir le menu voisin pic2txt / dossier, qui permet de faire de la reconnaissance de caratères de plusieurs images d'un dossier. À la fin du processus, une fonction vous propose de rassembler tous les fichiers obtenus en un seul fichier. pic2txt / dossier est très intéressant, à condition d'avoir préparé toutes les images avant de procéder à l'ocr (taille adéquate etc.) Ces manipulations d'images peuvent se faire avec imagemagick, également inclus dans ce kit.

- Un dernier menu vous permet de rassembler des fichiers .txt en un seul, si vous avez scanné des images une par une.

LES APPLICATIONS CONTENUES DANS LE KIT OCR

Outre une entrée menu et un mode d'emploi.

POUR LES INTERFACES:

- tesseract

- ocrgui-0.2.2_all (merci Argolance)

- gocr (de gocr-0.44-i686.pup)

- pic2txt-1.3

- pic2txt-batch (merci rcrsn51) adapté en menus

- image changer 1.2 (pour pouvoir modifier la taille des images dans l'interface de pic2text)

Les langues installées sont: le français, le portugais, l'italien, l'espagnol, l'allemand et l'anglais.

POUR LA CONSOLE:

- imagemagick-6.6.9-5 (dont a aussi besoin ocrgui)

Le sfs (12 Mo) est téléchargeable ici: (actualisé Version 3)

Kit_ocr-all-3.sfs
https://drive.google.com/file/d/1y8hcQe ... vI6kC/view
Attachments
Pres_menu2.jpg
(55.62 KiB) Downloaded 369 times
Last edited by Dorothée on Wed 19 Dec 2018, 21:33, edited 2 times in total.

did18
Posts: 417
Joined: Wed 19 Nov 2014, 22:27

#2 Post by did18 »

Bonjour

Merci Dorothée pour ce "kit_ocr".

Même s'il peut être amélioré, cela devrait rendre service aux personnes qui font de la récupération de texte... Et c'est déjà un bon début que de proposer cette suite d'utilitaires.

Quelques petites "erreurs" de traduction se sont glissées malgré tout dans cette suite...
Par exemple l'aide de "OcrGui" apparaît en Anglais chez moi alors que l'application "semble" utiliser le Français... Je dit "semble" car les menus sont parfaitement Francisés, mais le texte des boutons est resté lui en Anglais.
Ce n'est pas bien méchant et on s'y retrouve malgré tout...

La reconnaissance de texte est lié au moteur et "Tesseract" (par défaut) semble offrir un meilleur résultat que "Gocr"... Ceci dit, je n'ai fait l'essai que sur la couverture (papier glacé) d'un livre... Peut être que la récupération d'un article sur un journal apporterai un résultat différent.

La sélection de langue (pour "Tesseract" est en contraction sur des boutons radio (deu pour deutch, eng pour Anglais, fra pour France etc.), je pense que cela est plus dû au fait du concepteur, mais un choix UTF-8 ou afficher le nom complet de la langue eut été plus heureux (surtout qu'il y a largement la place dans la boîte de dialogue)...

pic2txt v1.3 apparaît également en Anglais et le "Language" par défaut est le "deu" si on sélectionne le "fra", cette option n'est pas mémorisée à la fermeture (dommage)...

Ces petits désagréments ne nuisent en rien au bon fonctionnement des utilitaires.

J'allais oublier, j'ai conduis ces tests depuis une session Tooppy V2.3, l’installation et l'utilisation du kit_ocr s'est déroulée sans problème.

Bonne journée.
Attachments
181207_152324_945x711_easyshot.jpg
(119.42 KiB) Downloaded 245 times

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#3 Post by Dorothée »

Bonsoir Did18,

je te remercie de ton retour.

Il est vrai que ce kit pourrait être amélioré, mais c'est un bon début, comme tu dis.

En ce qui concerne les traductions, j'ai essayé de créer un fichier .mo pour pic2txt, sans succès, car Momanager renvoie toujours à peasyscan (!!!). Si quelqu'un a une idée sur cette fantaisie, je suis preneuse.

Pour l'aide de ocrgui, il faudrait remplacer le fichier .htlm par un autre en français. Je m'y collerai peut-être, avec l'aide d'un traducteur automatique, car je n'ai pas trouvé de mode d'emploi en français sur internet.

Quant au menu dérourant des langues, elles apparaissent par ordre alphabétique (et donc deu - allemand - en premier). Je n'ai aucune idée de comment mettre fra - français - en premier, et que cela puisse rester le choix, et si c'est possible.

Pour Ocrgui, je n'ai pas très bien compris à quoi tu fais allusion quand tu écris que les langues sont "en contradiction" avec des boutons. Pas au point de ne pas correspondre à la langue choisie, heureusement!

Je vais tenter d'améliorer tranquillement ce petit Kit, et je mettrai en ligne la nouvelle version. En attendant, celle-ci en l'état peut bien servir, je pense.

D'ailleurs, si des personnes souhaitent que j'y intègre d'autres langues et leurs dictionnaires, é so mandar! (demandez-le moi, je le ferai avec plaisir).

Ciaozinho,

User avatar
rcrsn51
Posts: 13096
Joined: Tue 05 Sep 2006, 13:50
Location: Stratford, Ontario

#4 Post by rcrsn51 »

Dorothée wrote:En ce qui concerne les traductions, j'ai essayé de créer un fichier .mo pour pic2txt, sans succès, car Momanager renvoie toujours à peasyscan (!!!).
Change Line 5 of pic2txt.

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#5 Post by Argolance »

Bonjour,
Merci Dorothée pour ce kit.

[EDIT]:supprimé

Cordialement.
Last edited by Argolance on Mon 10 Dec 2018, 00:27, edited 1 time in total.

did18
Posts: 417
Joined: Wed 19 Nov 2014, 22:27

#6 Post by did18 »

Bonjour
Dorothée wrote:Pour Ocrgui, je n'ai pas très bien compris à quoi tu fais allusion quand tu écris que les langues sont "en contradiction" avec des boutons. Pas au point de ne pas...
En fait je parlais de la "contraction" des mots indiqués comme étiquette des boutons radio (RadioButton)...

Exemple : Deutch = deu
English = eng
France = fra
etc...

En ce sens peut être aurait il été plus judicieux d'utiliser l'universel UTF-8 comme par exemple :
de_DE German, Germany
en_GB English, GreatBritain
fr_FR French, France
et en récupérant le 2ème item de chaque ligne (sachant que l'item 0 est celui de la variable qui aura été "splitée")
item 0 = de_DE
item 1 = English
item 2 = GreatBritain
et ainsi de suite pour chaque ligne...

Ooops erreur ! En fait il fallait lire :
item 0 = de_DE
item 1 = German
item 2 = Germany
Toutes mes excuses.


Ce qui est bien plus lisible et compréhensible pour tous les utilisateurs Français (qui ne sont pas forcément des programmeurs)...

Ceci peut d'autant plus être fait automatiquement en utilisant cette fameuse variable locale qu'elle est obligatoirement présente sur chaque distribution (pas seulement les puppys) et qu'il y a largement la place pour cet affichage (je met un copie écran pour illustrer cette possibilité).

Bonne journée.
Attachments
2.jpg
(38.11 KiB) Downloaded 267 times

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#7 Post by Argolance »

Bonsoir,
Je pense que Dorothée n'y peut rien et que c'est le programme Tesseract et ses propres fichiers qui sont fichus comme ça. Voir l'image du PPM ci-jointe.

Cordialement.
Attachments
181210_002946_654x276_easyshot.jpg
(54.1 KiB) Downloaded 239 times

oui

#8 Post by oui »

did, c'est un traès vieux programme PROPRIÉTAIRE fonctionnant vraiment bien et dont l'usage a été permis tel quel dans Linux. le propriétaire avait pensé l'abréviation des langues autrement (les bonnes abréviations hyper-courtes monopolisent la combinaison de lettres qui se trouvent de fait quasi interdites pour d'autres usages... ce n'est pas bon non plus, et, dans ce cas, cela ne sert à rien, il parait que les linuxiens sont trop cons pour mémoriser 2 lettres et les entrer eux-mẽmes au clavier comme on le faisait avant dans xorg.conf: il leur faut maintenant impérativement un menu à couolisseau pour ce faire, pas que quelqu'un prétende habiter sur la lune et y parler martien, ça foutrait la diarrhée aux applications espionnes géopositionnant! il aurait été alors tellement plus logique de mettre langue et géoposition en texte clair: l'humain étant plus fainéant que les animaux que l'on appelle comme ça (désigner un défaut humain par un animal en lui assignant est une insulte et un abus: l'homme est toujours bien pire que l'animal - le vrai cochon, c'est vraiment ce cochon d'être humain, le vrai loup, c'est l'homme, le vrai satyre, ce n'est pas le satyre, il n'y peut rien d'être moitié homme et moitié animal parait-il sexuellement dépravé, la représentation aurait du être inverse, le haut bon aninmal et le bas humais en rage sexuelle, vache n'est jamais aussi vache que les humains, le pauvre âne a une mémoire proverbiale, pourquoi n'apprendrait-il rien, la bique nous donne du lait alors que nos dames ne veulent plus sevrer, et bien sûr que les lapins sont chauds, mais ils en ont besoin, parce qu'on tire dessus et les décimes alors que le pape laisse les humains se reproduire pire que les lapins et envahir et détruire la planète, le crapaud est horrible, et les humains alors!), il aurait crié qu'on lui mette un menu à coulisseau latéral pour chacune des 2 valeurs! Mais, non, il a fallu ajouter les 2 outils de paresse (non, de dictat des programmeurs vendant sans le dire ingénieusement leurs nouvelles variantes à Google et aux services secrets américains, chinois, martiens... Les mises à jour de sécurité, c'est pas pour nous! c'est pour permettre à la pub de nous envahir plus, et à la pub et aux services secrets de mieux nous contrôler plus...))

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#9 Post by Dorothée »

Bonsoir,

après les messages de did18, j'ai procédé à de petites améliorations de ce Kit_ocr, qui consistent en:

- création d'un fichier .mo pour pic2txt (merci rcrsn51, c'était si simple) dont l'interface est dorénavant en français;

- ajouts de messages d'erreur quand, par exemple, il n'y a pas de fichier image à scanner;

- une traduction en français de l'aide de Ocrgui, faite automatiquement par Deepl, qui m'a véritablement bluffée (je n'ai fait qu'une seule correction);

- en ce qui concerne les boutons des langues (deu, fra etc...), j'ai laissé ça tel quel car cela ne me paraît pas une gêne majeure et surtout... parce que je n'ai aucune idée de comment modifier la chose.

Pour ceux qui aiment les logiciels à la découpe, je mets en ligne le fichier .mo de pic2txt et aussi gocr-0.44-i686 en pet qui est introuvable en ligne.

Kit_ocr-all-2.sfs
https://drive.google.com/file/d/1H4mvNy ... 4yssC/view

gocr-0.44-i686.pet:
https://drive.google.com/file/d/1flWA10 ... JhG_E/view

pic2txt.mo
https://drive.google.com/file/d/1at3AvU ... lk2mv/view

À bientôt pour de nouvelles aventures,

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#10 Post by Argolance »

Bonjour,
Merci Dorothée.
Dorothée wrote:aussi gocr-0.44-i686 en pet qui est introuvable en ligne
Par contre, tout comme d'ailleurs tesseract et ses fichiers de langues (voir image ci-dessus), ainsi que toutes les libs nécessaires examinées/installables automatiquement, la version 0.49, qui doit, en principe, être plus récente que la 0.44, est présente dans le PPM de Puppy Precise:

Code: Select all

# gocr -h
Optical Character Recognition --- gocr 0.49 20100924
Copyright (C) 2001-2010 Joerg Schulenburg  GPG=1024D/53BDFBE3
released under the GNU General Public License
Cordialement.

oui

#11 Post by oui »

bonjour Argolance, ta citation semble concerner gocr? gocr est bon car d'encombrement minimal. par contre sa puissance de déchiffrage est considérablement plus faible que celle de Tesseract-OCR, et il y a beaucoup à contrôler derrière (et à corriger, bien sûr, donc de réel travail). cdlmt

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#12 Post by Dorothée »

Hello,

après quelques ratés à l'insu de mon plein gré (on veut améliorer et on fait des bêtises), voici la version 3 du Kit_ocr, débarrassé de certaines scories un tantinet problématiques.

J'ai une remarque sur OcrGui (avec Tesseract): peut-être à cause d'un fichier temp, il ne procède pas à la reconnaissance de caractères pour des fichiers un peu gros. Les deux autres outils pic2txt le font, eux, parfaitement.

(rajout) D'une manière générale, c'est mieux d'utiliser des fichiers jpg, qui sont beaucoup moins gros que les png. XnConvert convertit très bien les fichiers images.

Un de ces quatre, je mettrai en ligne une nouvelle version de la célèbre PIPOCA (Pipoquita pour les intimes) avec ces améliorations du Kit_ocr ainsi que d'autres merveilleuses surprises venues du sud.

Até logo,

Kit_ocr-all-3
https://drive.google.com/file/d/1y8hcQe ... vI6kC/view

Post Reply