OCR

Message
Author
User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#31 Post by Argolance »

Bonjour,
Voici le SFS de OcrGui 2.2, compilé sur ToOpPy (Puppy Precise 5.7.1) à tester et qui devrait également fonctionner sur Triton 5.0...
Langues disponibles: en, fr, it
-------------------------------------------------------------------------------------------------------------------------------------------
:idea: Pour ceux qui seraient tentés de compiler directement à partir des sources s'ils utilisent une autre version de Puppy, elles se trouvent dans le même répertoire. Le fichier d'origine modifié pour que le programme s'affiche correctement dans le menu a été renommé en "/data/ocrgui.desktop.in.ori".

:arrow: Fichier SFS <<<
:arrow: Paquet pet <<<

:arrow: Répertoire distant des sources à compiler <<<

Marche à suivre:
  • Charger le SFS de développement "devx" propre à la version de Puppy.
    Décompresser le fichier source quelque part, par exemple dans /root.
    Se placer dans le dossier décompressé.
    Clic droit sur une partie vide.
    Dans le menu ROX, sélectionner >Fenêtre>Terminal ici, et taper (ou sélectionner/coller avec le bouton gauche):

    Code: Select all

     ./configure --prefix=/usr --localedir=/usr/share/locale
    puis:

    Code: Select all

    make
    puis:

    Code: Select all

    make install
    si on veut l'installer directement dans le système, ou alors (recommandé):

    Code: Select all

    make install DESTDIR=/chemin/du/dossier
    si on veut construire un dossier qui pourra ensuite être transformé en SFS ou en paquet pet (ce chemin peut être, par exemple /root/ocrgui-2.2).
    • Commandes:

      Code: Select all

      dir2sfs /root/ocrgui-2.2
      pour construire un fichier SFS.

      Code: Select all

      dir2pet /root/ocrgui-2.2
      pour construire un paquet pet.
NOTE: le tiret entre "ocrgui" et le numéro de version est important puisqu'il permet à la commande dir2pet de bien libeller le programme dans le fichier "pet.specs" intégré au paquet et utilisé par PPM dans le listage des paquets installés.

Merci de vos retours.

@felixbd
Je me permets, simple suggestion, de te demander s'il ne serait pas judicieux de remplacer l'intitulé de ce fil, "ROC" par "OCR", car je pense que "ROC" (qui n'évoquait rien pour moi au départ!) exclut ce fil des recherches faites sur le terme "OCR" par d'autres utilisateurs non francophones du Forum pouvant être intéressés par son contenu?

Cordialement.
Last edited by Argolance on Thu 19 Oct 2017, 17:07, edited 1 time in total.

felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

#32 Post by felixbd »

@ Argolance, merci pour ta remarque : j'ai modifié en conséquence l'intitulé de ce fil. Mon insistance à vouloir utiliser le français confine parfois au chauvinisme ! Inutile toutefois de persister dans l'erreur puisque le but d'un forum est de se faire comprendre du plus grand nombre.
J'essaierai de tester OCRGui 2.2, merci d'avance pour ton travail.

Je me suis livré, ces temps derniers, à quelques comparaisons concernant la reconnaissance de caractères. Jusque-là, et avant de tester OCRGui, c'est Yagf qui donne les meilleurs résultats, avec une quantité d'erreurs négligeable.

Je n'avais qu'une difficulté : je ne pouvais utiliser Yagf sous Triton... mais la nouvelle version 6 (merci également à Petihar) permet une installation facile de Yagf. Il fonctionne lui aussi avec Tesseract et nécessite donc l'installation des paquets habituels. Seul problème, mais que tu as résolu avec OCRGui : l'interface (très simple) est en anglais.
Cordialement.

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#33 Post by Dorothée »

Argolance,

merci pour le sfs, cela marche parfaitement, malgré le fait que, dans "préférences" on me dise que Gocr n'est pas installé. J'avais installé (monté les sfs) préalablement Tesseract, Imagemagick et Imagechange au cas où. Mais même sans Gocr, cela fonctionne...

Je suis aussi intéressée par la deuxième manière, pour apprendre un peu. Jusqu'à présent, je n'avais pas percuté qu'il fallait monter devprecise pour installer...

Félix, tu m'intéresse avec Yagf, je vais y regarder de plus près, comme je suis moi aussi plongée dans des travaux d'ocr. Mais quand même, une chose m'intrigue, dans la mesure où tous ces outils sont basés sur Tesseract (n'est-ce pas lui qui fait tout le boulot?), comment une interface graphique plutôt qu'une autre peut-elle donner de meilleurs résultats?

À bientôt et merci,
Last edited by Dorothée on Sun 01 Oct 2017, 18:28, edited 1 time in total.

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#34 Post by Argolance »

Dorothée wrote:merci pour le sfs, cela marche parfaitement, malgré le fait que, dans "préférences" on me dise que Gocr n'est pas installé. J'avais installé (monté les sfs) préalablement Tesseract, Imagemagick et Imagechange au cas où. Mais même sans Gocr, cela fonctionne...
OcrGui fonctionne soit avec l'un, soit avec l'autre, soit avec les deux s'ils sont installés.
Je suis aussi intéressée par la deuxième manière, pour apprendre un peu.Jusqu'à présent, je n'avais pas percuté qu'il fallait monter devprecise pour installer...
En suivant la marche à suivre tu ne devrais pas avoir de soucis et ça te mettras le pied à l'étrier, comme on dit!
comment une interface graphique plutôt qu'une autre peut-elle donner de meilleurs résultats?
Je pense que ce sont les options des moteurs de reconnaissance optique eux-mêmes qui sont configurables de façon plus conviviale via les interfaces de OcrGui ou de Yagf (que je ne connais pas mais qui doit fonctionner de la même façon), et qui permettent d'affiner la façon dont les différents éléments des images sont interprétés.

Cordialement.

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#35 Post by Dorothée »

J'ai compris.

Dans ce cas, vu les options des préférences, avec OcrGui c'est Gocr qui est le plus pointu. Tesseract doit l'être aussi, mais cette interface propose des options avec Gocr mais pas avec Tesseract.

Je vais donc de ce pas à la pêche à Gocr, en espérant ne pas me retrouver à nouveau avec des galères de librairies.

Merci pour ces éclaircissements,

à bientôt,

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#36 Post by Argolance »

Gocr est disponible dans le PPM: out of the box! Mais je ne vois à priori pas beaucoup de différences entre les deux résultats. :?
Attachments
171001_213743_341x247_easyshot.jpg
(11.18 KiB) Downloaded 338 times

felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

OCR, suite

#37 Post by felixbd »

Bravo à Argolance ! Je viens de reprendre (sous Triton 6.0) les quatre textes dont je m'étais servi pour effectuer mes essais précédents et OCRGui est indiscutablement le meilleur : interface plus complète, correction orthographique intégrée notamment.
De plus, et c'est là l'essentiel, il doit frôler les 98% de reconnaissance, dans des conditions moyennes à savoir :
-- textes scannés en corps 10 à 14 (environ)
-- images saisies avec Xsane en fichiers .jpg à 300 dpi avec valeurs par défaut de Xsane (gamma, 1, luminosité, 0, contraste, 0)
-- texte aux lignes horizontales (rectifier si besoin est)
-- N.B. : ne pas accentuer le contraste des scans.
(Je donne ces détails au cas où ils pourraient aider quelqu'un, les résultats d'un poste à l'autre pouvant varier.)
Suite à ces essais, je me suis posé la même question que Dorothée et, n'étant pas technicien, je retiens l'explication d'Argolance.
Merci encore !

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#38 Post by Dorothée »

Merci Félix pour tes précisions de scannage. Je vais tenter tout ça.

À bientôt,

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#39 Post by Argolance »

Bonjour,
Suite à ces essais, je me suis posé la même question que Dorothée et, n'étant pas technicien...
Moi non plus et je rectifie: cette explication me parait logique mais elle est à prendre avec des pincettes car peut-être totalement fausse!!! :roll:

Cordialement.

oui

#40 Post by oui »

bonjour,
je repasse ici de temps à autre (dans l'espoir d'y découvrir un vrai puppy 64 bit qui fonctionne et possède les applications qu'installe Barry Kauler normalement, donc, explicitement et en particulier Seamonkey... parce que j'ai un archive de coupures de journaux électroniques basé sur le kompoZer de Seamonkey...). pour l'instant, quand je veux du 32 bits, j'utilise toujours unicorn de Barry Kauler, vu que j'ai les SFS de Rainer (car Unicorn n'est plus supporté!).

mais je suis en fait en Devuan Jessie 64 bit minimal installé un peu comme un Puppy (664 Mo en 64 bit vide en console, 2 Go installé par dessus comme suit:
sudo apt install gpm clex sc links cups didiwiki samba spell alsa-tools alsa-utils xorg menu jwm slim evince mgp mtpaint mhwaveedit mplayer2 rox-filer libcanberra-gtk0 libcanberra-pulse epiphany-browser
remarque: Devuan installe lui-même certaines applications console intéressantes telles que nano, parfaitement utilisable en remplacement complet de leafpad! c'est console, mais aussi texte libre sans gestion stricte de lignes, et avec la touche médiane de la souris utilisable avec des applications graphiques consommatrices de texte! ou calendar, etc.!)

c'est une installation graphique/mode console minimale sur laquelle je ne rajoute que mes applications spéciales à moi. l'une est tesseract-ocr avec tesseract-ocr-fra ainsi que tesseract-ocr-deu, et, pour l'accompagner gimagereader ). Mais, théoriquement au moins, gocr doit faire le même travail sans recourir à une quelconque base de données: il décrypte les caractères - point final, et se manipule en ligne de commande! et il est absolument minuscule par rapport à tesseract-ocr (qui est une application lourde, qui fut abandonnée par le monde commercial). mes autres applications spéciales sont ibus, des fonts asiatiques, markaartor, marble-qt, gramps etc., dont tout le monde n'a pas besoin. tout ce qui est avant "xorg" dans la citation fonctionne aussi en console simple! donc aussi un traitement de texte offert par didiwiki en console dans links, car cups fonctionne aussi dans links, n'a pas besoin de X et didiwiki maitrise le souligné, l'italique et les caractères gras! et enregistre ses pages en documents au simple format texte! Mais malheureusement, la présentation, ensuite, est celle d'un document HTML (ou je suis trop bête pour éviter les en-têtes et changement de page du HTML)! mais, malheureusement quand on installe ces applications "pure console d'abord", Debian (et Devuan, qui n'a éliminé systématiquement que "systemd" dans les applications aussi, d'où la petite taille de l'installation, mais pas le reste des lourdeurs que trimbale désormais Debian, surtout pour faire du clientélisme, car cela plait à beaucoup de VIP du monde microinformatique que Debian donne de l'importance à leurs applications chouchoute en les rendant obligatoire sans concession! Pour s'en débarrasser vraiment il faut passer à la vitesse supérieure et installer plutôt LinuxFromScratch... ou la base NuTyx, qui est LFS précompilé, et compléter la dedans...).

(Seamonkey est toujours sur le disque dur, dans chaque partition, ainsi que ~/.mozilla , et n'a pas besoin d'être installé... )

noter que le dépôt de sfs, voir aussi les répertoires parents du dépôt, de Rainer contient à priori le requis pour la reconnaissance de caractères (depuis 4 ou 5 ans) puisque son Lazzy fut créé pour l'utilisation en collège d'enseignement secondaire et que la reconnaissance de caractères peut y être intéressante! cela marche, si je me rappelle bien, cela fonctionne aussi dans les Lazzy's plus récentes!

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#41 Post by Argolance »

Désolé, erreur...

oui

#42 Post by oui »

bon, cher Argolance, tu peux considérer les autres comme des erreurs, mais on s'en fout: ton truc est suranné et tu ne le remets pas au pas...

(le problème MAJEUR de Toutou aussi et de tous les machins francophones présentés sur ce forum: sans continuité cela ne reste que des machins!)

bon, quand à l'OCR, voici une page magistrale sur le web:

https://www.linux.com/learn/how-scan-an ... urce-tools

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#43 Post by Argolance »

Bonjour oui,
oui wrote:bon, cher Argolance, tu peux considérer les autres comme des erreurs, mais on s'en fout: ton truc est suranné et tu ne le remets pas au pas...
(le problème MAJEUR de Toutou aussi et de tous les machins francophones présentés sur ce forum: sans continuité cela ne reste que des machins!)
Il y a malentendu! Mon message n'est nullement un jugement portant sur le contenu du tien (dont une bonne partie est néanmoins complètement hors-sujet!) mais simplement une fausse manœuvre. J'ai en effet rédigé un message et cliqué sur "Submit" par erreur. Il concernait une coquille dans les fichiers sources de compilation de OcrGui (le makefile génère un dossier fantôme "/usr/share/icons/hicolor/scalable " comportant un espace en fin de nom qui fait doublon avec le dossier "scalable" normal). Cela empêche de mettre le cache des icônes du dossier hicolor à jour, via la commande:

Code: Select all

:gtk-update-icon-cache -f -i /usr/share/icons/hicolor
Je ne suis pas l'auteur de ce programme. Je l'ai découvert par hasard, ai trouvé pratique son interface graphique qui fonctionne aussi bien avec Tesseract que Gocr et voulu le partager avec ceux à qui il peut rendre service.
bon, quand à l'OCR, voici une page magistrale sur le web:
Tout l'intérêt de OcrGui est justement qu'il permet à l’utilisateur lambda, pas familiarisé avec la ligne de commande, de visualiser les documents/configurer les options avec plus de facilité.

Je ne vois pas en quoi il est "suranné".

[En tout cas, je ne m'explique pas cette agressivité concernant nos "machins". Il ne tient qu'à toi de t'y coller et de relever "magistralement" le niveau. C'est faire aussi bien peu de cas de la peine que certains veulent bien se donner à mettre au point ces machins. Comme on dit par chez moi (je me répète):
"C'est bien plus facile d'avoir la gueule ouverte que d'avoir le bras tendu" :wink:.
À bon entendeur...]


Cordialement.

oui

#44 Post by oui »

Argolance wrote:Je ne vois pas en quoi il est "suranné".

[En tout cas, je ne m'explique pas cette agressivité concernant nos "machins". Il ne tient qu'à toi de t'y coller et de relever "magistralement" le niveau. C'est faire aussi bien peu de cas de la peine que certains veulent bien se donner à mettre au point ces machins. Comme on dit par chez moi (je me répète):
"C'est bien plus facile d'avoir la gueule ouverte que d'avoir le bras tendu" :wink:.
À bon entendeur...]


Cordialement.
Argolance, tu es depuis longtemps membre de ce forum, mais moi encore plus, et y ai fait des expériences précoces... j'ai été exactement dans ta situation aussi: publiant moi-même un dérivé de Puppy (pas francophone: vivant en Allemagne, la francophonie, je m'en fiche! c'est même plutôt une source de handicaps!)

longtemps, trop longtemps, car entre temps, cet autre Puppy était aussi devenu suranné.

que veut dire suranné?

tout bonnement que le machin n'était plus actuel: Linux avait progressé, un peu comme un rouleau compresseur, écrasé tout l'ancien sous ses chenilles de véhicule chenillé, et ...

... le machin n'était plus actuel!

pour les francophones, il est presque vital de rester à jour!

parce que de toute manière, notre médiocre dialecte de l'anglais nous tient à l'écart des nouveautés publiées dans notre langue maternelle prioritaire, l'anglais! on ne peut pas, en linux, allonger la longévité! les bibliothèques changent de manière fatidique. tu es hors de course...

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#45 Post by Argolance »


User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#46 Post by Argolance »

Bonsoir,
Mise à disposition des nouveaux paquet/SFS/fichier compressé des sources. Une coquille* dans les fichiers sources de compilation de OcrGui empêchait toute mise à jour du cache des icônes du dossier hicolor via la commande:

Code: Select all

gtk-update-icon-cache -f -i /usr/share/icons/hicolor
* Le makefile générait un dossier fantôme "/usr/share/icons/hicolor/scalable " comportant un espace en fin de nom qui faisait doublon avec le dossier "scalable" normal.
:arrow: Voir plus haut ce message

Cordialement.

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#47 Post by Dorothée »

Merci Argolance pour les nouveaux paquets. Je n'ai rien compris, mais ça a l'air d'être important alors je prends!

À bientôt,

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#48 Post by Argolance »

Bonjour,
Dorothée wrote:Je n'ai rien compris, mais ça a l'air d'être important alors je prends!
Disons que ça a une certaine importance mais ce n'est pas "fatal".
Lorsqu'on installe/charge un programme qui a son icône propre, cette dernière apparaît dans le haut et à gauche de la barre de titre de la fenêtre du programme, et aussi dans le MENU. Pour ce faire il faut que l’icône soit répertoriée dans un fichier (icon-theme.cache) qui est créé par la commande donnée plus haut. Elle peut être exécutée à l'installation du programme (grâce au fichier pinstall.sh) mais l'est de toute façon à chaque lancement de Puppy. L’installation de OcrGui empêchait toute mise à jour du contenu de /usr/share/icons/hicolor privant par là certains programmes installés ultérieurement de leur(s) icône(s).

Voilà pour la petite histoire.

Cordialement.

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

PeasyScan 2.12a

#49 Post by Argolance »

Bonsoir,
Pour ceux que ça intéresse, je me suis permis d'habiller/rendre plus convivial et explicite l'excellent mais très aride :arrow: script de rcrsn51 pour les utilisateurs de ToOpPy. Pensant que ça pourrait aussi être utile à d'autres "Puppyistes", je le mets ici à votre disposition, vu qu'il y a une fonction OCR (moyennant l'installation de Tesseract).

Merci de vos éventuels retours.

[EDIT]: paquet modifié, voir message plus bas.

Cordialement.
Attachments
peasyscan-2.12a.pet
(97.07 KiB) Downloaded 142 times
171120_162954_627x378_easyshot.jpg
GUI
(29.89 KiB) Downloaded 103 times
Last edited by Argolance on Thu 23 Nov 2017, 16:31, edited 1 time in total.

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#50 Post by Dorothée »

Merci Argolance et bravo, c'est effectivement très convivial.

Post Reply