Page 1 of 1

Résolu : OCR reconnaissance de caractères

Posted: Sun 10 Mar 2013, 03:49
by Pelo
Bonne nouvelle. J'ai un pdf d'un vieux bouquin de 1804 sur Charette, le chefs de l'insurrection royaliste pendant la révolution. Le livre a été scanné. Puppy a un logiciel d'OCR qui fonctionne le mieux qu'il peut.
Il faut taper en terminal pour le lancer. Je voudrais le mettre dans le menu documents.
Que dois-je faire ? C'est fait dans la nouvelle Version.
Je crois qu'il il y un Gui pour faire ça, clair, sans passer par le jargon du terminal (sur le forum, ils disent comment faire avec le jargon informatique, mais j'y pige rien)..
Valable pour tout ce qu'on voudrait ajouter au menu.

J'ai trouvé ! menuentry dans la lucid 528 niteflux.

Posted: Wed 13 Mar 2013, 12:17
by Argolance
Bonjour,
Intéressant!
Mais, moi qui débarque comme n'importe quel utilisateur "lambda", je trouve ici bien peu de renseignements sur la marche à suivre, le programme à télécharger (car sur la Precise 5.4.3, usr/bin/puppyocr n'est pas présent, ni là ni ailleurs)!

Merci de nous en dire un peu plus... :wink:

Cordialement.

Taper PUPPYOCR dans le moteur de recherche du forum

Posted: Sun 17 Mar 2013, 19:47
by Pelo
Il y a 3 ou 4 réponses quand tu tapes Puppyocr dans le moteur de recherche là-haut . Le pet est fourni.
La reconnaissance se fait à partir de fichiers .tif. Il faut donc faire une copie d'écran du pdf et taper en console PUPPYOCR.
Il ne faut pas être trop gourmand, un screenshot de la moitié d'une page A4 suffit, plus c'est écrit petit, moins il reconnait les caractères.
Le logiciel est efficace autant que les logiciels pour grand public gratuits.
Après, c'est pas l'Amérique non plus. Je ne passerai pas de journées entières à faire de L'OCR. Mais pour 2 ou 3 passages d'un bouquin, c'est bien utile.
A+
OCR sur Forum Puppy

Posted: Sun 17 Mar 2013, 21:49
by Médor
Bonsoir,

Une interface graphique existe pour puppyocr basé sur Tessaract v 2.04.
Cette version est prévue pour la reconnaissance de mots en anglais !
tronkel : tips wrote:Scan your image in with XSANE and save it as PNM file (XANE default). Then open this image in MTPAINT and crop as desired. Then save as a TIFF file type. Before you save your image, rescale it larger if necessary so that Tesseract can process it properly. You can access this feature in MTPAINT under the image -> scale canvas menu item
Voir ce fil au sujet de l'OCR sur le forum ASRI éducation.

Cordialement.,
Médor.

Posted: Mon 18 Mar 2013, 23:08
by Argolance
Bonsoir,
Merci bien pour les renseignements.
... Bon c'est pas vraiment simple tout ça! Je pense surtout à l'utilisateur "ordinaire" qui risque d'être un peu effrayé! M'enfin bon, l'utilisateur "ordinaire" ne se sert pas souvent d'un OCR. :wink:
Je me demande par ailleurs ce qu'il est possible d'obtenir sous WINE: je vais explorer ça.

Cordialement.

L'ocr met des lettres bout à bout

Posted: Thu 21 Mar 2013, 09:41
by Pelo
Texte du PPM : reconnaissance de caractères brute par PuppyOCR :

The Puppy Package Manager is a tool for installing and
uninstalling packages (applications). There are online
repositories of ubuntu and Puppy packages -- the latter
are known as PEI' packages and are identified by '.pet'
on the end of their filename. Note that apart from the
official ubuntu and PEI' repositories, Puppy enthusiasts
have created many PEI's at other locations, and all you
need to do is download one and click on it to install it.

Il n'y a pratiquement pas de fautes ! Il faut grossir le texte à photographier pour l'aider.

Le PPM sert à installer et désinstaller des applications en ligne (archives ou paquets ou pets) à partir de dépôts Ubuntu, slackware, ou Puppy... et de nombreux autres. Cliquer sur le paquet (.pet) téléchargé pour son déversement automatique dans les bons répertoires. L’application apparait dans le menu, sinon ouvrir usr/share/applications. Sinon, la chercher avec Pfind (extension .desktop)

Posted: Thu 21 Mar 2013, 09:53
by Argolance
Hello Pelo,
Merci pour les précisions.
Il faut grossir le texte à photographier pour l'aider.
Il n'y a pas besoin d’agrandir l'image pour grossir le texte. Sa taille dépend de la résolution de numérisation. Plus la résolution est grande et plus l'image l'est. L'idéal c'est 300 dpi.
Il faut taper en terminal pour le lancer. Je voudrais le mettre dans le menu documents.
Que dois-je faire ?
Je crois qu'il il y un Gui pour faire ça, clair, sans passer par le jargon du terminal (sur le forum, ils disent comment faire avec le jargon informatique, mais j'y pige rien)..
Valable pour tout ce qu'on voudrait ajouter au menu.

J'ai trouvé ! menuentry dans la lucid 528 niteflux.
... 2Pmm le fait aussi très bien!

Cordialement!

Puppy ocr : c'est presque enfantin à utiliser

Posted: Thu 21 Mar 2013, 09:58
by Pelo
La taille de la police doit être de 14 mini , autrement Puppyocr est bigleux.
Votre texte est à l'écran
1 faites une copie décran, que vous enregistrez en tiff
2 ouvrez avec MTpaint cette image et zoomer là pour arriver à une taille de 14
3 prenez une photo d'écran à nouveau (en .tiff bien sûr) que vous enregistrez en /root
4 lancez PuppyOCR en renseignant le nom du fichier, extension tif comprise.
5 donner un nom au fichier de sortie.

Il bosse, et en 2 secondes il a traduit. Corrigez les bévues.

C'est prêt. A vous de juger de l'intérêt d'utiliser Puppyocr. Il arrive tout de même à prendre en compte une demi-feuille A4 d'un coup. Moi ce sont des photocopies de livres datant de 1800 que je fait. Et il m'aide bien.

Puppyocr est à la une des journaux !

Posted: Thu 21 Mar 2013, 10:03
by Pelo
Puppyocr est à la une des journaux ! le Gui vient juste de sortir.
Bien sûr Puppyocr n'est pas Abiword, ni un traducteur. Chacun son job.
Bien content qu'on voit du nouveau sur nos lignes. A+
Ci-dessous un exemple où Abiword et son dictionnaire me corrigerait les erreurs.
Il ne me resterait que quelques petits ajustements de rien du tout.
Post-sciptum : j'ai vraiment eu un bon résultat sur ce coup-là. Ca marche rarement aussi bien. Le type de caractères, peut-être...

pdfcube 3D petit pet, grans effets (3d)

Posted: Thu 21 Mar 2013, 10:13
by Pelo
Pourtant j'ai essayé Puppyocr avec la distro d'Argolance, j'ai pas fait attention à ce masque de saisie.
Je suis allé sur la 528.
Bien noté, Monsieur Argolance et bon travail.
Vacherie : on est tellement habitué aux termes anglais qu'on est perdu quand c'est décrit en français. bon, maintenant, je vais aller magasiner, faire du shopping, quoi. Mais non, pas à mon âge.

Posted: Thu 21 Mar 2013, 10:25
by linuxcbon
Charette ? Non ! Vive la révolution française et la république ! :D

Coupons la tête au pape ! PDFs des livres de 1800

Posted: Thu 21 Mar 2013, 12:01
by Pelo
Je suis vendéen, je m'interesse à l'histoire de la Vendée, et j'océrise les documents de l'époque avec Puppyocr qui laisse quelques erreurs que le dictionnaire d'Abiword va rectifier. Encore faut-il que j'en trouvât un. Celui sur la version expérimentale 5.5 de notre logiciel français le fait. Yes !
Les républicains de 1793 étaient des extrémistes (guillotinés après la terreur -Robespierre entre autres-), la république d'aujourd'hui reçoit le pape en grandes pompes, et la télé nous barbe avec l'élection du Saint-père. Mes ancêtres avaient raison et sont morts pour rien, les révolutionnaires de 1793 étaient des intégristes, et les vendéens de braves gens.
C'est écrit trop petit sur cette Toutou 5.5 ! mais la configuration d'Abiword est bien faite. Profitons-en.
Pour mes pyppistophiles interressés, j'ai 600 pages à traduire en caractères exploitables par un traitement de textes . Help !

Re: Coupons la tête au pape ! PDFs des livres de 1800

Posted: Thu 21 Mar 2013, 12:20
by linuxcbon
Pelo wrote:Je suis vendéen, je m'interesse à l'histoire de la Vendée, ... Les républicains de 1793 étaient des extrémistes, la république d'aujourd'hui reçoit le pape en grandes pompes, et la télé nous barbe avec l'élection du Saint-père. Mes ancêtres avaient raison et sont morts pour rien, les révolutionnaires de 1793 étaient des intégristes, et les vendéens de braves gens.
Les Français en 1793 en avaient marre des "ROYS" de France, qui passaient leur temps à faire des guerres et à ruiner le pays. Guerres contre Allemagne, Angleterre, Italie, Autriche, Prusse, Flandre, Bretagne, Normandie, Portugal, Aquitaine, Espagne, Suède, Norvège, Savoie, Ecosse, Saxe, Bavière, Sicile... Louis XVI avait réduit le peuple à la famine et pendant ce temps il faisait la fete. Peut etre les paysans de Vendée mangeaient à leur faim, mais pas tous les Français.

Et je vois certains (pas tous) Vendéens xenophobes, sans ajouter que les habitants ne sont pas accueillants ni souriants, ne disent pas bonjour, j'y suis allé en vacances, aucune animation, vide... Et ils critiquent Paris et la région parisienne.

OCR : éviter de retaper un texte à la main

Posted: Tue 26 Mar 2013, 04:03
by Pelo
Argolance wrote:Bonsoir,
Merci bien pour les renseignements.
... Bon c'est pas vraiment simple tout ça! Je pense surtout à l'utilisateur "ordinaire" qui risque d'être un peu effrayé! M'enfin bon, l'utilisateur "ordinaire" ne se sert pas souvent d'un OCR. :wink:
Je me demande par ailleurs ce qu'il est possible d'obtenir sous WINE: je vais explorer ça.

Cordialement.
Quand on ne peut pas faire de copier coller, l'OCR est une solution. Ensuite, on comprend vite si le jeu en vaut la chandelle.

A/ j'aurais plus vite fait de retaper à la main
B/ Je gagne du temps.
Le cerveau humain est capable de lire un texte bancale, mal fichu, un texte qui bave. Pas L'OCR.
Quand l'OCR fonctionne bien pour une page, on garde le réglage, et là il peut en faire 100 de suite en quelques minutes. On lance un correcteur d'ortographe derrière, et là c'est pratiquement fini, il ne reste que quelques retouches à la main à faire.

Mon bouquin de 1800 n'est pas du gâteau à reconnaitre pour un OCR, PuppyOCR s'en sort très bien. Le type de police doit jouer aussi, parce que, hier Puppyocr, c'était de la daube !

Saluki propose d'autres programmes OCR

Posted: Tue 26 Mar 2013, 04:11
by Pelo
Je viens de réussir à installer Saluki sur mon ordi (la version 023). Il propose deux OCRs. Pas encore testés.