OCR, Xsane, textes en colonnes. Qui a de l'expérience?

Post Reply
Message
Author
oui

OCR, Xsane, textes en colonnes. Qui a de l'expérience?

#1 Post by oui »

Bonjour

OCR, Xsane, textes en colonnes. Qui a de l'expérience? Les résultats obtenus avec gocr sont misérables. J'ai scanné en mode ligne, résolution 300 (CanoScan N1240U). J'ai mémorisé mes 2 colonnes (chaque page du bouquin en comprend 2) pour avoir les colonnes non mélangées mais c'est du boulot, et ce en texte comme en jpeg. Qui sait comment mieux s'y prendre?

salut

User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#2 Post by Argolance »

Bonsoir,
Il doit déjà y avoir un post là-dessus quelque part, mais déjà ancien.
Je n'en ai pas eu besoin depuis longtemps mais je crois me souvenir qu'il est possible d’utiliser des programmes OCR Windoze avec WINE...

Cordialement.

Pelo

Il y a Puppyocr qui marche très bien,

#3 Post by Pelo »

oui faudrait chercher un peu avant de poster systématiquement des nouveaux topics. Il y a Puppyocr qui marche très bien, autant que faire se peut, dirons nous.
puppyocr-1.22.pet: 2243 K
Last edited by Pelo on Mon 04 Apr 2016, 16:04, edited 1 time in total.

hamoudoudou

Re: Il y a Puppyocr qui marche très bien,

#4 Post by hamoudoudou »

Pelo wrote:oui faudrait chercher un peu avant de poster systématiquement des nouveaux topics. Il y a Puppyocr qui marche très bien, autant que faire se peut, dirons nous.
[/url=http://www.murga-linux.com/puppy/viewto ... 2144148838] anglais et allemand et patience

Pelo

puppyocr m'a permis de transformer en texte des jugements

#5 Post by Pelo »

voir ici, en français
puppyocr m'a permis de transformer en texte des jugements de tribunaux révolutionnaires .
Les gramps de Oui faisaient partie le l'armée de Mayence envoyés mâter la contre-révolution royaliste dans L'ouest.

oui

#6 Post by oui »

bonjour

bon, mon problème semble être un problème de papier du bouquin, qui enrichit considérablement en ombrés (d'où mon choix du réglage lignes/traits) le fond de l'image par du gris et rend le ROC difficile (il existe une app CLI pour évacué tant que possible les gris).

cela ne m'étonne pas et est peut-être voulu: le bouquin est tout bonnement une investigation et critique du code de la route allemand, des autres codes allemands concernant le cyclisme et de la jurisprudence concernant le cyclisme, et je suis persuadé comme ce n'est pas la première réédition, le bouquin est mis à jour régulièrement, que l'auteur, un avocat spécialisé, a tout fait ce qui était à faire avec simplicité pour contrarier les copieurs et choisi intentionnellement du papier jaunâtre et rugeux...

un autre problème est dans la résolution, mais la mienne était acceptable.

hamoudoudou, merci du lien envoyé

il existe un topo hyper-riche dans la doc francophone d'Ubuntu:

http://forum.ubuntu-fr.org/viewtopic.php?id=78804

avec des tas de liens

voir aussi

https://doc.ubuntu-fr.org/ocr

page de l'auteur de gocr

http://www-e.uni-magdeburg.de/jschulen/ [engl.]

salut

Pelo

greengeek est aussi sur le sujet

#7 Post by Pelo »

greengeek est aussi sur le sujet
PuppyOCR fonctionne. que puis-je dire d'autre ? après c'est de l'art, il faut doser, comme en photo. Quand on a trouvé le bon réglage, on lance la machine
Attachments
puppyocr.jpg
ici j'avais un bon résultat. Bon, mais pas parfait.
(103.91 KiB) Downloaded 252 times

Pelo

mon Puppyocr t'interesses ou pas ?

#8 Post by Pelo »

Oui, tu es volage comme l'épouse, ou volatile comme l'essence ( ou la poule), mon Puppyocr t'interesses ou pas ?

oui

#9 Post by oui »

bonjour pelo

merci de tes efforts, mais je n'avais pas compris que tu t'adressais à moi avec tes applications en 32 bits...

je suis depuis 5 ans sur des ordis de 64 bits, actuellement un 8x Intel Core i7-2670QM CPU, un vieux coucou 64 bit de fiston, laid comme tout, et en partie cassé, mais je NE VEUX PLUS revenir au 32 bits (pas par dédain, mais parce que je serai sans doute alimenté, même à l'avenir, par fiston avec ses ordis de rebut, mais ils ne seront plus jamais 32 bits! certains sont en Android, je viens d'en récupérer deux comme cela, une tablette Nexus 7 " pour nos randonnées en vélo, et un smartphone de même conception).

je n'ai pas trouvé ton application pour les 64 bits...

ce que j'avais recherché dans mon message, c'était des

réglages, ou des tours de main.

depuis, la moitié du livre est scannée et le texte digitalisé dans d'assez bonne conditions dans DebianDog64 avec les programmes disponibles sur Debian.

mais merci quand même de ton aide.

cordialement

Pelo

????? L'OCR en tout cas, faut pas être pressé

#10 Post by Pelo »

tu plaisantes -là, ami teuton ? J'ai un 64 bits depuis 2012 qui n'a jamais refusé la moindre Puppy en 32 bits et Le moindre programme en 32, dont Puppy OCR. Sur une autoroute à 4 voies, jamais personne n'a empêcher de ne rouler que sur deux voies.
Même UBUNTU tourne avec du 32 Bits. Il faut des programmeurs pour réécrire les programmes en 64 bits. Il n'y a que les processeurs qui ont été mis en 64
Pour l'OCR, il faut mettre en .tiff les images (PuppyOCR et Tesseract) pour que çà marche.

oui

#11 Post by oui »

eh pelo

tu manques totalement du moindre réalisme: sur mon ordi avec CPU 8x Intel Core etc., tu crois que le 32 bit est vraiment l'avenir et la meilleure solution?

bien sûr que j'ai plusieurs partitions. sd1 est ma reactOS (si tu ne sais pas ce que c'est, c'est le clône de Windows XP), ma sd2 est une freeDOS 32 bit, avec le navigaeur DOS mais graphique Arachnee qui fonctionne même, étonnamment pas mal! sda3 est mon étendue, et sda4 ma swap...

j'ai donc des systèmes antiques, tels que tu les proposes., parce qu'ils m'intéressent.

les linux 32 bit, par contre, ne m'intéressent plus du tout!

quelque chose à redire?

tu em...de les gens à vouloir imposer tes visions... c'est pas parce que tu fais le c.. que les autres doivent le faire aussi!

et remarque que j'ai même suivi, pour m'amuser, et voir ce à quoi tu penses, et parce qu'il y avait encore une 32 bit que je n'avais pas testée, mais téléchargée déjà, ton PuppyOCR, excuse mais c'est comme marcher à cloche-pied! on avance aussi, à cloche-pied, nul doute aucun, mais ce n'est pas comme cela que j'entamerai un pèlerinage vers Saint-Jacques de Compostelle surtout en partant du nord de la Teutonie, avec 2 pattes. on avance mieux...

teste voir, toi de ton côté, les DebianDogs... Ils ont «synaptic». fait uns recherche 'ocr' et teste en toute objectivité les prestations des frontends qui te sont proposés par synatic! c'est autre chose que PuppyOCR.

pourquoi voudrais tu me contrainte à n'utiliser que 256 Mo ce mes 8 Go de RAM pour faire plaisir à la simple étiquette «puppyMACHIN»?

toi, ça t'amuse, et bien amuse toi bien et fiche la paix aux autres avec tes bouts de ficelles et tes épingles à maillot!

Pelo

il n'y a plus de programmeurs, c'est simple, non !

#12 Post by Pelo »

il n'y a plus de programmeurs, c'est simple, non ! soit on se contente de l'existant ou on fait semblant en maquillant la vérité.
Restons bien dans le sujet, c'est quoi le programme OCR Debian que tu as utilisé ?
Tu veux faire une reconnaissance de caractères, et bien si tu l'as c'est bien. Comment on y arrive, et avec quoi n'est pas un problème.
En langage pompeux çà s'appelle 'une obligation de résultats'. La Puppy n'est pas assez chère pour ton matériel ? :) Prends Windows ou Mac. :evil: et vires ta Slitaz.
Le 64 bits plus performant pour reconnaitre les caractères que le 32 bits, je pouffe de rire. Soit il les voit, soit il les voit pas.
Et je connais assez bien le sujet. via le boulot. Les procédures tapées par mes collègues plus vieux de 20 ans devaient être refaites en Word. Juste quelques mots par ci par là. Et bien le seul OCR qui a bien marché, c'est Puppy Ocr, sous windows j'ai rien trouvé,
Après, pour être franc, une bonne dactylo va plus vite à tout retaper.

oui

#13 Post by oui »

celui qui installe tout ce qu'il faut de par ses dépendances, comme il faut, se nomme

yagf

il fut conçu pour cuneiform, abandonné, et installe à cause de cela tesseract-ocr très correctement en remplacement

celui qui en fin de compte bosse mieux derrière mais n'installe pas aussi bien est

gimagereader...

j'ai scanné en "traits" à 1200 et ai changé fortement la luminosité (+2 à +5 selon les pages), et les contrastes (+10), mais cela tient sans doute et à la rugosité du papier, et à l'ombre que fait la reliure si on ne la casse pas en mettant à plat, sinon, après, le bouquin est totalement foutu, en tant que bouquin relié, et au modèle de scanner...

quand à tes âneries (le prix d'un Puppy: un Debiandog n'est absolument pas plus cher), garde les pour toi!

Pelo

Oui, bon, tu as fait comme tout le monde !

#14 Post by Pelo »

Merci oui de nous avoir dit ce que tu utilisais.
Le plus efficace dans l'OCR c'est le réglage du document. Déjà le document d'origine, moi mes textes de 1800 séparaient mal mes caractères. Affiner le dpi ne séparera pas les lettres. Après le dictionnaire entre en jeu
Aparte, Oui , j'ai plusieurs CDs de Debian et dérivées à la maison. Si j'utilise Puppy c'est que je n'ai pas de temps à perdre, il va à l'essentiel.
Tu as un Tesseract 64 bits ? :) :)
cuneiform c'était pour nos camarades de L'EST CCCP,
Le français a des accents, et çà l'ocr n'aime pas trop.
les documents étaient souvent mal imprimés, notamment les jugements, Notre cerveau a un OCR très performant. Il y a des tests à ce sujet. Notre cerveau est époustouflant, il ne voit même pas qu'il manque des lettres.

hamoudoudou

suite des palabres

#15 Post by hamoudoudou »

suite des palabres au tableau noir. Dorothée aura expérience à partager dans topic pour vous aider pas avec idées, mais avec faits concrets.

Post Reply