FORUM DE DISCUSSION SUR LE LANGAGE PANORAMIC
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
FORUM DE DISCUSSION SUR LE LANGAGE PANORAMIC

Développement d'applications avec le langage Panoramic
 
AccueilAccueil  RechercherRechercher  Dernières imagesDernières images  S'enregistrerS'enregistrer  MembresMembres  Connexion  
Derniers sujets
» Gestion d'un système client-serveur.
tesseract-ocr Emptypar Klaus Ven 17 Mai 2024 - 14:02

» item_index(résolu)
tesseract-ocr Emptypar jjn4 Mar 14 Mai 2024 - 19:38

» Bataille terrestre
tesseract-ocr Emptypar jjn4 Lun 13 Mai 2024 - 15:01

» SineCube
tesseract-ocr Emptypar Marc Sam 11 Mai 2024 - 12:38

» Editeur EliP 6 : Le Tiny éditeur avec 25 onglets de travail
tesseract-ocr Emptypar Marc Sam 11 Mai 2024 - 12:22

» Philharmusique
tesseract-ocr Emptypar jjn4 Ven 10 Mai 2024 - 13:58

» PANORAMIC V 1
tesseract-ocr Emptypar papydall Jeu 9 Mai 2024 - 3:22

» select intégrés [résolu]
tesseract-ocr Emptypar jjn4 Mer 8 Mai 2024 - 17:00

» number_mouse_up
tesseract-ocr Emptypar jjn4 Mer 8 Mai 2024 - 11:59

» Aide de PANORAMIC
tesseract-ocr Emptypar jjn4 Mer 8 Mai 2024 - 11:16

» trop de fichiers en cours
tesseract-ocr Emptypar lepetitmarocain Mer 8 Mai 2024 - 10:43

» Je teste PANORAMIC V 1 beta 1
tesseract-ocr Emptypar papydall Mer 8 Mai 2024 - 4:17

» bouton dans autre form que 0(résolu)
tesseract-ocr Emptypar leclode Lun 6 Mai 2024 - 13:59

» KGF_dll - nouvelles versions
tesseract-ocr Emptypar Klaus Lun 6 Mai 2024 - 11:41

» @Jack
tesseract-ocr Emptypar Jack Mar 30 Avr 2024 - 20:40

Navigation
 Portail
 Index
 Membres
 Profil
 FAQ
 Rechercher
Rechercher
 
 

Résultats par :
 
Rechercher Recherche avancée
Mai 2024
LunMarMerJeuVenSamDim
  12345
6789101112
13141516171819
20212223242526
2728293031  
CalendrierCalendrier
-39%
Le deal à ne pas rater :
Pack Home Cinéma Magnat Monitor : Ampli DENON AVR-X2800H, Enceinte ...
1190 € 1950 €
Voir le deal

 

 tesseract-ocr

Aller en bas 
4 participants
AuteurMessage
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: tesseract-ocr   tesseract-ocr EmptyMar 22 Juil 2014 - 19:53

Une page me renvoyant sur une autre, j' ai atterri ici.
Apparemment, ce logiciel fonctionne en ligne de commande et serait très efficace.

Donc si vous voulez perdre quelques minutes...heures à regarder comment il fonctionne....
Revenir en haut Aller en bas
papydall

papydall


Nombre de messages : 7009
Age : 73
Localisation : Moknine (Tunisie) Entre la chaise et le clavier
Date d'inscription : 03/03/2012

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyMar 22 Juil 2014 - 20:25

En français, c’est mieux, n’est-ce pas ?
Alors, c’est ICI
Revenir en haut Aller en bas
http://papydall-panoramic.forumarabia.com/
Jicehel

Jicehel


Nombre de messages : 5947
Age : 51
Localisation : 77500
Date d'inscription : 18/04/2011

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyMar 22 Juil 2014 - 20:26

Mais j'ajoute qu'il existe ces deux fichiers : Source training data for French et French language data for Tesseract (2.00 and up).

Installation

Installez les paquetstesseract-ocr et tesseract-ocr-fra (dépôts Universe).

Il existe d'autres fichiers de langues, comme par exemple : tesseract-ocr-deu (allemand), tesseract-ocr-eng (anglais), tesseract-ocr-spa (espagnol), tesseract-ocr-nld (hollandais), tesseract-ocr-ita (italien), tesseract-ocr-por (portugais-brésilien), tesseract-ocr-deu-f (vieil-allemand).

Pensez toutefois à installer le paquet ImageMagick si vous voulez utiliser xsane2tess (utilitaire convert nécessaire).


Utilisation

En ligne de commande
Tesseract n'accepte pour le moment que des fichiers au format tif et mdi. Après avoir converti votre fichier grâce à un logiciel ad hoc, entrez la commande suivante :

tesseract ~/nomdelimage.tif nom_du_fichier_de_sortie_sans_l_extension
En cas d'installation de la version 2.01, pour la reconnaissance de texte en français :

tesseract ~/nomdelimage.tif nom_du_fichier_de_sortie_sans_l_extension -l fra
Par défaut, le fichier de sortie est placé dans /home/votre_identité (en fin de liste). Pour obtenir ce fichier de sortie sur votre bureau, il faut indiquer le chemin, comme suit :
tesseract ~/nomdelimage.tif /home/votre_identité/Desktop/nom_du_fichier_de_sortie_sans_l_extension -l fra
Revenir en haut Aller en bas
JL35




Nombre de messages : 7095
Localisation : 77
Date d'inscription : 29/11/2007

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyMar 22 Juil 2014 - 21:11

J'ai bien tout installé (je crois), mais dès que je lui demande 'OCR' (en mode graphique, ça plante ('... tesseract a cessé de fonctionner').
Je vais essayer en mode ligne de commande, mais sans trop y croire...

J'ai installé d'après le lien de papydall (PCAstuces), c'est un exécutable d'installation qui propose un tas de cochonneries en même temps, il faut bien cliquer 'Decline' à chaque fois.

Ah, par contre ça marche bien en ligne de commande, avec un fichier tif (il accepte les jpg en mode graphique, mais pas en mode commande), et le résultat a l'air très bien à première vue.
Le programme s'est installé d'office dans C:\FreeOCR (et non pas dans Program Files).
Donc à voir de plus près.

Pour la commande, il faut bien mettre
Code:
EXECUTE_WAIT "CMD.exe /C C:\FreeOCR\tesseract.exe ...\imagein.tif Fichtext
(ce dernier sans extension, qui sera txt d'office)


Dernière édition par JL35 le Mar 22 Juil 2014 - 21:27, édité 1 fois
Revenir en haut Aller en bas
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: re   tesseract-ocr EmptyMar 22 Juil 2014 - 21:15

les package langue pour la version 3.02 sont ici
Revenir en haut Aller en bas
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: re   tesseract-ocr EmptyMar 22 Juil 2014 - 21:18

@ papydall,

Ton lien renvoie vers freeOCR et pas sur tesseract-ocr...Twisted Evil
Revenir en haut Aller en bas
JL35




Nombre de messages : 7095
Localisation : 77
Date d'inscription : 29/11/2007

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyMar 22 Juil 2014 - 21:28

Je crois que c'est pareil ygeronimi, l'exécutable de FreeOCR est tesseract
Mais peut-être que FreeOCR est une version plus... commerciale, avec des choses inutiles (dont tous les softs qu'il cherche à installer).

Finalement j'ai désinstallé la version  FreeOCR et installé Tesseract (lien ygeronimi), elle me paraît plus pure.
A première vue le fonctionnement est le même sauf que Tesseract ne marche qu'en ligne de commande (taper tesseract.exe tout seul pour avoir les options).
Tesseract s'installe bien lui dans Program Files (et FreeOCR dans C:\FreeOCR, donc doit être 'portable')

Et là la commande devient:
Code:
EXECUTE_WAIT "CMD.exe /C C:\Progra~2\Tesseract-OCR\tesseract.exe ...\imagein.tif Fichtext -l fra
(il faut préciser la langue)
nb: Progra~2 raccourci pour 'Program Files (x86)'

Et contrairement à ce que tu dis jicehel, le programme accepte les formats jpg, png, gif, et tiff (ce sont les seuls que j'ai testé et ça me paraît bien suffisant).
Revenir en haut Aller en bas
Jicehel

Jicehel


Nombre de messages : 5947
Age : 51
Localisation : 77500
Date d'inscription : 18/04/2011

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyMar 22 Juil 2014 - 22:50

Tant mieux JL35. Perso, je n'ai que repartagé ce qui était marqué par d'autres mais cela se référait à une version plus ancienne à priori. Plus qu'à trouver des convertisseur de fichiers doc, docx et pdf en jpg ou tiff et on aura une reconnaissance de caractères de tous les docs. Après une petite interface Panoramic et on obtient un programme convivial Wink
Revenir en haut Aller en bas
JL35




Nombre de messages : 7095
Localisation : 77
Date d'inscription : 29/11/2007

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyMar 22 Juil 2014 - 23:15

Hum ! convertir un fichier doc (texte) en image pour le reconvertir en texte, ça me paraît scabreux et source de perte de données...
Il doit bien y avoir une méthode plus simple pour convertir du doc en txt directement ?
D'autant plus qu'il faut systématiquement retravailler plus ou moins les fichiers résultats d'ocr, il y a toujours des erreurs d'interprétation inévitables à rattraper.

Si je regarde un dump d'un fichier .doc, ça me paraît moins difficile à convertir en txt que du html par exemple... Wink
Revenir en haut Aller en bas
Jicehel

Jicehel


Nombre de messages : 5947
Age : 51
Localisation : 77500
Date d'inscription : 18/04/2011

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyMer 23 Juil 2014 - 0:32

oui le doc ou le docx c'est vrai qu'on peut les sauvegarder directement depuis word, disons les pdf alors.
Revenir en haut Aller en bas
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: re   tesseract-ocr EmptyMer 23 Juil 2014 - 20:30

nconvert fait très bien cà.... (pdf > jpeg) Laughing
Revenir en haut Aller en bas
JL35




Nombre de messages : 7095
Localisation : 77
Date d'inscription : 29/11/2007

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyMer 23 Juil 2014 - 21:24

Je reviens sur ce que tu disais Jicehel,  pour convertir un document .doc ou .docx ou .rtf en texte pur, il suffit de l'ouvrir dans Word (ou Wordpad, ou OpenOffice, ou LibreOffice...), de le sélectionner intégralement (Ctrl/A), de le Copier (Ctrl/C), puis de le Coller dans Notepad (Ctrl/V). C'est sans doute le moyen le plus fiable.

C'est valable si c'est un usage ponctuel, un seul document, et ce n'est pas par programme.
S'il y a plusieurs document et un usage plus intensif, là un programme serait intéressant.

@ygeronimi, est-ce que nconvert ne ferait pas directement pdf -> texte ? ce qui serait encore plus intéressant (sans pertes), plus besoin d'ocr.
Non, je crois que je dis une bêtise.
N'empêche, convertir d'abord le fichier en image puis l'image en texte ne peut que générer des erreurs.

Je recommanderais plutôt l'excellente suite XPDF, gratuite évidemment, et sans parasites indésirables, une série d'utilitaires légers et lançables en ligne de commande qui permettent tout un tas d'opérations, notamment conversions, sur les pdf, entre autres en html, png, ppm, ps (postscript), et texte, plus d'autres utilitaires: infos pdf, polices utilisées, extraction d'images, etc.
Et c'est sans installation, on peut le mettre où on veut (c'est portable).
C'est là: http://www.foolabs.com/xpdf/download.html , prendre la version xpdfbin-win-3.04.zip
(je l'ai depuis bien longtemps, je viens du coup de le mettre à jour avec la dernière version).
Revenir en haut Aller en bas
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: re   tesseract-ocr EmptyMer 23 Juil 2014 - 23:45

Bon je vous livre mon taf du jour :
( cela nécessite kgf,nconvert et tesseract mais peu importe où ils sont sur votre disque dur, j' essaie d'éviter les doublons  Laughing )
Spoiler:
 
@ JL35,

Je n' avais pas vu ton post avant de faire ceci mais il m' aurait épargné la partie *.pdf qui n' est pas très au point je te le concède.
Revenir en haut Aller en bas
Jicehel

Jicehel


Nombre de messages : 5947
Age : 51
Localisation : 77500
Date d'inscription : 18/04/2011

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyMer 23 Juil 2014 - 23:54

Merci à vous deux (pour JL35 pour le nom de l'utilitaire et pour l'interface d'Ygeronimi Smile )
Revenir en haut Aller en bas
papydall

papydall


Nombre de messages : 7009
Age : 73
Localisation : Moknine (Tunisie) Entre la chaise et le clavier
Date d'inscription : 03/03/2012

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyJeu 24 Juil 2014 - 0:29

Salut tout le monde

Je suis de passage : Mes petits-enfants ont réquisitionné mon ordi.
Comme je ne peux pas ne pas zieuter le forum, j’en profite de ce petit moment qu’ils m’ont si généreusement accordé pour atterrir sur le Forum  !
Je remarque que Ygeronimi (dans son code] indique GENERAL USER INTERFACE  pour l’acronyme GUI.
Je croyais que GUI était un acronyme de Graphical user Interface.
Mais bon, peut-être que Ygeronimi a raison.

…. Mes petits anges sont de retour !
Je leur cède le PC.  Wink 
Revenir en haut Aller en bas
http://papydall-panoramic.forumarabia.com/
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: re   tesseract-ocr EmptyJeu 24 Juil 2014 - 1:54

Il est possible que ce soit moi qui fasse erreur... Wink 
Perso je mets GENERAL car j' essaie de regrouper dans ce chapître
tout ce qui a attrait à l' interface.
Si cela choque, je peux changer le mot, ce n'est que par habitude que je mets celui ci... Laughing
Revenir en haut Aller en bas
papydall

papydall


Nombre de messages : 7009
Age : 73
Localisation : Moknine (Tunisie) Entre la chaise et le clavier
Date d'inscription : 03/03/2012

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyJeu 24 Juil 2014 - 3:33

Personnellement, ça ne me choque pas du tout.

Voici le véritable gui:
Revenir en haut Aller en bas
http://papydall-panoramic.forumarabia.com/
JL35




Nombre de messages : 7095
Localisation : 77
Date d'inscription : 29/11/2007

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyJeu 24 Juil 2014 - 14:01

Pas très fleuri... il faut attendre l'an neuf ?
Revenir en haut Aller en bas
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: re   tesseract-ocr EmptyJeu 31 Juil 2014 - 20:47

@JL35,

J' ai un souci avec le module pdftopng de xpdf

j' ai fait ceci pour récupérer l' aide du module :
Code:
dim p$,a$
p$="C:\Users\Yannick\PANORA~1\RESSOU~1\Pluggins\pdftopng.exe"

memo 1 : full_space 1 : bar_both 1

execute_wait "CMD.exe /C "+p$+" -help | CLIP"
a$=clipboard_string_paste$
item_add 1,a$
end
mais je ne récupère rien que du vide... Laughing 

En plus, je n' arrive pas à garder la fenêtre de 
l' invite de commande ouverte assez longtemps pour la lire.  bounce
Revenir en haut Aller en bas
JL35




Nombre de messages : 7095
Localisation : 77
Date d'inscription : 29/11/2007

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyJeu 31 Juil 2014 - 21:16

Bonsoir ygeronimi,
Effectivement c'est un peu curieux, ça ne copie rien dans le presse papier, ça doit s'afficher dans la fenêtre noire fugitive.
Si on le fait dans une fenêtre d'invite de commande (Windows/R, CMD, puis ...\pdftopng.exe -help | clip), pareil, ça s'affiche dans la fenêtre mais rien dans le presse-papier.
Apparemment il n'accepte pas la redirection, même dans un fichier, j'ai essayé. (d'ailleurs ça semble pareil pour tous les autres modules de la série).

Bon.
1) avec le téléchargement, tu as dû récupérer un fichier pdftopng.txt correspondant (aide complète)
2) tu peux faire comme j'ai dit ci-dessus: touche Windows + "R", puis taper "cmd", puis la commande C:\...\pdftopng.exe -help dans la fenêtre noire qui s'est ouverte, et éventuellement 'copier' le résultat pour le coller ailleurs.
Euh... non, on ne peut pas 'copier' depuis cette fenêtre... mais le résultat reste affiché.
3) et tu obtiendras ceci:
Code:

pdftopng version 3.04
Copyright 1996-2014 Glyph & Cog, LLC
Usage: pdftopng [options] <PDF-file> <PNG-root>
  -f <int>          : first page to print
  -l <int>          : last page to print
  -r <int>          : resolution, in DPI (default is 150)
  -mono             : generate a monochrome PBM file
  -gray             : generate a grayscale PGM file
  -freetype <string>: enable FreeType font rasterizer: yes, no
  -aa <string>      : enable font anti-aliasing: yes, no
  -aaVector <string>: enable vector anti-aliasing: yes, no
  -opw <string>     : owner password (for encrypted files)
  -upw <string>     : user password (for encrypted files)
  -q                : don't print any messages or errors
  -cfg <string>     : configuration file to use in place of .xpdfrc
  -v                : print copyright and version info
  -h                : print usage information
  -help             : print usage information
  --help            : print usage information
  -?                : print usage information
Revenir en haut Aller en bas
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: re   tesseract-ocr EmptyJeu 31 Juil 2014 - 21:29

En fait, je crois que c' est une aide fantôme...
 lol! 
je pensais qu' il existait plus de commande notamment
pour la sortie des fichiers.
Revenir en haut Aller en bas
JL35




Nombre de messages : 7095
Localisation : 77
Date d'inscription : 29/11/2007

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyJeu 31 Juil 2014 - 21:50

Non, pas fantôme, elle est bien réelle et explicite, mais pas facile à capturer.

Bon, en cherchant un peu, j'ai trouvé le moyen de capturer la réponse dans un fichier (mais pas dans le clipboard, je n'ai pas trouvé).
Tu fais:
Code:
pdftopng.exe -h >C:\Temp\Aide.txt 2>&1
et tu auras le résultat dans le fichier en question.

S'il te plait ygeronimi, ne me demande pas comment ça marche  Very Happy j'en sais rien, c'est un peu empirique.

Mais si tu veux à tout prix en savoir plus, tu peux toujours aller voir là:
http://www.microsoft.com/resources/documentation/windows/xp/all/proddocs/en-us/redirection.mspx?mfr=true
Revenir en haut Aller en bas
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: re   tesseract-ocr EmptyJeu 31 Juil 2014 - 21:57

Bon...et cà marche comment alors...
 lol! 

Ca va, ca va, je vais freiner ma curiosité mais... seulement pour cette fois. Laughing 
Revenir en haut Aller en bas
JL35




Nombre de messages : 7095
Localisation : 77
Date d'inscription : 29/11/2007

tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr EmptyJeu 31 Juil 2014 - 21:59

A priori ça marche si on tape directement en ligne de commande, mais pas depuis un programme panoramic...

Autant pour moi, ça marche très bien, en reprenant ton code:
Code:
DIM p$, ft$
ft$ = "C:\Temp\Aide.txt": ' fichier de manoeuvre
p$ = "C:\Users\Yannick\PANORA~1\RESSOU~1\Pluggins\pdftopng.exe"
' p$ = "C:\outils\pdf\xpdf\pdftopng.exe": ' mon chemin à moi
memo 1 : full_space 1 : bar_both 1: font_name 1,"Lucida Console"

execute_wait "Cmd.exe /c "+p$+" -h >"+ft$+" 2>&1"
file_load 1,ft$
file_delete ft$
end

Mais ça te fera quand même le plus grand bien d'étudier attentivement la page dont j'ai donné le lien ci-dessus  Very Happy

Je relisais ce que tu disais ci-dessus concernant l'aide 'fantôme'... pour la sortie des fichiers images il faut quand même donner le répertoire qui recevra les images: PNG-root, vois dans l'aide:
Code:
Usage: pdftopng [options] <PDF-file> <PNG-root>
Il me semble qu'il y a tout ce qu'il faut: pages à convertir, monochrome ou gris, choix de la définition, etc., que voudrais-tu de plus ?
Revenir en haut Aller en bas
Yannick




Nombre de messages : 8611
Age : 53
Localisation : Bretagne
Date d'inscription : 15/02/2010

tesseract-ocr Empty
MessageSujet: re   tesseract-ocr EmptyJeu 31 Juil 2014 - 23:02

J' ai mis tout ceci en appli ici
Revenir en haut Aller en bas
Contenu sponsorisé





tesseract-ocr Empty
MessageSujet: Re: tesseract-ocr   tesseract-ocr Empty

Revenir en haut Aller en bas
 
tesseract-ocr
Revenir en haut 
Page 1 sur 1

Permission de ce forum:Vous ne pouvez pas répondre aux sujets dans ce forum
FORUM DE DISCUSSION SUR LE LANGAGE PANORAMIC :: PANORAMIC :: Présentation et bavardage-
Sauter vers: