11 
Je  laisse  ceux  qui  le  désirent  découvrir  dans  l’aide  de  FineReader  l’intérêt  des  gabarits 
utilisateurs. 
Quatrième  onglet,  « Enregistrer »,  le  plus  important,  qui  comporte  de  nombreux  sous-
onglets. Je ne vais en commenter que 2 et vous expliquer pourquoi. 
Il  faut  toujours  faire  une  sortie  PDF  qui  va  devenir  votre  « vrai  scan »,  celui  que  vous 
utiliserez ensuite pour vos corrections / relectures. Les 2 premières options de cet onglet sont 
fondamentales : 
* « Conserver la taille originale de l’image » vous permet d’avoir un PDF de la même taille 
que vos images, au lieu d’un PDF A4 avec votre image perdue au milieu de grands blancs. 
* « Texte sous l’image de page » permet de conserver l’image de scan originale, nécessaire 
pour les corrections, mais de mettre au-dessous une couche de texte invisible avec le texte issu 
de l’OCR, texte qui sera brut ou corrigé selon que vous ferez le premier niveau de correction 
directement dans FineReader ou dans Word. Dans tous les cas, cela vous permettra de faire des 
recherches texte sur le PDF, ce qui est très pratique lors des corrections / relectures. 
Batch convert pdf to txt - application control tool:C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net, ASP.NET MVC, WinForms, WPF application
C# PDF to Text (TXT) Converting Library to Convert PDF to Text
www.rasteredge.com
Batch convert pdf to txt - application control tool:VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net, ASP.NET MVC, WinForms, WPF application
VB.NET Guide and Sample Codes to Convert PDF to Text in .NET Project
www.rasteredge.com
12 
Vous remarquerez que j’ai choisi l’onglet HTML pour illustrer la sortie du texte lui-même, et 
non l’onglet RTF/DOC. Il y a une raison précise. Je considère que depuis les dernières versions, 
la sortie RTF/DOC est devenue une vraie catastrophe pour l’élaboration d’un ebook : création de 
dizaines de styles inutiles qu’il faut ensuite enlever, de  marges délirantes,  de sections  pour 
simuler les sauts de pages du livre papier, toutes choses dont nous n’avons pas besoin. Le HTML 
nous fournit ce qui nous est nécessaire, et qui se résume à peu de chose : le flux de texte, le 
respect de l’italique. Même pour le HTML, je choisis les options « les plus simples », de façon à 
ce que mon flux de texte soit le plus pur possible, et que j’ai donc moins de travail ensuite. Nous 
ouvrirons ensuite le fichier HTML dans le traitement de texte, Word en ce qui me concerne et 
dans le cadre de ce tutoriel, et l’enregistrerons au format DOC. 
2 – FineReader en action 
Lorsque  FineReader  s’ouvre,  il  a  déjà  un  document  FineReader  vide.  Prenez  l’habitude 
d’enregistrer  immédiatement  ce  document  vide  –  menu  Fichier  /  Enregistrer  le  document 
FineReader. Le document FineReader est en fait un dossier (dossier caché pour la version 8), du 
même  nom  que celui  que  vous avez  donné  au  document,  et  situé à  l’endroit  où vous avez 
enregistré le  document ; il est donc facile de déplacer, sauvegarder ce document  (pour  une 
sauvegarde, nous vous conseillons de zipper le dossier, pas son contenu, le dossier lui-même) 
Je n’aborderai pas la numérisation directe dans FineReader, pour la simple raison que je 
n’utilise pas un scan relié à un ordinateur. Mais cet aspect est très bien expliqué dans l’aide de 
FineReader. Je vais donc partir de l’hypothèse que le scan est déjà fait, par exemple avec le 
logiciel propre au scanner. 
application control tool:VB.NET Create PDF from Text to convert txt files to PDF in vb.net
Visual Studio .NET project. Batch convert editable & searchable PDF document from TXT formats in VB.NET class. Able to copy and paste
www.rasteredge.com
application control tool:C# Create PDF from Text to convert txt files to PDF in C#.net, ASP
NET control for batch converting text C#.NET class source code for creating PDF document from rich Convert plain text to PDF text with multiple fonts, sizes
www.rasteredge.com
13 
Cliquez sur l’icône ouvrir, et allez chercher votre PDF image ou toutes vos images (JPF, PNG 
ou TIFF) : 
Vous voyez que vous pouvez cocher/décocher des éléments présents dans les options, tels 
que la segmentation des pages doubles par exemple. 
Il ne vous reste plus qu’à prendre un bon bouquin, aller faire un tour ou vous atteler à une 
autre tâche sur votre ordinateur. Car l’OCR, cela prend un certain temps… (rappel : dans les 
options, nous avons coché les cases pour que FineReader fasse simultanément l’ouverture, la 
lecture et la reconnaissance des images). 
Une fois l’OCR terminé, vous avez 2 solutions : 
* Soit vous faites le premier niveau de correction du texte directement dans FineReader. 
* Soit vous faites tout de suite les sorties PDF et HTML, et faites ensuite la correction dans 
votre traitement de texte, Word au cas présent. 
Personnellement, je préfère la seconde solution. Mais certains membres éminents de notre 
groupe (ELG), préfèrent la première solution. Tout est question d’interface. Tout dépend si vous 
maîtrisez bien votre traitement de texte ou si vous maîtrisez mieux l’interface FineReader. À 
vous de décider. Dans la suite de ce tutoriel, je partirai du principe que nous avons choisi la 2
e
solution. 
Que vous choisissiez l’une ou l’autre méthode, il est toujours utile de vérifier page par page 
les zones de reconnaissance qu’a sélectionné Finereader. Une zone trop large incluant l’ombre 
de  la  reliure  provoquera  des  erreurs  d’OCR  qu’il  est  facile  d’éviter :  il  suffit  pour  cela  de 
redimensionner la zone de texte à l’aide de la petite flèche double qui apparaît lorsque l’on passe 
la souris sur une des bordures de cette zone. 
application control tool:C# Create PDF Library SDK to convert PDF from other file formats
Free PDF creator SDK for Visual Studio .NET. Batch create adobe PDF from multiple forms. Create writable PDF from text (.txt) file.
www.rasteredge.com
application control tool:VB.NET Create PDF Library SDK to convert PDF from other file
Batch create adobe PDF document from multiple forms in Best VB.NET component to convert Microsoft Office Word Create writable PDF file from text (.txt) file in
www.rasteredge.com
14 
Il  peut  aussi  y  avoir  des  zones  indésirables  qu’il  suffit  alors  de  supprimer purement  et 
simplement en tapant « Suppr » après avoir sélectionné cette zone (elle apparaît alors avec des 
bordures plus épaisses et des angles matérialisés par un rectangle). 
Rappel : les zones de texte sont matérialisées en vert, les zones d’image en rouge. 
IMPORTANT :  après  avoir  modifié  une  zone  de  reconnaissance  il faut  relire  la  page  en 
cliquant sur le bouton « Lire » juste au-dessus de l’image pour enregistrer les modifications ou 
avec le raccourci Ctrl+R (et non pas sur le gros bouton « Lire » dans la barre de menu qui lit 
toutes les pages du document – Ctrl+Maj+R). 
Pour enregistrer les sorties d’OCR, cliquez sur la flèche à côté de l’icône « Enregistrer » puis 
choisissez le format voulu, soit « Enregistrer sous un document PDF » puis « Enregistrer au 
format html ». 
application control tool:VB.NET Image: Robust OCR Recognition SDK for VB.NET, .NET Image
Batch recognize and process large volume images and and more companies are trying to convert printed business will be outputted as searchable PDF, PDF/A,TXT
www.rasteredge.com
application control tool:C# Image: How to Add Antique & Vintage Effect to Image, Photo
Place the evaluation license key txt file at your C# I apply the vintage effect to a batch of image powerful & profession imaging controls, PDF document, tiff
www.rasteredge.com
15 
Maintenant que vous avez vos 2 fichiers de travail au format html et PDF, vous pouvez passer 
à l’étape suivante sous Word. 
16 
III 
LE TRAITEMENT DE TEXTE 
1 – Mise en forme et correction 
1
er
niveau de travail 
Préalable :  Pour  appliquer  ma  méthode,  il  est  nécessaire  de  télécharger  un  modèle, 
epub_tuto.dot (il est zippé, dézippez-le et copiez-le dans le dossier où se trouvent vos modèles). 
Voilà, nous avons notre HTML, nous lançons Word, et nous allons chercher notre document 
HTML pour l’ouvrir. Nous sélectionnons tout le texte (Ctrl+A) et le copions (Ctrl+C). 
Puis menu Fichier / Nouveau / Mes Modèles et nous créons un document basé sur le modèle 
epub_tuto.dot. Nous collons maintenant tout ce que nous avons copié en fusionnant la mise 
en forme (voir ci-dessous) et nous enregistrons notre doc au format Word 2003 (pour ceux qui 
ont Word 2007 ou 2010, je vous déconseille d’utiliser le nouveau format docx si vous devez 
travailler en collaboration avec d’autres qui n’ont pas forcément, eux, cette version). 
J’aime bien que les styles se mettent à jour à partir de mon modèle, aussi je me rends dans 
l’onglet Développeur du ruban pour Word 2007-2010 (le faire apparaître avec les options s’il 
n’est  pas présent), je  clique sur « Modèle  de document »  et  ensuite  je  coche « Mise à  jour 
automatique des styles du document ». Pour Word 2003, menu Outils / Modèle de document. 
S’il  y a  des images  dans notre  doc, à  nouveau  Ctrl+A pour tout sélectionner, et ensuite 
Ctrl+Maj+F9 pour convertir les images qui sont encore extérieures au document (comme dans 
une page HTML) en images intégrées au document
17 
Je fais également apparaître la fenêtre des styles – indispensable pour travailler un ebook, en 
cliquant ici dans Word 2010 : 
Et je mets les marques de format visibles (en haut à gauche de l’image ci-dessous) => 
important
18 
Je clique ensuite sur Options en bas de la fenêtre des styles, et j’obtiens la fenêtre suivante 
que je modifie comme ci-dessous (j’ai entouré ce qui est important) : 
19 
Dans la fenêtre des styles apparaissent  alors les styles utilisés  dans votre document. On 
distingue les styles de paragraphe, dont le nom est suivi du signe de saut de paragraphe (pied-
de-mouche), et les styles de caractère, dont le nom est suivi par un « a » ou rien. 
Si vous avez bien suivi la procédure décrite ci-dessus vous ne devriez avoir qu’un seul style de 
paragraphe : le style Normal. Les autres sont des mises en forme de caractère, certaines utiles 
comme les italiques et parfois les exposants, d’autres qu’il faudra supprimer car elles sont dues à 
des erreurs d’OCR (gras, soulignement, autre police,…). Pour ce faire, cliquez sur la flèche à côté 
du style à modifier : 
20 
Puis choisissez « Sélectionner toutes les occurrences ». Dans l’onglet Accueil supprimez alors 
la  mise  en  forme  non  souhaitée  (gras,  soulignement).  Les  autres  polices  utilisées  sont 
généralement des signes spéciaux non rendus en Georgia et peuvent très souvent être supprimés 
purement et simplement, mais ça ne coûte rien de vérifier quand même en les sélectionnant et 
en les supprimant une à une. 
Voila, maintenant il ne vous reste plus que le style Normal, avec pour seule mise en forme 
l’italique et éventuellement l’exposant. Ce style Normal est par défaut paramétré pour gérer la 
césure des mots. Certains préférerons – pour la commodité de lecture, mais surtout pour mieux 
détecter les mots coupés par l’OCR – supprimer ce paramétrage : pour cela modifez le style, 
dans Format / Paragraphe onglet Enchaînements, décochez « Ne pas couper les mots » (ne pas 
oublier de rétablir la césure sur le document Word définitif, notamment si vous voulez générer 
un PDF à partir de ce doc) 
Nous allons maintenant exécuter la macro de mise en forme, qui se nomme Typo, présente 
dans le modèle. Problème, si vous avez les dernières versions de Word, il faut que vous ayez 
configuré votre logiciel de  manière à pouvoir exécuter les macros. Dans Word 2010  cela se 
trouve dans Fichier / Options / Centre de gestion de la confidentialité (si vous ne savez pas le 
faire pour une autre version, voir les forums ou les groupes de discussion pour résoudre ce 
problème). 
Pour accéder aux macros, 2 solutions : 
a) Soit activer l’onglet Développeur dans les options en le cochant : 
Documents you may be interested
Documents you may be interested