Méthode A à Z pour créer un 
ebook 
Coolmicro 
avec l’aide de Rémy 
Convert pdf to text on - Library application class:C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net, ASP.NET MVC, WinForms, WPF application
C# PDF to Text (TXT) Converting Library to Convert PDF to Text
www.rasteredge.com
Convert pdf to text on - Library application class:VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net, ASP.NET MVC, WinForms, WPF application
VB.NET Guide and Sample Codes to Convert PDF to Text in .NET Project
www.rasteredge.com
Sommaire 
Introduction ............................................................................................................... 4
 LE SCAN .................................................................................................................. 5
II  L’OCR ..................................................................................................................... 9
1 – Les options de FineReader ............................................................................... 9
2 – FineReader en action ...................................................................................... 12
III  LE TRAITEMENT DE TEXTE ............................................................................ 16
1 – Mise en forme et correction ............................................................................ 16
1
er
niveau de travail ......................................................................................................16
2
e
niveau de travail ..................................................................................................... 23
3
e
niveau de travail ..................................................................................................... 25
2 – Ce qu’il faut faire et ne pas faire avec Word (ou un autre traitement de 
texte) .................................................................................................................... 25
Les styles Titre 1,2, 3…................................................................................................ 26
À propos des sauts de page ......................................................................................... 26
À propos de sauts de paragraphe multiples ............................................................... 28
À propos des retraits et indentations ......................................................................... 28
Autres erreurs à éviter ................................................................................................ 28
IV  CONVERSION AUX FORMATS EBOOKS......................................................... 29
1 – Format ePub ................................................................................................... 29
Méthode Amanuensis ................................................................................................. 29
Méthode Atlantis ........................................................................................................ 29
Méthode Calibre ......................................................................................................... 30
2 – Format Mobipocket / Kindle .......................................................................... 31
3 – Format PDF .................................................................................................... 31
V  ANNEXES : POUR ALLER PLUS LOIN .............................................................. 33
1 – La typographie................................................................................................ 33
2 – La mise en page (MEP) .................................................................................. 34
3 – Utilisation des styles ...................................................................................... 34
4 – Les macros ..................................................................................................... 34
5 – La relecture .................................................................................................... 35
CONCLUSION .......................................................................................................... 36
Library application class:Online Convert PDF to Text file. Best free online PDF txt
Download Free Trial. Convert a PDF to Text. Easy converting! We try to make it as easy as possible to convert your PDF files to Text.
www.rasteredge.com
Library application class:VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. Advanced Visual Studio .NET PDF text extraction control, built in .NET framework 2.0 and compatible with Windows system.
www.rasteredge.com
Licence ................................................................................................................. 36
Library application class:C# PDF Text Extract Library: extract text content from PDF file in
Text: Extract Text from PDF. |. Home ›› XDoc.PDF ›› C# PDF: Extract PDF Text. Enable extracting PDF text to another PDF file, TXT and SVG formats.
www.rasteredge.com
Library application class:VB.NET PDF Convert to Jpeg SDK: Convert PDF to JPEG images in vb.
Convert PDF to HTML. Convert PDF to SVG. Convert PDF to Text. Convert PDF to JPEG. Convert PDF to Png, Gif, Bitmap Images. File &
www.rasteredge.com
Introduction 
Cette méthode n’a surtout pas vocation à être universelle. Elle ne se veut qu’une description 
de la méthode que j’utilise, rodée sur des années de travail, mais utilisant mes outils, souvent 
payants et fermés (car, bien que supporter du logiciel libre et même utilisateur occasionnel de 
Linux, je n’ai pas trouvé dans le Libre les outils qui me satisfaisaient, à l’exception notable de 2 
logiciels). Par ailleurs, j’ai certains principes concernant les ebooks et le travail informatique en 
général : 
1. J’aime avoir un résultat de qualité, je suis assez exigeant, mais je ne suis pas non plus un 
maniaque du détail, il est hors de question de travailler 2 heures pour améliorer quelques 
trucs que personne ne verra dans un ebook. Une mise en page simple sera toujours plus 
facile à réaliser qu’une mise en page compliquée. Donc, ne comptez pas sur moi pour vous 
apprendre à mettre des lettrines ou des trucs de ce genre : je considère que cela n’est pas 
essentiel à la lecture. Par contre, la typographie du texte doit être correcte pour que la lecture 
soit agréable. 
2. J’essaye de trouver à chaque fois la méthode la plus simple et la plus rapide et je choisis 
mes outils en fonction de cela. 
Library application class:C# PDF Convert to Jpeg SDK: Convert PDF to JPEG images in C#.net
C# PDF - Convert PDF to JPEG in C#.NET. C#.NET PDF to JPEG Converting & Conversion Control. Convert PDF to JPEG Using C#.NET. Add necessary references:
www.rasteredge.com
Library application class:VB.NET PDF Convert to HTML SDK: Convert PDF to html files in vb.
Convert PDF to HTML. |. Home ›› XDoc.PDF ›› VB.NET PDF: PDF to HTML. Convert PDF to HTML in VB.NET Demo Code. Add necessary references:
www.rasteredge.com
LE SCAN 
Tout commence par le scan, sauf si vous avez la chance de trouver un scan déjà prêt, auquel 
cas vous passez au chapitre II… 
Le scan est une opération extrêmement simple (et fastidieuse) dont le résultat dépend avant 
tout de la qualité du capteur du scanner. En dehors des scanners spécialisés pour les livres (en 
général beaucoup trop chers, à l’exception des Optibooks Plustek qui sont loin d’être parfaits et 
du futur Booksaver pour lequel j’ai beaucoup d’espoirs), il y a 2 catégories de scanners à plat : 
Les scanners personnels avec capteur CIS, qui donnent globalement des résultats 
médiocres  et  obligent  à  littéralement  écraser  le  livre  (et  donc  bousiller  la  reliure)  pour 
obtenir un scan à peu près correct. 
Les scanners avec capteur CCD, qui sont très nettement supérieurs aux précédents. Un 
capteur  CCD  est  presque  obligatoire  pour  quelqu’un  qui  scanne  beaucoup  de  livres. 
Problème ;  il  n’y  a  presque  plus  de  scanners  personnels  avec  ces  capteurs,  et  les  prix 
s’envolent vite. 
Les autres critères concernant les scanners sont sans importance, hormis bien sûr la vitesse, 
qui est un critère subjectif dépendant de la patience et de la masse de scans de chacun. 
Je n’entrerai pas dans les réglages du scanner. Tout d’abord parce qu’ils varient d’un scanner 
à l’autre, et d’un logiciel à l’autre. Et ensuite parce que je les utilise peu personnellement, hormis 
les réglages de bases que je vais indiquer ci-après et qui sont impératifs
1
re
règle : Une fois qu’on a scanné un livre, avec les paramètres que je vais indiquer, il faut 
rescanner les illustrations, avec des paramètres différents. 
Scan du livre : Il faut choisir l’option noir et blanc, parfois appelée également OCR ; il faut 
éviter absolument les options, couleurs, niveaux de gris, photos, texte/photos pour ne citer que 
quelques exemples. La meilleure résolution est 300 dpi (moins, c’est périlleux, sauf si vous avez 
une grande expérience, plus, cela donnera des images énormes pour un résultat paradoxalement 
inférieur). 
Scan des illustrations éventuelles : couleurs, ou niveaux de gris ou photos selon la nature de 
l’illustration ; 300 dpi minimum, mais il peut être intéressant dans certains cas de monter à 400 
dpi : tout est affaire de test dans ce domaine, de rendu visuel. 
2
e
règle : Le mieux quand c’est possible, est de scanner la livre ouvert contre la vitre, c’est-à-
dire 2 pages à la fois (tout dépend évidemment de la taille du livre et du scanner). Il est très 
important que le livre soit toujours au même endroit de la vitre du scanner, il est donc 
conseillé de caler le livre dans des coins, toujours le même. Par ailleurs, il faut que le livre soit 
bien  plaqué  contre  la  vitre,  quitte  à  abimer  un  peu  la  reliure  (avec  un  capteur  CIS,  c’est 
fondamental, et il faut écraser complètement la reliure), et ne pas bouger le livre pendant la 
numérisation d’une page (ou plutôt 2, si vous avez mis le livre à plat). 
Parmi  les  réglages  proposés  par  les  scanners/logiciels  de  scan,  il  y  a  souvent  le  couple 
luminosité/contraste :  là,  il  faut  essayer,  tâtonner.  Augmenter  le  contraste  est  souvent 
dangereux, surtout sur les vieux livres,  car cela fait ressortir les défauts, rousseurs, etc. qui 
seront ensuite traités comme des caractères par le logiciel d’OCR, augmentant ainsi le temps de 
correction. Il peut être intéressant d’augmenter un peu la luminosité pour diminuer la zone 
Library application class:C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
easy for C# developers to convert and transform style that are included in target PDF document file original formatting and interrelation of text and graphical
www.rasteredge.com
Library application class:VB.NET PDF Convert to Word SDK: Convert PDF to Word library in vb.
VB.NET PDF - Convert PDF to MS Office Word in VB.NET. VB.NET Tutorial for How to Convert PDF to Word (.docx) Document in VB.NET. Best
www.rasteredge.com
noire correspondant à la reliure si vous ne pouvez pas écraser la reliure, et surtout si vous avez 
un capteur CIS. Tout est affaire de test : il faut d’abord bien étudier les 2 ou 3 premières pages 
scannées, voire même les tester en OCR si on n’a pas l’habitude, avant de se lancer dans le scan 
du livre complet. 
Parlons  maintenant  du format de l’image  à  choisir  pour  le  scan.  Ce  choix  n’est  pas 
déterminé par l’OCR, tous les logiciels d’OCR acceptant la plupart des formats en entrée, mais 
par le logiciel que vous allez utiliser avant l’OCR pour améliorer vos images de scan : 
* Si vous avez les outils nécessaires pour travailler les PDF (ce sont malheureusement des 
outils  payants :  Adobe  Acrobat,  pour  les  plus  fortunés,  mais  aussi  l’excellent  Nuance 
Converter pro, beaucoup moins cher), cela s’avère un format très pratique, et c’est en général 
la solution que j’utilise… 
* Mais vous pouvez tout simplement choisir un format image classique, jpg, png ou tiff. Je 
vous conseille alors d’utiliser  l’excellent ScanTailor (libre et gratuit)  pour retravailler vos 
images. 
Évidemment, il faut veiller dans le logiciel de scan au nommage des fichiers qui doivent 
impérativement être nommés de manière séquentielle, le nom des fichiers se terminant par 001, 
002, 003, etc. pour que tout se passe bien lorsque vous allez retravailler les images. Par ailleurs, 
si vous n’avez pas suivi mes conseils concernant la place fixe du livre du livre sur la vitre lors du 
scan, vous êtes mal barré… En effet, le principal traitement qu’il faut faire subir aux images, ou 
au PDF, c’est un recadrage, et c’est plus facile quand le texte ne balade pas dans tous les coins. 
Attardons-nous sur ScanTailor, puisqu’il est gratuit, et voyons ce qu’il nous propose : 
1. Commençons par créer un nouveau projet. Indiquez le dossier d’entrée où sont stockées 
vos  images  de  scan,  le  dossier  de  sortie  pour  les  images  modifiées,  cliquer  sur  « Tout 
sélectionner » sur la fenêtre de droite où apparaissent les images, puis cliquer sur OK. Vous 
obtenez l’interface ci-dessous,  avec sur  la gauche les 6  étapes  de traitement  que  je  vais 
détailler : 
2. Fixer l’orientation : Normalement, vous laissez tel que puisque votre scan est parfait… 
Dans  le  cas  contraire,  vous  pourriez  appliquer  une  rotation  avec  les  2  icônes.  La  cible 
« Appliquer à… » se retrouve dans toutes les étapes avec le choix d’appliquer la modification 
à : la page active / toutes les pages / cette page et les suivantes / les pages sélectionnées, etc. 
Si vous avez fait une ou des modifications, vous devez ensuite cliquer sur le bouton « Play » 
(même  pictogramme  que  pour  un  lecteur  de  DVD)  pour  appliquer  effectivement  les 
changements. 
3. Scinder les pages : Même si les logiciels d’OCR le font très bien, si vous avez scanné 2 
pages à la fois, c’est bien de le faire dans ce logiciel. Vous avez le choix entre 3 modes de 
détection automatique et un mode manuel, appliqué à la page active / toutes les pages / cette 
page et les suivantes / les pages sélectionnées. Malheureusement, cette option fonctionne 
très mal si vous avez de grosses bandes noires comme dans l’image ci-dessus, ce qui arrive si 
vous avez scanné un livre d’une taille donnée, dans une taille automatique plus grande sur le 
scanner. Dans ce cas, choisissez l’icône de gauche sous « Mise en page », ce qui signifie que 
vous ne voulez pas scinder les pages : vous le ferez plus tard dans le logiciel d’OCR. 
4. Redresser : Si le scan est bien fait, cette option est inutile, d’autant que la fonction de 
redressement est également incluse dans les logiciels d’OCR. 
5. Sélectionner le contenu : Si vous avez appliqué mes précédents conseils, il suffit de laisser 
le  mode  automatique, et de  cliquer  sur  « Play ». Mais,  si  le  logiciel  ne  reconnaît  pas  le 
contenu  et  sélectionne  des  zones  blanches  ou  noires,  il  vous  sera  simple  de  définir 
manuellement le masque du contenu si vous avez bien veillé à mettre le livre toujours au 
même endroit de la vitre. 
6. Vous choisissez les marges (je prends 5 mm pour les 4), vous laissez coché « Faire 
correspondre la taille avec les autres pages », et vous cliquez sur le bouton « Play ». 
7. Il ne reste plus qu’à cliquer sur la Sortie. Vous choisissez la résolution de sortie : restez en 
300 DPI, le mode : rester en noir et blanc (avec la possibilité d’éclaircir ou d’épaissir, page 
par page, ou toutes les pages d’un coup). Et enfin vous pouvez tenter d’éliminer le bruit (faire 
un test sur 2 ou 3 pages d’abord…). Et quand vous avez fini, cliquez sur le bouton « Play »… 
Un must… 
II 
L’OCR 
Plusieurs logiciels d’OCR existent, mais je dis clairement que j’en préfère un, par ailleurs 
utilisé par la très grande majorité de ceux qui œuvrent dans le domaine des ebooks, il s’agit de 
Abby FineReader. J’utilise actuellement la version 10, mais  les versions 8 et 9 conviennent 
parfaitement. Je ne vous parlerai donc que de lui… 
1 – Les options de FineReader 
La première à chose est de comprendre les options de FineReader, d’appliquer les bonnes 
options, donc direction menu Outils / Options. Regardons tout de suite l’onglet « Avancé », le 
dernier. On voit qu’on peut enregistrer, ou charger les options à partir d’un fichier. Voici un lien 
vers le fichier d’options que j’utilise en général et que je vais décrire maintenant. Que vous 
utilisiez mon fichier d’option ou le vôtre, je vous conseille de procéder ainsi, car il est plus facile 
de changer éventuellement une ou deux options que de modifier à chaque fois tous les onglets. 
Revenons au premier onglet ; je le laisse en général tel que : 
10 
Deuxième onglet, « Numériser/Ouvrir » : 
Bien sûr, je décoche la segmentation des pages doubles si je n’ai pas scanné les pages par 
deux, ou si j’ai fait la séparation dans un autre logiciel précédemment. 
Troisième onglet, « Lire », je laisse tel que : 
Documents you may be interested
Documents you may be interested