save pdf in database c# : Convert word to pdf with bookmarks application software tool html winforms windows online ATA-TCD_2013_TranslatingPDFfiles_TuomasKostiainen0-part631

T
RANSLATING 
PDF
F
ILES 
I
W
H
AVE 
T
O
:
T
OOLS
,
T
IPS AND 
T
ECHNIQUES FOR 
C
ONVERTING AND 
T
RANSLATING 
PDF
F
ILES 
Tuomas Kostiainen (tuomas@jps.net
www.FinnTranslations.com
1. Converting PDF Files to Editable Text
Text-based vs. Image-based PDF files in Adobe Reader/Acrobat 
Text-based PDF files 
 Possible to select (and copy) text word by word and letter by letter 
 Possible to search text 
 Characters look smooth and clear 
 PDF documents created from other applications are typically text-based  
Image-based PDF files 
 Possible to select only a rectangular area and copy it as an image (not as 
text) 
 Select Tool cursor is a cross-hair (instead of an arrow) and clicking the 
document highlights the whole page blue 
 Search function does not find any text 
 Faxed and scanned documents are typically image-based 
Searchable image PDF files 
 Can be created in Adobe Acrobat (and in some other PDF tools) from an 
image-based PDF file 
 Looks exactly like the image-based PDF file but the OCR-recognized text 
is “hidden” behind the image and can be searched, selected and copied 
as text 
 The accuracy of the recognized text depends on the clarity of the image 
 The OCR function in Adobe Acrobat 9 is not very good but it is better in 
versions X and XI 
Adobe Reader (ver. X/XI) 
Copying and pasting using Clipboard   
 Column select mode (Alt), selecting whole page (4 clicks), selecting all 
(Ctrl+A; “all” can be either whole page or whole document depending on 
the Page Display setting: View > Page Display > Single Page vs. all other 
settings), copying with or without formatting (right click menu; if available) 
Saving as a text (txt) file (File > Save as Other > Text) 
Paragraph mark problem with both methods > practical only for small amount of 
text 
Saving as as a Word or Excel file online; a fee-based service (File > Save as 
Other > Word or Excel Online...) 
Text can be saved, selected and copied only from text-based PDF files and 
searchable image files (not from normal image-based PDF files) 
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
Convert word to pdf with bookmarks - add, remove, update PDF bookmarks in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Empower Your C# Project with Rapid PDF Internal Navigation Via Bookmark and Outline
copy pdf bookmarks; export pdf bookmarks to text file
Convert word to pdf with bookmarks - VB.NET PDF bookmark library: add, remove, update PDF bookmarks in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Empower Your VB.NET Project with Rapid PDF Internal Navigation Via Bookmark and Outline
how to bookmark a pdf page; convert word to pdf with bookmarks
Adobe Acrobat (ver. 9/X/XI) 
File > Export; File > Save As (Word, Excel, html, xml, etc.); File > Save As Other 
(Word, Excel, html, xml, etc.)  
Right click menu options:  
Acrobat ver. 9: Copy, Copy As Table, Save As Table, Open Table in 
Spreadsheet 
Acrobat ver. X/XI: Copy, Copy With Formatting, Export Selection As 
Tables can be tricky to convert with any of the above methods 
Conversion settings: Edit > Preferences > Convert From PDF > [select file type] 
> Edit Settings... [see Figures 1 and 2
More info (Adobe online Help): http://tinyurl.com/r9jn9y
(ver. 9), 
http://tinyurl.com/convverx
(ver. X), http://tinyurl.com/convverXI
(ver. XI) 
Includes an OCR function that allows converting image-based PDF files into 
searchable images (see above “Searchable image PDF files”)  
Acrobat ver. 9: Document > OCR Text Recognition 
Acrobat ver. X/XI: Tools > Text Recognition 
Text can be selected and copied from text-based PDF files and searchable 
image files (but not from normal image-based PDF files without converting them 
to searchable images first) 
Image-based files can be saved directly as text-based Word/Excel files in 
Acrobat X/XI (File > Save As; File > Save As Other) 
OCR (Optical Character Recognition) Tools for PDF Conversion 
ABBYY FineReader (www.abbyy.com
PDF Transformer (by ABBYY) 
OmniPage (www.nuance.com/imaging/products/omnipage.asp
PDF Converter (by Nuance) 
PDF to Excel: www.pdftoexcelonline.com
(free online tool) 
 Not a perfect tool but free 
 Remember document confidentiality when using online tools 
Using ABBYY PDF Transformer 
Simple – just a few clicks [see Figure 3
PDF conversion and PDF creation 
Can convert both text-based and image-based PDF files 
Advanced Options for Word files: Original layout, Text flow, Keep pictures  
Advanced Options for Excel files: Ignore text outside tables, Convert numeric 
values to numbers 
Recommended fonts for Chinese, Japanese, Hebrew and Thai 
Using ABBYY FineReader 
Full-range OCR program for scanning, PDF/image file conversion and PDF 
creation [see Figure 4
Can convert both text-based and image-based PDF files; includes several 
features/settings that can help improve conversion results when converting 
image-based files 
Open an image file (PDF, TIF, etc.) or scan a document 
Read file using the OCR tool 
Image can be edited (Edit Image button) 
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
Bookmarks. Comments, forms and multimedia. Convert smooth lines to curves. VB.NET Demo Code to Optimize An Exist PDF File in Visual C#.NET Project.
creating bookmarks pdf; how to add bookmarks to a pdf
C# PDF File Split Library: Split, seperate PDF into multiple files
Split PDF file by top level bookmarks. The following C# codes explain how to split a PDF file into multiple ones by PDF bookmarks or outlines.
export pdf bookmarks to text; how to bookmark a pdf document
Several general and file-specific options for perfecting the output (Tools > 
Options) [see Figure 5
Output can be previewed and edited on the Text Window (right side) 
Check spelling (allows you to verify words that the OCR program misread or did 
not recognize) and make other editing corrections on the Text Window 
Save as Word, Excel, etc. file 
2. Post-editing Converted Files in Word/Excel
Often additional formatting or “cleaning” is needed to get rid of incorrect 
formatting, unncessary spaces and hidden tags 
Paste Special in Word/Excel can be useful 
Reset character formatting (Ctrl+Space) in Word can also be useful (select text first) 
CodeZapper (a set of Word macros; efficient way to get rid of unnecessary 
“rogue” tags in Word files after conversion; for details, see  
http://asap-traduction.com/CodeZapper
TransTools Document Cleaner (http://www.translatortools.net/word-doccleaner.html
AutoUnbreak for deleting unnecessary line breaks (http://tinyurl.com/autounbrk
ASAP Utilities for Excel (http://www.asap-utilities.com
3. Translating PDF Files Using CAT Tools
Trados Studio
, Wordfast Pro, memoQ
and Fluency offer support for PDF files 
[see Figure 6 and 7] but handle the conversion process differently 
Not very practical in most cases – a better solution would be to use a good PDF 
conversion tool to convert the file to Word format. For more info, see 
http://tradoshelp.wordpress.com/2010/05/17/
If you use your CAT tool’s integrated conversion function, check that the 
conversion settings are appropriate 
4. PDF File Password Protection and Permission Control
In Adobe Reader/Acrobat: File > Properties > Security [see Figure 8
Two types of password protection: One requires a password to open the file and 
the other one restricts copying, editing and printing of the file. These two 
protection types require separate passwords and can be used independently of 
one another.  
If needed, there are several tools available for unprotecting PDF files (search 
“unprotect PDF” in the Internet and you’ll find out) 
5. Creating TMs from PDF Files Using Alignment Tools
LogiTerm AlignFactory (www.terminotix.com
) [see Figure 9
 Also available as a FREE online version: YouAlign by LogiTerm; limited 
selection of languages (www.youalign.com
ABBYY Aligner, limited selection of languages (http://www.abbyy.com/aligner
[see Figure 10
 “If you want to improve the quality of texts extracted from PDF files, use 
ABBYY FineReader or ABBYY PDF Transformer for conversion.” 
Both tools support also many other file types 
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
VB.NET PDF File Split Library: Split, seperate PDF into multiple
Demo Code in VB.NET. The following VB.NET codes explain how to split a PDF file into multiple ones by PDF bookmarks or outlines.
adding bookmarks to a pdf; pdf reader with bookmarks
C# PDF File Compress Library: Compress reduce PDF size in C#.net
Bookmarks. Comments, forms and multimedia. Hidden layer content. Convert smooth lines to curves. Flatten visible layers. C#.NET DLLs: Compress PDF Document.
how to add bookmark in pdf; bookmark pdf reader
6. Additional PDF-related Links and Info
http://acrobatusers.com/
www.adobe.com/support/
www.planetpdf.com
http://desktoppub.about.com
(search for “PDF”) 
Translator’s Tool Box by Jost Zetzsche (www.internationalwriters.com/toolbox
): 
new chapter on PDF files 
ABBYY 20% discount code (“KOSTIAINEN”) at www.abbyyusa.com
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
it extremely easy for C# developers to convert and transform document file, converted by C#.NET PDF to HTML all the original anchors, links, bookmarks and font
add bookmark pdf file; bookmark a pdf file
XDoc.Word for .NET, Advanced .NET Word Processing Features
Create Word from PDF; Create Word from OpenOffice (.odt); More about Word SDK Word Export. Convert Word to PDF; Convert Word to HTML5; Convert Word to Tiff; Convert
create bookmark pdf; add bookmarks to pdf reader
Figure 1. Adobe Acrobat X/XI: PDF to DOC conversion settings 
Figure 2. Adobe Acrobat X/XI: PDF to Excel (XLSX) conversion settings
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
C# Word - Convert Word to HTML in C#.NET
VB.NET How-to, VB.NET PDF, VB.NET Word, VB toolkit SDK, preserves all the original anchors, links, bookmarks and font C#: Convert Word document to HTML5 files.
add bookmarks to pdf preview; copy pdf bookmarks to another pdf
.NET PDF SDK - Description of All PDF Processing Control Feastures
Full page navigation, zooming & rotation; Outlines, bookmarks, & thumbnail display; PDF Export. Convert PDF to Word (.docx); Convert PDF to HTML; Convert PDF to
creating bookmarks in a pdf document; add bookmarks to pdf file
Figure 3. ABBYY PDF Transformer: Converting a PDF file to Word format. 
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
Figure 4. ABBYY FineReader: Converting a PDF file to Word format. 
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
Figure 5. ABBYY FineReader: Available layout options when converting PDF files to 
Word format. 
Figure 6. Trados Studio 2011: PDF filter “Common” settings. 
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
Figure 7. Trados Studio 2011: PDF filter “Converter” settings. 
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
10 
Figure 8. Adobe Acrobat: Security Settings
dialog box
ATA-TCD Conference – January 26, 2013 
ver. 1/2/2013 
Documents you may be interested
Documents you may be interested