download pdf in mvc : C# pdf to tiff Library SDK component .net asp.net azure mvc IM1008590-part303

Join Algorithms using Map/Reduce
Jairam Chandar
T
H
E
U
N
I
V
E
R
S
I
T
Y
O
F
E
D
I
N
B
U
R
G
H
MasterofScience
ComputerScience
SchoolofInformatics
UniversityofEdinburgh
2010
C# pdf to tiff - Library SDK component:C# PDF Convert to Tiff SDK: Convert PDF to tiff images in C#.net, ASP.NET MVC, Ajax, WinForms, WPF
Online C# Tutorial for How to Convert PDF File to Tiff Image File
www.rasteredge.com
C# pdf to tiff - Library SDK component:VB.NET PDF Convert to Tiff SDK: Convert PDF to tiff images in vb.net, ASP.NET MVC, Ajax, WinForms, WPF
Free VB.NET Guide to Render and Convert PDF Document to TIFF
www.rasteredge.com
Abstract
Informationexplosionisawellknownphenomenonnowandthereisavastamountof
researchgoingonintohowbesttohandleandprocesshugeamountsofdata.Onesuch
ideaforprocessingenormousquantitiesofdataisGoogle’sMap/Reduce.
Map/ReducewasfirstintroducedbyGoogleengineers-JeffreyDeanandSanjay
Ghemawat [9]. It was designed for and is still used at Google for processing large
amountsof rawdata(likecrawleddocumentsand web-requestlogs)toproducevar-
ious kinds of derived data (like inverted indices, web-page summaries, etc.). It is
asimple yet powerful frameworkfor implementing distributed applicationswithout
havingextensivepriorknowledge oftheintricaciesinvolvedinadistributedsystem.
It ishighly scalableand works ona cluster ofcommoditymachines with integrated
mechanisms for fault tolerance. The programmer is only required to write special-
izedmap andreducefunctions as part oftheMap/Reduce job andthe Map/Reduce
frameworktakescareoftherest. Itdistributesthedataacrossthecluster,instantiates
multiple copies of the map and reduce functions in parallel, and takes care of any
systemfailuresthatmightoccurduringtheexecution.
SinceitsinceptionatGoogle,Map/Reducehasfoundmanyadopters.Amongthem,
theprominentoneistheApacheSoftwareFoundation,whichhasdevelopedanOpen-
SourceversionoftheMap/ReduceframeworkcalledHadoop[2]. Hadoopboastsofa
numberoflargeweb-basedcorporateslikeYahoo,Facebook,Amazon,etc.,thatuseit
forvariouskindsofdata-warehousingpurposes.Facebookforinstance,usesittostore
copiesofinternallogsandusesitasasourceforreportingandmachinelearning.See
[4]forothercompaniesthatuseHadoop.
Owingtoitseaseofuse,installationandimplementation,Hadoophasfoundmany
usesamongprogrammers. Oneofthemisqueryevaluationover largedatasets. And
oneof themostimportantqueriesareJoins. Thisproject explores theexistingsolu-
tions,extendsthemandproposesafewnewideasforjoiningdatasetsusingHadoop.
Algorithmshavebeenbrokenintotwocategories-Two-WayjoinsandMulti-Way
joins.Joinalgorithmsarethendiscussedandevaluatedunderbothcategories.Options
topre-process data in order to improve performance have also beenexplored. The
resultsareexpectedtogiveaninsightintohowgoodafit HadooporMap/Reduceis
forevaluatingJoins.
i
Library SDK component:C# Create PDF from Tiff Library to convert tif images to PDF in C#
Home ›› XDoc.PDF ›› C# PDF: Create PDF from Tiff. C#.NET PDF - .NET PDF Library for Creating PDF from Tiff in C#. How to Create
www.rasteredge.com
Library SDK component:C# WPF Viewer: Load, View, Convert, Annotate and Edit Tiff
PDF from Excel; C#: Create PDF from PowerPoint; C#: Create PDF from Tiff; C#: Convert PDF to Word; C#: Convert PDF to Tiff; C#: Convert
www.rasteredge.com
Acknowledgements
Iwouldliketoextendmyheartfeltgratitudetomysupervisor,Dr. MaryCryan, for
guidingme throughout thisprojectand givingme invaluableadviceat timeswhenI
neededitthemost. IwouldalsoliketothankMr. ChrisCookewhowasresponsible
formakingsuretheclusterusedtoruntheexperimentsworkedfine.
Aspecial mention to the open-source community for a wonderful product like
Hadooponwhichthisprojectisbased.
Andlast,butcertainlynottheleast,tomyparentsandfriendswhoalwaysstoodby
me.
ii
Library SDK component:C# WinForms Viewer: Load, View, Convert, Annotate and Edit Tiff
PDF from Excel; C#: Create PDF from PowerPoint; C#: Create PDF from Tiff; C#: Convert PDF to Word; C#: Convert PDF to Tiff; C#: Convert
www.rasteredge.com
Library SDK component:C# HTML5 Viewer: Load, View, Convert, Annotate and Edit Tiff
three plug-ins, RasterEdge XDoc. HTML5 Viewer for C# .NET can help to convert Tiff to PDF document online directly. Tiff Annotation.
www.rasteredge.com
Declaration
Ideclarethat thisthesis wascomposedbymyself,that the workcontained herein is
myownexceptwhereexplicitlystatedotherwiseinthetext,andthatthisworkhasnot
beensubmittedforanyotherdegreeorprofessionalqualificationexceptasspecified.
(JairamChandar)
iii
Library SDK component:C# TIFF: TIFF Editor SDK to Read & Manipulate TIFF File Using C#.
Easy to generate image thumbnail or preview for Tiff document at ease. Convert Tiff file to bmp, gif, png, jpeg, and scanned PDF with high fidelity in C#.
www.rasteredge.com
Library SDK component:C# WPF PDF Viewer SDK to view, annotate, convert and print PDF in
Word, C# extract text from PDF, C# convert PDF to Jpeg, C# compress PDF, C# print PDF, C# merge PDF files, C# view PDF online, C# convert PDF to tiff, C# read
www.rasteredge.com
TomyparentswhomademewhoIamtoday.
iv
Library SDK component:C# PDF Image Extract Library: Select, copy, paste PDF images in C#
Scan image to PDF, tiff and various image formats. Extract image from PDF free in .NET framework application trial SDK components and online C# class source
www.rasteredge.com
Library SDK component:C# PDF Convert to Jpeg SDK: Convert PDF to JPEG images in C#.net
›› C# PDF: Convert PDF to Jpeg. C# PDF - Convert PDF to JPEG in C#.NET. C#.NET PDF to JPEG Converting & Conversion Control. Convert PDF to JPEG Using C#.NET.
www.rasteredge.com
Table of Contents
1 Introduction
1
1.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2 MotivationandAim. . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3 RelatedWork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4 ThesisOutline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2 Map/ReduceandHadoop
7
2.1 WhatisMap/Reduce?. . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2 Map/ReduceBreakdown . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3 Map/ReduceExample. . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 HadoopandHDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4.1 HadoopOverview . . . . . . . . . . . . . . . . . . . . . . . 12
2.4.2 HadoopDistributedFileSystemorHDFS . . . . . . . . . . . 13
2.4.3 HadoopCluster . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.4 HadoopJob . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.5 MapandReduceFunctions. . . . . . . . . . . . . . . . . . . 15
2.4.6 PartitioningandGrouping . . . . . . . . . . . . . . . . . . . 16
2.4.7 HadoopCounters . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.8 HadoopDataTypes. . . . . . . . . . . . . . . . . . . . . . . 18
2.4.9 CompressioninHadoop . . . . . . . . . . . . . . . . . . . . 18
3 JoinAlgorithms
20
3.1 JoinAlgorithmsinstandarddatabasecontext . . . . . . . . . . . . . 21
3.2 Two-WayJoins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.1 Reduce-SideJoin . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.2 Map-SideJoin . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.3 BroadcastJoin . . . . . . . . . . . . . . . . . . . . . . . . . 28
v
3.3 Multi-WayJoins. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.1 Map-SideJoin . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.2 Reduce-SideOne-ShotJoin . . . . . . . . . . . . . . . . . . 30
3.3.3 Reduce-SideCascadeJoin . . . . . . . . . . . . . . . . . . . 31
4 EvaluationandAnalysis
35
4.1 Enviroment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 ExperimentalSetup . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.1 ClusterSetup . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3 Two-WayJoins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3.1 Experiment 1: Performanceof two-wayjoins onincreasing
inputdatasize . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3.2 Experiment2-Two-wayJoinalgorithmsacrossdifferentclusters 39
4.3.3 Experiment3-PerformanceofBroadcastJoin . . . . . . . . 40
4.4 Multi-WayJoins. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.1 Experiment4: Performanceofmulti-wayjoinsonincreasing
inputdatasize . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.2 Experiment5:Two-wayJoinalgorithmsacrossdifferentclusters 45
5 DiscussionandConclusion
47
5.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.3 FutureWork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
A TextPairClass
51
B PartitionerClass
55
Bibliography
56
vi
List of Figures
2.1 MapReduceExecutionOverview[9]. . . . . . . . . . . . . . . . . .
9
2.2 HadoopCluster[18] . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 SignaturesofmapandreducefunctionsinHadoop . . . . . . . . . 16
2.4 ShuffleandSortinMap/Reduce[18] . . . . . . . . . . . . . . . . . . 17
3.1 ReduceSideJoin-TwoWay . . . . . . . . . . . . . . . . . . . . . . 24
3.2 CustomPartitioningandGrouping . . . . . . . . . . . . . . . . . . . 25
4.1 Experiment1:UniformKeyDistribution . . . . . . . . . . . . . . . 37
4.2 Experiment1:SkewedKeyDistribution . . . . . . . . . . . . . . . . 37
4.3 Experiment2:Two-wayJoinalgorithmsacrossdifferentclusters. . . 39
4.4 Experiment3:BroadcastJoinPerformance . . . . . . . . . . . . . . 41
4.5 Experiment4:UniformKeyDistribution . . . . . . . . . . . . . . . 43
4.6 Experiment4:SkewedKeyDistribution . . . . . . . . . . . . . . . . 44
4.7 Experiment5:Multi-wayJoinalgorithmsacrossdifferentclusters . . 45
vii
List of Tables
2.1 Hadoopcompressioncodecs . . . . . . . . . . . . . . . . . . . . . . 18
3.1 LimitationofMap-SideJoin[16] . . . . . . . . . . . . . . . . . . . . 27
3.2 SampleDatasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Joinedresultofthesampledatasets. . . . . . . . . . . . . . . . . . . 33
4.1 TypesofmachinesusedintheExperimentalCluster . . . . . . . . . . 35
4.2 Typesofclustersusedfortheexperiments . . . . . . . . . . . . . . . 36
4.3 Experiment1:UniformKeyDistribution . . . . . . . . . . . . . . . 38
4.4 Experiment1:SkewedKeyDistribution . . . . . . . . . . . . . . . . 38
4.5 Experiment2:Two-wayJoinalgorithmsacrossdifferentclusters. . . 40
4.6 Experiment3:BroadcastJoinPerformance . . . . . . . . . . . . . . 41
4.7 Experiment4:UniformKeyDistribution . . . . . . . . . . . . . . . 44
4.8 Experiment4:SkewedKeyDistribution . . . . . . . . . . . . . . . . 44
4.9 Experiment5:Multi-wayJoinalgorithmsacrossdifferentclusters . . 46
viii
Chapter 1
Introduction
“Informationexplosionis therapidincreaseintheamount ofpublishedinformation
and the effects of this abundance of data. As the amount of available data grows,
theproblem of managing the informationbecomes moredifficult,which canlead to
informationoverload.”
1
1.1 Background
TheWorldWideWebsawarevolutionwiththeadventofWeb2.0. Webapplications
becamemoreinteractive,allowingusersthefreedomtointeractandcollaborateover
theInternetinwaysnotpossibleearlier. Usersstartedtotaketheroleofcontentcre-
atorsratherthanpassiveviewerofwebpages. Websitesstartedtoget swampedwith
user-generatedcontent from blogs, videos,socialmediasites andvarious otherWeb
2.0technologies.Thishadthedirectconsequenceofinformationstoredonserversex-
plodingintosizesnotseenearlier. Contributingtothisinformationexplosionwasthe
alreadyaccumulatingbusinessdatathatwasgeneratedeverydayacrossvariouscompa-
niesandindustries.ThesewerejustacoupleofreasonsthatledtotheageofPetabytes
-anagewhereinformationstoredindatastoresreachedlevels ofPetabytesor1024
TeraBytes or1048576Gigabytes. Withmoreand more enterprisesusingcomputers
andembracingthedigital age,moreandmoreinformationisstartingtogetdigitized
andthevolumeofdatapublishedandstoredisincreasingwitheachpassingday.
Obviously, storingdigital data is not sufficient, its needs to be queried as well.
Butwithsuchhugevolumesofdata,thereisaneedtolookatqueryalgorithmsfrom
adifferent perspective. For instance, algorithms need to be storage-aware in order
1
http://en.wikipedia.org/wiki/Information_explosion
1
Documents you may be interested
Documents you may be interested