Parallel Db Issues

Embed Size (px)

Citation preview

  • 8/1/2019 Parallel Db Issues

    1/29

    Dis t r ibu ted and Para l l e l Da tabase s 1 (1993), 13%165 1993 Kluwer Aca dem ic Pub l i sher s , Bos ton . Ma nufac tu red in T he Ne ther lands .

    Paral le l Database Systems:N e w I s s u e sP A T R I C K V A L D U R I E ZProjet Ro din, INRIA, Rocquencourt, FranceReceived May 18, 1992, Revised Aug ust 18, 1992

    O p e n P r o b l e m s a n dPATR 1CK.VALDU RI EZ@ INR IA. FR

    Ab s t r a c t . Para l l e l da tabase sys tem s a t t em pt to exp lo i t r ecen t m ul t ip roces so r com puter a rch i tec tu resin o rd er to bu i ld h ig h-per fo rm ance and h igh-ava ilab i li ty da tabase s e rver s a t a m uch low er p r ice t h a ne q u i v a l e n t m a i n f r a m e c o m p u t e r s. A l t h o u g h t h e r e a r e c o m m e r c i a l S Q L - b a s e d p r o d u c t s , a n u m b e r o fopen p rob lem s ham per th e fu l l exp lo i ta t ion o f the capab i l i t ie s o f para l l e l sys tem s. T h ese p rob lem stouch on i ssues r ang ing f rom those o f para l l e l p roces s ing to d i s t r ibu ted da tab ase m ana gem ent .Fur therm ore , i t i s s t i l l an open i s sue to dec ide which o f the var ious a rch i tec tu res am ong shared-m em ory , shared-d i sk , and shared-no th ing , i s bes t fo r da tabase m ana gem ent un der var ious cond i t ions .F ina l ly , the re a re new i ssues r a i s ed by the in t roduc t ion o f h igher func t iona l i ty such as know ledge-ba sedor ob jec t -o r ien ted capab i l i t i e s w i th in a para l l e l da tabase sys tem .Ke yw o r d s : Para l l e l da tabase sys tem s, m ul t ip roce s so r a rch i tec tu res , pa ra l l e l da tabase l anguages , d a t ap lacem ent , query p roces s ing , para l l e l a lgor i thm s , ru les , ob jec t s

    1 . I n t r o d u c t i o n

    D a t a b a s e m a n a g e m e n t a n d p a r a l le l p r o c e s si n g t e c h n o l o g i e s h a v e e v o lv e d t o ap o i n t t h a t t h e y c a n n o w b e s u c c e ss fu ll y c o m b i n e d t o b e t t e r s u p p o r t d a t a - i n t e n s iv ea p p l ic a t io n s . T h e y a r e p o i s e d t o t a k e a c e n tr a l p o s it i o n in m a i n s t r e a m c o m m e r c i a li n f o r m a t i o n s y s t e m s o f t h e 1 9 90 s [7 8].

    C o m m e r c i a l d a t a b a s e t e c h n o l o g y h a s m o v e d f ro m t h e e a r l ie r h i e r ar c h i ca l a n dn e t w o r k m o d e l s to th e r e l a ti o n a l m o d e l . T h e m a i n a d v a n t a g e s o f r e l a ti o n a ld a t a b a s e s y s t e m s ( R D B M S s ) o v e r t h e i r p r e d e c e s s o r s ar e d a t a i n d e p e n d e n c e a n dh i g h - l e v e l q u e r y l a n g u a g e s ( e . g . , S Q L ) . T h e s e a d v a n t a g e s i n c r e a s e p r o g r a m m e rp r o d u c t iv i t y a n d f a v or a u t o m a t i c o p t i m i z a t io n . F u r t h e r m o r e , t h e s e t - o r i e n t e dn a t u r e o f th e r e l at i o n a l m o d e l fa c il it a te s d i s t r i b u t e d d a t a b a s e m a n a g e m e n t [ 56 ,5 7]. T o d a y, a f te r a d e c a d e o f o p ti m i z a t i o n a n d t u n i n g , R D B M S s c a n p r o v i d e ap e r f o r m a n c e l e v e l r e a c h i n g t h a t o f e a r l i e r s y s te m s . T h e r e f o r e , t h e y a r e b e i n ge x t e n s i v e l y u s e d i n c o m m e r c i a l d a t a p r o c e s s i n g f o r d e c i s i o n - s u p p o r t o r o n - l i n et r a n s a c t i o n p r o c e s s i n g ( O L T P ) a p p l i c a ti o n s .P a r a l l e l p r o c e s s i n g e x p l o i t s m u l t i p r o c e s s o r c o m p u t e r s t o r u n a p p l i c a t i o n p r o -g r a m s b y u s i n g s e v e r a l p r o c e s s o r s c o o p e r a t i v e l y , i n o r d e r t o i m p r o v e p e r f o r m a n c e .I ts p r o m i n e n t u s e is in s c ie n ti fi c c o m p u t i n g b y i m p r o v i n g t h e r e s p o n s e t i m e o fn u m e r i c a l a p p l i c a t i o n s [4 7, 6 5]. T h e r e c e n t d e v e l o p m e n t s i n b o t h g e n e r a l -

  • 8/1/2019 Parallel Db Issues

    2/29

    138 VALDURIEZ

    p u r p o s e M I M D p a r a l l e l c o m p u t e r s u s i n g s t a n d a r d m i c r o p r o c e s s o r s a n d p a r a l l e lp ro gra m m ing t e c hn iq ue s [55] w ill a ll ow pa ra l l e l p roc e ss ing to b r e a k in to t he da t ap roc e ss ing f ie ld .T h e c o m b i n a t i o n o f d a t a b a s e m a n a g e m e n t a n d p a r a l le l p r o c e ss i n g is e x e m p l i f ie dby the a dva nc e s i n parallel database systems [26] . The se sys t e ms e xp lo i t r e c e n tm u l t i p r o c e s s o r c o m p u t e r a r c h i t e c t u r e s i n o r d e r t o b u i l d h i g h - p e r f o r m a n c e a n dh igh-a va il a b il it y da t a ba s e se rve rs a t a m uc h low e r p r i c e t ha n e qu iva l e n t ma in f ra m ec o m p u t e r s . N o t e t h a t p e r f o r m a n c e w a s al so t h e o b j e c ti v e o f t h e database machines( D B M s ) i n t h e 1 97 0s a n d 1 98 0s [ 4 2 ], T h e p r o b l e m f a c e d b y c o n v e n t i o n a l d a t a b a s em a n a g e m e n t h a s l o n g b e e n k n o w n a s " I / O b o t t l e n e c k " [ 1 3 ] , i n d u c e d b y h i g hd i s k a c c e s s t i m e w i t h r e s p e c t t o m a i n m e m o r y a c c e s s t i m e ( t y p i c a l l y h u n d r e d sthou sa nd s time s fa s te r ) . In it ia l ly , D B M de s igne rs t a c k l e d th is p rob le m th rou ghspe c i a l -purpose ha rdw a re (e . g . , by i n t roduc ing da t a f i l t e r i ng de v ic e s w i th in t hed is k ). H o w e v e r , t h e y fa i le d b e c a u s e o f a p o o r p r i c e / p e r f o r m a n c e w h e n c o m p a r e dto t h e so f tw a re so lu t ion w hic h c a n e a si ly be ne f i t f rom ha r dw a re p rog re s s i n s i li c onte c hn o log y [32] . A no ta b l e e x c e p t ion to t he s e fa i lu re s is t he CA FS-IS P f i lt e r [7 ]w hic h i s bund le d w i th in ICL d i sk c on t ro l l e r s fo r f a s t a s soc i a t i ve se a rc h a nd c a nb e u s e d b y I N G R E S ( w h e n t h e o p t im i z e r d e c i d e s t o d o s o ).

    A n i m p o r t a n t r e s u l t o f D B M r e s e a r c h , h o w e v e r , is in t h e g e n e r a l s o lu t i o nto t he I /O bo t t l e ne c k . We c a n sum m a r i z e t h is so lu t ion a s increasing the I/Obandwidth through parallelism. For i ns t anc e , i f w e s to re a da t a ba se o f s iz e D on as in g le d is k w i t h t h r o u g h p u t T , t h e s y s te m th r o u g h t p u t is b o u n d e d b y T . O n t h ec o n t ra ry , i f w e pa r t i t i on t he da t a ba se a c ross n d isks , e a c h w i th c a pa c i ty D / n a n dt h r o u g h p u t T ' ( h o p e f u l ly e q u i v a le n t t o T ) , w e g e t a n i d ea l th r o u g h p u t o f n*T 'w h i c h c a n b e b e t t e r c o n s u m e d b y m u l ti p le p r o c e s so r s ( i d ea ll y n ) . N o t e t h a t t h em a i n m e m o r y d a t a b a s e s y s te m s o l u ti o n [ 3 0 ] w h i c h t ri e s to m a i n t a i n t h e ( a c ti v e )d a t a b a s e i n st a b le m a i n m e m o r y is c o m p l e m e n t a r y r a t h e r t h a n a l te r n a t iv e . I npa r t i c u l a r , t he " m e m or y a c c ess bo t t l e ne c k" c a n a l so be t a c k l e d us ing pa ra ll e l ismin a s imi la r way.

    The re fo re , pa ra l l e l da t a ba se sys t e m de s igne rs s t r i ve t o de ve lop so f tw a re -o r i e n t e d s o l u ti o n s in o r d e r to e x p l o it m u l t ip r o c e s s o r h a r d w a r e . T h e o b j e c t iv e so f pa ra l l e l da t a ba se sys t e ms c a n be a c h i e ve d by e x t e nd ing d i s t r i bu t e d da t a ba set e c hno log y , fo r e xa m ple , by pa r t it i on ing the da t a ba se a c ross mul t i p l e ( sma l l ) d i sksso t ha t m uc h in t e r - a nd in t ra que ry pa ra l l e li sm c a n be ob t a ine d . Th i s c a n le a dt o s i g n if ic a n t i m p r o v e m e n t s i n b o t h r e s p o n s e t i m e a n d t h r o u g h p u t ( n u m b e r o ft r a n s a c t io n s p e r s e c o n d ) . M o t i v a t e d b y s e t- o r i e n t e d p r o c e ss i n g a n d a p p l i c a ti o np o r t a b i l i t y , m o s t o f t h e w o r k i n t h i s a r e a h a s f o c u s e d o n s u p p o r t i n g S Q L . T h e r ea r e a l r e a d y s o m e r e l a t i o n a l d a t a b a s e p r o d u c t s t h a t i m p l e m e n t t h i s a p p r o a c h ,e .g ., T e r a d a t a ' s D B C [ 5 4 ] a n d T a n d e m ' s N o n S t o p S Q L [7 2] a n d t h e n u m b e r o fs u c h p r o d u c t s w ill i n c r e a s e a s t h e m a r k e t f o r g e n e r a l - p u r p o s e p a r a l le l c o m p u t e r se x p a n d s. I n f a ct , t h e r e a r e a l r e ad y im p l e m e n t a t i o n s o f ex i st in g R D B M S s s u c ha s I N G R E S a n d O R A C L E o n p a r a l l e l c o m p u t e r s .

    A t f i r s t g l a nc e , t he fa c t t ha t t he re a re suc c e ss fu l c omme rc i a l p roduc t s ma y in -d i c a t e t h a t t h e i m p o r t a n t t e c h n i c a l p r o b l e m s h a v e b e e n s o l ve d . O n t h e c o n t r a r y ,

  • 8/1/2019 Parallel Db Issues

    3/29

    OPEN PROBLEMS AND NEW ISSUES 139

    i f one a na lyz e s t he se sys t e ms c a re fu l ly , i t w i l l be found tha t t he y typ i c a l ly re lyon s imple so lu t ions (e . g . , pa r t i t i on ing e a c h re l a t i on a c ross a l l node s ) a nd s t ronga s s u m p t i o n s r e g a r d i n g t h e w o r k l o a d ( e.g ., d e b i t - c re d i t t r a n s a c t io n s o f t h e T P C - Bb e n c h m a r k [3 8]). O p e n p r o b l e m s c o n c e r n p a r al le l s y st e m a rc h i t e c tu r e s , o p e r a t -i n g s y s t e m s u p p o r t , d a t a p l a c e m e n t , p a r a l l e l d a t a b a s e p r o g r a m m i n g l a n g u a g e s ,pa ra l l e l a lgo r i t hms , pa ra l l e l i z ing c ompi l a t i on , a nd t r a nsa c t ion ma na ge me nt . The yha ve be e n pa r t i a l l y a ddre s se d in t he c on te x t o f d i s t r i bu t e d da t a ba se sys t e ms [56]b u t a r e m u c h m o r e d if fi cu lt b e c a u s e o f t h e n e e d t o s c a l e u p t o l a r g e n u m b e r so f c om po ne n t s . Fu r the rm ore , it is s till a n ope n i s sue t o de c ide w hic h o f t hev a r i o u s a r c h i t e c t u r e s a m o n g s h a r e d - m e m o r y , s h a r e d -d i s k , a n d s h a r e d - n o t h i n g , i sb e s t f o r d a t a b a s e m a n a g e m e n t u n d e r v a ri o u s fa c t o r s su c h a s t y p e o f w o r k l o a d ,a pp l i c a t i on c om ple x i ty a nd da t a ba se s iz e.

    W h e n a p p li ed t o m o r e c o m p l e x a p p li ca ti o n d o m a i n s s u ch a s C A D / C A M , C A S E ,O IS , e xpe r t sys t e ms , e t c . , RD BMs show impor t a n t l imi t a t i ons i n t e rms o f ru l em a n a g e m e n t , c o m p l e x o b j e c t s u p p o r t , a n d t y p e s y s t e m . T o a d d r e s s t h e s e i s s u e s ,t w o i m p o r t a n t n e x t - g e n e r a t i o n D B M S t e c h n o l o g i e s , n a m e l y k n o w l e d g e b a s e s a n do b j e c t - o r i e n t e d d a t a b a se s , h a v e e m e r g e d . K n o w l e d g e b a se s y s te m s ( K B M S s ) [ 3 3]s h o u l d e n a b l e u s t o m o v e f r o m d a t a m a n a g e m e n t t o m o r e g e n e r a l k n o w l e d g em a n a g e m e n t w h e r e b y k n o w l e d g e c a n b e c a p t u r e d w i t h in r u le s. O b j e c t - o r ie n t e dd a t a b a s e s y s te m s ( O O D B M S s ) [ 8 6] t ry to c o m b i n e o b j e c t - o r ie n t e d p r o g r a m m i n ga n d d a t a b a s e t e c h n o l o g i e s i n o r d e r t o p r o v i d e h i g h e r m o d e l l i n g p o w e r a n df le x ib il it y t o t h e a p p l ic a t io n p r o g r a m m e r s . T h e h i g h e r f u n c ti o n a l it y o f K B M S s a n dO O D B M S s m a k e t h e p e r f o r m a n c e i s s u e f a r m o r e s e n s i t i v e t h a n w i t h R D B M S sa n d t h e r e f o r e r a i s e s n e w i s s u e s f o r i m p l e m e n t i n g t h e m o n p a r a l l e l c o m p u t e r s .

    In t h i s pa pe r , I c ri ti c al ly re v i e w the p a ra l le l da t a b a se sys t e m a pp roa c h a st h e s o l u ti o n t o h i g h - p e r f o r m a n c e a n d h i g h -a v ai la b il it y d a t a b a s e m a n a g e m e n t .T h e o b j e ct iv e s a r e t o e x h i b it th e a d v a n t a g e s a n d d i s a d v a n ta g e s o f t h e v a r i o u sa r c h i t e c t u r e s a n d t o p r e s e n t t h e o p e n p r o b l e m s a n d n e w i s s u e s t o b e a d d r e s s e db y th e r e s e a r c h c o m m u n i t y i n t h e n e a r f u t u r e .

    Th e pa p e r is o rga n iz e d a s fo ll ow s . Se c t ion 2 i n t rodu c e s t he a rc h i t e c tu ra la spe c t s o f pa ra l l e l da t a ba se sys t e ms a nd d i sc usse s t he re spe c t ive a dva n ta ge sa n d l im i t a ti o n s o f t h e t h r e e m u l t ip r o c e s s o r a r c h i te c t u r e s a lo n g s e v e r al i m p o r t a n td i m e n s i o n s i n c lu d i n g t h e p e r s p e c t iv e o f b o t h e n d - u s e r s, d a t a b a s e a d m i n i s t ra t o r sa nd sys t e m de ve lope rs . Se c t ion 3 d i scusse s t he ope n re se a rc h p rob le m s . Se c t ion 4c o n c e n t r a t e s o n t h e n e w i s su e s r ai s e d b y n e x t - g e n e r a t io n p a r a l le l d a t a b a s e s y s te m s .

    2 . A r c h i t e c t u r a l c o n s i d e r a t i o n s

    A p a r a l le l d a t a b a s e s y s te m c a n b e l o o se l y d e f i n e d as a D B M S i m p l e m e n t e d o na t i gh tly c oup le d m ul t i p roc e sso r . Th i s de f in i t i on e xc lude s (d i s t r i bu t e d ) D BM Ssi m p l e m e n t e d o n c o m p u t e r n e t w o r k s f o r t h e y f a c e s p e c i f i c p r o b l e m s s u c h a sg e o g r a p h i c a l d i st r ib u t io n , l o ca l a u t o n o m y , a n d h e t e r o g e n e i t y [ 5 7 ] a n d d o n o tf a c e o t h e r p r o b l e m s d u e t o l a r g e n u m b e r s o f el e m e n t s . H o w e v e r , t h is d e f i n it io n

  • 8/1/2019 Parallel Db Issues

    4/29

    140 VALDURIEZ

    d o e s i n c l u d e m a n y a l t e r n a t i v e s r a n g i n g f r o m t h e s t r a i g h t f o r w a r d p o r t i n g o f a ne x is ti n g R D B M S , w h i c h m a y r e q u i r e o n l y re w r i ti n g th e o p e r a t i n g s y s te m i n t e r f a c erou t ine s , t o a soph i s t i c a t e d c om bina t ion o f pa ra ll e l p roc e ss ing a nd d a t a ba se sys t e mfunc t ion s i n to a ne w ha rdw a re / so f tw a re a rc h i t e c tu re . A s a lw a ys , w e ha ve thet ra d i t i ona l t r a d e -o f f be tw e e n por t a b i l it y ( t o s e ve ra l p l a t fo rm s) a n d e f f i c ie nc y . Ibe l i e ve t he soph i s t i c a t e d a pproa c h i s be t t e r a b l e t o fu l l y e xp lo i t t he oppor tun i t i e so f fe re d by a m ul t i p roc e sso r a t t he e xp e nse o f po r ta b i li ty . In t e re s t i ng ly , t h isg iv e s d i f f e r e n t a d v a n t a g e s t o c o m p u t e r m a n u f a c t u r e r s a n d s o f t w a r e v e n d o r s . I tis t h e r e f o r e i m p o r t a n t t o c h a r a c t e r i z e t h e m a i n p o i n t s i n th e s p a c e o f a l t er n a t i v epa ra l l e l sys t e m a rc h i t e c tu re s . In o rde r t o do so , I w i l l ma ke p re c i se t he pa ra l l e lda t a b a se sys t e m so lu t ion a nd the ne c e ssa ry func t ions . Th i s w ill be u se fu l inc o m p a r i n g t h e t h r e e b a s ic p a r a ll e l d a t a b a s e s y s te m a r c h i t e c t u r e s .

    2.1. Paralle l database system solut ionB e f o r e r e a d i n g a b o u t t h e s o lu t io n , a f ai r q u e s t i o n t h e r e a d e r m a y a s k is: " W h a tis t h e p r o b l e m ? I s t h a t p r o b l e m i m p o r t a n t ? a n d t o w h o m ? " A n s w e r i n gt h e s e q u e s t io n s r e q u i r e s l o o k i n g a t a g lo b a l p i c tu r e o f o u r c o m p u t e r i z e d s o c ie ty .Toda y , i n a c ompe t i t i ve w or ld , e n t e rp r i se s o f a l l k inds use a nd de pe nd on t ime lya v ai la b le , u p - t o - d a t e i n f o r m a t i o n . I n f o r m a t i o n v o l u m e s a r e g r o w i n g 2 5 - 3 5 % p e ry e a r a n d t h e t r a d i t i o n a l t r a n s a c t i o n r a t e h a s b e e n f o r e c a s t t o g r o w b y a f a c t o ro f 1 0 o v e r t h e n e x t f i v e y e a r s - t w i c e t h e c u r r e n t t r e n d i n m a i n f r a m e g r o w t h[29]. In a dd i t ion , t he re i s a l re a dy a n inc re a s ing num be r o f tr a nsa c t ion s a r i s ingf r o m c o m p u t e r s y s t e m s i n b u s i n e s s - t o - b u s i n e s s i n t e r w o r k i n g a n d b y i n t e l l i g e n tt e rmina l s i n t he home , o f f i c e o r f a c to ry .

    The p ro f i l e o f t he t r a nsa c t ion loa d i s a l so c ha ng ing a s de c i s ion -suppor t que r i e s ,t yp i ca l ly c om ple x , a re a dd e d to t he e x i st ing s imple r , l a rge ly c l e r ic a l w o rk loa ds .T h u s , c o m p l e x q u e r i es s u c h a s t h o s e m a c r o - g e n e r a t e d b y d e ci s io n s u p p o r t s y s t e m so r s y s t e m - g e n e r a t e d as i n p r o d u c t i o n c o n t r o l will i n c r e a s e t o d e m a n d s ig n i fi c an tt h r o u g h p u t w i th a c c e p t a b l e r e s p o n s e ti m e s . I n a d d i t io n , v e r y c o m p l e x q u e r i e s o nve ry l a rge da t a ba se s , g e n e ra t e d by sk il le d s t a f f w o rke rs o r e xp e r t sys t ems , m a yh u r t t h r o u g h p u t w h i le d e m a n d i n g g o o d r e sp o n s e t i m e s.

    F r o m a d a t a b a s e p o i n t o f v ie w , t h e p r o b l e m is t o c o m e u p w i t h d a t a b a s ese rve rs t ha t supp or t a ll t he se t ype s o f qu e r i e s e f f i c ie n t ly on poss ib ly ve ry l a rgeo n - l in e d a ta b a s e s. H o w e v e r , t h e i m p r e s si v e s il ic o n t e c h n o l o g y i m p r o v e m e n t sa l o n e c a n n o t k e e p p a c e w i t h t h e s e i n c r ea s i n g r e q u i r e m e n t s . M i c r o p r o c e s s o rp e r f o r m a n c e is n o w i n c re a s in g 50 % p e r y e a r , an d m e m o r y c h ip s a r e i n c r e a s i n gin c a pa c i ty by a fa c to r o f 16 e ve ry s ix ye a rs . RI SC p roc e sso rs t od a y c a n de l ive rb e t w e e n 5 0 a n d 1 0 0 M I P S ( t h e n e w 6 4 b i t D E C A l p h a p r o c e s s o r i s p r e d i c t e d t od e l iv e r 2 00 M ! P S a t c r u is e sp e e d ! ) a t a m u c h l o w e r p r i c e /M I P S t h a n m a i n f r a m eproc e sso rs . Th i s i s i n c on t ra s t t o m uc h s low e r p rogre s s i n d i sk t e c hn o log y w h ic hh a s b e e n i m p r o v i n g b y a f a c t o r o f 2 i n r e s p o n s e t i m e a n d t h r o u g h p u t o v e r t h el a st 10 ye a rs . W i th suc h p rogre s s, t he I /O bo t t l e ne c k w orse n s w i th t ime .

  • 8/1/2019 Parallel Db Issues

    5/29

    OPEN PROBLEMS AND NEW ISSUES 141

    Th e so lu t ion is t he re fo re t o use l a rge -sc a l e pa ra l l e li sm to m a gn i fy t he ra w p ow e ro f i n d iv i d u a l c o m p o n e n t s b y i n te g r a t in g t h e s e in a c o m p l e t e s y s te m a l o n g w i t h t h ea p p r o p r i a t e p a r a l l e l d a t a b a s e s o f t w a r e . U s i n g s t a n d a r d h a r d w a r e c o m p o n e n t s i se s s e n ti a l t o e x p lo i t t h e c o n t i n u in g t e c h n o l o g y i m p r o v e m e n t s w i th m i n i m a l d e la y .T h e n , t h e d a t a b a s e s o f t w a r e c a n e x p l o i t t h e t h r e e f o r m s o f p a r a l l e l i s m i n h e r e n tin da t a - in t e ns ive a pp l i c a ti on w ork loa ds . Interquery pa rallelism e na b le s t he pa ra l l e le x e c u t i o n o f m u l t i p l e q u e r i e s g e n e r a t e d b y c o n c u r r e n t t r a n s a c t i o n s . Intraqueryparallelism m a k e s t h e p a r al le l e x e c u t i o n o f m u l t ip l e , i n d e p e n d e n t o p e r a t i o n s ( e. g.,s e l ec t o p e r a t i o n s ) p o s s ib l e w i t h in t h e s a m e q u e r y . B o t h i n t e r q u e r y a n d i n t r a q u e r ypa ra l l e l i sm c a n be ob t a ine d by us ing data partitioning. Final ly, with intraoperationparallelism, t h e s a m e o p e r a t i o n c a n b e e x e c u t e d as m a n y s u b o p e r a t i o n s u s i n gfunction part i t ioning i n ad d i t io n t o d a t a p a r ti ti o n in g . T h e s e t - o r i e n t e d m o d e o fd a t a b a s e l a n g u a g e s ( e.g ., S Q L ) p r o v id e s m a n y o p p o r t u n i t i e s f o r i n t r a o p e r a t i o np a r a ll e li s m . F o r e x a m p l e , t h e p e r f o r m a n c e o f t h e j o i n o p e r a t i o n c a n b e i n c r e a s e ds igni f icant ly by para l le l i sm [25, 80] .

    2.2. Functional architectureA pa ra l l e l da t a ba se sys t e m a ct s as a server fo r mu l t ip l e client c o m p u t e r s in t h e n o wc o m m o n c l i e n t -s e r v e r o r g a n i z a t io n i n c o m p u t e r n e t w o r k s . T h e c l ie n t t y p ic a ll ye m be d s a pp l i c a ti on -spe c i f ic so f tw a re suc h as g ra ph ic a l i n t e r fa c e s , D B M S f ron t -e n dtoo l s suc h a s 4G Ls , a nd c l i e n t - se rve r i n t e r fa c e so f tw a re . I t c a n run on v i r t ua l lya n y t h i n g f r o m a p e r so n a l c o m p u t e r o r w o r k s t a t i o n to a m a i n f r a m e . T h e p a r a l le ld a t a b a s e s y s t e m s u p p o r t s t h e d a t a b a s e f u n c t i o n s a n d t h e c l i e n t - s e r v e r i n t e r f a c e ,a nd poss ib ly ge n e ra l -pu rpos e func t ions . Th e l a t t e r c a pa b i l it y d i s t ingu i she s ap a r a l l e l d a t a b a s e s y s t e m f r o m a d a t a b a s e m a c h i n e w h i c h i s f u l l y d e d i c a t e d t od a t a b a s e m a n a g e m e n t a n d c a n n o t , f o r i n s t a n c e , r u n a C p r o g r a m w r i t t e n b y au s e r. T o l im i t t h e p o t e n t ia l c o m m u n i c a t i o n o v e r h e a d b e t w e e n c l i en t a n d s e r v e r ,a h i g h - l e v e l p o w e r f u l i n t e r f a c e ( s e t - a t - a - t i m e r a t h e r t h a n r e c o r d - a t - a - t i m e ) t h a te nc oura ge s da t a - in t e ns ive p roc e ss ing by the se rve r i s ne c e ssa ry .T h i s a p p r o a c h n a t u r a l l y e x t e n d s t o t h e m o r e g e n e r a l d i s t r i b u t e d d a t a b a s ea pproa c h w i th mul t i p l e s e rve rs , e a c h a c t i ng a s a l oc a l s i t e i n t he ne tw ork .W h a t i s n e e d e d t h e n i s a n a d d i t i o n a l s o f t w a r e l a y e r a t e a c h s e r v e r t o p r o v i d ed i s tr i b u ti o n t r a n s p a r e n c y . B e c a u s e t h is l a y e r c a n b e c l e ar l y s e p a r a t e d f r o m t h epa ra l l e l da t a b a se m a n a g e m e n t func t ions , I w ill i gnore i t fo r s impl i c it y i n t he re s to f t h e p a p e r .

    Ide a l ly . a pa ra l l e l da t a ba se sys t e m shou ld p rov ide t he fo l l ow ing a dva n ta ge sw i t h a m u c h b e t t e r p r i c e / p e r f o r m a n c e t h a n i ts m a i n f r a m e c o u n t e r p a r t s .High performance. T h i s c a n b e o b t a i n e d t h r o u g h s e v e ra l c o m p l e m e n t a r y s o lu t io n s :da t a ba se -o r i e n t e d ope ra t i ng sys t e m suppor t , pa ra l l e l i sm, op t imiz a t ion , a nd loa db a l an c i n g . H a v i n g t h e o p e r a t i n g s y s te m c o n s t r a i n e d a n d " a w a r e " o f t h e s p e c if icd a t a b a s e r e q u i r e m e n t s ( e .g ., b u f f e r m a n a g e m e n t ) s i m p li fi es t h e i m p l e m e n t a t i o n o f

  • 8/1/2019 Parallel Db Issues

    6/29

    142 VALDURIEZ

    l o w -l e ve l d a t a b a s e f u n c t i o n s a n d t h e r e f o r e d e c r e a s e s th e i r c o s t. F o r i n s t a n c e , t h ec o s t o f a m e s s a g e c a n b e s ig n if ic a n tl y r e d u c e d t o a f e w h u n d r e d o f i n s tr u c t io n s b ys p e c ia l iz i n g t h e c o m m u n i c a t i o n p r o to c o l . T h i s s o lu t io n h a s b e e n e x p l o i t e d in t h ee a r l y d a t a b a s e m a c h i n e s li ke t h e I D M [ 7 6 ] . P a r a ll e li s m c a n i n c r e a s e t h r o u g h p u t( u s in g i n t e r q u e r y p a r a ll e li s m ) a n d d e c r e a s e t r a n s a c t i o n r e s p o n s e t i m e s ( u s in gi n t r a q u e r y a n d in t r a o p e r a t i o n p ar a ll e li sm ) . H o w e v e r , d e c r e a s i n g t h e r e s p o n s et i m e o f a c o m p l e x q u e r y t h r o u g h l a rg e - s ca l e p a ra l le l is m m a y w e ll i n c r e a s e i tst o t a l t i m e ( b y a d d i t i o n a l c o m m u n i c a t i o n ) a n d h u r t t h r o u g h p u t a s a s i d e e f f e c t .T h e r e f o r e , i t i s c r u c i a l t o o p t i m i z e a n d p a r a l l e l i z e q u e r i e s i n o r d e r t o m i n i m i z et h e o v e r h e a d o f p a r a l l e l i s m , e . g . , b y c o n s t r a i n i n g t h e d e g r e e o f p a r a l l e l i s m f o rt he query . Lo ad b a l anc ing is t he ab i l it y o f t he sys t em to d iv ide a g iven w ork loade q u a l l y a m o n g a l l p r o c e s so r s . D e p e n d i n g o n t h e m u l t i p r o c e s s o r a r c h i t e c t u r e , itc a n b e a c h i e v e d b y s ta t ic p h y s ic a l d a t a b a s e d e s i g n o r d y n a m i c a l ly a t r u n - t i m e .High-availabili ty. B e c a u s e a p a r a l l e l d a t a b a s e s y s t e m c o n s i s t s o f m a n y s i m i l a rcom pon en t s , it can exp lo i t da t a r ep l i ca t ion t o inc rea se da t abase ava i lab i li ty . Thu s ,i n t he e ven t o f a d i sk f a i lu re , t he co py o f t he da t a m ay still be ava i l ab l e ono n e o r m o r e d i s k s a t n o a d d i t i o n a l c o s t ( u n l i k e l o g - b a s e d r e c o v e r y ) . H o w e v e r ,r e p l i c a s u p p o r t r e q u i r e s t h e i m p l e m e n t a t i o n o f c o n t r o l p r o t o c o l s t h a t e n f o r c ec o p y c o n s i s t e n c y . T h e m o s t u s e d p r o t o c o l i s R O W A ( r e a d o n e , w r i t e a l l ) w h i c hc o n v e r t s a l o g i c a l r e a d o p e r a t i o n t o a p h y s i c a l r e a d o p e r a t i o n o n a n y o n e o ft he cop i es , bu t a l og ica l wr i t e op e ra t i o n i s t r ans l a t e d i n to phys i ca l wr i t e s on a llcop i es . In a h igh ly pa ra l l e l sy s tem wi th ma ny smal l di sks , t he p ro bab i l i t y o f a d i skf a i l u r e a t a n y t i m e c a n b e h i g h e r ( t h a n in a n e q u i v a le n t m a i n f r a m e ) . T h e r e f o r e ,i t i s e s s en t i a l t ha t a d i sk f a i l u re does no t imba l ance t he l oad , e .g . , by doub l i ngthe l oad on t he ava i l ab l e copy . S o lu t i ons t o t h is p rob l em re qu i re pa r t i t i on ingcop i es i n such a wa y t ha t t hey can a l so be acces sed i n pa ra l l e l [43] .Extensibility. I n a p a r a ll e l e n v i r o n m e n t , a c c o m m o d a t i n g i n c r e a s in g d a t a b a s es i z e s o r i n c r e a s i n g p e r f o r m a n c e d e m a n d s ( e . g . , t h r o u g h p u t ) s h o u l d b e e a s i e r .Ex t ens ib i l it y is t he ab i li ty o f smo o th exp ans ion o f t he sys t em by add ing p roce s s inga n d s t o r a g e p o w e r t o t h e s y s te m . I d e a ll y , t h e p a r a l l e l d a t a b a s e s y s te m s h o u l dd e m o n s t r a t e t w o a d v a n t a g e s [ 2 6 ] : l inear scaleup a n d l inear speedup . L i n e a r s c a l e u pr e f e r s to a s u s t a in e d p e r f o r m a n c e fo r a li n e a r i n c r e a s e i n b o t h d a t a b a s e s iz ea n d p r o c e s s i n g a n d s t o r a g e p o w e r . L i n e a r s p e e d u p r e f e r s t o a l i n e a r in c r e a s ei n p e r f o r m a n c e f o r a c o n s t a n t d a t a b a s e s iz e a n d l i n e a r i n c r e a s e in p r o c e s s i n ga n d s t o r a g e p o w e r . F u r t h e r m o r e , e x t e n d in g t h e s y st e m s h o u l d r e q u i r e m i n i m a lr e o r g a n i z a t i o n o f t h e e x is ti ng d a t a b a s e .

    A s s u m i n g a c l i e n t - s e r v e r a r c h i t e c t u r e , t h e f u n c t i o n s s u p p o r t e d b y a p a r a l l e lda t ab ase sys t em can be d iv ided i n to t h ree subsys t ems mu ch l i ke i n a typ i ca lR D B M S . T h e d i ff e re n c e s, t h o u g h, h a v e t o d o w i t h im p l e m e n t a t i o n o f t h e s efunc t i ons wh ich m us t now dea l w i th pa ra ll e li sm , da t a pa r t i t i on ing a nd r e p l i ca t i on ,a n d d i s t ri b u t e d tr a n s a c t io n s . D e p e n d i n g o n th e a r c h i t e c t u r e , a p r o c e s s o r c a nsupp or t a ll (o r a subse t ) o f t hese subsys t ems . F igu re 1 shows t he a rc h i t ec tu re u s ing

  • 8/1/2019 Parallel Db Issues

    7/29

    OPEN PROBLEMS AND NEW ISSUES 143

    Database Server

    F i g u r e 1 . General architecture of a parallel database system.

    these subsystems named after [9]. Solid double arrows indicate communication,bold double arrows indicate data access, and dotted arrows indicate task creation.Se ss ion manage r . The session manager plays the role of a transaction monitor(like TUXEDO [3]), providing support for client interactions with the server.In particular, it performs the connections and disconnections between the clientprocesses and the two other subsystems. Therefore, it initiates and closes usersessions (which may contain multiple transactions). In case of OLTP sessions,the session manager is able to trigger the execution of pre-loaded transactioncode within data manager modules.Request manager . The request manager receives client requests related to querycompilation and execution. It can access the catalog which holds all meta-information about data and programs. The catalog itself should be managedas a database in the server. Depending on the request, it activates the various

  • 8/1/2019 Parallel Db Issues

    8/29

    l a4 VALDURIEZ

    p r o c l I I - -proc m e m d is k [

    Figure 2. S h a r e d -m e m o r y r c h ite c tu r e .c ompi l a t i on pha se s , t r i gge r s que r y e xe c u t ion a nd r e tu r n s t he r e su l t s a s w e l l a se r r o r c od e s t o t he c li e n t a pp l i c a tion . B e c a u se it supe r v i s e s t r a nsa c t io n e xe c u t iona n d c o m m i t , i t m a y t r ig g e r t h e r e c o v e r y p r o c e d u r e i n c a s e o f t r a n s a c t i o n f a il u r e.T o s p e e d u p q u e r y e x e c u t i o n , i t m a y o p t i m i z e a n d p a r a l l e l i z e t h e q u e r y a tc o m p i l e - t i m e .Data manager. T h e d a t a m a n a g e r p r o v i d e s all t h e l o w -l e v el f u n c t i o n s n e e d e dto r un c ompi l e d que r i e s i n pa r a l l e l , i . e . , d a t a ba se ope r a t ion e xe c u t ion , pa r a l l e lt r a n s a c t io n s u p p o r t , c a c h e m a n a g e m e n t , e tc . I f t h e r e q u e s t m a n a g e r is a b l e t oc o m p i l e d a ta f l o w c o n t ro l , t h e n s y n c h r o n i z at i o n a n d c o m m u n i c a t i o n a m o n g d a t am a n a g e r m o d u l e s is p o s s ib l e . O t h e r w i s e , tr a n s a c t io n c o n t r o l a n d s y n c h r o n i z a t io nm u s t b e d o n e b y a re q u e s t m a n a g e r m o d u l e .

    2.3. Parallel system architecturesA p a r a l l e l s y s t e m r e p r e s e n t s a c o m p r o m i s e i n d e s i g n c h o i c e s i n o r d e r t o p r o v i d et h e a f o r e m e n t i o n e d a d v a n t a g e s w i t h a b e t t e r c o s t / p e r f o r m a n c e . O n e g u id i n gde s ign de c i s ion is t he w a y ha r dw a r e c o m pon e n t s , i .e ., p r oc e s so r s , me m or i e s , a ndd is k s, a r e i n t e r c o n n e c t e d t h r o u g h s o m e f a s t c o m m u n i c a t i o n m e d i u m . P a r a ll e ls y s t e m a r c h i t e c t u r e s r a n g e b e t w e e n t w o e x t r e m e s , t h e shared-memory a n d t h eshared-nothing a r c h i t e c tu r e s , a nd a u se f u l i n t e r me d ia t e po in t i s t he shared-diska rch i tec ture [61] .2.3.1. Shared-memory. I n t h e s h a r e d - m e m o r y a p p r o a c h ( s e e F i g u r e 2 ) , a n y p r o -c e s s o r h as a c c e s s t o a n y m e m o r y m o d u l e o r d i s k u n i t th r o u g h a f a st i n t e r c o n n e c t( e .g . , a h igh - spe e d bus o r a c r o s sba r sw i tc h ) . S e ve r a l ne w m a in f r a m e de s ignss u c h a s t h e I B M 3 0 9 0 o r B u l l ' s D P S 8 , a n d s y m m e t r i c m u l t i p r o c e s s o r s s u c h a sS e q u e n t a n d E n c o r e f o l l o w t h is a p p r o a c h .

    E x a m p l e s o f s h a r e d - m e m o r y p a r a ll e l d a t a b a s e s y s t e m s i n c lu d e X P R S [6 9],D B S 3 [ 9 ] , a n d V o l c a n o [ 36 ], a s w e l l a s p o r t in g s o f m a j o r R D B M S s o n s h a r e d -m e m o r y m u l t i p r o ce s s o r s . I n a s e n se , t h e i m p l e m e n t a t i o n o f D B 2 o n an I B M 3 0 9 0w i th six p r oc e s so r s [ 20 ] w a s t he f ir s t e xa mp le . A l l t he s ha r e d - m e m or y c o m m e r c i a lp r o duc t s t od a y e xp lo i t in t e r que r y pa r a l l e li sm on ly (i.e ., no in t r a que r y pa r a l l e li sm) .

  • 8/1/2019 Parallel Db Issues

    9/29

    OPEN PROBLEMS AND NEW ISSUES 145

    v

    pro(: mem proc mere

    Figure 3 . Shared-disk architecture.

    S h a r e d - m e m o r y h a s t w o st r o n g ad v a n t ag e s : s i m p li ci ty a n d l o a d b a la n c i n g .S inc e m e ta - in f o r m a t ion ( c a ta log ) a nd c on t r o l i n f o r m a t ion ( e .g . , l oc k t a b le ) c a nbe sha r e d by a l l p r oc e sso r s , wr i t ing da ta ba se so f twa r e i s no t ve r y d i f f e r e n t tha nf o r s in g l e - p r o c e s s o r c o m p u t e r s . I n p a rt i cu l a r, i n t e r q u e r y p a r a ll e li s m c o m e s fo rf r ee . I n t r a q u e r y p a r a l le l is m r e q u i r e s s o m e p a r a ll e li z a ti o n b u t re m a i n s r a t h e rs im ple . L oa d ba la nc ing i s e xc e l l e n t s inc e the sys t e m a ss igns t a sks to p r oc e sso r sa t r u n - t i m e b a s e d o n t h e a c t u a l l o a d .

    S ha r e d - m e m or y ha s th r e e p r ob le m s : c os t , l im i t e d e x te ns ib i l i t y , a nd low a va i l -a b i li ty . H igh c o s t is i nc u r r e d by the in t e r c on ne c t w h ic h i s f a i rly c om ple x be c a useo f t h e n e e d t o l in k e a ch p r o c e s s o r t o e a c h m e m o r y m o d u l e o r d is k . W i th f a s t e ra nd f a s t e r p r oc e sso r s ( e ve n wi th la r ge r c a c he s ) , c on f l ic t ing a c c e sse s to the sha r e d -m e m o r y i n c r e a s e ra p i d ly an d d e g r a d e p e r f o r m a n c e [7 4]. T h e r e f o r e , e x t e n s ib i li tyi s l im i t e d to t e ns o f p r oc e sso r s ( 20 on a S e q ue n t on Enc o r e ) . F ina lly , sinc et h e m e m o r y s p a c e i s s h a re d b y a ll p r o c e s s o rs , a m e m o r y f a u l t m a y e f f e c t m o s tp r oc e sso r s the r e by hu r t ing da ta ba se a va il a bi li ty . A so lu t ion i s t o dup le x m e m or ya s in S e quo ia sys t e m s .2.3.2. Shared-disk. I n t h e s h a r e d - d is k a p p r o a c h ( s e e F i g u r e 3 ) , a n y p r o c e s s o rh a s a c c e s s t o a n y d i sk u n i t t h r o u g h t h e i n t e r c o n n e c t b u t e x c l u si v e ( n o n s h a r e d )a c c e ss t o i ts m a i n m e m o r y . T h e n , e a c h p r o c e s s o r c a n a c c es s d a t a b a s e p a g e s o nthe sha r e d d i sk a nd c op y the m in to it s own c a c he . To a vo id c onf li c t ing a c c e sse st o t h e s a m e p a g e s , g l o b a l l o ck i n g a n d p r o t o c o l s fo r th e m a i n t e n a n c e o f c a c h ec o h e r e n c y a r e n e e d e d [ 5 2 ] .

    E x a m p l e s o f sh a r e d - d i sk p a r a ll e l d a t a b a s e s y s t e m s i n c l u d e I B M ' s I M S / V S D a t aS h a r in g p r o d u c t a n d D E C ' s V A X D B M S a n d R d b p r o d u ct s . T h e i m p l e m e n t a t i o no f O R A C L E o n D E C ' s V A X c lu s te r an d N C U B E c o m p u t e r s is a ls o us in g th es h a r e d - d i s k a p p r o a c h s in c e it r e q u i r e s m i n i m a l e x t e n si o n s o f t h e R D B M S k e r n e l .No te tha t a l l t he se sys t e m s e xp lo i t i n t e r que r y pa r a l l e l i sm on ly .

    S ha r e d - d i sk h a s a nu m be r o f a dva n ta ge s : c os t , e x te ns ib i l it y , l oa d ba la nc ing ,a va il a b il it y , a nd e a sy m ig r a t ion f r om u n ip r oc e sso r sys t e m s . Th e c os t o f thein te r c onne c t i s s ign i f i c a n t ly l e s s tha n wi th sha r e d - m e m or y s inc e s t a nda r d bust e c h n o l o g y m a y b e u s e d . G i v e n t h a t e ac h p r o c e s s o r h a s e n o u g h c a c h e m e m o r y ,in t e r f e r e nc e on the sha r e d d i sk c a n be m in im iz e d . Thus , e x te ns ib i l it y c a n beb e t t e r ( h u n d r e d s o f p r o c e s s o r s ). L o a d b a l a n c in g c a n b e a s g o o d a s w i t h s h a r e d -

  • 8/1/2019 Parallel Db Issues

    10/29

    146 VALDURIEZ

    pro me m disk

    r

    proc mem disk

    Figure 4 . Shar ed - no th ing a r ch i tec tu re .

    m e m o r y fo r t h e s a m e r e as o n s. S in c e m e m o r y f a ul ts c a n b e i s o la te d f r o m o t h e rp ro c e ss o r -m e m ory node s , a va il a bi li ty c a n be h ighe r . F ina lly , m ig ra t i ng f ro m ac e n t ra l i z e d sys t e m to sh a re d d i sk is re l a ti ve ly s t r a igh t fo rw a rd s inc e t he da t a ond i s k n e e d n o t b e r e o r g a n i z e d .

    S h a r e d - d i s k s u f fe r s f r o m h i g h e r c o m p l e x i ty a n d p o t e n t ia l p e r f o r m a n c e p r o b l e m s .I t r e qu i re s d i s t r i bu t e d da t a ba se sys t e m pro toc o l s , suc h a s d i s t r i bu t e d loc k ing a ndt w o - p h as e c o m m i t w h i c h ca n b e c o m p l e x [ 5 2 ] . F u r t h e r m o r e , m a i n ta i n in g t h ec o h e r e n c y o f th e c o p ie s c a n i n c u r h ig h c o m m u n i c a t io n o v e r h e a d a m o n g t h enodes . F ina l ly , access to the shared d isk i s a potent ia l bot t leneck.2.3.3. Shared-nothing. I n t h e s h a r e d - n o t h i n g a p p r o a c h ( s e e F i g u r e 4 ) , e a c hproc e sso r ha s e xc lus ive a c c e ss t o i ts ma in m e m ory a nd d i sk un i t( s ) . Th e n , e a c hnode c a n be v i e w e d a s a l oc a l s i t e (w i th i t s ow n da t a ba se a nd so f tw a re ) i n ad i s t r i bu t e d da t a ba se sys t e m. Th e re f o re , mos t so lu t ions de s igne d fo r d i s t r i bu t e dd a t a b a s e s s u c h a s d a t a b a s e f r a g m e n t a t i o n , d i s t r i b u t e d t r a n s a c t i o n m a n a g e m e n ta n d d i s tr i b u te d q u e r y p r o c e s si n g m a y b e r e u s e d .

    E x a m p l e s o f s h a r e d - n o t h i n g p a r a l l e l d a t a b a s e s y s t e m s i n c l u d e t h e T e r a d a t a ' sD B C a n d T a n d e m ' s N o n S t o p S Q L p r o d u c t s a s w e ll as a n u m b e r o f p r o t o t y p e ssuc h a s Bubb a [12], Eds [29] , G a m m a [28] , G ra c e [31], P r i sma [5 ] , a nd A rb re[50] . A l l t he se sys t e ms e xp lo i t bo th i n t e r - a nd in t ra que ry pa ra l l e l i sm.A s de mons t ra t e d by the e x i s t i ng p roduc t s , e . g . , [73 ] , sha re d no th ing ha s t h re em ain v i r tues : cos t , ex tens ib il i ty , and ava i labil ity . T he c os t adv anta ge is the s am ea s fo r sha re d d i sk . By imp le m e n t ing a d i s t r i bu t e d da t a ba se de s ign w h ic h fa vorst h e s m o o t h i n c r e m e n t a l g r o w t h o f t h e s y s t e m b y t h e a d d i t i o n o f n e w n o d e s ,e x t e ns ib i l it y c a n be be t t e r ( t ho usa nd s o f node s ) . For i n s t a nc e , Te ra da t a ' s D B Cc a n a c c o m m o d a t e 10 24 p ro c e s so r s . W i th c a r e f u l p a r t it i o n in g o f t h e d a t a o nmul t i p l e d i sks , l i ne a r spe e dup a nd l i ne a r s c a l e up c ou ld be a c h i e ve d fo r s implew ork loa ds . By re p l ic a t i ng da t a on m ul t i p l e node s , h igh ava i la b i li ty c a n be a l soa c h ie ve d .Sha re d-no th ing su f fe r s a l so f rom h ighe r c omple x i ty , i n a dd i t i on t o l oa d ba l -

    a n c i n g p r o b l e m s . H i g h e r c o m p l e x it y is d u e t o t h e n e c e s s a r y i m p l e m e n t a t i o n o fd i s tr i b u t ed d a t a b a s e f u n c t i o n s a s s u m i n g l a rg e n u m b e r s o f n o d e s. L o a d b a l a n c i n gis m or e d i f fi c u lt t o a c h i e ve be c a u se i t r e l ie s on th e e f fe c t i ve ne ss o f da t a ba sep a r t it i o n in g f o r t h e q u e r y w o r k l o a d s . U n l i k e s h a r e d - m e m o r y a n d s h a r e d - d i s k ,

  • 8/1/2019 Parallel Db Issues

    11/29

    OPEN PROBLEMS AND NEW ISSUES 147

    l o a d b a l a n c i n g i s d e c i d e d b a s e d o n d a t a l o c a t i o n a n d n o t t h e a c t u a l l o a d o ft h e s y s te m . F u r t h e r m o r e , t h e a d d i t io n o f n e w n o d e s in t h e s y s te m p r e s u m a b l yr e qu i r e s r e o r ga n iz ing the da t a ba se t o de a l w i th t he l oa d ba l a nc ing i s sue s .2.3.4. Comparisons. L e t u s b r ie f ly c o m p a r e t h e s e a l t e rn a t i v e d e s i g n a p p r o a c h e sba se d on the i r po t e n t i a l a dva n ta ge s ( h igh - pe r f o r ma nc e , h igh - a va i l a b i l i t y , a ndextens ib i l i ty ) . I t is f a i r to say tha t , f o r a sma l l conf ig ura t io n (e .g . , l e ss than2 0 p r o c e s s o r s ) , s h a r e d - m e m o r y c a n p r o v i d e t h e h i g h e st p e r f o r m a n c e b e c a u s e o fb e t t e r l o a d b a l an c i ng . S h a r e d - d i s k a n d s h a r e d -n o t h i n g , h o w e v e r , o u t p e r f o r msha r e d m e m or y in t e r m s o f ava i l ab i l it y a nd e x t e ns ib il it y . F ina lly , sha r e d - no th ingc a n s ca l e u p t o h ig h e r n u m b e r s o f p r o c e s s o r s t h a n s h a r e d m e m o r y a n d s h a r e ddisk.

    T hus , i t a pp e a r s t h a t sha r e d - n o th ing is t he on ly c ho ic e f o r h igh - e nd sy s t e m s( e.g ., r eq u i ri n g m o r e t h a n t h o u s a n d s o f T P S o f t h e T P C - B b e n c h m a r k ) . H o w e v e rf o r s m a l l - t o - m e d i u m s y s te m s ( e. g., r e q u ir i n g l e s s t h a n 1 0 00 T P S ) , s h a r e d - m e m o r ya nd sha r e d - d i sk a r e i n t e r e s t i ng a l t e r na t ive s [ 10 ] .

    3 . O p e n r e s e a r c h p r o b l e m sA s w e h a v e s e e n i n t h e p r e v i o u s s e c ti o n , t h e r e a r e r e p r e s e n t a t i v e p r o d u c t s f o r e a c hp a r a l le l s y s te m a rc h i t e ct u r e . O n e a s p e c t c o m m o n t o t h e m o s t re c e n t p r o d u c t si s t h e s i n g l e f o c u s o n S Q L a n d r e l a t i o n a l d a t a b a s e s f o r b u s i n e s s d a t a p r o c e s s i n ga p p l ic a t io n s . A l t h o u g h t e c h n o l o g y t r a n s fe r f ro m r e s e a r c h i n t o p r o d u c t s h a s b e e nimpr e s s ive , t he r e a r e s till r e se a r c h p r ob le m s w h ic h h a m pe r t o f u lly e xp lo i t t her a nge o f pos s ib i l it i e s o f f e r e d by m u l t i p r oc e s s o r c om pu te r s . I n th i s s e c t ion , Id i s cu s s t h e m a j o r o p e n p r o b l e m s w h ic h h a v e to d o w i th a r c h i t e c t u re s , d a t ap l a c e m e n t , pa r a l l e l da t a b a se l a ngua ge s , a nd pa r a ll e l que r y p r oc e s s ing .

    3.1. Architectural aspectsA l t h o u g h t h e r e s p e c t i v e a d v a n t a g e s a n d l im i t a ti o n s o f ea c h a r c h i te c t u r a l m o d e l f o rd a t a m a n a g e m e n t a r e n o w w e ll u n d e r s t o o d , t h is is n o t s o fo r h y b r id a r c h i t e c tu r e s .A n e x a m p l e o f h y b r id a r c h it e c tu r e is o n e w h e r e s o m e d i sk o r m e m o r y m o d u l e sa r e s h a r e d a n d s o m e o t h e r s a r e n o t. F u r t h e r m o r e , t h e r e a r e i m p o r t a n t p r o b l e m sw i th r e sp e c t t o t he u se o f d i sk a r r a ys [60] , ope r a t ing sy s t e m suppo r t , a ndi n t e r n e t w o r k i n g o f d a t a b a s e s e rv e rs . A f in a l r e l a te d c o n s i d e r a t i o n w h i c h w ed i s c u s s b e l o w i s t h e n e e d f o r c o m p r e h e n s i v e b e n c h m a r k s .

    M o s t o f t h e r e s e a r c h p r o b l e m s h a v e b e e n i n v e s t i g a te d a s s u m i n g a g iv e n a rc h i-t e c t u r a l p a r a d i g m , t y p i ca l ly s h a r e d - m e m o r y o r s h a r e d - n o th i n g . T h i s a s s u m p t i o nis ge ne r a l ly m o t iva t e d by a s tr ong f a i t h o f t he de s igne r s i n t he c hose n a r c h i t e c -tu r e a nd the i r w i ll t o c on c e n t r a t e on so f tw a r e so lu t ions ( pos s ib ly a s a re a c t io n tot h e fa i lu r e o f h a r d w a r e - o r i e n t e d D B M s ) . F u r t h e r m o r e , t h is a p p r o a c h s i m p l if ie s

  • 8/1/2019 Parallel Db Issues

    12/29

    148 VALDURIEZ

    i m p l e m e n t a t i o n s o m e w h a t . A s h a r e d - m e m o r y d e s ig n c a n s im p l y e x t e n d a s in g l e-p r o c e s s o r D B M S d e s ig n w i th r u n - t i m e p a r a l le l iz a t io n [ 6 9 ] w h i l e a s h a r e d - n o t h i n gd e s i g n c a n r e u s e a n d e x t e n d d i s t r i b u t e d d a t a b a s e t e c h n i q u e s .H o w e v e r , s o m e h y b r i d p a r a ll e l s y s te m a r c h it e c t u r e s m a y b e b e t t e r . G i v e nt h e l im i t e d e x t en s ib i li ty o f s h a r e d - m e m o r y a n d t h e l o a d b a l a n c in g p r o b l e m o fs h a r e d - n o t h i n g , a n i n t e re s t in g c o m p r o m i s e is to h a v e a s h a r e d - n o t h i n g s y s t em i nw h i c h e a c h n o d e is i ts e lf a s h a r e d - m e m o r y m u l t i p r o c e ss o r . H a v i n g a f e w p o w e r f u ln o d e s i n a s h a r e d - n o t h i n g a r c h i t e c t u r e a ls o s im p l if ie s t h e d a t a p l a c e m e n t p r o b l e m .T h e n t h e q u e s t i o n i s w h e t h e r t o b e e x t e n s i b l e a n d s c a l a b l e t o a l i m i t e d n u m b e ro f v e r y p o w e r fu l s h a r e d - m e m o r y n o d e s o r t o a h i g h e r n u m b e r o f le ss p o w e r f u lnode s . Th e E nc or e 93 se ri e s fo l low s the f i rs t a pp roa c h by a l low ing se ve ra ls h a r e d - m e m o r y n o d e s w i t h u p t o 3 2 p ro c e s s o r s t o b e c o n n e c t e d t h r o u g h a h i g h -s p e e d n e t w o r k . T e r a d a t a 's P 9 0 [ 1 7 ] ( p o t e n ti a l s u c ce s s o r o f t h e D B C ) f o ll o w st h e s e c o n d a p p r o a c h b y t a r g e t i n g t h e i n t e r c o n n e c t i o n o f u p t o 5 1 2 n o d e s , e a c hb e i n g a s h a r e d - m e m o r y f o u r - p r o c e s s o r b o a r d , u s in g a f a st t r e e - s t r u c t u r e d b u s( t h e B Y n e t ) .

    I n a d d i t i o n , c o n s i d e r i n g t h e t r e n d s i n s u p e r c o m p u t e r a r c h i t e ct u r e s , w e c a nima g ine pa ra ll e l da t a ba s e sys t e ms w i th p roc e sso rs o f d i f fe re n t spe e ds (a nd p r i c e s ) .O n e a d v a n t a g e o f s u c h a r c h i t e ct u r e s is th a t t h e i n h e r e n t l y s e q u e n t i a l t as k s ( w h i c hh u r t th r o u g h p u t ) c o u l d b e s e n t t o t h e f a s t er p r o c e s so r s . F o r i n s t an c e , t h er e q u e s t m a n a g e r c o m p o n e n t w h i c h e s se n ti a ll y d o e s m u l t i p as s c o m p i l a t io n a n do p t i m i z a t i o n is a g o o d c a n d i d a t e f o r t h e f a s t e r p r o c e ss o r s . M o r e e x p e r i m e n t a ls t u d y i s n e e d e d t o d e c i d e t h e b e s t a r c h i t e c t u r e a n d c o n f i g u r a t i o n f o r d i f f e r e n tw ork loa ds . T he w ork p io ne e re d in [10 , 74] is a goo d s t a r t ing po in t .

    D i s k a r r a y s a r e b e i n g c o n s i d e r e d a s a p r o m i s i n g a p p r o a c h t o h i g h - p e r f o r m a n c eI /O a rc h i t e c tu re s . A d i sk a r ra y c ons i s t s o f a l a rge numbe r o f sma l l , i ne xpe ns ived i sk s a n d a h i g h - b a n d w i d t h in t e r c o n n e c t ( o f h u n d r e d s o f m e g a b y t e s p e r s e c o n d )f o r d i s k - m e m o r y t r an s f e r s. T h e r e f o r e , i t c a n p r o v id e v e r y h i g h t h r o u g h p u t b ye xp lo i ti ng I /O pa ra l l e li sm a nd thus re d uc e the I /O bo t t l e ne c k . I t c a n a lso p rov ideh igh a vai la b i li ty t h ro ug h re p li c a t ion . D a ta p l a c e m e nt t e c hn ique s de s igne d fo rsha r e d-n o th in g sys te ms (pa r t it i on ing) c a n be re u se d fo r d i sk a r ra ys [84] . I f d i ska r ra ys a re suc c e ss fu l (w h ic h i s ye t t o be p rove n) , a n i n t e re s t i ng i s sue i s t he i ri n t e g ra t i on in a pa ra l l e l da t a ba se sys t e m. F ro m th e ou t s ide , a d isk a r ra y is a b l a c kbox w i th i t s ow n c om ple x so f tw a re ( som e d i sk a r ra y c on t ro l l e r s c ons i s t o f 1 mi l li onl in e s o f C c o d e ) . W h i le i t m a y b e e a s y t o u s e d i s k ar r a y s w i t h s h a r e d m e m o r yor sha re d d i sk, i t is a ha rd , i f no t hope l e ss , p ro b le m fo r sha re d no th ing . As h a r e d - n o t h i n g d e s i g n c a n b e v ie w e d a s a d is k a r r a y w i t h m e m o r y a n d p r o c e s s in gp o w e r a t t a c h e d t o e a c h d is k. T h e r e f o r e , t h e r e is a p o t e n t i a l d e s ig n m i s m a t c hb e t w e e n t h e tw o . H o w e v e r , T e r a d a t a 's P 90 i n t e n d s t o u s e a n u m b e r o f d i ska r ra y s , e a c h a t t a c h e d t o t w o fo u r - p r o c e s s o r n o d e s . M o r e r e s e a r c h i s d e f i n it e lyn e e d e d t o u n d e r s t a n d t h e p o t e n t i a l a d v a n t a g e s o f d i s k a r r a y s i n s h a r e d - n o t h i n gsys t e ms .A s fo r a ny de d ic a t e d sys t e m, spe ci fi c ope ra t i ng sys t e m sup por t fo r pa ra l l e l da t am a n a g e m e n t c a n b e v e r y c o s t- e ff e ct iv e . T w o a p p r o a c h e s c a n b e a p p l i ed . T h e

  • 8/1/2019 Parallel Db Issues

    13/29

    OPEN PROBLEMS AND NEW ISSUES 149

    f i r s t o n e c r e a t e s a b r a n d n e w d e d i c a t e d o p e r a t i n g s y s t e m a l m o s t f r o m s c r a t c h ,e .g ., t h e B u b b a o p e r a t i n g s y s te m , w h i c h i m p l e m e n t s a s in g l e- le v e l s to r e w h e r ea ll da ta a r e un i f o r m ly r e p r e se n te d in a v i r tua l a ddr e s s spa c e [22]. A l tho ug ht h is a p p r o a c h c a n l e a d t o th e b e s t p e r f o r m a n c e , i t r e s tr i c ts t h e u s e o f t h ep a r a ll e l s y s t e m t o d a t a b a s e o p e r a t i o n s a n d c a n n o t , f o r i n st a n ce , r u n C o r C o b o lp r o g r a m s . T h e s e c o n d a p p r o a c h t r ie s t o ca p i ta l iz e o n m o d e r n , o p e r a t i n g s y s t e mm ic r oke r n e l s suc h a s C hor u s [62] o r M a c h [44], a nd e x te nd s i t i n a wa y tha tc a n p r ov ide e f fi c i en t sup por t f o r da ta ba s e - o r i e n te d f unc t ions . I n th i s c a se , t hed a t a b a s e - o r i e n t e d o p e r a t i n g s y s t e m is j u s t a s u b s y s t e m as U N I X c a n b e . T h u s ,i t is m o r e o p e n t o s u p p o r t n o n d a t a b a s e a p p l i ca t io n s a s w e ll .

    I f pa r a l l e l da ta se r ve r s be c o m e p r e va le n t , i t is no t d i f f ic u l t t o se e a n e nv i r o nm e n tw h e r e m a n y o f t h e m a r e p l a c e d o n a b a c k b o n e n e t w o r k . T h i s g i ve s r is e t od i s t r ibu te d sys t e m s c ons i s t ing o f c lus t e r s o f p r oc e sso r s [ 37 ]. A n in t e r e s t ingc on c e r n in suc h a n e nv i r on m e n t i s i n t e r ne twor k ing . S pe c if i ca l ly , t he e xe c u t iono f d a t a b a s e q u e r i e s w h i c h s p a n m u l ti p le , a n d p o s s i b l y h e t e r o g e n e o u s , c l u s te r sc r e a t e s a t l e a st t h e p r o b l e m s o f d i s t ri b u t e d m u l t i d a t a b a s e s y s te m s . H o w e v e r ,t h e r e a r e t h e a d d i t io n a l p r o b l e m s th a t t h e q u e r i e s h a v e t o b e o p t i m i z e d n o t o n l yf o r e xe c u t ion in pa r a l le l on a c lus t e r o f s e r ve rs , bu t a l so f o r e xe c u t ion a c r oss an e t w o r k .

    U l t i m a t e l y , t h e c o m p a r i s o n o f a l te r n a t iv e p a r a ll e l d a t a b a s e s y s t e m a r c h i t e c t u r e swill r e qu i r e spe c if i c be nc h m a r k s . B e n c hm a r k ing i s t he on ly im p a r t i a l w a y o fa s s es s in g t h e p e r f o r m a n c e / p r i c e o f a s y s t em f o r a g i v en w o r k l o a d . T h e r e a r en o w s t a n d a r d b e n c h m a r k s f o r D B M S a n d t r a n s a c t i o n p r o c e s s i n g s y s t e m s [ 3 8 ]whic h s t e m f r om m a jo r r e se a r c h e f f o r t s , e . g . , t he TP C [ 4 ] , Wisc ons in [ 11 ] , o rE n g i n e e ri n g d a t a b a s e b e n c h m a r k s [1 8]. H o w e v e r , m o s t b e n c h m a r k s m e a s u r e a ni s o l a te d a s p e c t o f a s y s te m . T P C m e a s u r e s t h e t h r o u g h p u t o f a w o r k l o a d o fs i m p l e ( d e b i t - c r e d i t ) t r a n s a c t i o n s w h e r e a s t h e W i s c o n s i n b e n c h m a r k m e a s u r e st h e r e s p o n s e t i m e o f c o m p l e x ( d e c is i o n - s u p p o r t ) q u e r i e s . A S a A P [7 5], h o w e v e r ,d o e s i n c l u d e m i x e d w o r k l o a d s i n c lu d i n g s i m p l e a n d c o m p l e x t r a n s a c ti o n s a s w e l la s u t i l it i e s ( e .g . , da t a ba s e loa d ) . F o r pa r a l l e l da ta ba se sys t e m s , m or e w or k i sn e e d e d t o c o m e u p w i t h b e n c h m a r k s w h i c h ca n s tr e ss li n e a r s p e e d u p a n d l i n e a rs c a l e u p u n d e r m i x e d w o r k l o a d s i n cl u d in g s i m p l e a n d c o m p l e x tr a n s a c t i o n s a sw e l l a s b a t c h p r o g r a m s .

    3.2. Data placementI n a p a r a l l e l d a t a b a s e s y s t e m , p r o p e r d a t a p l a c e m e n t i s e s s e n t i a l f o r l o a d b a l a n c -in g. I d e al ly , i n t e r f e r e n c e b e t w e e n c o n c u r r e n t , p a r a ll e l o p e r a t i o n s c a n b e a v o i d e db y h a vi ng e a c h o p e r a t io n t o w o r k o n an i n d e p e n d e n t d a ta s e t. T h e s e i n d e p e n d e n td a t a s e t s c a n b e o b t a i n e d b y declustering ( ho r i z on ta l pa r t i t i on ing ) o f the r e l a t ionsb a s e d o n a f u n c t i o n ( h a s h f u n c t i o n o r r a n g e i n d e x ) a p p l i e d t o s o m e p l a c e m e n t a t -t r ibu te ( s ) , a nd a l loc a t ing e a c h pa r t i t i on on a d i f f e r e n t d i sk . S im i la r to ho r i z on ta lf r a g m e n t a t i o n i n d is t r ib u t e d d a t a b a s e s , d e c l u s t er i n g i s u s e f u l t o o b t a i n i n t e r q u e r y

  • 8/1/2019 Parallel Db Issues

    14/29

    150 VALDURIEZ

    p a r a l l e l i s m , b y h a v i n g i n d e p e n d e n t q u e r i e s w o r k i n g o n d i f f e r e n t p a r t i t i o n s , a n din t ra que ry pa ra l l e l i sm, by ha v ing a que ry ' s ope ra t i ons w ork ing on d i f fe re n t pa r t i -t ions . A s fo r c lus te r ing , de c lus t e r ing c a n be s ing l e -a t tr i bu t e o r mul t i a t t r i bu t e . Int h e l a t te r c a s e [ 3 5] , a n e x a c t m a t c h q u e r y r e q u i r i n g t h e e q u a l it y o f m u l t i a tt r i b u t e sc a n b e p r o c e s s e d b y a s in g le n o d e w i t h o u t c o m m u n i c a t i o n . T h e c h o i c e b e t w e e nha sh ing o r r a ng e inde x fo r pa r t i t ion ing is a de s ign is sue : ha sh ing inc u rs le s ss t o r a g e o v e r h e a d b u t p r o v i d e s d i r e c t s u p p o r t f o r e x a c t - m a t c h q u e r i e s o n l y , w h i l er a n g e i n d e x c a n a l so s u p p o r t r a n g e q u e r i e s. I n it ia ll y p r o p o s e d f o r s h a r e d - n o t h i n gs y s te m s , d e c l u s t e r i n g h a s b e e n s h o w n t o b e u s e fu l f o r s h a r e d - m e m o r y d e s ig n s a sw e l l , by re duc ing me mory a c c e ss c onf l i c t s [9 ] .

    Fu l l de c lus te r ing , w h e re b y e a c h re l a t i on i s pa r t i t i on e d a c ross a ll t he n ode s ,c a u s e s p r o b l e m s f o r s m a ll r e la t io n s o r s y st em s w i t h la r g e n u m b e r s o f n o d e s . Abe t t e r so lu t ion i s variable declustering w h e r e e a c h r e l a t i o n i s s t o r e d o n a c e r t a i nn u m b e r o f n o d e s a s a f u n c t i o n o f t h e r e l a t i o n s i z e a n d a c c e s s f r e q u e n c y [ 2 1 ] .T h i s c a n b e c o m b i n e d w i t h m u l t i r e l a t i o n c l u s t e r i n g t o a v o i d t h e c o m m u n i c a t i o no v e r h e a d o f b i n a r y o p e r a t i o n s .

    W h e n t h e c r i t e r i a u s e d f o r d a t a p l a c e m e n t c h a n g e t o t h e e x t e n t t h a t l o a db a l a n c in g d e g r a d e s s i g ni fi ca n tl y, d y n a m i c r e o r g a n i z a ti o n s h o u l d b e p e r f o r m e d .A n i m p o r t a n t i ss u e is t o p e r f o r m s u c h d y n a m i c r e o r g a n i z a t i o n o n - l i n e ( w i t h o u ts topp ing the i nc om ing o f t r a nsa c t ions ) a nd e f f ic i e n tly ( t h ro ug h pa ra l le l i sm) . Byc on t ra s t , e x i s t i ng da t a ba se sys t e ms pe r fo rm s t a t i c r e o rga n iz a t ion fo r da t a ba set u n i n g [ 6 6 ] . F u r t h e r m o r e , r e o r g a n i z a t i o n s h o u l d r e m a i n t r a n s p a r e n t t o c o m p i l e dp r o g r a m s t h a t r u n o n t h e p a r a l l e l s y s t e m . I n p a r t i c u l a r , p r o g r a m s s h o u l d n o t b er e c o m p i l e d b e c a u s e o f r e o r g a n i z a ti o n . T h e r e f o r e , t h e c o m p i l e d p r o g r a m s s h o u l dr e m a i n i n d e p e n d e n t o f d a t a l o c at io n . T h i s im p l i es t h a t t h e o p t i m i z e r d o e s n o tk n o w t h e a c t u a l d i sk n o d e s w h e r e a r e l a t io n i s s t o r e d o r w h e r e a n o p e r a t i o n w il la c tua l ly t a ke p l a c e . Th e se t o f nod e s w he r e a r e l a t i on i s s t o re d , w he n a c e r t a inope ra t i on i s t o be e xe c u te d , i s c a l l e d i t s h o m e . S im i la rl y, t h e s e t o f n o d e s w h e r et h e o p e r a t i o n w ill b e e x e c u t e d is c a ll e d t h e h o m e o f t h e o p e r a t i o n . H o w e v e r ,t h e o p t i m i z e r n e e d s a b s t r ac t k n o w l e d g e o f t h e h o m e s ( e.g ., re l a t i o n R is h a s h e do n A o v e r 2 0 n o d e s ) a n d t h e r u n - t i m e s y s t e m m a k e s t h e a s s o c i a t i o n b e t w e e n t h eh o m e a n d t h e a c t u a l n o d e s .

    A s e r io u s p r o b l e m i n d a t a p l a c e m e n t is d e a li n g w i t h s k e w e d d a t a d i s tr i b u ti o n sw h i c h m a y l e a d t o n o n u n i f o r m p a r ti ti o n i n g a n d h u r t lo a d b a l a n ci n g . H y b r i da r c h i t e c t u r e s w i t h n o d e s o f d i f f e r e n t m e m o r y a n d p r o c e s s i n g p o w e r c a n b ee x p l o i te d u se f u ll y h e r e . A n o t h e r s o l u ti o n is t o t r e a t n o n u n i f o r m p a r t it i o n sa ppro pr i a t e ly , e. g. , by fu r th e r de c lus t e r ing l a rge pa r t it i ons . T he se pa ra t i onbe tw e e n log i c a l a nd phys i c a l node s i s a l so use fu l s i nc e a l og i c a l node ma yc or re spond to se ve ra l phys i c a l node s .

    A f ina l com pl ica t in g fac to r is da ta repl ica t ion for h igh ava i labi li ty . T he na ives o l u t io n i s t o m a i n t a in t w o c o p i e s o f t h e s a m e d a t a , a p r i m a r y a n d a b a c k u pc o p y , o n t w o s e p a r a t e n o d e s . H o w e v e r , in c a se o f a n o d e f a i l u re , t h e l o a d o f t h en o d e h a v in g t h e c o p y m a y d o u b l e , t h e r e b y h u r t i n g l o a d b a la n c in g . T o a v o id t h isp rob le m, se ve ra l h igh-a va i l a b i l i t y da t a re p l i c a t i on s t ra t e g i e s ha ve be e n p ropose d

  • 8/1/2019 Parallel Db Issues

    15/29

    O P E N P R O B L E M S A N D N E W IS SU E S 1 5 1

    independentFigure 5 . Ty pes of parallelism.

    pipeline l l l l 1fan-out fan-in

    a n d r e c e n t l y c o m p a r e d [ 43 ]. A n i n t e r e s t in g s o l u t i o n i s T e r a d a t a ' s i n t e r l e a v e dd e c l u s t e r in g w h i c h d e c l u st e rs t h e b a c k u p c o p y o n a n u m b e r o f n o d e s . I n f a il u rem o d e , t h e l o a d o f t h e p r i m a r y c o p y g e t s b a l a n c e d a m o n g t h e b a c k u p c o p y n o d e s .H o w e v e r , r e c o n s t r u c t i n g th e p r i m a r y c o p y fr o m i ts s e p a r a te b a c k u p c o p i e s m a yb e c o s t ly . I n n o r m a l m o d e , m a i n t a i n i n g c o p y c o n s i s t e n c y m a y a ls o b e c o s t ly . Ab e t t e r s o l u t io n is G a m m a ' s c h a i n e d d e c l u s te r i n g w h i c h s t o re s t h e p r i m a r y a n db a c k u p c o p y o n t w o a d j a c e n t n o d e s . I n fa i lu r e m o d e , t h e l o a d o f t h e f a il e d n o d ea n d t h e b a c k u p n o d e s a r e b a l a n c e d a m o n g a ll r e m a i n i n g n o d e s b y u s i n g b o t hp r i m a r y a n d b a c k u p c o p y n o d e s. I n a d d i t io n , m a i n t a i n i n g c o p y c o n s is t e n c y isc h e a p e r . A n o p e n i ss u e r e m a i n s to p e r f o r m d a t a p l a c e m e n t ta k i n g i n t o a c c o u n td a t a r e p l i c a t io n . S i m i l a r t o t h e f r a g m e n t a l l o c a t i o n in d i s t r i b u t e d d a t a b a s e s , t h i ss h o u l d b e c o n s i d e r e d a n o p t i m i z a t i o n p r o b l e m .3 .3 . Para l l e l da taba se languagesT h e r e a r e v a r i o u s f o r m s o f p a r a l le l i sm . F i g u r e 5 s h o w s f o u r s i m p l e k i n d s o fp a r a l l e l i s m g r a p h ic a l ly .

    A f e w k e y i d e a s c a n b e d e r i v e d f r o m a p p l y i n g t h e s e p a r a l l e l i s m s t r u c t u r e s t op r o b l e m s i n i n t e n s i v e d a t a p r o c e s s i n g :

    D i v i d i n g p r o b l e m s is t h e e s s e n c e o f p a r a l le l i sm . D i v i s i o n i n t o i n d e p e n d e n ts u b p r o b l e m s g i v es i n d e p e n d e n t p a r al le l is m , w h i le d i v i d in g in t o i n c r e m e n t a lc o m p u t a t i o n s gi ve s p i p e l i n e pa r a ll e li sm . S e t m a p p i n g s n a t u ra l ly a d a p t t oi n d e p e n d e n t p a r a ll e li s m ( t h e s a m e i n s tr u c t io n i s i n d e p e n d e n t l y a p p l ie d t oe a c h e l e m e n t o f a se t) w h i l e s t r e a m m a p p i n g s a d a p t t o p i p e l i n e p a r a ll e li s m( s o m e i n s t r u c t i o n s a r e s u c ce s s iv e l y a p p l i e d t o e a c h e l e m e n t o f a s t re a m ) .T h u s , s e t s a n d s t r e a m s s u g g e s t a d i v i d e - a n d - c o n q u e r f o r m a t f o r s p e c i f y i n gm a p p i n g s w h i c h i s i m p l ic i tl y a l so a f o r m a t f o r s p e c i f y in g p a r a ll e l is m . D i v i d e - a n d - c o n q u e r c o m p u t a t i o n s c a n b e r e p r e s e n t e d b y c o m b i n i n g t h e s et y p e s o f p a r a l le l i s m . " D i v i d i n g " a p r o b l e m i s r e p r e s e n t e d b y f a n - o u t n o d e si n th e g r a p h , w h i l e c o n q u e r i n g g a t h e r s r e s u l t s i n to a s e t ( w i t h i n d e p e n -d e n t p a r a l le l i s m ) , a s t r e a m ( w i th p i p e l i n e p a r a ll e l is m ) , a n d / o r a n a g g r e g a t e

  • 8/1/2019 Parallel Db Issues

    16/29

    152 VALDURIEZ

    ( w i t h f a n - i n p a r a l le l i sm ) . T h u s , d i v i d e - a n d - c o n q u e r s o l u t io n s o f p r o b l e m sn a t u r a l l y c a p t u r e t h e s e k i n d s o f p a r a l le l i sm . R e l a t i o n a l a l g e b r a o p e r a t o r s c a n o f t e n b e n a t u r a l l y e x p r e s s e d a s d i v i d e - a n d -c o n q u e r c o m p u t a t i o n s .

    T h e s e i d e a s r a i s e h o p e f o r a p a r a l l e l d a t a p r o c e s s i n g s y s t e m t h a t r e s t s u p o nd i v i d e - a n d - c o n q u e r t e c h n i q u e s. H o w e v e r , s u c h a sy s te m m u s t d e a l w i t h se v e r a lt e c h n i c a l i s s u e s t o b e v i a b l e .

    A f ir st p r o b l e m i s t h a t t h e r e l a t i o n a l m o d e l o ff e rs n o w a y t o t a l k a b o u t o r d e ra m o n g d a t a ( e .g ., s o r t e d r e l a ti o n s , o r o r d e r e d t u p l e s ) . R e l a t i o n a l la n g u a g e sa r e t h e r e f o r e i n a d e q u a t e f o r s p ec i fy i ng " s t r e a m p r o c e s si n g ," i n w h i c h o r d e r e ds e q u e n c e s o f d a t a a r e p r o c e s s e d s e q u e n t ia l l y [5 8]. H e n c e , s t r e a m s c a n n o t b ee x p l o i t e d t o s p e c i f y p i p e l i n e p a r a l l e li s m f o l l o w i n g a d a t a - p a r a l l e l i s m p a r a d i g m .P i p e l i n e p a r a l l e l i s m i s g e n e r a l l y u s e d , t r a n s p a r e n t l y t o t h e u s e r , i n l o w e r - l e v e ll a n g u a g e s i m p l e m e n t i n g r e l a t io n a l a l g e b r a ( e .g ., P L E R A [1 9] o r P F A D [4 0 ]).

    A s e c o n d p r o b l e m is t h a t p a r a l l e l d a t a p r o c e s s i n g r e q u i r e s e f f e c t iv e d a t a p a r -t i t i o n i n g c a p a b i l i t ie s . T y p i ca l ly , a re l a t i o n a l q u e r y ( s e l e c t - p r o j e c t - j o i n e x p r e s s i o n )i s t r a n s l a t e d i n t o a l o w - l e v e l f o r m o f r e l a t i o n a l a l g e b r a w i t h e x p l i c i t ( l o w - l e v e l )p a r a l l e l c o n s tr u c t s . D a t a p a r t i t i o n i n g is u s e d t o s p r e a d t h e c o m p u t a t i o n o f r e la -t i o n a l a l g e b r a o p e r a t o r s a m o n g p a ra l l e l p ro c e s s o r s . T h i s p a r t i t i o n i n g i s t y p ic a l lyd e f i n e d d u r i n g t h e p h y s i c a l d a t a b a s e d e s i g n a n d t h e n e x p l o i t e d b y a c o m p i l e r .M o s t o f t h e t i m e , a p a r t i ti o n e d c o m p u t a t i o n r e q u i r e s t h a t p r o c e s s o r s e x c h a n g ei n t e r m e d i a t e r e s u l t s i n o r d e r t o c o m p u t e t h e f i n a l r e s u l t .

    I d ea l ly , d a t a p a r t i t io n i n g m u s t b e e x p r e ss ib l e b y th e p r o g r a m m e r o r t h e c o m p i l e rw i t h i n a p a r a l le l d a t a b a s e l a n g u a g e . T h i s is e s s e n t ia l t o a u t o m a t i c a l l y e x t r a c tp a r a l l e l is m a n d l e a d t o e f fi c ie n t i m p l e m e n t a t i o n s o n p a ra l l e l d a t a b a s e s y s te m s .S p e c i f y i n g p a r a l le l c o m p u t a t i o n s o v e r re l a t i o n s o f t e n r e q u i r e s s p e c i fy i n g h o w d a t ap a r t i t i o n i n g ( f a n - o u t p a r a l l e l i s m ) w i l l b e d o n e a n d h o w d i s t r i b u t e d r e s u l t s w i l lb e c o l l e c te d ( fa n - in p a ra l le l is m ) . D a t a b a s e m o d e l s h a v e b e e n d e v e l o p e d b e f o r et h a t p e r m i t e x p re s s io n o f b o t h o r d e r i n g a m o n g t u p l e s a n d d a t a p a r t i ti o n i n g . F o re x a m p l e , t h e F A D l a n g u a g e o f B u b b a h a s o p e r a t o r s t h a t e x p re s s v a r io u s f o r m so f f a n - o u t a n d f a n - i n p a r a l l e li s m [2 3]. F A D is a st r o n g ly t y p e d s e t - o r i e n t e dd a t a b a s e l a n g u a g e b a s e d o n f u n c t io n a l p r o g r a m m i n g a n d re l a t io n a l a l g eb r a . I tp r o v i d e s a fi x e d s e t o f h i g h e r - o r d e r f u n c t i o n s t o a g g r e g a t e f u n c t i o n s , l i k e t h e p u m pp a r a m e t r i z e d a g g r e g a t e o p e r a t o r a n d t h e g r o u p i n g o p e r a t o r . T h e pu m p o p e r a t o ra p p l ie s a u n a r y f u n c t i o n t o e a c h e l e m e n t o f a s et , p r o d u c i n g a n i n t e r m e d i a t e s e tw h i c h i s t h e n " r e d u c e d " t o a s i n gl e d a t u m u s i n g a b i n a ry f u n c t i o n t h a t c o m b i n e st h e i n t e r m e d i a t e s e t e l e m e n t s . I n d e e d , p um p n a t u r a ll y e x p re s s e s a s p e c i a l c a s eo f f a n - o u t a n d f a n - in p a r al le l is m . A t t h e s a m e t im e , t h e g r o u p o p e r a t o r p e r m i t ss e t p a r t i t i o n i n g .

    T h e S V P m o d e l [5 9] g o e s o n e s t e p fu r t h e r i n a ll o w i n g s e ts , s t r e a m s a n dp a r a ll e li s m t o b e c a p t u r e d i n a u n i f i e d fr a m e w o r k f o r m a l i z in g d i v i d e - a n d - c o n q u e rm a p p i n g s . S V P m o d e l s c o l l e c ti o n s , w h o s e s p e c i a li z a t io n l e a d s t o s e t s o r s t r e a m s ,a s s e r ie s - p a ra l l e l g r a p h s w h i c h e a s e e x p r e s s in g p a r a l le l d a t a p r o c e s s i n g . A n

  • 8/1/2019 Parallel Db Issues

    17/29

    OPEN PROBLEM S AND NEW ISSUES 153

    im po r ta n t c l as s o f que r i e s c a l le d transducers g e n e r a l i z e s a g g r e g a t e o p e r a t i o n s a n ds e t o r s tr e a m o p e r a t i o n s . T h e y l e a d t o h ig h -l ev e l sp e c i fi c a ti o n o f i n d e p e n d e n ta nd p ipe l ine pa r a ll e li sm . Thus , S V P is a poss ib le f o r m a l f ou nd a t ion f o r f u r th e rr e se a r c h in pa r a l l e l da ta p r ogr a m m ing l a ngua ge s .

    3.4. Parallel query processingP a r a l l e l que r y p r oc e ss ing r e f e r s to the a u tom a t i c t r a ns l a t ion o f a que r y , e xp r e s se dwi th a c e n t r a l i z e d e xe c u t ion m ode l in m ind , in to a n e f f i c i e n t e xe c u t ion p la n , a ndi ts pa r a l l e l e xe c u t ion . S uc h t r a ns l a t ion ha s two im p or ta n t a spe c t s . F i r s t , t het r a n s la t i o n m u s t b e a c o r r e c t tr a n s f o r m a t i o n o f t h e i n p u t q u e r y s o t h a t t h ee xe c u t ion p la n a c tua lly p r od uc e s the e xpe c te d r e su lt . The f o r m a l ba s i s f o r th i st a sk is t r a ns f o r m a t ion r u le s a s soc ia t e d wi th r e l a t iona l a lge b r a ope r a to r s . S e c on d ,t h e e x e c u t i o n p l a n m u s t b e optimal i n tha t i t m in im iz e s a c os t f unc t ion tha tc a p tu r e s r e sour c e c ons um pt ion . Th i s r e qu i r e s inve s t iga ting e qu iva le n t a lt e r na t ivep r o c e s s i n g t r e e s in o r d e r t o s e l e c t t h e b e s t o n e . T h e s e t a s k s a re m o r e o r l es sd i f f i c u l t d e p e n d i n g o n w h e t h e r t h e y a r e p e r f o r m e d a t c o m p i l e - t i m e o r r u n - t i m e .F ina l ly , t he e xe c u t ion p la n m us t be loa de d f o r e xe c u t ion in the pa r a l l e l sys t e ma n d r u n w i th c o n c u r r e n t t r an s a c t io n s . W e c an d i v id e th e p r o c e s s i n g o f a q u e r y inth r e e s te ps : op t im iz a t ion , pa r a l l e l i z a tion a nd e xe c u t ion . Ea c h s t e p f a c e s spe c i fi ci s sue s tha t I a dd r e s s be low.D e c l u s t e r e d d a t a p l a c e m e n t i s t h e b a s is fo r t h e p a r al l el e x e c u t i o n o f d a t a b a s eq u e r i es . T h e r e f o r e , m u c h w o r k h a s b e e n d e v o t e d t o t h e d e si g n o f p a r a ll e la l g o r it h m s w h i c h e x p lo i t s u c h p l a c e m e n t . H o w e v e r , m o r e w o r k is still n e e d e dt o h a n d l e s k e w e d d a t a [ 85 ]. B y d i v id i ng e a c h s e t -o r i e n t e d o p e r a t i o n in a S I M Df a sh ion , m uc h in t r a ope r a t ion pa r a l l el i sm c a n be e xp lo it e d . Th e ba s i c p r inc ip leis "to e xe c u te w he r e th e da ta i s, " t ha t i s , e xp lo i t da ta p l a c e m e n t a s m u c h a sp o s s i b l e b y s e n d i n g o p e r a t i o n s t o th e i r d a t a. H o w e v e r , i t is s o m e t i m e s b e t t e rt o d y n a m i c a l ly re a r r a n g e a re l a ti o n t o i n c r e as e p a r a l le l is m i f t h e o v e r h e a d o fr e o r ga n iz a t ion is l e ss tha n i ts be ne f i t . Th i s is m or e l ike ly to a pp ly to in t e r m e d ia ter e l a t ions th a n poss ib ly l a r ge ba se r e l a tions .

    Th e p a r a l l e l iz a t ion o f an op e r a t io n is ba se d on a g loba l a nd a loc a l a lgo r i thm .T h e g l o b a l a lg o r i th m d e c o m p o s e s t h e o p e r a t i o n i n to l o ca l o n e s , to w h i c h a n o t h e ra lgo r i thm is a pp l i e d . F o r in s t a nc e , g ive n a r e l a t ion de c lus t e r e d a c r oss n nod e s ,t h e o p e r a t i o n S e l e c t ( R ) i s e q u i v a l e n t t o th e u n i o n o f n o p e r a t i o n s S e l e c t ( R i ) , w i t hi = 1 , . . . , n , w h e r e e a c h i n d iv i d ua l o p e r a t i o n c a n b e d o n e i n p a r al le l . H o w e v e r ,i f t h e s e l e c t p r e d i c a t e i n v o l v es t h e p l a c e m e n t a t t ri b u t e s , f e w e r n o d e s t h a n n( ide a l ly one ) ne e d be invo lve d .

    P a r a l l e l i z ing b ina r y ope r a t ions i s m or e invo lve d s inc e , f o r op t im a l pa r a l l e l i sm ,i t r e q u i r e s e a c h o p e r a n d r e l a ti o n t o b e d e c l u s t e r e d t h e s a m e w a y . F o r e x a m p l e ,i f R a n d S a r e b o t h d e c l u s t e r e d a c r os s n n o d e s u s i n g th e s a m e f u n c t i o n o nt h e jo i n a t t ri b u t e , t h e o p e r a t i o n J o i n ( R , S ) is e q u i v a l e n t t o t h e u n i o n o f npa r a l l e l op e r a t io ns J o in ( R i , S i ), w i th i = 1 , . . . , n . P a r a l le l j o in a lgo r i thm s in [25,

  • 8/1/2019 Parallel Db Issues

    18/29

    154 VALDURIEZ

    67 , 80 ] a t t e mpt t o ma ke suc h c ond i t i on a va i l a b l e by re o rga n iz ing the re l a t i onsi f n e c e s s ar y . H a s h i n g h a s b e c a m e t h e m a j o r t e c h n i q u e f o r p a r a l le l iz i n g b i n a ryo p e r a t i o n s s u c h a s j o in , u n i o n , a n d d i f f e r e n c e . O r d e r - p r e s e r v i n g h a s h i n g c a na ls o b e u s e d f o r p a r a ll e l s o rt in g . H o w e v e r , d e t e r m i n i n g u n i f o r m r a n g e s o fa t t r i bu t e va lue s t o be ha nd le d by e a c h p roc e sso r i s c r i t i c a l fo r l oa d ba l a nc ing[46] . Sa m pl ing looks l ike a p rom is ing so lu t ion fo r pa ra l l e l so r ti ng a nd , m or ege ne ra l l y , t o de a l w i th ske w e d da t a [27] .

    G i v e n t h e e x i s t e n c e o f p a r a l l e l a l g o r i t h m s , t h e i m p o r t a n c e o f r u n - t i m e p a -ra me te r s , suc h a s p roc e sso rs l oa d , r a i se s t he i s sue o f s t a t i c ve r sus dyna micp a r a ll e li z a ti o n . I n c e n t r a l iz e d D B M S , q u e r y o p t i m i z a ti o n i s p e r f o r m e d p r i o r t othe e xe c u t ion o f t he que ry , he n c e c a l l ed s ta t ic , fo r tw o re a son s . F i r s t, i t c a n bed o n e w i t h i n a c o m p i l e r , t h e r e b y r e d u c i n g r u n - t i m e o p t i m i z a ti o n c o st . S e c o n d ,i t c a n b e t t e r e x p l o i t k n o w l e d g e r e g a r d i n g p h y s i c a l s c h e m a a n d d a t a p l a c e m e n t .In pa ra l l e l da t a ba se sys t e ms , s t a t i c op t imiz a t ion c a n s t i l l be be ne f i c i a l bu t i sm a d e d i ff ic u lt b y a l a r g e r s e a rc h s p a c e , a m o r e c o m p l e x c o st m o d e l a n d p o s si b lyh i g h o p t i m i z a t io n c o s t. T h e s e a r c h s p a c e is la r g e r b e c a u s e o f t h e w i d e r a n g eof pa ra l le l e xe c u t ion s t ra te g i e s . For i n s t a nc e , bushy p roc e ss ing t r e e s sho u ld bec o n s i d e r e d f o r t h e y c a n p r o v i d e a h i g h e r d e g r e e o f p a r a ll e li s m t h a n l i n e a r t r ee s .

    T h e c o s t m o d e l p r o v i d e s t h e n e c e s s a r y a b s t r a c t i o n o f t h e p a r a l l e l e x e c u t i o ns y s t e m i n t e r m s o f a c c e s s m e t h o d c o s t f u n c t i o n s , a n d a n a b s t r a c t i o n o f t h ed a t a b a s e i n te r m s o f ph y s ic a l s c h e m a in f o r m a t i o n a n d r e l a t e d s t at is ti cs . A n u m b e rof impor t a n t r e s t r i c t i ons a re o f t e n a s soc i a t e d w i th t he c os t mode l , l imi t i ng thee f f e ct i v en e s s o f o p t im i z a t io n . I t is a w e i g h t e d c o m b i n a t i o n o f c o s t c o m p o n e n t ss u c h a s I / O , C P U , a n d c o m m u n i c a t i o n a n d c a n c a p t u r e e i t h e r r e s p o n s e t i m e( R T ) o r t o t a l t i m e ( T T ) . A l t h o u g h T T o p t i m i z a t i o n m a y i n c r e a s e t h r o u g h p u tb y m i n i m i z i n g r e s o u r c e c o n s u m p t i o n , R T o p t i m i z a t io n m a y w e l l h u r t t h r o u g h p u tb e c a u s e o f t h e o v e r h e a d o f p a r al le l is m . A p o t e n t ia l ly b en e f i ci a l d i r e c t io n o fr e s e a r c h is to a p p ly m u l ti p le q u e r y o p t i m i z a ti o n [ 6 3 ] w h e r e b y a s e t o f i m p o r t a n tq u e r i e s f r o m t h e s a m e w o r k l o a d a r e o p t i m i z e d t o g e t h e r . T h i s w o u l d p r o v i d eo p p o r t u n i t i e s f o r l o a d b a la n c i n g a n d f o r e x p lo i ti n g c o m m o n i n t e r m e d i a t e r e s u lt s .O t h e r p r o b l e m s a r e t h e a c c u r a cy o f t h e c o s t f u n c ti o n s f o r p a r a ll e l a l g o r i th m sa n d t h e i m p a c t o f u p d a t e q u e r i e s o n th r o u g h p u t . C a r e f u l a na ly s is o f t h e c o s tfunc t ions shou ld p rov ide i nsigh ts fo r de t e r m in ing use fu l he ur i s t i c s t o c u t do w nt h e n u m b e r o f a l t e r n a t i v e e x e c u t i o n p l a n s .

    T h e r e is a n e c e s s a r y t r a d e - o f f b e t w e e n o p t i m i z a t i o n c o s t a n d q u a l it y o f th eg e n e r a t e d e x e c u t i o n p l an s . H i g h o p t i m i z a t io n c o st s a r e u n a c c e p t a b l e f o r a dho c que r i e s w h ic h a re e xe c u te d on ly onc e . Th e re fo r e , it is c r i ti c a l t o s tudythe a pp l i c a t i on o f e ff i c ie n t s e a rc h s t ra t e g ie s t ha t a vo id t he e xha us t ive se a rc ha p p r o a c h . M o r e i m p o r t a n t , a d i f f e r e n t s e a r c h s t ra t e g y s h o u l d b e u s e d d e p e n d i n go n t h e k i n d o f q u e r y ( s i m p l e v e r s u s c o m p l e x ) a n d t h e a p p l i c a t i o n r e q u i r e m e n t s(a d ho c ve rsus re pe t i ti ve ) . Th i s r e qu i re s suppo r t fo r c on t ro l l a b l e s e a rc h s t ra t e g i e s[48] . A n in t e re s t i ng o the r so lu t ion i s t o pe r fo rm op t imiz a t ion i t s e l f i n pa ra l l e l .

    S t a t i c op t imiz a t ion c a n be fo l l ow e d by s t a t i c pa ra l l e l i z a t i on , w h ic h t r a ns l a t e sthe op t ima l e xe c u t ion p l a n in to a pa ra l l e l p rog ra m . Th i s a ppr oa c h is use d in

  • 8/1/2019 Parallel Db Issues

    19/29

    OPEN PROBLEMS AND NEW ISSUES 155

    B u b b a a n d D B S 3 , a n d re l ie s o n a p a r a ll e l d a t a b a s e p r o g r a m m i n g l a n g u a g e . F o ri n s ta n c e , D B S 3 ' s P L E R A [ 1 9] s u p p o r t s o p e r a t o r s f o r l o c a l e x e c u t i o n , d a t a t r a n s f e ra n d e x e c u t i o n c o n tr o l . T h i s a p p r o a c h a ll ow s d e c e n t r a l i z e d c o n t r o l o f t h e p a r a l l e lp r o g r a m a n d o f f e r s c o n t r o l o p t im i z a t i o n o p p o r t u n i ti e s . H o w e v e r , t o a c h i e v e lo a db a l a n c in g , t h e r e a r e s o m e d e c is io n s w h i c h s h o u l d b e m a d e a t r u n - t i m e , e .g .,a l l o c a ti o n o f p h y s ic a l p r o c e s so r s . G e n e r a t i n g c o d e t o m a k e s u c h d e c i s i o n s is n o te a s y . F u r t h e r m o r e , a s d a t a b a s e l a n g u a g e s g e t i n c r ea s i n g ly p o w e r f u l , w e n e e dm o r e c o m p l e x r u l e s f o r p e r f o r m i n g c o r r e c t t r a n s f o r m a t i o n s f r o m c e n t r a l i z e d t op a r a l l e l p r o g r a m s .

    D y n a m i c p a r a l le l iz a t io n i s u s e d i n X P R S t o s e l e c t t h e o p t i m a l d e g r e e o fp a r a l le l is m f o r t h e o p e r a t i o n s b a s e d o n t h e a c t u a l r u n - t i m e l o a d o f t h e s y s te m .T h i s a p p r o a c h is f a ir l y s im p l e . O p t i m i z a t io n i s d o n e b y a c e n t r a l i z e d q u e r yo p t i m i z e r a n d t h e s e q u e n t i a l e x e c u t i o n p l a n is p a r a l le l iz e d a t r u n - t i m e . T h u s ,e x c e l l e n t l o a d b a l a n c i n g c a n b e a c h i e v e d . H o w e v e r , p o t e n ti a l ly b e t t e r e x e c u t i o np l a n s , e . g . , b u s h y t r e e s , a r e d e f a c t o i g n o r e d b y t h e c e n t r a l i z e d o p t i m i z e r .M o r e w o r k is n e e d e d t o b e t t e r c o m b i n e th e a d v a n t ag e s o f st at ic a n d d y n a m i cpara l l e l i za t i on .

    P a r a l l e l e x e c u t i o n o f ( c o m p i l e d ) q u e r i e s h a s t o d e a l w i t h t h e p r o b l e m s o ft r a n s a c t i o n , i n i t i a t i o n a n d t r a n s a c t i o n s c h e d u l i n g . T r a n s a c t i o n t e r m i n a t i o n f a c e sthe i s sues o f d i s t r i bu t ed t r ansac t i ons , i.e ., t he cos t o f t he c om m i t and r ep l i cap ro toco l s . T ransa c t i on i n i t ia t i on invo lves l oad ing co de an d s t a r t i ng -up p roces se s .T h i s f u n c t i o n i s t r i c k i e r i n s h a r e d n o t h i n g s i n c e i t r e q u i r e s c o d e t o b e s h i p p e dacros s nodes . In [2 , 39] , s eve ra l ac t i va t ion m ech an i s m s a re p ro po sed a ndc o m p a r e d . F o r a d h o c q u e r ie s , p ig g y b a c k in g c o d e f r a g m e n t s w i t h t h e d a t as h i p p e d o r c a l l b a c k f o r t h e c o d e a r e u s e f u l . F o r p r e c o m p i l