Data Structures for Text Sequences

  • Upload
    gsbabil

  • View
    235

  • Download
    0

Embed Size (px)

Citation preview

  • 8/10/2019 Data Structures for Text Sequences

    1/29

    D a t a S t r u c t u r e s f o r T e x t S e q u e n c e s

    C h a r l e s C r o w l e y

    U n i v e r s i t y o f N e w M e x i c o

    J u n e 1 0 , 1 9 9 8

    A b s t r a c t

    T h e d a t a s t r u c t u r e u s e d o t m a i n t a i n t h e s e q u e n c e o f c h a r a c t e r s i s a n i m p o r t a n t p a r t o f a t e x t

    e d i t o r . T h i s p a p e r i n v e s t i g a t e s a n d e v a l u a t e s t h e r a n g e o f p o s s i b l e d a t a s t r u c t u r e s f o r t e x t

    s e q u e n c e s . T h e A D T i n t e r f a c e t o t h e t e x t s e q u e n c e c o m p o n e n t o f a t e x t e d i t o r i s e x a m i n e d .

    S i x c o m m o n s e q u e n c e d a t a s t r u c t u r e s ( a r r a y , g a p , l i s t , l i n e p o i n t e r s , x e d s i z e b u e r s a n d p i e c e

    t a b l e s ) a r e e x a m i n e d a n d t h e n a g e n e r a l m o d e l o f s e q u e n c e d a t a s t r u c t u r e s t h a t e n c o m p a s s e s

    a l l s i x s t r u c t u r e s i s p r e s e n t e d . T h e p i e c e t a b l e m e t h o d i s e x p l a i n e d i n d e t a i l a n d i t s a d v a n t a g e s

    a r e p r e s e n t e d . T h e d e s i g n s p a c e o f s e q u e n c e d a t a s t r u c t u r e s i s e x a m i n e d a n d s e v e r a l v a r i a t i o n s

    o n t h e o n e s l i s t e d a b o v e a r e p r e s e n t e d . T h e s e s e q u e n c e d a t a s t r u c t u r e s a r e c o m p a r e d e x p e r i -

    m e n t a l l y a n d e v a l u a t e d b a s e d o n a n u m b e r o f c r i t e r i a . T h e e x p e r i m e n t a l c o m p a r i s o n i s d o n e b y

    i m p l e m e n t i n g e a c h d a t a s t r u c t u r e i n a n e d i t i n g s i m u l a t o r a n d t e s t i n g i t u s i n g a s y n t h e t i c l o a d

    o f m a n y t h o u s a n d s o f e d i t s . W e a l s o r e p o r t o n e x p e r i m e n t s o n t h e s e n s t i v i t y o f t h e r e s u l t s t o

    v a r i a t i o n s i n t h e p a r a m e t e r s u s e d t o g e n e r a t e t h e s y n t h e t i c e d i t i n g l o a d .

    1 I n t r o d u c t i o n

    T h e c e n t r a l d a t a s t r u c t u r e i n a t e x t e d i t o r i s t h e o n e t h a t m a n a g e s t h e s e q u e n c e o f c h a r a c t e r s t h a t

    r e p r e s e n t s t h e c u r r e n t s t a t e o f t h e l e t h a t i s b e i n g e d i t e d . E v e r y t e x t e d i t o r r e q u i r e s s u c h a d a t a

    s t r u c t u r e b u t b o o k s o n d a t a s t r u c t u r e s d o n o t c o v e r d a t a s t r u c t u r e s f o r t e x t s e q u e n c e s . A r t i c l e s o n

    t h e d e s i g n o f t e x t e d i t o r s o f t e n d i s c u s s t h e d a t a s t r u c t u r e t h e y u s e 1 , 3 , 6 , 8 , 1 1 , 1 2 ] b u t t h e y d o

    n o t c o v e r t h e a r e a i n a g e n e r a l w a y . T h i s a r t i c l e i s c o n c e r n e d w i t h s u c h d a t a s t r u c t u r e s .

    F i g u r e 1 s h o w s w h e r e s e q u e n c e d a t a s t r u c t u r e s t i n w i t h o t h e r d a t a s t r u c t u r e s . S o m e o r d e r e d

    s e t s a r e o r d e r e d b y s o m e t h i n g i n t r i n s i c i n t h e i t e m s i n t h e s e t s ( e . g . , t h e v a l u e o f a n i n t e g e r , t h e

    l e x i c o g r a p h i c p o s i t i o n o f a s t r i n g ) a n d t h e p o s i t i o n o f a n i n s e r t e d i t e m d e p e n d s o n i t s v a l u e a n d

    t h e v a l u e s o f t h e i t e m s a l r e a d y i n t h e s e t . S u c h d a t a s t r u c t u r e s a r e m a i n l y c o n c e r n e d w i t h f a s t

    s e a r c h i n g . D a t a s t r u c t u r e s f o r t h i s t y p e o f o r d e r e d s e t h a v e b e e n s t u d i e d e x t e n s i v e l y .

    T h e o t h e r p o s s i b i l i t y i s f o r t h e o r d e r t o b e d e t e r m i n e d b y w h e r e t h e i t e m s a r e p l a c e d w h e n t h e y a r e

    i n s e r t e d i n t o t h e s e t . I f i n s e r t a n d d e l e t e i s r e s t r i c t e d t o t h e t w o e n d s o f t h e o r d e r i n g t h e n y o u h a v e

    a d e q u e . F o r d e q u e s , t h e t w o b a s i c d a t a s t r u c t u r e s a r e a n a r r a y ( u s e d c i r c u l a r l y ) a n d a l i n k e d l i s t .

    N o t h i n g b e y o n d t h i s i s n e c e s s a r y d u e t o t h e s i m p l i c i t y o f t h e A D T i n t e r f a c e t o d e q u e s . I f y o u c a n

    i n s e r t a n d d e l e t e i t e m s f r o m a n y w h e r e i n t h e o r d e r i n g y o u h a v e a s e q u e n c e . A n i m p o r t a n t s u b c l a s s

    A u t h o r ' s a d d r e s s : C o m p u t e r S c i e n c e D e p a r t m e n t , U n i v e r s i t y o f N e w M e x i c o , A l b u q u e r q u e , N e w M e x i c o 8 7 1 3 1 ,

    o c e : 5 0 5 - 2 7 7 - 5 4 4 6 , m e s s a g e s : 5 0 5 - 2 7 7 - 3 1 1 2 , f a x : 5 0 5 - 2 7 7 - 0 8 1 3 , e m a i l : c r o w l e y @ u n m v a x . c s . u n m . e d u

    1

  • 8/10/2019 Data Structures for Text Sequences

    2/29

    Linked

    List

    Arra y G a p P iece

    tables

    Ordered sets

    (with inserts,

    deletes a nd lookups)

    Ordered bywhere inserted

    In sert /delete

    at ends only

    (Deque)

    Unrestricted

    insert /delet e

    (Sequence)

    Ordered byi tem at tr ibutes

    Tree H ea p H a sh

    table. . .

    Abstract

    da ta t ype

    D a t a

    structure

    Linked

    List

    Array

    Fixed size

    buffers

    Line

    spans

    F i g u r e 1 : O r d e r e d s e t s

    i s s e q u e n c e s w h e r e r e a d i n g a n i t e m i n t h e s e q u e n c e ( b y p o s i t i o n n u m b e r ) i s e x t r e m e l y l o c a l i z e d .

    T h i s i s t h e c a s e f o r t e x t e d i t o r s a n d i t i s t h i s s u b c l a s s t h a t i s e x a m i n e d i n t h i s p a p e r .

    A l i n k e d l i s t a n d a n a r r a y a r e t h e t w o o b v i o u s d a t a s t r u c t u r e s f o r a s e q u e n c e . N e i t h e r i s s u i t a b l e

    f o r a g e n e r a l p u r p o s e t e x t e d i t o r ( a l i n k e d l i s t t a k e s u p t o o m u c h m e m o r y a n d a n a r r a y i s t o o s l o w

    b e c a u s e i t r e q u i r e s t o o m u c h d a t a m o v e m e n t ) b u t t h e y p r o v i d e u s e f u l b a s e c a s e s o n w h i c h t o b u i l d

    m o r e c o m p l e x s e q u e n c e d a t a s t r u c t u r e s . T h e g a p m e t h o d i s a s i m p l e e x t e n s i o n o f a n a r r a y , i t i s

    s i m p l y a n a r r a y w i t h a g a p i n t h e m i d d l e w h e r e c h a r a c t e r s a r e i n s e r t e d a n d d e l e t e d . M a n y t e x t

    e d i t o r s u s e t h e g a p m e t h o d s i n c e i t i s s i m p l e a n d q u i t e e c i e n t b u t t h e d e m a n d s o n a m o d e r n t e x t

    e d i t o r ( m u l t i p l e l e s , v e r y l a r g e l e s , s t r u c t u r e d t e x t , s o p h i s t i c a t e d u n d o , v i r t u a l m e m o r y , e t c . )

    e n c o u r a g e t h e i n v e s t i g a t i o n o f m o r e c o m p l i c a t e d d a t a s t r u c t u r e s w h i c h m i g h t h a n d l e t h e s e t h i n g s

    m o r e e e c t i v e l y .

    T h e m o r e s o p h i s t i c a t e d s e q u e n c e d a t a s t r u c t u r e s k e e p t h e s e q u e n c e a s a r e c u r s i v e s e q u e n c e o f s p a n s

    o f t e x t . T h e l i n e s p a n m e t h o d k e e p s e a c h l i n e t o g e t h e r a n d k e e p s a n a r r a y o r a l i n k e d l i s t o f l i n e

    p o i n t e r s . T h e x e d b u e r m e t h o d k e e p s a l i n k e d l i s t o f x e d s i z e b u e r s e a c h o f w h i c h i s p a r t i a l l y

    f u l l o f t e x t f r o m t h e s e q u e n c e . B o t h t h e l i n e s p a n m e t h o d a n d t h e x e d b u e r m e t h o d h a v e b e e n

    u s e d f o r m a n y t e x t e d i t o r s .

    A l e s s c o m m o n l y u s e d m e t h o d i s t h e p i e c e t a b l e m e t h o d w h i c h k e e p s t h e t e x t a s a s e q u e n c e o f

    \ p i e c e s " o f t e x t f r o m e i t h e r t h e o r i g i n a l l e a n d a n \ a d d e d t e x t " l e . T h i s m e t h o d h a s m a n y

    a d v a n t a g e s a n d t h e s e w i l l b e c o m e c l e a r a s t h e m e t h o d s a r e p r e s e n t e d i n d e t a i l a n d a n a l y z e d . A

    m a j o r p u r p o s e o f t h i s p a p e r i s t o d e s c r i b e t h e p i e c e t a b l e m e t h o d a n d e x p l a i n w h y i t i s a g o o d d a t a

    s t r u c t u r e f o r t e x t s e q u e n c e s .

    2

  • 8/10/2019 Data Structures for Text Sequences

    3/29

    L o o k i n g a t m e t h o d s i n d e t a i l s u g g e s t s a g e n e r a l m o d e l o f s e q u e n c e d a t a s t r u c t u r e s t h a t s u b s u m e s

    t h e m a l l . B a s e d o n e x a m i n a t i o n o f t h i s g e n e r a l m o d e l I w i l l p r o p o s e s e v e r a l n e w s e q u e n c e d a t a

    s t r u c t u r e s t h a t d o n o t a p p e a r t o h a v e b e e n t r i e d b e f o r e .

    I t i s d i c u l t t o a n a l y z e t h e s e a l g o r i t h m s m a t h e m a t i c a l l y s o a n e x p e r i m e n t a l a p p r o a c h w a s t a k e n . I

    h a v e i m p l e m e n t e d a t e x t e d i t o r s i m u l a t o r a n d a n u m b e r o f s e q u e n c e d a t a s t r u c t u r e s . U s i n g t h i s a s

    a n e x p e r i m e n t a l t e x t b e d I h a v e c o m p a r e d t h e p e r f o r m a n c e o f e a c h o f t h e s e s e q u e n c e d a t a s t r u c t u r e s

    u n d e r a v a r i e t y o f c o n d i t i o n s . B a s e d o n t h e s e e x p e r i m e n t s a n d o t h e r c o n s i d e r a t i o n s I c o n c l u d e w i t h

    r e c o m m e n d a t i o n s o n w h i c h s e q u e n c e d a t a s t r u c t u r e s a r e b e s t i n v a r i o u s s i t u a t i o n s . I n a l m o s t a l l

    c a s e s , e i t h e r t h e g a p m e t h o d o r t h e p i e c e t a b l e m e t h o d i s t h e b e s t d a t a s t r u c t u r e .

    2 S e q u e n c e I n t e r f a c e s

    I t i s u s e f u l t o s t a r t o u t w i t h a d e n i t i o n o f a s e q u e n c e a n d t h e i n t e r f a c e t o i t . S i n c e t h e m o r e

    s o p h i s t i c a t e d t e x t s e q u e n c e d a t a s t r u c t u r e s a r e r e c u r s i v e i n t h a t t h e y r e q u i r e a c o m p o n e n t d a t a

    s t r u c t u r e t h a t m a i n t a i n s a s e q u e n c e o f p o i n t e r s , I w i l l f o r m u l a t e t h e s e q u e n c e o f a g e n e r a l s e q u e n c e

    o f \ i t e m s " r a t h e r t h a n a s a s e q u e n c e o f c h a r a c t e r s . T h i s s u p p o r t s d i s c u s s i o n o f t h e r e c u r s i v e

    s e q u e n c e d a t a s t r u c t u r e s b e t t e r .

    2 . 1 T h e S e q u e n c e A b s t r a c t D a t a T y p e

    A t e x t e d i t o r m a i n t a i n s a s e q u e n c e o f c h a r a c t e r s , b y i m p l e m e n t i n g s o m e v a r i a n t o f t h e a b s t r a c t

    d a t e t y p e S e q u e n c e . O n e d e n i t i o n o f t h e S e q u e n c e a b s t r a c t d a t a t y p e i s :

    D o m a i n s :

    I t e m | t h e d a t a t y p e t h a t t h i s i s a s e q u e n c e o f ( i n m o s t c a s e s i t w i l l b e a n A S C I I c h a r a c t e r ) .

    S e q u e n c e | a n o r d e r e d s e t o f I t e m s .

    P o s i t i o n | a n i n d e x i n t o t h e S e q u e n c e w h i c h i d e n t i e s t h e I t e m s ( i n t h i s c a s e i t w i l l b e

    a n a t u r a l n u m b e r f r o m 0 t o t h e l e n g t h o f t h e S e q u e n c e m i n u s o n e ) .

    S y n t a x :

    E m p t y : ! S e q u e n c e

    I n s e r t : S e q u e n c e P o s i t i o n I t e m ! S e q u e n c e

    D e l e t e : S e q u e n c e P o s i t i o n ! S e q u e n c e

    I t e m A t : S e q u e n c e P o s i t i o n ! I t e m f E n d O f F i l e g

    T y p e s :

    s : S e q u e n c e

    i : I t e m

    3

  • 8/10/2019 Data Structures for Text Sequences

    4/29

    p , p

    1

    , p

    2

    : P o s i t i o n

    A x i o m s :

    1 . D e l e t e ( E m p t y p ) = E m p t y

    2 . D e l e t e ( I n s e r t ( s p

    1

    i ) p

    2

    ) =

    i f p

    1

    < p

    2

    t h e n I n s e r t ( D e l e t e ( s p

    2

    ; 1 ) p

    1

    i )

    i f p

    1

    = p

    2

    t h e n s

    i f p

    1

    > p

    2

    t h e n I n s e r t ( D e l e t e ( s p

    2

    ) p

    1

    ; 1 i )

    3 . I t e m A t ( E m p t y p ) = E n d O f F i l e

    4 . I t e m A t ( I n s e r t ( s p

    1

    i ) p

    2

    ) =

    i f p

    1

    < p

    2

    t h e n I t e m A t ( s p

    2

    ; 1 )

    i f p

    1

    = p

    2

    t h e n i

    i f p

    1

    > p

    2

    t h e n I t e m A t ( s p

    2

    )

    T h e d e n i t i o n o f a S e q u e n c e i s r e l a t i v e l y s i m p l e . A x i o m 1 s a y s t h a t d e l e t i n g f r o m a n E m p t y

    S e q u e n c e i s a n o - o p . T h i s c o u l d b e c o n s i d e r e d a n e r r o r . A x i o m 2 a l l o w s t h e r e d u c t i o n o f a

    S e q u e n c e o f I n s e r t s a n d D e l e t e s t o a S e q u e n c e c o n t a i n i n g o n l y I n s e r t s . T h i s d e n e s a c a n o n i c a l

    f o r m o f a S e q u e n c e w h i c h i s a S e q u e n c e o f I n s e r t s o n a i n i t i a l E m p t y S e q u e n c e . A x i o m 3

    i m p l i e s t h a t r e a d i n g o u t s i d e t h e S e q u e n c e r e t u r n s a s p e c i a l E n d O f F i l e i t e m . T h i s a l s o c o u l d

    h a v e b e e n a n e r r o r . A x i o m 4 d e n e s t h e s e m a n t i c s o f a S e q u e n c e b y d e n i n g w h a t i s a t e a c h

    p o s i t i o n o f a c a n o n i c a l S e q u e n c e .

    1

    2 . 2 T h e C I n t e r f a c e

    H o w w o u l d t h i s t r a n s l a t e i n t o C ? F i r s t s o m e t y p e d e n i t i o n s :

    t y p e d e f R e t u r n C o d e i n t / * 1 f o r s u c c e s s , z e r o o r n e g a t i v e f o r f a i l u r e * /

    t y p e d e f P o s i t i o n i n t / * a p o s i t i o n i n t h e s e q u e n c e * /

    / * t h e r s t i t e m i n t h e s e q u e n c e i s a t p o s i t i o n 0 * /

    t y p e d e f I t e m u n s i g n e d c h a r / * t h e y a r e s e q u e n c e s o f e i g h t b i t b y t e s * /

    t y p e d e f s t r u c t f

    / * T o b e d e t e r m i n e d * /

    / * W h a t e v e r i n f o r m a t i o n w e n e e d f o r t h e d a t a s t r u c t u r e s w e c h o o s e * /

    g S e q u e n c e

    I n t h i s i n t e r f a c e t h e o n l y o p e r a t i o n s t h a t c h a n g e t h e S e q u e n c e a r e I n s e r t a n d D e l e t e .

    1

    I a m i g n o r i n g t h e e r r o r o f i n s e r t i n g b e y o n d t h e e n d o f t h e e x i s t i n g s e q u e n c e .

    4

  • 8/10/2019 Data Structures for Text Sequences

    5/29

    S e q u e n c e E m p t y ( )

    R e t u r n C o d e I n s e r t ( S e q u e n c e * s e q u e n c e , P o s i t i o n p o s i t i o n , I t e m c h )

    R e t u r n C o d e D e l e t e ( S e q u e n c e * s e q u e n c e , P o s i t i o n p o s i t i o n )

    I t e m I t e m A t ( S e q u e n c e * s e q u e n c e , P o s i t i o n p o s i t i o n ) | T h i s d o e s n o t a c t u a l l y r e q u i r e a

    p o i n t e r t o a S e q u e n c e s i n c e n o c h a n g e t o t h e s e q u e n c e i s b e i n g m a d e b u t w e e x p e c t t h a t t h e y

    w i l l b e l a r g e s t r u c t u r e s a n d s h o u l d n o t b e p a s s i n g t h e m a r o u n d . I a m i g n o r i n g e r r o r r e t u r n s

    ( e . g . , p o s i t i o n o u t o f r a n g e ) f o r t h e p u r p o s e s o f t h i s d i s c u s s i o n . T h e s e a r e e a s i l y a d d e d i f

    d e s i r e d .

    R e t u r n C o d e C l o s e ( S e q u e n c e * s e q u e n c e )

    M a n y v a r i a t i o n s a r e p o s s i b l e . T h e n e x t f e w p a r a g r a p h s d i s c u s s s o m e o f t h e m .

    A n y p r a c t i c a l i n t e r f a c e w o u l d a l l o w t h e s e q u e n c e t o b e i n i t i a l i z e d w i t h t h e c o n t e x t s o f a l e . I n

    t h e o r y t h i s i s j u s t t h e E m p t y o p e r a t i o n f o l l o w e d b y a n I n s e r t o p e r a t i o n f o r e a c h c h a r a c t e r i n t h e

    i n i t i a l i z i n g l e . O f c o u r s e , t h i s i s t o o i n e c i e n t f o r a r e a l t e x t e d i t o r .

    2

    I n s t e a d w e w o u l d h a v e a

    N e w S e q u e n c e o p e r a t i o n :

    S e q u e n c e N e w S e q u e n c e ( c h a r * l e n a m e ) | T h e s e q u e n c e i s i n i t i a l i z e d w i t h t h e c o n t e n t s

    o f t h e l e w h o s e n a m e i s c o n t a i n e d i n ` l e n a m e ' .

    U s u a l l y t h e D e l e t e o p e r a t i o n w i l l d e l e t e a n y l o g i c a l l y c o n t i g u o u s s u b s e q u e n c e

    R e t u r n C o d e D e l e t e ( S e q u e n c e * s e q u e n c e , P o s i t i o n b e g i n P o s i t i o n , P o s i t i o n e n d P o s i t i o n )

    S o m e t i m e s t h e I n s e r t o p e r a t i o n w i l l i n s e r t a s u b s e q u e n c e i n s t e a d o f j u s t a s i n g l e c h a r a c t e r .

    R e t u r n C o d e I n s e r t ( S e q u e n c e * s e q u e n c e , P o s i t i o n p o s i t i o n , S e q u e n c e s e q u e n c e T o I n s e r t )

    S o m e t i m e s C o p y a n d M o v e a r e s e p a r a t e o p e r a t i o n s ( i n s t e a d o f b e i n g c o m p o s e d o f I n s e r t s a n d

    D e l e t e s ) .

    R e t u r n C o d e C o p y ( S e q u e n c e * s e q u e n c e , P o s i t i o n f r o m B e g i n , P o s i t i o n f r o m E n d , P o s i t i o n

    t o P o s i t i o n )

    R e t u r n C o d e M o v e ( S e q u e n c e * s e q u e n c e , P o s i t i o n f r o m B e g i n , P o s i t i o n f r o m E n d , P o s i t i o n

    t o P o s i t i o n )

    A R e p l a c e o p e r a t i o n t h a t s u b s u m e s I n s e r t a n d D e l e t e i n a n o t h e r p o s s i b i l i t y .

    R e t u r n C o d e R e p l a c e ( S e q u e n c e * s e q u e n c e , P o s i t i o n f r o m B e g i n , P o s i t i o n f r o m E n d , S e q u e n c e

    s e q u e n c e T o R e p l a c e I t W i t h )

    F i n a l l y t h e I t e m A t p r o c e d u r e c o u l d r e t r i e v e a s u b s e q u e n c e .

    2

    A l t h o u g h t h i s i s t h e m e t h o d I u s e i n m y t e x t e d i t o r s i m u l a t o r d e s c r i b e d l a t e r .

    5

  • 8/10/2019 Data Structures for Text Sequences

    6/29

    R e t u r n C o d e S e q u e n c e A t ( S e q u e n c e * s e q u e n c e , P o s i t i o n f r o m B e g i n , P o s i t i o n f r o m E n d , S e -

    q u e n c e * r e t u r n e d S e q u e n c e )

    T h e s e v a r i a t i o n s w i l l n o t a e c t t h e b a s i c c h a r a c t e r o f t h e d a t a s t r u c t u r e u s e d t o i m p l e m e n t t h e

    s e q u e n c e o r t h e c o m p a r i s o n s b e t w e e n t h e m t h a t f o l l o w . T h e r e f o r e I w i l l a s s u m e t h e r s t i n t e r f a c e

    ( E m p t y , I n s e r t , D e l e t e , I n t e m A t , a n d C l o s e ) .

    3 C o m p a r i n g s e q u e n c e d a t a s t r u c t u r e s

    I n o r d e r t o c o m p a r e s e q u e n c e d a t a s t r u c t u r e s i t i s n e c e s s a r y t o k n o w t h e r e l a t i v e f r e q u e n c y o f t h e

    v e b a s i c o p e r a t i o n s i n t y p i c a l e d i t i n g .

    T h e N e w S e q u e n c e o p e r a t i o n i s i n f r e q u e n t . M o s t s e q u e n c e d a t a s t r u c t u r e s r e q u i r e t h e N e w S e q u e n c e

    o p e r a t i o n t o s c a n t h e e n t i r e l e a n d c o n v e r t i t t o s o m e i n t e r n a l f o r m . T h i s c a n b e a p r o b l e m w i t h

    v e r y l a r g e l e s . T o l o o k t h r o u g h a v e r y l a r g e l e , i t m u s t b e r e a d i n a n y c a s e b u t i f t h e s e q u e n c e

    d a t a s t r u c t u r e d o e s n o t r e q u i r e s e q u e n c e p r e p r o c e s s i n g i t c a n i n t e r l e a v e t h e l e r e a d i n g w i t h t e x t

    e d i t o r u s e r a t h e r t h a n r e q u i r i n g t h e u s e r t o w a i t f o r t h e e n t i r e l e t o b e r e a d b e f o r e e d i t i n g c a n

    b e g i n . T h i s i s a n a d v a n t a g e a n d m e a n s t h e u s e r d o e s n o t h a v e t o w o r r y a b o u t h o w m a n y l e s a r e

    l o a d e d o r h o w l a r g e t h e y a r e , s i n c e t h e c o s t o f r e a d i n g t h e l a r g e l e i s a m o r t i z e d o v e r i t s u s e .

    T h e C l o s e o p e r a t i o n i s a l s o i n f r e q u e n t a n d n o t n o r m a l l y a n i m p o r t a n t f a c t o r i n c o m p a r i n g s e q u e n c e

    d a t a s t r u c t u r e s .

    T h e I t e m A t o p e r a t i o n w i l l , o f c o u r s e , b e v e r y f r e q u e n t , b u t i t w i l l a l s o b e v e r y l o c a l i z e d a s w e l l

    b e c a u s e c h a r a c t e r s i n a t e x t e d i t o r a r e a l m o s t a l w a y s a c c e s s e d s e q u e n t i a l l y . W h e n t h e s c r e e n i s

    d r a w n t h e c h a r a c t e r s o n t h e s c r e e n a r e a c c e s s e d s e q u e n t i a l l y b e g i n n i n g w i t h t h e r s t c h a r a c t e r

    o n t h e s c r e e n . I f t h e u s e r p a g e s f o r w a r d o r b a c k w a r d s t h e c h a r a c t e r s a r e a c c e s s e d s e q u e n t i a l l y .

    S e a r c h e s n o r m a l l y b e g i n a t t h e c u r r e n t p o s i t i o n a n d p r o c e e d f o r w a r d o r b a c k w a r d s e q u e n t i a l l y .

    O v e r a l l , t h e r e i s a l m o s t n o r a n d o m a c c e s s i n a t e x t e d i t o r . T h i s m e a n s t h a t , a l t h o u g h t h e I t e m A t

    o p e r a t i o n i s v e r y f r e q u e n t , i t s e c i e n c y i n t h e g e n e r a l c a s e i s n o t s i g n i c a n t . O n l y t h e c a s e w h e r e

    a c h a r a c t e r i s r e q u e s t e d t h a t i s s e q u e n t i a l l y b e f o r e o r a f t e r t h e l a s t c h a r a c t e r a c c e s s e d n e e d s t o b e

    o p t i m i z e d .

    T o t e s t t h i s h y p o t h e s i s I i n s t r u m e n t e d a t e x t e d i t o r a n d l o o k e d a t t h e I t e m A t o p e r a t i o n s i n a v a r i e t y

    o f t e x t e d i t i n g s i t u a t i o n s . T h e n u m b e r o f I t e m A t c a l l s t h a t w e r e s e q u e n t i a l ( o n e a w a y f r o m t h e l a s t

    I t e m A t ) w a s a l w a y s a b o v e 9 7 % a n d u s u a l l y a b o v e 9 9 % . T h e n u m b e r o f I t e m A t s t h a t w e r e w i t h i n

    2 0 i t e m s o f t h e p r e v i o u s I t e m A t w a s a l w a y s o v e r 9 9 % . T h e a v e r a g e n u m b e r o f c h a r a c t e r s f r o m

    o n e I t e m A t t o t h e n e x t w a s t y p i c a l l y a r o u n d 2 b u t s o m e t i m e s w o u l d g o u p t o a s h i g h a s 1 0 o r 1 5 .

    O v e r a l l t h e s e e x p e r i m e n t s v e r i f y t h a t t h e p o s i t i o n s o f I t e m A t c a l l s a r e e x t r e m e l y l o c a l i z e d .

    T h u s s e q u e n c e d a t a s t r u c t u r e s s h o u l d b e o p t i m i z e d f o r e d i t s ( i n s e r t s a n d d e l e t e s ) a n d s e q u e n t i a l

    c h a r a c t e r a c c e s s . S i n c e c a c h i n g c a n b e u s e d w i t h m o s t d a t a s t r u c t u r e s t o m a k e s e q u e n t i a l a c c e s s

    f a s t , t h i s m e a n s t h a t t h e e c i e n c y o f i n s e r t s a n d d e l e t e s i s p a r a m o u n t . W i t h r e g a r d t o I n s e r t s a n d

    D e l e t e s o n e w o u l d a s s u m e t h a t t h e r e w o u l d b e m o r e I n s e r t s t h a n D e l e t e s b u t t h a t t h e r e w o u l d b e

    a m i x b e t w e e n t h e m i n t y p i c a l t e x t e d i t i n g .

    I n a l l s e q u e n c e d a t a s t r u c t u r e s , I t e m A t i s m u c h f a s t e r t h a n I n s e r t s a n d D e l e t e s . I f w e c o n s i d e r

    t y p i c a l t e x t e d i t i n g , t h e d i s p l a y i s c h a n g e d a f t e r e a c h I n s e r t a n d D e l e t e a n d t h i s r e q u i r e s s o m e

    6

  • 8/10/2019 Data Structures for Text Sequences

    7/29

    n u m b e r o f I t e m A t s , o f t e n j u s t a f e w c h a r a c t e r s a r o u n d t h e e d i t b u t p o s s i b l y t h e w h o l e r e s t o f t h e

    w i n d o w ( i f a n e w l i n e i n i n s e r t e d o r d e l e t e d ) .

    T h e c r i t e r i a u s e d f o r c o m p a r i n g s e q u e n c e d a t a s t r u c t u r e s a r e :

    T h e t i m e t a k e n b y e a c h o p e r a t i o n

    T h e p a g i n g b e h a v i o r o f e a c h o p e r a t i o n

    T h e a m o u n t o f s p a c e u s e d b y t h e s e q u e n c e d a t a s t r u c t u r e

    H o w e a s i l y i t t s i n w i t h t y p i c a l l e a n d I O s y s t e m s

    T h e c o m p l e x i t y ( a n d s p a c e t a k e n b y ) t h e i m p l e m e n t a t i o n

    L a t e r I w i l l p r e s e n t t i m i n g s c o m p a r i n g t h e b a s i c o p e r a t i o n s f o r a r a n g e o f s e q u e n c e d a t a s t r u c t u r e s .

    T h e s e t i m i n g s w i l l b e t a k e n f r o m e x a m p l e i m p l e m e n t a t i o n s o f t h e d a t a d a t a s t r u c t u r e s a n d a t e x t

    e d i t o r s i m u l a t o r t h a t c a l l s t h e s e i m p l e m e n t a t i o n s .

    4 D e n i t i o n s

    A n i t e m i s t h e b a s i c e l e m e n t . U s u a l l y i t w i l l b e a c h a r a c t e r . A s e q u e n c e i s a n o r d e r e d s e t o f i t e m s .

    S e q u e n t i a l i t e m s i n a s e q u e n c e a r e s a i d t o b e l o g i c a l l y c o n t i g u o u s . T h e s e q u e n c e d a t a s t r u c t u r e

    w i l l k e e p t h e i t e m s o f t h e s e q u e n c e i n b u e r s . A b u e r i s a s e t o f s e q u e n t i a l l y a d d r e s s e d m e m o r y

    l o c a t i o n s . A b u e r c o n t a i n s i t e m s f r o m t h e s e q u e n c e b u t n o t n e c e s s a r i l y i n t h e s a m e o r d e r a s t h e y

    a p p e a r l o g i c a l l y i n t h e s e q u e n c e . S e q u e n t i a l l y a d d r e s s e d i t e m s i n a b u e r a r e p h y s i c a l l y c o n t i g u o u s .

    W h e n a s t r i n g o f i t e m s i s p h y s i c a l l y c o n t i g u o u s i n a b u e r a n d i s a l s o l o g i c a l l y c o n t i g u o u s i n t h e

    s e q u e n c e w e c a l l t h e m a s p a n . A d e s c r i p t o r i s a p o i n t e r t o a s p a n . I n s o m e c a s e s t h e b u e r i s

    a c t u a l l y p a r t o f t h e d e s c r i p t o r a n d s o n o p o i n t e r i s n e c e s s a r y . T h i s v a r i a t i o n i s n o t i m p o r t a n t t o

    t h e d e s i g n o f t h e d a t a s t r u c t u r e s b u t i s m o r e a m e m o r y m a n a g e m e n t i s s u e .

    S e q u e n c e d a t a s t r u c t u r e s k e e p s p a n s i n b u e r s a n d k e e p e n o u g h i n f o r m a t i o n ( i n t e r m s o f d e s c r i p t o r s

    a n d s e q u e n c e s o f d e s c r i p t o r s ) t o p i e c e t o g e t h e r t h e s p a n s t o f o r m t h e s e q u e n c e . B u e r s c a n b e k e p t

    i n m e m o r y b u t m o s t s e q u e n c e d a t a s t r u c t u r e s a l l o w b u e r s t o g e t a s l a r g e a s n e c e s s a r y o r a l l o w a n

    u n l i m i t e d n u m b e r o f b u e r s . T h u s i t i s n e c e s s a r y t o k e e p t h e b u e r s o n d i s k i n d i s k l e s . M a n y

    s e q u e n c e d a t a s t r u c t u r e s u s e b u e r s o f u n l i m i t e d s i z e , t h a t i s , t h e i r s i z e i s d e t e r m i n e d b y t h e l e

    c o n t e n t s . T h i s r e q u i r e s t h e b u e r t o b e a d i s k l e . W i t h e n o u g h d i s k b l o c k c a c h i n g t h i s c a n b e

    m a d e a s f a s t a s n e c e s s a r y .

    T h e c o n c e p t s o f b u e r s , s p a n s a n d d e s c r i p t o r s c a n b e f o u n d i n a l m o s t e v e r y s e q u e n c e d a t a s t r u c t u r e .

    S e q u e n c e d a t a s t r u c t u r e s v a r y i n t e r m s o f h o w t h e s e c o n c e p t s a r e u s e d .

    I f a s e q u e n c e d a t a s t r u c t u r e s u s e s a v a r i a b l e n u m b e r o f d e s c r i p t o r s i t r e q u i r e s a r e c u r s i v e s e q u e n c e

    d a t a s t r u c t u r e t o k e e p t r a c k o f t h e s e q u e n c e o f d e s c r i p t o r s . I n s e c t i o n 5 w e w i l l l o o k a t t h r e e

    s e q u e n c e d a t a s t r u c t u r e s t h a t u s e a x e d n u m b e r o f d e s c r i p t o r s a n d i n s e c t i o n 6 w e w i l l l o o k a t

    t h r e e s e q u e n c e d a t a s t r u c t u r e s t h a t u s e a v a r i a b l e n u m b e r o f d e s c r i p t o r s . S e c t i o n 7 w i l l p r e s e n t a

    g e n e r a l m o d e l o f a s e q u e n c e d a t a s t r u c t u r e t h a t e n c o m p a s s e s a l l t h e s e d a t a s t r u c t u r e s .

    7

  • 8/10/2019 Data Structures for Text Sequences

    8/29

    5 B a s i c S e q u e n c e D a t a S t r u c t u r e s

    A l l t h r e e o f t h e s e q u e n c e d a t a s t r u c t u r e s i n t h i s s e c t i o n u s e a x e d n u m b e r ( e i t h e r o n e , t w o o r

    t h r e e ) o f e x t e r n a l d e s c r i p t o r s .

    3

    5 . 1 T h e a r r a y m e t h o d ( o n e s p a n i n o n e b u e r )

    T h i s i s t h e m o s t o b v i o u s s e q u e n c e d a t a s t r u c t u r e . I n t h i s m e t h o d t h e r e i s o n e s p a n a n d o n e b u e r .

    T w o d e s c r i p t o r s a r e n e e d e d : o n e f o r t h e s p a n a n d o n e f o r t h e b u e r . ( S e e F i g u r e 2

    4

    ) T h e b u e r

    Span

    Buffer

    Sequence

    F i g u r e 2 : T h e a r r a y m e t h o d

    c o n t a i n s t h e i t e m s o f t h e s e q u e n c e i n p h y s i c a l l y c o n t i g u o u s o r d e r . D e l e t e s a r e h a n d l e d b y m o v i n g

    a l l t h e i t e m s f o l l o w i n g t h e d e l e t e d i t e m t o l l i n t h e h o l e l e f t b y t h e d e l e t e d i t e m . I n s e r t s a r e

    h a n d l e d b y m o v i n g a l l t h e i t e m s t h a t w i l l f o l l o w t h e i t e m t o b e i n s e r t e d i n o r d e r t o m a k e r o o m f o r

    t h e n e w i t e m . I t e m A t i s a n a r r a y r e f e r e n c e . T h e b u e r c a n b e e x t e n d e d a s m u c h a s n e c e s s a r y t o

    h o l d t h e d a t a .

    C l e a r l y t h i s w o u l d n o t b e a n e c i e n t d a t a s t r u c t u r e i f a l o t o f e d i t i n g w a s t o b e d o n e a r e l a r g e l e s .

    I t i s a u s e f u l b a s e c a s e a n d i s a r e a s o n a b l e c h o i c e i n s i t u a t i o n s w h e r e f e w i n s e r t s a n d d e l e t e s a r e

    m a d e ( e . g . , a r e a d - o n l y s e q u e n c e ) o r t h e s e q u e n c e s a r e r e l a t i v e l y s m a l l ( e . g . , a o n e - l i n e t e x t e d i t o r ) .

    T h i s d a t a s t r u c t u r e i s s o m e t i m e s u s e d t o h o l d t h e s e q u e n c e o f d e s c r i p t o r s i n t h e m o r e c o m p l e x

    s e q u e n c e d a t a s t r u c t u r e , f o r e x a m p l e , a n a r r a y o f l i n e p o i n t e r s ( s e e s e c t i o n 6 ) .

    5 . 2 T h e g a p m e t h o d ( t w o s p a n s i n o n e b u e r )

    T h e g a p m e t h o d i s o n l y a l i t t l e m o r e c o m p l e x t h a n t h e a r r a y m e t h o d b u t i t i s m o r e m u c h e c i e n t .

    I n t h i s m e t h o d y o u h a v e o n e l a r g e b u e r t h a t h o l d s a l l t h e t e x t b u t t h e r e i s a g a p i n t h e m i d d l e

    o f t h e b u e r t h a t d o e s n o t c o n t a i n v a l i d t e x t . ( S e e F i g u r e 3 ) T h r e e d e s c r i p t o r s a r e n e e d e d : o n e

    f o r e a c h s p a n a n d o n e f o r t h e g a p . T h e g a p w i l l b e a t t h e t e x t \ c u r s o r " o r \ p o i n t " w h e r e a l l t e x t

    3

    T h a t i s , d e s c r i p t o r s t h a t a r e n o t k e p t i n o t h e r d e s c r i p t o r s .

    4

    I n a l l t h e s e g u r e s , e a c h p a i r o f d a s h e d a r r o w s p o i n t i n g f r o m t h e ( l o g i c a l ) s e q u e n c e t o t h e b u e r s r e p r e s e n t s o n e

    d e s c r i p t o r .

    8

  • 8/10/2019 Data Structures for Text Sequences

    9/29

    Buffer

    Sequence

    S pa n G a p S pa n

    F i g u r e 3 : T h e g a p ( o r t w o s p a n ) m e t h o d

    e d i t i n g o p e r a t i o n s t a k e p l a c e . I n s e r t s a r e h a n d l e d b y u s i n g u p o n e o f t h e p l a c e s i n t h e g a p a n d

    i n c r e m e n t i n g t h e l e n g t h o f t h e r s t d e s c r i p t o r ( o r d e c r e m e n t i n g t h e b e g i n p o i n t e r o f t h e s e c o n d

    d e s c r i p t o r ) . D e l e t e s a r e h a n d l e d b y d e c r e m e n t i n g t h e l e n g t h o f t h e r s t d e s c r i p t o r ( o r i n c r e m e n t i n g

    t h e b e g i n p o i n t e r o f t h e s e c o n d d e s c r i p t o r ) . I t e m A t i s a t e s t ( r s t o r s e c o n d s p a n ? ) a n d a n a r r a y

    r e f e r e n c e .

    W h e n t h e c u r s o r m o v e s t h e g a p i s a l s o m o v e d s o i f t h e c u r s o r m o v e s 1 0 0 i t e m s f o r w a r d t h e n 1 0 0

    i t e m s h a v e t o b e m o v e d f r o m t h e s e c o n d s p a n t o t h e r s t s p a n ( a n d t h e d e s c r i p t o r s a d j u s t e d ) . S i n c e

    m o s t c u r s o r m o v e s a r e l o c a l , n o t t h a t m a n y i t e m s h a v e t o b e m o v e d i n m o s t c a s e s .

    A c t u a l l y t h e g a p d o e s n o t n e e d t o m o v e e v e r y t i m e t h e c u r s o r i s m o v e d . W h e n a n e d i t i n g o p e r a t i o n

    i s r e q u e s t e d t h e n t h e g a p i s m o v e d . T h i s w a y m o v i n g t h e c u r s o r a r o u n d t h e l e w h i l e p a g i n g o r

    s e a r c h i n g w i l l n o t c a u s e u n n e c e s s a r y g a p m o v e s .

    I f t h e g a p l l s u p , t h e s e c o n d s p a n i s m o v e d i n t h e b u e r t o c r e a t e a n e w g a p . T h e r e m u s t b e

    a n a l g o r i t h m t o d e t e r m i n e t h e n e w g a p s i z e . A s i n t h e a r r a y c a s e , t h e b u e r c a n b e e x t e n d e d t o

    a n y l e n g t h . I n p r a c t i c e , i t i s u s u a l l y i n c r e a s e d i n s i z e b y s o m e x e d i n c r e m e n t o r b y s o m e x e d

    p e r c e n t a g e o f t h e c u r r e n t b u e r s i z e a n d t h i s b e c o m e s t h e s i z e o f t h e n e w g a p . W i t h v i r t u a l m e m o r y

    w e c a n m a k e t h e b u e r s o l a r g e t h a t i t i s u n l i k e l y t o l l u p . A n d w i t h s o m e h e l p f r o m t h e o p e r a t i n g

    s y s t e m , w e c a n e x p a n d t h e g a p w i t h o u t a c t u a l l y m o v i n g a n y d a t a . T h i s m e t h o d d o e s u s e u p l a r g e

    q u a n t i t i e s o f v i r t u a l a d d r e s s s p a c e , h o w e v e r .

    T h i s m e t h o d i s s i m p l e a n d s u r p r i s i n g l y e c i e n t . T h e g a p m e t h o d i s a l s o c a l l e d t h e s p l i t b u e r

    m e t h o d a n d i s d i s c u s s e d i n 9 ] .

    5 . 3 T h e l i n k e d l i s t m e t h o d

    A t t h e o t h e r e x t r e m e i s t h e l i n k e d l i s t m e t h o d w h i c h h a s a s p a n f o r e a c h i t e m i n t h e s e q u e n c e a n d

    t h e s p a n i s k e p t i n t h e d e s c r i p t o r . T h i s r e q u i r e s a l a r g e ( a n d l e c o n t e n t d e p e n d e n t ) n u m b e r o f

    d e s c r i p t o r s w h i c h m u s t b e s e q u e n c e d . I f w e l i n k t h e d e s c r i p t o r s t o g e t h e r i n t o a l i n k e d l i s t t h e n w e

    r e a l l y o n l y h a v e t o r e m e m b e r o n e d e s c r i p t o r , t h e h e a d o f t h e l i s t . ( S e e F i g u r e 4 )

    I n s e r t s a n d D e l e t e s a r e f a s t a n d e a s y ( j u s t m o v e s o m e p o i n t e r s ) b u t I t e m A t i s m o r e e x p e n s i v e t h a n

    t h e a r r a y o r g a p m e t h o d s s i n c e s e v e r a l p o i n t e r s m a y h a v e t o b e f o l l o w e d .

    9

  • 8/10/2019 Data Structures for Text Sequences

    10/29

    Buffers

    Sequence

    Spa ns (of one item)

    Head

    F i g u r e 4 : T h e l i n k e d l i s t m e t h o d

    T h e l i n k e d l i s t m e t h o d u s e s a l o t o f e x t r a s p a c e a n d s o i s n o t a p p r o p r i a t e f o r a l a r g e s e q u e n c e b u t

    i s f r e q u e n t l y u s e d a s a w a y o f i m p l e m e n t i n g a s e q u e n c e o f d e s c r i p t o r s r e q u i r e d i n t h e m o r e c o m p l e x

    s e q u e n c e d a t a s t r u c t u r e s . I n f a c t , i t i s t h e m o s t c o m m o n m e t h o d f o r t h a t .

    O n e c o u l d t h i n k o f t h e a r r a y m e t h o d a s a s p e c i a l c a s e o f t h e l i n k e d l i s t m e t h o d . A n a r r a y i s r e a l l y a

    l i n k e d l i s t w i t h t h e l i n k s i m p l i c i t , t h a t i s , t h e l i n k i s c o m p u t e d t o b e t h e n e x t p h y s i c a l l y s e q u e n t i a l

    a d d r e s s a f t e r t h e c u r r e n t i t e m . I n t h i s v i e w , t h e l i n k e d l i s t m e t h o d t h e o n l y p r i m i t i v e s e q u e n c e d a t a

    t y p e . T h e a r r a y m e t h o d i s a s p e c i a l c a s e i f l i n k e d l i s t m e t h o d a n d t h e g a p m e t h o d i s a v a r i a t i o n

    o n t h e a r r a y m e t h o d .

    6 R e c u r s i v e S e q u e n c e D a t a S t r u c t u r e s

    I n t h i s s e c t i o n t h r e e m o r e s e q u e n c e d a t a s t r u c t u r e s a r e p r e s e n t e d . E a c h o f t h e s e m e t h o d s r e q u i r e s

    a v a r i a b l e n u m b e r o f d e s c r i p t o r s a n d s o m u s t r e c u r s i v e l y u s e a ( u s u a l l y s i m p l e r ) s e q u e n c e d a t a

    s t r u c t u r e t o i m p l e m e n t t h e s e q u e n c e o f d e s c r i p t o r s .

    6 . 1 D e t e r m i n a t i o n o f s p a n a n d b u e r s i z e s

    T h e b a s i c c a s e s e i t h e r u s e d a x e d n u m b e r o f s p a n s ( o n e f o r t h e a r r a y m e t h o d a n d t w o f o r t h e g a p

    m e t h o d ) o r s p a n s o f s i z e 1 ( t h e l i n k e d l i s t m e t h o d ) . T h e r e c u r s i v e m e t h o d s d e s c r i b e d i n t h i s s e c t i o n

    u s e a v a r i a b l e n u m b e r o f s p a n s . H o w i s t h e s p a n s i z e d e t e r m i n e d ? T h e r e a r e t w o p o s s i b i l i t i e s : e i t h e r

    t h e s p a n s a r e d e t e r m i n e d b y t h e c o n t e n t s o f t h e l e o r b y t h e t e x t e d i t o r i n d e p e n d e n t o f t h e s e q u e n c e

    c o n t e n t s . T h e m a i n e x a m p l e o f c o n t e n t d e t e r m i n e d s p a n s i s t o h a v e o n e s p a n p e r l o g i c a l l i n e o f

    t e x t .

    I f t h e e d i t o r i s a l l o w e d t o d e t e r m i n e s p a n s i z e s t o i t s o w n b e s t a d v a n t a g e t h e s e c o n d i s s u e i s t h e

    s i z e o f t h e b u e r s . A g a i n t h e r e a r e t w o p o s s i b i l i t i e s : x e d s i z e o r v a r i a b l e s i z e . F i x e d s i z e b u e r s

    a r e e a s i e r t o m a n a g e a n d a r e o f t e n c h o s e n t o b e s o m e ( l o w ) m u l t i p l e o f t h e p a g e s i z e o r t h e d i s k

    b l o c k s i z e . A x e d s i z e b u e r i m p l i e s a m a x i m u m s p a n s i z e ( t h a t i s , t h e b u e r s i z e ) .

    T h i s t a b l e s h o w t h e p o s s i b i l i t i e s :

    1 0

  • 8/10/2019 Data Structures for Text Sequences

    11/29

    F i x e d s i z e b u e r s V a r i a b l e s i z e b u e r s

    C o n t e n t d e t e r m i n e d s p a n s L i n e s i z e i s l i m i t e d L i n e s p a n s

    E d i t o r d e t e r m i n e d s p a n s F i x e d s i z e b u e r s P i e c e t a b l e s

    T h e s e a r e t h e t h r e e m e t h o d s t h a t w i l l b e e x a m i n e d i n t h i s s e c t i o n .

    6 . 2 T h e l i n e s p a n m e t h o d ( o n e s p a n p e r l i n e )

    S i n c e m o s t t e x t e d i t o r s d o m a n y o p e r a t i o n s o n l i n e s i t s e e m s r e a s o n a b l e t o u s e a d a t a s t r u c t u r e

    t h a t i s l i n e o r i e n t e d s o l i n e o p e r a t i o n s c a n b e h a n d l e d e c i e n t l y . T h e l i n e s p a n m e t h o d u s e s a

    d e s c r i p t o r f o r e a c h l i n e . O f t e n o n e l a r g e b u e r i s u s e d t o h o l d a l l t h e l i n e s p a n s . N e w l i n e s a r e

    a p p e n d e d t o t h e e n d o f t h e u s e d p a r t o f t h e b u e r . S e e F i g u r e 5 .

    Buffer

    Sequence

    Line spa ns

    F i g u r e 5 : T h e l i n e s p a n s m e t h o d

    L i n e d e l e t e s a r e h a n d l e d b y d e l e t i n g t h e l i n e d e s c r i p t o r . D e l e t i n g c h a r a c t e r s w i t h i n a l i n e i n v o l v e s

    m o v i n g t h e r e s t o f t h e c h a r a c t e r s i n t h e l i n e u p t o l l t h e g a p . S i n c e a n y o n e l i n e i s p r o b a b l y n o t

    t h a t l o n g t h i s i s r e a s o n a b l y e c i e n t .

    L i n e i n s e r t s a r e h a n d l e d b y a d d i n g a l i n e d e s c r i p t o r . I n s e r t i n g c h a r a c t e r s i n a l i n e i n v o l v e s c o p y i n g

    t h e i n i t i a l p a r t ( b e f o r e t h e i n s e r t ) o f t h e l i n e b u e r t o n e w s p a c e a l l o c a t e d f o r t h e l i n e , a d d i n g t h e

    c h a r a c t e r s t o b e i n s e r t e d , c o p y i n g t h e r e s t o f t h e l i n e a n d p o i n t i n g t h e d e s c r i p t o r a t t h e n e w l i n e .

    M u l t i p l e l i n e i n s e r t s a n d d e l e t e s a r e c o m b i n a t i o n s o f t h e s e o p e r a t i o n s . C a c h i n g c a n m a k e t h i s a l l

    f a i r l y e c i e n t .

    U s u a l l y n e w s p a c e i s a l l o c a t e d a t t h e e n d o f t h e b u e r a n d t h e s p a c e o c c u p i e d b y d e l e t e d o r c h a n g e d

    l i n e s i s n o t r e u s e d s i n c e t h e e o r t o f d y n a m i c m e m o r y a l l o c a t i o n i s n o t w o r t h t h e t r o u b l e . A d i s k

    l e t h e c o n t i n u e s t o g r o w a t t h e e n d c a n b e h a n d l e d q u i t e e c i e n t l y b y m o s t l e s y s t e m s .

    T h i s m e t h o d u s e s a s m a n y d e s c r i p t o r s a s t h e r e a r e l i n e s i n t h e l e , t h a t i s , a v a r i a b l e n u m b e r o f

    d e s c r i p t o r s h e n c e t h e r e i s a r e c u r s i v e p r o b l e m o f k e e p i n g t h e s e d e s c r i p t o r s i n a s e q u e n c e . T y p i c a l l y

    o n e o f t h e b a s i c m e t h o d s d e s c r i b e d i n s e c t i o n 5 i s u s e d t o m a i n t a i n t h e s e q u e n c e o f l i n e d e s c r i p t o r s .

    T h e l i n k e d l i s t m e t h o d c a n b e u s e d ( a s i n V e d 6 ] ) o r t h e a r r a y m e t h o d ( a s i n G o d o t 1 1 ] , G i n a 1 ]

    a n d e d 3 ] ) .

    N O T E : r e f e r e n c e t o S W T o o l s a n d S W T o o l s S a m p l e r h e r e . F o r l i n k e d l i s t s o f l i n e s .

    1 1

  • 8/10/2019 Data Structures for Text Sequences

    12/29

    T h e s e s i m p l e r m e t h o d s a r e a c c e p t a b l e s i n c e t h e n u m b e r o f l i n e d e s c r i p t o r s i s m u c h s m a l l e r t h a n

    t h e n u m b e r o f c h a r a c t e r s i n t h e l e b e i n g e d i t e d . T h e l i n k e d l i s t m e t h o d a l l o w s e c i e n t i n s e r t i o n s

    a n d d e l e t i o n s b u t r e q u i r e s t h e m a n a g e m e n t o f l i s t n o d e s .

    T h i s m e t h o d i s a c c e p t a b l e f o r a l i n e o r i e n t e d t e x t e d i t o r b u t i s n o t a s c o m m o n t h e s e d a y s s i n c e

    s t r i c t l i n e o r i e n t a t i o n i s s e e n a s t o o r e s t r i c t i v e . I t d o e s r e q u i r e p r e p r o c e s s i n g o f t h e e n t i r e b u e r

    b e f o r e y o u c a n b e g i n e d i t i n g s i n c e t h e l i n e d e s c r i p t o r s h a v e t o b e s e t u p .

    6 . 3 F i x e d s i z e b u e r s

    I n t h e l i n e s p a n s m e t h o d t h e p a r t i t i o n i n g o f t h e s e q u e n c e i n t o s p a n s i s d e t e r m i n e d b y t h e c o n t e n t s

    o f t h e t e x t l e , i n p a r t i c u l a r t h e l i n e s t r u c t u r e . A n o t h e r a p p r o a c h i s f o r t h e t e x t e d i t o r t o d e c i d e

    t h e p a r t i t i o n i n g o f t h e s e q u e n c e i n t o s p a n s b a s e d o n t h e e c i e n c y o f b u e r u s e . S i n c e x e d s i z e

    b l o c k s a r e m o r e e c i e n t t o d e a l w i t h t h e l e c a n b e d i v i d e d i n t o a s e q u e n c e o f x e d s i z e b u e r s . I f

    t h e b u e r s w e r e r e q u i r e d t o b e a l w a y s f u l l , a g r e a t d e a l o f t i m e w o u l d b e s p e n t r e a r r a n g i n g d a t a i n

    t h e b u e r s , t h e r e f o r e , e a c h b l o c k h a s a m a x i m u m s i z e b u t w i l l u s u a l l y c o n t a i n f e w e r a c t u a l i t e m s

    f r o m t h e s e q u e n c e s o t h e r e i s r o o m f o r i n s e r t s a n d d e l e t e s , w h i c h w i l l u s u a l l y a e c t o n l y o n e b u e r .

    ( S e e F i g u r e 6 . )

    Buffers

    Sequence

    Span s in the Buffers

    F i g u r e 6 : F i x e d s i z e b u e r s

    T h e d i s k b l o c k s i z e ( o r s o m e m u l t i p l e o f t h e d i s k b l o c k s i z e ) i s u s u a l l y t h e m o s t e c i e n t c h o i c e f o r

    t h e x e d s i z e b u e r s s i n c e t h e n t h e e d i t o r c a n d o i t s o w n d i s k m a n a g e m e n t m o r e e a s i l y a n d n o t

    d e p e n d o n t h e v i r t u a l m e m o r y s y s t e m o r t h e l e s y s t e m f o r e c i e n t u s e o f t h e d i s k .

    U s u a l l y a l o w e r b o u n d o n t h e n u m b e r o f i t e m s i n a b u e r i s s e t ( h a l f t h e b u e r s i z e i s a c o m m o n

    c h o i c e ) . T h i s r e q u i r e s m o v i n g i t e m s b e t w e e n b u e r s a n d o c c a s i o n a l l y m e r g i n g t w o b u e r s t o p r e v e n t

    t h e a c c u m u l a t i o n o f l a r g e n u m b e r s o f b u e r s . T h e r e a r e f o u r p r o b l e m s w i t h l e t t i n g t o o m a n y b u e r s

    a c c u m u l a t e :

    w a s t e d s p a c e i n t h e b u e r s ,

    t h e r e c u r s i v e s e q u e n c e o f d e s c r i p t o r s g e t s t o o l a r g e ,

    t h e p r o b a b i l i t y t h a t a n e d i t w i l l b e c o n n e d t o o n e b u e r i s r e d u c e d , a n d

    1 2

  • 8/10/2019 Data Structures for Text Sequences

    13/29

    I t e m A t c a c h i n g i s l e s s e e c t i v e .

    A s a n e x a m p l e o f x e d s i z e b u e r s , s u p p o s e d i s k b l o c k s a r e 4 K b y t e s l o n g . E a c h b u e r w i l l b e 4 K

    b y t e s l o n g a n d w i l l c o n t a i n a s p a n o f l e n g t h f r o m 2 K t o 4 K b y t e s . E a c h b u e r i s h a n d l e d u s i n g t h e

    a r r a y m e t h o d , t h a t i s , i n s e r t s a n d d e l e t e s a r e d o n e b y m o v i n g t h e i t e m s u p o r d o w n i n t h e b u e r .

    T y p i c a l l y a n e d i t w i l l o n l y a e c t o n e b u e r b u t i f a b u e r l l s u p i t i s s p l i t i n t o t w o b u e r s a n d i f

    t h e s p a n i n a b u e r f a l l s b e l o w 2 K b y t e s t h e n i t e m s a r e m o v e d i n t o i t f r o m a n a d j a c e n t b u e r o r

    i t i s c o a l e s c e d w i t h a n a d j a c e n t b u e r .

    E a c h d e s c r i p t o r p o i n t s t o a b u e r a n d c o n t a i n s t h e l e n g t h o f t h e s p a n i n t h e b u e r . T h e x e d s i z e

    b u e r m e t h o d a l s o r e q u i r e s a r e c u r s i v e s e q u e n c e f o r t h e d e s c r i p t o r s . T h i s c o u l d b e a n y o f t h e b a s i c

    m e t h o d s b u t m o s t e x a m p l e s f r o m t h e l i t e r a t u r e u s e a l i n k e d l i s t o f d e s c r i p t o r s . T h e l o o s e p a c k i n g

    a l l o w s s m a l l c h a n g e s t o b e m a d e w i t h i n t h e b u e r s a n d t h e f a c t t h a t t h e b u e r s a r e l i n k e d m a k e s

    i t e a s y t o a d d a n d d e l e t e b u e r s .

    T h i s m e t h o d i s u s e d i n t h e t e x t e d i t o r s G i n a 1 ] a n d s a m 1 2 ] a n d i s d e s c r i b e d b y K y l e 9 ] .

    6 . 4 T h e p i e c e t a b l e m e t h o d

    I n t h e p i e c e t a b l e m e t h o d t h e s i z e s o f t h e s p a n s a r e a s l a r g e a s p o s s i b l e b u t a r e s p l i t a s a r e s u l t o f

    t h e e d i t i n g t h a t i s d o n e o n t h e s e q u e n c e . T h e s e q u e n c e s t a r t s o u t a s o n e b i g s p a n a n d t h a t g e t s

    d i v i d e d u p a s i n s e r t i o n s a n d d e l e t i o n s a r e m a d e . W e c a l l e a c h s p a n a p i e c e ( o f t h e s e q u e n c e ) a n d

    i t s d e s c r i p t o r i s c a l l e d a p i e c e d e s c r i p t o r . T h e s e q u e n c e o f p i e c e d e s c r i p t o r s i s c a l l e d t h e p i e c e t a b l e .

    T h e p i e c e t a b l e m e t h o d u s e s t w o b u e r s . T h e r s t ( t h e l e b u e r ) c o n t a i n s t h e o r i g i n a l c o n t e n t s

    o f t h e l e b e i n g e d i t e d . I t i s o f x e d s i z e a n d i s r e a d - o n l y . T h e s e c o n d ( t h e a d d b u e r ) i s a n o t h e r

    b u e r t h a t c a n g r o w w i t h o u t b o u n d a n d i s a p p e n d - o n l y . A l l n e w i t e m s a r e p l a c e d i n t h i s b u e r .

    E a c h p i e c e d e s c r i p t o r p o i n t s t o a s p a n i n t h e l e b u e r o r i n t h e a d d b u e r . T h u s a d e s c r i p t o r

    m u s t c o n t a i n t h r e e p i e c e s o f i n f o r m a t i o n : w h i c h b u e r ( a b o o l e a n ) , a n o s e t i n t o t h a t b u e r ( a

    n o n - n e g a t i v e i n t e g e r ) a n d a l e n g t h ( a p o s i t i v e i n t e g e r

    5

    ) .

    F i g u r e 7 s h o w s a p i e c e t a b l e s t r u c t u r e . T h e l e c o n s i s t s o f v e p i e c e s .

    I n i t i a l l y t h e r e i s o n l y o n e p i e c e d e s c r i p t o r w h i c h p o i n t s t o t h e e n t i r e l e b u e r . A d e l e t e i s h a n d l e d

    b y s p l i t t i n g a p i e c e i n t o t w o p i e c e s . O n e o f t h e s e p i e c e s p o i n t s t o t h e i t e m s i n t h e o l d p i e c e b e f o r e

    t h e d e l e t e d i t e m a n d t h e o t h e r p i e c e p o i n t s t o t h e i t e m s a f t e r t h e d e l e t e d i t e m . A s p e c i a l c a s e

    o c c u r s w h e n t h e d e l e t e d i t e m i s a t t h e b e g i n n i n g o r e n d o f t h e p i e c e i n w h i c h c a s e w e s i m p l y a d j u s t

    t h e p o i n t e r o r t h e p i e c e l e n g t h .

    A n i n s e r t i s h a n d l e d b y s p l i t t i n g t h e p i e c e i n t o t h r e e p i e c e s . T h e r s t p i e c e p o i n t s t o t h e i t e m s o f

    t h e o l d p i e c e b e f o r e t h e i n s e r t e d i t e m . T h e t h i r d p i e c e p o i n t s t o t h e i t e m s o f t h e o l d p i e c e a f t e r t h e

    i n s e r t e d i t e m . T h e i n s e r t e d i t e m i s a p p e n d e d t o t h e e n d o f t h e a d d l e a n d t h e s e c o n d p i e c e p o i n t s

    t o t h i s i t e m . A g a i n t h e r e a r e s p e c i a l c a s e s f o r i n i n s e r t i o n a t t h e b e g i n n i n g o r e n d o f a p i e c e .

    I f s e v e r a l i t e m s a r e i n s e r t e d i n a r o w , t h e i n s e r t e d i t e m s a r e c o m b i n e d i n t o a s i n g l e p i e c e r a t h e r

    t h a n u s i n g a s e p a r a t e p i e c e f o r e a c h i t e m i n s e r t e d .

    F i g u r e s 8 , 9 a n d 1 0 s h o w t h e e e c t o f a d e l e t e a n d a n i n s e r t i n a p i e c e t a b l e . F i g u r e 8 s h o w s t h e

    5

    N o r m a l l y z e r o l e n g t h p i e c e s a r e e l i m i n a t e d .

    1 3

  • 8/10/2019 Data Structures for Text Sequences

    14/29

    Origina l F ile Add File

    Buffers

    Sequence

    F i g u r e 7 : T h e p i e c e t a b l e m e t h o d

    p i e c e t a b l e a f t e r t h e l e i s r e a d i n i n i t i a l l y . T h i s i s a v e r y s h o r t l e c o n t a i n i n g o n l y 2 0 c h a r a c t e r s .

    F i g u r e 9 s h o w s t h e p i e c e t a b l e a f t e r t h e w o r d \ l a r g e " h a s b e e n d e l e t e d . F i g u r e 1 0 s h o w s t h e p i e c e

    t a b l e a f t e r t h e w o r d \ E n g l i s h " h a s b e e n a d d e d . N o t i c e t h a t , i n g e n e r a l , a d e l e t e i n c r e a s e s t h e

    n u m b e r o f p i e c e s i n t h e p i e c e t a b l e b y o n e a n d a n i n s e r t i n c r e a s e s t h e n u m b e r o f p i e c e s i n t h e p i e c e

    t a b l e b y t w o .

    txetfoasegralA p n Origina l file (read-only)

    Add file (append -only)

    Original 0 19File Start Length

    P iece ta ble

    0 1 2 3 4 5 6 7 8 9 10111213141516171819

    SequenceA large span of text

    (empty)

    F i g u r e 8 : A p i e c e t a b l e b e f o r e a n y e d i t s

    txetfoasegralA p n Original file (read-only)

    Add file (a ppend-only)

    Original 0 2File Start Length

    P iece ta bleOriginal 8 12

    SequenceA span of text

    0 1 2 3 4 5 6 7 8 9 10111213141516171819

    (empty)

    F i g u r e 9 : A p i e c e t a b l e a f t e r a d e l e t e

    L e t u s l o o k a t a n o t h e r e x a m p l e . S u p p o s e w e s t a r t w i t h a n e w l e t h a t i s 1 0 0 0 b y t e s l o n g a n d m a k e

    t h e f o l l o w i n g e d i t s .

    1 4

  • 8/10/2019 Data Structures for Text Sequences

    15/29

    txetfoasegralA p n Original file (read-only)

    Add file (a ppend-only)

    Original 0 2

    File Start Length

    P iece ta bleOriginal 8 8Add 0 8

    Original 16 4

    SequenceA span of English text

    0 1 2 3 4 5 6 7 8 9 10111213141516171819

    0 1 2 3 4 5 6 7 8 9 10111213141516171819

    hsilgE n

    F i g u r e 1 0 : A p i e c e t a b l e a f t e r a d e l e t e a n d a n i n s e r t

    1 . S i x c h a r a c t e r s i n s e r t e d ( t y p e d i n ) a f t e r c h a r a c t e r 9 0 0 .

    2 . C h a r a c t e r 6 0 0 d e l e t e d .

    3 . F i v e c h a r a c t e r s i n s e r t e d ( t y p e d i n ) a f t e r c h a r a c t e r 5 0 0 .

    T h e p i e c e t a b l e a f t e r t h e s e e d i t s w i l l l o o k l i k e t h i s :

    l e s t a r t l e n g t h l o g i c a l o s e t

    o r i g 0 5 0 0 0

    a d d 6 5 5 0 0

    o r i g 5 0 0 1 0 0 5 0 5

    o r i g 6 0 1 3 0 0 6 0 5

    a d d 0 6 9 0 5

    o r i g 9 0 1 1 0 0 9 1 1

    T h e \ l o g i c a l o s e t " c o l u m n d o e s n o t a c t u a l l y e x i s t i n t h e p i e c e t a b l e b u t c a n b e c o m p u t e d f r o m i t

    ( i t i s t h e r u n n i n g t o t a l o f t h e l e n g t h s ) . T h e s e l o g i c a l o s e t s a r e n o t k e p t i n t h e p i e c e t a b l e b e c a u s e

    t h e y w o u l d a l l h a v e t o b e u p d a t e d a f t e r e a c h e d i t .

    T h e p i e c e t a b l e m e t h o d h a s s e v e r a l a d v a n t a g e s .

    T h e o r i g i n a l l e i s n e v e r c h a n g e d s o i t c a n b e a r e a d - o n l y l e . T h i s i s a d v a n t a g e o u s f o r c a c h i n g

    s y s t e m s s i n c e t h e d a t a n e v e r c h a n g e s .

    T h e a d d l e i s a p p e n d - o n l y a n d s o , o n c e w r i t t e n , i t n e v e r c h a n g e s e i t h e r .

    I t e m s n e v e r m o v e o n c e t h e y h a v e b e e n w r i t t e n i n t o a b u e r s o t h e y c a n b e p o i n t e d t o b y

    o t h e r d a t a s t r u c t u r e s w o r k i n g t o g e t h e r w i t h t h e p i e c e t a b l e .

    U n d o i s m a d e m u c h e a s i e r b y t h e f a c t t h a t i t e m s a r e n e v e r w r i t t e n o v e r . I t i s n e v e r n e c e s s a r y

    t o s a v e d e l e t e d o r c h a n g e d i t e m s . U n d o i s j u s t a m a t t e r o f k e e p i n g t h e r i g h t p i e c e d e s c r i p t o r s

    a r o u n d . U n l i m i t e d u n d o e s c a n b e e a s i l y s u p p o r t e d .

    1 5

  • 8/10/2019 Data Structures for Text Sequences

    16/29

    N o l e p r e p r o c e s s i n g i s r e q u i r e d . T h e i n i t i a l p i e c e c a n b e s e t u p o n l y k n o w i n g t h e l e n g t h o f

    t h e o r i g i n a l l e , i n f o r m a t i o n t h a t c a n b e q u i c k l y a n d e a s i l y o b t a i n e d f r o m t h e l e s y s t e m .

    T h u s t h e s i z e o f t h e l e d o e s n o t a e c t t h e s t a r t u p t i m e .

    T h e a m o u n t o f m e m o r y u s e d i s a f u n c t i o n o f t h e n u m b e r o f e d i t s n o t t h e s i z e o f t h e l e . T h u s

    e d i t s o n v e r y l a r g e l e s w i l l b e q u i t e e c i e n t .

    T h e a b o v e d e s c r i p t i o n i m p l i e s t h a t a s e q u e n c e m u s t s t a r t o u t a s o n e b i g p i e c e a n d o n l y i n s e r t s a n d

    d e l e t e d c a n a d d p i e c e s . F o l l o w i n g t h i s r u l e k e e p s t h e n u m b e r o f p i e c e s a t a m i n i m u m a n d t h e f e w e r

    p i e c e s t h e r e a r e t h e m o r e e c i e n t t h e I t e m A t o p e r a t i o n s a r e . B u t t h e t e x t e d i t o r i s f r e e t o s p l i t

    p i e c e s a t o t h e r t i m e s t o s u i t i t s p u r p o s e s .

    F o r e x a m p l e , a w o r d p r o c e s s o r n e e d s t o k e e p f o r m a t t i n g i n f o r m a t i o n a s w e l l a s t h e t e x t s e q u e n c e

    i t s e l f . T h i s f o r m a t t i n g i n f o r m a t i o n c a n b e k e p t a s a t r e e w h e r e t h e l e a v e s o f t h e t r e e a r e p i e c e s . A

    w o r d i n b o l d f a c e w o u l d b e k e p t a s a s e p a r a t e p i e c e s o i t c o u l d b e p o i n t e d t o b y a \ b o l d " f o r m a t

    n o d e i n t h e f o r m a t t r e e . T h e t e x t e d i t o r L a r a 8 ] u s e s p i e c e t a b l e s t h i s w a y .

    A s a n o t h e r e x a m p l e , s u p p o s e t h e t e x t e d i t o r i m p l e m e n t s h y p e r t e x t l i n k s b e t w e e n a n y t w o s p a n s o f

    t e x t i n t h e s e q u e n c e . T h e s p a n a t e a c h e n d o f t h e l i n k c a n b e i s o l a t e d i n a s e p a r a t e p i e c e a n d t h e

    l i n k d a t a s t r u c t u r e w o u l d p o i n t t o t h e s e t w o p i e c e s .

    6

    T h i s t e c h n i q u e i s u s e d i n t h e P a s t i c h e t e x t

    e d i t o r 5 ] f o r n e - g r a i n e d h y p e r t e x t .

    T h e s e t e c h n i q u e s w o r k b e c a u s e p i e c e t a b l e d e s c r i p t o r s a n d i t e m s d o n o t m o v e w h e n e d i t s o c c u r

    a n d s o t h e s e t r e e s t r u c t u r e s w i l l b e m a i n t a i n e d w i t h l i t t l e e x t r a w o r k e v e n i f t h e s e q u e n c e i s e d i t e d

    h e a v i l y .

    O v e r a l l , t h e p i e c e t a b l e i s a n e x c e l l e n t d a t a s t r u c t u r e f o r s e q u e n c e s a n d i s n o r m a l l y t h e d a t a

    s t r u c t u r e o f c h o i c e . C a c h i n g c a n b e u s e d t o s p e e d u p t h i s d a t a s t r u c t u r e s o i t i s c o m p e t i t i v e w i t h

    o t h e r d a t a s t r u c t u r e s f o r s e q u e n c e s .

    P i e c e t a b l e s a r e u s e d i n t h e t e x t e d i t o r s : B r a v o 1 0 ] , L a r a 8 ] , P o i n t 4 ] a n d P a s t i c h e 5 ] . F r a s e r a n d

    K r i s h n a m u r t h y 7 ] s u g g e s t t h e u s e o f p i e c e t a b l e s a s a w a y t o i m p l e m e n t t h e i r i d e a o f \ l i v e t e x t " .

    7 A G e n e r a l M o d e l o f S e q u e n c e D a t a S t r u c t u r e s

    T h e d i s c u s s i o n s i n t h e p r e v i o u s t w o s e c t i o n s s u g g e s t t h a t i t i s p o s s i b l e t o c h a r a c t e r i z e a l l s e q u e n c e

    d a t a s t r u c t u r e s g i v e n t h e f o l l o w i n g a s s u m p t i o n s :

    1 . T h e c o m p u t e r h a s m a i n m e m o r y w i t h s e q u e n t i a l l y a d d r e s s e d c e l l s a n d h a s d i s k m e m o r y w i t h

    s e q u e n t i a l l y a d d r e s s e d b l o c k s o f s e q u e n t i a l l y a d d r e s s e d c e l l s .

    2 . I t e m s h a v e a x e d s i z e i n m e m o r y a n d o n d i s k .

    3 . I t e m s a r e s t o r e d d i r e c t l y i n t h e m e m o r y o r o n d i s k , t h a t i s , t h e y a r e n o t e n c o d e d . H e n c e

    e v e r y i t e m m u s t e x i s t s o m e w h e r e i n m e m o r y o r o n d i s k .

    6

    T h e r e a r e s o m e d e t a i l s t o d e a l w i t h t o m a k e t h i s a l l w o r k b u t t h e y a r e e a s y t o h a n d l e .

    1 6

  • 8/10/2019 Data Structures for Text Sequences

    17/29

    4 . T h e m a i n m e m o r y i s o f l i m i t e d s i z e a n d h e n c e c a n n o t h o l d a l l t h e i t e m s i n l a r g e s e q u e n c e s .

    7

    5 . T h e e n v i r o n m e n t p r o v i d e s d y n a m i c m e m o r y a l l o c a t i o n ( a l t h o u g h s o m e s e q u e n c e d a t a s t r u c -

    t u r e s w i l l d o t h e i r o w n a n d n o t u s e t h e e n v i r o n m e n t ' s d y n a m i c m e m o r y a l l o c a t i o n ) .

    6 . T h e e n v i r o n m e n t p r o v i d e s a r e a s o n a b l y e c i e n t l e s y s t e m f o r i t e m s t o r a g e t h a t p r o v i d e s

    l e s o f ( f o r a l l p r a c t i c a l p u r p o s e s ) u n l i m i t e d s i z e .

    T h e f o l l o w i n g c o n c e p t s a r e u s e d i n t h e m o d e l .

    A n i t e m i s t h e b a s i c c o m p o n e n t o f o u r s e q u e n c e s . I n m o s t c a s e s i t w i l l b e a c h a r a c t e r o r b y t e

    ( b u t i t m i g h t b e a d e s c r i p t o r i n a r e c u r s i v e s e q u e n c e d a t a s t r u c t u r e ) .

    A s e q u e n c e i s a n o r d e r e d s e t o f i t e m s . D u r i n g e d i t i n g , i t e m s w i l l b e i n s e r t e d i n t o a n d d e l e t e d

    f r o m t h e s e q u e n c e . T h e i t e m s i n t h e s e q u e n c e a r e l o g i c a l l y c o n t i g u o u s .

    A b u e r i s s o m e c o n t i g u o u s s p a c e i n m a i n m e m o r y o r o n d i s k t h a t c a n c o n t a i n i t e m s ( A s -

    s u m p t i o n 4 ) . A l l i t e m s i n t h e s e q u e n c e a r e k e p t i n b u e r s ( A s s u m p t i o n 3 ) . C o n s e c u t i v e i t e m s

    i n a b u e r a r e p h y s i c a l l y c o n t i g u o u s .

    A s p a n i s o n e o r m o r e i t e m s t h a t a r e l o g i c a l l y c o n t i g u o u s i n t h e s e q u e n c e a n d a r e a l s o p h y s i -

    c a l l y c o n t i g u o u s i n t h e b u e r . ( A s s u m p t i o n 1 )

    A d e s c r i p t o r i s a d a t a s t r u c t u r e t h a t r e p r e s e n t s a s p a n . U s u a l l y t h e d e s c r i p t o r c o n t a i n s

    a p o i n t e r t o t h e s p a n b u t i t i s a l s o p o s s i b l e f o r t h e d e s c r i p t o r t o c o n t a i n t h e b u e r t h a t

    c o n t a i n s t h e s p a n .

    A s e q u e n c e d a t a s t r u c t u r e i s e i t h e r

    A b a s i c s e q u e n c e d a t a s t r u c t u r e w h i c h i s o n e o f :

    { A n a r r a y .

    { A n a r r a y w i t h a g a p .

    { A l i n k e d l i s t o f i t e m s .

    { A m o r e c o m p l e x l i n k e d s t r u c t u r e o f i t e m s .

    A r e c u r s i v e s e q u e n c e d a t a s t r u c t u r e w h i c h c o m p r i s e s :

    { Z e r o o r m o r e b u e r s e a c h o f w h i c h c o n t a i n s z e r o o r m o r e s p a n s .

    { A ( r e c u r s i v e ) s e q u e n c e d a t a s t r u c t u r e o f z e r o o r m o r e d e s c r i p t o r s t o s p a n s i n t h e b u e r s .

    T h i s m o d e l i s r e c u r s i v e i n t h a t t o i m p l e m e n t a s e q u e n c e o f i t e m s i t i s n e c e s s a r y t o i m p l e m e n t a

    s e q u e n c e o f d e s c r i p t o r s . T h i s r e c u r s i o n i s u s u a l l y o n l y o n e s t e p , t h a t i s , t h e s e q u e n c e o f d e s c r i p t o r s

    i n i m p l e m e n t e d w i t h a b a s i c s e q u e n c e d a t a s t r u c t u r e . T h e d e c i e n c i e s o f t h e b a s i c s e q u e n c e d a t a

    s t r u c t u r e s f o r i m p l e m e n t i n g c h a r a c t e r s e q u e n c e s a r e l e s s c r i t i c a l f o r s e q u e n c e s o f d e s c r i p t o r s s i n c e

    t h e r e a r e u s u a l l y f a r f e w e r d e s c r i p t o r s a n d s o s o p h i s t i c a t e d m e t h o d s a r e n o t r e q u i r e d .

    7

    E v e n i f v i r t u a l m e m o r y i s p r o v i d e d t h e r e w i l l b e a n u p p e r b o u n d o n i t i n a n y a c t u a l s y s t e m c o n g u r a t i o n . I n

    a d d i t i o n , m o s t s o p h i s t i c a t e d s e q u e n c e d a t a s t r u c t u r e s d o n o t r e l y o n v i r t u a l m e m o r y t o e c i e n t l y s h u t t l e s e q u e n c e

    d a t a b e t w e e n m a i n m e m o r y a n d t h e d i s k . U s u a l l y t h e p r o g r a m c a n d o b e t t e r s i n c e i t u n d e r s t a n d s e x a c t l y h o w t h e

    d a t a i s a c c e s s e d .

    1 7

  • 8/10/2019 Data Structures for Text Sequences

    18/29

    7 . 1 T h e d e s i g n s p a c e f o r s e q u e n c e d a t a s t r u c t u r e s

    T h i s m o d e l c a n b e u s e d t o e x a m i n e t h e d e s i g n s p a c e f o r s e q u e n c e d a t a s t r u c t u r e s .

    T h e f o u r b a s i c m e t h o d s s e e m t o c o v e r m o s t o f t h e u s e f u l c a s e s . A b a s i c m e t h o d i s o n e w h e r e t h e

    n u m b e r o f d e s c r i p t o r s i s x e d . T h e a r r a y m e t h o d u s e s t w o d e s c r i p t o r s a n d t h e g a p m e t h o d u s e s

    t h r e e . W e c o u l d g e n e r a l i z e t h i s t o a t w o g a p m e t h o d u s i n g f o u r d e s c r i p t o r s a n d s o o n b u t i t i s n o t

    c l e a r t h a t t h e r e i s a n y a d v a n t a g e i n d o i n g t h a t . T h e l i n k e d l i s t m e t h o d i s b a s i c e v e n t h o u g h i t u s e s

    a d e s c r i p t o r f o r e v e r y i t e m i n t h e s e q u e n c e . T h e i t e m s a r e l i n k e d t o g e t h e r s o o n e d e s c r i p t o r s e r v e s

    t o d e n e t h e s e q u e n c e . A s s o o n a s w e t r y t o p u t t w o o r m o r e i t e m s i n t o a d e s c r i p t o r i t b e c o m e s a n

    i n s t a n c e o f t h e r e c u r s i v e x e d s i z e b u e r m e t h o d .

    U s i n g a m o r e c o m p l e x l i n k e d s t r u c t u r e t h a n a l i n k e d l i s t w i l l m a k e r e a d i n g i t e m s ( I t e m A t ) m o r e

    e c i e n t b u t m a k e s I n s e r t a n d D e l e t e l e s s e c i e n t . S i n c e I t e m A t a c c e s s i s n e a r l y a l w a y s s e q u e n t i a l

    t h i s t r a d e o i s n o t a d v a n t a g e o u s .

    T h e r e c u r s i v e m e t h o d s d i v i d e i n t o t w o t y p e s . T h e r s t u s e s x e d s i z e b u e r s a n d t h e s e c o n d u s e s

    v a r i a b l e s i z e d b u e r s .

    T h e r e a r e t w o i s s u e s i n t h e x e d s i z e b u e r m e t h o d T h e r s t i s t h e m e t h o d u s e d i n m a i n t a i n i n g t h e

    i t e m s i n e a c h x e d s i z e b u e r a n d t h e s e c o n d i s t h e m e t h o d o f m a i n t a i n i n g t h e s e q u e n c e o f b u e r s .

    T h e i t e m s i n a s i n g l e ( x e d s i z e ) b u e r a r e a s e q u e n c e . T h e t y p i c a l i m p l e m e n t a t i o n k e e p s t h e m a s

    a n a r r a y a t t h e b e g i n n i n g o f t h e b u e r . I n g e n e r a l t h e g a p m e t h o d i s s u p e r i o r t o t h e a r r a y m e t h o d ,

    t h u s i t m i g h t b e u s e f u l t o k e e p c h a r a c t e r s i n a s i n g l e b u e r u s i n g t h e g a p m e t h o d w h e r e t h e g a p

    i s k e p t a t t h e l a s t e d i t p o i n t . T h i s s h o u l d h a l v e t h e e x p e c t e d n u m b e r o f b y t e s m o v e d f o r o n e e d i t

    a t l i t t l e a d d i t i o n a l p r o g r a m c o s t . I f t h e e d i t s e x h i b i t l o c a l i t y ( a s t h e y t y p i c a l l y d o ) t h e a d v a n t a g e

    w i l l b e g r e a t e r .

    A l i n k e d l i s t i s u s u a l l y u s e d t o i m p l e m e n t t h e s e q u e n c e o f d e s c r i p t o r s ( b u e r p o i n t e r s ) a n d t h i s

    i s g e n e r a l l y a g o o d m e t h o d b e c a u s e o f t h e e a s e o f i n s e r t i n g a n d d e l e t i n g d e s c r i p t o r s ( w h i c h a r e

    f r e q u e n t o p e r a t i o n s ) . O n e p r o b l e m i s t h e e x t r a s p a c e u s e d b y t h e l i n k s b u t t h i s i s o n l y a p r o b l e m i f

    t h e r e a r e l o t s o f d e s c r i p t o r s . W i t h 1 K b l o c k s a n d e d i t i n g 5 M o f l e s , t h i s i s s t i l l o n l y 5 K d e s c r i p t o r s

    w i t h 1 0 K l i n k s . T h u s t h i s p r o b l e m d o e s n o t s e e m t o b e s i g n i c a n t i n p r a c t i c a l c a s e s .

    A n o t h e r i s s u e i s v i r t u a l m e m o r y p e r f o r m a n c e . L i n k e d l i s t s d o n o t e x h i b i t g o o d l o c a l i t y . I f t h e

    d e s c r i p t o r s w e r e k e p t u s i n g t h e g a p m e t h o d , l o c a l i t y w o u l d b e i m p r o v e d c o n s i d e r a b l y . A s s u m i n g

    a d e s c r i p t o r t a k e s f o u r w o r d s ( o n e f o r t h e p o i n t e r t o t h e s p a n , o n e f o r t h e l e n g t h o f t h e s p a n a n d

    t w o f o r t h e l i n k s ) t h e 5 K d e s c r i p t o r s w o u l d c o n s u m e 2 0 K w o r d s o r 8 0 K b y t e s ( a s s u m i n g f o u r b y t e s

    p e r w o r d ) . A g a i n t h i s i s s m a l l e n o u g h t h a t v i r t u a l m e m o r y p e r f o r m a n c e w o u l d p r o b a b l y n o t b e a

    s i g n i c a n t p r o b l e m , b u t i f i t w e r e , t h e g a p m e t h o d c o u l d i m p r o v e t h i n g s .

    T h e p i e c e t a b l e m e t h o d u s e s f e w e r d e s c r i p t o r s t h a n t h e x e d b u e r m e t h o d i n i t i a l l y ( b e f o r e a n y

    e d i t i n g ) b u t h e a v y e d i t i n g c a n c r e a t e n u m e r o u s p i e c e s . T h e r e a r e a d v a n t a g e s t o m a i n t a i n i n g t h e

    p i e c e s s i n c e i t a l l o w s e a s y i m p l e m e n t a t i o n o f u n l i m i t e d u n d o . I n a d d i t i o n , p i e c e s c a n b e u s e d t o

    r e c o r d s t r u c t u r e s i n t h e t e x t ( a s d e s c r i b e d i n s e c t i o n 7 . 1 ) . A s a c o n s e q u e n c e t h e r e m i g h t b e m a n y

    p i e c e s . T h i s m e a n s t h e p r o b l e m s p r e s e n t e d a b o v e i n t h e d i s c u s s i o n o f x e d s i z e b u e r s ( s p a c e

    c o n s u m e d b y l i n k s a n d v i r t u a l m e m o r y p e r f o r m a n c e ) m i g h t b e s i g n i c a n t h e r e . T h a t i s , t h e g a p

    m e t h o d o f k e e p i n g t h e p i e c e t a b l e m i g h t b e p r e f e r r e d .

    A n o t h e r g e n e r a l i z a t i o n w o u l d b e t o u s e t w o l e v e l s o f r e c u r s i o n , t h a t i s , t o u s e o n e o f t h e r e c u r s i v e

    1 8

  • 8/10/2019 Data Structures for Text Sequences

    19/29

    s e q u e n c e d a t a s t r u c t u r e s t o i m p l e m e n t t h e s e q u e n c e o f d e s c r i p t o r s . T h e r e c u r s i v e m e t h o d s a r e

    b e n e c i a l w h e n t h e s e q u e n c e s a r e q u i t e l a r g e s o w e m i g h t u s e a t w o - l e v e l r e c u r s i v e m e t h o d i f t h e

    n u m b e r o f d e s c r i p t o r s w a s q u i t e l a r g e . A s w e m e n t i o n e d a b o v e , t h i s m i g h t b e t h e c a s e w i t h a p i e c e

    t a b l e .

    S o t h e r e a r e f o u r n e w v a r i a t i o n s t h a t w e h a v e u n c o v e r e d i n t h i s a n a l y s i s .

    T h e x e d s i z e b u e r s m e t h o d u s i n g t h e g a p m e t h o d i n s i d e e a c h b u e r .

    T h e x e d s i z e b u e r s m e t h o d u s i n g t h e g a p m e t h o d f o r d e s c r i p t o r s . T h i s m i g h t b e b e t t e r i f

    v i r t u a l m e m o r y p e r f o r m a n c e w a s a c o n s i d e r a t i o n .

    T h e p i e c e t a b l e m e t h o d u s i n g t h e g a p m e t h o d f o r d e s c r i p t o r s . T h i s m i g h t b e b e t t e r i f v i r t u a l

    m e m o r y p e r f o r m a n c e w a s a c o n s i d e r a t i o n .

    A t w o l e v e l r e c u r s i v e m e t h o d t h a t u s e s a r e c u r s i v e m e t h o d t o m a i n t a i n t h e s e q u e n c e o f

    d e s c r i p t o r s . T h i s w o u l d s u i t a b l e i f t h e r e i s a v e r y l a r g e n u m b e r o f d e s c r i p t o r s .

    8 E x p e r i m e n t a l c o m p a r i s o n o f s e q u e n c e d a t a s t r u c t u r e s

    I n o r d e r t o c o m p a r e t h e p e r f o r m a n c e o f t h e s e d a t a s t r u c t u r e s I i m p l e m e n t e d e a c h o f t h e m a n d a

    s i m u l a t o r p r o g r a m t h a t w o u l d s i m u l a t e t y p i c a l e d i t i n g b e h a v i o r . T h e s i m u l a t o r h a s a n u m b e r o f

    p a r a m e t e r s t h a t I w i l l d i s c u s s i n p r e s e n t i n g t h e r e s u l t s . I r a n t h e s e t e s t s o n a s e v e r a l m a c h i n e s ( M i -

    c r o V A X I I I / V A X , S U N 3 / M 6 8 0 2 0 , S p a r c S t a t i o n 2 / S P A R C 2 , D E C 5 0 0 0 / M I P S 3 0 0 0 ) , u n d e r t w o

    c o m p i l e r s ( c c a n d g c c ) a n d w i t h m a x i m u m o p t i m i z a t i o n . T h e r e s u l t s f o r t h e d i e r e n t a r c h i t e c t u r e s

    a n d c o m p i l e r s w e r e a l l s i m i l a r . M o s t o f t h e r e s u l t s i n t h i s s e c t i o n w e r e o b t a i n e d u s i n g g c c a n d g p r o f

    o n a S U N 3 / 6 0 .

    T h e m e a s u r e m e n t s w e r e m a d e w i t h t h e f o l l o w i n g p a r a m e t e r s ( e x c e p t w h e r e o n e o f t h e s e p a r a m e t e r s

    i s b e i n g e x p e r i m e n t a l l y v a r i e d ) :

    S e q u e n c e l e n g t h o f 8 0 0 0 c h a r a c t e r s

    B l o c k s i z e o f 1 0 2 4 c h a r a c t e r s

    F i x e d b u e r m e t h o d s k e e p b u e r s a t l e a s t h a l f f u l l ( f r o m 5 1 2 t o 1 0 2 4 c h a r a c t e r s )

    T h e l o c a t i o n o f 9 8 % o f t h e e d i t s i s n o r m a l l y d i s t r i b u t e d a r o u n d t h e l o c a t i o n o f t h e p r e v i o u s

    e d i t w i t h a s t a n d a r d d e v i a t i o n o f 2 5

    T h e l o c a t i o n o f 2 % o f t h e e d i t s i s u n i f o r m l y d i s t r i b u t e d o v e r t h e e n t i r e s e q u e n c e

    A f t e r e a c h e d i t , 2 5 c h a r a c t e r s o n e a c h s i d e o f t h e e d i t l o c a t i o n a r e a c c e s s e d

    E v e r y 2 5 0 e d i t s t h e e n t i r e l e i s s c a n n e d s e q u e n t i a l l y w i t h I t e m A t s

    T h e s e q u e n c e d a t a s t r u c t u r e s m e a s u r e d ( a n d t h e i r a b b r e v i a t e d n a m e s ) a r e :

    1 9

  • 8/10/2019 Data Structures for Text Sequences

    20/29

    N u l l | t h e n u l l m e t h o d t h a t d o e s n o t h i n g . T h i s i s f o r c o m p a r i s o n s i n c e i t m e a s u r e s t h e

    o v e r h e a d o f t h e p r o c e d u r e c a l l s .

    A r r | T h e a r r a y m e t h o d .

    L i s t | T h e l i s t m e t h o d .

    G a p | T h e g a p m e t h o d .

    F s b A { T h e x e d s i z e b u e r m e t h o d w i t h t h e a r r a y m e t h o d u s e d t o m a i n t a i n t h e s e q u e n c e

    i n s i d e e a c h b u e r .

    F s b A O p t { T h e x e d s i z e b u e r m e t h o d w i t h t h e a r r a y m e t h o d u s e d t o m a i n t a i n t h e s e q u e n c e

    i n s i d e e a c h b u e r a n d w i t h I t e m A t o p t i m i z e d .

    F s b G { T h e x e d s i z e b u e r m e t h o d w i t h t h e g a p m e t h o d u s e d t o m a i n t a i n t h e s e q u e n c e

    i n s i d e e a c h b u e r .

    P i e c e { T h e p i e c e t a b l e m e t h o d .

    P i e c e O p t { T h e p i e c e t a b l e m e t h o d w i t h I t e m A t o p t i m i z e d

    I w i l l p r e s e n t g r a p h s f o r I n s e r t a n d I t e m A t o p e r a t i o n s . T h e D e l e t e o p e r a t i o n t a k e s a b o u t t h e s a m e

    t i m e a s t h e I n s e r t o p e r a t i o n f o r a l l t h e s e s e q u e n c e d a t a s t r u c t u r e s .

    F i g u r e 1 1 s h o w s h o w t h e s p e e d o f t h e I t e m A t o p e r a t i o n i s a e c t e d b y t h e s i z e o f t h e s e q u e n c e .

    I t b a s i c a l l y h a s n o e e c t e x c e p t f o r t h e i n t e r e s t i n g r e s u l t t h a t I t e m A t o p e r a t i o n f o r t h e P i e c e O p t

    0 : 0

    5 : 0

    1 0 : 0

    1 5 : 0

    2 0 : 0

    2 5 : 0

    3 0 : 0

    3 5 : 0

    0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 4 0 0 0 0 5 0 0 0 0 6 0 0 0 0 7 0 0 0 0 8 0 0 0 0 9 0 0 0 0

    s e c /

    c a l l

    S i z e

    I t e m A t | S i z e o f S e q u e n c e

    " N u l l I t e m A t . s z "

    3

    3 3 3 3 3

    3

    3 3

    3 3

    3 3 3 3 3 3 3 3 3 3

    " G a p I t e m A t . s z "

    +

    +

    +

    +

    +

    +

    +

    +

    + +

    +

    +

    + +

    +

    + +

    +

    + + +

    " P i e c e I t e m A t . s z "

    2

    2 2

    2

    2

    2 2 2

    2

    2

    2

    2

    2

    2

    2

    2

    2

    2

    2

    2

    2

    " F s b G I t e m A t . s z "

    " L i s t I t e m A t . s z "

    4

    4

    4

    4

    4

    4

    4

    4

    4

    4

    4

    4 4

    4

    4 4

    4

    4

    4

    4

    4

    " F s b A I t e m A t . s z "

    ?

    ? ?

    ?

    ?

    ?

    ?

    ? ?

    ? ?

    ?

    ?

    ?

    ? ? ?

    ?

    ?

    ?

    ?

    " A r r I t e m A t . s z "

    b

    b

    b

    b

    b

    b

    b

    b

    b b b

    b

    b

    b

    b

    b b b b b b

    " F s b A I t e m A t O p t . s z "

    c

    c c

    c c

    c

    c c c

    c

    c

    c

    c

    c

    c

    c

    c

    c

    c

    c

    c

    " P i e c e I t e m A t O p t . s z "

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e

    e e

    F i g u r e 1 1 : I t e m A t t i m e s a s t h e l e n g t h o f t h e s e q u e n c e v a r i e s

    m e t h o d g e t s f a s t e r f o r l a r g e r a r r a y s . T h e r e a s o n f o r t h i s i s t h a t f o r l o n g e r s e q u e n c e s t h e c a c h i n g u s e d

    2 0

  • 8/10/2019 Data Structures for Text Sequences

    21/29

    i n t h e o p t i m i z a t i o n b e c o m e s m o r e e e c t i v e . E a c h I t e m A t i s f a s t e r a l t h o u g h ( s i n c e t h e s e q u e n c e s

    a r e l o n g e r ) I t e m A t s i s c a l l e d m a n y m o r e t i m e s .

    T h e A r r m e t h o d i s t h e f a s t e s t a n d i s n e a r l y a s f a s t a s t h e N u l l m e t h o d . T h e G a p m e t h o d i s o n l y

    a l i t t l e s l o w e r . T h e F s b A m e t h o d i s m u c h s l o w e r a n d i s a b o u t t h e s a m e a s t h e L i s t m e t h o d , t h e

    F s b G m e t h o d a n d t h e P i e c e m e t h o d . T h e o p t i m i z e d F s b A m e t h o d i s n e a r l y a s f a s t a s t h e G a p

    m e t h o d a n d t h e P i e c e O p t m e t h o d g e t s c l o s e . E v e n s o , t h e P i e c e O p t I t e m A t i s h a l f t h e s p e e d o f t h e

    A r r I t e m A t . S i n c e I t e m A t i s s u c h a f r e q u e n t o p e r a t i o n i t i s n e c e s s a r y t o o p t i m i z e ( w i t h c a c h i n g )

    a l l t h e m e t h o d s e x c e p t f o r t h e A r r a n d t h e G a p m e t h o d .

    F i g u r e 1 2 s h o w s h o w t h e s p e e d o f t h e I n s e r t o p e r a t i o n i s a e c t e d b y t h e s i z e o f t h e s e q u e n c e . I t

    0 : 0

    1 0 : 0

    2 0 : 0

    3 0 : 0

    4 0 : 0

    5 0 : 0

    6 0 : 0

    7 0 : 0

    8 0 : 0

    9 0 : 0

    0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 4 0 0 0 0 5 0 0 0 0 6 0 0 0 0 7 0 0 0 0 8 0 0 0 0 9 0 0 0 0

    s e c /

    c a l l

    S i z e

    I n s e r t | S i z e o f S e q u e n c e

    " N u l l I n s e r t . s z "

    " G a p I n s e r t . s z "

    " P i e c e I n s e r t . s z "

    " F s b G I n s e r t . s z "

    " L i s t I n s e r t . s z "

    F i g u r e 1 2 : I n s e r t t i m e s a s t h e s i z e o f t h e s e q u e n c e v a r i e s

    h a s n o e e c t e x c e p t f o r s h o r t e r s e q u e n c e s . T h e L i s t m e t h o d i s t h e f a s t e s t a n d t h e F s b G , G a p a n d

    P i e c e m e t h o d s a r e a l l a b o u t h a l f i t s s p e e d .

    T h e A r r a n d F s b A m e t h o d s a r e n o t s h o w n o n t h i s g r a p h b e c a u s e t h e y a r e s o m u c h s l o w e r t h a t

    t h e y w o u l d d i s t o r t t h e g r a p h ( a s t h e n e x t t w o g r a p h s s h o w ) . F i g u r e 1 3 i n c l u d e s t h e F s b A m e t h o d

    w h i c h i s a n o r d e r o f m a g n i t u d e s l o w e r t h a n t h e o t h e r m e t h o d s ( f o r t h e I n s e r t o p e r a t i o n ) . F i g u r e

    1 4 i n c l u d e s t h e A r r m e t h o d w h i c h i s t w o o r d e r s o f m a g n i t u d e s l o w e r t h a n t h e o t h e r m e t h o d s . N o t e

    t h a t i t g e t s s l o w e r l i n e a r l y w i t h t h e s i z e o f t h e s e q u e n c e , a s o n e w o u l d e x p e c t .

    8 . 1 S e n s i t i v i t y t o p a r a m e t e r s

    F i g u r e 1 5 s h o w s h o w c h a n g e s i n t h e s t a n d a r d d e v i a t i o n o f t h e n o r m a l d i s t r i b u t i o n a e c t t h e I n s e r t

    o p e r a t i o n f o r t h e v a r i o u s m e t h o d s . O n l y t h e G a p m e t h o d a n d t h e F s b G a r e a e c t e d a n d o n l y a t

    m u c h h i g h e r s t a n d a r d d e v i a t i o n s t h a t o n e w o u l d e x p e c t i n n o r m a l t e x t e d i t i n g . T h e A r r a n d F s b A

    m e t h o d s a r e n o t s h o w n ( b e c a u s e t h e y a r e t o o l a r g e ) b u t t h e y a r e u n a e c t e d b y i n c r e a s e s i n t h e

    2 1

  • 8/10/2019 Data Structures for Text Sequences

    22/29

    0 : 0

    1 0 0 : 0

    2 0 0 : 0

    3 0 0 : 0

    4 0 0 : 0

    5 0 0 : 0

    6 0 0 : 0

    7 0 0 : 0

    8 0 0 : 0

    9 0 0 : 0

    0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 4 0 0 0 0 5 0 0 0 0 6 0 0 0 0 7 0 0 0 0 8 0 0 0 0 9 0 0 0 0

    s e c /

    c a l l

    S i z e

    I n s e r t | S i z e o f S e q u e n c e

    " N u l l I n s e r t . s z "

    " G a p I n s e r t . s z "

    " P i e c e I n s e r t . s z "

    " F s b G I n s e r t . s z "

    " L i s t I n s e r t . s z "

    " F s b A I n s e r t . s z "

    F i g u r e 1 3 : I n s e r t t i m e s a s t h e s i z e o f t h e s e q u e n c e v a r i e s

    0 : 0

    5 0 0 0 : 0

    1 0 0 0 0 : 0

    1 5 0 0 0 : 0

    2 0 0 0 0 : 0

    2 5 0 0 0 : 0

    3 0 0 0 0 : 0

    3 5 0 0 0 : 0

    0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 4 0 0 0 0 5 0 0 0 0 6 0 0 0 0 7 0 0 0 0 8 0 0 0 0 9 0 0 0 0

    s e c /

    c a l l

    S i z e

    I n s e r t | S i z e o f S e q u e n c e

    " N u l l I n s e r t . s z "

    " G a p I n s e r t . s z "

    " P i e c e I n s e r t . s z "

    " F s b G I n s e r t . s z "

    " L i s t I n s e r t . s z "

    " F s b A I n s e r t . s z "

    " A r r I n s e r t . s z "

    F i g u r e 1 4 : I n s e r t t i m e s a s t h e s i z e o f t h e s e q u e n c e v a r i e s

    2 2

  • 8/10/2019 Data Structures for Text Sequences

    23/29

    0 : 0

    2 0 : 0

    4 0 : 0

    6 0 : 0

    8 0 : 0

    1 0 0 : 0

    1 2 0 : 0

    1 4 0 : 0

    0 5 0 1 0 0 1 5 0 2 0 0 2 5 0 3 0 0 3 5 0

    s e c /

    c a l l

    S t a n d a r d d e v i a t i o n

    I n s e r t | S t a n d a r d d e v i a t i o n o f n o r m a l d i s t r i b u t i o n

    " N u l l I n s e r t . s d "

    " G a p I n s e r t . s d "

    " P i e c e I n s e r t . s d "

    " F s b G I n s e r t . s d "

    " L i s t I n s e r t . s d "

    F i g u r e 1 5 : I n s e r t t i m e s a s t h e s t a n d a r d c e v i a t i o n v a r i e s

    s t a n d a r d d e v i a t i o n o f t h e n o r m a l d i s t r i b u t i o n .

    T h e I t e m A t o p e r a t i o n i s u n a e c t e d b y i n c r e a s e s i n t h e s t a n d a r d d e v i a t i o n o f t h e n o r m a l d i s t r i b u t i o n .

    F i g u r e 1 6 s h o w s h o w t h e I n s e r t o p e r a t i o n i s a e c t e d b y c h a n g e s i n t h e p e r c e n t o f e d i t l o c a t i o n s

    t h a t a r e t a k e n f r o m a u n i f o r m d i s t r i b u t i o n o v e r t h e e n t i r e s e q u e n c e ( t h a t i s , w h e r e t h e n e x t e d i t

    i s r a n d o m l y l o c a t e d i n t h e s e q u e n c e i n s t e a d o f i n s t e a d o f b e i n g n o r m a l l y d i s t r i b u t e d a r o u n d t h e

    l o c a t i o n o f t h e p r e v i o u s e d i t ) . O n l y t h e G a p m e t h o d i s a e c t e d .

    F i g u r e 1 7 s h o w s h o w t h e I t e m A t o p e r a t i o n i s a e c t e d b y c h a n g e s i n t h e p e r c e n t o f e d i t l o c a t i o n s

    t h a t a r e t a k e n f r o m a u n i f o r m d i s t r i b u t i o n o v e r t h e e n t i r e s e q u e n c e ( t h a t i s , w h e r e t h e n e x t e d i t

    i s r a n d o m l y l o c a t e d i n t h e s e q u e n c e ) . O n l y t h e P i e c e a n d L i s t m e t h o d s a r e a e c t e d b u t o n l y i n

    r a n g e s t h a t o n e w o u l d n o t e x p e c t t o n d i n n o r m a l t e x t e d i t i n g .

    F i g u r e 1 8 s h o w s h o w t h e b u e r s i z e a e c t s t h e t i m e t a k e n b y t h e I n s e r t o p e r a t i o n i n t h e F s b A a n d

    F s b G m e t h o d s . T h e F s b G m e t h o d i s u n a e c t e d b y t h e b u e r s i z e w h i l e t h e F s b A m e t h o d g o e s u p

    l i n e a r l y ( a n d s h a r p l y ) a s t h e b u e r s i z e i n c r e a s e s . T h e i n c r e a s e l e v e l s o a t 8 0 0 0 w h e r e t h e b u e r

    s i z e i s e q u a l t o t