28
Capítulo 14 La documentación lingüística y la codificacibn de textos Jost Gippert Introducción En la documcntacion lingüística, la notaciijn de textos eti forma escnta siempre ha desempeñado un papel importante, incluso despiies del desarrollo de los dispositivos de almacenamiento audiovisual. La era digital ha provocado, si acaso, un cambio menor a esta si tuación en tanto que ahora podemos esperar que nuestros datos escritos sean útiles para mucha gente y durante rnuclios siglos sin que necesarianiente se impriman o se distribuyan como libros. Sin embargo, para lograr este propiisito se debe tener en considcracion ciertas cuestiones preliminares que se tratarán en este capitulo. La irprcsentación de textos en fornia digital difiere del uso de lapiz y papel pues presupone la adaptación dc ctjdigos claramente definidos en un sentido doble: la codificaciiin de carücteres, es decir, dc las letras en las palabras que habrán de escribirse, y la codificación de los elenientos de la estructura textua!, es decir, cricabezados, ejemplos, listas de vocabiilario, etc. Los dos tipos de codificación son cruciales para el intercambio de datos con otras pzrsonas: titi futuro usuario que no tenga información sobre los esqucmas de codificación qiie se hayan aplicado, probablemente tendrá grandes dificultades al tratar de volver a decodificar (y leer) lo que se escribió: cn el peor de los casos. esos datos scrin totalmente irrecuperables. En las páginas siguieiites explicaré brevemente por que esto es de esperarse y que se puede hacerd para evitarlo. Empezaremos con la codificacibn de las unidades de texto más pcqiieñas, es decir, los caracteres, y procederemos a elementos nias grandes cotiio palabras, tiascs y sintagmas. Otros tipos de codificación que piid ieran cabcr en la presente discusiiin (especialrncnte la codificación de archivos; véase el capitulo 4) se trataran de paso.

documentación 22

  • Upload
    andrea

  • View
    247

  • Download
    2

Embed Size (px)

DESCRIPTION

ff

Citation preview

Page 1: documentación 22

Capítulo 14

La documentación lingüística y la codificacibn de textos

Jost Gippert

Introducción

En la documcntacion lingüística, la notaciijn de textos eti forma escnta siempre ha desempeñado un papel importante, incluso despiies del desarrollo de los dispositivos de almacenamiento audiovisual. La era digital ha provocado, si acaso, un cambio menor a esta si tuación en tanto que ahora podemos esperar que nuestros datos escritos sean útiles para mucha gente y durante rnuclios siglos sin que necesarianiente se impriman o se distribuyan como libros. Sin embargo, para lograr este propiisito se debe tener en considcracion ciertas cuestiones preliminares que se tratarán en este capitulo.

La irprcsentación de textos en fornia digital difiere del uso de lapiz y papel pues presupone la adaptación dc ctjdigos claramente definidos en un sentido doble: la codificaciiin de carücteres, es decir, dc las letras en las palabras que habrán de escribirse, y la codificación de los elenientos de la estructura textua!, es decir, cricabezados, ejemplos, listas de vocabiilario, etc. Los dos tipos de codificación son cruciales para el intercambio de datos con otras pzrsonas: titi futuro usuario que no tenga información sobre los esqucmas de codificación qiie se hayan aplicado, probablemente tendrá grandes dificultades al tratar de volver a decodificar (y leer) lo que se escribió: cn el peor de los casos. esos datos scrin totalmente irrecuperables. En las páginas siguieiites explicaré brevemente por que esto es de esperarse y que se puede hacerd para evitarlo. Empezaremos con la codificacibn de las unidades de texto más pcqiieñas, es decir, los caracteres, y procederemos a elementos nias grandes cotiio palabras, tiascs y sintagmas. Otros tipos de codificación que piid ieran cabcr en la presente discusiiin (especialrncnte la codificación de archivos; véase el capitulo 4 ) se trataran de paso.

Page 2: documentación 22

l . La codificación de caracteres: de 7 bits a 32 bits

1 . 1 . Computadoras de Unidad Central ( M a i ~ f r a m e ) : la cra ASCIl

En todos los equipos digitales modernos, Iri codificación de caracteres se basa en un conjunto dctcrminado dc ccirrcspondencias entre caracteres y valores numericos, en el que cada caractsr está representado por un valor Único. Para codificar las 26 letras del alfabeto latino dos veces (mayúsculas y minúsculas), más los digitos del O al 9, los signos de puntuacion, parentesis y otros signos sji-ililares, es ncccsario un conjunto de menos de 100 valores iinicos. Por esta razon, las computaduras de unidad central de la "edad de piedra" (las décadas de 1960 y 1970) tenian como base lo que se conoce como codificación de 7 bits (dígitos binarios): con 7 bits se puedeti codificar 2' = 128 caracteres de manera unívoca. El estandar mas conocido desarrollado sobre esta base es el llamado código ASCIl (Arnt~ri~~crri Standard Cudc. Jor . lnfiirmation Inte~hange, "Código estadounidense estríndar para el intercriinbio de información"), vease la Tabla l .

T17bh7 1. CUdificíici611 estandarizada de 7 bits (ASC 11)

0 6 0 < = > ? @ A B C D E F G H I J K L M N O

0 8 0 P Q R S T U V W X Y Z [ \ 1 A - ' a b c

1 0 0 d e f g h i j k l m n o p q r s t u v w

O 1 Queda claro que con base en este esquema de codificación, los textos en inglés podrian ser digitalizadcis fjicilmente, pero no los tcxtos en alemán,

Page 3: documentación 22

frances o espahol, y ni qué decir de los textos griegos, rusos o chinos en sus grafias originales. Sin embargo, esto no significa que en ese entonces fuera iinposible procesar textos en lenguas "exóticas". Siilo había que inventar esqueilias de codificación que utilizaran más de una unidad digital para representar ciertos caracteres. Véase en la Tabla 2 la adaptación a 7 bits de un texto en sanscrito, un pasaje dcl Rigveda, que se produjo en la década de 1970 en una computadora de unidad central, a la que se añade la trascripción "tradicional" para su comparación. Resulta claro quc esta codificación tenia al menos dos desventajas: dificil mente era posible visualizar el texto en si1 forn~a original en una paritalla de computadora, lo que daba corno resultado una gmn cantidad de errores al introducir los datos, y la codificación no era transparente (no se "explicaba por si misma"), en el sentido de que las unidades individuales (letras. diacriticos. signos de acentuación) facilrnente pudieron haber sido determinados por aiguien que no estuviera involucrado en los procesos de codificación. Es cierto que esta codificación satisfacia Isi condjciiin de ser consistente, ya que una detenninada secuencia dc códigos siempre representaba el inismo caracter, y esta es la raziin de que estos textos se pueda11 utiIizar y analizar incIuso hoy en día. Sin embargo, resultaba demasiado torpe para ser sostenible durante un periodo inás largo.

Tublu 2. Codificación no estandarizada de 7 bits (Rigveda 7, 1 )

R70012304 1 AGNI!M+ NA!RO DI:!D)ITIS)IR ARA!N\YOR HA!STACYUTI: JANAYANTA PRAS=ASTA

R700.123012 !M I OU:REDg!S=AM+ GSHA!PATIM AT)ARYU!M

R700123021 TA!M AGN I!M A!STE VA!SAVO NY 9&N\VAN SUPRATICA!KSMM A!VASE KU!TAS= CI

R700123022 T / DAKS\A:!YYO YO! DA!MA A:!SA NI!TYAH- R70012303f PRE!DD)O AGNE DI:DIHI PURO! NO! 'JASRAYA: SU:RMYA:&

YAVIS\T\)A I W A : ! R700123032 M+ S=A!S=VANTA U!PA YANTf VA:!JA:H-

Page 4: documentación 22

1.2. PCs, Macs, DOS y M S Wjnduws: cstaridares y no estándares basados en S bjts

Este problema quedó silperado al meiicls de rnaricra parcial a l extender a 8 bits la base de codificación ASCLI. Con una base di: 8 bits (= 1-bytc) se pueden coditlcni- de manera univoca 7" 256 caractcrcs. Desde principios de la década de 1980 se desarrollaron y aplicaron tiiuchos esquemas dc codificación de 8 bits que añadían al inventario caracteres especiales como aquellos que representan las vocales con difresis del alemán a. u, u (con las que se representa la mctafonía intenocrilica), las vocales acentuadas é, a, 6, etc. del francés o la palatal nasal ñ del español. Desafurtunadarnente, esto no se hizo de una manera homogtriea, "estandarizada", dcsde el principio; sino que algunas de las nias importailtes conlpaiiias de compuladoras desarrollaron cada una su propio esquema. Esto provocó serios problemas cuando los datos habían de intercambiarst. cntrc sisteinas. Compárense las Tablas 3-5, que muestran los sistemas de ctidificacion utilizados en las computadvras IBMiDOS, las coiiiputadoras Macintosh y e! ambiente MS Windows. Sólo esta ultj~ila es mas o menos idéntica al estándar de 8 bits qiic hasta el día de hoy se utiliza en allibientes web, cl estanilar ANSl I American Nurinnnl Stund~irds It~stiture. "Instituto nacionril de estándares de Estados Unidos), tainbién conocido corrio el estandar no. 8859-1 de la JSO (Inrcv-nationrrl Stcrndards Orgutiizutirin, Organizrici61i Iriternacional para la Estandari~ación). Los caracteres especiales de MS-W indows se destacan con iiti fondo gris dentro de la Tabla 5.

Page 5: documentación 22

1 O 6 8 L 9 S P E Z 1 0 6 8 L 9 S P E Z L O

a , . - - . ' u n n o OPZ o o ! l , 3 3 v 3 v ' " ~ ~ t l I i ' 022 a / A ! ! . . + 0 3 . . u

- - a B o v y " 002 n ~ * J ~ ~ ~ ! ? o a u , , j u ~ ~ ~ r i s 0 8 ~ - - 0 . . v r ~ @ * Y 3 091

n n n n o o o o p u ! . ! ! ! a ? ? ? j ? OPL e e ~ e ~ n o y 3 3 v v - 1 I f A x ozc ~ ~ n l s ~ b d o u u l y I ~ q G j e p 001

1 o 6 8 L 9 S P E Z C 0 6 8 L B S P G Z 1 0

W Z U ' . . ~ = A 1 , ) 3 7 T i ot'z u - . G x 9 u U O @ ~ r f ~ 3 ~ _ I U ~ . ~ I m OZZ

J l = 1 J L - J 1 ' r 9 # U J ~ ~ r A ~ ~ ~ r 11 IC n ooz 11 $ f - j ' T I r C l i k I I 1: C k I t b t 08L \ ~ p j ; ; « i 1 ! ? , N g n o ! E 0gC

~ 1 * 3 ~ n o ñ ? n o o o ~ = 3 y v ! ovc ! . e e a 3 e e e e ? n S u - ( l l z ñ x ozc ~ ~ n ~ s i b d o u w ~ y j ! q ~ ~ e p OQC

- 3 q E . [ \ 1 Z A X M A ~ ~ S ~ O ~ OSO 0 ~ w 7 n r I H ~ A ~ I ~ ~ ~ v @ ¿ c = > 090 : : 6 8 L 9 C P E Z L O / ' - ' + . o OW , 2 ' h $ # , i r - * ' + - f i t m 9 L OZO ii i t q l . ' d C ) U ' O t + + + A a O00 6 8 L 9 C P I Z 1 0 6 8 L 9 S P E G L O

L O

Page 6: documentación 22

Tuhlu 5. Codificación estandarizada de 8 bits (ANSI, ISO-8859-1, MS- W iildows, Página de códigos 1353)

o 1 O 1 2 3 4 5 6 7 8 9 O 1 2 3 4 5 6 7 8 9

o00 020 ! u # $ ' S , & '

040 ( + , - / O 1 2 3 4 5 6 7 8 9 : ; 060 < = > ? @ A B C D E F G H I J K L M N O

080 P Q R S T U V W X Y Z [ \ ] A - a b c

100 d e f g h i j k l m n o p q r s t u v w 120 x y z { I ) - , f . ... t $ ' % S r

140 CE 4 7 u r i ,, ) O B Y 160 i $ f : , ~ ~ § " ( C ) a " f 2 2

180 ' p q - A ' O » ' / a % % ¿ A A A A A A E q 200 E É E E ~ í i i ~ Ñ C ) Ó B d o x a u u ü 220 U ~ b B a á á a a a a e q e é i e i Í i Y 240 B ñ o ó 6 o o + o u u i ü y b y

O 1 2 3 4 5 6 7 8 9 O f 2 3 4 5 6 7 8 9 O 1

AUn así, estos sistemas no eran suficientes para la codificación inmediata de otras grafias, como las del griego, el cirilico o el chino. Por csto sc desarrollaron desde tiiediados de la década de 1980 las llamadas "páginas de códigos" (codt1 pcigc>s) para computadoras con base de 8 bits. Así como en los ejemplos anteriores, en estas páginas de códigos se utilizó el área '*superior" (la de los valores superiores a 1281, que excede e1 estándar ASCII básico, para codificar otros conjuntos de caracteres. Algunas de estas paginas de códigos se han estandarizado con la norma 180-8859 (vkase, por ejemplo, la Tabla 6 , en la que se contrasta la pagina de codigos ISO-8859-5 para el cirílico con el estándar ANSI, que es la norma ISO-8859-1.

Page 7: documentación 22

Tublu 6 u/h. Mapeo estandarizado de 8 bits: ISO-8859-1 (6a) vs. ISO-8859- 5 (6b)

32 ! ' # S % & ' ( i m + . - . ! 4 7 32 ! ' # S % & ' ( ) ' + . - 1 4 7

48 O 1 2 3 4 5 6 7 8 9 : ; < = > ? 63 4 8 0 1 2 3 4 5 6 7 8 9 . : e = > ? 63

64 @ A B C O E F G H t J K L M N O 79 64 @ A B C D E F G H I A K L M N O 79

96 ' a b c d e f g h i j k I m n o 111 96 ' a b c d e f g h i j k l m n o 111

112 p q r s t u v w x y z ( I 1 - 127 112 p q r s t u v w x y z { 1 ) - 127

Además de estas extensiones "oficiales", desde principios dc la década de 1980 se desarro118 una cantidad desconocida de sistcmas de codificación de X bits locales e incluso personales para satisfacer las tiecesidades dc las lenguas y de los lingüistas. Dc heclio, cada vez que alguien desarrollaba o aplicaba cierto tipo de fuente tipográfica, cuya codificación no correspondiera con alguna de las p5ginas dc códigos estandarizadas: se crcaba un nuevo sistema de codificacion desde cero. Después, al aplicar el mitodo de "inapeo de caracteres" ( J I H ~ mapping), podíamos satisfacer, por ejemplo, los requisitos para atiotar e1 griego antiguo (politiinico) con sus caracteres ciriginales o para represetitar las lenguas iranias con una trascrjpcibn latiiia (kéanse las Tablas 7-81,

El problema de todo esto es que cuando se aplica cl mapro de caracteres no sc pueden garantizar los requisitos hisicos de dricumentacion, es decir, la persistencia y la posibilidad de recuperariiiil de los datos, porque no hay utia correspondencia univoca entre el caracter que ha de codificarse y un valor digitali~ado asignado. Si, por ejemplo, aplicamos la fuente de 8 bits del griego ilustrada en la Tabla 7, el valor 23 1 representaría una letra griega pi (n) minúscula, mientras que el rnisnlo valor representaría una cha (r) cirilica si utilizáramos iinn fiientz que equivaliera a la piígina de códigos estandarizada ISO-8859-5 y iinri r [atina con cedilla ($1 si utilizáramos la norma ANSl básica. Esto significa que cada vcz que se aplique una

Page 8: documentación 22

394 Jost Cippert

codificación de 8 bits en la coditlcación de textos, se debe almacenar información adicional para indicar qué página de códigos ci qué codificación dc caracteres es vrilida para un caracter determinado. Sin embargo, esta información no se puede codificar como tal de manera estandarizada y se pierde fácilmente cuando los datos se transtieren de iiti sistema a otro. Un ejei-i~plo sera suficiente para ilustrar este fen6men0, que puede ser peligroso para el alinaceliainiento de textos a largo plazo.

Tabia i Codificación no estandarizada de 8 bits: gricgu antiguo (politiinico)

6 f r . . . Z4rTi) ! * L q f i n j j * ' J

( " f . ' 0 1 3 4 5 6 7 S 9 : ;

? , ? ; A B C D E F G H I J L L M N O P Q R S T U V W S Y Z [ n ] ; I d ' a b c

d e f g h i j k 1 r n 1 i p q r : t u v w X y z , j ~ q i j i i a ü a a ~ i a ~ ~ i

i i A l d V & B ó b i \ B ~ O U & E i 8 i j I r ( 6 1 ? ~ $ 4 1 4 $ @ @ @ w i $ T * & n n r A < n f i e w ~ ~ ~ ~ z w n w r o & s a ~ r ~ a q i 6 Q Q f i f i s a t i Q Q d t a d ; , ¿ i ~ ~ q l % p í I . u i ' : c j r r @ a r c c p ~ q + w

e i G Q I $ n w u I r t i 0 6

O 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 O 1

Page 9: documentación 22

Cupítulo 14-La do~~ut~let~~uciB12 lingiii~ticu y lu cod~ficación de textos 395

Tabla 8. Codificación no estandar de 8 bits: fuente latina con diacriticos

O 1

O 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 000

., . " . Y , - - .

020 " 5 - 6 . E P b u m b ' ! " # t " " 040 o * + , - . ! 0 1 2 3 4 5 6 7 8 9 : : 060 < = > ? d A B C D E F G H I J K L M N O 080 P Q R S T U V W X Y Z [ i 1 a b c

100 d e f g h i j k l n i n o p q r s t u v w

-1 20 X ~ Z { 1 ) - = ; U 4 i , i A c e e e 1 140 i i A o e ~ a B o o u u ~ O U i e i ó ú 160

, , - - ~ i a ú i i t ~ ~ e i 6 ü i j i i i Í i + i 1

1 80 - - 6 ~ i i x U i q ~ ~ ~ ~ ú ~ e i o q j ~ a i 200 a q ? q é é é ~ i y < u y y ~ b c d d ¿ 220 g g g - ; h B h h i k 1 1 i l n i m m q n n j

24 0 n r ; ! f r s + 3 s $ t t B p 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9

O 1

1.3. ConversiJn y pcrdida de datos: un ejemplo

En la Tabla 9a se muestran las diez primeras líneas de una canción popular en lengua suano (svan), digitalizada a principios dc fa década de 1980 en un ambiente DOS con una fuente especial que cubría los requisitos de Ia trascripción latina de las lenguas del sur del Caúcaso. Codificado coino texto sirnple, sin ningún tipo de inforrnacion adicional sobre la fuente, el texto habria aparecido como se niuestrri en la Tabla 9b en una pantalla dc sisteriia DOS, Descifrar que simbolo corresponde n la representacicin de qué caracter ciertamente seria iitia tarea dificil. Imagineinos a un lingüista que encontrara el texto dentro de 200 años y que no tuviera ninguna otra información sobre la Lengua en cuesr i811 (que para eritonces quizás ya habria

L 4 desaparecido, pues el suano perteilecc a las Lenguas caucásicas amenazadas de Georgia" del programa DoBeS).' Este lingui sta no tendría

1 Scgun CI proyecto ECLinCi (por sus siglas cn inglb: Eiidaiigered Caucasian Languagcs in Georgia), que forma parte di l programa DciBcS (Dokiimcntation Bcdruhfcr Sj?i-rrrhen, "Documentación dt Lenguas Arrienazadas"). Véase la pagiiia web del proyccicb en http:!!titus.fkidg1 .uiii-frankfurt.de/eclii~p~ccling.htm.

Page 10: documentación 22

posibilidades de adivinar los valores de los caracteres crucialcs y por lo tarito no podría recuperar el texto en si mismo.

Tabla 9a/h. Mapeo de caractcrcs en una codificación de 8 bits: muestra de un texto en suuno (svan)

a.

1 ~~ojj;ilsiibir~fuiVti;~rs.?b!

2 i\f trsvr,?ii pbns esgari.

3 sgol~j ,~ ~;~j.l~~itlil.l- Coliare.

4 I I I ~ I I 31.~?Idii v s i IIIO&~;IIY,

5 esral~ irix r i i t ~ i ;iiii,t*iTre.

6 k i ~ litji~dgw ~ ~ Y ~ ~ ~ I - , I I I I A ~ ~ I I .

7 nirqrar s'aq;tsii~t. ejlnjix.

S hr 13 j!a.rir M r r i ~ ~ r ; ~ rir6;is.

9 DnirLierxo lr.ki;i esq;~rl;is.

10 Dn vhriir. joriirs .ocrjari;rlis:

11 ~~t~~i~~csgt~~ix~~~t~ig~~rji:~.

b.

vui 1141 .:d$ir~l: N , : d : ? i l ~ !

M.,iTrv r- a!Ji 1.1 :ibas e s lp: ,

s g ' > k i :: l&mxvida:.: -1:~l9aro,

r n i ~ iixaldax :: ?..*rtare,

FEran i r i x mir a-!:<-,are.

k a 1 a i d d a x e-xanc-amx an::,

rneqran: &faz u e i i a i i l : ,

-u l a i f i g z i z 1q:Rvza n~13a.z.

2 a i r L . e ~ :Y::, lekva ~ . s r e i ; l f i s ,

r'av):rar 1Krar.o x; c r a n a i i x :

l=%?fiü:-~ cq:ii;l rnuRgl~rif la .

1.4. Unicode: hacia un tistindar mundial

~ C u ü l es, pues, la solución a este problema? La rzspuesta es clara: para codificar de manera univoca todos los caracteres que se han utilizado para escribir las lenguas de la hiirrianidad (incluyendo desde grafias y alfabetos "nacionales" hasta "metagrafias" lingüisticas, como el Alfabeto Fonético Internacional, IPA por sus siglas en itiglés: Infel-national Phonetic Alphabet),.la base de codificacion dehc cxtznderse mucho más alla del estándar de 1 byte (8 bits). Esto es exactamente lo qiie se intento desde principios de la década de 1990 cuando se creó el estándar Unicode: con su base de 16 bits (o 2 bytes). esta norma coinpreiide 216 = 65,536 combinaciones utilizadas para la codi ticación "unívoca" de caracteres. Si se considera que tan sólo para la grafia del chino se han utilizado más de 65,000 caracteres diferentes a través de la historia, resulta claro que incluso este estindar no es todavia suficiente para cubrir todos los caracteres qiie la humanidad ha utilizado en todos los tiempos. Sin embargo, se está desarrollando una extensión adicional mediante la n o m a 1SO 10646 de 32

Page 11: documentación 22

Capitulo 14-La documentacibn lingüútica y /a ccd{ficucicin de textos 397

bits, que genera un total de 2'2 = 4,294,967,296 puntos de código. De hecho, el estindar Unicode no es sino un subconjunto de este inventario "infinito", así como el estandar ANSI (ISO 8859- 1 ) es un subconjunto de Unicode y el estándar ASCII es un subconjunto del ANSI (véase la Figura 1 ).

Fígiru l . De la coditicación dc 8 bits a la dc 32 bits

El estándar Unicode ha cobrado una importancia creciente desde finales de la década dc 1990, a la par de la cxpansion dc la rcd mundial WorW Wide Weh, y ahora es la base de la codificación en los sistemas operativos y procesadores de texto más actualizados. Sin duda, esto representa una enorme ventaja para los propósitos de la documentacion lingüística. Veanse, por ejemplo, las Tablas loa y 10b, en las que se muestran algunos de los "bloqucs" de caracteres Unicode: ahora queda garantizada la distinción entre una che (r) cirílica y una c latina con cedilla ($1 porque sus códigos están diferenciados (niimero hexadecimal 0447 = decimal 1095 V.T.

hexadecimal 00E7 = decimal 231). Además, ahora muchos caracteres de basc latina utilizados en sistemas de trascripcion se pueden codificar coino caracteres griegos, georgianos o chinos.

Page 12: documentación 22

Tabla 10 ah. Codifícacion en 16 bits: bloques Unicode para los alfabetos latino (a) y cirílico (b)

008 M8 $ c i " ' " -:: . . -n i i b 6 P p

009 w g r r r r S r ; j k ' , x ' ) ! K u K K K ~

OOA i c i a i ; $ - ' t l . f - 9 - O ~ A ' ~ ' X H H H ' H ~ & ~ @ ~ ~ C ~ T ~ Y

o o ~ = i : j ' ~ r l . . l ~ , . c , r : ; . , i . D ~ B S ~ S ~ U ~ ~ I ~ ~ Y ~ ~ ~ ~ F V ~ ~

O O C A Á A Á A A & ~ E É É : E ~ 1 i r o 4 c r a a b b . x a y H~ '1 r M V ~ o D ~ ? ~ o ~ B Ó o x ~ u u O U Y ~ . B ~ ~ A a A a r ~ e E e a a 3 a ~ ~ i 3

O O E i a i r i a i 2 c i : e e e i i i i 0 4 E 3 j n e i i 1 i 0 0 0 e 9 e 3 3 J í j

O O F O n a o b o d + ~ u ú i j u ~ ~ ~ M F _ v ! : Y ~ ~ I ~ bl Q

Quizás valga la pena destacar que Unicode no fue el primer intento por prevenir el caos de los mapeos de caracteres de 8 bits en codificaciones de 16 bits. En 1988 apareció cl proccsador de palabras WordPerfect 5.0 (WP 5), que contenía un conjunto de 1632 caracteres codificados de manera unívoca, incluidos conjuntos dc griego, cirílico y japonés (hiruguna y katakana) además de un bloque de 255 entidades que el propio usuario podía definir (la llamada user deJnable ureu). De esta manera, los textos codificados en WP 5 pueden cumplir con los requisitos de codificación unívoca de caracteres incluso hoy día y es posible mantener intacta la información que contienen cuando estos textos se transfirieran al estándar Unicode. Desafortunadamente, el sistema de codificación de WP no tuvo un uso tan generalizado y se pasaron por alto las oportunidades que ofrecía; así, no podemos esperar que las rutinas de conversión automática para textos de WP 5 que ofrece, por ejemplo, M S Word 2000 interpreten correctamente y recodifiquen cualquiera de los caracteres no estandarizados

Page 13: documentación 22

que pudieran estar incluidos en esos textos. En la Tabla 1 1 se ilustra lo que pasa cuando la canci6n popular en suano mencionada antes (véase Tabla 9 ) se codifica de manera consisiente en WP 5 y después se convierte automiticamentc eli texto de MS Word. En particular, la versihn convertida qiieda inutilizable e irreparable porque los caracteres "no identificados" son remplazados por un giii8n bajo no diferenciado C ). Lo mismo ocurre con la conversión automática proporcionada por versiones posteriores del mismo WordPerfect (por ejemplo WP 9); en ésta, por ejemplo, la a se reemplazó por una B, quc es obviamente confuso. Todo esto significa que una cunversibn correcta de textos codiiicados en WordPerfect 5 (o por lo menos de los caracieres en cllos contenidos) a codificación Unicode es posible, pero requiere de una programación especial.

Totilcr 1 f cr/b. "Conversión" automatica de texto: ejemplu del suano (svan)

1 i-u- f.01 scihirulo Ni~nlsnln! 1 i.oA gnl snbirelo Nlinrsolci!

2 ,khrSibrcrJi - trbosc.~Y - ri, 2 .&III +ibrrzSi Mribns esgBri.

3 spbili Icr-,ri-irin.u -oljnr~, 3 sgabiu /oclA~i.ido.u i~olsnrc,

3 niiii .- i,rnidd.u si nio - ~ni.e, 4 inni Ai.~nalr~nx ~i ~iioirrnre,

1.5. Estándarcs coexistcntes: el peor de los casos

Ahora la pregunta es: gealmcrite estamos en un terreno seguro dcspués de que Unicode se conviríiij en la norma mundial para la codificación de caracteresL? Hay qiie reconocer que todav ia hay muchos proble tnas coinplicados sin resolver, y no solo con respecto a la conversión de

Page 14: documentación 22

400 Jost Gippczrt

materiales antiguos. El principal problema está en el hecho de que, por el momento, el procesainiento digital de palabras se caractcriza por la coexistencia real dc sistcmas dc codificación de 16 bits y 8 bits. Asi como el estándar ANSl de 8 bits se incorporo al estándar Unicode de 16 bits como uno de sus "bloques", todos los proccsadores de palabras basados en Unicode, conio MS Word 2000, se han diseñado para poder manejar textos codificados tanto en 8 bits como en 16 bits. De la misma manera, los sistcmas operativos basados en Utiicode, coino MS Windows 2000, se han diseñado para incorporar fuentes tipogrrificas codificadas en 8 bits junto a las codificadas en 16 bits. Unos cuantos ejen-iplos bastaran para demostrar la confusión que esto puede causar.

La Tabla 12 muestra una lista de verbos gevrgianos capturada en MS Word 6 , utilizando una fuente georgjana simple de 8 bits mapcada según el esquema de codificación ANSl de 8 bits. Cuando recibi este archivo de texto de un colega en Georgia, vía correo electriinico, hace dos años, traté de abrirlo cn MS Word 2002 (XP Office). El resultado fue extraño. por decir lo menos: en Iiigar de s u texto, apareció en pantalla un texto en la escrj tiira japonesa kalakana (véase la Ta blri 1 2b). Cuando abrí el texto en Oyen Uffici: 1 . obtuve otro resultado: los caracteres georgianos habian sido rcmplazados por caracteres latinos con diacríticos (véase la Tabla 12c), un resultado previsible si se toma en cuenta que la codificación original estaba basada en 8 bits. Tras aplicar la fucntc georgiana cori-ectri a este texto dentro de Open Office, reapareció el aspecto buscado (comci en la Tabla 1 ?a) y cl texto pudo ser re-mapeado a una fuente de trascripción quc utilizaba los ii~isnios puntos de código de 8 bits (véase la Tabla 1 2d). Tratar de aplicar la fuerite gecirgiana a los caractcrcs japoneses que aparecieron en pantalla con MS Word 2002 no cambió nada, pues los caracteres X-cir~rkcina siguieron siendo caracteres k~~tcrkuna (como se muestra cn la Tabla 12b).

Tabla 12 a-d. "Conversion" autui-i-iat ira de texto: ejemplo del georgiano (lista de palabras)

a. Texto original (MS Word ti)

Page 15: documentación 22

Capítulo 14-La documentación Il~guisrica y la cod~~cación de textos 40 1

b. El mismo texto despuis de una transferencia entre versiones de un mismo programa (MS Word h r M S Word 2002)

c. El mismo texto después de transferencia entre programas (MS Word 6 > Open Office 1)

d. Lo mismo ocurre al aplicar una fiiente diferente (dentro de Open Office 1 I

¿Cómo puede explicarse esta conducta extraña de MS Word? Obviamente, el progrnrna ejecuta una estrategia de cinco pasos cuando se encuentra con textos codificados en otras versiones (más antiguas):

1) Verifica si el documento está codificado en Unicode. 2) En caso negativo, verifica si la distribución de caracteres coincide

con la distribución "típica" de alguna de las yisinas de cijdigus conocidas.

3) En caso afirmativo, da por hecho que esa pazjna de cbdigos es la que debe representarse.

4) Convierte los caracteres de 8 bits de la pagina de ~ridigos aceptada como correcta a los caracteres equivalentes de Unicode.

Page 16: documentación 22

5 ) Almacena los caracteres Unicode en la memoria.

Entonces, puede ser que volver a aplicar las fuentes de 8 bits originales no sea un remedio si éstas tio satisfacen la codificación que se aceptó corno Unicode. como en el ejeniplo dado, en el que se dio por hecho que se trataba de tina pigina de códigos en japones.

1.6. No estindares persistentes: el "Área de Uso Privado"

Otro problema que podría ser crucial incluso en tiempos de Unicode es la persistencia de por lo menos un área que está diseñada para el mapeo personalizado de fuentes. Es la llamada "Área de USO Privado" (PUA por sus siglas en inglés: Private Use -4rea) que abarca 6144 caracteres no predefinidos en los bloques E000-EFFF y F000-F7FF. Similar al área definible por el usuario de WordPeifect 5 : la PUA puede ser asignada ad lihiturn por compañías, grupos de iisunrjos o itidividuos. Esto da como resultado que se necesite información adicional para distinguir los caracteres que se "codificaron" en ella. En la Tabla 13 sc mucstra lo que podria pasar cuando se aplica una fuente equivocada para visualizar caracteres codificados en la PUA: en el peor de los casos, la información prevista se perderá otra vez.

Tabla 13 a/b. Mapeo de fuentes de 1 6 bits: el "Área de Uso Privado"

Page 17: documentación 22

Capitulo 14-Lu rlt~cumenfu~-ibn lingüis I iccr y la codij?cución de m r o s 403

1.7. Sugerencias y recomendaciiities

En lo referente a la codificacion de caracteres, todo lo anterior nos lleva a unas cuantas recomendaciones generales que podrían ser de utilidad con respecto tanto al intercambio de datos como al alinacenamiento a largo plazo de materiales textuales:

Cuando sea posible, asegurarse de utilizar codificacióii de 16 bits y no codificncion de 8 bits. Si se utiliza codificación de 16 bits, evitar el Área de Uso Privado. Si se requiere una codificación de 8 bits, tratar de no mezclar varias fuentes con codificncion diferente deiltro del mismo documento.

r Llevar siempre un registro de que fiiente y qué coditicacion se está usando. Informar siempre a los receptores del documento sobre todo lo anterior y proporcionar las fuentes (si es legalmente posiblel.

Los archivistas y encargados de acervos documentales deberán ser aún más estrictos:

Deberán convertir todos los documentos de 8 bits a documentos Unicode de 16 bits. No deberán usar el Área de Uso Privado para la codificación de caracteres.

Pero. jc611i0 producir textos codificados en 16 bits? Como hemos visto, los procesadores de palabras más comunes de lioy en día están disecados para manejar codificacioncs tanto de 8 como cle 16 bits. Al utilizar MS Word 2002 dentro de MS Windows XP y al utilizar un teclado "nacional" como el que proporciona el sistema operativo, se puede tener la seguridad de que lo que se teclee se almacenara en una codificación de 16 bits. Sin embargo, si se desea afiadir caracteres de, por ejemplo. una fuente del Alfabeto Fonético Internacional mediarite el menú de iriscrcion de simbolos, se deberá verificar si el valor Unicodc dado para e1 caracter en cuestion coincide o no con el punto de codigo de Unicode. Si no coincide, lo tiiás probable es que la fiiente que se está tratando dc utilizar esté codificada en 8 bits. De hecho, MS Word 2002 pennite mezclar codificaciones de 8 y 16 bits dentro de un mismo documento de texto. Estas mezclas, en lo que se refiere al intercambio y almacenamiento de datos, podría11 representar la peor situacibn posible. Tambikn podría11 ocurrir problenias cuando se utilizati

Page 18: documentación 22

404 Jost Gippert

controladores de teclado especiales que hayan sido proporcionados por terceros, tales como Tavultcsoft Keymail, ya que pueden haber sido diseñados únicamente para codificaciones de 8 bits y csto anularia las posibilidades de insertar con ellos textos codificados en 16 bits. Si lo que se pretende es diseiiar un controlador de teclado propio con Keyiniin o cori MS Keybord Layoiit Creat or, habrá que asegurarse de utilizar la codi ficncihn Unicode como base. Por cicrto. cl progratna SIL Shoebox cstaba basado exclusivamente en 8 bits e interactiinba bien con los controladorcs Kcyman, pero únicamentc con base de 8 bits. La riiisva versión, Toolbox, tiene base Unjcode y debería trabajar bien con los diseños de teclado Keyinan con basc de 16 bits.

2. La codificación de elementos textuales: Apariencia superficial KT. marcado de con tenido

1.1. La estructura textual visualizada

Tratemos ahora el segundo tema de este rapjtulo, es decir, la codificación de los elementos cstructurales de los textos. Para aclarar lo que esto significa, serri útil volver a ver el texto en suano con cl que hemos trsbajado antes (vease la Tabla 9). Incluso sin ningún conocimiento de la Leiigua, de inmediato tenemos la impresión dc qiic cste texto está formado por versos. Esto está claramente ii-idicado por dos señales a las que estamos acostumbrados en la lcctura de textos poeticos, a saber: las líneas son relativc?niente cortas, y están enumeradas (de la I a la 1 1). Sin embargo, hay ~nuchos niás elementos de estmctura textual involucrados. Primero, es fácil suponer yiie el texto consta de cinco oraciones. que se extienden de manera parcial entre los versos y quc consisten, en parte. de cláusulas subordinadas: esto está indicado por los signos de puiltuacihi-i. Dcspufs, podemos afirmar que el texto consta de 38 palabras, a su vez indicadas ya sea por espacios eii blanco o por signos de puntuación colindanics a los primeros o ultimos caracteres.

2.1.1. Los elerngntos básicos

Para la documentación de materiales textuales, aunque pueda parccer trivial, es determinante considerar y marcar los elementos iritcrnos cuando se les prepara para el uso futuro y esto deberá hacerse de tnaiiera tan consistente

Page 19: documentación 22

Capirulu 14-Lcr dcicurnenduciBn lingüística y la cod&cacíun de textos 405

como la codificricion de los caracteres que aparecen en las palabras. ¿De que elementos estamos hablando? Entre los elementos básicos de todo tipo de texto, ya hemos mencionado las palabras (que en su fomia escrita estan compuestas de caracteres), frases, cláusulas y oraciones: a un nivel superior, encontramos secciones, párrafos, capitulas, partes de texto y cosas por el estilo. Para muchos de estos elementos, intui t ivamente adaptarnos señales a las que estamos acostumbrados desde que ibamos a la escuela, conlo los espacios que señalan la división de palabras, los puntos finales que indican el final de una oración o el tiuevo renglón que indica el inicio de una sección o de un párrafo. Sin embargo, esto podria no ser suficiente para la codificación consistente de un texto digital. Otro ejemplo bastará para deinostrar por qué no.

2.1.2. Un ejemplo ilustrativo

En la Tabla 14 vemos un extracto de un tratado prarnritical en georgiano del siglo xviri digitalizado con MS Word 6. Sin teiier el inii~in-io conocimiento de la escritura georgiana, un lector podria suponer que la primera linea del texto es un encabezado o un titulo, puesto que, obviamente, consiste tan sólo de uria palabra, está al centro de la linea y parece estar representada en negritas. En lu que se refiere a las otras linsas de texto, el lector fácilmente sospechará que se trata de una interacciiiti de preguntas y respuestas, esto está claramente indicado pcir los signos de interrogaciiin. Otra sugerencia podria imponerse: como la primera palabra de cada pregunta y respuesta está separada por dos puntos y destacada por un espaciado adicional entre caracteres, y como estas palabras se rcpitcn a travks de las preguntas y respuestas, podrían ser los nombres de las personas que hablan (coino en una obra de teatrci). Todas estas suposiciones son correctas: tcneiiios una intcraccióri de przgiiritas y respuestas enunciadas aquí por dos personas diferentes (una es loane. la otra, Nikolaoz) y la primera linea es el titulo (que significa simplemente "Sobre la gramática"). La razón por la que fue tan fácil descubrir todo esto es que en este caso, una vez más, se utilizaron métodos de marcado a los que estamos acostumbrados al leer: centradci de líneas, uso de negritas, espaciado eritre caracteres, etc. Sin cnibargo, para propósitos computacionalcs, estas marras. a las que llamaremos "orientadas hacia la superficie" (szirJnce-orienrtw'), su11 arbitrarias e insuficientes en dos sentidos.

Page 20: documentación 22

Tablu IQ. Muestra de texto georgiano

2.1.3. Ctiracterist icas rIt7 progrumu vs. ~>slu/~dores

Primero, el ceritrado de las líneas puede ser una característica común de todos los procesadorcs de palabras que existen hoy en día, pero de ninguna manera esta estandarizadci: la codificación de esta característica siinplemente depende de la estructura dcl piugrama. Pard ilustrar lo que esto sigriifica, la Tabla 15 muestra una parte dcl codigo interno del texto gcorgiano en MS Word. Ay ui podcmos localizar la palabra incluida cn el encabezado ( ~ h $ a ~ & o ~ i l i m 3 0 I r , "Sobre Gramática" cti georgiano. almacenada en t'urma dc S bits) al final de lo que parece scr una sexta I ínea, seguido de las preguntas y resptiestas en forma de "texto legible". No hay ninguna indicacibn colindante a la palabra que corresponde al titulo de que ésta deba estar centrada o en negritas, ni tampoco que represente iiii

encabezado. Todo esto [o debe inferir el programa que lo interpreta, partiendo del crídigo ilegible que lo precede (o de un bloque de elementos de codificación similar que sc añade al final de cada docurncnto de M S Word). Imagirieriios que alguien tuviera que dccodificsr este documento dentro de 200 años, sir] tener ningún acceso a la estructura de codigos interna del programa MS Word 6; ciertamente, esta persoria no sería capaz de extraer nada salvo el "texto sitnple", y toda la información adicional referente al centrado de líneas y el texto en negritas se perdería (de hecho, muchos de nosotros hemos experimentado esto cuando tratamos de abrir documentos de MS Word de la década de 1980 en vcrsiones posteriores). Lo rnisrno ocurriria con los caracteres "espaciados" que indican a los hablantes en el texto. Este espaciadci también esta cubierto por una funcibn interna del programa y se perdería junto con cl conocimiento del código.

Page 21: documentación 22

Capitulo I #-La documentaciiin li~igui,stica y la cudificacibn de textos 407

Por cierto, no seria buena idea evitar este efecto al insertar manualmente los espacios entre caracteres eri vez de usar la fi~ncibn especifica para elIo del procesador de palabras, pues como utilizamos espacios para distinguir unas palabras de otras, cualquier análisis inforrnático leería el nombre espaciado 1 O A N E corno cinco palabras (cada una forrnada por un caracter) y no lo encontraria si se buscara como "IOANE".

Tubla 15. Muestra del texto en georgiano en codificación específica de programa

oi'aiIY@wyvwjrurvwuYYYYm- ~ W W u u m A . p y C ~ ~ * ~

wjjy BM*mFfiMiC rOSOft Word 6,0 -MSWord- DocygyyWord,Doc"mentt6~o 92gYY m fi *Mi~'AywaAWji A~~y 'Am~A~C: \WORKDIR,TEMPLATE\

NORMAL.DOTW yyyüAyrj.ji BmDBn whBMCE8.. .. .. .."" ..

W ~ ~ ~ ~ W ~ U R A M M A O I ~ I S A ~ S

IOANEM: OTXNl 1Gl GVARNI MOXUVREBITNI, ROMELNICA ,EUdGEBIAN, d AEMdEVREBl AN ~ R A M M A ~ I ~ ASA.

NIkOL40rMAN: RAJ ARS SAXELEBI MATI? IOANEIUI: GANSAZUVREBA, GANAVALEBA, A~MORENA d~ AULEVA. NlfOLAOzMAN: f VALAd RAJ SAQMAR ARS CNOBAd?

2.1.4. Lo que st? i ~ e NO cs 10 y ur se obtiene

Entonces, ;,y ué se puede hacer para evitar la perdida de infonnacioii referente a la estructura de los textos y a sus elementos? Primero, debemos deshacemos de un ideal dentro del procesamiento de textos, que se ha generalizado en nuestros días, a saber: "Lo que se ve es 10 que se obtiene" (en ingles se usan las siglas WY SIWYG: Whar you see is whaf yoic geí). Puede ser cierto que el texto que se teclce en la computadora hoy se vea igual en la pantalla de la computadora o zri una inipresión. pero todo esto queda restringido a un uso efimero: Ia proxirria generación de usuarios del texto quizás no tcnga acceso a las sofisticadas codificaciones del procesador de palabras utilizado para capturarlo y por lo tanto obtendrá cualquier cosa salvo "lo que se vio". Segundo, debemos renunciar a la idea de que los mecanismos tipográficos (como negritas, el espaciado de caracteres y otros por cl estilo) pudieran ser suficientes para indicar la función de los elementos del texto. En vez de eso, debemos adaptarnos a lo que se podría

Page 22: documentación 22

408 Jost Gipperi

llamar "marcado de contenido" (~.onirtir rnurkup) en caso de que los textos se almacenen para propbsi tos de duciitnetitación.

2.2. Una solución intermedia: HTML

En años recientes, el marcado de los elementos textuales se ha gcneraiizado cada vez más, en especial con la expansión de la red mundial World Wide Web y con la necesidad de usar determinado iipo de estructura de codificación de texto unificada para documentos que han de subirse a la red. Esta estructura se llama HTML (HyperText Markup Lungirt~ge~ Le~igiiaje de Marcado de Hipertexto). Las Tablas 16a y 16b presentan iiiia muestra di: texto en georgiano convertido a HTML (como código fuente y visiializado con un navegador web estandar); aquí se encontraran facilmente los dispositivos de marcado correspondientes al centrado y a las negritas del encabezado, es decir, los marcadores <p align=center:, ... c:p> y <b> ... </b>. Lo que no se encontrará es el marcado especial de los nombres de los habiantes. porque el espaciado entre caracteres nci puede marcarse como tal en HTML. Aunque pueden usarse para este niarcado Ins I laniadas "hojas de estilo en cascada" (c~~scurliirg sriulr shc.ets, CSS), no seria buena idea recurrir sólo a estas Iirjas, porqiii: comu el espaciado de caracteres no tizne un signjlicado estandarizado. los futuros usuarios difícilmente tendrían idea de qué representa. De la inisma manera, sigue siendo poco claro qué indican el centrado y las negritas de la primera línea: que sc trata de un encabezado es una mera suposición. De hecho, el marcado que HTML proporciona contiene muy pocos elementos "de contenido". Uno es el grupo de marcadores de c H 1 > a <H63., que debería utilizarse para indicar varios niveles de encabezado. En nuestro caso, seria mucho mejor marcar nuestro encabezado con iirio de estos elementos (remplazando <p align=center> .. . <Ip> por < h l align=center> ... </hl>). Así, la apariencia exterior seria secundaria y adaptable a usos futuros.

Page 23: documentación 22

Capitulo 14-Lu dfinrrnentucibn lii7giiistica y la cadiJicuciún de ratos 409

Tc!hl~l 160. Codificación en HTML simple dc la muestra de texto georgiano

<HTML> <HEAD>

<META HTTP-EQUIV="Content-Type" CONTENT-"textlhtml; charset=iso-8859-l "> cTITLE>GrammatikacíTlTLE~

<META NAME="KeyWordsU CONTENT="Giorgian Grammafz cBODY>

<DIV>

CP ALIGN=~CENTER~~~B>UMMMA~I~ ICATWS~IB~CIP~

<IDIV> <DIV>

cPr<SPAN>IOANEM: cISPAN><SPAN>OTXNl 1Gl GVARNI

MOX~~VREBITN 1 , ROMELNICA ,EUdGEBIAN: dAEMdEVREBlAN URAMMAO~~ASA.CISPAN><IP> cP><SPAN>Nlf OLAOzMAN: <ISPAN><SPAN>RAJ ARS SAXELEBI MATI?<ISPAN>cIP> <P>~SPAN>IOANEM. ~/SPAN><SPAN>GANSAZUVREBA, GAN~VALEBA. AUMORENA d~ AULEVA.CISPAN><IP>

<PrcSPAN>Nlf OLAOzMAN: <ISPAN>iVALAd RAJ SAQMAR ARS CNOBAd?<lSPAN>clP>

T ~ ~ h l a 16h. Apariericia de la muestra de texto georgialio en HTML vista en un navegador

Page 24: documentación 22

2.3. Marcado de coriteiiido rcal: XML

Entre más jiifori~iación de cstc tipo tiaya que codificar, menos eficiente será el marcado en HTML. Para i in marcado consistente de Icis contenidos de un texto, habra que ir un paso n - i h a116 y adaptiirlo a XML ~cX~ensible Murkup Languag~. Lenguaje de Marcado Extensible), un derivado del SGML (Standard Getiertzli=etl ,iMarkup Lunguage, Lerigua-j e Es tindar de Marcac ion Generalizada). Sólo esto permitira proporcionar 3 los futiiros usuarios todo el conociiiiiento que se pudiera tener sobre los textos en los que se esté trabajando. Coii el marcado X M L se puede declarar no sdlo e1 encabezado del texto como tal, sino a los hablantes como hablantes, sus enunciados como preguntas y respuestas relacionadas entre si y cualquier otro elemento textual que pudiera ser Útil definir. En la Tabla 17 se muestra el ejemplo de gramática georgiana con un minimo de marcado XML: nótese la diferencia con el marcado HTML, en el que las etiquetas carecen de "sentido" e indican exclusivamente el formato de la presentación del texto.

Tabla 17. Codificación en XML de la muestra de texto georgiano

Page 25: documentación 22

C ~ ~ ~ i t z t f o 14-La documentacirjn lingüística y la roci~ficación de textos 4 1 1

3.4. XML en la documentación lingüistica: más allá de la codificación dc texto simple

Por supuesto. en un marcado XMI, se puede incluir cualquier tipo de análisis de unidades lingüisticas, como palabras o frases, y ésta es la verdadera ventaja que ofrece para la documentación lingüística. Seguramente los futuros usuarios no se interesarin en la belleza superficial de un texto lirigüistico, sino en la cantidad de información que esto pueda proporcionar acerca de la lengua misma. Durante muchos años los lingüistas han utilizado el programa Stioebox para registrar y anotar los textos que recopilan durante su trabajo de campo, y para muchos de nosotros son indispensables las posibilidades que ofrece este programa, en especial el proceso semiautomático de interlineado (vease la Figura 2, que

Page 26: documentación 22

presenta una oración en la lengua tsova-tush o batsbi del Cáucaso).' La idea bisica de las glosas interlineales que permite el programa Shoebox runsiste en 21 at-reglo vertical dc nivclcs o capas de anotaciones interdependienttis que pueden incluir, como en el ejemplo, diferentes trascripciones y trasliteraciones (en este caso, escritura georgiana, latina y en IPA), anilisis tnorf~1l8gicos, referencia a formas leináticas, traducciones de las foriiias ltittiiticas, etc. Sin embargo, el formato de Shoebox no es suficiente para un niarcado ~ninucioso, pues presenta dos desventajas. Prirncro, la codificación iitilizadri siguc estando basada en 8 bits, de manera que un despliegue cotrecto dependera de las funciones interpretativas del programa (vease la Tabla 18, que muestra el mismo texto de Shoebox cuando se abre en un editor de testo normal). Aunque esta desventaja fue superada recienterricnte con la introducción del programa Toolbox, sucesor de Shoebox 5.0 y compatible con Unicode, persiste una segunda desventaja: las interdependencjas de los elementos alineados verticalmente no se inarcati como tales en un texto de ShoeboxíToolbox, sino que deperidzn dc la interpretación de los espacios entre palabras. Aqui ayudaría el ttiarcado eri XML: sólo después de convertir el arcliivo dc Shocbox a un esquema XML con base Unicode, como se muestra en la Figiira 3 , podemos tener la confianza dc que toda la informaciijn alinacenada eil el docurnrtito szri accesible para los futuros usuarios duran te mucho tiempo I véase el capitii lo 4 para otros ejemplos de la aplicaciiin de XML).

'EI ejemplo provime de[ matenal registrado en e l prciyrcto "ECLinG mencionado en la nota l.

Page 27: documentación 22

OS:6L:60 EE 7 .tuaq la6~0j q smylow l!ayi way wde aq i6nw squi~l ou al\

qom!~eip !pusuqia qw 'unid! spun sl- uliás!qapep !s@m !qauo~.mq t64\ *lapw!~rilp qaueuqia qm 'wd! epun ue6s!qapap !s~q !qawiq 641

'sdE'I3VPuW -lWPu! -I;HPu! $4 -Jgv-Jd -paPu! '4wd+'ld'aol 'PaPu! 'Id'mN Jh -A -~aid'ldno~ '¡u03 -I\ -A -AW '1f)Z'N 'uad#aH 'AOP'N d\

ja6q-m JaWo-qDeo tay waq-w'aq-q hem-aqq luqs!p lalffau umo quiq I& eqW!nirp !lauva wai woy'irld'sudo5 e-olF si* epap ~s~q !ue@iq L@ eq+!~EZp !JEI"SuiV3 "Jai s"0q's~~'~u~ IFOJ~.E ug spip !=!*m !umoLsq 6\

riBp!W.p aBqoUA Bui a~~!x'a~ep bl UUu a!@ xr& LWl\

mepoD!mp aiqRA aui ri~~!x ayap by U8U xfv uih 4-la-p!-p nRq?Eh au rten!x y- bq aa~o6!-ueu a!n? ñn-xw ~ur\ . .

+-pp!WPp apq?Bh W aPnK yo-p bw nBni&!-ueu h-x~ U\ , . $lops!mp aaqaah aw ain!x yap bw naioñ!u~u n~ Ánxv ~q\

+ppa!~~p riiqai* iui riin!iWp & ma~o~!uiu a!n? ñnx& sl\

MIO~!WW >V~SVA aui >w!x ,f&~plwsi~ ie~o6!qu z!nS .n& qd\ Jlop!pwp neqeen aui nepx yap by nai06iueu n!n? Anxw ~m

-$topa!~ep rieq?=n aui 'uin!x , vap - bw aai06!u~u a!n? ñnxw sq\ si' JW

G8PO PJ\

sepeau![laiu! sauo!3t)loue uon xoqaoys ap olxa3 ap OA!~~.IV -Z n~riSij

Page 28: documentación 22

414 Jost Gippert

Figura 3. El mismo ejemplo de la Figura 2 convertido a formato XML

2.5. Perspectivas

Aunque es cierto que los lingüistas todavía no usan el XML de manera generalizada (en el trabajo de campo), también es cierto que cada día se populariza más y que es cada vez más facil conseguir programas de software que producen documentos consistentes con XML (véase la lista de recursos al final de este libro). Tengamos o no la intención de aplicar los métodos de XML en el futuro cercano, vale la pena tomarse un tiempo para visitar la página web de la Text Encoding Initiative (TEI, "Iniciativa de codificación textual"), tan sólo para aprender un poco mas sobrc lo que significa la estmcturación de elementos textuales. Esto sin duda mejorari el trabajo lingüístico.