Culturomics 2012 I

Embed Size (px)

DESCRIPTION

Documento

Citation preview

  • Revista de Economa Institucional, vol. 13, n. 24, primer semestre/2011, pp. 137-168

    Juan Manuel Caicedo*Alejandro Gaviria **

    Javier Moreno***

    HECHOS Y PALABRAS: LA REALIDAD COLOMBIANA VISTA A TRAVS DE LA PRENSA ESCRITA

    Este artculo presenta la primera aplicacin a la realidad colombia-na de culturomics, un nuevo mtodo de investigacin en ciencias sociales que describe tendencias culturales, sociales y lingsticas con base en el anlisis cuantitativo de textos digitalizados. En prin-cipio, la mayor o menor aparicin de ciertas palabras o expresiones en millones de textos digitalizados revela cambios relevantes en la cultura, la sociedad o el lenguaje. Dicho de otra manera, la dimensin estadstica de los textos escritos puede proporcionar informacin til sobre ciertos aspectos de la realidad.

    El artculo utiliza la totalidad de las noticias y comentarios pu-blicados durante los ltimos veinte aos en tres medios escritos de circulacin nacional: El Tiempo, Semana y Dinero. En nmeros redondos, analiza ms de dos millones de artculos que contienen unos seiscientos millones de palabras. Los cambios en la aparicin de ciertas palabras, desempleo, recesin, corrupcin, magistrados, entre otras, ayudan a entender algunos aspectos de la realidad contempornea. Contar palabras permite contar historias.

    Este trabajo es una de las primeras aplicaciones de culturomics basada enteramente en publicaciones peridicas. Las aplicaciones ms conocidas y difundidas usan libros publicados en el transcurso de varias dcadas e incluso de siglos. Este trabajo, en cambio, utiliza

    * Magster en Sistemas. Cursa estudios de posgrado en la Universidad de Car-negie Mellon, Pensilvania, Estados Unidos, [[email protected]].

    ** Doctor en Economa. Profesor asociado y decano de la Facultad de Economa de la Universidad de los Andes en Bogot, Colombia, [[email protected]].

    *** Doctor en Matemticas. Postdoctoral fellow en la Universidad de Waterloo, Ontario, Canad, [[email protected]]. Agradecemos los comentarios de los asistentes al seminario de investigacin del CEDE de la Universidad de los Andes. Fecha de recepcin: 9 de febrero de 2012, fecha de modificacin: 10 de abril de 2012, fecha de aceptacin: 11 de abril de 2012.

  • artculos publicados en peridicos durante un periodo ms breve. Por tanto, hace hincapi no en los cambios culturales de larga duracin, sino en cambios institucionales y sociales de corto y mediano plazo. Adems, es quiz la primera aplicacin de culturomics a una realidad local, a un periodo especfico en un pas particular. Las aplicaciones anteriores son transnacionales, abarcan una realidad ms amplia, al menos geogrfica y socialmente.

    El artculo muestra que algunos fenmenos econmicos como el desempleo y el crecimiento econmico son descritos o seguidos adecuadamente por los cambios en la mencin de las palabras corres-pondientes: desempleo y recesin en este caso. Muestra que la frecuencia de aparicin de verano e invierno sigue de cerca las fluctuaciones de la temperatura del ocano Pacfico. Y revela que, desde una perspectiva de mediano plazo, la aparicin de la palabra corrupcin no ha crecido, la sigla farc suele ir acompaada del vocablo secuestros y la palabra magistrados aparece un mayor nmero de veces que congresistas.

    Pero ms que examinar problemas de fondo se describen los aspectos metodolgicos. El artculo describe una base de datos, presenta un mtodo de anlisis y muestra su potencial mediante una serie de ejemplos. La seccin 1 revisa los antecedentes y repasa la literatura relevante. La seccin 2 describe los datos. La seccin 3 compara, para algunos fenmenos socioeconmicos, el comporta-miento de los indicadores con el de la frecuencia de aparicin de las palabras correspondientes. La seccin 4 utiliza frecuencias de palabras para estudiar varios fenmenos de difcil medicin. El propsito de esta seccin, la ms polmica, es mostrar que este mtodo permite desarrollar un nuevo tipo de indicadores en las ciencias sociales. La ltima seccin presenta algunas ideas para futuras investigaciones.

    MOTIVACIN Y ANTECEDENTESCulturomics es el anlisis cuantitativo de tendencias culturales, sociales y lingsticas con base en libros, peridicos y otros textos digitales disponibles en Internet o en medios similares. Este tipo de anlisis usa millones de pginas de texto para estudiar la evolucin de patro-nes culturales y para identificar cambios significativos en la opinin pblica. En opinin de Michel et al. (2011), el anlisis cuantitativo de textos es un nuevo mtodo de anlisis en las ciencias sociales, cuya virtud radica no en el estudio minucioso de algunos textos seminales la estrategia tradicional de las ciencias sociales sino en la lectura automatizada de millones de textos de diversa calidad y trascendencia.

    138

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • Culturomics compensa con volumen su falta de discernimiento; es un mtodo de fuerza bruta.

    Michel et al. usan un corpus de ms de cinco millones de libros en ingls (el 4% de los libros publicados en ese idioma en todos los tiempos) para analizar, entre otras cosas, la evolucin de la gramtica inglesa, el auge y la cada de la reputacin poltica, cientfica y arts-tica, y algunos casos de censura contra artistas judos. Muchas otras aplicaciones son posibles. Este tipo de anlisis permitira estudiar, por ejemplo, la cambiante popularidad de algunas teoras cientficas (la teora de la evolucin), de ciertas ideologas (el marxismo) e incluso de varias formas de pensamiento (los sesgos tnicos o raciales).

    En general, las fluctuaciones en el uso de ciertas palabras dan informacin relevante sobre el mundo del lenguaje y las ideas, sobre la realidad exterior y sobre lo que ha ocurrido (y est ocurriendo) en la mente humana. Algunos ejemplos bastan para ilustrar este tipo de anlisis. La grfica 1 muestra la frecuencia de la preposicin a con dos grafas distintas: una con acento y otra sin acento1. La preposicin acentuada () era la ms utilizada en el siglo xix, pero la preposicin sin acento (a) se convirti en la norma de uso general en la primera mitad del siglo xx. La transicin fue rpida, tom aparentemente menos de una dcada. En teora, la existencia de las academias de la lengua hace que algunos cambios ortogrficas sean ms rpidos en el espaol que en el ingls (ibd.).

    Grfica 1Frecuencia de las preposiciones a y

    Fuente: books.google.com/ngrams.

    La grfica 2 muestra, para todo el siglo XX, la frecuencia de la palabra marxismo en el corpus de libros en espaol y de la expresin equiva-

    1 Como se explica ms adelante, la frecuencia se calcula como el nmero de apariciones de la palabra en cuestin (a) en el universo de textos analizados en un ao dado dividido por el nmero total de palabras en esos textos en el mismo ao. La grfica puede reproducirse fcilmente en http://ngrams.googlelabs.com/.

    a 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000

    1,400

    1,200

    1,000

    0,800

    0,600

    0,400

    0,200

    0,000

    Porce

    ntaje

    139

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • lente, marxism, en el corpus de libros en ingls. En ambos idiomas, la frecuencia aumenta casi de manera continua entre 1920 y 1980. En espaol empieza a disminuir en 1980; en ingls, unos pocos aos ms tarde. La evolucin es similar en ambos casos, pero la frecuencia es mucho mayor en los textos publicados en espaol. La grfica 3 repite el anlisis para la palabra neoliberalismo. El auge comienza lentamente en los aos ochenta, toma fuerza en los noventa y empieza a revertirse en el ao 2002, coincidiendo paradjicamente con la recuperacin de la economa mundial y de las economas latinoamericanas que aplicaron, aos atrs, las recetas neoliberales. Finalmente, la grfica 4 muestra los cambios en la influencia de Francia y Estados Unidos en las letras hispanas. Francia domin hasta finales del siglo XIX y Estados Unidos empez a consolidar su dominio en la segunda mitad del siglo XX. Francia es el pasado, Estados Unidos el presente; pero no necesariamente el futuro.

    Grfica 2Marxismo en el siglo xx: ingls y espaol

    Fuente: books.google.com/ngrams.

    20001990198019701960195019401930192019101900

    20001990198019701960195019401930192019101900

    0,0022000,0020000,0018000,0016000,0014000,0012000,0010000,0008000,0006000,0004000,0002000,000000

    0,000016000,000014000,000012000,000010000,000008000,000006000,000004000,000002000,00000000

    Porce

    ntaje

    Porce

    ntaje

    Marxismo

    Marxism

    140

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • Grfica 3Auge del uso del trmino neoliberalismo en los aos noventa

    Fuente: books.google.com/ngrams.

    Culturomics se ha usado recientemente para estudiar el origen y el desarrollo de algunas ideas fundamentales en economa, sociologa y ciencia poltica. Por ejemplo, Ravallion (2011) muestra que a co-mienzos de los aos sesenta las expresiones pobreza, desigualdad y crecimiento econmico comenzaron a ganar popularidad. Este cambio refleja un cambio intelectual de fondo, una reconceptualizacin de la idea de desarrollo econmico: el desarrollo empez a ser visto como un problema tratable y no solo como un reto intelectual sino tambin como una responsabilidad inaplazable de la comunidad internacional.

    Grfica 4Influencias forneas en el mundo hispano: Francia y Estados Unidos

    Fuente: books.google.com/ngrams.

    Michel et al. (2011) y Ravallion (2011) usan las mismas herramientas, el conteo de palabras en un corpus de cinco millones de libros y 360 mil millones de palabras, para estudiar la importancia atribuida a algunas enfermedades infecciosas. Con las notables excepciones del sida y la hepatitis, las enfermedades infecciosas perdieron figuracin desde la segunda mitad del siglo XX. Ravallion anota, adems, que

    2000 200519951990198519801975197019651960

    0,00080000,00070000,00060000,00050000,00040000,00030000,00020000,00010000,0000000

    Neoliberalismo

    Porce

    ntaje

    2000199019801970196019501940193019201910190018901880187018601850

    0,028000,026000,024000,022000,020000,018000,016000,014000,012000,010000,008000,006000,004000,002000,00000

    Estados Unidos Francia

    Porce

    ntaje

    141

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • las menciones al sida superan, en todo momento, su impacto sobre la morbilidad y la mortalidad; resultado que ilustra un hecho esencial: el anlisis de textos revela aspectos relevantes de la realidad, pero tiene, ms que otro tipo de anlisis, un sesgo cultural, est sesgado por las creencias, teoras, opiniones y modas de cada momento. Culturomics estudia la realidad a travs del filtro de la cultura.

    Aqu cabe una aclaracin: Michel et al. (2011) excluyen inten-cionalmente cualquier tipo de publicacin peridica. Esta decisin no se explica en el artculo, pero no es arbitraria. Los libros ofrecen una perspectiva decantada, ms de largo plazo, desconectada de las fluctuaciones bruscas de la opinin pblica. Al limitar el anlisis a los libros, se reduce el ruido coyuntural pero, por ello mismo, se pierde especificidad: los libros no dan cuenta de la manera como la sociedad responde e interpreta el flujo de informacin, imperfecto y a veces contradictorio, que se produce a diario. Para explorar fenmenos so-ciales sensibles a una informacin que cambia y se adapta en tiempo real conviene utilizar ms bien archivos de noticias.

    Antes del lanzamiento de la base de datos de libros digitalizados de Google que populariz el tipo de anlisis descrito, Glaeser y Goldin (2002) examinaron la frecuencia de aparicin de las palabras corrupcin y fraude en The New York Times y un conjunto de diarios regionales para construir un indicador de la trayectoria de la corrupcin en Es-tados Unidos. Su anlisis muestra que la frecuencia de esas palabras aument durante la primera parte del siglo xix y disminuy sbita-mente despus de 1870. En opinin de los autores, esta trayectoria replica la evolucin de la corrupcin en Estados Unidos a pesar de los sesgos mediticos ya mencionados2. En sntesis, la palabra escrita puede dar cuenta de la trayectoria de algunos fenmenos sociales de difcil medicin.

    Ms recientemente, Leetaru (2011) utiliz un archivo de treinta aos de noticias recopiladas por servicios de inteligencia de Estados Unidos e Inglaterra para medir, mediante un anlisis automatizado del tono de los artculos (positivo o negativo y en qu grado), la opinin global sobre eventos como la Primavera rabe o la Guerra en los Bal-canes. El anlisis muestra que las crisis polticas suelen ser precedidas por una cada significativa en el tono de los artculos. Con mtodos automatizados de geoposicin de textos, Leetaru hizo una estima-

    2 Como reconocen Glaeser y Goldin (2002), en este caso el indicador propuesto, basado en las menciones de prensa, tiene un problema adicional: la aparicin en la prensa, esto es, el reporte escrito de la corrupcin, puede afectar directamente el fenmeno que se trata de medir. La prensa no solo refleja, tambin puede influir en el fenmeno analizado.

    142

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • cin aproximada de la localizacin de Osama Bin Laden antes de su muerte. El autor propone el uso de estas metodologas para predecir eventos de importancia global de manera similar a como Bollen et al. (2011) anticipan movimientos del mercado de valores mediante un anlisis de frecuencias del caudal de Twitter. Estos resultados evidencian el potencial descriptivo de culturomics.

    La dificultad de este tipo de anlisis radica entonces en la inter-pretacin; en la necesidad de discernir, para el fenmeno en cuestin, qu tanto corresponde el cambio de frecuencia de las palabras a una faceta real y qu tanto a una distorsin meditica. La distor-sin depende, en general, del fenmeno estudiado, del momento histrico y de las publicaciones. Cuando existen cifras objetivas, como ocurre para algunos fenmenos econmicos, la comparacin de la aparicin de las palabras y la realidad del fenmeno da pistas sobre los sesgos culturales y de opinin. Cuando no existen cifras objetivas, ambos aspectos son difciles de separar; los grficas dicen tanto de los vaivenes de la realidad como de los ciclos de la cultura y la opinin.

    Este artculo utiliza un archivo de noticias para estudiar la reali-dad, la opinin, la cultura y la economa del pas durante los ltimos veinte aos. El anlisis es ms sugestivo que definitivo. Plantea mu-chos interrogantes, revela algunos sesgos y sugiere algunos temas de investigacin.

    BASE DE DATOS Y CLCULO DE FRECUENCIASEl corpus de noticias utilizado incluye todos los artculos publicados en las versiones electrnicas del peridico El Tiempo y de las revis-tas Semana y Dinero. Los archivos de noticias tienen una cobertura temporal distinta. El archivo de El Tiempo comienza en 1991, el de Semana en 1980 y el de Dinero en 1993. Los tres archivos se extien-den hasta el 31 de julio del 2011, fecha de corte del anlisis. Las tres publicaciones mencionadas tienen los archivos electrnicos de noticias ms antiguos y completos de los medios impresos del pas. Al menos en trminos de contenido, estas publicaciones pueden considerarse representativas de la prensa escrita de circulacin nacional.

    El mtodo para construir los archivos de noticias es simple. Primero, un programa recorre los sitios web de las publicaciones seleccionadas y descarga la totalidad de los artculos. Luego elimina los elementos adicionales (barras de navegacin, enlaces, imgenes, anuncios publicitarios, etc.) y almacena una versin simplificada de cada artculo. Finalmente, descarta los artculos (ms de 100.000)

    143

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • con el mismo ttulo y el mismo contenido. El anlisis final se basa en un archivo depurado que contiene una sola copia de los artculos.

    El archivo analizado contiene casi dos millones de artculos. En nmeros redondos, el 90% proviene de El Tiempo, el 6,5% de Semana y el 3,5% de Dinero. La grfica 5 muestra que el nmero de artculos vara de manera sustancial de un ao al siguiente. El nmero de ar-tculos de Semana y Dinero aument de manera considerable despus de 2005, como consecuencia de la introduccin de blogs y de artculos informativos que no hacen parte de las ediciones impresas. El nmero de artculos de El Tiempo no cambi grandemente entre 1993 y 2010, con la excepcin de un bache (inexplicado) en los aos 2004 y 2005. En los aos ochenta, la muestra slo contiene unos pocos artculos de Semana: menos de 2.000 anuales en promedio.

    Una vez depurado el archivo de noticias, se identificaron el ttulo, la fecha de publicacin y el texto completo de cada uno de los art-culos y se almacenaron en registros separados. Las letras maysculas se convirtieron a minsculas y la totalidad del texto se dividi en n-gramas. Un n-grama es una secuencia de n palabras consecutivas dentro de un texto determinado. As, por ejemplo, la divisin de un texto en 1-gramas arroja un listado de todas las cadenas de caracteres separadas por espacios o signos de puntuacin, incluidas las palabras (partido o Colombia), los nmeros (1984 y 8.000) y otras expresiones (como M-19 o F1). La divisin del mismo texto en 2-gramas arroja secuencias tales como derechos humanos o nueva constitucin. La divi-sin en 3-gramas muestra secuencias tales como 5 a 0 o Valle del Cauca.

    La frecuencia de aparicin se calcula como el cociente entre el n-mero de apariciones de un n-grama en todos los artculos publicados durante un mes dado en una de las tres publicaciones analizadas y el nmero total de 1-gramas publicados durante el mismo mes en la misma publicacin. Los n-gramas que aparecen menos de diez veces en un mes se excluyeron del anlisis.

    El corpus contiene ms de 600 millones de 1-gramas. La distribu-cin por publicacin de los 1-gramas es similar, pero no idntica, a la distribucin de los artculos: el 86,5% corresponde a El Tiempo, el 9,5 a Semana y el 4,0% restante a Dinero. La participacin de Semana y Dinero es mayor en la distribucin de 1-gramas que en la de artculos, habida cuenta de la mayor longitud de los artculos publicados en estos medios de circulacin semanal o quincenal con respecto a los publicados en El Tiempo, de circulacin diaria.

    El anlisis de las secciones siguientes se limita al periodo 1992-2011. Antes de 1992, el corpus incluye apenas unos pocos artculos,

    144

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • provenientes en su gran mayora de Semana. En cambio, en el periodo estudiado el nmero de artculos permite analizar los cambios en las frecuencias de palabras de escasa aparicin (bonanza, desempleo, sequa, etc.). El periodo de anlisis coincide con los primeros veinte aos de la Constitucin Poltica de Colombia. Aunque el periodo se escogi por razones pragmticas, asociadas a la disponibilidad de informacin, tiene tambin un sentido o significado histrico.

    Grfica 5Cantidad de artculos por publicacin

    El Tiempo

    Semana

    Dinero

    120.000

    100.000

    80.000

    60.000

    40.000

    20.000

    0

    15.000

    10.000

    5.000

    0

    1.400

    1.200

    1.000

    800

    600

    400

    200

    0

    1990

    1991

    1992

    1993

    1994

    1995

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    2003

    2004

    2005

    2006

    2007

    2008

    2009

    2010

    2011

    1982

    1983

    1984

    1985

    1986

    1987

    1988

    1989

    1990

    1991

    1992

    1993

    1994

    1995

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    2003

    2004

    2005

    2006

    2007

    2008

    2009

    2010

    2011

    1993

    1994

    1995

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    2003

    2004

    2005

    2006

    2007

    2008

    2009

    2010

    2011

    145

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • Grfica 5Cantidad de artculos por publicacin (continuacin)

    Como se dijo antes, las menciones a las palabras de inters (corrupcin, p. ej.) estn siempre normalizadas por el nmero total de palabras o 1-gramas en la totalidad del archivo de noticias. En principio, el aumento del nmero de artculos, como resultado, por ejemplo, de la inauguracin de contenidos virtuales, no es un problema: la fre-cuencia de la palabra corrupcin, para usar el mismo ejemplo, no tiene por qu aumentar si aumenta el nmero de artculos o el volumen de informacin.

    La grfica 6 muestra la frecuencia de las preposiciones ms co-munes del idioma espaol: a, de y para. Esta frecuencia no debera cambiar de un ao a otro a pesar del aumento del nmero de artculos publicados; por tanto, la existencia de cambios abruptos o de tenden-cias bien definidas podra indicar la presencia de sesgos o problemas en los archivos. La grfica muestra que los cambios son marginales, tal vez asociados a distorsiones aleatorias y a algunos baches en el archivo de noticias (en septiembre de 1995, septiembre de 2005 y octubre de 2010). Este resultado descarta, en principio, la presencia de grandes errores de construccin o programacin.

    Si el contenido de una publicacin cambia en forma sustancial, por ejemplo, si se concentra en la informacin internacional o deportiva, los cambios en la frecuencia daran, en teora, una idea equivocada de la trayectoria de ciertos fenmenos: una reduccin de la frecuencia de la palabra corrupcin obedecera no tanto a una disminucin del fenmeno, como a un descenso de la cobertura meditica, asociado,

    El Tiempo

    Semana

    Dinero

    120.000

    100.000

    80.000

    60.000

    40.000

    20.000

    0

    15.000

    10.000

    5.000

    0

    1.400

    1.200

    1.000

    800

    600

    400

    200

    0

    1990

    1991

    1992

    1993

    1994

    1995

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    2003

    2004

    2005

    2006

    2007

    2008

    2009

    2010

    2011

    1982

    1983

    1984

    1985

    1986

    1987

    1988

    1989

    1990

    1991

    1992

    1993

    1994

    1995

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    2003

    2004

    2005

    2006

    2007

    2008

    2009

    2010

    2011

    1993

    1994

    1995

    1996

    1997

    1998

    1999

    2000

    2001

    2002

    2003

    2004

    2005

    2006

    2007

    2008

    2009

    2010

    2011

    146

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • a su vez, a los cambios en el contenido de la publicacin. En general, el sesgo derivado de los cambios en el contenido de las publicaciones peridicas se puede atenuar cambiando la normalizacin de las series. La mencin de las palabras de inters puede dividirse ya no por el nmero total de 1-gramas, sino por el nmero total de apariciones de algunas palabras genricas que captan indirectamente las posibles variaciones de importancia o contenido. La aparicin de corrupcin podra dividirse por las apariciones de poltica, gobierno o presidente, palabras que reflejan, en trminos generales, la importancia del cu-brimiento local dentro del contenido general del peridico en cada momento. En general, los cambios en la normalizacin no afectaron los resultados de manera significativa.

    Por ltimo, el anlisis siguiente depende en buena medida de la comparacin de series de tiempo. La comparacin se basa en la inspec-cin visual y en el simple clculo de correlaciones. Una comparacin ms sofisticada podra usar, por ejemplo, los anlisis de supervivencia comunes en biologa ( Jones y Crowley, 1989) o los indicadores de bondad de ajuste basados en conceptos de entropa (Cowell et al., 2011). La sofisticacin metodolgica, sin embargo, no necesariamente resulta ms informativa.

    Grfica 6Frecuencia de algunas preposiciones

    0.02

    .04.06

    .08.1

    1990m1 1995m1 2000m1 2005m1 2010m1de paraa

    147

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • ALGUNOS EJEMPLOS: REALIDADES Y PALABRASEsta seccin presenta cinco ejemplos de fenmenos distintos que comparten una misma caracterstica: todos se miden de manera sistemtica mediante indicadores conocidos y probados. El anlisis propuesto compara, en todos los casos, la evolucin de dos series: el indicador del fenmeno (desempleo, p. ej.) y la frecuencia de la pala-bra correspondiente (desempleo). La comparacin entre indicadores y frecuencias revela, por una parte, la pertinencia del mtodo y, por otra, la magnitud y direccin de algunos sesgos mediticos. En sntesis, el anlisis permite entender de qu manera la prensa escrita refleja (y al mismo tiempo distorsiona) la realidad3.

    DesempleoLa grfica 7 muestra la tasa trimestral de desempleo de las siete principales ciudades del pas y la frecuencia de la palabra desempleo en el archivo de noticias de El Tiempo del mismo trimestre. Las series abarcan el periodo comprendido entre el primer trimestre de 1993 y el segundo de 2011. Ambas series se filtraron con base en un promedio mvil de un ao (cuatro trimestres). La tasa de desempleo se limita a las siete principales ciudades para asegurar la comparabilidad de los datos a lo largo del periodo. El anlisis no cambia si el archivo de El Tiempo se complementa con archivos de Semana y Dinero: el grueso de las noticias sobre el tema en cuestin proviene de El Tiempo.

    La correlacin entre ambas series es evidente. El coeficiente de correlacin es de 0,90 en todo el periodo. La tasa de desempleo y la frecuencia de la palabra desempleo crecieron a un ritmo similar durante la crisis de finales de los noventa, pero el descenso de ambas series fue distinto. La frecuencia (una medida del inters meditico) descendi ms rpidamente que la tasa de desempleo (una medida objetiva de la desocupacin). La inercia de la realidad fue aparentemente mayor que la inercia del inters meditico. Dicho de otra manera, el fen-meno del desempleo fue ms duradero que las noticias y comentarios al respecto.

    En 2008, coincidiendo con la crisis internacional y el aumento del desempleo interno, el inters meditico revivi. La frecuencia de la palabra desempleo aument de manera desproporcionada entre 2009 y 2010. Podra decirse que la prensa reaccion de ms ante el repunte del desempleo. En trminos ms generales, la reduccin injustificada del inters meditico despus de la crisis de los noventa y el aumento

    3 Una versin del buscador est disponible en http://ngrams.cavorite.com.

    148

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • desproporcionado despus de la crisis internacional de 2008 sugieren que los medios escritos son ms sensibles al agravamiento de un pro-blema social que a su persistencia. La prensa escrita perdi inters en un problema duradero y acuciante. Los periodistas y comentaristas volvieron a ocuparse del tema cuando la situacin empeor.

    Grfica 7Desempleo y desempleo en El Tiempo

    En suma, se destacan dos hechos: la alta correlacin entre las dos series y la respuesta asimtrica de la prensa escrita: el olvido relativo de un problema persistente y la reaccin abrupta ante su empeoramiento.

    RecesinLa grfica 8 muestra la tasa anual de crecimiento econmico y la frecuencia de la palabra recesin en El Tiempo. Las series cubren el periodo 1992-2010. La frecuencia corresponde al promedio mvil de doce meses. La serie de crecimiento corresponde, por su parte, a la tasa anual de crecimiento del PIB.

    Las conclusiones de este ejemplo son similares a las del ejemplo anterior. Como en el caso del desempleo, la correlacin entre las dos series es evidente. La frecuencia de recesin aument cuando cay la tasa de crecimiento y viceversa. La correlacin es de -0,82. Solo hay una discordancia notable: la leve desaceleracin econmica de 2002 estuvo acompaada de un aumento desproporcionado de la frecuencia. Pero, en general, el comportamiento de ambas series es similar.

    510

    1520

    desem

    pleo

    .0000

    5.00

    01.00

    015

    desem

    pleo

    1993q1 1997q3 2002q1 2006q3 2011q1

    desempleo desempleo

    149

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • Grfica 8Crecimiento del PIB y recesin en El Tiempo

    El anexo muestra una grfica complementaria que relaciona la frecuen-cia de la palabra recesin, ya no con la tasa de crecimiento econmico, sino con una variable idntica pero inversa: 10 tasa de crecimiento anual. Esta grfica permite observar ms claramente el movimiento conjunto de ambas series. La cada de la frecuencia coincide con la recuperacin de la economa. A diferencia del ejemplo anterior, en el cual el desempleo cay ms lentamente que la frecuencia de la palabra que lo designa, en este ejemplo la frecuencia de recesin cay a un ritmo similar al de la recuperacin econmica. Mientras que el conteo de palabras no capt plenamente la trayectoria asimtrica de la tasa de desempleo (empeoramiento sbito y mejoramiento lento), s parece captar la trayectoria ms simtrica de la tasa de crecimiento econmico (empeoramiento y mejoramiento de duraciones semejantes).

    RevaluacinLa grfica 9 presenta el ndice de tasa de cambio real calculado por el banco JP Morgan4. La grfica permite apreciar las fluctuaciones de la tasa de cambio real: el peso se depreci durante la crisis de los noventa, se apreci aos durante la recuperacin econmica, se volvi a depreciar durante la crisis financiera de 2008 y se apreci en los ltimos dos aos de crecimiento acelerado. Los ciclos fueron

    4 A diferencia del ndice calculado por el Banco de la Repblica (ITCR), este ndice aumenta cuando el peso se valoriza (o el dlar se desvaloriza) y disminuye en caso contrario. Las conclusiones del anlisis no cambian si se usa el ITCR.

    -4-2

    02

    46

    Creci

    mien

    to PI

    B

    0.00

    002

    .0000

    4.00

    006

    .0000

    8.00

    01

    recesi

    n

    1990 1995 2000 2005 2010

    recesion Crecimiento

    150

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • pronunciados, no muy distintos a los experimentados por otros pases latinoamericanos. El comportamiento del real brasileo, por ejemplo, fue muy similar.

    La grfica 10 muestra el cambio porcentual mes a mes del ITCR y la frecuencia de la palabra revaluacin en el archivo de El Tiempo. El periodo de anlisis va de 1992 hasta 2011. Los datos corresponden a los promedios mviles anuales (12 meses). La grfica distingue tres periodos: 1993(1)-2003(4), 2003(5)-2006(7) y 2006(7)-2011(6). El co-movimiento de las series analizadas, la revaluacin real y la fre-cuencia de la palabra revaluacin fueron diferentes en cada uno de los periodos sealados.

    El coeficiente de correlacin entre la revaluacin y revaluacin es alto, cercano a 0,5 entre 1993 y 2011. Pero el valor del coeficiente cambi de manera sustancial a lo largo del periodo: 0,50 entre 1993 y 2003, 0,90 entre 2003 y 2006, y 0,11 entre 2001 y 2007. En el primer periodo (1993-2003) hubo tres eventos de revaluacin. Los dos primeros, ambos anteriores a la crisis de finales de los noventa, estuvieron acompaados de un aumento moderado de la frecuencia. Por el contrario, el ltimo evento posterior a la crisis y de menor magnitud no suscit un cambio sustancial en la frecuencia; no mereci mayor atencin de la prensa.

    Grfica 9ndice de tasa de cambio real (ITCR) de JP Morgan

    9010

    011

    012

    013

    0

    Indic

    e JPM

    orga

    n

    1990m1 1995m1 2000m1 2005m1 2010m1

    151

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • Grfica 10Revaluacin y revaluacin en El Tiempo

    En el segundo periodo (2003-2007), la revaluacin gener mucho mayor inters meditico: la frecuencia aument de manera sustancial, mucho ms rpidamente que la revaluacin. El mayor inters medi-tico pudo haber sido impulsado por la respuesta oficial a la presin de los exportadores e industriales. Entre 2003 y 2007, el Gobierno del entonces presidente Uribe estableci una serie de subsidios a los exportadores y trat fallidamente de fijar un piso a la tasa de cambio en diciembre de 20045. Aparentemente el activismo oficial se tradujo en ms noticias y comentarios sobre la revaluacin. Sea como fuere, el inters meditico por la revaluacin creci notablemente en este periodo.

    Pero el inters meditico en la revaluacin parece haberse desvane-cido en los ltimos aos. En el tercer periodo (2007-2011) ha pasado casi desapercibida. La frecuencia apenas aument a pesar del fuerte aumento del ITCR. Como conjetura, se podra decir que hay menos noticias porque el Gobierno ha hecho menos, pero tambin que el Gobierno ha hecho menos porque hay menos noticias. La prensa alimenta las preocupaciones del Gobierno y viceversa. En teora, este

    5 La presin del Ejecutivo sobre el Banco de la Repblica fue entonces un secreto a voces. Ver, por ejemplo: Los ex codirectores del Banco, Carlos Caballero Argez, Salomn Kalmanovitz y Sergio Clavijo, as como el decano de la Facul-tad de Economa de la Universidad de Los Andes y ex director de Planeacin Nacional, Juan Carlos Echeverry cuestionaron pblicamente las presiones que ejerci el Ejecutivo ese 20 de diciembre de 2004, insinuando que decretara la emergencia econmica e impondra un control de cambios en Colombia [http://www.primerapagina.com.co/MostrarDocumentoPublico.aspx?id=1113575].

    -.02

    -.01

    0.01

    .02rev

    aluacin

    0.00

    02.00

    04.00

    06.00

    08.00

    1

    revalu

    acin

    1995m1 2000m1 2005m1 2010m1

    revaluacin revaluacin

    152

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • tipo de retroalimentacin positiva abre la posibilidad de equilibrios mltiples: unos de obsesin meditica y otros de desatencin o in-diferencia. El hecho cierto es que el mismo fenmeno primero fue cubierto obsesivamente y despus casi olvidado por completo.

    DesplazadosLa grfica 11 estudia el cubrimiento del desplazamiento forzado. La grfica muestra el flujo mensual de desplazados segn los registros oficiales de Accin Social y la frecuencia de la palabra desplazado (y sus variantes6) tanto en El Tiempo como en Semana. Las series fueron suavizadas con base en promedios mviles de doce meses. El periodo de anlisis va de enero de 1997 a junio de 2011. Antes de 1997, el nmero de desplazados era insignificante segn los registros oficiales.

    Grfica 11Desplazados y desplazados en El Tiempo y Semana

    El anlisis se divide en dos periodos: antes y despus de enero de 2004, esto es, antes y despus de la sentencia de la Corte Constitucional que orden al Gobierno, entre otras cosas, dar prioridad a la atencin de emergencia a los desplazados y garantizar su acceso a los servicios sociales bsicos. Entre 1997 y 2004, el flujo de desplazados aument sustancialmente, de 20.000 a comienzos del periodo a 120.000 en los aos intermedios y a 60.000 a finales de 2003. Este aumento estuvo acompaado de un incremento de la aparicin de la palabra

    6 Las palabras afines fueron desplazado, desplazada, desplazados y desplazamiento. El anlisis suma la aparicin de cada una de esas palabras.

    2000

    040

    000

    6000

    080

    000

    1000

    0012

    0000

    desplaz

    ado

    0.00

    005

    .0001

    .0001

    5.00

    02

    1997q1 2000q3 2004q1 2007q3 2011q1

    desplazado Tiempo desplazado Semanadesplazado

    153

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • desplazado y sus variantes. Aparentemente la prensa escrita reaccio-n al aumento del flujo de personas desplazadas por la violencia. La reaccin fue menor, si se quiere, que en los ejemplos anteriores, pero fue notable en todo caso.

    Despus de 2004, el co-movimiento de las series es menos evi-dente. Las fluctuaciones de la frecuencia poco tuvieron que ver con las fluctuaciones del flujo de desplazados. Adems, la cada del flujo posterior a 2007 no estuvo acompaada de una cada consustancial de la frecuencia. Quiz porque la cantidad de desplazados sigui creciendo a pesar de la reduccin del flujo o porque la sentencia de la Corte Constitucional fue una fuente ocasional de noticias, en parte por las polmicas constantes entre el Gobierno y la Corte.

    Antes de 2004, el coeficiente de correlacin entre el flujo de des-plazados y la frecuencia de la palabra desplazado (y sus variantes) fue de 0,60 en El Tiempo y en Semana. Despus de 2004, el coeficiente de correlacin cay a 0,15 en El Tiempo y a -0.08 en Semana. El coefi-ciente de correlacin de las dos series de frecuencias de desplazado fue de 0,69 en todo el periodo, de 0,88 en el periodo inicial (antes de 2004) y de 0,64 en el periodo final (despus de 2004). En general, El Tiempo y Semana le dieron un cubrimiento similar: el promedio de las frecuencias fue semejante y los patrones temporales fueron tambin parecidos.

    En suma, el mayor flujo de desplazados s suscit el inters de la prensa. Creci rpidamente con el aumento de los flujos y no cay con su disminucin. Aparentemente, el cubrimiento respondi tanto a los flujos como a la cantidad total de desplazados.

    Clima: El Nio y la NiaLas noticias de prensa captan la dinmica del clima y se pueden usar como una medida indirecta del impacto de algunos fenmenos clim-ticos globales. La grfica 12 presenta, a la izquierda, la temperatura del Pacfico ecuatorial en la llamada zona 3.47 y, a la derecha, la frecuencia de las palabras sequa y verano en los archivos de El Tiempo. Los datos corresponden a los promedios mviles de doce meses. Ambas figuras muestran, mediante lneas verticales, las ltimas cuatro apariciones del fenmeno de El Nio, un aumento atpico de la temperatura del ocano Pacfico8.

    7 La Zona 3.4 est ubicada entre la latitud 5 N y 5 S y entre los meridianos 170 y 120. La temperatura de esta zona se usa para monitorear la presencia de El Nio y La Nia.

    8 Ver, por ejemplo, http://es.wikipedia.org/wiki/El_Nio.

    154

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • Grfica 12El Nio, sequa y verano en El Tiempo

    El aumento de la temperatura del Pacfico afecta los patrones de lluvia y genera periodos prolongados de sequa que afectan las cosechas, el volumen de los embalses, etc. La grfica muestra que la frecuencia de aparicin de las palabras sequa y verano aument de manera notable durante los periodos en que ocurri este fenmeno climtico. El au-mento fue especialmente notorio en dos momentos: a finales de los noventa y al final del periodo de anlisis, en el ao 2010.

    Grfica 13La Nia, inundacin e invierno en El Tiempo

    La grfica 13 repite el anlisis para la fase de enfriamiento de la tempe-ratura, conocida como el fenmeno de La Nia9. Los resultados son similares. La figura de la izquierda ilustra los periodos de cada de la temperatura y la de la derecha, la frecuencia de las palabras inundacin e invierno. De nuevo, los aumentos de la frecuencia de las palabras en cuestin coincidieron con la llegada de La Nia. El aumento al final del periodo es particularmente notable, refleja el mucho mayor

    9 Ver http://es.wikipedia.org/wiki/La_Nia_(clima).

    1995m11995m1

    2000m12000m1

    2005m12005m1

    2010m12010m1

    Temp

    eratur

    a

    2

    1

    0

    -1

    .00008

    .00006

    .00004

    .00002

    0

    sequa verano

    1995m11995m1

    2000m12000m1

    2005m12005m1

    2010m12010m1

    Temp

    eratur

    a

    2

    1

    0

    -1

    .00015

    .0001

    .00005

    0

    inundacion invierno

    155

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • impacto del ltimo evento de La Nia, en la primera mitad del ao 2011. La grfica sugiere la existencia de un evento extremo en comparacin con los eventos precedentes.

    La grfica 14 muestra los co-movimientos de la temperatura del Pacfico ecuatorial y la frecuencia de la palabra sequa. La relacin es evidente, sorprendente incluso. El coeficiente de correlacin es de 0,61 para todo el periodo. Si la frecuencia de sequa da una idea indirecta del impacto de las distorsiones climticas a mayor impacto, ms noticias, la grfica 6 sugiere que el impacto de El Nio no ha aumentado en las ltimas dos dcadas. Todo lo contrario. La pen-diente de la lnea es negativa y significativamente diferente de cero. El evento de 2010 tuvo un impacto considerable, pero no implica, por s solo, un agravamiento de los efectos econmicos, sociales y ambientales de las sequas.

    Grfica 14Temperatura y sequa en El Tiempo

    La grfica 15 repite el anlisis para la frecuencia de la palabra inun-dacin. El coeficiente de correlacin es de nuevo alto: -0,54 para todo el periodo. Las conclusiones son en este caso opuestas a las del caso anterior. La pendiente de la lnea de regresin es positiva y estads-ticamente significativa. Los datos parecen consistentes con la idea de un agravamiento gradual, no espectacular pero s notable. Esta conclusin depende, sin embargo, del evento extremo de 2011 y no debera considerase definitiva.

    2

    1

    0

    -1

    Temp

    eratur

    a.000025

    .00002

    .000015

    .00001

    5.00e-06

    0

    1995m1 2000m1 2005m1 2010m1

    sequa PendienteTemperatura

    156

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • Grfica 15Temperatura e inundacin en El Tiempo

    En suma, la frecuencia de las palabras mencionadas da una idea del impacto general de los dos eventos climticos en las dos ltimas dcadas. El anlisis no es concluyente. La evidencia no sugiere un empeoramiento de las sequas, pero s de las inundaciones. Sin em-bargo, los resultados dependen de los eventos extremos de finales del periodo. Sea como sea, la frecuencia de las noticias es una forma de medir, al menos preliminarmente, el impacto de los eventos climticos.

    20 AOS, CINCO HISTORIAS: REALIDADES COMO PALABRASEsta seccin presenta cinco ejemplos, cinco estudios de caso que ilustran el uso de culturomics como mtodo de cuantificacin de fenmenos que, por su misma naturaleza, son difciles de cuan-tificar. Los ejemplos se refieren a temas centrales de la realidad colombiana de los ltimos veinte aos: la corrupcin, la guerra, el optimismo econmico y el equilibrio de poderes (los congresistas frente a los jueces y el presidente frente a los mandatarios locales). Dadas las dificultades obvias de medicin, estos temas no han sido cuantificados de manera sistemtica. Ninguno de ellos cuenta con indicadores conocidos y respetados. Las comparaciones entre indi-cadores y frecuencias no son por tanto posibles. Las frecuencias son, en este caso, los indicadores: la forma imperfecta de cuantificar los cambios y las tendencias de la corrupcin, el conflicto, el entusiasmo y la distribucin del poder.

    2

    1

    0

    -1

    Temp

    eratur

    a

    .00008

    .00006

    .00004

    .00002

    0

    1995m1 2000m1 2005m1 2010m1inundacin PendienteTemperatura

    157

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • CorrupcinLa grfica 16 muestra, para el periodo enero de 1992-julio de 2011, la evolucin de la frecuencia de la palabra corrupcin y sus accidentes10. Las series corresponden al promedio mvil de doce meses: inicial-mente se calcularon las frecuencias mensuales y luego los promedios mviles anuales. La grfica presenta por separado las frecuencias correspondientes a El Tiempo y Semana. En Dinero, el nmero de noticias es relativamente menor y la aparicin de la palabra corrupcin es muy escasa.

    Ambas grficas cuentan una historia similar. Revelan, por ejem-plo, grandes fluctuaciones alrededor de una tendencia ms o menos horizontal. En El Tiempo (grfica izquierda), la tendencia es negativa; en Semana (grfica derecha), es positiva. Pero ms all de estas dife-rencias, la grfica sugiere, en esencia, una considerable inercia de la corrupcin: los escndalos ocurren cada cierto tiempo pero no parece existir una tendencia clara. En suma, la corrupcin flucta en el corto plazo pero es constante desde una perspectiva de ms largo plazo11. Todo cambia y todo sigue igual.

    Grfica 16Corrupcin en El Tiempo y Semana

    10 El anlisis muestra la frecuencia conjunta de las palabras corrupcin, corrupta, corruptas, corrupto y corruptos. Las conclusiones no cambian si se incluyen otras palabras relacionadas como desfalco, peculado, robo al erario, etc.

    11 En cada momento, abrumados por los eventos de la coyuntura, los comen-taristas polticos tienden a percibir la corrupcin actual como la peor en mucho tiempo, en otras palabras, tienden a confundir las fluctuaciones con la pendiente. En diciembre de 1997, un reconocido periodista escribi: Nunca antes el pas haba presenciado tan impresionante sucesin de hechos escandalosos. Trtese de peculados o desfalcos en entidades del Estado, de narcomicos en el Congreso, de testaferratos o de simple venalidad administrativa, el panorama de la corrupcin en Colombia es francamente desolador. En octubre de 2011, otro periodista escribi: Lo que se rob en Colombia en los ltimos aos no tiene anteceden-tes y no es que furamos el paraso anti-corrupcin. El presentismo domina las opiniones sobre la corrupcin.

    corrupcin El Tiempo corrupcin Semanatendencia tendencia1990m1 1990m11995m1 1995m12000m1 2000m12005m1 2005m12010m1 2010m1

    .00016

    .00014

    .00012

    .0001

    .00008

    .00006

    .0003

    .0002

    .0001

    0

    158

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • El conteo de noticias, opiniones y comentarios no es un indi-cador perfecto de la corrupcin. Este indicador est sesgado por los eventos ms costosos o por algunos casos que concentran, por razones muchas veces fortuitas, la atencin de la opinin pblica. En coyunturas especficas, el indicador recoge los sesgos ideolgicos o los intereses polticos de los directores y editores de los medios de comunicacin. En fin, los cuestionamientos abundan. Pero este tipo de anlisis no debera descartarse fcilmente. En cierta medi-da, equivale a un ejercicio memorstico contar para recordar, a una forma de contrarrestar los juicios impresionistas del presente con los juicios del pasado, de comparar la indignacin de hoy con la de ayer.

    Como se dijo en la seccin 1, Goldin y Glaeser (2001) usaron un indicador similar para estudiar la evolucin de la corrupcin en Estados Unidos en un horizonte de largo plazo. Ms recien-temente, Goel, Nelson y Naretta (2011) usaron la frecuencia de bsqueda de la palabra corrupcin en Internet para hacer compa-raciones entre pases. Los indicadores tradicionales de corrupcin se basan en opiniones, en las cuales influye en la mayora de los casos el cubrimiento de la prensa. Los indicadores que aqu se proponen se basan en la intensidad del cubrimiento, en la idea de que la cambiante realidad de un fenmeno complejo puede cuantificarse, en cierta medida al menos, con base en su cubri-miento meditico.

    Volviendo a la grfica 16, hay un hecho peculiar que merece un comentario aparte. En ambas figuras, tanto en la de El Tiempo como en la de Semana, la frecuencia de la palabra corrupcin cay en forma notable entre finales de 2005 e inicios de 2010, y luego aument tambin de manera notable. Al parecer, los medios analizados se desentendieron de la corrupcin durante buena parte del segundo periodo del ex presidente Uribe (2006-2010) y luego, como si tuvieran que ponerse al da, volvieron a preocuparse por el tema con intensidad renovada. Despus de una calma de varios aos, vino la tempestad meditica de los meses recientes.

    Las razones de este comportamiento no son fciles de precisar. Pero la grfica 17 da algunas pistas. La grfica muestra conjuntamente la frecuencia de las palabras corrupcin y elecciones, y seala las fechas de elecciones presidenciales durante el periodo. La frecuencia de co-rrupcin aument cclicamente en los meses anteriores y posteriores a las elecciones presidenciales: subi y cay coordinadamente con la frecuencia de elecciones. Esta regularidad meditica tuvo una excep-

    159

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • cin notable: las elecciones de 2006, las nicas elecciones de todo el periodo en las que el presidente en ejercicio fue candidato12.

    Grfica 17Corrupcin y elecciones en El Tiempo y Semana

    Durante los meses que precedieron y sucedieron a las elecciones de 2006, las noticias, comentarios y opiniones sobre la corrupcin (una medida indirecta de la intensificacin de las denuncias y los debates al respecto) no aumentaron de manera sustancial como lo haban hecho en el pasado durante periodos similares. Pero en las elecciones de 2010, ya con el presidente en ejercicio por fuera de la contienda, todo pareci volver a la normalidad: la corrupcin creci sustancialmente antes y despus de las elecciones. En apariencia, las denuncias y debates que se haban postergado salieron a flote sbitamente. En suma, ms que un aumento permanente de la corrupcin, el crecimiento sbito de la frecuencia noticiosa al final del periodo de anlisis podra indicar una suerte de actualizacin, de desfogue.

    Ms all de los ciclos y las fluctuaciones temporales, los datos sugieren que la corrupcin permaneci ms o menos constante durante los ltimos veinte aos. Al menos, la frecuencia de corrupcin no muestra una tendencia clara, ni positiva ni negativa. Las variaciones fueron muchas, pero la tendencia no cambi notablemente.

    ConflictoEl conflicto colombiano concentr la atencin de los medios de co-municacin durante los ltimos veinte aos. El fortalecimiento de los grupos armados durante la primera mitad de los aos noventa, las posteriores negociaciones con las FARC, la subsecuente ofensiva mili-

    12 En El Tiempo el coeficiente de correlacin entre corrupcin y elecciones fue de 0,60 antes de 2002 y de 0,35 despus. En Semana fue de 0,36 y de -0.07 respetivamente.

    elecciones El Tiempo corrupcin El Tiempo corrupcin Semanaelecciones Semana1995m1 1995m12000m1 2000m12005m1 2005m12010m1 2010m1

    .0003

    .00025

    .002

    .00015

    .0001

    .0005

    .0005

    .0004

    .0003

    .0002

    .0001

    160

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • tar, los acuerdos con los paramilitares y los rescates de los secuestrados produjeron muchas noticias, comentarios y editoriales de prensa. En teora, al menos, la frecuencia de aparicin de las palabras FARC, ELN y paramilitares ilustra la manera como los medios de comunicacin dieron cuenta de la cambiante realidad del conflicto colombiano. Las palabras permiten, en suma, tomarle el pulso a la obsesin meditica con el conflicto.

    La grfica 18 muestra la frecuencia mensual de las palabras FARC, ELN y paramilitares en el periodo 1992-201113. El anlisis corresponde en este caso a los archivos del diario El Tiempo (el anlisis conjunto de los tres medios disponibles es casi idntico). La frecuencia de la sigla FARC supera ampliamente, en ms de diez veces, la de palabras como desempleo y corrupcin. Supera incluso la de expresiones gen-ricas como Congreso y elecciones. La frecuencia de las palabras ELN y paramilitares es relativamente menor, pero no insignificante. En general, la importancia meditica del conflicto fue enorme. Las FARC tuvieron dos momentos de ebullicin meditica (en 2002 y 2009), los paramilitares uno (en 2008) y el ELN otro (en 2001). La desaparicin de la frecuencia de aparicin de ELN fue gradual y continua; la de paramilitares, mucho ms abrupta.

    Grfica 18farc, eln y paramilitares en El Tiempo

    13 La frecuencia de paralimitares corresponde a la frecuencia de sus accidentes y del mismo trmino en ingls: paramilitar, paramilitares, paramilitaries, parami-litarism, paramilitarismo, paramilitarizado y paramilitary. Hay problemas en ingls pues el archivo de Semana incluye algunos documentos acadmicos escritos en este idioma.

    .0008

    .0006

    .0004

    .0002

    01992m1 1994m1 1996m1 1998m1 2000m1 2002m1 2004m1 2006m1 2008m1 2010m1

    FARC paramilitaresELN

    161

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • Grfica 19farc y secuestros en El Tiempo y Semana

    La grfica 19 da algunas pistas sobre las causas de los grandes altibajos en el cubrimiento meditico de la guerrilla de las farc. La grfica muestra, tanto para El Tiempo como para Semana, el cambio mensual de la frecuencia de las palabras farc y secuestros. Las coincidencias son enormes. Ambas series se mueven de manera casi sincrnica. El coeficiente de correlacin es de 0,78 en El Tiempo y de 0,87 en Sema-na. La evidencia indica que la visibilidad de las farc estuvo asociada esencialmente al tema del secuestro. Los rescates y las liberaciones, en particular, parecen haber generado todo tipo de noticias, reacciones y comentarios que, en conjunto, aumentaron de manera sustancial la visibilidad meditica de este grupo. De nuevo, La grfica sugiere que los secuestros (y los secuestrados) garantizaron a las farc una gran visibilidad a pesar de su debilitamiento militar. La frmula farc = secuestros resume bien esta historia meditica.

    En sntesis, los secuestros de las farc fueron el tema predominante en el cubrimiento del conflicto colombiano. El cubrimiento tuvo dos o tres momentos de ebullicin pero, en general, el inters fue sostenido durante al menos una dcada.

    BonanzaLa grfica 20 muestra la frecuencia de las palabras bonanza y boom en el archivo de El Tiempo: las conclusiones no cambian si se incluyen los otros dos medios. En principio, esta serie mide, de manera indi-recta, el entusiasmo colectivo ante las buenas noticias econmicas, originadas, por ejemplo, en un descubrimiento petrolero o minero o en un aumento sustancial de los precios de los principales productos de exportacin. Los datos sugieren que el mayor entusiasmo colectivo de las ltimas dos dcadas ocurri entre 1993 y 1995 como conse-cuencia de los hallazgos petroleros de Cusiana y Cupiaga. La prensa

    1995m1 2000m1 2005m1 2010m1secuestros El Tiempo secuestros Semana

    secue

    stros

    secue

    stros

    FARC FARC Semana

    Farc

    Farc

    .0006

    .0005

    .0004

    .0003

    .0002

    .0001

    .0008

    .0006

    .0004

    .0002

    0

    .001

    .0005

    0

    .0025

    .002

    .0015

    .001

    .0005

    0

    162

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • reaccion mucho ms fuertemente ante el descubrimiento de un nuevo yacimiento que ante los altos precios del petrleo y del carbn de los ltimos aos. Este resultado indica, en ltimas, la existencia de una realidad sociolgica relevante (un sentimiento colectivo de abundancia, en este caso) que pudo haber incidido en las decisiones pblicas y privadas.

    Grfica 20Bonanza y boom en El Tiempo

    En teora, los descubrimientos petroleros crearon una sensacin de abundancia de recursos y ausencia de restricciones, impulsaron un auge en el consumo pblico y privado y pudieron, incluso, haber sembrado la semilla de la crisis de finales de los aos noventa, la peor en la historia moderna del pas (Echeverry, 1996). Ms all de las consecuencias, la evidencia sugiere que en la primera mitad de los aos noventa, ms que en cualquier otro momento de la ltimas dos dcadas, la idea de una bonanza o de un boom econmico capt la imaginacin de mucha gente. La prensa a veces sirve de termmetro del entusiasmo colectivo.

    Divisin de poderesLa Constitucin de 1991 redefini la estructura de poder. Formal-mente, la descentralizacin dio mayor poder a los departamentos y municipios. De la misma manera, la independencia del Banco de la Repblica y la creacin de la Corte Constitucional le restaron poder a la rama ejecutiva. Pero los cambios institucionales no siempre tienen

    .000025

    .00002

    .000015

    .00001

    5.00e-06

    01990m1 1995m1 2000m1 2005m1 2010m1

    bonanza boom

    163

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • consecuencias reales. La estructura de poder no solo depende de la Constitucin o de las instituciones formales. Otras factores, econ-micos y sociolgicos, pueden ser determinantes.

    La frecuencia de aparicin de algunas palabras puede dar alguna idea de los cambios reales (no formales) en la estructura de poder. Por ejemplo, si la frecuencia de las palabras alcalda y gobernacin aumenta con respecto a la de presidencia, podra hablarse de un mayor prota-gonismo poltico de los poderes territoriales o de una mayor visibili-dad de los mandatarios locales y, por lo tanto, de un profundizacin efectiva de la descentralizacin que trasciende los meros cambios institucionales. Asimismo, si la frecuencia de la palabra magistrado (y sus accidentes) aumenta con relacin a la de la palabra congresista (y sus accidentes), podra hablarse de una transferencia de poder hacia el poder judicial.

    La grfica 21 muestra, para el periodo 1992-2011, la frecuencia de las palabras alcalda, gobernacin y presidencia. Los datos corres-ponden al diario El Tiempo. Las series se normalizaron con base en la mencin de la palabra elecciones para corregir por los ciclos elec-torales: la frecuencia de las palabras en cuestin tiende a aumentar, por razones obvias, en los periodos de elecciones. Los resultados muestran, por una parte, un aumento tendencial en la frecuencia de alcalda y gobernacin y, por otra, una disminucin en la frecuencia de presidencia. Las pendientes son estadsticamente significativas en cada una de las grficas.

    Grfica 21Alcalda, gobernacin y presidencia en El Tiempo

    Este resultado sugiere que la descentralizacin s vino acompaada de una mayor visibilidad meditica de los centros regionales de po-der. La mayor visibilidad puede indicar, a su vez, una transferencia real de poder de la nacin a las regiones o, simplemente, mostrar un

    1990m11990m1

    1995m11995m1

    2000m12000m1

    2005m12005m1

    2010m12010m1alcalda

    gobernacintendenciatendencia

    2.5

    2

    1.5

    1

    .5

    0

    1.1

    1.2

    1

    .8

    .6

    .4

    presidencia tendencia

    164

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • mayor inters de la prensa nacional por la suerte de los municipios y departamentos. Sea como fuere, la grfica da informacin, en princi-pio relevante, sobre una faceta no estudiada de la descentralizacin.

    Grfica 22Magistrados y congresistas en El Tiempo y Semana

    La grfica 22 muestra la frecuencia de las palabras magistrados y congresistas. La serie de la izquierda corresponde a El Tiempo y la de la derecha a Semana. Ambas series cuentan una historia similar: un aumento sostenido de la frecuencia de aparicin de magistrados y sus accidentes desde mediados de la dcada anterior. En 2010, por primera vez en las dos ltimas dcadas, la frecuencia de magistrados super a la de congresistas. El mayor protagonismo meditico de los magistra-dos quiz tuvo mucho que ver con los escndalos de la parapoltica y de las interceptaciones telefnicas. Pero tambin puede reflejar un cambio estructural, no asociado a una coyuntura especfica: la mayor injerencia de los magistrados en las decisiones pblicas.

    En los ltimos meses, ambas series cayeron abruptamente, pero, al mismo tiempo, se mantuvo la prominencia meditica de los ma-gistrados. En general, el resultado sugiere un cambio significativo en la estructura de poder14.

    CONCLUSIONESEste artculo presenta un anlisis preliminar de algunos aspectos de la realidad colombiana basado en el conteo de palabras en tres medios

    14 En una entrevista publicada en El Espectador (18 de diciembre de 2010) el abogado y columnista Yesid Reyes hizo una interesante observacin sobre la vida pblica de su padre, el presidente de la Corte Suprema, Alfonso Reyes Echanda, inmolado en la toma y retoma del Palacio de Justicia: la exposicin de mi padre a la prensa en el ao 1985, cuando era el presidente de la corporacin, fue mnima. No tengo idea de cuntas veces saldra en la prensa, pero en todo caso no fueron ms de tres o cuatro: dos de ellas antes de morir, durante la toma del Palacio.

    1990m1 1995m1 2000m1 2005m1 2010m1 1990m1 1995m1 2000m1 2005m1 2010m1congresista El Tiempo congresista Semanamagistrado El Tiempo magistrado Semana

    .0002

    .00015

    .0001

    .00005

    .0005

    .0004

    .0003

    .0002

    0

    165

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • escritos de circulacin nacional. El anlisis tiene una dificultad obvia: las noticias no son neutrales; incorporan necesariamente los sesgos de los editores y comentaristas de los peridicos bajo escrutinio. No obstante, la seccin 3 muestra que describen adecuadamente la cam-biante realidad de algunos fenmenos socioeconmicos. La seccin 4 muestra, de otro lado, que el anlisis permite captar la dinmica de otros fenmenos que, por su misma naturaleza, son difciles de me-dir o cuantificar. Las descripciones no son definitivas, pero plantean preguntas interesantes, sugieren hiptesis no triviales y pueden servir de punto de partida para investigaciones posteriores.

    En esencia, este artculo describe una base de datos mediante una serie de ejemplos que, en conjunto, dan algunas luces sobre las trans-formaciones econmicas y sociales ocurridas en Colombia durante los ltimos veinte aos. Pero el objetivo es ms ilustrativo que descrip-tivo, ms de forma que de fondo. Ms que medir o explicar algunos fenmenos socioeconmicos, el artculo quiere mostrar la utilidad de un mtodo novedoso, de una nueva herramienta de investigacin en ciencias sociales.

    Este es el primer artculo de culturomics sobre Colombia. No ser el ltimo. Algunas ideas sobre posibles investigaciones o anlisis pos-teriores son obvias. Los trabajos futuros podran retomar algunos de los temas aqu planteados: la corrupcin, el cubrimiento periodstico de las polticas econmicas, los determinantes del cubrimiento del conflicto, etc. Podran tambin explorar otros temas: las relaciones internacionales, la percepcin de inseguridad, el cubrimiento relativo de las regiones, el papel del Banco de la Repblica, etc.

    Metodolgicamente, las posibilidades de investigacin son varia-das. Valdra la pena, por ejemplo, estudiar la coexistencia de dos o ms palabras en los artculos y comentarios de prensa. Este tipo de enfoque permitira ir ms all del simple anlisis de series de tiempo y brindara informacin relevante sobre relaciones causales entre las variables de inters. Por ejemplo, valdra la pena conocer la medida en que las palabras regalas y corrupcin (o crisis y pobreza, o salario mnimo e inflacin) vienen juntas en la prensa. En otros trminos, se podra pasar del anlisis univariado al multivariado.

    Tambin sera til estudiar el tono de la informacin. El conteo no discrimina entre cobertura positiva o negativa, mucho menos en-tre las posibles variaciones en el tono de las noticias y comentarios. Convendra, por ejemplo, analizar el tono de la cobertura meditica de una institucin determinada (el Banco de la Repblica), de una figura poltica (el presidente Uribe) o de un pas (Venezuela). Convendra,

    166

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno

  • en ltimas, complementar el anlisis de frecuencias con informacin sobre el sentido y el tono de la cobertura.

    Tambin valdra la pena estudiar las diferencias entre noticias y opinin. Las noticias y las opiniones pueden reflejar la realidad de manera diferente y podran estudiarse por separado. Este tipo de an-lisis dara algunas luces sobre los sesgos de los medios y los cambios en la opinin publicada. Por ltimo, este mtodo se podra combinar con encuestas de opinin para analizar las interacciones, no siempre obvias, entre opinin pblica y publicada.

    ANEXO

    Grfica A110 tasa de crecimiento del pib y recesin en El Tiempo

    REFERENCIAS BIBLIOGRFICAS1. Cowell, F. A., E. Flachaire y S. Bandyopadhyay. Inequality, entropy

    and goodness of fit, Document de Travail n2011-23, Groupement de Recherche en Economie Quantitative dAix-Marseille, UMR-CNRS 6579, cole des Hautes Etudes en Sciences Sociales, 2011.

    2. Echeverry, J. C. The fall in Colombian savings during the 1990s. Theory and evidence, Borradores de economa 3593, Banco de la Repblica, 1996.

    3. Glaeser, E. L. y C. Goldin. Corruption and reform: Introduction, en Corruption and reform: Lessons from Americas economic history, NBER, 2006, pp. 2-22.

    4. Jones, M. P. y J. Crowley. A General class of nonparametric tests for survival analysis, Biometrics 45, 1, 1989, pp. 157-170.

    14

    12

    10

    8

    6

    4

    10-t.

    de cr

    ec.

    .0001

    .00008

    .00006

    .00004

    .00002

    0

    recesi

    on

    1990 1995 2000 2005 2010

    recesion 10-t. de crec.

    167

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Hechos y palabras: la realidad colombiana vista a travs de la prensa escrita

  • 5. Michel, J. B., Y. K. Shen, A. P. Aiden et al. Quantitative analysis of culture using millions of digitized books, Science 331, 6014, 2011, pp. 176-182.

    6. Goel, R., M. Nelson y M. Naretta. The internet as an indicator of corruption awareness, European Journal of Political Economy 28, 1, 2012, pp. 64-75.

    168

    Revista de Economa Institucional, vol. 14, n. 26, primer semestre/2012, pp. 137-168

    Juan Manuel Caicedo, Alejandro Gaviria y Javier Moreno