Cómo tener Big Data y librarse del Big Brother

análisis

aceprensa30 abril 2014 - n.º 34/14

La Biblioteca del Congreso de Es -ta dos Unidos es la mayor del mun -

do. Contiene más de 120 millones

de documentos, en papel y en otros

so portes, acumulados a lo largo de

214 años de existencia. Sin embar-

go, todo eso suma menos de la mi -

lé sima parte de la información que

Goo gle procesa en un día, que viene

a ser unos 24 petabytes (24x1015).

Hoy tenemos big data (datos

ma sivos) porque se mide y se cuen-

ta casi todo: las transacciones co -

mer ciales internacionales, los viaje-

ros en el transporte público, el con-

sumo de electricidad a todas las ho -

ras del día, los datos meteorológi-

cos, los casos de sida y otras enfer-

medades infecciosas, los precios in -

dus triales y de venta al por menor,

na cimientos y defunciones...

También se registran nuestros

clics cuando usamos Internet, lo

que ponemos en las redes sociales,

las compras que hacemos con tarje-

ta. El teléfono móvil deja constancia

no solo de con quién hablamos o in -

ter cambiamos mensajes, sino de

dón de estamos en cada momento.

Los Big Data recuerdan al Big

Bro ther. Con razón empezamos a

preo cuparnos de lo mucho que se

pue de saber de nosotros, y la facili-

dad con que se puede utilizar. Pero

no debemos caer tampoco en el

alar mismo de pensar que estamos

con tinuamente vigilados. Aunque

los datos masivos plantean proble-

mas para la privacidad, en primer lu -

gar son instrumentos útiles que nos

prestan servicios cotidianos, permi-

ten hacer cosas nuevas, crean opor-

tunidades de negocio, estimulan la

ac tividad económica.

Cálculo, no inteligencia

“Aunque nos hallamos aún en los al -

bo res de la era de los datos masi-

vos, nos servimos de ellos a diario”,

se puede leer en un libro reciente,

Big data (1), que es una buena guía

pa ra introducirse en el tema. Los fil-

tros contra el correo basura, los co -

rrec tores ortográficos, la orientación

por GPS se basan en datos masi-

vos.

Ahora podemos usar cantida-

des ingentes de datos porque se ha

vuel to fácil y barato recopilarlos y

tra tarlos. La rápida respuesta de los

bus cadores de Internet revela la

gran capacidad de computación

que tienen las máquinas actuales.

Pe ro en el fenómeno big data lo pri-

mero y principal son los datos mis-

mos: muchísimos, y cuantos más,

me jor.

Precisamente la mayor cantidad

de datos es lo que permite hacer

co sas que no eran posibles con da -

tos escasos. La traducción automá-

tica es una vieja aspiración que has -

ta hace poco ha dado resultados

frus trantes. Los recientes avances

no tienen que ver con la inteligencia

ar tificial, sino con los datos masi-

vos. Fueron ingenieros de IBM quie-

nes a finales de los ochenta tuvieron

la idea: en vez de afinar las reglas

lin güísticas que usaba el ordenador,

se centraron en aumentar su léxico,

has ta introducir unos tres millones

de pares de frases en inglés y fran-

cés. Pero la mejora no fue espec -

tacular, y se abandonó el proyecto.

Hasta que llegó Google, que a

ba se de leer páginas web en todos

los idiomas y digitalizar más de 20

mi llones de libros distintos (ese era

un objetivo no declarado de Google

Utilidad y peligros de los datos masivos

Cómo tener Big Data sin el Big Brother

Rafael Serrano

La recopilación y el análisis de grandes volúmenes de datos ya no es solo obra de un Estado policial, sino la

actividad continua de muchas empresas. Los llamados big data no sirven para todo, ni resuelven los males del

mundo, pero permiten nuevos servicios muy útiles, desde el simple corrector ortográfico al control de las epi-

demias de gripe. También suponen nuevos peligros para la libertad y la intimidad de las personas.

Li bros), almacenó un billón de ex pre -

siones. Ahora el traductor de Goo gle

es el mejor que existe, aunque aún

imperfecto y bastante deficiente para

la mayoría de los idiomas. No es más

listo; simplemente tie ne tantas equi-

valencias, que pue de calcular la fre-

cuencia con que una palabra o frase

se corresponde con otra mejor que

todos los rivales, y cada vez mejor,

pues si gue acumulando datos y per-

feccionando sus cálculos.

“El uso de datos masivos –dicen

los au tores de Big data– no consiste

en ‘en señar’ a un ordenador a ‘pen-

sar’ co mo un ser humano. Más bien

consiste en aplicar las matemáticas a

enor mes cantidades de datos para

po der inferir probabilidades”.

Calidad a base de cantidad

Con big data, se logra calidad a base

de cantidad: elevada probabilidad de

acierto gracias al gran número de

datos que procesar para hallar corre-

laciones. Esto implica que no se aspi-

ra a explicar los hechos, sino solo a

predecirlos estadísticamente.

Cuando el informático Oren

Etzioni fundó en 2003 la empresa

Fare cast, no pretendió entender las

ra zones por las que los precios de los

bi lletes de avión cambian continua-

mente, misterio demasiado alto para

una mente finita. Se limitó a idear un

sis tema para procesar a gran veloci-

dad las tarifas (hasta 200.000 millo-

nes de registros en un año) a fin de

ha llar pautas y correlaciones, y consi-

guió un modelo que predecía con

ele vado grado de acierto si en deter-

minado momento el precio iba a subir

o a bajar. Farecast no es infalible, pe -

ro por término medio ahorra unos

cin cuenta dólares por billete a sus

usuarios, y a Etzioni le reportó 110

mi llones cuando Microsoft le compró

el sistema, para integrarlo en su bus-

cador Bing.

Como la cantidad es decisiva, el

fe nómeno de los datos masivos se

apo ya en la facilidad para obtenerlos

de modo automático. Para averiguar

las preferencias de los consumidores

se puede hacer una encuesta, y en tal

ca so, es decisivo que la muestra esté

bien hecha, o los resultados no serán

re presentativos. Pero si procesamos

mi llones de compras por Internet, la

mues tra se aproxima al universo es -

ta dístico y desaparece el peligro de

ses go en la selección de casos. Los

da tos se recopilan solos, sin necesi-

dad de despachar un equipo de en -

cues tadores, y en las condiciones

rea les: mientras la gente hace lo que

ha ce todos los días.

Persiguiendo al virus

Así se puede explotar los datos cru-

zándolos, buscando implicaciones,

pa ra averiguar cosas que los datos

no dicen directamente. Google recibe

más de 3.000 millones de consultas a

dia rio y las archiva todas. Eso es una

mi na de la que se puede extraer in -

for maciones de casi cualquier asun-

to, como la propagación de la gripe.

Después de probar gran número

de modelos, los analistas de Google

en contraron los términos de búsque-

da que con mayor probabilidad se re -

la cionan con la aparición de la epide-

mia en una zona. En efecto, aunque

Google no sabe si cierta persona que

me te en el buscador unos términos

re lacionados con la epidemia está

en ferma, o ve que otros se han con-

tagiado, o solo busca por curiosidad

o por casualidad, puede estimar, con

alto grado de acierto y antes de que

puedan saberlo las autoridades sani-

tarias por sus propios medios, por

dónde se mueve el virus. Así la pre-

vención es más fácil y eficaz.

Pero no pensemos solo en nove-

dades espectaculares. La recopila-

ción continua de datos aumenta la

eficiencia en muchos campos que no

tienen nada de ciencia ficción. Un

ejemplo es el de UPS, que instaló en

sus vehículos de reparto localizado-

res por GPS, para registrar los itinera-

rios. A medida que fue acumulando

datos, los ordenadores pudieron tra-

tarlos para definir en cada caso la

ruta más rápida. Gracias a eso, en

2011 UPS se ahorró en total 48 millo-

nes de kilómetros y 11,3 millones de

litros de combustible.

Es importante advertir que el aná-

lisis de datos masivos funciona en el

orden de los grandes números o de la

media estadística, que para saber

cómo se propaga la gripe o por dónde

llevar los paquetes es suficiente.

Fascinación por los datos

Al considerar el cada vez mayor uso

de datos masivos, vienen a la memo-

ria los versos de T.S. Eliot en su obra

tea tral The Rock (1934): “¿Dónde es -

tá la sabiduría que se nos ha ido en

El uso de datos masivos

no consiste en ‘enseñar’

a un ordenador a ‘pensar’

como un ser humano,

sino en aplicar las

matemáticas a enormes

cantidades de datos

para poder inferir

probabilidades

aceprensa 30 abril 2014

co nocimiento? / ¿Dónde está el co -

no cimiento que se nos ha ido en in -

for mación?”

Los autores de Big data previenen

contra la fascinación por los nú me ros.

En ella cayó, dicen, Google, que elegía

los nuevos empleados según un cál-

culo con datos de los C.V. de los aspi-

rantes. En EE.UU., al gu nas comisio-

nes penitenciarias de ci den si dan o no

la libertad con di cio nal en función de

un programa informático que, a base

de big da ta, estima la probabilidad de

que el reo reincida. Pero, señala el

libro, “las pre dic ciones basadas en

datos masivos no es tán grabadas en

piedra: son so lo re sultados probables,

y eso significa que si queremos, pode-

mos cam biar los”.

La compañía FICO emplea datos

ma sivos para calificar solicitudes de

cré dito. A fuerza de alimentar sus

má quinas con datos, incluso algunos

que aparentemente no tienen que ver

con la solvencia de alguien –como

con qué clase de personas se rela-

ciona en las redes sociales–, logró

pre decir con notable acierto si uno

se ría capaz de devolver el préstamo

o no. Su director general llegó a de -

cir: “Sabemos lo que usted va a ha -

cer mañana”. Exageraba. Pero cierta-

mente, los datos masivos abren posi-

bilidades inquietantes.

El fenómeno de los datos

masivos se apoya en la

facilidad para obtenerlos

de modo automático

Target, una empresa de venta por catálogo, sabe quecuan do una pareja espera un hijo, cambian sus hábitos

de consumo: por ejemplo, les interesan menos los ar -

tícu los de ocio y empiezan a buscar cosas para niños.

Por eso, Target elaboró un algoritmo para adivinar em ba -

razos de sus clientes a partir de lo que miran en In ter net.

En un caso famoso en la breve historia de los big da ta,

un hombre protestó cuando llegaron a su hija catálogos

de ropa de bebé, cunas y productos semejantes, y luego

tuvo que disculparse al comprobar que la chica es taba

embarazada y Target se había enterado antes que él.

¿He ahí Big Brother usando Big Data? Joaquín Fer -

nán dez, responsable de relaciones con los medios inter-

nacionales en Ferrovial, relató la anécdota en la Jornada

de Comunicación Siglo XXI, sobre los big data, celebra-

da el pasado 5 de abril en el Colegio Mayor Albayzín

(Gra nada). Y también ad virtió que Target no siempre

acier ta, y el error puede re sultar embarazoso para la

com pañía. Aunque los big da ta, añadió Fernández, po -

drían hacer que nuestra vida pri vada quedara bajo con-

trol, esa posibilidad está aún muy lejos. Nadie puede

cap tar y elaborar los ingentes da tos que serían necesa-

rios para mantener vigilada a la po blación.

En efecto, la NSA de Estados Unidos es incapaz de

procesar los 1.700 millones de registros de comunica-

ciones electrónicas que amasa diariamente, según se

cree. Ahora bien, cuando quiere investigar a alguien,

pue de escarbar en ese inmenso pajar para encontrar las

agu jas que revelan con quién se ha puesto en contacto

el sospechoso.

Protecciones que ya no funcionan

Cuando usamos los medios digitales, no nos observa

na die, pero dejamos huellas que se pueden rastrear. Los

da tos masivos, advierten los autores de Big data, impli-

can mayores problemas para la protección de la privaci-

dad. No solo porque los hagan más grandes, por la ma -

yor cantidad de datos personales que se recopilan, sino

so bre todo porque crean problemas de otra naturaleza.

Hasta ahora, la protección de los datos personales

se basa en notificar a cada interesado y pedirle consen-

timiento, antes de obtenerlos, y en hacerlos anónimos

cuando se usan para otros fines o se ceden a terceros.

Es to ya no funciona en la era de los big data.

¿Sirve realmente para algo el aviso que es precep-

tivo en la Unión Europea sobre el uso de cookies? Nadie

se para a leer las normas al respecto en cada web que

vi sita, ni prohíbe las cookies, que en parte son necesa-

rias para que el sitio funcione a gusto del usuario. Al fi -

nal, la notificación es una mera formalidad, o peor aún:

una molesta ventana emergente que uno ha de cerrar

ca da vez que entra en un sitio.

Además, anonimizar los datos se ha vuelto muy difí-

cil ahora que se capturan tantos datos y se puede com-

binarlos de muchas formas, como muestran dos ejem-

plos que aportan los autores de Big data. Para facilitar

es tudios de mercado, AOL y NetFlix publicaron datos de

bús quedas y calificaciones de películas, respectivamen-

te, hechas por sus usuarios, después de sustituir la mar -

ca de cada uno por un número convencional. Pese a

ello, sendos periódicos demostraron que se podía iden-

tificar a gran parte de los usuarios: en el caso de AOL,

re lacionando distintas búsquedas correspondientes a

una misma persona; en el de NetFlix, cruzando las califi -

ca ciones de películas alquiladas con las puestas en la

Internet Movie Database.

Nuevo modelo de privacidad

El panorama, pues, ha cambiado. “Antes sabíamos muy

bien lo que constituía información personal iden tificable

Nuestro rastro digital

aceprensa 30 abril 2014

Aceprensa • c/ Núñez de Balboa, 125, 6º A. 28006 Madrid (España)

Tfnos.: (+34)915158974 (Administración), (+34)915158975 (Redacción) Fax: (+34)915631243

E-mails: [email protected] (Administración), [email protected] (Redacción), [email protected] (Comercial)

Director: Ignacio Aréchaga • Redactor-Jefe: Rafael Serrano • Director general: Miguel A. Sánchez del MoralEdita Fundación Casatejada • Imprime Centro Gráfico Alborada • Depósito Legal: M. 35.855-1984 • ISSN: 1135-6936

Se distribuye por suscripción. Se pueden adquirir los derechos de reproducción mediante acuerdo por escrito con Aceprensa (contacto: [email protected])

–nombre, número de afi liación a

la Seguridad Social, re gistros fis-

cales, etc.– y, por en de, resultaba

relativamente sencilla de prote-

ger. Hoy en día, hasta los datos

más inocuos pue den revelar la

identidad de una persona si se

han re co pilado en número sufi-

ciente”.

El consentimiento expreso ya

no es suficiente por otra razón: el

valor de los datos masivos reside también en los usos

secundarios, distintos de aquellos para los que origi-

nalmente se hace la recopilación. De hecho, “em -

presas de todo tipo amasan montones de informacio-

nes personales relacionadas con todos los aspectos

de nuestras vidas, las comparten con otras sin nues-

tro co nocimiento... y las usan de maneras que difícil-

mente hu biéramos imaginado”, a veces para beneficio

nuestro tam bién. El registro de nuestra actividad cuan-

do visitamos una web permite personalizarla, desta-

cando lo que a cada uno le gusta más y seleccionan-

do los anuncios se gún los intereses particulares.

Por eso, los autores de Big data proponen un

nuevo mo delo de protección de la privacidad: pasar

del sistema basado en la autorización del titular de los

da tos per sonales a otro basado en la responsabilidad

de quienes los explotan. Las entidades que los recopi -

lan po drían conservarlos más tiempo, aunque no inde-

finidamente, y tendrían permiso implícito amplio, para

usar los de muchos modos. Pero ya no estarían cubier-

tas simplemente por la autorización genérica, y ten -

drían que res ponder de los usos que finalmente hicie-

ran.

Datos borrosos

En particular, los autores definen qué condiciones ha -

bría que exigir cuando los big data se emplean para

to mar decisiones que nos afectan personalmente, co -

mo la concesión de un crédito o el precio de un segu-

ro mé di co. La primera es transparencia: el algoritmo

por el que se llega al resultado a partir de los datos de -

be ría ser público y (se gun da) estar sujeto a certifica-

ción por parte de un analista in -

de pendiente que corrobore la

exac titud y la im parcialidad del

cálculo. En tercer lu gar, refutabili-

dad: el interesado tie ne derecho a

contestar la decisión.

Otra protección es la que

los au tores llaman “privacidad di -

fe rencial”. Consiste en hacer bo -

rro sos los da tos, para que una

con sulta no dé resultados exac-

tos, y por tanto sea prácticamente imposible identifi-

car a las per sonas. Es lo que hace Facebook con la in -

for mación que suministra a los anunciantes: les dice

so lo un número aproximado de miembros con las ca -

rac terísticas relevantes (por ejemplo, profesionales li -

be rales menores de 30 años), para que no se pueda

descubrir a ninguno cru zando datos.

Vendo mis datos

El libro sugiere una idea para que recobremos el con-

trol de los datos que nos pertenecen, pero de una ma -

ne ra dis tinta al poder de otorgar o negar el consenti-

miento pa ra reunirlos y usarlos, bastante debilitado.

Ahora que mu chas empresas obtienen ganancias ex -

plo tando da tos personales, ¿no podríamos participar

de los beneficios? Hasta el presente, regalamos datos

mientras recorremos Internet o usamos dispositivos

mó viles; ¿por qué no venderlos?

Naturalmente, un solo individuo no tiene fuerza

pa ra ne gociar con los explotadores de datos, pues lo

que tie ne valor es la acumulación de datos de muchas

personas. Pero se podrían constituir bolsas de datos,

que los ven dieran a las empresas interesadas y com-

partieran el di nero con los cedentes. No parece tan

utó pico: la venta de datos ya existe, pero si son perso -

nales, nadie paga a los titulares.

En cualquier caso, necesitamos encontrar un

equilibrio justo y razonable entre la facilidad para reu-

nir y ex plo tar datos, y la protección de la libertad y la

in timidad de las personas. Hay que aprovechar los big

da ta y a la vez tener a raya al Big Brother. Aún no tene-

mos la fórmula adecuada. R.S.

Hoy en día, hasta los

datos más inocuos

pueden revelar la identi-

dad de una persona

si se han recopilado

en número suficiente

(1) Viktor Mayer-Schönberger y Kenneth Cukier, Big Data. La revolución de los datos masivos, Turner, Madrid (2013), 278 págs.,

22,90 € (papel) / 9,49 € (digital). T.o.: Big Data. A Revolution That Will Transform How We Live, Work, and Think. Traducción: Antonio

Iriarte.

Social Media

Cómo tener Big Data y librarse del Big Brother