Click here to load reader
View
279
Download
3
Embed Size (px)
DESCRIPTION
Análisis sobre la actualidad del Big Data (gestión de grandes cantidades de datos): beneficios y peligros. Aceprensa. Jornada de Comunicación Siglo XXI. #18jorcom
Citation preview
análisis
aceprensa30 abril 2014 - n.º 34/14
La Biblioteca del Congreso de Es -ta dos Unidos es la mayor del mun -
do. Contiene más de 120 millones
de documentos, en papel y en otros
so portes, acumulados a lo largo de
214 años de existencia. Sin embar-
go, todo eso suma menos de la mi -
lé sima parte de la información que
Goo gle procesa en un día, que viene
a ser unos 24 petabytes (24x1015).
Hoy tenemos big data (datos
ma sivos) porque se mide y se cuen-
ta casi todo: las transacciones co -
mer ciales internacionales, los viaje-
ros en el transporte público, el con-
sumo de electricidad a todas las ho -
ras del día, los datos meteorológi-
cos, los casos de sida y otras enfer-
medades infecciosas, los precios in -
dus triales y de venta al por menor,
na cimientos y defunciones...
También se registran nuestros
clics cuando usamos Internet, lo
que ponemos en las redes sociales,
las compras que hacemos con tarje-
ta. El teléfono móvil deja constancia
no solo de con quién hablamos o in -
ter cambiamos mensajes, sino de
dón de estamos en cada momento.
Los Big Data recuerdan al Big
Bro ther. Con razón empezamos a
preo cuparnos de lo mucho que se
pue de saber de nosotros, y la facili-
dad con que se puede utilizar. Pero
no debemos caer tampoco en el
alar mismo de pensar que estamos
con tinuamente vigilados. Aunque
los datos masivos plantean proble-
mas para la privacidad, en primer lu -
gar son instrumentos útiles que nos
prestan servicios cotidianos, permi-
ten hacer cosas nuevas, crean opor-
tunidades de negocio, estimulan la
ac tividad económica.
Cálculo, no inteligencia
“Aunque nos hallamos aún en los al -
bo res de la era de los datos masi-
vos, nos servimos de ellos a diario”,
se puede leer en un libro reciente,
Big data (1), que es una buena guía
pa ra introducirse en el tema. Los fil-
tros contra el correo basura, los co -
rrec tores ortográficos, la orientación
por GPS se basan en datos masi-
vos.
Ahora podemos usar cantida-
des ingentes de datos porque se ha
vuel to fácil y barato recopilarlos y
tra tarlos. La rápida respuesta de los
bus cadores de Internet revela la
gran capacidad de computación
que tienen las máquinas actuales.
Pe ro en el fenómeno big data lo pri-
mero y principal son los datos mis-
mos: muchísimos, y cuantos más,
me jor.
Precisamente la mayor cantidad
de datos es lo que permite hacer
co sas que no eran posibles con da -
tos escasos. La traducción automá-
tica es una vieja aspiración que has -
ta hace poco ha dado resultados
frus trantes. Los recientes avances
no tienen que ver con la inteligencia
ar tificial, sino con los datos masi-
vos. Fueron ingenieros de IBM quie-
nes a finales de los ochenta tuvieron
la idea: en vez de afinar las reglas
lin güísticas que usaba el ordenador,
se centraron en aumentar su léxico,
has ta introducir unos tres millones
de pares de frases en inglés y fran-
cés. Pero la mejora no fue espec -
tacular, y se abandonó el proyecto.
Hasta que llegó Google, que a
ba se de leer páginas web en todos
los idiomas y digitalizar más de 20
mi llones de libros distintos (ese era
un objetivo no declarado de Google
Utilidad y peligros de los datos masivos
Cómo tener Big Data sin el Big Brother
Rafael Serrano
La recopilación y el análisis de grandes volúmenes de datos ya no es solo obra de un Estado policial, sino la
actividad continua de muchas empresas. Los llamados big data no sirven para todo, ni resuelven los males del
mundo, pero permiten nuevos servicios muy útiles, desde el simple corrector ortográfico al control de las epi-
demias de gripe. También suponen nuevos peligros para la libertad y la intimidad de las personas.
Li bros), almacenó un billón de ex pre -
siones. Ahora el traductor de Goo gle
es el mejor que existe, aunque aún
imperfecto y bastante deficiente para
la mayoría de los idiomas. No es más
listo; simplemente tie ne tantas equi-
valencias, que pue de calcular la fre-
cuencia con que una palabra o frase
se corresponde con otra mejor que
todos los rivales, y cada vez mejor,
pues si gue acumulando datos y per-
feccionando sus cálculos.
“El uso de datos masivos –dicen
los au tores de Big data– no consiste
en ‘en señar’ a un ordenador a ‘pen-
sar’ co mo un ser humano. Más bien
consiste en aplicar las matemáticas a
enor mes cantidades de datos para
po der inferir probabilidades”.
Calidad a base de cantidad
Con big data, se logra calidad a base
de cantidad: elevada probabilidad de
acierto gracias al gran número de
datos que procesar para hallar corre-
laciones. Esto implica que no se aspi-
ra a explicar los hechos, sino solo a
predecirlos estadísticamente.
Cuando el informático Oren
Etzioni fundó en 2003 la empresa
Fare cast, no pretendió entender las
ra zones por las que los precios de los
bi lletes de avión cambian continua-
mente, misterio demasiado alto para
una mente finita. Se limitó a idear un
sis tema para procesar a gran veloci-
dad las tarifas (hasta 200.000 millo-
nes de registros en un año) a fin de
ha llar pautas y correlaciones, y consi-
guió un modelo que predecía con
ele vado grado de acierto si en deter-
minado momento el precio iba a subir
o a bajar. Farecast no es infalible, pe -
ro por término medio ahorra unos
cin cuenta dólares por billete a sus
usuarios, y a Etzioni le reportó 110
mi llones cuando Microsoft le compró
el sistema, para integrarlo en su bus-
cador Bing.
Como la cantidad es decisiva, el
fe nómeno de los datos masivos se
apo ya en la facilidad para obtenerlos
de modo automático. Para averiguar
las preferencias de los consumidores
se puede hacer una encuesta, y en tal
ca so, es decisivo que la muestra esté
bien hecha, o los resultados no serán
re presentativos. Pero si procesamos
mi llones de compras por Internet, la
mues tra se aproxima al universo es -
ta dístico y desaparece el peligro de
ses go en la selección de casos. Los
da tos se recopilan solos, sin necesi-
dad de despachar un equipo de en -
cues tadores, y en las condiciones
rea les: mientras la gente hace lo que
ha ce todos los días.
Persiguiendo al virus
Así se puede explotar los datos cru-
zándolos, buscando implicaciones,
pa ra averiguar cosas que los datos
no dicen directamente. Google recibe
más de 3.000 millones de consultas a
dia rio y las archiva todas. Eso es una
mi na de la que se puede extraer in -
for maciones de casi cualquier asun-
to, como la propagación de la gripe.
Después de probar gran número
de modelos, los analistas de Google
en contraron los términos de búsque-
da que con mayor probabilidad se re -
la cionan con la aparición de la epide-
mia en una zona. En efecto, aunque
Google no sabe si cierta persona que
me te en el buscador unos términos
re lacionados con la epidemia está
en ferma, o ve que otros se han con-
tagiado, o solo busca por curiosidad
o por casualidad, puede estimar, con
alto grado de acierto y antes de que
puedan saberlo las autoridades sani-
tarias por sus propios medios, por
dónde se mueve el virus. Así la pre-
vención es más fácil y eficaz.
Pero no pensemos solo en nove-
dades espectaculares. La recopila-
ción continua de datos aumenta la
eficiencia en muchos campos que no
tienen nada de ciencia ficción. Un
ejemplo es el de UPS, que instaló en
sus vehículos de reparto localizado-
res por GPS, para registrar los itinera-
rios. A medida que fue acumulando
datos, los ordenadores pudieron tra-
tarlos para definir en cada caso la
ruta más rápida. Gracias a eso, en
2011 UPS se ahorró en total 48 millo-
nes de kilómetros y 11,3 millones de
litros de combustible.
Es importante advertir que el aná-
lisis de datos masivos funciona en el
orden de los grandes números o de la
media estadística, que para saber
cómo se propaga la gripe o por dónde
llevar los paquetes es suficiente.
Fascinación por los datos
Al considerar el cada vez mayor uso
de datos masivos, vienen a la memo-
ria los versos de T.S. Eliot en su obra
tea tral The Rock (1934): “¿Dónde es -
tá la sabiduría que se nos ha ido en
El uso de datos masivos
no consiste en ‘enseñar’
a un ordenador a ‘pensar’
como un ser humano,
sino en aplicar las
matemáticas a enormes
cantidades de datos
para poder inferir
probabilidades
aceprensa 30 abril 2014
co nocimiento? / ¿Dónde está el co -
no cimiento que se nos ha ido en in -
for mación?”
Los autores de Big data previenen
contra la fascinación por los nú me ros.
En ella cayó, dicen, Google, que elegía
los nuevos empleados según un cál-
culo con datos de los C.V. de los aspi-
rantes. En EE.UU., al gu nas comisio-
nes penitenciarias de ci den si dan o no
la libertad con di cio nal en función de
un programa informático que, a base
de big da ta, estima la probabilidad de
que el reo reincida. Pero, señala el
libro, “las pre dic ciones basadas en
datos masivos no es tán grabadas en
piedra: son so lo re sultados probables,
y eso significa que si queremos, pode-
mos cam biar los”.
La compañía FICO emplea datos
ma sivos para calificar solicitudes de
cré dito. A fuerza de alimentar sus
má quinas con datos, incluso algunos
que aparentemente no tienen que ver
con la solvencia de alguien –como
con qué clase de personas se rela-
ciona en las redes sociales–, logró
pre decir con notable acierto si uno
se ría capaz de devolver el préstamo
o no. Su director general llegó a de -
cir: “Sabemos lo que usted va a ha -
cer mañana”. Exageraba. Pero cierta-
mente, los datos masivos abren posi-
bilidades inquietantes.
El fenómeno de los datos
masivos se apoya en la
facilidad para obtenerlos
de modo automático
Target, una empresa de venta por catálogo, sabe quecuan do una pareja espera un hijo, cambian sus hábitos
de consumo: por ejemplo, les interesan menos los ar -
tícu los de ocio y empiezan a buscar cosas para niños.
Por eso, Target elaboró un algoritmo para adivinar em ba -
razos de sus clientes a partir de lo que miran en In ter net.
En un caso famoso en la breve historia de los big da ta,
un hombre protestó cuando llegaron a su hija catálogos
de ropa de bebé, cunas y productos semejantes, y luego
tuvo que disculparse al comprobar que la chica es taba
embarazada y Target se había enterado antes que él.
¿He ahí Big Brother usando Big Data? Joaquín Fer -
nán dez, responsable de relaciones con los medios inter-
nacionales en Ferrovial, relató la anécdota en la Jornada
de Comunicación Siglo XXI, sobre los big data, celebra-
da el pasado 5 de abril en el Colegio Mayor Albayzín
(Gra nada). Y también ad virtió que Target no siempre
acier ta, y el error puede re sultar embarazoso para la
com pañía. Aunque los big da ta, añadió Fernández, po -
drían hacer que nuestra vida pri vada quedara bajo con-
trol, esa posibilidad está aún muy lejos. Nadie puede
cap tar y elaborar los ingentes da tos que serían necesa-
rios para mantener vigilada a la po blación.
En efecto, la NSA de Estados Unidos es incapaz de
procesar los 1.700 millones de registros de comunica-
ciones electrónicas que amasa diariamente, según se
cree. Ahora bien, cuando quiere investigar a alguien,
pue de escarbar en ese inmenso pajar para encontrar las
agu jas que revelan con quién se ha puesto en contacto
el sospechoso.
Protecciones que ya no funcionan
Cuando usamos los medios digitales, no nos observa
na die, pero dejamos huellas que se pueden rastrear. Los
da tos masivos, advierten los autores de Big data, impli-
can mayores problemas para la protección de la privaci-
dad. No solo porque los hagan más grandes, por la ma -
yor cantidad de datos personales que se recopilan, sino
so bre todo porque crean problemas de otra naturaleza.
Hasta ahora, la protección de los datos personales
se basa en notificar a cada interesado y pedirle consen-
timiento, antes de obtenerlos, y en hacerlos anónimos
cuando se usan para otros fines o se ceden a terceros.
Es to ya no funciona en la era de los big data.
¿Sirve realmente para algo el aviso que es precep-
tivo en la Unión Europea sobre el uso de cookies? Nadie
se para a leer las normas al respecto en cada web que
vi sita, ni prohíbe las cookies, que en parte son necesa-
rias para que el sitio funcione a gusto del usuario. Al fi -
nal, la notificación es una mera formalidad, o peor aún:
una molesta ventana emergente que uno ha de cerrar
ca da vez que entra en un sitio.
Además, anonimizar los datos se ha vuelto muy difí-
cil ahora que se capturan tantos datos y se puede com-
binarlos de muchas formas, como muestran dos ejem-
plos que aportan los autores de Big data. Para facilitar
es tudios de mercado, AOL y NetFlix publicaron datos de
bús quedas y calificaciones de películas, respectivamen-
te, hechas por sus usuarios, después de sustituir la mar -
ca de cada uno por un número convencional. Pese a
ello, sendos periódicos demostraron que se podía iden-
tificar a gran parte de los usuarios: en el caso de AOL,
re lacionando distintas búsquedas correspondientes a
una misma persona; en el de NetFlix, cruzando las califi -
ca ciones de películas alquiladas con las puestas en la
Internet Movie Database.
Nuevo modelo de privacidad
El panorama, pues, ha cambiado. “Antes sabíamos muy
bien lo que constituía información personal iden tificable
Nuestro rastro digital
aceprensa 30 abril 2014
Aceprensa • c/ Núñez de Balboa, 125, 6º A. 28006 Madrid (España)
Tfnos.: (+34)915158974 (Administración), (+34)915158975 (Redacción) Fax: (+34)915631243
E-mails: [email protected] (Administración), [email protected] (Redacción), [email protected] (Comercial)
Director: Ignacio Aréchaga • Redactor-Jefe: Rafael Serrano • Director general: Miguel A. Sánchez del MoralEdita Fundación Casatejada • Imprime Centro Gráfico Alborada • Depósito Legal: M. 35.855-1984 • ISSN: 1135-6936
Se distribuye por suscripción. Se pueden adquirir los derechos de reproducción mediante acuerdo por escrito con Aceprensa (contacto: [email protected])
–nombre, número de afi liación a
la Seguridad Social, re gistros fis-
cales, etc.– y, por en de, resultaba
relativamente sencilla de prote-
ger. Hoy en día, hasta los datos
más inocuos pue den revelar la
identidad de una persona si se
han re co pilado en número sufi-
ciente”.
El consentimiento expreso ya
no es suficiente por otra razón: el
valor de los datos masivos reside también en los usos
secundarios, distintos de aquellos para los que origi-
nalmente se hace la recopilación. De hecho, “em -
presas de todo tipo amasan montones de informacio-
nes personales relacionadas con todos los aspectos
de nuestras vidas, las comparten con otras sin nues-
tro co nocimiento... y las usan de maneras que difícil-
mente hu biéramos imaginado”, a veces para beneficio
nuestro tam bién. El registro de nuestra actividad cuan-
do visitamos una web permite personalizarla, desta-
cando lo que a cada uno le gusta más y seleccionan-
do los anuncios se gún los intereses particulares.
Por eso, los autores de Big data proponen un
nuevo mo delo de protección de la privacidad: pasar
del sistema basado en la autorización del titular de los
da tos per sonales a otro basado en la responsabilidad
de quienes los explotan. Las entidades que los recopi -
lan po drían conservarlos más tiempo, aunque no inde-
finidamente, y tendrían permiso implícito amplio, para
usar los de muchos modos. Pero ya no estarían cubier-
tas simplemente por la autorización genérica, y ten -
drían que res ponder de los usos que finalmente hicie-
ran.
Datos borrosos
En particular, los autores definen qué condiciones ha -
bría que exigir cuando los big data se emplean para
to mar decisiones que nos afectan personalmente, co -
mo la concesión de un crédito o el precio de un segu-
ro mé di co. La primera es transparencia: el algoritmo
por el que se llega al resultado a partir de los datos de -
be ría ser público y (se gun da) estar sujeto a certifica-
ción por parte de un analista in -
de pendiente que corrobore la
exac titud y la im parcialidad del
cálculo. En tercer lu gar, refutabili-
dad: el interesado tie ne derecho a
contestar la decisión.
Otra protección es la que
los au tores llaman “privacidad di -
fe rencial”. Consiste en hacer bo -
rro sos los da tos, para que una
con sulta no dé resultados exac-
tos, y por tanto sea prácticamente imposible identifi-
car a las per sonas. Es lo que hace Facebook con la in -
for mación que suministra a los anunciantes: les dice
so lo un número aproximado de miembros con las ca -
rac terísticas relevantes (por ejemplo, profesionales li -
be rales menores de 30 años), para que no se pueda
descubrir a ninguno cru zando datos.
Vendo mis datos
El libro sugiere una idea para que recobremos el con-
trol de los datos que nos pertenecen, pero de una ma -
ne ra dis tinta al poder de otorgar o negar el consenti-
miento pa ra reunirlos y usarlos, bastante debilitado.
Ahora que mu chas empresas obtienen ganancias ex -
plo tando da tos personales, ¿no podríamos participar
de los beneficios? Hasta el presente, regalamos datos
mientras recorremos Internet o usamos dispositivos
mó viles; ¿por qué no venderlos?
Naturalmente, un solo individuo no tiene fuerza
pa ra ne gociar con los explotadores de datos, pues lo
que tie ne valor es la acumulación de datos de muchas
personas. Pero se podrían constituir bolsas de datos,
que los ven dieran a las empresas interesadas y com-
partieran el di nero con los cedentes. No parece tan
utó pico: la venta de datos ya existe, pero si son perso -
nales, nadie paga a los titulares.
En cualquier caso, necesitamos encontrar un
equilibrio justo y razonable entre la facilidad para reu-
nir y ex plo tar datos, y la protección de la libertad y la
in timidad de las personas. Hay que aprovechar los big
da ta y a la vez tener a raya al Big Brother. Aún no tene-
mos la fórmula adecuada. R.S.
Hoy en día, hasta los
datos más inocuos
pueden revelar la identi-
dad de una persona
si se han recopilado
en número suficiente
(1) Viktor Mayer-Schönberger y Kenneth Cukier, Big Data. La revolución de los datos masivos, Turner, Madrid (2013), 278 págs.,
22,90 € (papel) / 9,49 € (digital). T.o.: Big Data. A Revolution That Will Transform How We Live, Work, and Think. Traducción: Antonio
Iriarte.