Big Data

Embed Size (px)

DESCRIPTION

Les big data, littéralement les ou mégadonnées (recommandé ), parfois appelées données massives

Citation preview

  • Une visualisation des donnes cre parIBM montre que les big data modifies parWikipedia l'aide du robot Pearle ont plusde signification lorsqu'elles sont mises envaleur par des couleurs et des localisations .

    Big dataLes big data, littralement les grosses donnes , oumgadonnes (recommand ), parfois appeles donnesmassives , dsignent des ensembles de donnes quideviennent tellement volumineux qu'ils en deviennentdifficiles travailler avec des outils classiques de gestion debase de donnes ou de gestion de l'information.Lexplosion quantitative (et souvent redondante) de la donnenumrique contraint de nouvelles manires de voir etanalyser le monde . De nouveaux ordres de grandeurconcernent la capture, le stockage, la recherche, le partage,l'analyse et la visualisation des donnes. Les perspectives dutraitement des big data sont normes et en partie encoreinsouponnes ; on voque souvent de nouvelles possibilitsd'exploration de l'information diffuse par les mdias , deconnaissance et d'valuation, d'analyse tendancielle etprospective (climatiques, environnementales ou encoresociopolitiques, etc.) et de gestion des risques (commerciaux,assuranciels, industriels, naturels) et de phnomnes religieux, culturels, politiques , mais aussi en termes degnomique ou mtagnomique , pour la mdecine (comprhension du fonctionnement du cerveau,pidmiologie, copidmiologie...), la mtorologie et l'adaptation aux changements climatiques, la gestionde rseaux nergtiques complexes (via les smartgrids ou un futur internet de l'nergie ) l'cologie(fonctionnement et dysfonctionnement des rseaux cologiques, des rseaux trophiques avec le GBIF parexemple), ou encore la scurit et la lutte contre la criminalit . La multiplicit de ces applications laissed'ailleurs dj poindre un vritable cosystme conomique impliquant, d'ores et dj, les plus gros joueursdu secteur des technologies de l'information .Certains [Qui ?] supposent que les big data pourraient aider les entreprises rduire leurs risques et faciliter laprise de dcision, ou crer la diffrence grce l'analyse prdictive et une exprience client pluspersonnalise et contextualise [rf. ncessaire].Divers experts, grandes institutions (comme le MIT aux tats-Unis), administrations et spcialistes surle terrain des technologies ou des usages considrent le phnomne big data comme l'un des grands dfisinformatiques de la dcennie 2010-2020 et en ont fait une de leurs nouvelles priorits de recherche etdveloppement.

    1

    2

    34

    5

    6

    78

    910

    11 1213

  • Croissance de la capacit mondiale destockage de donnes et informations .

    Sommaire1 Histoire2 Dimensions des big data2.1 Volume2.2 Varit2.3 Vlocit3 Diffrence avec l'informatique dcisionnelle4 Reprsentation4.1 Modles4.2 Stockage5 Applications des big data5.1 Recherche scientifique5.2 Politique5.3 Secteur priv6 Perspectives et volutions6.1 Modlisation de donnes6.2 Gestion de donnes6.3 Outils de gestion des donnes7 Gestion de l'entropie8 Bilan nergtique9 Ides reues sur le big data10 Risques d'atteinte la vie prive et aux droits fondamentaux11 Gouvernance et mgadonnes12 Notes et rfrences13 Voir aussi13.1 Liens externes

    HistoireLe big data a une histoire rcente et pour partie cache, en tantqu'outil des technologies de l'information et comme espacevirtuel prenant une importance volumique croissante dans lecyberespace.L'expression Big data serait apparue en octobre 1997 selonles archives de la bibliothque numrique de lACM(Association for Computing Machinery), dans des articlesscientifiques sur les dfis technologiques relever pourvisualiser les grands ensembles de donnes .Selon V. Trguier (2014) et selon la trs courte histoire dubig data publis par Gil Press en 2013 pour la priode1944-2012, sa naissance est lie aux progrs des systmes destockage, de fouille et d'analyse de l'information numrise,qui ont permis une sorte de big bang de l'information stocke puis une croissance inflationniste de l'universde la donne numrise. Mais ses prmisses sont trouver dans le croisement de la cyberntique et decourants de pense ns durant la Seconde Guerre mondiale, selon lesquels lhomme et le monde peuvent trereprsents comme des ensembles informationnels, dont la seule diffrence avec la machine est leur

    1415

  • niveau de complexit. La vie deviendrait alors une suite de 0 et de 1, programmable et prdictible ajouteV. Trguier.Les volutions qui caractrisent le big data et ses algorithmes, ainsi que celles de la science des donnes sonten partie caches (au sein des services de renseignement des grands tats) et si rapides et potentiellementprofondes que peu de prospectivistes se risquent pronostiquer son devenir moyen ou long termes , maisla plupart des observateurs y voient des enjeux majeurs pour l'avenir, tant en termes d'opportunitscommerciales que de bouleversements sociopolitiques et militaires, avec en particulier le risque de voirmerger des systmes ubiquistes, orwelliens et totalitaires capables de fortement contrler, surveiller et/ouinfluencer les individus et groupes.Les risques de drives de la part de gouvernements ou d'entreprises ont surtout d'abord t dcrits parOrwell la fin de la dernire guerre mondiale, puis souvent par la science fiction. Avec l'apparition degrandes banques de donnes dans les annes 1970 (et durant toute la priode de la guerre froide) denombreux auteurs s'inquitent des risques pris concernant la protection de la vie prive , dont par exemplemis en avant par le Pr. A. Miller avec le nombre croissant de donnes stockes relatives la sant physiqueet psychique des individus .En 2000, Froomkin dans un article paru dans la revue Stanford Law Review se demande si la vie prive n'estpas dj morte , mais ce sont surtout les rvlations d'E. Snowden (2013) qui ont suscit une nouvelle prisede conscience et d'importants mouvements protestation citoyenne.Les quatre droits et tats de base de la vie prive tels qu'nonce par Westin en 1962 (droit lasolitude , l'intimit, l'anonymat dans la foule et la rserve) sont menacs dans un nombre croissant desituations de mme que la protection du contenu des courriers lectroniques qui fait partie du droit lavie prive .Dimensions des big dataLe Big Data s'accompagne du dveloppement d'applications vise analytique, qui traitent les donnes pouren tirer du sens . Ces analyses sont appeles Big Analytics ou broyage de donnes. Elles portent surdes donnes quantitatives complexes avec des mthodes de calcul distribu.En 2001, un rapport de recherche du META Group (devenu Gartner) dfinit les enjeux inhrents lacroissance des donnes comme tant tri-dimensionnels : les analyses complexes rpondent en effet la rgledite des 3V (volume, vlocit et varit ). Ce modle est encore largement utilis aujourd'hui pourdcrire ce phnomne .Le taux de croissance annuel moyen mondial du march de la technologie et des services du Big Data sur lapriode 2011-2016 devrait tre de 31,7%. Ce march devrait ainsi atteindre 23,8 milliards de dollars en 2016(d'aprs IDC mars 2013).Le Big Data devrait galement reprsenter 8% du PIB europen en 2020 (AFDEL fvrier 2013).VolumeC'est une dimension relative : le Big Data comme le notait Lev Manovitch en 2011 dfinissait autrefois les ensembles de donnes suffisamment grands pour ncessiter des super-ordinateurs , mais il estrapidement (dans les annes 1990/2000) devenu possible d'utiliser des logiciels standards sur des ordinateursde bureau pour analyser ou co-analyser de vastes ensembles de donnes .Le volume des donnes stockes est en pleine expansion : les donnes numriques cres dans le mondeseraient passes de 1,2 zettaoctets par an en 2010 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 ets'lveront 40 zettaoctets en 2020 . titre d'exemple, Twitter gnrait en janvier 2013, 7 teraoctets de

    16

    1718

    19

    20

    2122, 23, 24

    25

    2627 2829

    30 31

    3233

    34

    35

    36

    37

  • donnes chaque jour et Facebook 10 teraoctets .Ce sont pourtant les installations technico-scientifiques (mtorologie par exemple) qui produiraient le plusde donnes [rf. ncessaire]. De nombreux projets, de dimension pharaonique, sont ainsi en cours. Leradiotlescope Square Kilometre Array par exemple, produira 50 teraoctets de donnes analyses par jour, un rythme de 7 000 teraoctets de donnes brutes par seconde .VaritLe volume des Big Data met les data centers devant un rel dfi : la varit des donnes. Il ne s'agit pas dedonnes relationnelles traditionnelles, ces donnes sont brutes, semi-structures voire non structures(cependant, les donnes non-structures devront, pour utilisation, tre structures ). Ce sont des donnescomplexes provenant du web (Web Mining), au format texte (Text Mining) et images (Image Mining). Ellespeuvent tre publiques (Open Data, Web des donnes), go-dmographiques par lot (adresses IP), ou releverde la proprit des consommateurs (Profils 360) [rf. ncessaire]. Ce qui les rend difficilement utilisables avecles outils traditionnels.La dmultiplication des outils de collecte sur les individus et sur les objets permettent damasser toujoursplus de donnes . Et les analyses sont dautant plus complexes quelles portent de plus en plus sur les liensentre des donnes de natures diffrentes.VlocitLa vlocit reprsente la fois la frquence laquelle les donnes sont gnres, captures et partages etmises jour.Des flux croissants de donnes doivent tre analyss en quasi-temps rel (fouille de flots de donnes) pourrpondre aux besoins des processus chrono-sensibles . Par exemple, les systmes mis en place par labourse et les entreprises doivent tre capables de traiter ces donnes avant quun nouveau cycle degnration nait commenc, avec le risque pour l'Homme de perdre une grande partie de la matrise dusystme quand les principaux oprateurs deviennent des "robots" capables de lancer des ordres d'achat ou devente de l'ordre de la nanoseconde (Trading haute frquence), sans disposer de tous les critres pertinentsd'analyse pour le moyen et long terme.Diffrence avec l'informatique dcisionnelleSi la dfinition du Gartner en 3V est encore largement reprise (voire augmente de V supplmentairesselon linspiration des services marketing), la maturation du sujet fait apparaitre un autre critre plusfondamental de diffrence avec l'informatique dcisionnelle et concernant les donnes et leur utilisation :

    Informatique dcisionnelle : utilisation de statistique descriptive, sur des donnes forte densit eninformation afin de mesurer des phnomnes, dtecter des tendances ;Big Data : utilisation de statistique infrentielle, sur des donnes faible densit en information dont legrand volume permet dinfrer des lois (rgressions.) donnant ds lors (avec les limites de linfrence)au big data des capacits prdictives .Synthtiquement :

    l'informatique "traditionnelle", informatique dcisionnelle comprise, est base sur un modle du monde ;le Big Data vise ce que les mathmatiques trouvent un modle dans les donnes .Reprsentation

    38

    39

    40

    41

    42

    43

    4445

    46, 47

  • ModlesLes bases de donnes relationnelles classiques ne permettent pas de grer les volumes de donnes du BigData. De nouveaux modles de reprsentation permettent de garantir les performances sur les volumtries enjeu. Ces technologies, dites de Business Analytics & Optimization (BAO) permettent de grer des basesmassivement parallles . Des patrons darchitecture Big Data Architecture framework (BDAF) sontproposs par les acteurs de ce march comme MapReduce dvelopp par Google et utilis dans leframework Hadoop. Avec ce systme les requtes sont spares et distribues des nuds parallliss, puisexcutes en parallles (map). Les rsultats sont ensuite rassembls et rcupers (reduce). Teradata, Oracleou EMC (via le rachat de Greenplum) proposent galement de telles structures, bases sur des serveursstandards dont les configurations sont optimises. Ils sont concurrencs par des diteurs comme SAP et plusrcemment Microsoft . Les acteurs du march sappuient sur des systmes forte scalabilit horizontale etsur des solutions bases sur du NoSQL (MongoDB, Cassandra) plutt que sur des bases de donnesrelationnelles classiques .StockagePour rpondre aux problmatiques Big Data larchitecture de stockage des systmes doit tre repense et lesmodles de stockage se multiplient en consquence.

    le cloud computing : laccs se fait via le rseau, les services sont accessibles la demande et en libreservice sur des ressources informatiques partages et configurables . Les services les plus connus sontceux de Google BigQuery, Big Data on Amazon Web Services, Microsoft Windows Azure.les super calculateurs hybrides : Les HPC pour High Performance Computing, quon retrouve en Francedans les centres nationaux de calculs universitaire tels quelIDRIS, le CINES, mais aussi au CEA ouencore le HPC-LRLes systmes de fichiers distribues (DFS - Distributed files system): les donnes ne sont plus stockes surune seule machine car la quantit stocker est beaucoup trop importante. Les donnes, les fichiers sont"dcoups" en morceaux d'une taille dfinie et chaque morceau est envoy sur une machine bien prciseutilisant du stockage local . Le stockage local est prfr au stockage SAN/NAS pour des raisons degoulots d'tranglement au niveau du rseau et des interfaces rseaux des SAN. De plus, utiliser unstockage de type SAN cote bien plus cher pour des performances bien moindres. Dans les systmes destockage distribu pour le Big Data, l'on introduit le principe de "Data locality" . Les donnes sontsauvegardes l o elles peuvent tre traites.

    Applications des big dataLes big data trouvent des applications dans de nombreux domaines : programmes scientifiques (CERN28Mastodons), outils d'entreprises (IBM29,Amazon Web Services, BigQuery, SAP HANA) parfoisspcialises (Teradata, Jaspersoft30, Pentaho31) ou Start-up (aleph-networks ,Bionatics , HaribaMdical , SafetyLine , KwypeSoft , Vigicolis, PredicSis , ainsi que dans le domaine de l'Open Source(Apache Hadoop, Infobright32, Talend33) et de logiciels d'exploitation ouverts (avec par exemple lelogiciel ouvert d'analyse de big data H2O (software)).Recherche scientifiqueLe big data a un important potentiel scientifique. Ainsi, les expriences de physique du Large HadronCollider du CERN utilisent environ 150 millions de capteurs dlivrant des donnes 40 millions de fois parseconde. Pour 600 millions de collisions par seconde, il reste aprs filtrage 100 collisions d'intrt parseconde. En consquence, 25 Po de donnes sont stocker par an, et 200 Po aprs rplication . Lesoutils d'analyse du big data pourrait affiner l'exploitation de ces donnes.

    48 49

    5051

    52

    53

    54

    55

    56 5758 59 60 61

    62, 63, 64

  • Quand le Sloan Digital Sky Survey (SDSS) a commenc collecter des donnes astronomiques en 2000, il aamass en quelques semaines plus de donnes que toutes celles prcdemment collectes dans lhistoire delastronomie. Il continue un rythme de 200 Go par nuit, et a en 10 ans (2000-2010) stock plus de140 teraoctets dinformation. Le Large Synoptic Survey Telescope prvu pour 2015, devrait en amasserautant tous les cinq jours .Dcoder le premier gnome humain a ncessit 10 ans, mais prend moins d'une semaine : les squenceursd'ADN ont progress d'un facteur 10 000 les dix dernires annes, soit 100 fois la loi de Moore (100 environsur 10 ans) . En biologie, les approches massives bases sur une logique dexploration des donnes et derecherche dinduction sont lgitimes et complmentaires des approches classiques bases sur l'hypothseinitiale formule .Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de donnes dobservations et de simulationsclimatiques .PolitiqueLanalyse de Big Data a jou un rle important dans la campagne de r-lection de Barack Obama,notamment pour analyser les opinions politiques de la population .Depuis l'anne 2012, le Dpartement de la dfense amricain investit annuellement sur les projets de BigData plus de 250 millions de dollars .Le gouvernement amricain possde six des dix plus puissants supercalculateurs de la plante .La National Security Agency est actuellement en train de construire le Utah Data Center. Une fois termin,ce data center pourra supporter des yottaoctets dinformation collects par la NSA sur internet.En 2013, le big data faisait partie des 7 ambitions stratgiques de la France dtermines par la Commissioninnovation 2030 .Secteur privWalmart traite plus dun million de transactions client par heure, celles-ci sont importes dans des bases dedonnes dont on estime quelles contiennent plus de 2,5 Po dinformationFacebook traite 50 milliards de photos.Dune manire gnrale l'exploration de donnes de Big Data permet llaboration de profils clients dont onne supposait pas lexistence .L'utilisation des donnes de Big Data rentre maintenant dans la stratgie de muses aussi prestigieux que leGuggenheim Museum. l'aide de transmetteurs lectroniques placs dans ses salles les visiteurs sont suivistout au long de leur visite. Le muse peut ainsi dterminer de nouveaux parcours de visite en fonction desuvres les plus apprcies ou encore dcider des expositions mettre en place .Perspectives et volutionsL'un des principaux enjeux de productivit du Big Data dans son volution va porter sur la logistique del'information, c'est--dire sur comment garantir que l'information pertinente arrive au bon endroit au bonmoment. Il s'agit d'une approche micro-conomique. Son efficacit dpendra ainsi de celle de lacombinaison entre les approches micro- et macro-conomique d'un problme.Selon une tude IDC, les donnes numriques cres dans le monde atteindraient 40 zettaoctets d'ici 2020 .

    65

    6667

    68

    69

    7071

    72

    73

    74

    75

    76

  • titre de comparaison, Facebook gnrait environ 10 traoctets de donnes par jour au dbut 2013. Ledveloppement de l'hbergement massif de donnes semble avoir t acclr par plusieurs phnomnessimultanment: la pnurie de disques durs due aux inondations en Thalande en 2011, l'explosion du marchdes supports mobiles (smartphones et tablettes notamment), etc. Ajout cela, la dmocratisation du cloud-computing de plus en plus proche, grce des outils comme Dropbox, amne le big data au centre de lalogistique de l'information.Afin de pouvoir exploiter au maximum le Big Data, de nombreuses avances doivent tre faites, et ce ensuivant trois axes :Modlisation de donnesLes mthodes actuelles de modlisation de donnes ainsi que les systmes de gestion de base de donnes ontt conus pour des volumes de donnes trs infrieurs. La fouille de donnes a des caractristiquesfondamentalement diffrentes et les technologies actuelles ne permettent pas de les exploiter. Dans le futur ilfaudra des modlisations de donnes et des langages de requtes permettant :

    une reprsentation des donnes en accord avec les besoins de plusieurs disciplines scientifiques ;de dcrire des aspects spcifiques une discipline (modles de mtadonnes) ;de reprsenter la provenance des donnes ;de reprsenter des informations contextuelles sur la donne ;de reprsenter et supporter lincertitude ;de reprsenter la qualit de la donne .De trs nombreux autres thmes de recherche sont lis ce thme, citons notamment : la rduction demodle pour les EDP, l'acquisition comprime en imagerie, l'tude de mthodes numriques d'ordre levProbabilits, statistiques, analyse numrique, quations aux drives partielles dterministes etstochastiques, approximation, calcul haute performance, algorithmique Une grande partie de lacommunaut scientifique, notamment en mathmatiques appliques et en informatique, est concerne par cethme porteur.Gestion de donnesLe besoin de grer des donnes extrmement volumineuses est flagrant et les technologies daujourdhui nepermettent pas de le faire. Il faut repenser des concepts de base de la gestion de donnes qui ont tdtermins dans le pass. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidrerle principe qui veut quune requte sur un SGBD fournisse une rponse complte et correcte sans tenircompte du temps ou des ressources ncessaires. En effet la dimension exploratoire de la fouille de donnesfait que les scientifiques ne savent pas ncessairement ce quils cherchent. Il serait judicieux que le SGBDpuisse donner des rponses rapides et peu coteuses qui ne seraient quune approximation, mais quipermettraient de guider le scientifique dans sa recherche .Dans le domaine des donnes clients, il existe galement de rels besoins d'exploitation de ces donnes, enraison notamment de la forte augmentation de leur volume des dernires annes . Le big data et lestechnologies associes permettent de rpondre diffrents enjeux tels que l'acclration des temps danalysedes donnes clients, la capacit analyser lensemble des donnes clients et non seulement un chantillon decelles-ci ou la rcupration et la centralisation de nouvelles sources de donnes clients analyser afindidentifier des sources de valeur pour lentreprise.Outils de gestion des donnesLes outils utiliss lheure actuelle ne sont pas en adquation avec les volumes de donnes engendrs danslexploration de big data. Il est ncessaire de concevoir des instruments permettant de mieux visualiser,

    77

    77

    78

  • analyser, et cataloguer les ensembles de donnes afin de permettre une optique de recherche guide par ladonne . La recherche en big data ne fait que commencer. La quantit de data volue beaucoup plusrapidement que nos connaissances sur ce domaine. Le site The Gov Lab prvoit qu'il n y aura passuffisamment de scientifiques du data. En 2018, les tats-Unis auraient besoin de 140 000 190 000scientifiques spcialiss en big data .Gestion de l'entropieLe dluge de donnes qui alimente le big data (et dont certaines sont illgales ou incontrles) est souventmtaphoriquement compare la fois un flux continu de nourriture, de ptrole ou dnergie (qui alimenteles entreprises du data mining et secondairement la socit de linformation ) qui expose au risquedinfobsit et pourrait tre compar lquivalent dune pollution du cyberespace et de la noosphre(mtaphoriquement, le big data correspondrait pour partie une sorte de grande mare noireinformationnelle, ou une eutrophisation diffuse mais croissante et continue du monde numrique pouvantconduire une dystrophisation, voire des dysfonctions au sein des cosystmes numriques) .Face cette entropie informationnelle quelques rponses de type nguentropiques sont nes (wikipdiaen fait partie en triant et restructurant de linformation dj publie).Dautres rponses ont t la cration de moteurs de recherche et doutils danalyse smantique et de fouillede flots de donnes, de plus en plus puissants et rapides.Nanmoins, l'analyse du big data tend lui-mme engendrer du big data, avec un besoin de stockage et deserveurs qui semble exponentiel.Bilan nergtiqueCorolairement la croissance de la masse et du flux de donnes, une nergie croissante est dpense d'unepart dans la course aux outils de datamining, au cryptage/dcryptage et aux outils analytiques etdauthentification, et d'autre part dans la construction de fermes de serveurs qui doivent tre refroidis ; audtriment du bilan nergtique et lectrique du Web.Ides reues sur le big dataEn 2010, les jeux de donnes produites par lhomme sont de plus en plus complts par d'autres donnes,massivement acquises de manire passive et automatique par un nombre croissant de capteurs lectroniqueset sous des formes de plus en plus interoprables et comprhensibles par les ordinateurs. Le volume dedonnes stockes dans le monde fait plus que doubler tous les deux ans, et en migrant de plus en plus surinternet, les uns voient dans le big data intelligemment utilis une source dinformation qui permettrait delutter contre la pauvret, la criminalit ou la pollution. Et l'autre extrmit du spectre des avis, d'autres,souvent dfenseurs de la confidentialit de la vie prive, en ont une vision plus sombre, craignant ouaffirmant que le Big Data est plutt un Big Brother se prsentant dans de nouveaux habits , dans desvtements de lentreprise .En 2011 l'occasion d'un bilan sur 10 ans d'Internet pour la socit, Danah boyd (de Microsoft Research) etKate Crawford (University of New South Wales) dnoncaient de manire provocatrice six problmes lis des ides reues sur le big data : Lautomatisation de la recherche change la dfinition du savoir () Lesrevendications dobjectivit et dexactitude sont trompeuses () De plus grosses donnes ne sont pastoujours de meilleures donnes () Toutes les donnes ne sont pas quivalentes () Accessible ne signifiepas thique () Laccs limit aux Big Data cre de nouvelles fractures numriques (dont entre pauvreset riches ) ;

    77

    70

    7936

    80

    8182

    3636

  • Risques d'atteinte la vie prive et aux droits fondamentauxPlusieurs types de risques sont cits par la littrature :

    dshumanisation : Dans ce que Bruce Schneier dnomme lge dor de la surveillance , la plupart desindividus peuvent se sentir dshumaniss et ils ne peuvent plus protger les donnes personnelles ou nonqui les concernent, et qui sont collectes, analyses et vendues leur insu. Alors qu'il devient difficile dese passer de carte bleue, de smartphone ou de consultation de l'internet, ils peuvent avoir le sentiment dene pas pouvoir chapper une surveillance constante o des pressions visant les faire consommer,voter, etc.faille de scurit informatique : dans un monde de plus en plus interconnect et li lInternet, la scuriten ligne devient cruciale, pour la protection de la vie prive, mais aussi pour l'conomie (ex : en cas deproblme grave, des risques existent de perte de confiance, concernant la scurit des processus dachat enligne par exemple ; ils pourraient avoir des consquences conomiques importantes) ; vassalisation de la recherche scientifique par des socits commerciales et leurs services demarketing ;apophnie : (dductions indues) : les biais daccs et dinterprtation sont nombreux ( un corpus nestpas plus scientifique ou objectif parce que lon est en mesure daspirer toutes les donnes dun site.Dautant quil existe de nombreux biais (techniques avec les API, mais aussi organisationnels) danslaccs mme ces donnes quon aurait tort de considrer comme totales. Cet accs ne repose en effetque sur le bon vouloir de socits commerciales et sur les moyens financiers dont disposent chercheurs etuniversits) ;De plus, un biais li au genre existe : la grande majorit des chercheurs experts en informatique sontaujourdhui des hommes, or des historiennes fministes et les philosophes des sciences ont montr que lesexe de celui qui pose les questions dtermine souvent les questions qui seront poses ;msinterprtation de certaines donnes lies l'altrit, avec d'ventuelles consquencessociopsychologiques, par exemple et de mauvaise comprhension ou interprtation de lautre ( lautrenest pas une donne rappelle D. Pucheu ).Un autre risque est celui d'une rarfaction des occasions dexposition des individus des choses quinauraient pas t pr-vues pour eux, et donc un asschement de lespace public (comme espace dedlibration, de formation de projets non rabattus sur la seule concurrence des intrts individuels), ceschoses non pr-vues, tant prcisment constitutives du commun, ou de lespace public .exacerbation de la fracture numrique, car les outils de data mining offrent quelques entreprises unaccs croissant et presque instantan des milliards de donnes et de documents numrises. Pour ceuxqui savent utiliser ces donnes, et avec certaines limites, elles offrent aussi une certaine capacit produire, trier ou distinguer des informations juges stratgiques, permettant alors aussi de retenir ou aucontraire de librer avant dautres certaines informations stratgiques . Cet accs trs privilgi et peutransparent l'information peut favoriser des situations de conflits d'intrt ou des dlits d'initis. Il existeun risque d'ingalits croissante face aux donnes et au pouvoir que l'on a sur elles : Manovich distingueainsi 3 catgories dacteurs, foncirement ingaux face la donne : ceux qui crent les donnes (que cesoit consciemment ou en laissant des traces numriques), ceux qui ont les moyens de les recueillir, et ceuxqui ont la comptence de les analyser (2011).Ces derniers sont en faible nombre, mais trs privilgis (ils sont souvent employs par les entreprises etautres entits du big data et ont donc le meilleur accs la donne; ils contribuent produire ou orienterles rgles qui vont les encadrer et cadrer lexploitation des Big Data. Des ingalits institutionnelles sont apriori inluctables mais elles peuvent tre minimises et devraient au moins tre tudies, car ellesorientent les donnes et les types de recherches et applications qui en dcouleront.

    3636

    36

    83

    84

    85

    86

  • appropriation monopolistique de certains jeux de mgadonnes collectes par quelques grandesentreprises (Google, Facebook...) ou par les outils publics ou secrets de grands tats (ex : PRISM) visant capter le rel pour l'influencer ) ; une norme quantit de donnes est discrtement (et la plupart dutemps lgalement) collecte par des entreprises spcialises ou des agences dtat ou de renseignement,dont sur les comportements dachat et de centres dintrt sur lInternet de tous les groupes et dindividus.Ces donnes sont stockes, et parfois pirates (Ainsi, en 2003, lors d'une recherche de failles de scurit lasocit Acxiom, l'un des principaux courtiers en donnes s'est rendu compte que 1,6 milliardsd'enregistrements de consommateurs avaient t pirats via 137 attaques informatiques faites de janvier juillet 200 ; les informations voles incluaient des noms, adresses et des adresses e-mail de plusieursmillions d'amricains ). Ces donnes sont ensuite plus ou moins mises jour, et ventuellementloues ou vendues pour le marketing et la publicit cible, des tudes scientifiques des organismes desondage, des groupes dinfluence ou des partis politiques (qui peuvent ainsi plus facilement contacter leurslecteurs potentiels), etc. Les personnes dont les donnes circulent ainsi nen sont gnralement pasinformes, nont pas donn de consentement clair et peuvent difficilement vrifier ces donnes ousurtout les retirer des bases de donnes qui les conservent pour une dure potentiellement illimite. Desrisques de production derreur et de mauvais usages existent (dans le domaine des assurances et prtsbancaires par exemple). Daprs le reportage de F Lescalier intitul Big Data : les nouveaux devins ,80 % des donnes personnelles mondiales seraient dtenues par 4 grands acteurs qui sont (par ordrealphabtique) : Amazon, Apple, Facebook et Google.drives thiquement insoutenables, dj constates dans la partie grise ou sombre de linternet, ycompris dans les grands rseaux sociaux (dont Facebook et Twitter, qui collecte un grand nombre dedonnes et informations sur leurs utilisateurs et les rseaux dans lesquels ils sinscrivent ) ; Dautresinvitent ladoption de bonnes pratiques et de rgles thiques plus strictes pour le data mining et lagestion de ces mgadonnes .Notamment depuis les rvlations du lanceur d'alerte amricain Edward Snowden , certains sinquitentde voir outre une surveillance de plus en plus invasive (voire pervasive ) de nos activits par lesfournisseurs daccs Internet , puis fleurir des lgislations facilitant (sous prtexte de facilitsconomiques et/ou de scurit nationale) lusage doutils de traage (via les cartes de paiement, de fidlit,de sant, de pointage, les camras de surveillance, certains smartgrids ou outils domotiques, certains objetsconnects golocalisant leur propritaire, etc.). Certaines de ces lgislations facilitent ou lgitimentexplicitement les coutes lectroniques (coute et analyse de conversations tlphoniques ; interception etanalyse demails et de rseaux) et le suivi gnral des activits sur le Net, ce qui leur semble tre uncontexte pouvant prparer une surveillance orweillienne gnralise des individus. Ces auteurs dnoncentlapparition de processus et dun contexte de plus en plus orweillien intrinsquement difficiles contrler, et insistent sur limportance de la protection de la vie prive , mme quand on a rien cacher ou (comme B. Schneier en 2008 ou Culnan & Williams en 2009 ) rappellent que lesnotions de scurit et de protection de la vie prive et dautonomie de lindividu ne sont pas opposes.

    Gouvernance et mgadonnesElle ncessite un dbat citoyen constant ainsi que des modes de gouvernance et de surveillanceadapts car des tats, des groupes ou des entreprises ayant des accs privilgis au Big data peuvent enextraire un grand nombre de donnes personnelles diffuses qui, par croisement et analyse, permettent unprofilage de plus en plus prcis, intrusif et parfois illgal (faisant fi de la protection de la vie prive) desindividus, des groupes, des entreprises, et en particulier de leur statut social, culturel, religieux ouprofessionnel (PRIZM [Quoi ?]), de leurs activits personnelles, leurs habitudes de dplacement, dachat et deconsommation, ou encore de leur sant. La monte des Big Data amne aussi de grandesresponsabilits .

    16

    87, 88, 89, 90

    91

    9293, 94

    95 9697, 98

    99100

    101

    19102

    103, 104 105 106

    107108

    36

  • Notes et rfrenceshttp://www.research.ibm.com/visual/projects/chromogram.html1. Watters, Audrey, Visualize Big Data with Flowing Media (http://www.readwriteweb.com/start/2010/04/visualize-big-data-with-flowing-media.php), ReadWriteWeb. 15 avril 20102. Terme recommand en France par la DGLFLF, Journal officiel du 22 aot 2014, et au Canada par l'OQLF.3. http://www.telecom-paristech.fr/formation-continue/masteres-specialises/big-data.html.4. Cukier, K., & Mayer-Schoenberger, V. (2013). Rise of Big Data: How it's Changing the Way We Think about the World(http://faculty.cord.edu/andersod/The%20Rise%20of%20Big%20Data.docx), The. Foreign Aff., 92, 28.5. Les mdias dans la moulinette du big data (http://www.lemonde.fr/sciences/article/2014/01/06/les-medias-dans-la-moulinette-du-big-data_4343574_1650684.html), 6 janvier 2014, consult 12 janvier 2014.6. Le rle du Big Data dans la campagne prsidentielle amricaine en 2012 (http://123opendata.com/blog/big-data-campagne-presidentielle-us/)7. Big Data : un ADN utilisateur squenable pour moins de 1 000 $ (http://lecercle.lesechos.fr/entreprises-marches/high-tech-medias/internet/221144150/big-data-adn-utilisateur-sequencable-moins-1/)8. La scurit se met rsolument au Big Data (http://www.lemagit.fr/article/ids-ips-siem/10640/1/la-securite-met-resolument-big-data/), LeMagIT, mars 2012.9. Michel Cartier, Le "Big Data" (http://www.21siecle.quebec/table-des-matieres-2/le-big-data/), sur 21e sicle10. CSAIL Researchers to Teach MIT's First Online Professional Course on Big Data (http://www.csail.mit.edu/node/2142),Tackling the Challenges of Big Data, janvier 2014, consult 2014-01-1211. Gouvernement franais (2012) - Investissements davenir (http://investissement-avenir.gouvernement.fr/sites/default/files/user/AAP%20Cloud%20Computing%203%20-%20Big%20data.pdf) Fonds national pour la socit numrique,Appel projets n 3 - Big Data.

    12.

    Big Data Paris, confrence-exposition, 20-21 mars 2012 (http://bigdataparis.com/fr-index.php).13. The Worlds Technological Capacity to Store, Communicate, and Compute Information tracking the global capacity of60 analog and digital technologies during the period from 1986 to 2007 (http://www.martinhilbert.net/WorldInfoCapacity.html)14.

    Gil Press (2013) une trs courte histoire du big data Forbes.com, dat du 5 mai 2013,15. Trguier, V. (2014). Mondes de donnes et imaginaires: vers un monde cyberntique (http://dumas.ccsd.cnrs.fr/dumas-01086598/document) et [http:// dumas.ccsd.cnrs.fr/dumas-01086598/document rsum] ; Library and informationsciences. 2014, PDF, 53 pages16.

    Borkar, V. R., Carey, M. J., & Li, C. (2012). Big data platforms: what's next?. XRDS: Crossroads, The ACM Magazinefor Students, 19(1), 44-4917. Che, D., Safran, M., & Peng, Z. (2013, January). From big data to big data mining: challenges, issues, and opportunities(http://faculty.ksu.edu.sa/mejdl/Publications/big-data-to-big-data-mining.pdf). In Database Systems for AdvancedApplications (pp. 1-15). Springer Berlin Heidelberg18.

    Larsen, K. (2009). Orwellian state of security. Infosecurity, 6(6), 16-19 (http://www.sciencedirect.com/science/article/pii/S1742684709700138 rsum])19. Sanders, E. (2001). Firms renew assault on privacy rules. Los Angeles Times C, 1.20. Boeth R (1970). The Assault on Privacy: Snoops, Bugs, Wiretaps, Dossiers, Data Bann Banks, and Specters of 1984.Newsweek, Incorporated.21. Miller, A. R. (1971). The assault on privacy: computers, data banks, and dossiers. University of Michigan Press.22. Arthur Miller (1975) "Assault on privacy" ; Psychiatric Opinion ; Vol 12(1), Jan 1975, 6-14.23. hristie, G. C. (1971). The Right to Privacy and the Freedom to Know: A Comment on Professor Miller's" The Assault onPrivacy (http://scholarship.law.duke.edu/cgi/viewcontent.cgi?article=1213&context=faculty_scholarship)". Universityof Pennsylvania Law Review, 970-991.24.

    Froomkin, A. M. (2000). The death of privacy ? (http://media.usm.maine.edu/~lenny/privacy-deathof.pdf) ; StanfordLaw Review, 1461-1543.25. Ernst M.L & Schwartz, A.U (1962) Privacy: The right to be let alone. New York: Macmillan.26. Askland, A. (2006). [http://papers.ssrn.com/sol3/Delivery.cfm/SSRN_ID1406744_code1195389.pdf?abstractid=1406744&mirid=3 What, Me Worry? The Multi-Front Assault onPrivacy (http://papers.ssrn.com/sol3/Delivery.cfm/SSRN_ID1406744_code1195389.pdf?abstractid=1406744&mirid=3).St. Louis University Public Law Review, 25(33), et rsum (http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1406744)

    27.

    Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on EmployeePrivacy Rights, The. Software LJ, 4, 493 (Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private SectorWorkplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493. rsum]).28.

    Warren, S. D., & Brandeis, L. D. (1890). The right to privacy. Harvard law review, 193-220.29. http://www.bigdataparis.com/presentation/mercredi/PDelort.pdf?PHPSESSID=tv7k70pcr3egpi2r6fi3qbjtj6#page=430. http://www.amazon.com/Big-Data-Analytics-Intelligence-Businesses/dp/111814760X31.

    o

  • http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf32. http://www.journaldunet.com/solutions/expert/51696/les-3-v-du-big-data---volume--vitesse-et-variete.shtml33. http://www-01.ibm.com/software/data/bigdata/34. Manovich L (2011) Trending: The Promises and the Challenges of Big Social Data, Debates in the Digital Humanities,ed M.K.Gold. The University of Minnesota Press, Minneapolis, MN.[15 juillet 2011].35. Big Data : la ncessit dun dbat (traduction collaborative dun essai de Danah boyd et Kate Crawford prsentant Sixprovocations au sujet du phnomne des Big Data, prsent lors du Symposium sur les dynamiques de linternet et dela socit : Une dcennie avec Internet, organis par lOxford Internet Institute, le 21 septembre 2011)(http://www.internetactu.net/2011/09/23/big-data-la-necessite-d%E2%80%99un-debat/comment-page-1/), FING,Internet.Actu.Net

    36.

    tude IDC-EMC, Extracting value from chaos (http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf), sponsorise par EMC Gartner, cite par Delphine Cuny sous le titre "Big data" : la nouvellervolution , Virginia Rometty, La tribune, n 42, 29 mars au 4 avril 2013, p. 437.

    The big data rvolution , Le journal, CNRS, n 28, janvier 2013 (lire en ligne (http://www.cnrs.fr/fr/pdf/cim/CIM28.pdf)).38. http://ercim-news.ercim.eu/en89/special/managing-large-data-volumes-from-scientific-facilities39. Big data : du concept la mise en uvre. Premiers bilans. (http://blog.dataraxy.com/post/2013/07/10/Big-data-%3A-du-concept-%C3%A0-la-mise-en-%C5%93uvre.-Premiers-bilans.)40. http://www.technologyreview.com/news/423897/data-analysis-is-creating-new-business-opportunities/41. https://www14.software.ibm.com/webapp/iwm/web/signup.do?source=sw-infomgt&S_PKG=500016891&S_CMP=is_bdebook1_bda42. http://www.afdit.fr/media/pdf/27%20sept%202013/AFDIT%20BIG%20DATA%20Pierre%20Delort.pdf#1343. http://www.andsi.fr/tag/dsi-big-data/44. http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-densite-information-com45. Delort, Le Big Data, Paris, Presses Universitaires de France, 2015, 128 p. (ISBN 978-2-13-065211-3, lire en ligne(http://www.puf.com/Que_sais-je:Le_Big_Data))46. Le Big Data - PUF (http://www.puf.com/Que_sais-je:Le_Big_Data), sur www.puf.com/, 12 avril 201547. http://www.ujf-grenoble.fr/recherche/college-des-ecoles-doctorales/les-formations-proposees/du-calcul-parallele-au-massivement-parallele--1442974.htm?RH=UJF48. http://www.oracle.com/technetwork/topics/entarch/articles/oea-big-data-guide-1522052.pdf49. http://www.zdnet.fr/actualites/explosion-des-volumes-de-donnees-de-nouvelles-architectures-s-imposent-39787579.htm50. http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf51. http://www.cs.ucsb.edu/~sudipto/edbt2011/CloudTutorialPart1.pptx52. https://www.hpc-lr.univ-montp2.fr/53. (en) Michel Sumbul, HDFS (http://whatsbigdata.be/hdfs), sur http://whatsbigdata.be/hdfs, 24 juin 2014 (consult le28 juillet 2014)54. (en) HDFS (http://whatsbigdata.be/hdfs/), sur http://whatsbigdata.be/hdfs/, 24 juin 2014 (consult le28 juillet 2014)55. http://www.aleph-networks.com56. http://www.bionatics.com/57. http://healthstartup.eu/2012/05/top-big-data-opportunities-for-health-startups/.58. http://www.safety-line.fr/index.php/fr/.59. http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-telecom-paristech/dec-2012-big-data-big-value/10-jeunes-entreprises-innovantes-reperees-pour-leurs-projets-big-data.html60. http://www.PredicSis.com.61. (en) LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in theworld, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. areexplained for the general public. (http://cds.cern.ch/record/1278169?ln=en), CERN-Brochure-2010-006-Eng. LHCBrochure, English version., CERN (consult le 20 janvier 2013)

    62.

    (en) LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in theform of questions and answers. (http://cds.cern.ch/record/1092437?ln=en), CERN-Brochure-2008-001-Eng. LHCGuide, English version., CERN (consult le 20 janvier 2013)63.

    Geoff Brumfiel, High-energy physics: Down the petabyte highway , Nature, vol. 469, 19 janvier 2011, p. 28283(DOI 10.1038/469282a (http://dx.doi.org/10.1038/469282a), lire en ligne (http://www.nature.com/news/2011/110119/full/469282a.html)).64.

    Data, data everywhere Information has gone from scarce to superabundant. That brings huge new benefits, saysKenneth Cukier (interviewed here)but also big headaches (http://www.economist.com/node/15557443), TheEconomist, publi 25 fvrier 201065.

    Delort Pierre (2014) ICCP Technology Foresight Forum "Harnessing data as a new source of growth: Big data66.

    oo

  • analytics and policies (http://www.oecd.org/sti/ieconomy/Session_3_Delort.pdf#page=6), en ligne sur le site de l'OCDE,mis jour 21 juillet 2014, PDF, 14 pDelort Pierre (2012), Big data (http://www.bigdataparis.com/documents/Pierre-Delort-INSERM.pdf#page=6),Association Nationale des DSI, PDF 12p67. http://www.nasa.gov/centers/goddard/news/releases/2010/10-051.html.68. http://bosmol.com/2013/02/how-big-data-analysis-helped-president-obama-defeat-romney-in-2012-elections.html.69. http://thegovlab.org/govlab-index-the-digital-universe/.70. http://www.informationweek.com/government/enterprise-applications/image-gallery-governments-10-most-powerf/224700271.71. http://www.innovation2030.org/fr/.72. (en) Data, data everywhere , The Economist, 25 fvrier 2010 (lire en ligne (http://www.economist.com/node/15557443))73. http://www.bayesia.com/fr/produits/bayesialab/ressources/etudes-cas/data-mining-clients.php>74. (en) When the Art Is Watching You (http://www.wsj.com/articles/when-the-art-is-watching-you-1418338759?mod=e2tw), sur Wall Street Journal, 11 dcembre 201475. Rgis Castagn (Interoute) : "Big Data et Cloud Computing seront intimement lis" (http://www.silicon.fr/regis-castagne-interoute-big-data-cloud-computing-intimement-lies-90528.html), silicon.fr, 7 novembre 2013.76. http://ercim-news.ercim.eu/images/stories/EN89/EN89-web.pdf.77. Infographie - lexploitation des donnes clients lre du Big Data (http://blog.markess.fr/2013/03/infographie-exploitations-des-donnees-clients-avec-le-big-data.html) , blog MARKESS International78. Hilbert, M. (2013). Big data for development: From information-to knowledge societies. SSRN 2205145.79. Bruce Schneier on the Hidden Battles to Collect Your Data and Control Your World (http://www.democracynow.org/2015/3/13/data_and_goliath_bruce_schneier_on) et partie 2 (http://www.democracynow.org/blog/2015/3/13/part_2_bruce_schneier_on_the) et transcriptions crites (en anglais), par la Chaine Democracy Now , consult2015-05-08

    80.

    Webb, M., & Caron, C. (2015). Les nouveaux habits de Big Brother. Relations, (776), 14-17.81. The Age of Big Data (http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?_r=0),article de STEVE LOHRFEB. Publi le 11, 2012 par le New-York Times82. Harding, S. (2010) Feminism, science and the anti-Enlightenment critiques , in Women, knowledge and reality:explorations in feminist philosophy, eds A. Garry and M. Pearsall, Boston: Unwin Hyman, 298320.83. Pucheu David, L'altrit l'preuve de l'ubiquit informationnelle , Herms, La Revue 1/2014 (n 68) , p. 115-122Lien vers Cairn Info (http://www.cairn.info/revue-hermes-la-revue-2014-1-page-115.htm.)84. Antoinette Rouvroy. (2014). "Des donnes sans personne: le ftichisme de la donne caractre personnel l'preuve del'idologie des Big Data (http://works.bepress.com/cgi/viewcontent.cgi?article=1069&context=antoinette_rouvroy)"Contribution en marge de l'tude annuelle du Conseil d'tat. Le numrique et les droits et liberts fondamentaux.(rsum (http://works.bepress.com/antoinette_rouvroy/55))

    85.

    Schneier, B. (2011). Secrets and lies: digital security in a networked world. John Wiley & Sons86. http://www.dmnews.com/acxiom-hacker-gets-prison-sentence/article/87117/87. Appeals court: Stiff prison sentence in Acxiom data theft case stands ; Snipermail owner Scott Levine was sentenced toeight years in prison (http://www.computerworld.com/article/2543400/cybercrime-hacking/appeals-court--stiff-prison-sentence-in-acxiom-data-theft-case-stands.html), consult 2015-05-0888.

    en anglais : "largest ever invasion and theft of personal data"89. Acxiom database hacker jailed for 8 years ; The Register (http://www.theregister.co.uk/2006/02/23/acxiom_spam_hack_sentencing/)90. [ http://www.tagtele.com/videos/voir/151950/ reportage diffus par Canal+] Big Data : les nouveaux devins 91. Morozov, E. (2012). The net delusion: The dark side of Internet freedom ; What Comes After Internet Utopia?(http://www.bcongresos.com/congresos/gestor/ckfinder/userfiles/files/ACOP/Presentaciones/Evgeny%20Morozov.pdf).PublicAffairs, juin 201292.

    Raynes-Goldie, K. (2010). Aliases, creeping, and wall cleaning: Understanding privacy in the age of Facebook(http://firstmonday.org/htbin/cgiwrap/bin/ojs/index.php/fm/article/viewArticle/2775/2432). First Monday, 15(1).93. Hull, G., Lipford, H. R., & Latulipe, C. (2011). Contextual gaps: Privacy issues on Facebook (http://pages.uoregon.edu/koopman/courses_readings/phil123-net/privacy/hull_context_privacy_fb.pdf). Ethics and information technology,13(4), 289-30294.

    [ http://www.technologyreview.com/news/424104/what-big-data-needs-a-code-of-ethical-practices/ What Big DataNeeds]95. Ethical issues in data mining (http://alexandria.tue.nl/repository/freearticles/612259)96. [ http://www.ethicsofbigdata.com/ Ethics of big Data.]97. http://www.cio.co.uk/insight/data-management/ethical-questions-around-big-data/ Ethical Questions around Big Data]98. Delage Jean-Paul, Avec Edward Snowden, l'homme sorti de l'ombre qui voulait clairer le monde ! , Ecologie &politique 1/2014 (N48) , p. 5-12 URL : http://www.cairn.info/revue-ecologie-et-politique-2014-1-page-5.htm. ; DOI :10.3917/ecopo.048.000599.

  • Michael, M. G., & Michael, K. (2009). Uberveillance: microchipping people and the assault on privacy(http://ro.uow.edu.au/cgi/viewcontent.cgi?article=1716&context=infopapers&sei-redir=1&referer=http%3A%2F%2Fscholar.google.fr%2Fscholar%3Fhl%3Dfr%26q%3DAssault%2Bon%2Bprivacy%2B%26btnG%3D%26lr%3D#search=%22Assault%20privacy%22). Faculty of Informatics-Papers, 711

    100.

    Ohm, P. (2009). The rise and fall of invasive ISP surveillance (http://illinoislawreview.org/wp-content/ilr-content/articles/2009/5/Ohm.pdf). University of Illinois Law Review, 30 aout 2008101. Tene, O., & Polonetsky, J. (2012). Big data for all: Privacy and user control in the age of analytics. Nw. J. Tech. &Intell. Prop., 11, xxvii102. Solove, D. J. (2011). Why privacy matters even if you have nothing to hide. Chronicle of Higher Education, 15103. Solove, D. J. (2007). ['http://scholarship.law.gwu.edu/cgi/viewcontent.cgi?article=1159&context=faculty_publicationsI've Got Nothing to Hide' and Other Misunderstandings of Privacy]. San Diego law review, 44, 745.104. Schneier, B (2008). What our top spy doesnt get: Security and privacy arent opposites. Wired. com.105. Culnan, M. J., & Williams, C. C. (2009). How ethics can enhance organizational privacy: lessons from the choicepointand TJX data breaches. Mis Quarterly, 673-687 (rsum (http://www.jstor.org/stable/20650322)).106. Laurence Allard, Pierre Grosdemouge et Fred Pailler, Big Data: la ncessit dun dbat (http://internetactu.blog.lemonde.fr/2011/10/05/big-data-la-necessite-dun-debat), sur un blog du Monde, 5 octobre 2011.107. Maxime Ouellet, Andr Mondoux, Marc Mnard, Maude Bonenfant et Fabien Richert, "Big Data", gouvernance etsurveillance, Montral, Universit du Qubec Montral, 2014, 65 p. (ISBN 978-2-920752-11-5, lire en ligne(http://www.archipel.uqam.ca/6469/1/CRICIS_CAHIERS_2014-1.pdf)).108.

    Voir aussiLiens externes

    Big Data : un ADN utilisateur squenable pourmoins de 1 000 $. Les Echos.(http://lecercle.lesechos.fr/entreprises-marches/high-tech-medias/internet/221144150/big-data-adn-utilisateur-sequencable-moins-1)Big Data car Low-Density Data ? La faible densiten information comme facteur discriminant. LesEchos. (http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-densite-information-com)

    Ce document provient de https://fr.wikipedia.org/w/index.php?title=Big_data&oldid=118693596 .Dernire modification de cette page le 16 septembre 2015 14:21.Droit d'auteur : les textes sont disponibles sous licence Creative Commons paternit partage lidentique ;dautres conditions peuvent sappliquer. Voyez les conditions dutilisation pour plus de dtails, ainsi que lescrdits graphiques. En cas de rutilisation des textes de cette page, voyez comment citer les auteurs etmentionner la licence.Wikipedia est une marque dpose de la Wikimedia Foundation, Inc., organisation de bienfaisance rgiepar le paragraphe 501(c)(3) du code fiscal des tats-Unis.

    Sur les autres projets Wikimedia :mgadonnes, sur le Wiktionnairebig data, sur le WiktionnaireBig data, sur WikiversityBig data, sur Wikiquote