140
Connected Event Romandie Du Big Data au Smart Data EPFL – Oct 7, 2015

Connected Event - Du Big Data au Smart Data 7Oct2015 - EPFL

Embed Size (px)

Citation preview

Connected Event RomandieDu Big Data au Smart Data

EPFL – Oct 7, 2015

Du Big Data au Smart DataNicolas Fulpius – Chief Digital Officer

EPFL – Oct 7, 2015

L’accélération de la numérisation impacte notre société

NewBusiness Models

New Waysof Working

CustomerExperience

BusinessProcesses

E2E Connectivity

Devices ApplicationsInfrastructure Plates-formes

Capteurs, Wearables,« Things »

Solutions,applis

Data Storage & Aggregation,Cloud, Data Center

Plates-formes de service,data analytics, APIs

La Chaine de Valeur Digitale

Les Dimensions de la Digitalisation

En 2017, on s’attend à ce que le M-commerceréalise 516 milliards de dollars de transaction.

Le volume de crowdfunding a sextuplé en 2 ans.

Les MOOCs de l’EPFL ont 100x plus d’inscritsque le campus ne compte d’étudiants.

1Md’inscrits aux

MOOCs

01101001100101010011

101010010100010100100100101010010101

100011001010101001

Du Big au Smart DataVers une problématique sociétale

et de l’individu

Big Data

SmartAnalytics

SmartData

Volume

Velocity

Volume

Velocity

Variety

Veracity

Volume

Velocity

Variety

Veracity

Voluntarism

Swisscom comme moteur de la digitalisation en Suisse

E2E Connectivity

Devices ApplicationsInfrastructure Plates-formes

Capteurs, Wearables,« Things »

Solutions,applis

Data Storage & Aggregation,Cloud, Data Center

Plates-formes de service,data analytics, APIs

La Chaine de Valeur Digitale

NewBusiness Models

New Waysof Working

CustomerExperience

BusinessProcesses

Les Dimensions de la Digitalisation

Merci de votre attention

Du Big Data au Smart Data Dr. Adrienne Corboud Fumagalli,

Vice Présidente EPFL, Innovation et valorisation

@EPFL RLC, 7 octobre 2015

Que faire face au déluge ?

The Economist, February 27th - March 5th 2010

Le défi de Noé

Noé a fait le choix des catégories

Marketing 1.0

Marketing 2.0L’opinion

Les sondages

Les attitudes sur le long terme

Les marques

Les sciences sociales et le marketing 3.0

Tracer les data

Activités et Memes

Rapidité davantage que

volume et diversité

Contexte

L’alliance des médias populaires et

du Social Media : un puissant moteur, producteur de données en temps réel

Exemple :

détection de tous

Les réseaux

d’influences

• par communautés

actives graphe 1

• par controverses

graphe 2

• avec les émotions

associées graphe 3

• le réseau nuisible à

l’intérêt de la marque

graphe 4.

Une marque sous influence !

Graphe 1 Graphe 2

Graphe 3 Graphe 4

EPFL Social Media Lab

“…everybody here has other much more important business to take care of.”

http://youtu.be/-ybecKdwj2c

Leaders et opinion publique: le grand fosséNégociations sur le changement climatique (Copenhague)

Le défi de la COP 21 : un débat

citoyen

• développer une pédagogie à l’intention du public,

• assurer transparence et clarté des débats et des

positions de négociation

EPFL Social Media Lab

Cartographie des sentiments

face à la vaccination

Prof. Marcel Salathé, EPFL-SV

Les Traces donnent du

sens

Merci de votre attention

[email protected]

Recommendation: Le Smart Data pour nous

Boi Faltings

Internet et le développement durable

• Le tour des magasins devient virtuel

• Papier remplacé par Ipad/Kindle• Communautés sur réseaux sociaux

27

Ce n’est pas simple…

28

Recommendations

29

Collaborative Filtering• Big data = matrice des achats:

• Gourmande => il faut avoir acheté ≈1% des produits pour trouver des associations fiables.

a b c d e f g h i j k l

Antoine x x x x

Chantal x x x

Francois x x x

Nicole x x x

Pierre x x x x

30

Smart Data

• Apprentissage: trouver un modèle à peu de paramètres qui prédit les articles achetés.

31

Achats(peu remplie)

U V≈ x

d (traits latents)

d

Clie

nts

Produits

Produits

Clie

nts

Modèle => Prévisions• Supposons 2 traits latents f1 et f2:

a b c d e f g h i j k l

f1 1 0 1 1 0 0 1 0 0 0 0 0

f2 0 1 0 0 1 1 0 1 1 1 0 0

f1 f2

Antoine 0 1

Chantal 1 0

Francois 0 1

Nicole 1 0

Pierre 0 1

0 1 0 0 1 1 0 1 1 1 0 0

1 0 1 1 0 0 1 0 0 0 0 0

0 1 0 0 1 1 0 1 1 1 0 0

1 0 1 1 0 0 1 0 0 0 0 0

0 0 0 0 1 1 0 1 1 1 0 0

32

Big Data

• 100’000 produits, 1 million utilisateurs => Matrice: 100 milliards de paramètres.

• 20 achats/utilisateur: 20 millions de données.

• Modèle à d=5 dimensions latents:

5.5 millions de paramètres: faisable!

• Optimiser la prédiction des achats connus.

33

Failles de l’optimisation

• Evaluation = précision moyenne:– Article populaire: poids = 1000 achats

– Article “long tail”: poids = 2-3 achats

• Modèle optimisé pour être correct sur les articles populaires…

• …mais pas sur les articles “longue traîne”

• recommendation précise, mais pas nouvelle!

34

Apprendre une Taxonomie

• N produits => < 2N paramètres• Achats répétés n’ont pas d’influence.

35

Ontology Filtering (Schickel)

• Performance au laboratoire, sur Movielens:– Bonne précision déjà avec 5 achats au lieu de 40!

• Thèse recomponsé par prix Chorafas.

36

• Tourne sur plus de 40 sites.• Influence sur les ventes par

rapport aux systèmesantérieurs: entre + 30 et + 700%.

• Grace à une forte composantede recommendations “long tail”.

37

En Conclusion

• Smart data = recommendation.

• Clé pour l’évolution de l’ecommerce.

• Techniques (et performances) très variés.

• Attention à l’évaluation:

Critère doit correspondre aux objectifs.

38

Information Équilibrée

ObViz.com

Claudiu Musat

Co-foundateur

spinoff

ObViz

Swisscom & ObViz

40

• Boi Faltings

• Maxime Darçot

• Gaylor Bosson

• Claudiu Musat

• Etudiants en Master à l’EPFL

• Audrey Loeffel

CEO

CTO

Web&

Scalability

Interface

Board of

Directors

• Ph.D & postdoc en IA

• 7 ans d’expérience dans l’industrie

• Prof. EPFL - 30 ans dans la

recherche

• Serial Entrepreneur – Fondateur de

Nexthink et Preddigo

• 2 Masters en Computer Science

Personnaliser la recherche

Swisscom & ObViz

41

État de l’art dans l’industrie

Swisscom & ObViz

42

État de l’art dans la recherche

Swisscom & ObViz

43

“Equilibrer” la Visualisation

Swisscom & ObViz

44

Décisions facilitées

Swisscom & ObViz

45

CONFIANCE

PERÇUE

(SUBJECTIF)

CERTITUDE DE

LA DECISION

TAUX DE

CHANGEMENT

(OBJECTIF)

INTERFACE

PRÉFÉRENCE

(SUBJECTIF)

CONFIANCE

2.06x2.76x1.53x3.67x2.66x6.49x

Swisscom & ObViz

46À la découverte !

Swisscom & ObViz

47

Transparence & Confiance

Swisscom & ObViz

48

(Social) Media Monitoring

Swisscom & ObViz

49

ObViz team 50

With the ObViz business app you can track your image and products in the media. Be notified about perception changes.

ObViz team

Swisscom & ObViz

51

Compréhension & Personnalisation

Swis

sco

m, F

oli

enb

ibli

oth

ek

Ville : comment améliorer ma qualité de vie en tant que citoyen-ne ?

Raphaël Rollier, SwisscomAlexandre Bosshard, Ville de Pully

… quels outils d’analyses ?

?

Monde Internet Monde physique

Observatoire de la mobilité à

PullyVisiosafe et son projet à la gare de

Lausanne

Exemple de deux projets Smart City … au service de la mobilité

Raphael Rollier 09/2015

55

Source: Projet d’agglomération Lausanne-Morges

Pully : ville-centre de l’agglomération

Attractivité du centre ville

Raphael Rollier 09/2015

1er siècle après J-C, villa romaine de Pully

En ce temps-là parut un édit de César Auguste, ordonnant un recensement de toute la terre.

La Bible

1969comptage manuel

1969comptage manuel

2015 Boucles de comptage, caméras,

mesures manuelles

1 2

3 4

Enjeux … passer de la photo au film

PRECISION

CONTINUITESPATIALE

CONTINUITETEMPORELLE

MobililtyInsights

SMART CITY … «Observatoire de la mobilité de Pully»

2016

D’où viennent les gens qui passent à Pully ?

Top 5, Communes

1. Lausanne2. Lutry 3. Bourg-en-Lavaux4. Vevey5. Montreux

Top 5, Quartiers de Lausanne

1. Centre-Ville 2. Ouchy3. Montchoisi4. Montriond- Cour5. Sallaz - Vennes

Qui vient à Pully ?

Visiteurs

Pendulaires

Personnesen transit

Pully75%

5%

20%25’000trajets

Perspectives

Raphael Rollier 09/2015

70

Raphael Rollier 09/2015

Projet Smart City… prochains résultats présentés le 3 décembre à Zoug

… quels outils d’analyses ?

Monde Internet Monde physique

Sensing behavioral facts

Comment les visiteurs se comportent?

Compter• Visiteurs #: 246

• Zone / Section

1118

Directions : Entrée / Sortie

• Zone #1 : 18 / 11

Durations

• Temps de visite

• Temps d’attente

• Temps de service

Distances

• Distance Parcourue

• Chemin de visiteurs

Heat maps

• Hot spots

• Zone d'intérêt

Fournir des indications quantitatives et analytiques

Comment ça marche ?

Capture de donnéesEntièrement Anonyme

Intelligence Artificielle

Analyse

Visiosafe A.I.

Capture

PerceptionAction

ApprentissagePublication

Visiosafe Intelligence Artificielle

Cas d'utilisation

Terminals in Switzerland

TERMINALS

Get quantitative insights on your visitors

[email protected]

Big Data au Smart data

Start-up

Sophia Genetics- Data Driven Medicine

Pryv- Sensitive medical information

management

Faveeo- Collaborative Intelligence for Web &

Social Media

Obviz- Big data and social network analysis to

extract opinions and meaning

RAW Labs- Revolutionary Database query platform

PredictiveLayer- Automated Predictive Analysis

MERCI

@innovaud

www.innovaud.ch

Sophia DDM – Big Data / Smart Data

07.10.2015 CONFIDENTIAL 92

07.10.2015 CONFIDENTIAL 93

Personalized Medicine

Approche taille unique

Approche ciblée

Prédictive

Pronostic

Précision

Personnalisation

93

07.10.2015 CONFIDENTIAL 94

Qu’est ce qu’un Test Génétique ?

Patient

Généticien

NCBIExACCOSMIC…

Docteurs

Sample

Lab Preparation

DNAEnrichment

Sequencing Storage

Alignment

AlgorithmsStatistics

VariantAnnotation

Noise Extraction

Prédictionlikelihood breast cancer

Cancerschoice of drugstreatment plan

Classification

DDMApplication

Capture

95

Différentes technologies – même échantillonNGS Platform

A

Sample prep.

A

B A

B A

B B

96

97

‘Machine Learning’ / Maths

Précision

Reproductible

Robuste

Rentable

Mutualize Dataplus de complexité -> Précision

Securité / Données PrivéesImpacte à long terme des fuites d’information

Réseau – partage entre laboratoiresBénéficier de l’expérience des autres

07.10.2015 CONFIDENTIAL 98

Differentes Hopitaux:

Big Data –> Clinical Diagnostics

Information d’un patient

aujourd’huiBénéficie à tous les patients

demain

Intégration du

savoirPremier

diagnostic

Autre

information

Information

génomique

Du big au Smart data

99

07/10/2015 CONFIDENTIAL 100

Diagnostiques - Du big au Smart data

>20,000 patients aidés en 2015

GenomicInformation

Other MedicalInformation

+

Ioannis Xenarios

SIB Swiss Institute of Bioinformatics

Vital-IT and Swiss-Prot group

SIB Swiss Institute of Bioinformatics 2015

56 groups

700 scientists

More than

400 between

Lausanne and

Geneva

SIB Swiss Institute of Bioinformatics 2015

56 groups

700 scientists

SIB missions

• To provide core databases, software and services worldwide

• To provide key competencies and research support

To provide world-

class core bioinformatics

resources to the life

science community

• To federate Swiss bioinformatics researchers

• To train first-rate researchers

To lead and

coordinate the field

of bioinformatics in Switzerland

To provide core databases, software and services

worldwide

• World-renowned encyclopedia of

protein sequences and functional

information

• > 540,000 curated protein sequences

• ~ 220,000 curated literature

references

• ~ 800,000 visits per month

• A central hub linking to over 140

other resources worldwide

• A team of over 50 biocurators,

developers, IT and support staff

Enabling Big Data - the Swiss-Prot group

4000 years of evolution of biocuration,

Structuring knowledge

Challenge 1: knowledge representation

genes and genomes

proteinscomplexes

chemicalsreactions

pathways

systems

UniPathway

● In databases

● The level of erroneous annotation is

higher in automatically annotated

databases than in manually expert curated ones

● In literature

● Not every published findings is latter

confirmed independently ...

Challenge 2: Errors, Mistakes, Imprecisions

Swiss-Prot people

Ioannis Xenarios

Director

Alan BridgeLydie Bougueleret Sylvain Poux Nicole Redaschi

Operation DirectorHead of Curation

Head of AutomationHead of Development

Ioannis Xenarios

The Vital-IT group (Lausanne)

To provide key competencies & research support to the

national life science community

Vital-IT : A “cloud” HPC

• > 6’000 cores

• >1’400 software maintained

as RPM release

• > 6 PB near-line/archive data

An infrastructure distributed over western Switzerland

The infrastructure iscentrally managedfrom Lausanne

Vital-IT supports the technology plateforms

• Technology platforms are located in the

the different universities, at the EPFL

• Genomics (sequencing)

• Proteomics

• Screening and imaging

• Bioinformatics "core" facilities

• Biostatistics

• Data growth (raw unprocessed)

• from 1TB/week (2007)

• to >32 TB /week (2014)

• 42 TB/week Q1 2015

Need to archive >10-25 years

Vital-IT infrastructureAnd Competence

Platforms of Ecole polytechnique Fédérale de Lausanne

Platforms of University of Lausanne

LGTF1,PAF2, PMF3, BCF4, PMF5

Platforms of University of Fribourg

NGS1, BugFri4

Platforms of Bern

NGS1, IFBU4

PCF2, BSF3, BBCF4

Platforms of Geneva University

iGE3-genomics (ex-NCCR genome)1, PCF/BPRG2

Platforms specificities1: Genomics2: Proteomics3: Screening and imaging4:Bioinformatics Core facilities5: Protein Modeling Facility

People at Vital-IT

Christian Iseli Marco Pagni Mark IbbersonNicolas Guex Brian Stevenson

HPC

OncoGenomics

Personalized

Genomes

Metagenomics

Metabolic Models

Evidence-based

BioMedecine

Computational

Systems Biology

Roberto Fabbretti Jérôme DauvillierRobin Liechti

hardware software development data analysis

Computational

Genomics

Scientific vizualisationNeuro-genomics

Repertoire of (longitudinal) ‘omics data available

Proteome

Transcriptome

(mRNA, isoforms, edits, miRNA, lincRNA, …)

Cytokines

Metabolome

Genome & Epigenome

Microbiome

Viriome

EMR / EHR

PERSONAL DATA

« PRECISION » MEDICINE

Antibody-ome

Environment(exposome)

Etc’ome

nutriome

• Improve biological and medical knowledge

• Improve disease definition

• Discovery diagnostic markers

• Discovery prognostic markers

• Understanding early pathophysiology

• Disease stratification

• Patient stratification

• New therapeutic leads

• Adapt therapies to the above

Slide from the Clinical BioinformaticsHead Jacqui Beckmann (SIB)

Private and Public partners are essential sources of funding

Evénement Connect

Lausanne, EPFL, 7 octobre 2015

Du Big Data au Smart DataEtat des lieux, nouveaux défis

Michel Jaccard

119Protection des donnees – la loi actuelle

120Protection des donnees – la loi actuelle

121Protection des donnees – les principes de base

données personnelles

traitement

maître de fichier

motif justificatif

consentement

niveau de protection équivalent à l’étranger

122Protection des donnees – Nouveaux defis

données personnelles

traitement

maître de fichier

motif justificatif

consentement

niveau de protection équivalent

Croissance exponentielleCaractère personnel (permanent) ?

123Protection des donnees – Nouveaux defis

données personnelles

traitement

maître de fichier

motif justificatif

consentement

niveau de protection équivalent

Hébergement ? Stockage dans le cloud ?Indexation ? Chiffrement ?

124Protection des donnees – Nouveaux defis

données personnelles

traitement

maître de fichier

motif justificatif

consentement

niveau de protection équivalent

Pas qu’un seul «maître»,Pas qu’un seul fichier

125Protection des donnees – Nouveaux defis

données personnelles

traitement

maître de fichier

motif justificatif

consentement

niveau de protection équivalent

Aucun traitement ne peut-il vraiment être justifié par principe ?

126Protection des donnees – Nouveaux defis

données personnelles

traitement

maître de fichier

motif justificatif

consentement

niveau de protection équivalent

Caractère artificiel du consentement donné (en ligne)Absence de précision sur la finalité | les utilisations futures

127Protection des donnees – Nouveaux defis

données personnelles

traitement

maître de fichier

motif justificatif

consentement

niveau de protection équivalent

Appréciation politique, sociale, culturelleAnalyse au cas par cas nécessaire (dans les faits), pas de blanc seing par pays (Safe Harbor !)

128Protection des donnees – Nouveaux defis

Droit à l’oubli ?

129Protection des donnees – Nouveaux defis

Cybersécurité ?

130Protection des donnees – Nouveaux defis

Surveillance ?

131

Données personnelles ? Pas nécessairement…

Protection des donnees – big data

132

Données fiables (et utiles) ? Pas forcément…

Protection des donnees – big data

133

Données personnelles ? Probablement, par analyses (anonymes ?) et recoupements…

Protection des donnees – SMART DATA

134Protection des donnees – big data | SMART DATA

Données personnelles, par moments – Comment régler la question de

l’assujettissement à la réglementation ? Et qui joue le rôle du «maître du

fichier» ?

Comment s’assurer d’un consentement véritable sans connaître la finalité du

traitement au moment de la collecte des données, puisqu’elle dépendra des

analyses | recoupements?

Comment assurer le droit d’accès à des fractions de données éparpillées,

sachant que celui qui compile les bases de données ou les met à disposition

n’est pas forcément celui qui procède aux analyses | recoupements ?

135Protection des donnees – big data | SMART DATA

Evolution ?

Consentement présumé pour

toute utilisation des données qui

serait «reconnaissable» au

moment de leur collecte

Certification par des tiers (de

confiance ?)

Renforcement des sanctions

136Protection des donnees – big data | SMART DATA

137Protection des donnees – big data | SMART DATA

Big Bang ?

Sécurisation des données,

indépendamment de leur

caractère personnel ou non

«opting out» généralisé

Données sensibles avec

devoirs spécifiques (santé ?

géolocalisation ?)

Renforcement des droits de

la personnalité

138Protection des donnees – big data | SMART DATA

Solutions

technologiques

«Privacy by design»

«Privacy by default»

Atout majeur pour

les sociétés suisses

139

MICHEL JACCARD

id est avocats

Email [email protected] | [email protected]

URL www.idest.pro

Twitter @idestavocats

Questions

140

Merci pour votre visite!