Information Visualization for Large-Scale Data Workflows by Michael Conover (Linkedin)

Information Visualization for Large-Scale Data Workflows

Michael ConoverSenior Data Scientist, LinkedIn

@vagabondjack

Emergent Structure

Credit Pedro Cruz, University of CoimbraDavid Crandall, Indiana UniversityJohn Nelson, IDV Solutions Elegant Complexity

Intellectual Dividends

Realistic Mental Models

Verification of Assumptions

Shortened Iteration Cycles

Improved Predictive Performance

Product Insights

Clarity of Communication

Hypothesis Generation

@whitehouse #RSVP

Color Commentary

Flock Together

Political Polarization on Twitter

Feature Development

Anscombe’s Quartet

http://en.wikpedia.org/Anscombe’s_quartet

http://en.wikipedia.org/wiki/Anscombe%27s_quartet

http://en.wikipedia.org/wiki/Anscombe%27s_quartet

Basic Workflow Structure

0.0

0.1

0.2

0.3

0.4

−5.0 −2.5 0.0 2.5 5.0Standard Normal

Den

sity

0.0

0.1

0.2

0.3

0.4

−5.0 −2.5 0.0 2.5 5.0Standard Normal

Den

sity

100,

000

1,00

0,00

0

geom_point()

A Lens on the Joint Distribution

geom_point(alpha=1/5)


geom_bin2d(bins=35)


geom_point(alpha=1/5, aes(color=label))


geom_density2d(aes(color=label), bins=20)


Marginal Histograms


GGally (ggpairs)


Model Fitting & Evaluation

Model A Model B

Training Data I

Training Data II

Evaluation Batteries

stanford.edu/~jhuang11/ Homework at Scale

github.com/StanfordHCI/termiteTopic Modeling

Layercake

Workflow Principles

Latent, Pervasive

Modular

Consistent Visual Language

Workflow Management

data.linkedin.com/opensource/azkabanLinkedIn Azkaban

data.linkedin.com/opensource/white-elephant LinkedIn White Elephant

github.com/Netflix/Lipstick Netflix Lipstick

driven.cascading.io Concurrent Driven

bigml.com BigML Sunburst

Information Visualization for Large-Scale Data Workflows

Michael ConoverSenior Data Scientist, LinkedIn

@vagabondjack

Tableau

RStudio Shiny

rstudio.com/shiny/

RStudio Shiny

rweb.stat.ucla.edu/ggplot2/

Data Driven Documents (D3)

d3js.org

Superconductor

superconductor.github.io

Stamen Tiles

maps.stamen.com

Technology

Information Visualization for Large-Scale Data Workflows by Michael Conover (Linkedin)