Data Exploration and Visualisation - Sas Institute...Agenda •SAS Presents –Thursday 11th June...

Data Exploration and Visualisation in SAS

Enterprise Miner

Dr Iain Brown, Senior Analytics Specialist Consultant,

SAS UK & Ireland

Agenda

• SAS Presents – Thursday 11th June 2015 – 14:30

• Data Exploration and Visualisation in SAS Enterprise Miner

• The session looks at:

- Data Visualisation and Sampling

- Variable Selection

- Missing Value Imputation

- Outlier Detection

The Analytics Lifecycle

IDENTIFY /

FORMULATE

PROBLEM

PREPARATION

EXPLORATION

TRANSFORM

& SELECT

VALIDATE

DEPLOY

EVALUATE /

MONITOR

RESULTSDomain Expert

Makes Decisions

Evaluates Processes and ROI

BUSINESS

MANAGER

Model Validation

Model Deployment

Model Monitoring

Data Preparation

IT SYSTEMS /

MANAGEMENT

Data Exploration

Data Visualization

Report Creation

BUSINESS

ANALYST

Exploratory Analysis

Descriptive Segmentation

Predictive Modeling

DATA MINER /

STATISTICIAN

The Analytics Lifecycle

IDENTIFY /

FORMULATE

PROBLEM

PREPARATION

EXPLORATION

TRANSFORM

& SELECT

VALIDATE

DEPLOY

EVALUATE /

MONITOR

RESULTSDomain Expert

Makes Decisions

Evaluates Processes and ROI

BUSINESS

MANAGER

Model Validation

Model Deployment

Model Monitoring

Data Preparation

IT SYSTEMS /

MANAGEMENT

Data Exploration

Data Visualization

Report Creation

BUSINESS

ANALYST

Exploratory Analysis

Descriptive Segmentation

Predictive Modeling

DATA MINER /

STATISTICIAN

Enterprise Miner™

• Modern, collaborative, easy-to-use data

mining workbench

• Sophisticated set of data preparation and

exploration tools

• Modern suite of modeling techniques and

methods

• Interactive model comparison, testing and

validation

• Automated scoring process delivers faster

results

• Open, extensible design for ultimate flexibility

Model Development Process

Sample Explore Modify Model Assess

Model Development Process

Utility Apps.

Series HPDM

Credit

Scoring

SEMMA in Action – Repeatable Process

www.SAS.com

Data Visualisation And Sampling

Visualisation

“Quickly find related patterns within a

set of data via interactive pictures.”

SEMMA Process

Sample Explore Modify Model Assess

Sample and Explore

• Data selection

• Required & excluded fields

• Sample balancing

• Data partitioning

• Data evaluation

• Statistical measures

• Visualization

• Identifying outliers

• Analytical segmentation

• Variable creation & selection

Sampling

• Sampling

• Sample Node:

• Stratified / Simple Random Sampling

• Used for over/under sampling input data

• Data Partition Node:

• Random sampling into Training, Validation and Test sets

• Prevent model over fitting

• Filter Node:

• Select time period of interest

• Filter based on pre-defined flag

Sampling

• Segmentation

• Cluster Node

• Unsupervised, k-means clustering algorithm

• Data driven

• Output tree based descriptions

www.SAS.com

Variable Selection

Variable Selection Routines

• Variable Selection

• Variable Selection Node

• Relationship of independent variables to dependent target

• R-Square of Chi-square selection criteria

• Variable Clustering Node

• Identify correlations and covariance's between input variables

• Select Best variable from cluster or Cluster Component

• Interactive Grouping Node

• Computes Weights of Evidence

• GINI and Information Values for variable selection

Interactive Grouping Node Example Results

• Automatic and interactive variable grouping

• Computes Weights of Evidence

Fine/Coarse DetailAuto-updating IV and Gini

www.SAS.com

Missing Value Imputation

Impute

• Missing Value Imputation

• Impute Node

• Complete case required for models such as Regression

• Multiple imputation techniques e.g. Tree, Distribution,

Mean, Mode Class (categorical) variables Interval (numeric) variables

Input/Target Input/Target

Count Mean

Default Constant Value Median

Distribution Midrange

Tree (only for inputs) Distribution

Tree Surrogate (only for inputs) Tree (only for inputs)

Tree Surrogate (only for inputs)

Mid-Minimum Spacing

Tukey’s Biweight

Andrew’s Wave

Default Constant

www.SAS.com

Outlier Detection

Detect and Treat

• Outlier Detection

• Filter Node

• Automated and Interactive filtering

• Identify and exclude extreme outliers

• Replacement Node

• Generates score code to process unknown levels when scoring

• Interactively specify replacement values for class and interval

levels

www.SAS.com

Summary

• Comprehensive data mining toolset

• Variety of visualisation and sampling methodologies

• Number of approaches to data and dimension reduction

• Importance of enhancing data prior to model development

• Garbage in = Garbage out (GIGO)

www.SAS.com

Questions and Answers

Iain.Brown@sas.com

Data Exploration and Visualisation - Sas Institute...Agenda •SAS Presents –Thursday 11th June...

Documents

Hunches and Sketches: rapid interactive exploration of large datasets … · 2020-03-11 · Keywords: visualising uncertainty, information visualisation, exploratory data analysis,

Visualisation pp

Multivariate description Visualisation Reduction of dimensionalitybelanche/Docencia/mineria/English... · 2008-09-30 · Data exploration: Visualisation + “clustering” • Data

4D Visualisation of PNG’s Petroleum Systems Visualisation of PNG’s Petroleum Systems Oil Search Exploration Team 30th November 2017 | PAGE 2 ... Predicting petroleum entrapment

Information Visualisation - University of Edinburghhomepages.inf.ed.ac.uk/tkomura/cav/presentation18_2016.pdf · Document Visualisation Motivation: visualisation is considerably faster

VISUALISATION, EXPLORATION AND CHARACTERIZATION OF … · VISUALISATION, EXPLORATION AND CHARACTERIZATION OF VIRTUAL ... right and the left view, which would deteriorate the stereo

SAS Analytics ReadyToRun Data Discovery & Data Exploration ... · 4/28/2016 · SAS Analytics RtR: Definition and Goal 02/05/2016 4 The SAS RtR is a suite of ready-to-run Business

Volume Visualisation

Visualisation Development

Data Exploration w SAS Jmp

Getting Started with Exploration and Reporting - SASsupport.sas.com/documentation/cdl/en/vaxnrgs/68690/PDF/default/... · SAS® Visual Analytics 7.3 Getting Started with Exploration

The State of the Art in Flow Visualisation: Feature ... · The State of the Art in Flow Visualisation: Feature Extraction and ... Flow Visualisation Fundamentals ... in Flow Visualisation:

Luxigon Visualisation

SAS Visual Analytics 7.1: Getting Started with Exploration ...support.sas.com/documentation/cdl/en/vaxnrgs/67855/PDF/default/... · Getting Started with Exploration and ... Getting

New Data Preparation and Data Visualisation in SAS Enterprise … · 2016. 3. 11. · SAS UK & Ireland . Agenda •SAS Presents –Thursday 11th June 2015 –14:30 •Data Exploration

GEO VISUALISATION

Visualisation d'information

Outline What is IGUANA IGUANA and Other Projects Architecture Framework ORCA Visualisation IGUANA at D0 GEANT4 Visualisation OSCAR Visualisation DDD Visualisation

Network-based exploration and visualisation of …...Network-based exploration and visualisation of ecological data 1 2 3 4 5 6 7 8 9 10 Ben Raymond and Graham Hosie Australian Antarctic

Map visualisation