Supervised ML in Practice: Tips & Tricks

Денис Пирштук

Supervised MLin Practice: Tips & Tricks

2 Что такое машинное обучение и Data Science?

Обучение с учителем: типы задач

• Бинарная классификация (письмо/спам)

• Классификация (собака, кошка, мышь)

• Регрессия (курс доллара)

• Ранжирование (поисковая выдача)

Задача: Конкурс ОТП Банка 2011Предсказание отклика клиентов банкана маркетинговую кампанию

Главная страница конкурса: http://bit.ly/1DPWwG2

Примеры входных данных (признаков)

• Бинарные– наличие в собственности квартиры

– адрес регистрации и адрес фактического пребывания совпадают

– наличие в собственности автомобиля российского производства :-)

• Числовые– возраст клиента

– личный доход (в рублях)

– количество месяцев проживания по месту фактического пребывания

– сумма последнего кредита клиента (в рублях)

• Категориальные– отрасль работы клиента– должность– семейное положение

Какую метрику выбрать?

• Чувствительность (sensitivity, recall rate) – доля найденных классификатором «1» из всех «1».

• Точность (precision) – доля истинных «1» из всех предсказанных «1».

• Специфичность (specificity, false positive rate) – доля предсказанных «1» из всех «0».

• F1 = 2 * recall * precision / (precision + recall).

ROC AUC (площадь под кривой ошибок)

ROC = Receiver operating characteristic

http://en.wikipedia.org/wiki/Receiver_operating_characteristic

Результаты (2011)

Место AUC

1 0.6935

2 0.6895

3 0.6865

4 0.6835

5 0.6780

6 0.6725

7 0.6706

8 0.6580

9 0.6455

10 0.6380

Метод опорных векторов (SVM)

SVM: преобразование пространства

https://www.dtreg.com/solution/view/20

Переобучение SVM

Переобучение: пример

Higgs Boson Machine Learning Challenge

http://www.kaggle.com/c/higgs-boson

13 Переобучение в конкурсе Higgs Boson

SVM: качество в конкурсе ОТП БанкаC Train AUC Test AUC

0.05 0.68866 0.65710

0.5 0.74619 0.66544

1.0 0.77207 0.66102

3.0 0.81860 0.64397

7.0 0.85313 0.63001

SVM: качество в конкурсе ОТП БанкаC Train AUC Test AUC Количество

опорных вект.

0.05 0.68866 0.65710 13608

0.5 0.74619 0.66544 12262

1.0 0.77207 0.66102 11988

3.0 0.81860 0.64397 11500

7.0 0.85313 0.63001 11013

Наивный Байес: качество в конкурсе

from sklearn.naive_bayes import GaussianNBgnb = GaussianNB().fit(X_scaled, y)

from sklearn.naive_bayes import BernoulliNBbnb = BernoulliNB().fit(X_scaled, y)

• GaussianNB– Train AUC: 0.64978– Test AUC: 0.64447

• BernoulliNB– Train AUC: 0.65662– Test AUC: 0.65017

Решающие деревья и бустинг

Решающие деревья

from sklearn.tree import DecisionTreeClassifierdtc = DecisionTreeClassifier(max_depth=2)dtc.fit(X, y)print roc_auc_score(y, dtc.predict_proba(X)[:,1])print roc_auc_score(answers, dtc.predict_proba(X_test)[:,1])

–Train AUC: 0.60553–Test AUC: 0.59706

Bagging (Bootstrap aggregating)

Classification tree + bagging + random subspace method = RandomForestClassifier

• For max_depth=8 – Train AUC: 0.82832– Test AUC: 0.68455

• For max_depth=None (unlimited)– Train AUC: 1.0– Test AUC: 0.66077

from sklearn.ensemble import RandomForestClassifierrfc = RandomForestClassifier(n_estimators=400, max_depth=8, max_features=17, n_jobs=-1, random_state=1).fit(X, y)

Важность признаковПризнак Важность

PERSONAL_INCOME 0.113595

AGE 0.094166

FST_PAYMENT 0.091336

CREDIT 0.082360

WORK_TIME 0.078107

FACT_LIVING_TERM 0.075747

LOAN_NUM_PAYM 0.053088

TERM 0.047470

LOAN_AVG_DLQ_AMT 0.046917

LOAN_MAX_DLQ_AMT 0.043202

sorted(zip(rfc.feature_importances_, real_features, ), reverse=True)

AdaBoost

–Train AUC: 0.72852

–Test AUC: 0.68854

from sklearn.ensemble import AdaBoostClassifierada = AdaBoostClassifier(n_estimators=500, learning_rate=0.5).fit(X, y)

Стохастический градиентный бустинг

XGBoost (eXtreme Gradient Boosting)

• https://github.com/tqchen/xgboost

• Apache License 2.0

• Generalized linear and regression tree boosters

• «Быстрый старт» для задач классификации, регрессии, ранжирования

• Обертки для Python, R, Julia

• Hadoop & MPI-версии (distributed version)– Column-based data splitter – разбиение на узлы по колонкам

– Row-based data splitter – разбиение на узлы по строкам

Настройка (eta = 0.02, subsample=1.)

Настройка (eta = 0.005, subsample=1.0)

Категориальные признаки

• Стратегия 1: заменить категории на доли «1» в ней

• Стратегия 2: заменить категориальные признак из N возможных значений на N бинарных

Результат

–Train AUC: 0.7908–Test AUC: 0.7031

import xgbparams = {'max_depth': 5, 'eta': 0.005, 'subsample': .3, 'silent': 0, 'objective': 'binary:logistic', 'min_child_weight': 1, 'seed': 1234, 'eval_metric': 'auc'}

dtrain = xgb.DMatrix(X, y, missing=-9999.)bst = xgb.train(params, dtrain, num_boost_round=1300)

Data Science != Аналитика

Традиция:

Human readable output

https://hbr.org/2014/08/the-question-to-ask-before-hiring-a-data-scientist/

Data Science:

Machine readable output

Денис Пирштук

dzianis.pirshtuk@yandex.by

Спасибо

Supervised ML in Practice: Tips & Tricks

Science

EasySampler Tips, Tricks and Case Studies · PDF filePfizer Confidential │ 2 20 mL . Case Studies Guide Pfizer Confidential │ 3 Sampling Difficulty Scale Considerations: ... Case

Chapter 3: Supervised Learning · 2019. 11. 24. · Supervised vs. unsupervised Learning •Supervised learning: classification is seen as supervised learning from examples. •Supervision:

IR-4 LC/MS TIPS AND TRICKS 2017/2017 NEC Agilent Tips and Tricks.pdfIR-4 LC/MS Tips and Tricks 13. Sensitivity Improvements for High Relevance Pesticides. 1:20 Dilution of 10 ng/mL

Machine Learning - Trinity College Dublinkoidlk/cs4062/03-ml-notes.pdf · Learning algorithm has to identify structure in the input data. Supervised Learning Supervised Machine Learning

Lecture 2: Supervised Learning | Classi cationjaven/talk/L2 Supervised Learning.pdf · Recap Lecture 1 Concepts of Supervised Learning (SL) Classi cation algorithms Supervised Learning

COMP3740 CR32: Knowledge Management and Adaptive Systems Supervised ML to learn Classifiers: Decision Trees and Classification Rules Eric Atwell, School

SUPERVISED, SEMI-SUPERVISED AND UNSUPERVISED … · SUPERVISED, SEMI-SUPERVISED AND UNSUPERVISED METHODS IN DISCRIMINATIVE LANGUAGE MODELING FOR AUTOMATIC SPEECH RECOGNITION by Erin˘c

Semi-Supervised Learning on Riemannian Manifolds9.520/spring09/Papers/Belkin-ML-04.pdfSEMI-SUPERVISED LEARNING ON RIEMANNIAN MANIFOLDS 213 Therefore, we construct classiﬁers of the

Lecture Notes on Machine Learning · 1 1. Supervised Learning 1 Supervised Learning 1.1 Introduction We begin with an overview of the sub elds of machine learning (ML). According

INTRODUCTION TO DATA SCIENCE DEEP LEARNING · MACHINE LEARNING, DEEP LEARNING & AI USING PYTHON Introduction ML Fundamentals ML Common Use Cases Understanding Supervised and Unsupervised

Supervised Nonlinear Factorizations Excel In Semi-supervised … · 2020. 12. 9. · Supervised Nonlinear Factorizations Excel In Semi-supervised Regression Josif Grabocka 1, Erind

Associate Professor, Toyota Technological Institute ... · December 12, 2016 BioTxtM-2016 1 ... Supervised machine learning (ML) for extracting semantic structures (relations and

Deep Learning Tutorial Session - INDICO (Indico)...2018/10/30 · I.J. Watson (USeoul) ML Tute ML Workshop 30.10.2018 7 / 58 Overarching Idea of (Supervised) Maching Learning FrameworkforMachineLearning:

Semi-Supervised Learning on Riemannian Manifoldsweb.mit.edu/9.520/www/spring08/Papers/Belkin-ML-04.pdf · Keywords: semi-supervised learning, manifold learning, graph regularization,

Old Tricks Are the Best Tricks

Studies Improving Health - Buckeye International · 2017. 9. 18. · 1250 ml 1250 ml 1250 ml 1250 ml 1250 ml 1250 ml & 1000 ml & 1000 ml & 1000 ml & 1000 ml & 1000 ml & 1000 ml Vivid

Grow Micro Bloom Honey · Week 7 Late Flowering - 6.0 mL 11.0 mL 10.0 mL 8.0 mL 8.0 mL - Week 8 Ripening - 4.0 mL 11.0 mL 5.0 mL 4.0 mL 6.0 mL - Week 9 Flush 2.0 mL 2.0 mL 2.0 mL

Introduction to ML - RWTH Aachen University Webseite/pdf/EU Regional School...Introduction to ML (EU Regional School, RWTH Aachen) Part I Examples, Basics, Supervised Learning 11 April

Supervised and Semi-Supervised Multi-View Canonical Correlation … · remote sensing Article Supervised and Semi-Supervised Multi-View Canonical Correlation Analysis Ensemble for

Tips and tricks bij skin prick tests Desensibilisatie voor …events.clicla.me/EventTool/uploads/12120Workshop skin...fysio 20 ml/kg IV reanimatieknop verder : cfr specifiek symptoom