45
Разработка данных и машинное обучение Игнатов Дмитрий Игоревич «Big Data Startup Accelerator Program» – развитие компетентностей в создании инновационных продуктов и бизнесов в сфере Больших Данных Совместная инициатива корпорации SAP и innovationStudio MSU FE НИУ ВШЭ Факультет компьютерных наук Департамент анализа данных и искусственного интеллекта 14 февраля 2015 (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 1 / 45

Intro to Data Mining and Machine Learning

Embed Size (px)

Citation preview

Page 1: Intro to Data Mining and Machine Learning

Разработка данных и машинное обучение

Игнатов Дмитрий Игоревич♢

«Big Data Startup Accelerator Program» – развитие компетентностей в созданииинновационных продуктов и бизнесов в сфере Больших Данных

Совместная инициатива корпорации SAP и innovationStudio MSU FE

♦НИУ ВШЭФакультет компьютерных наук

Департамент анализа данных и искусственного интеллекта

14 февраля 2015

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 1 / 45

Page 2: Intro to Data Mining and Machine Learning

План

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 2 / 45

Page 3: Intro to Data Mining and Machine Learning

План лекции

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 3 / 45

Page 4: Intro to Data Mining and Machine Learning

Программа курса

1 Введение2 Кластеризация3 Классификация4 Частые множества признаков (frequent itemsets) и ассоциативные

правила5 Рекомендательные системы и алгоритмы6 Мультимодальная кластеризация7 Машины опорных векторов (SVM)8 Ансамблевые методы кластеризации*9 Ансамблевые методы классификации*10 Нейронные сети и генетические алгоритмы*11 Отобор признаков. Снижение размерности. Семплирование. Аномалии в

данных.*12 Технологии работы с Big Data.*13 Статистический взгляд на машинное обучение*

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 4 / 45

Page 5: Intro to Data Mining and Machine Learning

Практикум

Сценарий 1Домашние задания

Сценарий 2Проект (индивидуальный или групповой)

Сценарий 3Домашние задания + проект (индивидуальный или групповой)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 5 / 45

Page 6: Intro to Data Mining and Machine Learning

План лекции

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 6 / 45

Page 7: Intro to Data Mining and Machine Learning

О терминологии. KDD и Data Mining

Knowledge discovery in Databases (KDD)KDD is the nontrivial process of identifying valid, novel, potentially useful, andultimately understandable patterns in data.

Fayyad, Piatetsky-Shapiro, and Smyth 1996

Data MiningData mining is a step in the KDD process that consists of applying data analysisand discovery algorithms that produce a particular enumeration of patterns (ormodels) over the data.

Там же

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 7 / 45

Page 8: Intro to Data Mining and Machine Learning

О терминологии. KDD и Data Mining

Схема процесса обнаружения знаний в данных

(Fayyad, Piatetsky-Shapiro, and Smyth 1996)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 8 / 45

Page 9: Intro to Data Mining and Machine Learning

О терминологии. KDD и Data Mining[J. Han et al., Data Mining. Concepts and Techniques, 3rd Ed., 2012]

1 Data cleaning2 Data integration3 Data selection4 Data transformation5 Data mining (an essential process where intelligent methods are applied to

extract data patterns)6 Pattern evaluation7 Knowledge presentation

Data MiningData mining is the process of discovering interesting patterns and knowledge fromlarge amounts of data.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 9 / 45

Page 10: Intro to Data Mining and Machine Learning

О терминологии. Машинное обучение[T. Mitchell. The Discipline of Machine Learning,2006]

Основной вопрос в машинном обученииHow can we build computer systems that automatically improve with experience,and what are the fundamental laws that govern all learning processes?

Более точноTo be more precise, we say that a machine learns with respect to a particular taskT , performance metric P, and type of experience E , if the system reliably improvesits performance P at task T , following experience E . Depending on how wespecify T , P, and E , the learning task might also be called by names such as datamining, autonomous discovery, database updating, programming by example, etc.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 10 / 45

Page 11: Intro to Data Mining and Machine Learning

О межпредметных связях

Гипотеза

Data Mining ?= Machine Learning

Связанные дисциплиныComputer Science (Информатика)Artificial Intelligence (Искусственный интеллект)Pattern Recognition (Распознавание образов)Information Retrieval (Информационный поиск)Social Network Analysis (Анализ социальных сетей)Теория вероятностей и математическая статистикаДискретная математика (в т.ч. порядки и графы)Optimization (Методы оптимизации)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 11 / 45

Page 12: Intro to Data Mining and Machine Learning

Области применения DM&ML

Области примененияБизнесМедицинаОбразованиеНауки о жизниИнтернет-данныеБанковское дело и финансы...

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 12 / 45

Page 13: Intro to Data Mining and Machine Learning

Тренды в областях применения DM&ML[J. Han et al., 2012]

Application exploration: e.g., counter-terrorism and mobile (wireless) dataminingScalable and interactive data mining methodsIntegration of data mining with search engines, database systems, datawarehouse systems, and cloud computing systemsMining social and information networksMining spatiotemporal, moving-objects, and cyber-physical systemMining multimedia, text, and web dataMining biological and biomedical dataData mining with software engineering and system engineeringVisual and audio data miningDistributed data mining and real-time data stream miningPrivacy protection and information security in data mining

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 13 / 45

Page 14: Intro to Data Mining and Machine Learning

Таксономия методов DM&ML

Машинное обучение и разработка

данных

Кластеризация Классификация

Обучение без учителя

Обучение с учителем

Ранжирование РегрессияПоиск

«интересных» паттернов

Отбор признаков

Обнаружение аномалий

Снижение размерности

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 14 / 45

Page 15: Intro to Data Mining and Machine Learning

КластеризацияПостановка задачи

Найти разбиение исходного множества объектов на группы (кластеры).Объекты внутри одного кластера обладают высоким сходством.Объекты из разных кластеров сильно различаются.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 15 / 45

Page 16: Intro to Data Mining and Machine Learning

КластеризацияМетоды кластеризации

Метод k-среднихИерархическая кластеризация (агломеративный и дивизимный подходы)Спектральная кластеризацияМультимодальная кластеризация: бикластеризация и трикластеризация.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 16 / 45

Page 17: Intro to Data Mining and Machine Learning

КластеризацияМетод k-средних

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 17 / 45

Page 18: Intro to Data Mining and Machine Learning

КлассификацияПостановка задачи

По описанию объектов некоторого множества с известными меткамиклассов определить класс объектов той же природы (в том жепризнаковом пространстве) с неизвестными метками.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 18 / 45

Page 19: Intro to Data Mining and Machine Learning

КлассификацияДеревья решений в оценке кредитного риска

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 19 / 45

Page 20: Intro to Data Mining and Machine Learning

КлассификацияМетоды классификации

Алгоритм 1-RulekNN классификатор (k ближайших соседей)Наивный баейсовский классификатор (Naıve Bayes сlassifier)Деревья решений (decision trees)Машины опорных векторов (Support Vector Machines (SVM))ДСМ-метод (в честь Джона Стюарта Милля)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 20 / 45

Page 21: Intro to Data Mining and Machine Learning

КлассификацияМашины опорных векторов (SVM)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 21 / 45

Page 22: Intro to Data Mining and Machine Learning

Регрессия

Линейная парная и множественная регрессия (Эконометрика иматематическая статистика)Лассо-регуляризация. Логистическая регрессия как методклассификации. (Этот курс)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 22 / 45

Page 23: Intro to Data Mining and Machine Learning

Поиск паттернов/зависимостейПостановка задачи

Поиск закономерностей в данных об использовании каких-либо ресурсов.Например, часто используемых вместе ресурсов.Пример. support({хлеб, молоко}) = 0.7

Часто такие закономерности записываются в виде правил A −→ B

Пример. {Студент, Возраст от 16 до 25} −→ {iPhone, iPad}

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 23 / 45

Page 24: Intro to Data Mining and Machine Learning

Поиск паттернов/зависимостей

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 24 / 45

Page 25: Intro to Data Mining and Machine Learning

Ранжирование

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 25 / 45

Page 26: Intro to Data Mining and Machine Learning

Рекомендательные системыhttp://Amazon.com

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 26 / 45

Page 27: Intro to Data Mining and Machine Learning

Рекомендательные системыhttp://Imhonet.ru

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 27 / 45

Page 28: Intro to Data Mining and Machine Learning

Обучение предпочтениямhttp://www.preference-learning.org/

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 28 / 45

Page 29: Intro to Data Mining and Machine Learning

Big DataТехнология MapReduce

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 29 / 45

Page 30: Intro to Data Mining and Machine Learning

Big DataТехнология MapReduce

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 30 / 45

Page 31: Intro to Data Mining and Machine Learning

Big DataПроект Apache Mahout

Что такое Apache Mahout?Apache MahoutTM – библиотека масштабируемых методов машинногообучения в основном по технологии MapReduce.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 31 / 45

Page 32: Intro to Data Mining and Machine Learning

План лекции

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 32 / 45

Page 33: Intro to Data Mining and Machine Learning

Системы машинного обучения и анализа данных

1 Orange (freely available)2 Weka (freely available)3 Knime (community edition for free)4 RapidMiner (community edition for free)5 Deductor (бесплатная версия для обучения)6 QuDA (freely available)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 33 / 45

Page 34: Intro to Data Mining and Machine Learning

Библиотеки машинного обучения и анализа данных

1 scikit-learn (freely available Machine Learning in Python)2 MALLET –– MAchine Learning for LanguagE Toolkit (freely available)3 Accord.NET Framework (.NET machine learning framework combined with

audio and image processing libraries completely written in C#)4 Infer.NET (framework for running Bayesian inference in graphical models)5 R (free software environment for statistical computing and graphics+many

packages for ML&DM)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 34 / 45

Page 35: Intro to Data Mining and Machine Learning

Стандарты в ML&DMhttp://www.dmg.org

PMMLЯзык разметки для прогнозного моделирования (Predictive Model MarkupLanguage — PMML) разработан Data Mining Group (DMG) на основе XML,обеспечивает приложениям способ определения моделей машинногообучения и Data Mining, а также обмен такими моделями междуPMML-совместимыми приложениями.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 35 / 45

Page 36: Intro to Data Mining and Machine Learning

План лекции

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 36 / 45

Page 37: Intro to Data Mining and Machine Learning

Книги

P. Flach Machine Learning: The Art and Science of Algorithms that MakeSense of Data, 2012M. Zaki et al. Data Mining and Analysis: Fundamental Concepts andAlgorithms, 2014 (free)J. Leskovec et al. Mining of Massive Datasets, 2014 (free)C.M. Bishop Pattern Recognition and Machine Learning, 2006D. Barber Bayesian Reasoning and Machine Learning, 2012 (free)K.P. Murphy Machine Learning: a Probabilistic Perspective, 2012T. Hastie et al. Elements of Statistical Learning, 2009 (free)G. James et al. An Introduction to Statistical Learning with Applications inR, 2013 (free)J. Han et al. Data Mining. Concepts and Techniques, 2012Т. Митчелл Machine Learning, 1997Т. Сегаран Программируем коллективный разум, 2007 (на английском)Барсегян А. и др. Анализ данных и процессов, 2009

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 37 / 45

Page 38: Intro to Data Mining and Machine Learning

Портал machinelearning.ruhttp://machinelearning.ru

Лекции К.В. Воронцова. Математические методы обучения попрецедентам (машинное обучение)Лекции Д.П. Ветрова, Д.А. Кропотова Байесовские методы машинногообучения, 2014Учебник А.Г. Дьяконова. Анализ данных, обучение по прецедентам,логические игры, системы WEKA, RapidMiner и MatLab, 2010

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 38 / 45

Page 39: Intro to Data Mining and Machine Learning

Лекции и книга С. Николенкоhttp://logic.pdmi.ras.ru/~sergey/

Игрок Что?Где?Когда?С.Николенко, А. Тулупьев. Самообучающиеся системы 2009

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 39 / 45

Page 40: Intro to Data Mining and Machine Learning

Coursera: курсы и специализацииhttp://www.coursera.org/

Andrew Ng. Machine Learning (current)Geoffrey Hinton. Neural Networks for Machine Learning (2012)Jiawei Han Pattern Discovery in Data Mining (current)Jure Leskovec et al. Mining Massive Datasets (current)

Специализации (платные сертификаты) –– состоят из отдельных курсов(участие бесплатно)

Data Mining (current)Data Science (current)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 40 / 45

Page 41: Intro to Data Mining and Machine Learning

ИНТУИТhttp://intuit.ru

Интернет-университет информационных технологийК.В. Воронцов Машинное обучение, 2015 (Видео к курсу на сайте ШАД)И.А. Чубукова. Data Mining, 2006

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 41 / 45

Page 42: Intro to Data Mining and Machine Learning

Сообщество

IMLS – The International Machine Learning SocietyKaggle – платформа для соревнований по анализу данныхKDD Nuggets – Data Mining Community Top ResourceOpen ML – Machine Learning community portalUCI Machine Learning Repository – Репозиторий данных

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 42 / 45

Page 43: Intro to Data Mining and Machine Learning

Конференции

ICML – International Conference on Machine LearningIEEE ICDM – IEEE International Conference on Data MiningKDD – ACM SIGKDD Conference on Knowledge Discovery and Data MiningECML & PKDD – European Conference on Machine Learning and Principlesand Practice of Knowledge Discovery in DatabasesNIPS – Neural Information Processing SystemsRecSys – The ACM conference series on Recommender SystemsИОИ & ММРО – Серия конференций «Интеллектуализация обработкиинформации»/«Математические методы распознавания образов»АИСТ – International conference on Analysis of Images, Social Networks,and Texts

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 43 / 45

Page 44: Intro to Data Mining and Machine Learning

Just for fun или шутки радиhttp://dilbert.com

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 44 / 45

Page 45: Intro to Data Mining and Machine Learning

Вопросы и контактыwww.hse.ru/staff/dima

Спасибо!dmitii.ignatov[at]gmail.com

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 45 / 45