Анализ данных: от малых объемов и простых алгоритмов до больших данных и сложных систем
Дмитрий Сподарец
Обо мне
• Преподаватель ОНПУ кафедры Системного программного обеспечения
• Основатель FlyElephant и GeeksLab.
FlyElephantPlatform for scientific computing and data management
Данные
Алгоритмы
Инфраструктура
Данные Алгоритмы
Инфраструктура
Много данных - это сколько?
Данные
~30 PB / день
~10 PB / год
LSST
~15 PB / год
Инфраструктура
Данные Алгоритмы
Инфраструктура
Сценарии
Простые данные и простые алгоритмы
Много данных и сложные алгоритмы
Большие данные
Комбинирование
Простые данные и простые алгоритмыАлгоритмы
- Линейный поиск - Перемножение матриц- Поиска минимального пути- ….
Данные Инфраструктура
Библиотеки и инструментыEigen
eigen.tuxfamily.org
intel-mklsoftware.intel.com/en-us/intel-mkl
SciPywww.scipy.org
ND4Jnd4j.org
MATLABwww.mathworks.com www.scilab.org
Scilab
Juliajulialang.orgOctave
octave.org
Много данных и сложные алгоритмыАлгоритмы
- Data Mining- Machine Learning- Computer Vision- …
Данные Инфраструктура
MPI, OpenMP…
Message Passing Interface (MPI)
OpenMP
CUDA
Intel Xeon Phi
Большие данные
Данные Инфраструктура
NoSQL, MapReduce, Hadoop, Spark…
NoSQL• Хранилище «ключ-значение»
Berkeley DB, MemcacheDB, Redis, Amazon DynamoDB.
• Хранилище семейств колонокHBase, Apache Cassandra, Apache Accumulo, Hypertable, SimpleDB (amazon.com)…
• Документо-ориентированная СУБД MongoDB, CouchDB, Couchbase, MarkLogic, eXist..
• Базы данных на основе графов Neo4j, OrientDB, AllegroGraph, InfiniteGraph…
MapReduceМодель распределённых вычислений
• Map-шаг - предварительная обработка.
• Reduce-шаг - сверка результатов и формирование решения задачи.
Hadoop и Spark
https://aws.amazon.com/ru/elasticmapreduce/
http://azure.microsoft.com/ru-ru/services/hdinsight/
Комбинирование
Анализ данных при помощи FlyElephant
Уже готово
C++OpenMP
Анализ данных при помощи FlyElephant
Что ждать в ближайшем релизе
MPI
R Python
Java
http://flyelephant.net/
http://flyelephant.net/beta/