Data scientology starter pack, Сергей Казаков

Preview:

Citation preview

Ростовское IT сообществоData Science Meetup4 марта 2017#dsmt61

Data scientology starter pack

Казаков Сергейkazaimazai@gmail.com

Episode 1

Anaconda: https://www.continuum.io/● Linux, macOS, Windows(!!!)● python 2.7, 3.4, 3.5, 3.6● conda package manager

○ conda install package-name○ > 100 pre-built and tested scientific and

analytic Python packages○ > 620 more packages are available:

https://repo.continuum.io/pkgs/● Jupyter/IPython, Spyder, Visual Studio

Python data analysis whales

SciPy Ecosystem: https://www.scipy.org/

Pandas● NumPy powered● IO Tools (text, sql, HDF5, json, …)● Series, Dataframe, Panel● filter, reshape, groupby,● aggregate, vectorized, rolling, expanding operations● merge, join, concatenate, whatever● plotting (matplotlib, seaborn)● …

cheat sheet: https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf

Jupyter Notebook● Jupyter ● Jupyter Hub ● Jupyter Lab

Машинное обучение

Задачи● Классификация

○ Бинарная○ Многоклассовая

■ классы не пересекаются■ классы пересекаются

● Восстановление регрессии● Кластеризация

Все остальное

● Ранжирование● Обнаружение аномалий● Обучение с подкреплением● Уменьшение размерности● ...

“Hello, data science world!”

Scikit-learn: http://scikit-learn.org/

X, y = make_blobs(n_samples=10000, n_features=10, centers=100)

clf = RandomForestClassifier()

X_train, X_test = X[:8000], X[8000:]

y_train, y_test = y[:8000], y[8000:]

clf.fit(X_train, y_train)

print clf.score(X_test, y_test)

print cross_val_score(clf, X, y).mean()

Соревнования по машинному обучению

● данные○ train○ test

■ public■ private

● метрики● рейтинг участников● где

○ https://www.kaggle.com/○ http://www.image-net.org/○ https://www.numer.ai/

● Andrew Ng● ШАД Курс “Машинное обучение”

К.В. Воронцов

“Компьютерные науки” на Youtube

● А.Г. Дьяконов○ https://alexanderdyakonov.wordpress.com/○ http://www.machinelearning.ru/

Udacity Deep Learning Online Course

● CNN● RNN● LSTM

Let me google that for you:

● Keras○ Theano○ Tensorflow

● MXNet● Torch● Caffe

Спасибо!

Казаков Сергей kazaimazai@gmail.com kazai.wordpress.com