Data Science Week 2016. GlowByte, "Культура работы с данными"

Preview:

Citation preview

КУЛЬТУРА РАБОТЫ С ДАННЫМИ

Андрей Котов

Пример №1 Качество категоризации

Продолжительность проекта =Х

Прибыль проекта=Y

Пример №1 Качество категоризации

Продолжительность проекта =Х+1%

Прибыль проекта=Y-1%

Пример №1 Качество категоризации

Продолжительность проекта =Х+2%

Прибыль проекта=Y-3%

Пример №1 Качество категоризации

Продолжительность проекта =Х+3%

Прибыль проекта=Y-5%

Пример №1 Качество категоризации

Продолжительность проекта =Х+10%

Прибыль проекта=Y-15%

Пример №2 Описание товара

Пример №2 Описание товара- Зелены

й

- Зеленый

- Зеленый

- Зеленый

- Зеленый

Пример №2 «Какого цвета платье?»

1. Отсутствие единого стандарта 2. Дублирование3. Противоречия 4. Ошибки5. Нехватка информации 6. Избыточная информация

6 проблем качества данных:

1) если вы заказчик, вы должны знать об уровне качества данных внутри вашей компании. И понимать, что то что вам продают может не сработать только потому, что кто-то записывает название товара с ошибками. И следовательно относится к предложениям критически.

2) если вы консультант или датамайнер, то вы должны видеть эти данные своими глазами, знать как они формировались, очистить их и главное — ПРИВИТЬ дальнейшую культуру работы с ними клиенту.

3) если вы простой аналитик, нужно начать с себя и записывать данные аккуратно, выполнять основные заповеди, подобно заповедям Дзен-Pythonа

Как с этим жить?

o Красота лучше уродства.o Ясность лучше неясности.o Простота лучше сложности.o Сложность лучше запутанности.o Плоскость лучше вложенности.o Разведенность лучше концентрированности.o Читаемость ценится высоко (!!!)o + Одинаково лучше, чем «эффективное»o + Однозначное лучше, чем короткоеo Особые случаи не настолько особы, чтобы ради них нарушать правила.o Хотя практичность выше опрятности.o Ошибки не должны проходить незамеченными.o Если ошибка не в незаметности.o Перед лицом неопределенности лучше отказаться от попыток угадатьo Должен быть один — и было бы идеально, если только один — очевидный способ

решить проблему.o Хотя на первый взгляд этот способ может и не казатся очевидным, особенно если вы

— голландец.o + Если откладываешь проблему, то сделай так, что бы потом, ее мог решить

не только ты.o Однако, сейчас лучше, чем никогда.o Хотя зачастую никогда лучше, чем прямо сейчас.o Если структуру непросто объяснить — то это плохая идея.o Если структуру просто объяснить, это может быть хорошей идеей.

Дзен Python работы с данными:

Пример №3 Столкновение с реальностью

Данные качественныеМодель отличная

Внедрение гладкоеРост прибыли

May the Patience be with you!

Андрей Котов+7(916)807-56-

89

Да прибудет с тобой терпение!

Recommended