Opendata practice for Global Editors Hackathon

Preview:

DESCRIPTION

Open Data practice in Russia

Citation preview

Открытые  и  большие  данные  на  практике  

Иван  Бегтин  Директор  НП  “Информационная  культура”      

     

Типовые  ситуации  в  data-­‐журналистике  

Есть  данные  -­‐  нет  идеи  

Есть  идея  –  нет  данных  

Нет  ни  данных,  ни  идеи,  но  сделать  надо  завтра!  

Идеальная  ситуация  

Это  когда  есть:  ü  Идея  ü  Данные  ü  Время  ü  +  Технологии    

Что  делать?  

Готовимся  заранее:  Данные  

•  Большие  данные:  знаем  где  искать,  знаем  что  делать  

•  Ключевые  онлайн  API  и  наборы  данных  •  Screen  Scraping  •  Основные  инструменты  очистки  данных    

Как  быстро  найти  данные?  

•  Спросить:  •  Quora.com  •  StackOverclow  -­‐  http://opendata.stackexchange.com/  •  Рассылки  OKF,  группы  в  Facebook  и  тд.  

•  Каталоги  •  The  Data  hub  –  http://thedatahub.org    •  Хаб  открытых  данных  –  http://hubofdata.ru    •  Data  Catalogs  –  http://datacatalogs.org/    

Wikipedia  

Wikipedia  

•  Wikipedia:  •  API  -­‐  http://en.wikipedia.org/w/api.php    •  Дампы  –  http://download.wikimedia.org  •  DBPedia  –  http://dbpedia.org  •  Wikidata  –  http://wikidata.org    •  FreeBase  -­‐  http://www.freebase.com/  

 

Основные  базы  данных  онлайн  

•  Международные:  •  The  Data  Hub  –  http://thedatahub.org  •  Всемирный  банк  –  http://data.worldbank.org  •  ООН  –  http://data.un.org  

•  Национальные  •  Хаб  открытых  данных  –  http://hubofdata.ru    •  США  –  http://data.gov  •  UK  –  http://data.gov.uk      

Основные  способы  работы  с  большими  данными  •  Выкачивать  целиком  под  задачу  •  Найти  и  использовать  чужое  API  •  Сделать  своё  API    

Web  /  Screen  scraping  

Что  такое  Web/Screen/Data  Scraping?  

•  не  ждем  данных  –  собираем  их  сами  •  извлекаем  их  из  веб-­‐страниц,  файлов  и  печатных  документов  •  переводим  неструктуриованное  в  базы  данных  

 

Инструменты  

•  Программирование  •  Python  +  lxml  or  BeautifulSoup  +  база  данных  •  Или  …любой  другой  язык  программирования  

•  Платформы:  •  ScraperWiki.com  –  тоже  Python,  но  проще  

•  Abbyy  PDFTransformer  +  Finereader  

 

Технологии  

Технологии  

•  Открытый  код  •  Инструменты  визуализации  •  Обработка  данных  

 

Government.github.com  

Selection.datavizualisation.ch  

Developers.google.com  

Tech.yandex.ru  

Пример:  Российская  общественная  

инициатива  

Сайт  РОИ  

Как  действовать  

•  Собрать  идеи  •  Написать  scraper  и  посмотреть  данные  •  Посмотреть  что  сделали  другие:  •  WeThePeople  –  http://petitions.whitehouse.gov  •  E-­‐Petitions  http://petitions.direct.gov.uk    

 

Что  есть?  

•  Анализ  данных  РОИ  и  аналогичных  проектов  –  http://habrahabr.ru/company/infoculture/  

•  Код  на  Python  -­‐  https://github.com/ivbeg/apiroi  •  Дамп  базы  -­‐  http://hubofdata.ru/dataset/roi-­‐dump    

 

Вопросы?  

Иван  Бегтин  Email:  ibegtin@infoculture.ru  Сайт:  http://ivan.begtin.name    Facebook:  facebook.com/ibegtin  twitter.:  ibegtin