28
Использование открытых данных в современных научных исследованиях Радченко Ирина Алексеевна, кандидат технических наук, доцент, научный сотрудник Центра семантических технологий НИУ ВШЭ http://about.me/Irina.Radchenko НИУ ВШЭ, Москва, 2012

Открытые данные в науке (Open Data in Science)

Embed Size (px)

DESCRIPTION

"Использование открытых данных в современных научных исследованиях". В презентации раскрывается тема открытых данных (Open Data) и их применение в современных научных исследованиях и научных сообществах. Затрагивается эволюционирование технической реализации концепции открытых данных в пространстве связанных открытых данных (Linked Open Data). Дается общее представление о современных тенденциях в области открытия науки (Open Science).

Citation preview

Page 1: Открытые данные в науке (Open Data in Science)

Использование открытых данных в современных научных исследованиях

Радченко Ирина Алексеевна,кандидат технических наук, доцент,

научный сотрудник Центра семантических технологий НИУ ВШЭ

http://about.me/Irina.Radchenko

НИУ ВШЭ, Москва, 2012

Page 2: Открытые данные в науке (Open Data in Science)

•Открытые данные — это концепция, заключающаяся в том, что данные должны быть свободно доступны для всех пользователей и пригодны для повторного использования без ограничений авторского права, патентов и других механизмов контроля.

Что такое открытые данные? 

НИУ ВШЭ, Москва, 2012 2

Page 3: Открытые данные в науке (Open Data in Science)

Открытые данные во временной  перспективе

НИУ ВШЭ, Москва, 2012 3Источник: http://visual.ly/open-data-movement

Page 4: Открытые данные в науке (Open Data in Science)

Открытые наборы научных данных

НИУ ВШЭ, Москва, 2012 4

World Bank

NASA

CERN

Page 5: Открытые данные в науке (Open Data in Science)

НИУ ВШЭ, Москва, 2012

Пример использования открытых геоданных

5

Page 6: Открытые данные в науке (Open Data in Science)

НИУ ВШЭ, Москва, 2012

Открытые государственные данные за рубежом

Цель: повысить открытость, доступность данных для граждан, способствовать распространению государственных данных

6

в США: http://www.data.gov/ http://www.utah.gov/data/ http://data.octo.dc.gov/ https://nycopendata.socrata.com/http://www.govtrack.us/http://openstates.org/

в Австралии:http://data.gov.au/

во Франции:http://www.data.gouv.fr/

в Великобритании: http://data.gov.uk/http://data.london.gov.uk/

в Канаде: http://www.toronto.ca/open/ https://data.edmonton.ca/ http://data.nanaimo.ca/ http://data.vancouver.ca/

в Швеции: http://www.opengov.se/data/

Page 7: Открытые данные в науке (Open Data in Science)

НИУ ВШЭ, Москва, 2012

Пятизвездочная модель  открытых данных по Тиму Бернерсу-Ли

Источники: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.html

7

Page 8: Открытые данные в науке (Open Data in Science)

НИУ ВШЭ, Москва, 2012

Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли

8Источники: http://www.w3.org/DesignIssues/LinkedData.html, http://iradche.livejournal.com/8909.html

★ Данные доступны в Вебе  (в любом формате), но подпадают под лицензию Открытых  Данных  (Open  Data)  — http://www.nationalarchives.gov.uk/doc/open-government-licence/.

★★ Данные  доступны  в  качестве  машинообрабатываемых  структурированных данных  (например,  в  виде  Excel-таблицы  вместо  отсканированного изображения таблицы).

★★★   Данные  соответствуют  двум  звездам,  плюс  представлены в непроприетарном  формате  (например,  в  формате  CSV  вместо  Excel-формата).

★★★★ Данные  соответствуют  трем  звездам,  плюс  представлены  в открытых стандартах  консорциума  W3C  (RDF  и  SPARQL),  предназначенных  для идентификации данных.

★★★★★ Данные  соответствуют  четырем  звездам,  плюс  они  связаны  с другими данными с учетом контекста их использования.

Page 9: Открытые данные в науке (Open Data in Science)

НИУ ВШЭ, Москва, 2012

Динамика развития Linked Open Data

9

Количество наборов LOD

Темпы нарастания объемов фактов

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Время2007 2008 2009 2010

Page 10: Открытые данные в науке (Open Data in Science)

Пример использования LOD: проект DBpedia

НИУ ВШЭ, Москва, 2012 10Источник: http://dbpedia.org/About,  http://wiki.dbpedia.org/Applications

Проект DBpedia послужил главным толчком к развитию Linked Open Data.

DBpedia — проект, направленный на извлечение структурированной информации из данных, собранных в рамках проекта Wikipedia.

Page 11: Открытые данные в науке (Open Data in Science)

НИУ ВШЭ, Москва, 2012

Области использования Linked Open Data

Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей

11

СМИГеография

ПубликацииСозданный 

пользователями контент

Науки о жизни

Междисциплинарные  области

Государственные данные

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Page 12: Открытые данные в науке (Open Data in Science)

Связанность данных

Доступность  данных

Машиночитаемость данных

НИУ ВШЭ, Москва, 2012

Преимущества использования Linked Open Data

12

Page 13: Открытые данные в науке (Open Data in Science)

НИУ ВШЭ, Москва, 2012

Стек Linked Open Data

13

Мэшапы Поисковые системы Интеграция данных

Базы данных и публикация данных Запросы на SPARQL

Обмен RDF

Словари Онтологии

Идентификаторы URL

Транспортный уровень: протокол HTTP

Лицензии откры

тых данны

х

Элементы стека данных LOD – 2 мая 2011, лицензия CC BY-CA-NCАвтор Тим Дэвис

При

клад

ной 

уров

ень

Источник: http://iradche.livejournal.com/9036.html

Page 14: Открытые данные в науке (Open Data in Science)

Следующий шаг: проект LOD2

НИУ ВШЭ, Москва, 2012 14Источник: http://lod2.eu/

Развитие проекта LOD2 при поддержке 7 рамочной программы Европейского союза

Page 15: Открытые данные в науке (Open Data in Science)

OntoWiki – инструментарий для работы с моделью 

данных RDF

PoolParty – система управления тезаурусом 

и редактирования контента в рамках концепции Semantic 

Web (включая Text Mining и связанные данные). 

Sig.ma – инструментарий для разработки Веба Данных: 

RDF, RDFa или микроформатов (стандарт Веба Данных). Sig.ma – браузер Semantic Web

Comprehensive Knowledge Archive

Network (CKAN) – каталог для наборов 

открытых данных 

D2R Server – инструментарий для 

опубликования реляционных баз данных 

в Semantic Web

Dbpedia Extraction – получает структурированную 

информацию из Wikipedia и делает ее машиночитаемой 

и связанной

DL-Learner – инструментарий для 

мониторинга машинного обучения в OWL

MonetDB – система управления базами 

данных, поддерживающая реляционные базы 

данных, XML и RDF-данные

SemMF – инструментарий для расчета схожести 

объектов, подвергающихся связыванию. 

Представляет связанные объекты в виде RDF-графа 

Стек разработок проекта LOD2

НИУ ВШЭ, Москва, 2012 15Источники: http://lod2.eu/, http://iradche.livejournal.com/9703.html

Page 16: Открытые данные в науке (Open Data in Science)

Silk Framework поддерживает публикацию RDF-данных 

из разнородных информационных источников. Использует декларативный язык Silk - Link

Specification Language (Silk-LSL)

Sindice – инструментарий для объединения огромных массивов связанных 

данных в единое информационное пространство 

связанных данных

Sparallax – интерфейс для реализации 

SPARQL-запросов, основанных 

на Freebase Parallax 

Triplify обеспечивает перевод данных в RDF-формат

Стек разработок проекта LOD2

НИУ ВШЭ, Москва, 2012 16Источники: http://lod2.eu/, http://iradche.livejournal.com/9703.html

Page 17: Открытые данные в науке (Open Data in Science)

Основные направления инициатив, направленных на открытие науки

НИУ ВШЭ, Москва, 2012 17

Открытие массивов научных данных

Создание электронных научных хранилищ  и профильных поисковых сервисов

Разработка инструментов для совместной работы

Создание специализированных научных социальных сетей

Page 18: Открытые данные в науке (Open Data in Science)

Примеры использования наборов открытых данных в науке

НИУ ВШЭ, Москва, 2012 18

Genome Commons (http://genomecommons.org/) Хранилище связанных наборов данных из различных источников: dbSNP, dbGaP, PharmGKB, GeneTests, OMIM, MutationView и сотни специализированных баз данных.

TARDIS,  The Australian Repositories for Diffraction ImageS (http://www.tardis.edu.au/) Хранилище наборов данных по кристаллографиии молекулярной биологии.

Page 19: Открытые данные в науке (Open Data in Science)

Примеры использования наборов открытых данных в науке

НИУ ВШЭ, Москва, 2012 19

Australian Social Science Data Archive (http://www.assda.edu.au/)Архив данных социальных наук Австралии.

Council of European Social Science Data Archives (http://www.cessda.org/) Архивы данных социальных наук Европейского совета.

Page 20: Открытые данные в науке (Open Data in Science)

Примеры использования наборов открытых данных в науке

НИУ ВШЭ, Москва, 2012 20

National Radio Astronomy Observatory(https://archive.nrao.edu/archive/)Архив данных национальной радиоастрономической обсерватории (США).

Social Science Data Archive(http://dataarchives.ss.ucla.edu/)Архив данных социальных наук (США).

Page 21: Открытые данные в науке (Open Data in Science)

Электронные научные хранилища  и профильные поисковые сервисы за рубежом

НИУ ВШЭ, Москва, 2012 21

ScienceDirect

EBSCO

WorldCat

JSTOR

CiteSeerX

Scopus

Page 22: Открытые данные в науке (Open Data in Science)

Электронные научные хранилища  и профильные поисковые сервисы за рубежом

НИУ ВШЭ, Москва, 2012 22

Web of Science

MS Academic Search

arXiv

Google Books

Open Library

Inspec

Page 23: Открытые данные в науке (Open Data in Science)

Электронные научные хранилища  и профильные поисковые сервисы в России

НИУ ВШЭ, Москва, 2012 23

eLibrary

VINITI Database RAS

eBdb

BookFinder

Руконт

Math-Net.Ru

Page 24: Открытые данные в науке (Open Data in Science)

Разработка инструментов для совместной работы исследователей

НИУ ВШЭ, Москва, 2012 24

Figshare (http://figshare.com/) предоставляет исследователям следующие возможности: • быстрая публикация результатов исследований; • упрощенная процедура цитирования;• совместное использование результатов

заинтересованными исследователями.

Лицензия: Creative commons

Digital Science (http://www.digital-science.com/) предоставляет программные продукты для совместных научно-исследовательских работ.

Page 25: Открытые данные в науке (Open Data in Science)

Разработка инструментов для совместной работы исследователей

НИУ ВШЭ, Москва, 2012 25

Tools for the Citizen Scientist (NASA) Предоставляет программные продукты для совместных научно-исследовательских работ.

Источники: http://open.nasa.gov/plan/progress/, http://open.nasa.gov/plan/

Page 26: Открытые данные в науке (Open Data in Science)

Создание специализированных научных социальных сетей

НИУ ВШЭ, Москва, 2012 26

Research Gate (http://www.researchgate.net/) Социальная сеть для ученых всех научных дисциплин.

Research Gate (https://secure.quantiamd.com/) Социальная сеть для врачей.

Sermo (http://www.sermo.com/) Социальная сеть для врачей.

Page 27: Открытые данные в науке (Open Data in Science)

Создание специализированных научных социальных сетей

НИУ ВШЭ, Москва, 2012 27

MitCogNet (https://cognet.mit.edu/) Социальная сеть для ученых, занимающихся исследованиями мозга и мозговой деятельности.

BioMedExpert (http://www.biomedexperts.com/) Социальная сеть для исследователей в области биомедицины.

Social Science Research Network (http://www.ssrn.com/) Социальная сеть для исследователей в области социальных наук.

Page 28: Открытые данные в науке (Open Data in Science)