An approach for managing and semantically enriching the publication
of Linked Open Governmental Data
Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina
Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3
1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil
2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland
3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Agenda
• Motivação e contextualização
• Cenário Atual em Dados Abertos Interligados (LOD)
• Projeto LinkedDataBR
• ETL Workflow
• Tratamento Semântico Incremental
• Estudo de Caso
• Considerações finais
2
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Motivação e contextualização
3
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Estão abertos?
4
Motivação e contextualização
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 5
CAPES
CNPq
RNP
Uso conjunto é ainda um desafio!
Motivação e contextualização
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
• Interoperabilidade e Integração de dados na Web ainda requerem considerável esforço
– Mesmo dentro de uma organização!
. Tivemos SGBD por mais de meio século, mas conseguimos a integração que se pretendia? O que faltou ?
– E agora, na Web: • Distribuídos, heterogêneos, em grande escala, altamente
visíveis, grande número de diferentes usuários, …
6
Motivação e contextualização
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Linked Open Data (LOD)
• LOD pode ser considerado uma abordagem mais simplista de uso de tecnologias da Web Semântica
• Baseada em triplas (RDF) para representar os dados de forma realmente “granular”
– Facilita a interligação
– Acompanhado de um descritor
• Abordagem pay-as-you-go
7
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Linked Open Data (LOD)
– O que vem a ser Dados Abertos Interligados? • Utilização ampla de padrões
• Representação de dados em um grão mínimo (triplas RDF)
– Flexibilidade nas ligações entre itens de dados
• Tem a interoperabilidade em sua essência
– RDF: Resource DESCRIPTION Framework
» Criado para interoperar METADADOS!
–Descritores estão na base da proposta
8
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Linked Open Data (LOD)
– Uma maneira “nova” de publicar e consumir dados!
• O poder das ligações tipadas
• O poder da colaboração – Consumidores podem ser publicadores também!
• Mais e mais dados sendo gerados e potencialmente “ligáveis” – Sensores e Web das Coisas
• Dados e metadados sendo explorados juntos em novas aplicações
• Consulta E Navegação E Busca!
9
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Dados publicados como LOD
Até quando conseguiremos representar esta nuvem? 10
265 datasets - 32 bilhões de triplas - 42% de dados de governo Setembro de 2011
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Cenário Atual - Internacional
• Muitas iniciativas de governo
– Governo Britânico, Estados Unidos, Espanha, etc.
– Diferentes abordagens
– Entrando em fase mais madura
• Muitas iniciativas do setor privado
– BBC, New York Times, ...
• Muitas iniciativas em e-Ciência – Dados genômicos, dados de meio-ambiente,...
• Forte envolvimento da área acadêmica – Consórcio W3C, Sir Tim Berners Lee (MIT)
– DERI/NUI (Irlanda), Univ. Berlim (Alemanha), Univ. de Madri (Espanha)
– Projeto LOD2
11
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Cenário Atual - Internacional
• Grande diversidade de ferramentas – Ainda sendo experimentadas
– Foco em atividades específicas de publicação, consumo e colaboração
– Ainda razoável esforço requerido para seu uso conjunto
• Abordagem liberal
– Prioridade para “expor” os dados e depois ir complementando sua descrição
– Uso de ontologias ainda incipiente
– Processo de publicação muito artesanal
– Qualidade do dado publicado ainda pouco rastreável
• Entrando em fase de amadurecimento – Maior preocupação com semântica e descritores
– Frameworks para integração de ferramentas sendo discutidos
12
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Cenário Atual - Nacional
• Inicialmente evoluindo sobre pesquisas e aplicações da Web Semântica e Ontologias
• PUC-RJ, UFRJ, UFES, PUC-RJ, PUC-RS, …
• Interesse crescente no Governo:
– Inicialmente uma certa confusão com dados abertos
– Acordo assinado entre o Brasil, EUA e mais 6 países
– Tema do CONSEGI deste ano
– Ministério do Planejamento : • Cria o INDA – Infraestrutura Nacional de Dados Abertos
• Baseada em LOD e uso de ontologias
– Apoio do W3C Brasil e CGI/BR • Cria o GT Ontologias
– Iniciativas experimentais em LOD • Experimentos pontuais -> simples conversão de dados e interfaces atraentes
• Tecnologia ainda pouco conhecida
13
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
LinkedDataBR
Linked
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Nossa Abordagem
• Alguns domínios requerem uma abordagem sistemática que garanta:
– Maior controle do processo
– Manutenção da consistência dos dados sendo publicados
• Este é o caso de:
– Dados Governamentais
– Dados de e-Ciência
• Necessário adotar uma abordagem de “gestão de dados”
15
Linked
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
LinkedDataBR - FOCO
• Foco – no apoio ao processo de publicação
– na qualidade do dado
• Característica da solução:
– Plataforma integrada e flexível
– Maximização no reuso de ferramentas existentes (software livre)
– Explorar: • Gerência de metadados
• Apoio ao processo com ferramenta de workflow (ETL)
• Tratamento Semântico
Linked
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
LinkedDataBR - FOCO
17
Treatment Process
Triples Vocabulary Ontology
Pre-Processing Triplification Linking
Repository
LinkedDataBR Feed/Expose
Requests
URI
Responses
Linked Data
Queries
Consume/Explore
Consumers Data Producers
Governmental and Non Governmental Entities
Universities and Research Institutes
Governmental and Non Governmental Entities
Universities and Research Institutes
Citizen and Private Companies
LinkedDataCloud
Linked
Provenance
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Projeto LinkedDataBR
• Objetivos
– Construção de uma infra-estrutura inicial de suporte à publicação e criação de repositórios de dados abertos utilizando os padrões de Linked Data
E ainda:
– Criação de diretrizes associadas ao processo de publicação
– Criação de grupo de interesse e mobilização para apoio e estímulo à iniciativa de Linked Open Data no Brasil e sua inserção no cenário mundial de dados abertos interligados.
18
Linked
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Projeto LinkedDataBR
• Arquitetura
19
Linked
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
ETL Workflow (Captura de Proveniência)
20
Publishing Workflow Process
Triplify Linking
Retrospective Provenance Data
Prospective Provenance Data
Workflow Implementation Design
Workflow Implementation Execution
Extract Transform Load
Triples
Stage
Linked Open Government Data
Provenance Triples
Raw Government Data
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 21
ABORDAGENS PARA O ENRIQUECIMENTO SEMÂNTICO
Publicação de Dados Abertos Ligados
21
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Ausência de preocupação com a semântica
22
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Alguma preocupação com a semântica
23
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Preocupação mediana com a semântica
24
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Muita preocupação com a semântica
25
An approach for managing and semantically enriching the publication of Linked Open Governmental Data 26
Exemplo de Cenário de Publicação de Dados Interligados
Linked
Cenário de Financiamentos de Projetos de Pesquisa
Instituições de Pesquisa
Currículos de Pesquisadores
Projetos de Pesquisa
FNDCT
RNP
Lattes eMec
Grupos de Pesquisa - CNPq
GP-CNPq
tem participação
de
tem participação
de
tem instituição
Cenário de Aplicação C&T
27
Exemplo do Processo de Publicação
Tratamento Triplificação Ligação
Tratamento
Triplificação
Ligação
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Projetos RNP
LODBR
“UFRJ”
temSigla
“LinkedDataBR”
temNome
UFRJ temInsituicao
MLMC “Maria Luiza M. Campos”
temNome
LODBR_Ph1 temFase
temParticipacaoDe
“Universidade Federal do Rio
do Janeiro”
temNome
Grupos de Pesquisa CNPq
GRECO “Grupo
Engenharia do Conhecimento”
temNome
MLMC “Maria Luiza M.Campos”
temNome
temParticipante
“Knowledge Engineering”
temArea Predominante
CNPq CV Lattes
MLMC
“Maria Luiza Machado Campos” temNome
“UFRJ” enderecoProfissional
MLMC0232 “CrossMDA: a Model-driven Approach for
Aspect Management” temTitulo
temPublicacao 2009 temAno
Instituticao GrupoTrabalho
WGFase
Participante
Publicacao
Pesquisador
swrc:Publication
swrc:Person
swrc:University
swrc:ResearchGroup
swrc:Project
eMec Instituições
“UFRJ”
temSigla
UFRJ
“Universidade Federal do Rio
do Janeiro”
temNome
temLocalOferta
RioJ
Resultado
Grafos interligados
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Resultado
33
...
<rdf:Description rdf:about="http://www.rnp.br/resource/LDBR_Ph1">
<rdf:type rdf:resource="http://www.rnp.br/ontology/WGPhase"/>
<rnp:hasParticipationOf rdf:resource="http://www.rnp.br/resource/MLMC"/>
</rdf:Description> ...
<rdf:Description rdf:about="http://www.rnp.br/resource/MLMC">
<rdf:type rdf:resource="http://www.rnp.br/ontology/Participant"/>
<rdf:type rdf:resource="http://swrc.ontoware.org/ontology/Person"/>
<rnp:hasFullName> Maria Luiza Machado Campos </rnp:hasFullName>
<owl:sameAs rdf:resource="http://lattes.cnpq.br/resource/MLMC"/>
<owl:sameAs rdf:resource="http://www.cnpq.br/resource/MLMC"/>
</rdf:Description> ...
An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Considerações Finais
• Iniciativas nacionais e internacionais pela transparência das ações governamentais e participação do cidadão.
• Dado Aberto possui um papel fundamental, mas o valor real do dado é revelado se os dados são explorados em conjunto.
• LOD é uma abordagem de interoperabilidade e integração
• Em LOGD é essencial considerar algumas garantias de qualidade e estratégias de interoperabilidade
• Plataforma do LinkedDataBR e a abordagem de enriquecimento semântico incremental
• Concebida para apoiar os publicadores e gestores de dados de governo
• O potencial da colaboração do cidadão (wisdom of the crowds) desempenhará um papel importante no mapeamento e ligação.
34
An approach for managing and semantically enriching the publication
of Linked Open Governmental Data http://greco.ppgi.ufrj.br/gtlinkedbr/
Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina
Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3
1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil
2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland
3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil