INESC TEC desenvolve ferramentas para gerir dados de investigação
Dendro e LabTablET organizam, descrevem e ligam dados e metadados
Uma equipa da Faculdade de Engenharia da Universidade do Porto (FEUP) e do INESC TEC desenvolveu duas ferramentas para auxiliar os investigadores na gestão dos dados, evitando a sua perda e fomentando a partilha de informação em projetos internacionais. As ferramentas estão a ser testadas na Universidade do Porto.
O problema da gestão de dados
A gestão dos dados de investigação (RDM, de “research data management”) é um assunto que está no topo da agenda de investigadores e agências de financiamento. Os investigadores verificam que os artigos com dados associados têm mais citações, e que dados valiosos atraem a projetos de colaboração. Já as agências de financiamento europeias estão a incluir nos seus regulamentos os planos de gestão de dados e a obrigação da sua partilha.
"Há grandes quantidades de dados que são perdidos todos os anos pelos cientistas, devido à falta de ferramentas para a sua gestão", explicam Cristina Ribeiro, investigadora do Centro de Sistemas de Informação e Computação Gráfica (CSIG) do INESC TEC, que lidera o projeto TAIL, em que este desenvolvimento está a decorrer, e João Rocha da Silva, responsável pela equipa que desenvolve estas aplicações.
Nesse sentido, a gestão dos dados é essencial para garantir que, desde o momento da sua produção, se criam as condições para que os dados sejam armazenados, descritos e que os planos de gestão os mantenham em sistemas com garantia de atualização.
Há por isso dois princípios seguidos no projeto TAIL: o acompanhamento dos dados produzidos em projetos é feito desde a sua criação ou recolha, e a organização e descrição faz-se com a colaboração próxima entre investigadores e gestores de dados.
O valor dos dados de cada disciplina depende muito dos metadados, ou seja, da informação que torna possível que outros, ao longo do tempo, os interpretem e reutilizem. A equipa do projeto TAIL tem uma componente forte de trabalho junto das equipas de projetos, apoiando a descrição e depósito de dados. O INESC TEC tem já um repositório experimental para o efeito.
Dendro e LabTablet – o início da investigação
O acompanhamento dos dados em projetos e a colaboração na sua descrição levaram o grupo de investigadores do INESC TEC e da FEUP a estudar os workflows de gestão de dados e a desenvolver ferramentas para os apoiar.
O Dendro (http://dendro.fe.up.pt/) é uma interface de armazenamento, descrição e depósito de dados. O LabTablet complementa-o como caderno de laboratório electrónico, com recolha semi-automática de metadados e sincronização com o Dendro.
O Dendro fornece um ambiente baseado em ontologias onde é possível organizar, descrever e publicar conjuntos de dados, cujos metadados estão prontos para uso como dados abertos ligados (Linked Open Data). O Dendro é diretamente extensível com ontologias específicas de domínio para descrever e partilhar de forma colaborativa conjuntos de dados dentro das respetivas comunidades.
A plataforma está atualmente a ser testada em grupos de investigação da Universidade do Porto e do INESC TEC, e em colaboração com a rede europeia EUDAT.
Já o LabTablet é uma aplicação móvel que atua como um caderno de laboratório electrónico, facilitando a produção de metadados. Com um tablet ou smartphone, é possível recolher automaticamente metadados essenciais, como a localização ou dados provenientes dos sensores do dispositivo.
TAIL - Gestão de dados de investigação da produção ao depósito e à partilha
O desenvolvimento destas ferramentas iniciou-se no InfoLab da FEUP e teve continuidade no projeto TAIL, que tem como parceiros o INESC TEC, o CIBIO-InBIO e a Universidade do Porto.
O projeto, que decorre até ao próximo ano, além de dar continuidade à criação de ontologias para a descrição de dados em múltiplos domínios, está a fazer a ligação entre os dados e metadados criados pelos próprios investigadores e as plataformas de depósito, nacionais e internacionais, que estão a ser construídas.
O TAIL promove a descrição rigorosa de dados tendo em vista o depósito e reutilização, analisando múltiplos casos nas áreas onde já existem infraestruturas setoriais. O seu foco é a chamada “cauda longa” da ciência, os inúmeros grupos de investigação que em conjunto produzem uma parte substancial dos dados.
No final deste projeto de três anos, espera-se que “algumas dezenas de grupos de investigação tenham gerido com sucesso os dados que estiveram a criar e que colham os benefícios de os terem publicados, pesquisáveis e citados”, afirma Cristina Ribeiro.
A equipa do projeto inclui um grupo do INESC TEC (Cristina Ribeiro, João Correia Lopes, Gabriel David, Carla Lopes, João Rocha da Silva, João Aguiar Castro, Nelson Pereira, Yulia Karimova, Joana Rodrigues, Artur Rocha) que tem trabalhado no desenvolvimento de um ambiente de curadoria de dados e no desenho de modelos de metadados para dados de investigação baseados em ontologias. Elementos da equipa têm também trabalho relevante nas infraestruturas europeias EPOS e WindScanner.eu.
O CIBIO-InBIO está envolvido na definição de modelos de metadados para a biodiversidade e lidera o consórcio português parceiro da e-infra-estrutura europeia LifeWatch no domínio da investigação em biodiversidade e ecossistemas.
INESC TEC participa em conferência final do projeto EUDAT
As duas ferramentas Dendro e LabTablet fazem parte dos 22 pilotos desenvolvidos no âmbito do EUDAT Collaborative Data Infrastructure, uma infra-estrutura europeia de serviços de dados e recursos de apoio à investigação.
O INESC TEC colabora no projeto e atua como piloto, tendo completado no INESC TEC e Universidade do Porto experiência de interface do Dendro e do LabTablet aos serviços B2SHARE, B2FIND e B2DROP do EUDAT.
As duas aplicações estiveram em destaque na conferência internacional EUDAT “Putting the EOSC vision into practice: Sharing & preserving research data across disciplines and borders”, que se realizou no Porto entre os dias 22 e 25. A equipa do TAIL apresentou na conferência resultados finais do piloto, bem como duas demonstrações e um poster.
Os investigadores do INESC TEC mencionados na notícia têm vínculo ao INESC TEC e à UP-FEUP.