INESC TEC quer digitalizar o maior acervo documental da História de Portugal
Integrar no mundo digital o maior acervo de fontes da História de Portugal. É este o principal objetivo do novo projeto do INESC TEC, designado EPISA - Entity and Property Inference for Semantic Archives, com arranque marcado para janeiro de 2019.
O foco do projeto EPISA é, a partir da análise dos registos existentes no Arquivo Nacional da Torre do Tombo (ANTT), produzir novas representações dos documentos que os interliguem às redes de dados abertos ligados, tendo em conta o aumento dos acessos on-line. Para isso, o projeto vai desenvolver ferramentas para a produção de novos registos pelos arquivistas e para a pesquisa pelos cidadãos.
O ANTT é o responsável por preservar os documentos do Estado Português, cobrindo toda a história do País, e integra, para além do Arquivo Nacional, a generalidade dos Arquivos Distritais. Gere um acervo de cerca de 20 milhões de representações digitais e de documentação analógica que, se alinhada, corresponde a cerca de 100 km. O património documental do ANTT tem vindo a ser progressivamente digitalizado e a incorporar documentos nado-digitais, num total de 1,3 milhões de registos de documentos disponíveis. Toda esta informação é sistematicamente registada e descrita segundo regras internacionalmente estabelecidas para um contexto dominado pelo suporte em papel.
O EPISA usa métodos de processamento de linguagem natural, reconhecimento de entidades e aprendizagem automática para explorar os registos de documentos e os próprios documentos se estiverem em suporte digital. Das descrições produzidas por arquivistas, serão extraídas entidades e relações que vão povoar um modelo de descrição, semanticamente mais rico que o modelo atual e mais fácil de tratar automaticamente.
O projeto foi submetido juntamente com mais 48 ideias, em maio de 2018, na chamada da Fundação para a Ciência e a Tecnologia (FCT) para o Concurso de Projetos de Investigação Científica e Desenvolvimento Tecnológico em Ciência dos Dados e Inteligência Artificial na Administração Pública, uma iniciativa conjunta dos ministérios da Ciência, Tecnologia e Ensino Superior e da Modernização Administrativa. De todos, foram aprovados para financiamento 15 projetos, tendo o EPISA recebido um orçamento aproximado de 300 mil euros.
Além do Centro de Sistemas de Informação e de Computação Gráfica (CSIG) do INESC TEC (proponente), este projeto tem como parceiros a Universidade de Évora e a Direção Geral do Livro, dos Arquivos e da Bibliotecas (DGLAB), responsável pelo Arquivo Nacional da Torre do Tombo.
Créditos fotos: ANTT