As Ontologias e o projeto ELLAS

O propósito da criação do projeto ELLAS é a criação de uma plataforma de dados abertos contendo dados relacionados à presença de mulheres em STEM, útil para formulação de pesquisas e políticas públicas neste campo.

Os estudos visam coletar e fornecer de forma aberta e conectada dados sobre mulheres em STEM tais como sobre liderança, fatores que impactam na carreira,
iniciativas e políticas públicas. A proposta também inclui a integração dos dados por meio de ontologias e, assim, criar grafos de conhecimento sobre o tema. Este tipo de estrutura possibilita uma representação mais homogênea e comparável entre os dados no âmbito de países da América Latina.

Os grafos de conhecimento semântico são estruturas baseadas no formato RDF/OWL (Resource Description Framework/Web Ontology Language), que são baseados em triplas, uma forma de representar relacionamentos entre dados (como pode ser visto na
Figura 1). Os grafos de conhecimento semântico não são apenas estruturas de armazenamento, como um banco de dados, eles são criados considerando a semântica dos dados utilizando ontologias para descrevê-los e adicionar lógica ao grafo.

A ontologia, por sua vez, é um campo de estudo da filosofia, que abrange a natureza do ser, da existência e da própria realidade. Para a computação, a definição de ontologia é a representação formal de conceitos de um domínio. As ontologias são compostas de classes, propriedades e restrições. As classes são
responsáveis por descrever o conjunto de objetos do domínio, as propriedades são as relações entre classes e dados, e as restrições são responsáveis pela parte lógica onde, através de um motor de inferência, é possível gerar novos dados.

Etapas do desenvolvimento da Plataforma

Coleta de Dados

Os dados são organizados em primários e secundários. Os
primários dizem respeito a dados coletados pelos times do próprio projeto, obtidos diretamente de artigos da revisão sistemática de literatura (RSL). Já os secundários são coletados através de portais de dados abertos, como o INEP/SBC, GOSPIN, do CAGED e de pesquisas no estilo survey desenvolvida pelo grupo de pesquisadoras/es e em universidades e empresas no contexto da América Latina, consideradas alianças parceiras do projeto.

Criação da Ontologia

Para a modelagem e construção da ontologia, uma equipe de especialistas é responsável por analisar as planilhas geradas pela coleta dos dados primários e criar uma ontologia para cada uma delas. Para cada um dos 3 tipos de dados primários há um processo de criação, validação e modelagem da ontologia juntamente com as equipes que coletaram os dados (especialistas do domínio). Caso um problema seja encontrado, a ontologia deverá ser alterada e o processo de revisão será feito novamente. Esse ciclo continua até os resultados serem satisfatórios.

Criação do Grafo de Conhecimento Semântico

Após a ontologia do projeto ter sido criada, e da coleta dos dados primários e
secundários, o grafo de conhecimento semântico será criado.
O desenvolvimento do grafo se dá quando os dados das planilhas são inseridos no modelo ontológico criado. Como resultado, um arquivo no formato RDF, contendo todas as triplas, será gerado e este será inserido em uma Triplestore para o consumo dos dados.

A Plataforma

Com um back-end baseado em ontologias, a plataforma disponibilizará, de forma intuitiva, os dados integrados de projetos, iniciativas e ações realizados em alguns países da América Latina, além de dados estatísticos provenientes de bases abertas como a base do INEP e de pesquisas como a própria survey realizada pelo projeto.

Manutenção dos Dados

A plataforma do projeto, além de disponibilizar acesso à informação, irá disponibilizar a função de adicionar novos dados primários, quando um novo projeto, iniciativa ou política, por exemplo, for criado. Deste modo, a plataforma se manterá atualizada e relevante para a utilização em novas pesquisas de gênero em STEM.

Rolar para cima