A Wikimedia no Brasil/XII

Wikidata como infraestrutura sociotécnica para dados acadêmicos e culturais[1]

erika guetti suca
éder porto ferreira alves
tiago lubiana
mike peel

 

Introdução

O Wikidata é um projeto da Fundação Wikimedia cujo objetivo é coletar e armazenar dados estruturados em domínio público em uma plataforma de conhecimento aberta e colaborativa. Seu modelo de dados baseado na Web Semântica e sua infraestrutura colaborativa permitem que os dados sejam estruturados de forma flexível em uma construção holística e interconectada do conhecimento. O uso dessa infraestrutura pela comunidade global de editores voluntários, especialistas e instituições interessadas no compartilhamento do conhecimento fomenta sua equidade e destaca a ideia de conhecimento como serviço, ambos conceitos principais da Estratégia Wikimedia 2030, um esforço colaborativo global que busca discutir a infraestrutura do Movimento Wikimedia e de suas plataformas (Movement [...], 2021).

Este capítulo tem como objetivos apresentar as potencialidades do Wikidata como uma infraestrutura sociotécnica que possibilita a preservação e difusão do conhecimento cultural e científico no ambiente digital e registrar a memória de processos pioneiros que membros e equipes do Wiki Movimento Brasil (WMB) têm desenvolvido através da integração do Wikidata em diferentes contextos e áreas do conhecimento. Para isso, analisamos três estudos de caso no Brasil, com ênfase em como seus processos e ferramentas têm sido desenvolvidos de maneira colaborativa.

Retroalimentação de dados e metadados do Museu Paulista

O primeiro estudo de caso apresentado é o da iniciativa GLAM-wiki[2] do Museu Paulista da Universidade de São Paulo (USP)[3]. Neste caso, descreve-se a infraestrutura técnica dessa parceria e um esquema proposto de como os resultados do trabalho voluntário e colaborativo das plataformas Wikimedia podem ser reaproveitados pela instituição.

O Museu Paulista é o mais antigo museu do estado de São Paulo. Foi criado no ano de 1893 pelo governo estadual e inaugurado como Museu de História Natural em 1895, tendo sido integrado à USP em 1963. A partir de 1917, o museu ganhou um caráter mais histórico e parte de suas coleções foi transferida para outras instituições. Hoje em dia, seu acervo é composto por um grande número de obras de arte, objetos, mobiliário e documentos, que somados dão um montante de mais de 450 mil itens (Ono; Lima, 2022). Em 2013, foi fechado para uma restauração massiva do edifício e só veio a ser reaberto ao público em 07 de setembro de 2022, durante as comemorações do bicentenário da Independência do Brasil (Ono; Lima, 2022; Ono; Oliveira, 2022).

Durante o período em que esteve fechado, foi lançada a iniciativa GLAM-wiki do Museu Paulista, parceria oficial ratificada em 25 de julho de 2017, entre a direção da instituição e o WMB, um dos afiliados da Fundação Wikimedia no país. O objetivo da parceria foi expandir a quantidade e qualidade do conteúdo relacionado às diversas coleções de seu acervo e às pesquisas acadêmicas da instituição na internet (Alves et al., 2022). A parceria foi vista desde o início como uma oportunidade de “abrir o acervo de um museu fechado” (Azzellini; Peschanski, 2020) e tinha como meta melhorar todo o ecossistema do conhecimento sobre a instituição.

Como resultado das atividades de compartilhamento do acervo on-line da iniciativa, mais de 30 mil imagens em alta resolução do acervo foram vistas mais de 127 milhões de vezes de janeiro de 2019 até maio de 2023 nos projetos Wikimedia (Wikimedia Israel, 2023). As imagens enviadas foram disponibilizadas em domínio público sempre que possível; em outros casos, as imagens foram liberadas em uma licença Creative Commons (Lima, 2017).

Os metadados foram carregados em licença Creative Commons 0 (Wikidata:Copyright, [2021]). Uma vez dentro do ecossistema Wikimedia, tanto as imagens quanto os metadados puderam ser editados, melhorados e reutilizados por qualquer pessoa. De fato, diversas atividades e eventos da parceria tiveram como tema e objeto de estudo seções do acervo e engajaram participantes para melhorar colaborativamente as informações sobre o próprio acervo e aumentar a quantidade de imagens utilizadas para ilustrar verbetes na Wikipédia (Iniciativa [...], 2020; Wikidata [...], 2021b).


AS PLATAFORMAS DE ESTRUTURAÇÃO E DIFUSÃO DE CONTEÚDO

O Wikidata é uma base de conhecimento livre que armazena mais de 103 milhões de itens, somando um total de 1,46 bilhão de declarações semânticas organizadas em um sistema de triplas (item-propriedade-valor) (Special:Statistics, [2023a]). O Wikimedia Commons é um repositório de mais de 93 milhões de mídias disponibilizadas em licença livre para reutilização dentro e fora dos projetos Wikimedia (Special:Statistics, [2023b]). Durante o mês de abril de 2023, o Wikidata registrou mais de 250 milhões de visualizações, enquanto o Wikimedia Commons registrou quase 1,2 bilhão (Análise de visualizações de página, 2023). Os dois projetos, em conjunto com a Wikipédia, fazem parte do ecossistema Wikimedia e formam a base dos projetos GLAM-wiki, na medida em que focam no carregamento de mídias dos acervos (Wikimedia Commons), na disponibilização dos metadados das obras (Wikidata) e na difusão e cobertura dos temas de estudo das instituições de memória que realizam tais projetos (Wikipédia).


INFRAESTRUTURA TÉCNICA

Como descrito em Alves e demais autores (2022), a infraestrutura técnica da parceria GLAM-wiki do Museu Paulista pode ser dividida em duas fases. A primeira teve lugar entre 2017 e 2019, período em que o WMB desenvolveu o processo para carregamento de mídias e metadados dos itens do acervo da instituição nas plataformas Wikimedia e desenvolveu ações específicas para melhoria de conteúdo na Wikipédia. Esse processo foi descrito por Peschanski (2021) e envolve vários passos, entre eles a limpeza e reconciliação[4] de dados e a edição e carregamento em massa no Wikidata e Wikimedia Commons.

Já a segunda fase se estendeu por 2020 e 2021 e tinha particular interesse na promoção de uma cultura de colaboração entre o museu e o Movimento Wikimedia. Ainda segundo Alves e demais autores (2022), dois projetos foram lançados: a “Iniciativa Wikipédia do Museu Paulista da Universidade de São Paulo” (fevereiro a novembro de 2020) e a “Iniciativa de Wiki-Difusão e Capacitação Digital Colaborativa do Museu Paulista” (fevereiro a julho de 2021), que ajudaram tanto na criação de uma estratégia de difusão digital, quanto na integração da teoria e prática na construção da cultura digital no museu e para com suas audiências.

Essa estratégia resultou, entre outras ações, na elaboração, em 2021, de uma proposta técnica de retroalimentação de dados e metadados entre o Wikidata e o banco de dados do museu. Essa proposta tinha como objetivo responder à pergunta: “Como os resultados da atuação colaborativa voluntária dos usuários e usuárias wiki em metadados fornecidos pelo Museu Paulista podem ser aproveitados pela instituição?”.


A RETROALIMENTAÇÃO DE DADOS E METADADOS

O processo envolvendo a interoperabilidade do Wikidata e outros bancos de dados não é um conceito novo e vem sendo explorado em diversas instituições culturais mundo afora (Iniciativa [...], 2021). Existe um grande potencial de reutilização do trabalho de curadoria colaborativa[5] dos editores voluntários dos projetos Wikimedia pelas instituições, e o Wikidata tem papel central nesse processo. Além disso, a atuação cada vez mais frequente dessas instituições culturais e de memória revela um desejo crescente de aumentar a visibilidade e reuso de seus acervos (Fauconnier, 2019).

A descrição do fluxo de ida – da base de dados local para os projetos Wikimedia – já estava bem estabelecida (Peschanski, 2021). Na proposta, o maior desafio que se impôs foi imaginar o fluxo de volta, dos projetos Wikimedia para a base de dados local da instituição. A base de dados da instituição, até então chamada Sistema Documental do Museu Paulista, tem mais de 30 anos de implementação (Museu [...], 2023) e, embora provesse o público e a comunidade científica com dados e imagens do acervo, a navegação era pouco intuitiva e bastante burocrática.

Como parte da reestruturação para as comemorações do bicentenário da Independência do Brasil e em congruência com a sua nova estratégia de difusão digital, a instituição optou pela adoção do Tainacan[6] como tecnologia de disponibilização dos itens do acervo on-line.

O Tainacan é um software livre e flexível usado para a criação e gestão de repositórios de acervos digitais em WordPress, conhecido sistema livre e aberto de gestão de conteúdo para internet. Foi desenvolvido pelo Laboratório de Inteligência de Redes da Universidade de Brasília em 2014, com apoio da Universidade Federal de Goiás (UFG), do Instituto Brasileiro de Informação em Ciência e Tecnologia e do Instituto Brasileiro de Museus. Em maio de 2023, cerca de 100 instituições brasileiras e estrangeiras utilizavam essa tecnologia para disponibilizar ao menos partes de seus acervos ao público na internet (Casos [...], 2023).

O processo proposto de retroalimentação de dados e metadados do Museu Paulista foi construído já com o Tainacan adotado como futura tecnologia integrada ao banco de dados local do museu. Isso é ilustrado pela Figura 1, na qual o lado esquerdo do fluxograma representa o fluxo de ida e o restante, partindo do Wikidata e Wikimedia Commons à direita, representa o fluxo de volta.

Esse fluxo proposto de retroalimentação de dados e metadados tem como objetivo a exportação dos dados e metadados registrados nos projetos Wikimedia, a fim de se verificar se existiram alterações, exclusões ou adições aos dados e metadados fornecidos pela instituição originalmente. A ideia é que, uma vez implementado o processo, após a indispensável curadoria humana do museu, e auxiliada por métodos automáticos de previsão de edições de boa-fé, caso as modificações, adições ou exclusões sejam positivas e corretas, poderão ser incorporadas à base de dados local do museu. Projetos-piloto semelhantes existem em instituições culturais em outros países, em que se destacam as iniciativas Wikimedia Commons Data Roundtripping da Autoridade Nacional da Herança Cultural da Suécia e as atividades do Metropolitan Museum of Art (MET) em Nova Iorque, EUA (Dittrich, 2019; Fauconnier, 2019; Wikidata [...], 2021). Um dos pioneiros da FIGURA 1 Proposta de diagrama de retroalimentação de metadados – Museu Paulista

Fonte: Alves ([2021]). retroalimentação de dados e metadados em projetos GLAM-wiki, Andrew Lih, estrategista Wikimedia do MET, diz:

A retroalimentação em projetos GLAM-wiki é extremamente poderosa, especialmente para museus que estão enfrentando a enorme tarefa de normalizar e integrar seus conjuntos de dados abertos vinculados. Estamos vendo as instituições GLAM se envolverem com o conteúdo estruturado da Wikimedia de uma forma que não era possível há seis ou sete anos. Isso é concretizar a promessa da Web Semântica originalmente concebida por Tim Berners-Lee como um rico diálogo entre bancos de dados que se fortalecem e se aprimoram (Fauconnier, 2019, tradução nossa)[7].

Como dito anteriormente, o Museu Paulista passou a utilizar o Tainacan como ferramenta de democratização e disponibilização do acervo. O novo website, lançado em 31 de janeiro de 2023, permite que pesquisadores e público possam buscar e mobilizar as diversas coleções iconográficas, textuais e tridimensionais da instituição (Costa, 2023). Além disso, os metadados são estruturados e podem ser exportados de maneira simples e em formatos abertos, de modo que, uma vez implementado, o fluxo de ida será ainda mais facilitado, pois permitirá maior interoperabilidade entre o banco de dados local e os projetos Wikimedia. Quanto ao fluxo de volta proposto, a ideia de o Tainacan permitir a curadoria de metadados alterados e novos metadados dentro da própria plataforma é algo ainda inexplorado, mas que apresenta grande potencial de contribuição para o processo de retroalimentação, justamente nos últimos passos do fluxo de volta, como pode ser observado na porção inferior da Figura 1 (Alves et al., 2021).

A própria adoção do Tainacan como plataforma permite que o fluxo de ida dos dados e metadados seja facilitado, uma vez que a exportação dos metadados independe de a instituição mobilizar funcionários para separar todas essas informações para serem tratadas e transferidas para o Wikidata. Nem todos os metadados da base local do museu estão estruturados dentro do Tainacan, de modo que ainda existem alguns gargalos semânticos envolvidos no tratamento dos metadados. Conforme esses metadados são padronizados, a reconciliação com o Wikidata – processo conhecido como “wikidatificação” – é facilitada e pode ser, em certa medida, automatizada (ver porção superior esquerda da Figura 1).

O fluxo de volta da retroalimentação começa pela exportação de dados e metadados dos projetos Wikimedia, que consiste na porção superior direita da Figura 1. Isso pode ser feito por diversos meios, dos quais se destacam os serviços do Wikidata Query Service[8], o Wikimedia Commons Query Service[9] e a Interface de Programação de Aplicações (API)[10] do MediaWiki[11]. Os dados e metadados modificados dentro dos projetos Wikimedia podem ser exportados em formatos abertos e então comparados com a base local do museu, utilizando, inclusive, a reconciliação realizada no fluxo de ida. Idealmente, a base local do museu deveria ter a informação do item Wikidata associado a cada item da ontologia reconciliado. Outro elemento que advém do fluxo de ida que pode facilitar essa comparação é uma tabela de associação entre as propriedades usadas na base local e propriedades Wikidata. Essas tabelas são conhecidas em inglês como schema crosswalks e são instrumentos de reconciliação entre ontologias, passo essencial da interoperabilidade entre bases de dados.

A reconciliação entre essas bases de dados pode ser realizada utilizando-se tecnologias de aprendizado de máquina, como indicado na porção central inferior da Figura 1. O aprendizado de máquina pode ser utilizado para verificar se as informações adicionadas, editadas e/ou removidas pelos editores dos projetos Wikimedia são edições válidas. Em particular, destaca-se o Serviço Objetivo de Avaliação de Revisões (ORES)[12], modelo de aprendizagem de máquina inovador desenvolvido de forma colaborativa e transparente, que mede a probabilidade de uma edição ser ou não prejudicial e se foi feita de boa ou má fé (Halfaker; Geiger, 2020; Trokhymovych et al., 2023). Essas ferramentas devem servir apenas para auxiliar o trabalho da equipe curatorial do museu, que é responsável pela decisão de aceitar ou rejeitar que as edições dos editores wikimedistas sejam incorporadas dentro da base local. Para facilitar o trabalho dos curadores, a ação de decidir pela inclusão ou não de informações reconciliadas dos mais de 33 mil itens do acervo no Wikidata deveria ser feita já dentro da plataforma do Tainacan, o que faria com que os dados fossem replicados instantaneamente. Essa inserção na base local do museu é representada pelo bloco inferior da Figura 1, que se liga ao primeiro bloco da porção superior esquerda, completando a retroalimentação de dados e metadados.


PRÓXIMOS PASSOS PARA A RETROALIMENTAÇÃO DE DADOS E METADADOS

Esse caso demonstra os esforços de uma instituição cultural secular localizada no Sul Global em desenvolver uma cultura digital sustentável e efetiva para a gestão e compartilhamento de seu acervo em plataformas abertas ao público. A parceria do Museu Paulista com o WMB é a maior parceria GLAM-wiki brasileira, contando com mais de 33 mil imagens e, desde 2019, mais de 104 milhões de visualizações (Views, 2023). A atuação do WMB para a integração da instituição com os projetos Wikimedia foi capaz de desenvolver diversas tecnologias e processos pioneiros, como relatado por Peschanski (2021) e Lima e Carvalho (2021). Essas inovações colocam esta entre as grandes parcerias de destaque do ecossistema Wikimedia.

A realização da retroalimentação de dados e metadados no Museu Paulista ainda é algo a ser explorado, principalmente depois da adoção de ferramentas que permitem a exploração e estruturação de informações na base local da instituição. É uma área promissora, que colocará o museu na vanguarda das instituições culturais que trabalham com conhecimento livre.

Bioinfo Brasil: mapeando bioinformatas brasileiros no Wikidata

O segundo estudo de caso apresentado é o do projeto Bioinfo Brasil, que descreve como um grupo de bioinformatas de diversas instituições brasileiras usou o Wikidata como plataforma para catalogar a bioinformática brasileira. O estudo destaca como iniciativas independentes podem utilizar o Wikidata para mapear áreas de pesquisa e gerar produtos de interesse acadêmico.

A plataforma do Wikidata tem como foco ser um repositório colaborativo de dados estruturados sobre diversas facetas que compõem a “soma do conhecimento humano” (Wikimedia [...], 2023). Assim como a Wikipédia, o Wikidata preza por fontes de qualidade que deem suporte ao conteúdo da plataforma[13]. Sendo um ambiente de dados estruturados, a comunidade começou a criar itens para cada referência na própria plataforma, permitindo uma rede de ligações internas de proveniência de informação.

Aos poucos, esse interesse pragmático em mapear referências se expandiu, e atores acadêmicos – como meta-cientistas e bibliotecários – começaram a enxergar essa modelagem de fontes como um produto em si. Diversas bibliotecas pelo mundo gradualmente incluem o Wikidata em seus sistemas de gerenciamento de bibliografia (Tharani, 2021), incluindo estudos pilotos por bibliotecas de universidades estadunidenses proeminentes, como Yale, Harvard e Princeton (Godby et al., 2019).

Em 2016, o Wikidata já incluía centenas de milhares de itens bibliográficos, além de itens para autores, instituições, revistas e outras entidades relacionadas à publicação científica. Nesse mesmo ano, se consolidou um grande projeto visando organizar as referências e citações nos projetos Wikimedia e, mais especificamente, “criar uma base de dados bibliográfica baseada no Wikidata”: o WikiCite[14] (Azeroual; Lewoniewski, 2020). O gatilho inicial do projeto foi um encontro em 2016, em Berlim, na Alemanha, com versões seguintes em Viena em 2017, Berkeley em 2018 e virtualmente em 2020. A série de eventos criou uma comunidade ativa, conectando pesquisadores interessados no tema e acelerando diversos projetos relacionados a dados bibliográficos no Wikidata (Wyatt et al., 2021).

Entre os projetos desenvolvidos no contexto do WikiCite, um de grande destaque é o Scholia[15], um projeto que visa gerar visualizações em tempo real das diversas dimensões cientométricas presentes no Wikidata (Nielsen; Mietchen; Willighagen, 2017). A plataforma do Scholia é constituída por uma série de buscas na linguagem SPARQL[16] que trazem visualizações de padrões para diferentes tipos de entidades (por exemplo, para organizações, pesquisadores e artigos específicos). Essas buscas são processadas por uma série de scripts em Python nos servidores da Fundação Wikimedia, provendo um serviço web para as pessoas interessadas em buscas cientométricas.


O WIKIDATA E A BIOINFORMÁTICA NO BRASIL

É nesse contexto que, em 2021, um dos autores (Tiago Lubiana), pesquisando o Wikidata na pós-graduação “Interunidades em Bioinformática” da USP (Lubiana, 2020), se interessou pelo potencial do Wikidata para organizar informações metacientíficas, ou seja, sobre os produtos acadêmicos, as organizações envolvidas e seus agentes. A partir disso, desenvolveu-se a ideia de modelar informações sobre pessoas brasileiras envolvidas com bioinformática – campo interdisciplinar que mistura biologia e programação.

Para iniciar o processo, o autor se juntou a dois estudantes de bioinformática com experiências prévias com Wikidata: João Vitor Cavalcante, da Universidade Federal do Rio Grande do Norte (UFRN), e Cristal Villalba, da Universidade Federal do Rio Grande do Sul (UFRGS). Os três criaram, juntos, um repositório para os códigos na plataforma do GitHub[17] e começaram a extrair e conectar ao Wikidata dados públicos sobre a bioinformática brasileira. Eles listaram os principais programas de pós-graduação na área do Brasil e montaram scripts para extrair de suas páginas os nomes dos docentes, as instituições e suas áreas de pesquisa. Nesse processo inicial, foram mapeados os dados do Programa de Pós-graduação em Biologia Molecular da UFRGS e os programas de pós-graduação em Bioinformática da Fundação Oswaldo Cruz carioca, da USP, da UFRN, da Universidade Federal de Minas Gerais (UFMG), da Universidade Federal do Paraná (UFPR) e da Universidade Tecnológica Federal do Paraná (UTFPR). Dessas sete instituições, extraíram-se os nomes de mais de 100 docentes da área, para, no Wikidata, serem adicionadas as afiliações e a área de estudo.

A reconciliação de tais informações ao Wikidata passou por duas etapas. Primeiro, os estudantes usaram a edição visual nativa da plataforma, que constitui entrar na interface web do Wikidata e adicionar manualmente as entidades de interesse e suas propriedades. Essa abordagem é flexível e permite adicionar novos itens e novas informações rapidamente, mas não é eficiente quando muitas alterações são necessárias. Para certas atividades, há ferramentas criadas que facilitam a edição em maior escala, essenciais para tratar as centenas de itens de interesse, e as milhares de modificações associadas.

Entre as ferramentas mais úteis para a execução do projeto, destacam-se duas: o Author Disambiguator[18] e o QuickStatements[19]. O Author Disambiguator é uma ferramenta específica para desambiguação em lote de nomes de autores no Wikidata, isto é, a troca de entradas com nomes literais como “Tiago Alves”, “Tiago Lubiana”, “Alves, T. L.” e afins por conexões diretas a itens de autores e seu identificador único, como “Q90076935”. Já o QuickStatements é uma ferramenta genérica de edição, que recebe arquivos de texto com uma sintaxe específica e faz a conversão em edições em lote. O serviço do Scholia, por exemplo, é capaz de gerar arquivos de texto no formato do QuickStatements para adicionar de forma simples (e sem precisar escrever código) artigos científicos no Wikidata.

A primeira etapa do projeto transcorreu ao longo do ano de 2021, em paralelo às demais atividades acadêmicas dos envolvidos. As ferramentas existentes foram complementadas com scripts em Python, para processamento de dados dos programas de pós-graduação e criação de comandos QuickStatements para edição em lote, algumas vezes editando o Wikidata diretamente, utilizando bibliotecas mais avançadas, como o WikidataIntegrator[20]. Os estudantes ainda criaram uma ferramenta própria – o PyOrcidator[21] –, que conecta currículos acadêmicos da base ORCID ao Wikidata.


DESENVOLVIMENTO NO MODELO DE HACKATHON

Em novembro de 2021, um dos autores (Tiago Lubiana) recebeu um prêmio da Fundação Shuttleworth no valor de 5 mil dólares, por indicação do professor Peter Murray-Rust, da Universidade de Cambridge, Inglaterra. O prêmio foi motivado pelas contribuições do pesquisador ao Wikidata, especialmente as feitas no contexto da pandemia de covid-19 e de sua atuação no WMB. A verba recebida não tinha restrição quanto ao uso, e Tiago decidiu, então, distribuir para outras pessoas atuando com conhecimento livre e acelerar o mapeamento da bioinformática brasileira no Wikidata. O estudante, então, contratou os colaboradores João Vitor Cavalcante e Cristal Villalba para a organização de uma hackathon virtual de dois dias, combinando treinamento de edição e discussões, além das modificações do Wikidata em si.

O evento ocorreu em 28 e 29 de julho de 2022 e contou com dez participantes, que receberam bolsas para participação virtual. Os participantes, estudantes de graduação e pós-graduação, eram afiliados a diversas instituições brasileiras, que, além das já envolvidas USP, UFRN e UFRGS, incluiu participantes da UTFPR e da Universidade Federal da Integração Latino-Americana. Cada participante escolheu uma faceta do projeto de mapeamento da bioinformática que lhe trouxesse maior interesse. As contribuições foram detalhadas em uma página de discussões dentro do Wikidata[22] e incluíram contribuições de código para o PyOrcidator, o mapeamento semântico de metadados de pacotes em R de bioinformática[23] e conexões com a plataforma de Dados Abertos da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes)[24], além do aumento da cobertura das informações sobre as instituições de origem. As modificações, juntas, incluíram a criação de milhares de novos itens representando produções acadêmicas (teses, artigos e softwares), com rica descrição estruturada.

Pela natureza do Wikidata, as contribuições feitas durante a hackathon ficaram disponíveis em tempo real, de forma permanente e sob domínio público. Para facilitar o acesso, foi montado um sítio web que mostra os resultados de diversas buscas escritas na linguagem SPARQL (The Landscape [...], 2023) (Figuras 2 e 3). Além da disponibilização no Wikidata, o trabalho foi reinserido no meio acadêmico. Uma parte do projeto, referente à modelagem de teses acadêmicas, foi apresentado no Simpósio de 20 anos do Programa de Bioinformática da USP, e outra parte foi apresentada no “Natal Bioinformatics Forum”, uma conferência internacional em Natal, Rio Grande do Norte, ambas com excelente recepção pelas comunidades acadêmicas presentes (Lubiana, 2023).

FIGURA 2 Mapa das afiliações passadas e presentes dos bioinformatas brasileiros

Esta página contém uma imagem. É necessário extraí-la e inserir o novo arquivo no lugar deste aviso. 


Fonte: The Landscape […] (2023).

FIGURA 3 Detalhe da rede de coautoria dos bioinformatas brasileiros[25]

Esta página contém uma imagem. É necessário extraí-la e inserir o novo arquivo no lugar deste aviso. 


Fonte: The Landscape […] (2023).


INFERÊNCIAS SOBRE O PROJETO

Esse estudo de caso difere dos outros neste capítulo por ter sido originado por um grupo independente de estudantes, interessados pela organização de informações. Ele visa ilustrar como a estrutura do Wikidata acata tanto iniciativas institucionais quanto iniciativas de base, formadas por indivíduos motivados. A infraestrutura da plataforma, por sua flexibilidade e abertura, pode ser utilizada para desenvolvimento de atividades com impacto acadêmico e repercussões que transcendem a plataforma. A estruturação e mapeamento dos diversos aspectos da bioinformática brasileira no Wikidata apresentam o potencial de inspirar outros grupos, pesquisadores e cientistas a enveredar pelo mesmo caminho e assim aumentar a cobertura da ciência brasileira na internet.

 

O perfil institucional do Centro de Pesquisa, Inovação e Difusão em Neuromatemática (Cepid NeuroMat)

O terceiro estudo de caso apresentado é o do projeto do Cepid NeuroMat. Ele descreve o processo de estruturação, inserção e visualização de dados bibliográficos de publicações acadêmicas desse centro de pesquisa no Wikidata, destacando as possibilidades de inferência sobre o perfil acadêmico da instituição.

O Cepid NeuroMat é um centro universitário de pesquisa científica da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp) voltado ao desenvolvimento e aplicação da neuromatemática nos estudos do cérebro e neurociência. O centro de pesquisas é um defensor do conhecimento livre e da ciência aberta. Uma das ações necessárias para o acompanhamento do impacto e difusão da instituição é a criação de mecanismos que possibilitem a visualização, acesso, enriquecimento e documentação de dados e metadados sobre a sua produção de publicações acadêmicas (Santos, 2019). Alguns dos dados e metadados de interesse dessas publicações são “autor”, “periódico” e “palavra-chave”, e diversas são as plataformas que indexam publicações acadêmicas e listam informações desse tipo. O ambiente dinâmico do Wikidata permite que sejam registrados e disponibilizados livremente esses e uma outra gama ampla de dados e metadados sobre a produção científica de uma instituição e os conceitos que a permeiam, como, por exemplo, a classificação de periódicos acadêmicos, informações sobre direitos autorais, afiliações presentes e passadas de autores.

Parte fundamental da motivação por trás da criação desses mecanismos é a avaliação da evolução dos trabalhos científicos da instituição, de modo que se possa fazer inferências sobre as conexões entre publicações, autores e instituições. O Cepid NeuroMat utiliza o Google Scholar (GS) como ferramenta de organização do perfil acadêmico da instituição e exportação de métricas bibliográficas de relatório. O perfil é constituído como uma listagem de artigos reconhecidos como parte da produção do instituto. Contudo, o gerenciador possui bastante rigidez no uso e acesso aos dados e metadados e possui poucas possibilidades de criação de consultas especializadas para análise da produção, sendo a principal métrica oferecida o índice h (Mingers; O’hanley; Okunola, 2017). De modo geral, existem diversas limitações para realizar consultas personalizadas nos serviços existentes de gerenciamento de dados bibliográficos como o GS, o Semantic Scholar, o Microsoft Academic e o Scopus (Martín-Martín et al., 2021).

No projeto do Cepid NeuroMat, explorou-se a utilização do Wikidata como uma plataforma aberta, livre e colaborativa que permite a publicação de dados e metadados em domínio público em contraste com sistemas fechados e proprietários de publicação acadêmica tradicionais. Esse trabalho destacou os recursos do Wikidata e dos dados estruturados vinculados para estimular inferências sobre a pesquisa do Cepid NeuroMat e a documentação de sua evolução, em que se destaca o papel do Wikidata como plataforma potente para sanar demandas específicas às instituições de pesquisa do Sul Global (Zhitomirsky-Geffet; Minster, 2022).

O objetivo principal do projeto é a criação do perfil institucional acadêmico do centro de pesquisas no Wikidata para apresentar uma narrativa acadêmica da instituição. Essa ação é definida como o processo de estruturação de dados sobre trabalhos acadêmicos por meio de metadados relacionados ao histórico intelectual institucional (Vught; Huisman, 2014).


USANDO O WIKIDATA PARA ESTRUTURAÇÃO DE PERFIS INSTITUCIONAIS E DADOS ACADÊMICOS

A metodologia desse projeto se divide em três fases. A primeira é a fase de estruturação dos dados e metadados das publicações acadêmicas, em que se define todas as etapas do método de estruturação semântica das informações acadêmicas do Cepid NeuroMat no Wikidata, automatizada sempre que possível. A segunda fase envolve um processo de vinculação dos metadados que precisam ser inseridos ou refinados antes de serem associados às publicações no Wikidata. Já a última apresenta uma análise de indicadores bibliométricos com base no potencial da plataforma do Wikidata.

Para registrar e/ou enriquecer os dados bibliográficos no Wikidata relacionados às pesquisas científicas publicadas pelo NeuroMat, adaptou-se o processo de ingestão de dados e metadados de publicações acadêmicas na plataforma proposto por Peschanski (2021), conforme ilustrado na Figura 4.

Uma vez que um artigo ou publicação produzida por pesquisadores vinculados ao Cepid NeuroMat é publicada por uma publicação científica, esta é indexada no perfil institucional do centro de pesquisa no Google Scholar. Em seguida, a partir de seu identificador bibliográfico, é possível inseri-la em uma biblioteca no Zotero[26], que é uma plataforma de gerenciamento bibliográfico que possibilita a geração de uma referência em diversos formatos, incluindo um recurso de tradução da ferramenta para o Wikidata, através de um script – chamado de tradutor – que cria comandos QuickStatements com declarações sobre as publicações selecionadas (Ray; Ramesh, 2017).

FIGURA 4 Fluxo de registro de publicações acadêmicas do Cepid NeuroMat no Wikidata

Fonte: adaptada de Alves, Burley e Peschanski (2021).

Um passo importante da abordagem adotada pelo projeto do Cepid NeuroMat foi a adaptação desse tradutor para aprimorar o mapeamento e a completude dos dados presentes no Zotero, mas que não eram “wikidatificados” pelo script, como os identificadores únicos do Wikidata dos autores, jornais e revistas de publicação e temas de pesquisa. O procedimento de “wikidatificar” se refere à formatação de dados e metadados em padrões específicos seguindo sua natureza para serem registrados na plataforma do Wikidata. A configuração do script permitiu mapear de forma mais eficiente metadados descritos de forma textual a identificadores estruturados na plataforma importantes da produção bibliográfica do centro de pesquisas. É importante ressaltar que essa adaptação não é um procedimento que wikidatifica esses tipos de metadados para toda e qualquer publicação acadêmica, mas sim para aquelas do centro de pesquisa, e se baseia inteiramente nos valores previamente reconciliados e inseridos na forma de dicionários controlados dentro do script adaptado para o Cepid NeuroMat.

A reconciliação de dados e seus respectivos metadados é um processo que visa garantir a integridade semântica entre informações presentes em dois ou mais bancos de dados, nesse caso, o tradutor do Zotero com os dicionários controlados e o Wikidata. Por exemplo, em um artigo cujo autor é homônimo a outro exige que seja decidido qual é o autor correto do artigo e isso é feito consultando-se o banco de dados do Wikidata em busca de possíveis duplicatas de itens, investigando suas relações e decidindo se é a mesma entidade que se está tentando encontrar ou se é outra semelhante, mas distinta (Alves; Burley; Peschanski, 2021). Da mesma forma, garantir que o item de um artigo não seja duplicado faz parte do processo de reconciliação. No caso das publicações do Cepid NeuroMat, foi adicionado a cada uma no Wikidata a propriedade “parte de” (P361)[27], com valor “NeuroMat” (Q18477654)[28], além de seus identificadores únicos (DOI, ISBN, PMIDs e arXiv IDs), de modo a facilitar a identificação das publicações cujos itens já tivessem sido criados na plataforma.

INCREMENTANDO A CAPACIDADE DE DESCOBERTA ATRAVÉS DOS METADADOS DE PUBLICAÇÕES ACADÊMICAS VIA WIKIDATA

É possível melhorar a indexação e a descoberta on-line de uma publicação acadêmica através do aperfeiçoamento da vinculação de seus metadados bibliográficos. Os metadados são essenciais para aprimorar a organização e acesso à informação em ambientes digitais (Sigalov; Nachmias, 2023). Metadados estruturados e relacionados à produção científica auxiliam na minimização do risco de informações duplicadas e maximizam a probabilidade de persistência e acessibilidade dos dados (Yang et al., 2023).

O Wikidata possui um poderoso serviço de consulta ao seu banco de dados chamado Wikidata Query Service[29], o qual permite a recuperação e visualização das informações em diferentes formatos e pode ser integrado a outros softwares e páginas na internet. Um exemplo dessa integração é o Scholia, mencionado na seção 3. O perfil acadêmico do Cepid NeuroMat no Scholia[30] disponibiliza diversas consultas predefinidas, atualizadas automaticamente, que permitem diversas inferências sobre o perfil organizacional da instituição.


ANALISANDO E VISUALIZANDO AS PUBLICAÇÕES E METADADOS INSTITUCIONAIS USANDO O WIKIDATA

Com base nas consultas apresentadas no perfil Scholia do centro de pesquisas e no trabalho de Alves, Burley e Peschanski (2021), foi criada uma página web que utiliza modelos de narrativas estruturadas com informações extraídas do Wikidata, isto é, processa os dados do banco de dados colaborativo e os insere em textos verbais automatizados a partir de moldes pré-determinados (Azzellini; Peschanski; Paixão, 2019). Essa página chama-se “Vitrine NeuroMat”[31] e tem como objetivo sintetizar e expor a história da instituição, mostrando o impacto e relevância das pesquisas, colaborações nacionais e internacionais e apresenta inferências estatísticas e suas interpretações. As informações presentes nela, até então disponíveis somente em português, são atualizadas automaticamente assim que qualquer mudança é realizada no Wikidata.

Para além das propriedades específicas aos artigos e publicações do Cepid NeuroMat, houve a inserção no Wikidata de propriedades relacionadas às revistas e jornais onde houve a publicação de tais artigos e propriedades relacionadas aos autores filiados à instituição. Do primeiro tipo, destaca-se a propriedade “Classificação Qualis” (P9683)[32] que está de acordo com o sistema de classificação Quadriênio 2017-2020 (Qualis/Capes adota Quadriênio 2017-2020 oficialmente como nova metodologia de avaliação de revistas, 2023). Essa classificação é mantida pela Capes para avaliação de periódicos acadêmicos locais e internacionais e é referência para a avaliação dos programas de pós-graduação denominados stricto sensu no Brasil. O modelo de classificação do Qualis está em constante evolução e utiliza três indicadores bibliométricos em sua classificação: o “Cite score”, o “Fator de impacto” e o “Índice h5” (Brasil, 2023). A classificação varia das mais altas (em ordem decrescente, A1, A2, A3 e A4) às mais baixas (em ordem decrescente, B1, B2, B3, B4 e C) e é dependente da área de pesquisa do periódico, isto é, uma mesma revista pode ter diferentes classificações para Matemática/Probabilidade e Estatística e Ciência da Computação. No caso do Cepid NeuroMat, a Figura 5 ilustra as classificações dos periódicos que abrigam publicações do centro de pesquisa – geralmente na área de Matemática/ Probabilidade e Estatística – para o caso do Cepid NeuroMat que correspondente à área da matemática na Figura 5. Do segundo tipo, destaca-se a propriedade “Identificador Lattes” (P1007)[33]. Associada a cada autor filiado ao NeuroMat, essa propriedade complementa os dados e o conecta a outros bancos de dados estruturados pertinentes. A Plataforma Lattes[34] – projeto do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) – integra diversas bases curriculares, grupos de pesquisa, instituições de ciência e tecnologia em um único sistema de operação que opera no Brasil.

FIGURA 5 Número de publicações acadêmicas do Cepid NeuroMat por tipo de classificação Qualis do periódico

Fonte: adaptada de Suca (2023).


Através do Wikidata, é possível realizar inferências sobre a produção científica do Cepid NeuroMat, principalmente a partir das competências gráficas, que é uma vantagem em comparação ao Google Scholar. Um exemplo é a visualização do grafo de citações das publicações do centro de pesquisa para outras publicações da própria instituição, em particular o primeiro artigo publicado, em 2013, intitulado “Sistemas infinitos de cadeias em interação com memória de alcance variável – um modelo estocástico para redes neurais biológicas”[35], de Antonio Galves e Eva Löcherbach. A Figura 6 mostra um grafo de citações internas em que cada vértice é colorido de acordo com uma escala de citações internas recebidas pela publicação do vértice; vermelho indica publicações com nenhuma citação, seguido do laranja, com uma citação, e assim, em uma escala crescente de amarelo, verde, turquesa, azul e azul marinho até o roxo.

FIGURA 6 Grafo de citações internas do NeuroMat do artigo de Galves e Löcherbach considerado a base da investigação do centro de pesquisa

Fonte: adaptada de Wikipédia [...] (2021).


Na Figura 7, é possível ver um grafo de coautores, representando as diversas redes colaborativas dentro do Cepid NeuroMat. Os vértices do grafo representam autores com interesses científicos específicos e as setas ligando-os evidenciam uma rede multidisciplinar de áreas de pesquisa. O grafo é colorido de acordo com o tipo de associação do autor: os vértices em laranja possuem apenas afiliações internacionais e em verde possuem pelo menos uma conexão brasileira. No geral, esses números oferecem um vislumbre valioso das redes colaborativas de autores e citações, o que fornece análises úteis sobre pesquisadores, instituições e partes interessadas que participam do trabalho do Cepid NeuroMat.

FIGURA 7 Grafo de perfis dos pesquisadores do Cepid NeuroMat de acordo com as instituições a que são afiliados

Esta página contém uma imagem. É necessário extraí-la e inserir o novo arquivo no lugar deste aviso. 


Fonte: adaptada de Wikipédia [...] (2021).


CONSIDERAÇÕES SOBRE DADOS BIBLIOGRÁFICOS NO WIKIDATA

Esse caso demonstra as atividades desenvolvidas por uma instituição acadêmica preocupada com o gerenciamento e análise de sua produção científica. O uso do Wikidata como plataforma para armazenar essas informações bibliográficas ocorreu pois a plataforma é uma estrutura inteligente e potente de consulta e organização de informações, permitindo o enriquecimento das relações entre dados e metadados acadêmicos, além da integração com outros identificadores bibliográficos. O amadurecimento dos modelos de dados baseado na Web Semântica e sua infraestrutura colaborativa, além da disponibilidade de ferramentas abertas, permitem que as informações sejam facilmente integradas à plataforma.

De maneira gratuita e aberta, o Wikidata possibilita a construção de diversos indicadores bibliométricos, como rede de coautores, rede de citações e qualidade dos periódicos, além de permitir personalizar outras inferências sobre a produção científica de uma instituição como o Cepid NeuroMat.

 

Conclusões

Diversas são as maneiras de se preservar e difundir o conhecimento cultural e científico no ambiente digital. Existem vantagens e desafios envolvidos na escolha das plataformas digitais em que são armazenados o conhecimento científico e cultural.

Este capítulo apresentou os contextos, processos e motivações de três iniciativas que utilizaram o Wikidata como infraestrutura sociotécnica potente para a preservação e difusão do conhecimento cultural e científico no ambiente digital, no que se destacaram as ferramentas desenvolvidas e os processos criados de maneira colaborativa e inspirados nas melhores práticas das comunidades interessadas em cada um dos temas.

No primeiro estudo de caso, descrevemos o histórico da infraestrutura técnica adotada na parceria do WMB com o Museu Paulista, além de apresentar um fluxograma de como o esforço dos editores dos projetos Wikimedia pode ser reaproveitado pela instituição. No segundo estudo de caso, registramos a memória da iniciativa Bioinfo Brasil, na qual um grupo de editores voluntários, incluindo membros do WMB, utilizou o Wikidata como ferramenta de catalogação de pesquisadores brasileiros no campo da bioinformática.

No terceiro e último estudo de caso, apresentamos o processo de criação no Wikidata do perfil bibliográfico institucional do Cepid NeuroMat, parceiro de longa data e projeto incubador do WMB, destacando o potencial de inferência que o Wikidata proporciona de forma gratuita e aberta.

A melhoria da informação que ocorre nos projetos Wikimedia, em particular no Wikidata, tem impacto nas áreas de conhecimento dessas informações. Um primeiro impacto é a contribuição para o cumprimento da missão institucional de difusão do conhecimento sob a guarda de instituições como o Museu Paulista e o Cepid NeuroMat. Um segundo impacto é o fomento e engajamento orgânico de comunidades científicas nos próprios projetos Wikimedia. Por fim, um terceiro impacto potencial é a possibilidade de se criar, de forma livre, gratuita e independente de plataformas proprietárias, visualizações e inferências sobre diferentes áreas do conhecimento.

 

Referências

ALVES, É. P. F. Diagrama de retroalimentação de metadados - Museu do Ipiranga.png. In: WIKIMEDIA COMMONS: the free media repository. [San Francisco, CA: Wikimedia Foundation, 2021]. Disponível em: https://w.wiki/Aw3g. Acesso em: 14 set. 2023.
ALVES, É. P. F. et al. Proposta técnica para a retroalimentação de metadados do Museu Paulista. São Paulo: Wiki Movimento Brasil, 2021.
ALVES, É. P. F. et al. The Technical Infrastructure of Cultural Initiatives on Wikimedia: Three Case Studies From Brazil. ESSACHESS: Journal for Communication Studies, Les Arcs, v. 15, n. 1, p. 127-151, 2022. Disponível em: https://doi.org/10.21409/QJSC-BK48. Acesso em: 14 set. 2023.
ALVES, É. P. F.; BURLEY, P. R.; PESCHANSKI, J. A. Structuring bibliographic references: Taking the journal Anais do Museu Paulista to Wikidata. In: BRIDGES, L. M.; PUN, R.; ARTEAGA, R. A. (org.). Wikipedia and Academic Libraries. [Michigan]: Michigan Publishing, 2021. p. 260-276. Disponível em: https://doi.org/10.3998/mpub.11778416.ch17.en. Acesso em: 14 set. 2023.
ANÁLISE de visualizações de página. Pageviews Analysis, [s. l.], 2023. Disponível em: https://pageviews.wmcloud.org/siteviews/?platform=all-access&source=pageviews&agent=all-agents&start=2023-04&end=2023-04&sites=wikidata.org%7Ccommons.wikimedia.org. Acesso em: 14 set. 2023.
AZEROUAL, O.; LEWONIEWSKI, W. How to Inspect and Measure Data Quality about Scientific Publications: Use Case of Wikipedia and CRIS Databases. Algorithms, [s. l.], v. 13, n. 5, p. 1-18, 2020. Disponível em: https://doi.org/10.3390/a13050107. Acesso em: 14 set. 2023.
AZZELLINI, É. C.; PESCHANSKI, J. A. Abrindo o acervo de um museu fechado no Brasil. Open GLAM, [s. l.], 11 set. 2020. Disponível em: https://medium.com/open-glam/abrindo-o-acervo-de-um-museu-fechado-no-brasil-9718e1f8f18e. Acesso em: 14 set. 2023.
AZZELLINI, É. C.; PESCHANSKI, J. A.; PAIXÃO, F. J. da. As potencialidades de narrativas estruturadas para o Jornalismo Computacional: competências jornalísticas na elaboração de textos gerados com bancos de dados. Texto Livre: linguagem e tecnologia, Belo Horizonte, v. 12, n. 1, p. 138-152, jan./abr. 2019. Disponível em: https://doi.org/10.17851/1983-3652.12.1.138-152. Acesso em: 14 set. 2023.
BRASIL. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior. Documento Técnico do QUALIS Periódicos. Brasília, DF: CAPES, 2023. Disponível em: https://www.gov.br/capes/pt-br/centrais-de-conteudo/documentos/avaliacao/avaliacao-quadrienal-2017/DocumentotcnicoQualisPeridicosfinal.pdf. Acesso em: 14 set. 2023.
CASOS de uso do Tainacan. Tainacan, [s. l.], 15 set. 2023. Disponível em: https://tainacan.org/casos-de-uso-do-tainacan. Acesso em: 14 set. 2023.
COSTA, C. Conheça o acervo do Museu do Ipiranga disponível em nova plataforma on-line. Jornal da USP, São Paulo, 1 fev. 2023. Disponível em: https://jornal.usp.br/universidade/conheca-o-acervo-do-museu-do-ipiranga-disponivel-em-nova-plataforma-on-line/. Acesso em: 14 set. 2023.
DITTRICH, J. Research Report: Use of Wikidata in GLAM institutions. In: WIKIMEDIA COMMONS. [San Francisco, CA: Wikimedia Foundation, 2019]. Disponível em: https://w.wiki/Aw3y. Acesso em: 14 set. 2023.
FAUCONNIER, S. Data Roundtripping: a new frontier for GLAM-Wiki collaborations. Diff, [s. l.], 13 dez. 2019. Disponível em: https://diff.wikimedia.org/2019/12/13/data-roundtrippinga-new-frontier-for-glam-wiki-collaborations/. Acesso em: 14 set. 2023.
GODBY, J. et al. Creating Library Linked Data with Wikibase: Lessons Learned from Project Passage. OCLC Research, Ohio, 2019. Disponível em: https://www.oclc.org/research/publications/2019/oclcresearch-creating-library-linked-data-with-wikibase-projectpassage.html. Acesso em: 14 set. 2023.
HALFAKER, A.; GEIGER, R. S. ORES: Lowering Barriers with Participatory Machine Learning in Wikipedia. Proceedings of the ACM on Human-Computer Interaction, New York, v. 4, n. 148, p. 1-37, 2020. Disponível em: https://doi.org/10.1145/3415219. Acesso em: 14 set. 2023.
INICIATIVA Wikipédia Novo Museu do Ipiranga - 2020. In: WIKIMEDIA COMMONS: the free media repository. [San Francisco, CA: Wikimedia Foundation, 2020]. Disponível em: https://w.wiki/kzs. Acesso em: 14 set. 2023.
INICIATIVA Wikipédia Novo Museu do Ipiranga - 2021. In: WIKIMEDIA COMMONS: the free media repository. [San Francisco, CA: Wikimedia Foundation, 2021a]. Disponível em: https://w.wiki/3fC8. Acesso em: 14 set. 2023.
LIMA, S. F. de. Ratificação para carregamento de imagens cedidas pelo Museu Paulista da USP no Wikimedia Commons utilizando licenças livres. Museu Paulista da USP, São Paulo, 2017. Disponível em: https://web.archive.org/web/20190217080847/http://www.mp.usp.br/chamadas/ratificacao-para-carregamento-de-imagens-cedidas-pelo-museu-paulistada-usp-no-wikimedia-co. Acesso em: 14 set. 2023.
LIMA, S. F. de; CARVALHO, V. C. de. As Dinâmicas da Pesquisa com Coleções em um Museu Universitário. In: SIMPÓSIO NACIONAL DE HISTÓRIA, 31., 2021, Rio de Janeiro. Anais [...]. Rio de Janeiro: [s. n.], 2021. Disponível em: https://anpuh.org.br/uploads/anais-simposios/pdf/2024-10/1728975600_c2df42aae7ae87d51be350c5fa08da52.pdf. Acesso em: 14 set. 2023.
LUBIANA, T. Criando um grafo de conhecimento biológico através do Wikidata com foco no projeto Human Cell Atlas. [S. l.], 2020. Disponível em: https://bv.fapesp.br/pt/bolsas/193825/criando-um-grafo-de-conhecimento-biologico-atraves-do-wikidata-comfoco-no-projeto-human-cell-atlas/. Acesso em: 14 set. 2023.
LUBIANA, T.; CAVALCANTE, J. V.; NAKAYA, H. A Knowledge Graph of the Natal Bioinformatics Forum 2023 Speakers on Wikidata. [Natal], 2023. Disponível em: https://bioinfo.imd.ufrn.br/nbf/doc/poster_sessions.pdf. Acesso em: 14 set. 2023.
MARTÍN-MARTÍN, A. et al. Google Scholar, Microsoft Academic, Scopus, Dimensions, Web of Science, and OpenCitations’ COCI: a multidisciplinary comparison of coverage via citations. Scientometrics, [Cham], v. 126, n. 1, p. 871-906, 2021. Disponível em: https://doi.org/10.1007/s11192-020-03690-4. Acesso em: 14 set. 2023.
MINGERS, J.; O’HANLEY, J. R.; OKUNOLA, M. Using Google Scholar institutional level data to evaluate the quality of university research. Scientometrics, [Cham], v. 113, n. 3, p. 1627-1643, 2017. Disponível em: https://doi.org/10.1007/s11192-017-2532-6. Acesso em: 14 set. 2023.
MOVEMENT Strategy. In: WIKIMEDIA META-WIKI: discussion about Wikimedia projects. [San Francisco, CA: Wikimedia Foundation, 2021]. Disponível em: https://w.wiki/3RvJ. Acesso em: 14 set. 2023.
MUSEU Paulista Digital | EP. 4. [S. l.: s. n.], 2023. 1 vídeo (1 min). Publicado pelo canal Museu do Ipiranga. Disponível em: https://www.youtube.com/watch?v=JDOB5WjgICs. Acesso em: 14 set. 2023.
NIELSEN, F. Å.; MIETCHEN, D.; WILLIGHAGEN, E. Scholia, Scientometrics and Wikidata. The Semantic Web: ESWC 2017 Satellite Events, Cham, p. 237-259, 2017. Disponível em: https://doi.org/10.1007/978-3-319-70407-4_36 Acesso em: 14 set. 2023.
ONO, R.; LIMA, S. F. de. O Novo Museu do Ipiranga no Bicentenário da Independência do Brasil. Instituto Martius-Staden, Panamby, 2022. Disponível em: https://www.martiusstaden.org.br/images/conteudo/269_261022_93434.pdf. Acesso em: 14 set. 2023.
ONO, R.; OLIVEIRA, A. J. de. O Museu do Ipiranga de volta para a sociedade. Jornal da USP, São Paulo, 2 set. 2022. Disponível em: https://jornal.usp.br/artigos/o-museu-do-ipiranga-de-volta-para-a-sociedade/. Acesso em: 14 set. 2023.
PESCHANSKI, J. A. Variedades de processos de difusão digital colaborativa: descrição e análise de iniciativas GLAM-Wiki no Brasil. Resgate: revista interdisciplinar de cultura, Campinas, v. 29, p. 1-28, 2021. Disponível em: https://doi.org/10.20396/resgate.v29i1.8659966. Acesso em: 14 set. 2023.
QUALIS/CAPES Adota quadriênio 2017-2020 oficialmente como nova metodologia de avaliação de revistas. ABCD USP, São Paulo, 2023. Disponível em: https://www.abcd.usp.br/noticias/qualis-lanca-avaliacao-quadrienio-2017-2020-para-revistas-cientificas/. Acesso em: 14 set. 2023.
RAY, A. K.; RAMESH, D. B. Zotero: Open Source Citation Management Tool for Researchers. International Journal of Library and Information Studies, London, v. 7, n. 3, p. 238-245, 2017. Disponível em: https://www.ijlis.org/articles/zotero-open-source-citation-managementtool-for-researchers.pdf. Acesso em: 14 set. 2023.
SANTOS, J. C. F. dos. A ciência aberta e suas (re)configurações: políticas, infraestruturas e prática científica. 2019. Tese (Doutorado em Política Científica e Tecnológica) – Universidade Estadual de Campinas, Campinas, 2019. Disponível em: https://doi.org/10.47749/T/UNICAMP.2019.1083089. Acesso em: 14 set. 2023.
SIGALOV, S. E.; NACHMIAS, R. Investigating the potential of the semantic web for education: Exploring Wikidata as a learning platform. Education and Information Technologies, [Dordrecht], v. 28, p. 12565-12614, 2023. Disponível em: https://doi.org/10.1007/s10639-023-11664-1. Acesso em: 14 set. 2023.
SPECIAL:Statistics. In: WIKIDATA. [San Francisco, CA: Wikimedia Foundation, 2023a]. Disponível em: https://w.wiki/8gna. Acesso em: 14 set. 2023.
SPECIAL:Statistics. In: WIKIMEDIA COMMONS: the free media repository. [San Francisco, CA: Wikimedia Foundation, 2023b]. Disponível em: https://w.wiki/7Z8$. Acesso em: 14 set. 2023.
SUCA, E. G. Número de publicações do CEPID NeuroMat ao longo dos anos por
classificação Qualis dos periódicos de publicação. [S. l.], 2023. Disponível em: https://w.wiki/Aw5s. Acesso em: 14 set. 2023.
THARANI, K. Much more than a mere technology: A systematic review of Wikidata in libraries. The Journal of Academic Librarianship, [s. l.], v. 47, n. 2, p. 1-8, 2021. Disponível em: https://doi.org/10.1016/j.acalib.2021.102326. Acesso em: 14 set. 2023.
THE LANDSCAPE of Brazilian bioinformatics. [S. l.], 2023. Disponível em: https://lubianat.github.io/bioinfo_brasil/dashboard. Acesso em: 14 set. 2023.
TROKHYMOVYCH, M. et al. Fair multilingual vandalism detection system for Wikipedia. arXiv, [s. l.], 2023. Disponível em: http://arxiv.org/abs/2306.01650. Acesso em: 14 set. 2023.
VIEWS. GLAM Wiki Dashboard, [s. l.], 2023. Disponível em: https://glamwikidashboard.wmcloud.org/MPUSP/page-views. Acesso em: 14 set. 2023.
VUGHT, F. V.; HUISMAN, J. Institutional Profiles: Some Strategic Tools. Tuning Journal for Higher Education, Bilbao, v. 1, n. 1, p. 21-36, 2014. Disponível em: https://doi.org/10.18543/tjhe-1(1)-2013pp21-36. Acesso em: 14 set. 2023.
WIKIDATA Lab XXIX: Roundtripping process. In: WIKIMEDIA COMMONS: the free media repository. [San Francisco, CA: Wikimedia Foundation, 2021]. Disponível em: https://w.wiki/Aw67. Acesso em: 14 set. 2023.
WIKIDATA:COPYRIGHT. In: WIKIPÉDIA: a enciclopédia livre. [San Francisco, CA: Wikimedia Foundation, 2021]. Disponível em: https://w.wiki/Aw68. Acesso em: 14 set. 2023.
WIKIMEDIA ISRAEL. GLAM Wiki Dashboard: Museu Paulista da Universidade de São Paulo. [S. l.], 2023. Disponível em: https://glamwikidashboard.wmcloud.org/MPUSP/page-views. Acesso em: 14 set. 2023.
WIKIMEDIA vision. Wikimedia Foundation, San Francisco, 2023. Disponível em: https://wikimediafoundation.org/about/vision. Acesso em: 14 set. 2023.
WIKIPÉDIA:GLAM/CEPID NeuroMat/Pesquisa. In: WIKIPÉDIA: a enciclopédia livre. [San Francisco, CA: Wikimedia Foundation, 2021]. Disponível em: https://w.wiki/Aw6C. Acesso em: 14 set. 2023.
WYATT, L. et al. WikiCite 2020-2021: Citations for the sum of all human knowledge. Zenodo, [s. l.], 2021. Disponível em: https://doi.org/10.5281/zenodo.5363757. Acesso em: 14 set. 2023.
YANG, P. et al. Open Access Improves the Dissemination of Science: Insights from Wikipedia. arXiv, [s. l.], 2023. Disponível em: https://doi.org/10.48550/ARXIV.2305.13945. Acesso em: 14 set. 2023.
ZHITOMIRSKY-GEFFET, M.; MINSTER, S. Cultural information bubbles: A new approach for automatic ethical evaluation of digital artwork collections based on Wikidata. Digital Scholarship in the Humanities, [s. l.], v. 38, n. 2, p. 891-911, 2022. Disponível em: https://doi.org/10.1093/llc/fqac076. Acesso em: 14 set. 2023.

 

  1. O presente trabalho foi realizado com apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), sob os processos nº 2013/07699-0 (Erika Guetti Suca) e nº 2019/26284-1 (Tiago Lubiana).
  2. Do inglês, Galleries, Libraries, Archives & Museums, ou Galerias, Bibliotecas, Arquivos e Museus, em português, e wiki.
  3. Ver em: https://w.wiki/AzZD.
  4. A reconciliação é um processo que visa garantir a integridade semântica entre dados e metadados presentes em dois ou mais bancos de dados.
  5. Também chamado crowdsourcing, em inglês.
  6. Ver em: https://tainacan.org.
  7. “GLAM-Wiki roundtripping is extremely powerful, especially for museums that are undergoing the enormous task of normalizing and integrating their linked open data sets. We are seeing GLAM institutions engage with structured Wikimedia content in a way that was not possible even six or seven years ago. It is realizing the promise of the semantic web as originally envisioned by Tim Berners-Lee as a rich dialogue of databases reinforcing and improving each other”.
  8. Ver em: https://query.wikidata.org.
  9. Ver em: https://commons-query.wikimedia.org.
  10. Do inglês, “Application Programming Interface”. Uma API é um ponto de acesso em um software para outros softwares poderem utilizá-lo de forma simplificada.
  11. Ver em: https://w.wiki/Ax2K.
  12. Do inglês, “Objective Revision Evaluation Service”.
  13. Detalhes sobre fontes no Wikidata estão disponíveis em: https://w.wiki/Ax2J.
  14. Mais detalhes sobre esse projeto estão disponíveis em: http://wikicite.org.
  15. Ver em: https://scholia.toolforge.org.
  16. SPARQL é um acrônimo recursivo para “Protocolo e Linguagem de Consulta RDF SPARQL” ou, em inglês, SPARQL Protocol And RDF Query Language.
  17. Ver em: https://github.com/lubianat/bioinfo_brasil.
  18. Ver em: https://author-disambiguator.toolforge.org.
  19. Ver em: https://quickstatements.toolforge.org.
  20. Ver em: https://github.com/SuLab/WikidataIntegrator.
  21. Ver em: https://github.com/lubianat/pyorcidator.
  22. Ver em: https://w.wiki/Ax2F.
  23. Ver em: https://github.com/jvfe/biosoftware2wikidata.
  24. Ver em: https://dadosabertos.capes.gov.br.
  25. Gráfico mostrando um detalhe da rede de coautoria dos bioinformatas brasileiros catalogados no Wikidata, destacando uma alta conectividade da comunidade da USP. As imagens dos pesquisadores são exibidas sempre que disponíveis sob uma licença aberta no Wikimedia Commons. Para pesquisadores sem imagens, o vértice é colorido de acordo com o gênero registrado no Wikidata: verde para mulheres e laranja para homens. Pessoas com outros gêneros ou com essa informação faltante aparecem com um vértice de cor branca no grafo.
  26. Ver em: https://www.zotero.org.
  27. Ver em: https://w.wiki/zD.
  28. Ver em: https://w.wiki/AzZ7.
  29. Ver em: https://query.wikidata.org.
  30. Ver em: https://scholia.toolforge.org/organization/Q18477654.
  31. Ver em: https://vitrine.numec.prp.usp.br.
  32. Ver em: https://w.wiki/AzZE.
  33. Ver em: https://w.wiki/AzZF.
  34. Ver em: https://lattes.cnpq.br.
  35. Ver em: https://w.wiki/AzZ8.