A Wikimedia no Brasil/XV
Linked Data com Wikipédia e Wikidata
REDUZINDO OS SILOS DE INFORMAÇÃO NA WEB COM NOTÍCIAS SOBRE MÚSICA EM PERIÓDICOS OITOCENTISTAS (MPO)[1]
cláudio josé silva ribeiro
martha tupinambá de ulhôa
Introdução
Podemos afirmar que, tanto para conjuntos de dados estruturados quanto para não estruturados, existe quantidade crescente de conteúdo digital disponível na web. A explosão documental no século XXI, motivada pela Segunda Guerra Mundial, teve seu foco deslocado e passou a ser considerada como explosão informacional. Essa última impulsionou para posição de destaque o insumo básico na geração da informação: o dado. A noção de avalanche de dados, ou ainda data deluge, é alvo de discussões frequentes no contexto de inúmeras áreas de conhecimento. A ciência orientada aos dados de pesquisa está em processo de consolidação envolvendo a atuação de agências de fomento, instituições de pesquisa e universidades.
É nesse sentido que nosso trabalho se desenvolve, pois a pesquisa sobre música, assim como em qualquer área do conhecimento (Sayão; Sales, 2015), produz uma quantidade grande de dados primários com potencial para reutilização pela comunidade acadêmica. Isso acontece porque apenas algumas informações coletadas são citadas nos textos publicados e quando aparecem num volume maior são geralmente consolidadas em tabelas e gráficos. Na maioria das vezes, o conjunto de dados fica armazenado em anexos de dissertações e teses ou em mídias fadadas a se tornarem obsoletas.
Desde meados dos anos 1980, com o computador e, mais tarde, a internet, muitos projetos em música incluíam o armazenamento de informações e a construção de um “banco de dados”, aspirando disponibilizar o conjunto de subsídios coletados on-line. No entanto, como a disponibilização de acervos na web é uma empreitada multidisciplinar, exigindo conhecimentos não só do domínio específico de música, mas também de arquivologia e de sistemas de informação, várias iniciativas permanecem isoladas nos chamados silos de dados[2].
Esse é o caso da base de dados sobre Música em Periódicos Oitocentistas (MPO), que apesar de ter sido instalada com uma consultoria inicial da profª Rosana S. G. Lanzelotte, especialista em sistemas de informação em música, com a realização de experimentos de modelagem, teste e publicação na web, permaneceu isolada como um silo de dados (Lanzelotte; Ulhôa; Ballesté, 2004). Inspirados por Christine Borgman, que desde 2007 tem se preocupado com a questão do compartilhamento de dados de pesquisa, Sayão e Sales (2020) consideram que a efetividade dos bancos de dados deve considerar as “especificidades dos domínios disciplinares” e, sobretudo, as “características dos dados coletados”.
Assim como em várias outras áreas do conhecimento, a noção de dados no domínio da música assume várias características, sejam eles dados musicais ou dados sobre música. Entre os primeiros, registros no formato de partituras ou de arquivos sonoros; entre os segundos, e referente ao projeto MPO, a primeira categoria de dados identificados por Sayão e Sales (2020, p. 32), ou seja, “dados brutos coletados diretamente por um instrumento ou um sensor e agregados a partir de múltiplas fontes”.
O corpus documental da pesquisa são os periódicos abrigados na Hemeroteca Digital Brasileira (HDB), da Fundação Biblioteca Nacional do Rio de Janeiro. Temos dados brutos, assim como múltiplas fontes, mas não houve a extração automática dos dados[3]. As consultas na HDB, iniciadas no ano 2000, foram feitas via internet, por título, período, edição, local de publicação e palavra(s)-chave (tecnologia OCR), mas até então os resultados da busca retornaram no formato imagem em PDF. Assim, o garimpo nas múltiplas coleções de periódicos ocorreu artesanalmente, sendo as informações inicialmente digitadas em tabelas – incluindo título do periódico, local (cidade e estado), número da edição, número da página, data de publicação e conteúdo –, para somente depois serem inseridas na base on-line MPO.
Esse é apenas um aspecto do projeto MPO, não necessariamente relacionado com dados propriamente musicais. Estaria a iniciativa fadada ao fracasso por um desvio de origem, ou seja, a dificuldade de extração de dados de forma automática? Na realidade, não, pois é na última categoria, o conteúdo das notícias, que está a preciosidade da base de dados, pelo menos como proposta: o assunto “música” em periódicos no longo século XIX, tema pouquíssimo estudado na academia, em parte pela dificuldade de manejo dos dados primários.
A historiografia da música no Brasil tem se baseado principalmente em fontes escritas no formato de partituras ou em manuscritos abrigados em bibliotecas e arquivos públicos ou particulares espalhados pelo território nacional. Com o declínio da impressão musical, há uma tendência mundial na distribuição de partituras digitais via web, como mencionado por Lanzelotte e Zumpano (2022). No entanto, as práticas musicais de transmissão oral ou relacionadas ao entretenimento são registradas de forma indireta, seja por sua divulgação ou recepção pela imprensa periódica. Daí a inovação da iniciativa do MPO ser dupla, tanto no tocante à disponibilização de dados brutos qualitativos nas humanidades, quanto no preenchimento da lacuna historiográfica referente à música de entretenimento no Oitocentos.
A maioria das iniciativas informatizadas em música se referem a dados musicais em vários formatos, principalmente partituras. Numa revisão da literatura recente, tomando por base 41 projetos registrados na Association for Computing Machinery Digital Library, Novaes, Tolare e Moreira (2023) observaram que, por conta da especificidade do domínio da música, as várias bibliotecas estão desenvolvendo ferramentas e projetos auxiliares para permitir uma melhor caracterização do material musical. Ao organizar os projetos relatados ano a ano, ressaltaram, também, que as modificações parciais nas tendências de pesquisa na área acompanhavam cronologicamente os desenvolvimentos tecnológicos das Tecnologias da Informação e Comunicação (TIC) e ciência aberta. Inicialmente, as pesquisas relacionadas a bibliotecas estavam voltadas para discutir e propor soluções para o acesso, a representação e a recuperação informacional. A partir de 2014, considerando a evolução tecnológica, os projetos auxiliares passaram a incluir a ideia do big data[4]. Assim, esses elementos também se tornaram imprescindíveis para o âmbito da música. Com o aumento exponencial das informações e dados musicais na web, houve a necessidade de estabelecer comunicação e acesso entre diferentes dados da área de música, evidenciando a presença não somente dos elementos que caracterizam a noção do big data, como também do linked data e linked open data.
Focalizando as iniciativas mais recentes Novaes, Tolare e Moreira (2023) listaram 16 projetos agrupados em seis categorias, quatro dos quais – banco de dados, bibliotecas de código aberto, conjunto de dados e ontologia – contêm projetos e ferramentas auxiliares correlatos à presente iniciativa com música e periódicos no Oitocentos. Entre os bancos de dados resenhados, destaca-se o MusicBrainz, uma enciclopédia de dados abertos centrada em metadados de gravações musicais comerciais. De modo a assegurar uma forma de identificação confiável, é atribuído a cada entidade na base de dados – por exemplo artistas, faixas (tracks), selos discográficos etc. – um identificador universal único, o MusicBrainz Identifier (MBID). Esse identificador permite a diferenciação entre artistas homônimos ou versões de uma mesma canção.
Outra iniciativa no domínio da música são as bibliotecas de código aberto, como a Early Music on-line (EMO), com a disponibilização de 324 livros teóricos e cerca de 8,5 mil partituras de música para teclado e alaúde do século XVI. A padronização de entradas de assuntos usada é a lista de autoridades da Biblioteca do Congresso norte-americano, abrigadas junto ao Arquivo Internacional de Autoridade Internacional (VIAF), por sua vez, com dados vinculados em outras bibliotecas. O Early Music on-line utiliza como recurso de dados vinculados o já mencionado MusicBrainz, além da DBPedia, que possibilita enlaces de Dados Abertos Interligados (Linked Open Data, ou LOD) a partir de documentos da Wikipédia.
Em relação ao conjunto de dados musicais, Novaes, Tolare e Moreira (2023) destacam o Music to Knowledge (M2K), um projeto desenvolvido pela Music Digital Library (MDL) e Music Information Retrieval e que integra o projeto da International Music Information Retrieval Systems Evaluation Laboratory (IMIRSEL). O M2K é considerado importante por promover padronização dos dados em música, entre os quais a classificação de gênero musical, central para o refinamento do MPO, como discutido a seguir.
Finalmente, é revisada a área de ontologia, com a descrição do projeto sobre manuscritos de poesia italiana musicados, o Manuscript Italian Poetry in Music (MUSES). O aspecto relevante para o MPO é a possibilidade de integrar os dados da música com conteúdo da web, como manuscritos digitalizados, edições de músicas e arquivo de áudio e vídeo.
No Brasil, uma iniciativa pioneira é o Portal Musica Brasilis[5], criado em 2009, com o objetivo de promover o resgate e difusão de repertórios brasileiros de todos os tempos e gêneros. Em julho de 2023, contava com um acervo de 5062 partituras disponíveis para download.
Antes dessa iniciativa, e tendo em vista a indisponibilidade de partituras impressas, os músicos passaram a tocar o que podiam encontrar facilmente na internet, sendo o site International Music Score Library Project ([20--?]) o mais acessado. Atualmente, o Musica Brasilis deposita também no International Music Score Library Project seu acervo de partituras em domínio público, além de contribuir para os projetos Wikipédia, Wikimedia Commons e Wikidata. Isso acontece através do GLAM[6] do Musica Brasilis, cujo objetivo é utilizar o conteúdo do acervo disponibilizado pelo portal web para estruturar e melhorar a qualidade das informações sobre música grafada brasileira disponíveis nas plataformas Wikimedia, sobretudo nos projetos em português.
Tendo como premissa seguir as recentes diretrizes e boas práticas da web, o portal tem buscado se alinhar com os Dados Abertos Interligados e princípios FAIR[7], tendo implementado várias ações nesse sentido:
- descrições padronizadas; identificadores persistentes (Facilidade de localização). As descrições de cada partitura e autoridades agregadas seguem a padronização existente no contexto da World Wide Web Consortium (W3C). A cada partitura digital é atribuído um identificador único – o International Standard Music Number for Notated Music (ISMN) – equivalente ao International Standard Book Number (ISBN) para publicações textuais;
- repositórios confiáveis; preservação digital (Acessibilidade). A preservação digital perene das partituras digitais é assegurada através de convênio com a Rede Cariniana, iniciativa do Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT), do Ministério da Ciência, Tecnologia e Inovação (MCTI);
- intercâmbio de metadados; integração com LOD (Interoperabilidade);
- licenças de uso; integração com LOD (Reuso). Para ampliar a visibilidade e o reuso das partituras, as imagens das mesmas são também publicadas na Rede da Memória Virtual Brasileira, da Fundação Biblioteca Nacional[8], e no Wikimedia CommonsVer em: https://w.wiki/Ns.. Os metadados do acervo são publicados no concentrador de metadados Wikidata.
Diante dessa miríade de esforços que convergem na direção de uma rede de enlaces, mas tomando por base o compartilhamento de dados motivado pelo acesso aberto à produção em Ciência e Tecnologia, este texto apresenta um relato sobre o compartilhamento de dados para o projeto MPO, incorporando laços com verbetes presentes na Wikipédia e entradas no Wikidata.
A noção de silos de dados e informação
A existência dos silos de informação foi uma consequência da própria evolução da tecnologia de informação e comunicação. Desde o uso inicial dos computadores, nomeados de “cérebro eletrônico” (Pereira, 2014), os processos de desenvolvimento de soluções de software eram orientados a resolver problemas específicos nas empresas. Os sistemas eram projetados para apoiar um cadastro específico ou um movimento de negócios – por exemplo, efetuar a coleta de dados, realizar cálculos para o controle de taxas e impostos e, por fim, concluir com a saída de relatórios – e, consequentemente, careciam de uma visão integrada e colaborativa. As redes de telecomunicações eram limitadas e apoiavam, de forma dedicada, o hardware nomeado de mainframe[9]. De forma análoga, o desenvolvimento da ciência e tecnologia estava pautado em grupos de pesquisa que utilizavam protocolos de compartilhamento adequados para suas investigações, mas limitados pelo uso da tecnologia da época.
A chegada de ferramentas para computação pessoal em conjunto com os potentes Sistemas Gerenciadores de Bancos de Dados (SGBD), acrescida da evolução dos processos de planejamento estratégico nas décadas de 1980 e 1990, contribuíram ativamente para a criação de visões integradas de problemas e de soluções com o compartilhamento de dados. Havia uma profusão de topologias para rede de telecomunicação entre equipamentos. As redes passaram a ter um papel de destaque na proposta de soluções informatizadas e possibilitaram, inclusive, a criação de um lema muito utilizado na época por um grande fabricante de hardware do Vale do Silício: The Sun’s, slogan “The computer is the network, the network is the computer” (Batty, 1997).
A proposta de protocolos que viabilizaram a criação da World Wide Web (WWW) no final dos anos 1980 permitiu um grau de integração para além dos muros delimitadores existentes entre governos e corporações. Cabe destacar que as atividades de ensino e pesquisa também foram impulsionadas, pois a noção de colaboração e compartilhamento se ampliou com a criação desses protocolos. Apesar desse movimento tecnológico favorável à integração e compartilhamento, ainda se percebia a necessidade do incremento no reuso de dados e informação, pois o custo das tarefas de manutenção e redução de inconsistências em múltiplos cadastros era alto.
A construção de bancos de dados integrados reduziu e minimizou os problemas de compartilhamento intramuros organizacionais. Contudo, no contexto da WWW ainda se percebiam limitações para publicação e acesso.
Em resumo, podemos afirmar que silos de dados e informação são entendidos como estruturas de armazenamento independentes, que possuem acesso ao seu conteúdo de forma controlada para grupos específicos de usuários e que podem ter sido construídos em diferentes momentos, seja por questões políticas, tecnológicas ou até mesmo temporais. Patel (2019) corrobora a nossa afirmação e complementa apontando que uma das dificuldades para a integração de dados é a existência de milhares de sistemas e aplicativos, seja no mundo das empresas e corporações ou no contexto da web.
Uma das maneiras de fomentar a integração desses silos de dados é usar a abordagem Linked Data, que viabiliza a Web Semântica a partir da exposição e compartilhamento de elementos de ligação (relações), informações e conhecimento.
Linked Data e Web Semântica
Desde as ideias de interligação apresentadas por Vannevar Bush até o desenvolvimento da ARPANet nas décadas de 1970 e 1980, pode-se afirmar que o desafio sempre foi o processo de comunicação entre diferentes nós de informação. A proposta trazida por Tim Berners-Lee para a WWW em 1989 tinha, como um de seus objetivos, incrementar o intercâmbio de informações entre tais nós. Apoiada em protocolo de comunicação que facilitasse a troca de mensagens entre ambientes distintos, a proposta de uso do TCP/IP trouxe uma outra perspectiva para o contexto do intercâmbio de dados nas redes WAN (Wide Area Network) e LAN (Local Area Network), ocasionando reflexos nas organizações públicas, empresas privadas, além das instituições de ensino e pesquisa. Entretanto, as limitações tecnológicas da época determinavam que as soluções deveriam ser operadas exclusivamente por seres humanos, ou seja, o consumo dos resultados era direcionado para a interpretação por pessoas e com navegação direcionada.
Berners-Lee, Hendler e Lassila (2001) trouxeram a discussão para o campo da semântica, onde as interligações deixam de ser ligações para navegação entre documentos e passam pela construção de significado entre os recursos envolvidos. Posteriormente, Berners-Lee (2006) nos levou para a Web of Data, onde a informação deixa de ser conectada por hyperlinks entre documentos (na web) e passa a ser interligada por associações entre dados com significado. Ainda segundo a proposta de Berners-Lee, Linked Data é uma abordagem para expor e compartilhar tanto os elementos de ligação (relações) quanto as informações e conhecimento, viabilizando a noção de Web Semântica.
Em síntese, essa noção passa por fazer uso da web para criar ligações com significado entre dados de diferentes fontes, contribuindo para reduzir a existência dos silos de informação. Essas fontes podem ser tanto elementos de bancos de dados mantidos por outras organizações, quanto um conjunto de sistemas heterogêneos residentes em diferentes ambientes computacionais (Bizer; Heath; Berners-Lee, 2011).
Assim, com o uso de Linked Data, foi possível expressar e qualificar conexões, descrevendo e contextualizando as relações entre dados e recursos, tal qual preconizava Vannevar Bush em sua Memex, pois sua aplicação
- [...] nos leva a um esforço para construção de um esquema de nomenclatura global, a fim de permitir a troca de dados. Em outras palavras, isto quer dizer que é necessário a elaboração de dicionários, com vocabulários que possam ser controlados e publicados, mas que possam ser expressos em modelos de alto valor, fazendo uso de ontologias e permitindo o incremento da semântica para estes dados ligados (Ribeiro; Almeida, 2011).
A web agora passa a ser norteada pela visão da linked open data cloud[10], mas, para criar a visão de ligações entre esses dados que compõem essa rede de nós, faz-se necessário lançar mão de estratégias para representação e é nessa direção que surgem os vocabulários e ontologias. Estes são elementos pertencentes ao domínio dos Sistemas de Organização do Conhecimento, amplamente debatidos no contexto tanto da ciência da informação quanto da ciência da computação. São estruturas descritivas que possibilitam dar significado a ligações entre os nós de uma rede de dados e informação (Fenlon, 2019).
No escopo deste capítulo, foram selecionados os vocabulários e padrões a seguir que podem auxiliar na descrição das ligações semânticas (Quadro 1):
A proposta de construção coletiva do conhecimento foi tratada em projetos Linked Data por Erxleben e demais autores (2014), que abordavam a possibilidade de conexões entre diferentes elementos de dados como o International Standard Serial Nunmber (ISSN), em conjunto com arquivos de autoria como VIAF. De forma análoga, Bennett e demais autores (2017) incorporaram o tratamento de Linked Data junto aos cabeçalhos de assunto na Wikipédia, por meio da Faceted Application of Subject Terminology (FAST). Já Schuurman e demais autores (2015) trouxeram a discussão para uso de padrões em catálogos com DCMI e SKOS, como forma de viabilizar as QUADRO 1 Vocabulários e padrões para descrever ligações semânticas
| Vocabulários e padrões para descrição no contexto das GLAM | Aplicabilidade |
|---|---|
| RDF; SKOS; OWL; METS; MODS; TextMD; EAD; VRACore; LIDO; MIDAS-Heritage; CARARE Metadata Schema; CDWA; DC/DCMI; EDM; FRBR/LRM; FOAF; VIAF; GeoNames | Descrição de metadados em geral |
| PROV (PROV-DM, PROV-wf Schema, ProvONE Conceptual Model)/W3CProv; CiTO; PREMIS; DataCite; BBC Provenance Ontology | Descrição de metadados de proveniência |
| Legenda: |
RDF: Resource Description Framework
|
Fonte: adaptado de Ribeiro, Santos e Moreira (2020). conexões semânticas no escopo do projeto Common Language Resources and Technology Infrastructure (CLARIN). Sousa e Ribeiro (2021) apresentaram conexões entre patrimônio cultural científico com esforços correlatos desenvolvido no contexto de GLAM e Europeana. É nesse sentido que podemos afirmar que a ideia de conectar recursos de informação com a criação de laços semânticos converge e se alinha com as iniciativas para descrever e publicizar o conhecimento organizado em instituições de memória.
O movimento wiki
Denominada de “wiki”, houve a proposição de software colaborativo que permite a edição coletiva dos documentos, mas com a particularidade de não necessitar de revisão do conteúdo antes da sua publicação. Os termos “wiki” (pronunciado [uíqui] ou [víqui]) e “wikiwiki” foram utilizados para identificar um tipo específico de coleção de documentos em hipertexto ou o software colaborativo usado para criá-lo. O termo “wikiwiki” significa “super-rápido” no idioma havaiano. Já em maori, “wiki” significa “fim de semana”. É também a forma diminutiva de “Wikitoria”, versão maori do popular nome cristão “Victoria” (Wiki, 2013).
O movimento wiki abarca iniciativas para construção coletiva de conhecimento com diferentes plataformas. Monteiro (2018) registra que desde o início dos anos 2000, a enciclopédia Wikipédia desencadeou uma nova forma de compartilhar e disseminar o conhecimento em larga escala no mundo. São números impressionantes, com cerca de 6,5 milhões de artigos em sua versão em inglês[11] e um milhão de artigos em sua versão em português[12]. Os projetos irmãos Wikidata e Wikimedia Commons compõem e ampliam o cenário para interligações na Web of Data. Além de colaboradores ativos das comunidades wiki de cada projeto, também existem instituições como galerias, bibliotecas, arquivos e museus que se tornaram parte desse universo (Monteiro, 2018). Peschanski (2021) corrobora a posição de Monteiro quando afirma que, segundo dados coletados até 2019, houve ampliação de parceria entre instituições culturais e comunidades wiki para a produção de conteúdo. Esse é o caso do projeto sobre gêneros musicais desenvolvido pela profa. Martha Tupinambá de Ulhôa, na área de musicologia, num esforço para engajar estudantes do ensino superior na criação de conteúdo sobre música para disponibilização na web.
OS VERBETES NA WIKIPÉDIA
A Wikipédia, principalmente em relação à música, costuma ser a primeira fonte a ser consultada quando alguém tem alguma dúvida sobre gêneros musicais, repertórios específicos ou dados biográficos. Entretanto, como qualquer pessoa pode adicionar qualquer informação na plataforma, frequentemente acontece de haver alguma dúvida quanto à sua confiabilidade. Apesar dessa reputação conflitante, a Wikipédia tem sido citada em revistas científicas de alto impacto, a exemplo da Nature, que concluiu pela qualidade dos seus artigos em comparação com a Encyclopedia Britannica. O que se sabe é que é possível comunidades auto-organizadas construírem produtos informacionais de qualidade (Kern, 2018).
Independentemente da polêmica, devemos considerar que a comunidade acadêmica em música tem muito a fazer no intuito de socializar o conhecimento de uma forma mais ampla à sociedade em geral. Assim, durante o primeiro semestre de 2022, foi desenvolvido um projeto complementar do seminário “Tópicos especiais – gêneros de música popular no Brasil”, da Universidade Federal do Estado do Rio de Janeiro (Unirio), com o objetivo de iniciar os alunos nas técnicas de pesquisa e redação de texto, direcionando-os a verbetes sobre gêneros musicais, músicos e musicistas e práticas musicais selecionadas, promovendo, assim, a disseminação do conhecimento produzido dentro da universidade. A equipe teve o suporte e acompanhamento sobre a Wikipédia e Wikimedia, por parte da profa. Flávia Florentino Varella, coordenadora do projeto “Mais teoria da história na wiki”, e de sua orientanda de extensão Danielly Campos Dias Figueredo, ambas da Universidade Federal de Santa Catarina (UFSC).
Inicialmente, foi feito um treinamento sobre os pilares da Wikipédia, a maioria ligada a princípios éticos relacionados a critérios de notoriedade, ou seja, o uso de fontes secundárias neutras, independentes e confiáveis para corroborar conhecimento consolidado. Entre essas fontes secundárias estão teses e dissertações, além de artigos em revistas científicas ou textos apresentados em congressos, desde que tenham passado por algum tipo de reconhecimento por pares. A maioria dos alunos envolvidos no projeto resolveu rever alguns verbetes já existentes na Wikipédia. Entre eles, o verbete sobre choro[13], atualizado por especialistas no gênero musical, para melhoria da redação inicial (com alguns equívocos e redundâncias), bem como a ausência de referências de sustentação do seu conteúdo.
AS ENTRADAS NO WIKIDATA
O Wikidata foi lançado em outubro de 2012, com o objetivo de fornecer uma base de dados estruturados, editada de forma colaborativa para oferecer suporte para projetos tais como a Wikipédia. Com cerca de 99 milhões de itens de dados[14], o Wikidata tem o propósito de ser editada tanto por humanos quanto por não humanos, ou seja, com facilidades para ser machine readable.
Entre os aplicativos considerados inovadores pela comunidade Wikidata, o Wikiprojetos Música, do qual participam os especialistas e pesquisadores mencionados anteriormente, funcionando como editores que acrescentam dados sobre artistas, lançamentos musicais, músicas, premiações e performances.
Outro exemplo sobre o uso do Wikidata para gêneros musicais pode ser encontrado segundo o rótulo (Q188451)[15]. Esses rótulos funcionam como identificadores que caracterizam univocamente um conceito. Lá estão descritos os principais elementos associados ao verbete, além da possibilidade de compreender semanticamente (inclusive de forma legível por máquinas) a taxonomia de termos superiores (instance of), subordinados (subclass of) e algumas associações (propriedades), tais como studied by, described at URL, has list, equivalent class, entre outras.
Além desse tratamento dos gêneros musicais apresentados, o recorte adotado para este capítulo contou com a identificação de algumas entradas no Wikidata. O piloto sobre notícias foi desenvolvido centrado em um eixo: o periódico musical A Marmota[16], descrito suscintamente em seu verbete na Wikipédia[17]. A Marmota foi um jornal de variedades joco-sério criado, que circulou no Rio de Janeiro entre 1849 e 1864, recebendo diferentes nomes: A Marmota na Corte, Marmota Fluminense: Jornal de Modas e Variedades e A Marmota. Um dos subprojetos contidos no MPO trata exatamente de dados sobre música garimpados no periódico.
O banco de dados sobre MPO e a proposição de verbetes
Iniciado em 2002, o banco de dados MPO contém notícias e comentários sobre música em periódicos do século XIX. Atualmente, ele conta com 4.430 registros sobre músicos, imprensa musical, teatro musical e ópera, garimpados em periódicos brasileiros oitocentistas abrigados na HDB da Biblioteca Nacional do Rio de Janeiro (BN-RJ). As consultas podem ser feitas por título do periódico, local (cidade e estado), número da edição, número da página, data de publicação e conteúdo (palavras-chave ou expressões em um campo de consulta livre).
O MPO abriga vários subprojetos desenvolvidos em épocas diferentes e com um número variável de registros. O primeiro banco começou como uma forma de otimizar e centralizar os dados coletados em microfilme por alunos de iniciação científica na BN-RJ. Em 2008, o garimpo passou a ser feito no Jornal do Commercio, como atividade prática para alunos de pós-graduação do Programa de Pós Graduação em Música (PPGM) da Unirio. Em 2012, com a abertura da HDB, foi iniciado um projeto sobre a valsa, tomando como eixo da pesquisa o periódico Diário do Rio de Janeiro.
A partir de 2018, a estrutura de banco foi revista de modo a introduzir campos de identificação de projetos específicos. Aqui, houve o cuidado para que os descritores fossem compatíveis com os elementos de identificação de objetos digitais descritos pelo Dublin Core, entre eles: “title” (título do projeto; título do periódico); “subject” (gêneros musicais; pessoas/profissão); “description” (descrição/resumo do projeto de pesquisa associado); “contributor.author” (equipe); “description.sponsorship” (financiadores). O banco de dados está implementado em ambiente Linux utilizando o sistema gerenciador de BD PostgreSQL 9.4, com Python 3 e framework Django.
Ao longo do tempo, a dinâmica do fluxo de trabalho foi sendo refinada, sendo que avanços significativos têm sido produzidos em conexão com projetos didáticos específicos. Entre eles, o “Música na(s) Marmota(s)”, um conjunto de referências à música garimpados por alunos pós-graduandos em música, nas várias versões do periódico A Marmota. O garimpo funcionou como laboratório para o aprendizado de como lidar com a pesquisa sobre música em periódicos. A turma de alunos, todos eles com atuação profissional em música, contribuiu para a qualidade dos dados coletados. Os números dos periódicos foram distribuídos entre os alunos, que iam inserindo os registros coletados em um documento on-line compartilhado. Em classe, foram revistos os dados e ajustados alguns procedimentos, entre eles o estabelecimento de palavras-chave para facilitar a consulta posterior. A partir daí, os alunos foram orientados a propor textos a partir de indícios encontrados no A Marmota, em diálogo com a literatura pertinente.
Apesar de utilizar plataforma tecnológica adequada para os objetivos formulados inicialmente para o projeto, o aproveitamento dos dados disponíveis, no entanto, é ainda precário. Criado inicialmente apenas para facilitar a organização e análise dos dados qualitativos em projetos específicos, com os avanços da ciência aberta, surge a ideia de adequar o banco MPO para que seja possível o acesso e reuso dos dados por outros pesquisadores. Com essa meta em mente, estão sendo desenvolvidos alguns estudos preliminares em duas frentes, ambas em nível de pós-graduação. A primeira, na área de biblioteconomia, sob a responsabilidade do prof. Cláudio José Silva Ribeiro, que ofereceu uma disciplina no Mestrado Profissional em Biblioteconomia, utilizando o banco MPO como estudo de caso e testando algumas possibilidades de adequação do mesmo aos princípios FAIR. A segunda na área de musicologia, sob a responsabilidade da profa. Martha Tupinambá de Ulhôa, que tem oferecido seminários sobre gêneros de música popular no Brasil, nos quais a equipe escreve ou atualiza verbetes sobre gêneros musicais selecionados, como já mencionado.
É importante ressaltar que há gêneros musicais no banco MPO com informações bastante precárias tanto na Wikipédia quanto no Wikidata. É imprescindível continuar o trabalho de atualização ou mesmo criação de verbetes na Wikipédia, com entradas equivalentes no Wikidata, visando a substituição dos gêneros musicais do banco de dados PostgreSQL, quando tivermos concluído o trabalho de disponibilização do banco MPO na rede WWW, ou seja, são várias frentes de trabalho integradas.
Procedimentos metodológicos
Combinando métodos e abordagens epistemológicas, este relato apresenta o esforço que trata os registros de metadados e o conteúdo da base de dados para torná-los compatíveis com os princípios de Linked Data, bem como possibilitar a criação de laços no contexto da web de dados e disseminado o conteúdo por meio das iniciativas wiki. Conta com uma revisão bibliográfica de literatura e, em seguida, a execução do estudo de caso. Complementarmente, para conduzir o estudo de caso, as seguintes etapas foram articuladas:
- estudo sobre a estrutura e o conteúdo do banco de dados;
- seleção do conjunto de registros candidatos à construção dos laços com o conteúdo wiki;
- identificação de verbetes e a proposição de outros, além da análise de entradas no Wikidata;
- escolha de vocabulários semânticos para descrever as ligações;
- uso do software OpenRefine para fazer a preparação dos dados e a exportação dos registros para o formato RDF/XML;
- e, por fim, a proposição de estruturas para armazenamento e publicação dos dados para consumo por outras plataformas.
Resultados preliminares
Um projeto é um empreendimento que tem um objetivo e uma estrutura de fases que representam o início, o desenvolvimento e a finalização da empreitada. Essa estrutura pode ainda conter incrementos, ou entregas intermediárias, que permitirão uma análise prévia dos resultados esperados ao final do projeto (Pfeiffer, 2005). Assim, são apresentados, neste texto, os resultados obtidos por meio da revisão bibliográfica e da realização das etapas de 1 até 5, conforme previsto na seção 5.
Para melhor compreensão do conteúdo a ser interligado, foi efetuada uma engenharia reversa das tabelas do banco de dados. O conhecimento da estrutura do banco de dados, planejado na etapa 1 dos procedimentos metodológicos, possibilitou a identificação das associações entre as classes trazendo uma visão, ainda que preliminar, da semântica para descrição dos registros. A Figura 1 apresenta a estrutura do banco de dados utilizada pelo projeto MPO.
A análise do modelo de classes (Figura 1) permitiu a proposição do esboço de grafo RDF (Figura 2) como forma de gerar a o artefato que contém a abstração lógica para a representação das interligações entre recursos web.
Conforme planejado nas etapas b) e c) dos procedimentos metodológicos, a escolha de registros foi feita em conjunto com os alunos da turma de mestrado no programa de pós-graduação em biblioteconomia da Unirio. Os critérios adotados para a seleção das notícias foram: i) a notícia conter o registro da URL na BNDigital; ii) o periódico onde a notícia foi publicada possuir registro na Wikipédia e no Wikidata; e iii) o gênero musical da notícia possuir registro na Wikipédia e no Wikidata.
Para cumprir a etapa d), e em consonância com os princípios da Web Semântica apresentados na seção 3, para descrever os recursos e propriedades foram identificados vocabulários prov, owl, skos e dc[18], após a análise dos vocabulários apresentados no Quadro 1. A Figura 3 apresenta o conjunto de registros selecionados para a implementação das conexões já na ferramenta OpenRefine[19]. FIGURA 1 Modelo de classes que representa estrutura atual do banco de dados PostgreSQL
.jpg)
Fonte: elaborada pelos autores.
FIGURA 2 Grafo contendo o esquema RDF para descrever a semântica das ligações
.jpg)
Fonte: elaborada pelos autores.
FIGURA 3 Extrato dos registros selecionados para a realização do piloto
.jpg)
Fonte: dados de pesquisa.
Conforme previsto na etapa e) dos procedimentos metodológicos, o conjunto de registros foi tratado com o intuito de realizar limpeza e tratamento dos dados. A coluna 1 contém a página da notícia conforme representado no grafo da Figura 2; a coluna 2 demonstra a origem da notícia com a inclusão do predicado de proveniência adotado (prov – conforme mencionado anteriormente); e por fim, a coluna 3 representa os recursos referenciados pela notícia na Wikipédia e no Wikidata.
Conforme etapa f) apresentada na subseção da metodologia, o próximo passo será o uso de estruturas para armazenamento e publicação permitindo o consumo dos dados interligados. A manutenção da arquitetura tecnológica ainda é um desafio no contexto do projeto. Se, por um lado, é possível adotar na própria estrutura PostgreSQL referências aos verbetes, por meio da inclusão das entradas Wikidata na tabela que contém a coluna de gêneros, por outro, há plano para mudança na direção de compartilhamento dos dados com outros pesquisadores. Nessa direção, há algumas possibilidades que desencadearam o debate com a equipe, em especial com uso de entradas no Wikidata para o projeto MPO em conjunto com bancos de dados para armazenar as triplas, tais como Virtuoso ou GraphDB.
Considerações finais
A adoção dos princípios de Linked Data no banco de dados sobre notícias permitirá uma maior conexão entre esforços correlatos de pesquisa. Cabe destacar que este projeto vem sendo conduzido de forma a cumprir etapas com a apresentação de produtos intermediários, mas de forma integrada e conforme previsto na seção 6. Essas etapas motivaram, inclusive, a apresentação de uma versão da experiência com o uso de FAIR em trabalho no VII Congresso ISKO-Brasil (Ribeiro et al., 2023).
É intenção da equipe de coordenação deste projeto que haja ampliação de seu escopo para incorporar os princípios FAIR aos conjuntos de dados que compõem o banco de dados. A possibilidade de publicar esses datasets e dotá-los de capacidade de reuso é o objetivo principal da equipe. Vale ressaltar que, durante o desenvolvimento de suas investigações, os pesquisadores que atuam no projeto MPO transcrevem as notícias coletadas. Esses trechos, que são dados de pesquisa, aparecem como anexos em diferentes teses e dissertações. Dotar esses dados e metadados de capacidade de registro e reuso poderá impulsionar as investigações trazendo uma outra dinâmica na área de humanidades.
Infere-se que, com este estudo, será possível o incremento do diálogo entre especialistas das temáticas de musicologia, ciência da informação e ciência da computação em prol da adoção dos princípios da Open Science nas humanidades. Adicionalmente, este projeto pode contribuir de forma prospectiva em termos metodológicos ao aproximar musicólogos que atuam com pesquisas específicas para desenvolverem projetos colaborativos na web.
Referências
BATTY, M. The computable city. International Planning Studies, [s. l.], v. 2, n. 2, p. 155-173, 1997. Disponível em: https://doi.org/10.1080/13563479708721676. Acesso em: 1 jun. 2025.
BENNETT, R. et al. Linking FAST and Wikipedia. In: IFLA WORLD LIBRARY AND INFORMATION CONGRESS, 2016, Columbus. Proceedings […]. Columbus: [s. n.], 2017. Disponível em: https://library.ifla.org/id/eprint/1980/1/S12-2016-bennett-en.pdf. Acesso em: 5 jul. 2023.
BERNERS-LEE, T. Design issues: Linked Data. [S. l.], 2006. Disponível em: https://www.w3.org/DesignIssues/LinkedData.html. Acesso em: 10 mar. 2023.
BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web. Scientific American, [s. l.], v. 284, n. 5, p. 34-43, 2001. Disponível em: https://www.jstor.org/stable/26059207. Acesso em: 10 mar. 2023.
BIZER, C.; HEATH, T.; BERNERS-LEE, T. Linked data: The story so far. In: SHETH, A. Semantic Services, Interoperability and Web Applications: Emerging Concepts. Pensilvânia: IGI Global, 2011. p. 205-227.
DAVENPORT, T. Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business Review, [s. l.], 2014. Disponível em: https://hbr.org/2014/03/big-data-at-work-dispelling-the-myths-uncovering-the-opportunities. Acesso em: 1 jun. 2025.
ERXLEBEN, F. et al. Introducing Wikidata to the Linked Data Web. In: MIKA, P. et al. (org.). The Semantic Web – ISWC 2014. Cham: Springer International Publishing, 2014. (Lecture Notes in Computer Science). v. 8796. p. 50-65. Disponível em: https://doi.org/10.1007/9783-319-11964-9_4. Acesso em: 5 jul. 2023.
FENLON, Katrina. Modeling digital humanities collections as research objects. In: ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES, 18., 2019, Champaign. Proceedings […]. Champaign: University of Illinois, 2019. p. 138-147.
HENNING, P. C. et al. Desmistificando os princípios FAIR: conceitos, métricas, tecnologias e aplicações inseridas no ecossistema dos dados FAIR. Pesquisa Brasileira em Ciência da Informação e Biblioteconomia, João Pessoa, v. 14, n. 3, p. 175-192, 2019. Disponível em: https://doi.org/10.22478/ufpb.1981-0695.2019v14n3.46969. Acesso em: 1 jun. 2025.
INTERNATIONAL MUSIC SCORE LIBRARY PROJECT. [S. l.], [20--?]. Disponível em: https://imslp.org/. Acesso em: 31 out. 2023.
KERN, V. M. A Wikipédia como fonte de informação de referência: avaliação e perspectivas. Perspectivas em Ciência da Informação, Belo Horizonte, v. 23, n. 1, p. 120-143, jan./mar. 2018. Disponível em: https://doi.org/10.1590/1981-5344/3224. Acesso em: 5 jul. 2023.
KOUTKIAS, V. G. From Data Silos to Standardized, Linked, and FAIR Data for Pharmacovigilance: Current Advances and Challenges with Observational Healthcare Data. Drug Safety, Auckland, v. 42, n. 5, p. 583-586, 2019. Disponível em: https://doi.org/10.1007/S40264-018-00793-Z. Acesso em: 2 jun. 2025.
LANZELOTTE, R. S. da G.; ULHÔA, M. T. de; BALLESTÉ, A. O. Sistemas de Informações Musicais - disponibilização de acervos musicais via Web. OPUS, Vitória, v. 10, p. 7-15, 2004. Disponível em: https://www.anppom.com.br/revista/index.php/opus/article/view/188. Acesso em: 18 jul. 2023.
LANZELOTTE, R. S. da G.; ZUMPANO, N. G. Difusão do legado musical brasileiro: a disponibilidade de partituras pela Web. LaborHistórico, Rio de Janeiro, v. 8, n. 1, p. 325-342, jan./abr. 2022. Disponível em: https://doi.org/10.24206/lh.v8i1.46739. Acesso em: 17 jul. 2023.
MONTEIRO, J. “Wikificando” coleções: aprendizagens, oportunidades e desafios. In: CONGRESSO INTERNACIONAL EM HUMANIDADES DIGITAIS, 1., 2018, Rio de Janeiro. Anais [...]. Rio de Janeiro: Escola de Ciências Sociais - FGV/CPDOC, 2018. Disponível em: https://www.academia.edu/37746890/Wikificando_cole%C3%A7%C3%B5es_aprendizagens_oportunidades_e_desafios. Acesso em: 10 mar. 2023.
NOVAES, F. C. P.; TOLARE, J. B.; MOREIRA, W. Análise da representação da música em bibliotecas digitais. In: TOGNOLI, N. B.; ALBUQUERQUE, A. C. D.; CERVANTES, B. M. N. (org.). Organização e representação do conhecimento em diferentes contextos: desafios e perspectivas na era da datificação. Londrina: ISKO-Brasil, 2023. v. 1, p. 126-133. Disponível em: https://isko.org.br/wp-content/uploads/2023/06/livro-isko-Brasil_23.pdf. Acesso em: 2 jun. 2025.
PATEL, J. Bridging Data Silos Using Big Data Integration. International Journal of Database Management Systems, [s. l.], v. 11, n. 3, p. 1-6, jun. 2019. Disponível em: https://doi.org/10.5121/ijdms.2019.11301. Acesso em: 2 jun. 2025.
PEREIRA, L. de A. Os primórdios da informatização no Brasil: o “período paulista” visto pela ótica da imprensa. História, São Paulo, v. 33, n. 2, p. 408-422, jul./dez. 2014. Disponível em: https://doi.org/10.1590/1980-436920140002000019. Acesso em: 2 jun. 2025.
PESCHANSKI, J. A. Variedades de processos de difusão digital colaborativa: descrição e análise de iniciativas GLAM-Wiki no Brasil. Resgate: revista interdisciplinar de cultura, Campinas, v. 29, p. 1-28, 2021. Disponível em: https://doi.org/10.20396/resgate.v29i1.8659966. Acesso em: 10 mar. 2023.
PFEIFFER, P. Gerenciamento de projetos de desenvolvimento: conceitos, instrumentos e aplicações. Rio de Janeiro: Brasport, 2005.
RIBEIRO, C. J. S. Big Data: os novos desafios para o profissional da informação. Informação & Tecnologia, João Pessoa, v. 1, n. 1, p. 96-105, jan./jun. 2014. Disponível em: https://www.brapci.inf.br/index.php/res/v/40838. Acesso em: 10 jul. 2023.
RIBEIRO, C. J. S. et al. Knowledge Organization no Processo de FAIRificação de Datasets: Estruturando a Semântica e Interligando as Notícias do Banco de Dados de Periódicos Musicais Oitocentistas. In: TOGNOLI, N. B.; ALBUQUERQUE, A. C. D.; CERVANTES, B. M. N. (org.). Organização e representação do conhecimento em diferentes contextos: desafios e perspectivas na era da datificação. Londrina: ISKO-Brasil, 2023. p. 363-371. Disponível em: https://doi.org/10.29327/5261847. Acesso em: 2 jun. 2025.
RIBEIRO, C. J. S.; ALMEIDA, R. F. de. Dados abertos governamentais (Open Government Data): instrumento para exercício de cidadania pela sociedade. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 12., 2011, Brasília, DF. Anais [...]. Brasília, DF: Universidade de Brasília, 2011. p. 2568-2580. Disponível em: https://brapci.inf.br/index.php/res/v/182610. Acesso em: 2 jun. 2025.
RIBEIRO, C. J. S.; SANTOS, L. O. B. D. S.; MOREIRA, J. L. R. Princípios FAIR e interoperabilidade: reprodutibilidade com o uso de modelagem conceitual orientada a ontologias. Informação & Informação, Londrina, v. 25, n. 3, p. 28-51, 2020. Disponível em: http://www.uel.br/revistas/uel/index.php/informacao/article/view/41874. Acesso em: 15 ago. 2024.
SAYÃO, L. F.; SALES, L. F. Guia de gestão de dados de pesquisa para bibliotecários e pesquisadores. Rio de Janeiro: CNEN/IEN, 2015. Disponível em: http://www.aben.com.br/Arquivos/420/420.pdf. Acesso em: 3 jul. 2023.
SAYÃO, L. F.; SALES, L. F. Afinal, o que é dado de pesquisa? BIBLOS - Revista do Instituto de Ciências Humanas e da Informação, Rio Grande, v. 34, n. 2, p. 32-51, jul./dez. 2020. Disponível em: https://doi.org/10.14295/biblos.v34i2.11875. Acesso em: 22 ago. 2024.
SCHUURMAN, I. et al. CLARIN Concept Registry: The New Semantic Registry. Selected Papers, [s. l.], n. 123, p. 62-70, 2015. Disponível em: http://www.ep.liu.se/ecp/123/005/ecp15123005.pdf. Acesso em: 8 jul. 2023.
SOUSA, A. M. C. de; RIBEIRO, C. J. S. Relações biográficas do patrimônio cultural no modelo EDM: uma proposta de integração de acervos sobre Oswaldo Cruz. RICI - Revista IberoAmericana em Ciência da Informação, Brasília, DF, v. 14, n. 2, p. 367-381, 2021. Disponível em: https://doi.org/10.26512/rici.v14.n2.2021.28293. Acesso em: 8 jul. 2023.
WIKI. In: WIKIPÉDIA: a enciclopédia livre. [San Francisco, CA: Wikimedia Foundation, 2023]. Disponível em: https://w.wiki/Aw3C. Acesso em: 5 jul. 2023.
- ↑ Os autores desenvolvem o projeto com o apoio de bolsa de Produtividade do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq).
- ↑ A noção de silos nos leva para a metáfora do isolamento de dados e à falta de integração com elementos externos (Koutkias, 2019).
- ↑ Apenas recentemente foi compartilhado pela comunidade desenvolvedora de software um programa de computador específico para a HDB (pyHDB), escrito com a linguagem de programação Python e utilizando técnicas de web scraping (Brasil, 2022). A ferramenta objetiva contornar a dificuldade de extração de dados causada pela interface gráfica da HDB, o que facilitará muito a coleta e organização de conjuntos de dados (datasets) no futuro.
- ↑ A ideia de big data passa pelo uso de maior volume de dados (o primeiro V) e com uma imensa variedade das fontes (o segundo V). Essas demandas vieram acompanhadas de mais alguns importantes elementos que permeiam as discussões na atualidade, a veracidade (o terceiro V), a velocidade (o quarto V) (Ribeiro, 2014) e a agregação de valor aos dados (o quinto V), sejam esses de origem econômica ou cultural (Davenport, 2014).
- ↑ Ver em: https://musicabrasilis.org.br/.
- ↑ GLAM é um acrônimo que significa Galleries, Libraries, Archives and Museums; em português, “Galerias, Bibliotecas, Arquivos e Museus”.
- ↑ Acrônimo para Findable, Accessible, Interoperable e Reusable (Henning et al., 2019).
- ↑ Ver em: https://bndigital.bn.gov.br/dossies/rede-da-memoria-virtual-brasileira/.
- ↑ Grandes computadores utilizados em empresas para processar alto volume de dados. Ver em: https://w.wiki/AzZ9.
- ↑ Ver em: https://lod-cloud.net/.
- ↑ Ver em: https://w.wiki/ua.
- ↑ Ver em: https://w.wiki/AzZA.
- ↑ Ver em: https://w.wiki/AzZB.
- ↑ Ver em: https://w.wiki/Jg.
- ↑ Ver em: https://w.wiki/AzZC.
- ↑ Ver em: https://www.wikidata.org/wiki/Q16142982.
- ↑ Ver em: https://pt.wikipedia.org/wiki/A_Marmota.
- ↑ No contexto da Web Semântica, vocabulários são elementos que possibilitam a descrição da semântica de ligações. Os vocabulários são padronizados pela W3C, coalizão que orienta o desenvolvimento da web. Ver em: https://www.w3c.br/Padroes/WebSemantica.
- ↑ OpenRefine é uma ferramenta livre e de código aberto (open source) que permite a limpeza e a transformação de dados, além de possibilitar a incorporação de vocabulários adequados para descrição dos dados. Ver em: https://openrefine.org/.