Quando, nos já longínquos anos 1990, o historiador francês Roger Chartier escreveu sobre a revolução que o computador estava trazendo à cultura escrita, talvez não imaginasse as implicações que as transformações digitais ensejariam sobre as teses e dissertações de seus próprios estudantes. De forma parecida com o que ocorria com os livros das bibliotecas dos mosteiros europeus da Idade Média, guardados como tesouros patrimoniais de suas comunidades, as bibliotecas universitárias da era analógica tratavam as teses, dissertações e trabalhos de conclusão de curso como “literatura cinzenta”, pois o acesso a esses materiais e sua circulação eram restritos às instituições que os detinham.
A migração para o formato digital deu visibilidade e ampliou o acesso a trabalhos que são resultado de anos de investimento em tempo, estudo, pesquisa e recursos públicos. Hoje, qualquer pessoa com acesso à internet pode entrar na Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e buscar trabalhos indexados nos repositórios institucionais de 133 diferentes universidades brasileiras – incluindo a Unesp. Mas, e se amanhã um curto-circuito derrubar o data center de uma dessas universidades? Ou um hacker atacar um desses repositórios? E se os arquivos do backup estiverem corrompidos? É para evitar tantos possíveis “e se” que a Coordenadoria Geral de Bibliotecas da Unesp participa dos esforços para implementar a Política de Preservação Digital para Documentos de Arquivo da universidade.
Flávia Maria Bastos, titular da coordenadoria geral de bibliotecas da Unesp e integrante da Comissão Permanente de Preservação Digital (CPPD), conta que cada grupo de trabalho envolvido com a implementação da Política escolheu um tipo de objeto digital para desenvolver um projeto-piloto de preservação. A categoria de objetos digitais é ampla e variada, podendo incluir documentos de texto, planilhas, áudios, vídeos, e-mails, páginas Web, fotografias, hotsites de eventos… Enfim, uma infinidade de formatos de arquivos digitais que acessamos todos os dias, com diferentes objetivos e aplicações.
“O primeiro objeto digital com que estamos trabalhando a fim de assegurar sua preservação são as teses, dissertações e os trabalhos de conclusão de curso. São, vamos dizer assim, os nossos materiais-pilotos’’, diz Bastos. O grupo de trabalho que ela integra é formado por bibliotecários de diversas unidades da Unesp e por uma bibliotecária da Universidade Federal do Rio Grande do Norte (UFRN). A parceria entre Unesp e UFRN é facilitada pelo fato de ambas as universidades fazerem parte da Rede Cariniana – uma rede de serviços de preservação digital ligada ao Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT), órgão do Ministério da Ciência, Tecnologia e Inovação.
A estratégia das caixas-fortes descentralizadas
Doutora pelo programa de pós-graduação em Ciências da Informação da Faculdade de Filosofia e Ciências da Unesp, câmpus de Marília, Bastos diz que seu grupo de trabalho está focado em colocar em prática uma abordagem conhecida como “preservação digital distribuída”. Essa metodologia utiliza um software chamado LOCKSS. O nome é bastante autoexplicativo: trata-se de uma sigla em inglês para “muitas cópias mantêm as coisas seguras” (“lots of copies keep stuff safe”). Desenvolvido na Universidade Stanford, nos Estados Unidos, o software serve para subir cópias seguras dos arquivos a serem preservados em “caixas” digitais descentralizadas, organizadas em rede.
“A gente chama de caixas LOCKSS. É como se fosse um cofre de banco, só que de forma digital. O conceito dessa preservação digital distribuída é que, por exemplo, a Unesp tenha uma caixa LOCKSS e a UFRN também. No IBICT, em Brasília, também haverá outra caixa dessa. Eu vou pegar os objetos digitais da Unesp e subir para essa caixa LOCKSS lá em Brasília. A UFRN também vai subir os objetos dela. E, além disso, vou armazenar os objetos da UFRN, e a UFRN vai armazenar os objetos digitais da Unesp. Cada instituição armazena os objetos de outra instituição. E ninguém tem acesso a essa outra caixa, exceto nos casos em que seja necessário recuperar esses objetos no futuro”, explica Bastos. Essa metodologia é bastante empregada pelas grandes empresas editoras de periódicos científicos, como Elsevier, Wiley, Springer ou Taylor & Francis.
Etiquetas diferentes para materiais diferentes
Mas até que o objeto digital esteja repousando são e salvo no interior de uma caixa-forte digital, há um caminho a percorrer. Como a preservação digital envolve estratégias de emulação ou migração de formatos para garantir que o conteúdo permaneça acessível aos usuários de um futuro distante, a descrição precisa dos objetos digitais é fundamental.
Nesse sentido, embora teses e dissertações sejam salvas em formato PDF tanto quanto as pautas das reuniões do Conselho Universitários (CO), esses textos são objetos digitais distintos, pois foram criados com características e objetivos muito diferentes. Por isso, nem toda informação que é relevante para descrever um objeto fará muito sentido no caso de outro. Para os objetos digitais, a descrição é feita por meio de metadados. Eles funcionam como uma espécie de etiqueta que permite recuperar a informação contida no arquivo sem ter de abri-lo. Também servem como marcadores da integridade e autenticidade do arquivo, pois registram sua origem e suas modificações posteriores, descrevendo todo seu ciclo de vida.
Uma tarefa importante do grupo de trabalho das bibliotecas foi definir quais atributos das teses e dissertações eram relevantes para se tornarem metadados dos objetos digitais. São informações que vão desde o nome do autor e do orientador ao sistema operacional no qual o arquivo original foi gerado. As informações permitirão não apenas que os usuários dos repositórios que contêm trabalhos acadêmicos encontrem o que estão buscando, mas também que os arquivos sejam convertidos para formatos mais modernos toda vez que uma mudança tecnológica tornar obsoleto o formato mais antigo. A rápida obsolescência das tecnologias na era digital, afinal, foi justamente o que motivou a abertura do campo da preservação digital.
O grupo sistematizou sua proposta para o trabalho com teses e dissertações em um artigo científico publicado em 2022 na Revista Brasileira de Preservação Digital. As coautoras do artigo relatam que foi preciso criar um ciclo de vida específico para esse tipo de material, diferente daquele de uma fotografia ou um podcast, por exemplo. Elas defendem que esse ciclo passe por cinco etapas de gestão da preservação: planejamento; produção e submissão; arquivamento e empacotamento; serviços de preservação digital distribuída; e recuperação.
A preservação nunca acaba
Vale lembrar que teses, dissertações e trabalhos de conclusão de curso são apenas uma parte dos recursos sob a guarda das bibliotecas universitárias. Na verdade, cabe a elas a responsabilidade de cuidar de toda a produção acadêmico-científica desenvolvida dentro da instituição. Isso inclui livros, capítulos de livros, trabalhos apresentados em eventos, artigos científicos, patentes, partituras, jornais etc.
A Unesp possui dois ambientes digitais que oferecem acesso a esses materiais digitais: o Repositório Institucional, que reúne quase 200 mil itens da produção de professores, estudantes e funcionários técnico-administrativos, e a Biblioteca Digital, que disponibiliza coleções de livros digitalizados livres de direitos autorais. A ideia é que, no futuro, a gestão de todos esses conteúdos também siga os pressupostos e métodos da preservação digital. “Tudo que está dentro do ambiente digital do repositório e do ambiente da Biblioteca Digital precisa ser preservado digitalmente. Essa tarefa é responsabilidade das bibliotecas”, reforça Bastos.
As estratégias que permitirão desempenhar este ambicioso conjunto de tarefas serão apresentadas num plano de ação que está sendo elaborado pelo grupo de trabalho das bibliotecas. Quando estiver pronto, o documento trará as orientações para migrar tipos de arquivo, representar os objetos digitais adequadamente por meio de metadados e registrar todos os processos de forma a garantir sua autenticidade e a integridade.
“Desde Gutenberg, com a invenção da imprensa e o uso do papel, nas bibliotecas o foco estava na preservação do objeto físico”, diz Bastos. A era dos documentos digitais traz desafios bem diferentes. “Enquanto se está trabalhando com o objeto, a preservação digital não tem fim. Ele exige que sejam criadas garantias de longo prazo para preservar a memória acadêmico-científica da Universidade”, diz.
Imagem acima: Depositphotos/Maxkabakov