Arquivo.pt

Arquivo.pt: A memória da web portuguesa

A efemeridade está na moda. Provam-no os mais de 150 milhões de utilizadores diários do Snapchat e provam-no os 250 milhões de utilizadores diários das Instagram Stories. Chegamos a um ponto tecnológico em que a produção de conteúdos é tão simples e tão massificada que os utilizadores simplesmente não querem que estes registos digitais se perpetuem.

Estes são exemplos que pertencem ao domínio privado, isto é, o que é partilhado pelos utilizadores fica entre os utilizadores. Não pertencem, digamos assim, à grande web. Acontece que no mundo online que é do domínio público, aquele que está acessível para todos, o fenómeno da efemeridade também existe – e é um problema.

Siga o Future Behind: Facebook | Twitter | Instagram

Então e a frase ‘uma vez na internet, para sempre na internet’? É uma máxima que tem uma grande aplicabilidade sobretudo quando são registadas invasões de privacidade, mas a realidade do mundo online é bem diferente: estima-se que 80% das páginas web que são criadas desaparecem ao fim de um ano. Muitas vezes sem que qualquer preservação tenha sido feita.

“Um exemplo que costumo dar é que nós passados 300 anos conseguimos aceder aos conteúdos da Gazeta de Lisboa, que foi o primeiro jornal impresso português. Mas passados dezassete anos não conseguimos aceder aos conteúdos do Diário Digital, que foi o primeiro jornal online português. Isto dá uma ideia: 300 anos e a informação ainda cá está, foi impressa, passado 17 anos a informação já não está cá. Isto pode ser preocupante. Se passamos tudo para o online e por outro lado não guardamos memórias, vamos ser uma sociedade amnésica, ainda mais amnésica do que é hoje”.

As declarações são de Daniel Gomes, investigador da Fundação para a Computação Científica Nacional (FCCN), um dos criadores e atual líder do Arquivo.pt, um serviço criado para funcionar como um backup e motor de busca do passado da web portuguesa. A principal missão desta iniciativa é preservar os projetos que vão sendo criados sob o domínio .PT. Em bom rigor, é a memória da web portuguesa.

O Arquivo.pt já agrega perto de cinco milhões de sites e cerca de quatro mil milhões de páginas. Estes são valores de um repositório que é rico em conteúdos, mas também são valores que não deixam os elementos do Arquivo.pt totalmente satisfeitos. Há sempre sites que não são preservados, há sempre uma parte da história da internet portuguesa que se perde para sempre.

“É triste porque às vezes as pessoas vêm ter connosco e dizem ‘Fiz um trabalho, dediquei anos a fazer um site’. As pessoas não se apercebem de quão vulnerável é a informação que estão a colocar online. (…) Não lhes passou pela cabeça que aquela informação pudesse desaparecer tão depressa, só se descobre isso quando é tarde demais. (…) Quando alguém perde algo que é de interesse pessoal ou de interesse mais abrangente, é sempre triste. O nosso objetivo é que isso não aconteça”.

Construir uma máquina do tempo

“Quando eu estava a estudar, ainda a tirar a licenciatura, a internet estava a começar a explodir, por assim dizer. Eu comecei a estudar informática em 1996 e os potenciais eram inúmeros”, começou por contar Daniel Gomes.

Enquanto foi progredindo nos estudos, Daniel, os colegas e os professores iam prestando atenção à evolução de diferentes projetos web. Havia dois que lhes chamavam especial atenção: o Google e o Internet Archive. Na altura os investigadores consideravam aqueles projetos como “extraordinários”, “pela dimensão e pelo impacto que tinham”.

“Já na altura o meu orientador, o Mário Silva, disse ‘Nós deviamos fazer isto aqui em Portugal, porque o Internet Archive está a fazer uma recolha relativamente pouco detalhada, pouco exaustiva da web portuguesa’”, recorda Daniel Gomes.

À medida que surgiam novos projetos web portugueses – como os primeiros jornais online – os investigadores procuravam-nos no Internet Archive para verificarem o processo de preservação. Foi aí que repararam que esse processo não era o mais completo e chegava mesmo a não contemplar algumas páginas web portuguesas.

“Nós começamos a pensar ‘Bem, o Internet Archive faz um bom trabalho, mas se calhar nós aqui também temos esta necessidade de fazer um arquivo mais exaustivo’. Fizemos um projeto inicial, no ano 2000, com a Biblioteca Nacional de Portugal. Tentou-se fazer uma recolha seletiva das publicações online portuguesas, não era uma recolha de larga escala, como fazemos hoje, era algo mais focado”.

Em 2001 nascia o TUMBA!, um acrónimo para Temos Um Motor de Busca Alternativo!. A tecnologia criada em torno do TUMBA!, um motor de pesquisa mais focado na internet portuguesa, acabaria por funcionar como a génese de desenvolvimento do Arquivo.pt.

Só em 2006 é que foi disponibilizado um protótipo do arquivo e só em 2008 é que o projeto arrancou de forma oficial. Em 2010 foi lançado o primeiro protótipo experimental do serviço de pesquisa e acesso do Arquivo.pt. Agora o sistema é um devorador de informação.

O Arquivo.pt tem atualmente cerca de 200 terabytes com conteúdos da web portuguesa

Em termos tecnológicos o Arquivo.pt funciona de forma semelhante ao Google: existe crawlers que vão recolhendo informação de forma automática dos sites e páginas web portuguesas.

“É como se fosse uma pessoa que abre um site e grava a página. Segue uma ligação, grava a nova página. Abre outra ligação, grava esta nova página. Só que não é uma pessoa que faz, seriam precisas muitas pessoas para fazer isto. É um robô, um programa de computador que recolhe esta informação toda”, explica o investigador da FCCN.

“Esta informação é guardada aqui, nas nossas instalações, no nosso conjunto de computadores e depois esta recolha é processada com um sistema de processamento distribuído – é uma série de computadores que processam a informação”.

Este grande volume de informação é depois ‘digerido’ por um conjunto de computadores que criam o sistema de indexação. É este sistema que permite devolver resultados perante as pesquisas que são feitas – encontra correspondências entre o que é procurado e o que existe no arquivo.

É possível pesquisar por páginas web desde o ano de 1996

“Se usarmos a analogia dos livros, em vez de estarmos a ler os livros todos de uma biblioteca, estamos a usar um catálogo. Os nossos índices do Arquivo.pt são uma espécie do catálogo de todos os conteúdos que nós cá temos”.

É nesta etapa final, a da devolução dos resultados, que o Arquivo.pt mostra o seu lado único e distancia-se do conceito de típico motor de busca. Quando abrimos e pesquisamos no Google, ele devolve-nos o resultado da web atual, da web que já foi indexada. Isso não quer dizer no entanto que essa web esteja disponível. Não é à toa que as pessoas encontram muitas páginas offline, sites cheios de erros, desconfigurados ou que simplesmente já não existem.

“No Arquivo.pt quando a pessoa clica no resultado, o Arquivo.pt reproduz a página como ela era na data em que foi recolhida. É uma preocupação e um desafio diferente: tem de se preservar a informação da forma mais fidedigna e original possível. Isto é um desafio de investigação e tecnológico bastante grande que nós temos que enfrentar. Além disso, além de preservarmos uma determinada página numa determinada data, preservamos também a evolução da página ao longo do tempo”.

Como Daniel Gomes gosta de salientar, o presente, o agora, esse está acessível – o que está no passado, e nem precisa de ser um passado assim tão distante, esse é que é difícil de encontrar.

Arquivo.pt Daniel Gomes
Daniel Gomes, um dos criadores do Arquivo.pt, diante das instalações da FCCN. #Crédito: Future Behind

Proteger o património

Em última análise, o Arquivo.pt é uma parte importante do património português – ou melhor dizendo, do património digital português. Quando visitámos as instalações técnicas do Arquivo.pt ficamos também a saber como é gerida a proteção de toda esta informação.

Existem vários níveis de redundância para que não ocorra uma perda de dados, mesmo em caso de catástrofe natural. À medida que a informação vai sendo recolhida pelos crawlers do Arquivo.pt, ela está a ser imediatamente guardada num computador que tem discos redundantes. Se um dos discos avariar não há problema. Se dois falharem, começa a haver problemas. Se três discos avariarem, então os dados ficam em sério risco.

Daniel Gomes diz que a probabilidade de três discos falharem ao mesmo tempo é baixa. Mas isso não impede que todo o computador possa deixar de funcionar por algum motivo – por isso é que à medida que a informação é guardada no computador principal, chamemos-lhe assim, está a ser guardada num outro computador que funciona como unidade de backup.

Acontece que os dois computadores estão no mesmo centro de dados em Lisboa. Na hipótese de acontecer a tal catástrofe, lá se vão os dois computadores – mas não se vai o Arquivo.pt. No fim de cada recolha periódica a informação é guardada em cassetes de fita magnética que são enviadas para o Porto, onde a FCCN tem outro centro de dados.

As cassetes são colocadas numa caixa e lá vão a caminho do norte. Este processo é repetido, sensivelmente, a cada três meses. Mas se nesta fase da descrição ainda não está totalmente convencido relativamente ao sistema de redundância, fique ainda a saber que os dados recolhidos pelo Arquivo.pt também são enviados, via internet, para o Internet Archive em São Francisco, nos EUA. É uma terceira localização geográfica e é bastante distante das duas principais.

Se homem prevenido vale por dois, então o Arquivo.pt tem um valor inestimável – devido ao perfil de conservação do projeto, facilitar não é uma opção.

Acabámos por ficar surpreendidos pelo Arquivo.pt apenas ocupar um espaço total de 200 terabytes, sobretudo tendo em conta que já existem computadores portáteis que são vendidos com discos de 2 terabytes. Daniel Gomes explicou que o volume de informação recolhido é muito maior, mas que essa informação é depois comprimida justamente para que haja uma otimização do espaço.

Mas nem é tanto a questão do espaço que desafia os engenheiros do Arquivo.pt, é sim a própria questão dos discos rígidos. Numa época em que os processadores são rápidos e as memórias RAM são rápidas, os discos rígidos não sofreram evoluções tecnológicas muito assinaláveis no que diz respeito às velocidades de acesso à informação.

Se está a pensar em armazenamento SSD, pense também nos custos que isso acarretaria para a gestão global do projeto: o Arquivo.pt exige um orçamento médio anual na casa dos 285 mil euros, um valor que engloba não só o material, como todo o desenvolvimento tecnológico e toda a investigação científica que tem associados.

O Arquivo.pt é como o vinho do Porto

Em 2016 o Arquivo.pt teve em média 3.900 utilizadores por mês. Este ano a média de acessos ronda os 7.000 utilizadores por mês, um crescimento assinável, mas que os responsáveis do projeto gostavam de ver ainda mais acentuado.

“Se estamos satisfeitos? Não, de todo. O sistema tem capacidade para aguentar cinco pesquisas por segundo, em paralelo, em carga, durante muito tempo. O sistema está desenhado para aguentar muito mais carga do que está a receber agora. Enquanto o sistema não estiver sobrecarregado, não estamos satisfeitos”, salientou Daniel Gomes.

Para que os responsáveis do Arquivo.pt fiquem satisfeitos é preciso então que mais pessoas passem a utilizar o serviço – e na sua opinião, isso não acontece apenas por desconhecimento e não por falta de interesse.

“Agora temos um desafio muito grande que é tornar o serviço conhecido. É aqui que nós falhamos, por assim dizer, nós somos uma organização de tecnologia, não somos uma empresa de comunicação e por incrível que pareça a comunicação e a disseminação é mais cara que a tecnologia”, explicou o líder do projeto.

Daniel Gomes FCCN
A manutenção dos servidores é um dos aspetos a ter em conta na gestão do Arquivo.pt. #Crédito: Future Behind

Para rentabilizar ainda mais a ‘memória da web portuguesa’, os responsáveis do Arquivo.pt têm trabalhado o projeto para que seja visto não só como um motor de busca para o passado, mas como uma ferramenta científica e de investigação.

Estão disponíveis interfaces de desenvolvimento de aplicações (API na sigla inglês) que permitem aos interessados criar serviços que tiram proveito da tecnologia e da informação que existe no Arquivo.pt. A FCCN também está agora a disseminar o projeto junto de investigadores que queiram usar este repositório de informação como ferramenta de desenvolvimento para os seus trabalhos.

Atualmente estão três projetos em curso – um em ciências da comunicação, outro em ciências sociais e um terceiro em ciências da documentação -, sendo que há um que chama especialmente à atenção. É um estudo sobre cultura popular, em específico sobre a vaga punk straight edge que ‘invadiu’ Portugal na década de 1990 – justamente na altura em que a internet estava a crescer.

“Este movimento organizou-se e foi espelhado em grande parte através da web. Os artefactos originais estão ali. Depois o movimento desapareceu ou decaiu rapidamente. Portanto, naquele intervalo dos anos 90 e início dos anos 2000, os artefactos originais muitos deles estão exclusivamente no Arquivo.pt. Este é um exemplo de como uma cultura popular é preservada de forma única, nunca foi preservada assim”, defendeu Daniel Gomes.

Numa outra vertente de evolução, os investigadores da FCCN estão a trabalhar num sistema de pesquisa por imagens, sempre com um sentido histórico associado. “Se quiseres pesquisar a imagem dos candidatos à presidência de 1996 e quiseres ver logo as fotografias, eu desafio-te a fazer isto utilizando o Google ou outro tipo de sistema qualquer”.

Como Daniel Gomes salienta, este é um projeto de desafios muito grandes e estão a ser dados passos humildes para que venha a ser concretizado. “Temos um protótipo funcional, só não tem qualidade de serviço. As pesquisas ainda estão lentas e é preciso melhorar a relevância”.

Enquanto este projeto único não é concretizado, há uma outra característica que coloca projetos como o Arquivo.pt em contraciclo com a efemeridade dos nossos tempos.

“Ao contrário de toda a tecnologia da informação, em que as pessoas andam a correr contra o tempo, parece que está tudo a ficar obsoleto, temos o privilégio de sermos o único serviço que quanto mais velho ficar, melhor é. Tem sempre desafios tecnológicos. Mas enquanto toda a gente quer ter os dados mais recentes, os nossos quanto mais antigos forem mais valiosos se tornam”.

Vai uma viagem até ao passado da web portuguesa?

N.R. [15:03H 28-07-2017]: Artigo atualizado para corrigir o valor médio anual do projeto.