Certamente!

Paulo Querido. Na Internet desde 1989

9 de junho de 2010

É relevante arquivar todos os tweets na Biblioteca do Congresso? José Afonso Furtado responde

A título excecional, assumido ainda antes da publicação, no dia 2 deste mês, em Uma pergunta por dia, republico aqui a micro-entrevista com José Afonso Furtado.

Em que medida é que é relevante arquivar na Biblioteca do Congresso todos os tweets produzidos desde 2006?

José Afonso Furtado responde:

“Em 14 de Abril do corrente ano, a Biblioteca do Congresso anunciava no seu twitter e no seu blogue um acordo com a empresa Twitter para a doação de todos os tweets públicos da sua plataforma, desde o início do serviço em 2006 até à actualidade: uma vertiginosa quantidade de informação que cresce a um ritmo que ronda os 50 milhões por dia, tendo atingido a 4 de Março último o valor acumulado de 10 mil milhões de de tweets.

Talvez seja ainda cedo para nos apercebermos do real significado deste acontecimento em todas as suas facetas, mas estou em crer que, para o bem e para o mal, se trata do facto mais importante desde que, em vários países o depósito legal passou a abranger a Internet.

Antes de avançarmos algumas pistas de reflexão, convirá esclarecer os factos e a argumentação que conduziram a esta decisão.

1) Factos

a) Trata-se de uma doação do Twitter, sem contrapartidas financeiras por parte da Biblioteca do Congresso; mas, como refere Martha Anderson, directora do National Digital Information Infrastructure and Preservation Program at the Library of Congress, numa entrevista ao American Prospect  a Biblioteca assegurará os custos de armazenamento (por agora cerca 5 terabytes), e o reforço e pagamento dos funcionários adicionais;

b) a doação integra apenas o conjunto dos conteúdos públicos do  arquivo do Twitter, dele não fazendo parte nem contas privadas nem tweets apagados pelos seus autores;

c) também  informação linkada (como imagens e websites)  não faz parte do contrato de cedência e a Biblioteca do Congresso afirma não ter quaisquer planos para coligir esses dados. Este ponto, aliás, levou Siva Vaidhyanathan a comentar: «What use is the Twitter archive to researchers without live links? What percentage of each tweet is a link? What percentage of tweets are link-based or link-heavy. In other words, besides hash tags, aren’t links what makes Twitter matter?»,

d) uma das claúsulas do acordo estipula a existência de um período mínimo de 6 meses de intervalo entre a produção do tweet e a sua transferência para a Biblioteca; alega-se como justificação para este «embargo» a possibilidade de proporcionar aos utilizadores a eliminação dos seus tweets e “things like that” (sic), como refere Martha Anderson;

e) estão convencionadas restrições muito rígidas à utilização do arquivo : só poderá ser utilizado internamente em função das necessidades da Biblioteca, com excepção de investigadores  devidamente autorizados e só após compromisso assinado de não fazer uso comercial dos conteúdos. Por outro lado, a Biblioteca não poderá redistribuir o arquivo a terceiros na sua totalidade ou, pelo menos, em parte substancial;

f) no entanto, a Biblioteca do Congresso pode difundir no seu site, após os referidos seis meses, elementos do arquivo, com a condição de  bloquear a indexação por motores de busca (robots.text file) e de impedir o download significativo de conteúdos.

g) por fim, ainda Martha Anderson, deixa entrever a possibilidade de tão cedo o arquivo não ser disponibilizado : «I’m not sure how soon we’ll make the tweets available. There could be an embargo of several years, just to give a gap between the current environment».

2) Argumentário

O valor do conteúdo como expressão dos estilos de vida e cultura contemporânea é um dos fundamentos da argumentação que justificaram esta decisão. Como afirma James Billington, director da Biblioteca do Congresso, “Anyone who wants to understand how an ever-broadening public is using social media to engage in an ongoing debate regarding social and cultural issues will have need of this material.” A inclusão dos tweets nas colecções da Biblioteca do Congresso parece igualmente entroncar numa tendência de registar a visão do cidadão comum sobre a vida contemporânea. Como se afirma no post que anuncia este acontecimento: “The archive follows in the Library’s long tradition of gathering individuals’ firsthand accounts of history, such as “man on the street” interviews after Pearl Harbor; the September 11, 2001, Documentary Project; the Veterans History Project (VHP); and StoryCorps.”

Como é evidente, este conceito de cidadão comum pode ser largamente discutível, tanto mais que apenas uma parte reduzida dos cidadãos intervêm nesta rede. (PEW Internet & American Life Project – Twitter and Status Updating, Fall 2009).  Por último, e desde 2000, que a Biblioteca do Congresso tem vindo a recolher e arquivar conteúdos “born digital”, entre os quais os disponíveis na web, maioritariamente nas áreas jurídica e política da vida norte-americana. É nessa sequência que a biblioteca lidera o programa intitulado “National Digital Information Infrastructure and Preservation Program” cujo objectivo é o de recolher, preservar e tornar acessíveis conteúdos digitais, particularmente os que se apresentam exclusivamente nesta forma.

Esta “patrimonialização fulminante” do Twitter, consagrada pela sua entrada na  Biblioteca do Congresso, não deixa de ser surpreendente, mesmo que possa adequar-se ao tempo ultra-rápido do microblogging. Lionel Maurel considera que o Twitter contém já verdadeiras  peças de história, como os tweets ligados à hashtag #iranelections, o streaming da vitória eleitoral de Obama  ou ainda o primeiro tweet enviado do espaço. Assim, «a globalidade dos tweets forma também um formidável arquivo do quotidiano, abrindo novos campos à investigação histórica  através do data mining».

Mas este acontecimento assume uma relevância inquestionável a outros títulos:

a) do ponto de vista da preservação da memória da vida quotidiana, ou pelo menos, das práticas e representações sociais e culturais dos indivíduos presentes nesta plataforma;

b) do ponto de vista das redes sociais: o tipo de informação partilhado nestas novas plataformas parece alcançar, assim, uma dimensão institucionalmente reconhecida e o seu estatuto de cidadania;

c) do ponto de vista da inovação: é a primeira vez que uma instituição armazena todo um conteúdo disponível na web. Neste sentido, o arquivo do Twitter pode funcionar como laboratório para ensaiar soluções sobre o armazenamento, organização e disponibilização actual e futura da informação produzida pela sociedade contemporânea no ambiente web; nesse sentido aponta Matt Raymond, da Biblioteca, no The Library and Twitter: An FAQ: «a prioridade da Biblioteca é a preservação do arquivo a longo prazo. (…)  Mas irá trabalhar com comunidades académicas de investigação [provavelmente alargando o âmbito da parceria com a Stanford University]  (…) para que a colecção Twitter possa servir como case study no desenvolvimento de políticas para pesquisa e uso dos nossos arquivos digitais» ;

d) do ponto de vista simbólico: é relevante que uma biblioteca, e por maioria de razão a Biblioteca do Congresso (com estatuto nacional) assuma um papel decisivo no tratamento de informação num estádio inicial da sua vida e cuja importância histórica é ainda questionada.

Para além destes aspectos de carácter global, esta decisão deve ser contextualizada, tendo em linha de conta diversos planos que caracterizam a sua actuação. Em primeiro lugar, no plano da identidade ou da missão, a Biblioteca assume-se como instrumento de recolha e disponibilização de uma colecção universal de conhecimento e criatividade, assegurando a sua transmissão às futuras gerações. Apesar da dimensão do projecto, deve reconhecer-se que é discutível a opção pela recolha exaustiva deste material.

Mesmo considerando o valor informativo, social e cultural de muitos tweets, pode questionar-se se todo o conteúdo terá a mesma importância, quer como retrato da vida contemporânea, quer como testemunho com interesse histórico. A assumpção de que uma geração lega às vindouras não todo o seu passado, mas uma determinada visão (ou conjunto de visões) sobre esse passado já foi assumida há muitas décadas pelas principais instituições da memória nas sociedades contemporâneas – os arquivos. Aliás, a própria Biblioteca do Congresso afirma, no seu Plano Estratégico para 2008-2013 que as suas colecções representam o resultado da aplicação de um conjunto de critérios, como, por exemplo, a importância dos recursos e a sua relação com outros já existentes. Contudo, há motivos que podem justificar a atitude assumida face à doação do Twitter.

Olivier Ertzscheid, num seu post, aponta três razões: Em primeiro lugar, a simplicidade: é muito mais simples recolher, a granel, a totalidade do arquivo Twitter que começar pela sua investigação para tomar decisões de selecção a montante. Aceita-se, pois, tudo e mais tarde se realizará o indispensável trabalho de classificação, de modo a isolar, por exemplo, os tweets das personalidade políticas. Em segundo lugar, o grafo social. O arquivo Twitter assim constituído permitirá – a investigadores, sociólogos, historiadores – reconstituir o grafo relacional de um indivíduo escolhido. Muito embora não seja possível saber quem são os  followers e os followed, «each message is accompanied by some tidbits of supplemental information, like the number of followers that the author had at the time and how many users the author was following».

Ora, argumenta Ertzscheid, o «verdadeiro» grafo relacional de um utilizador encontra.se igualmente materializado no próprio interior dos seus tweets, designadamente graças ao símbolo “@” que, quando é seguido do nome de um utilizador de  Twitter, permite que nos dirijamos directamente a ele. Assim, removendo com o apoio de um algoritmo os “@” de qualquer conta twitter arquivada, torna.se fácil reconstituir a sua rede relacional, pelo menos no seu primeiro círculo de proximidade. Desse modo, é de facto o arquivo «de um» grafo social de uma pequena parte da humanidade conectada que se encontra «em memória» na Biblioteca do Congresso. [Voltaremos a estas e outras questões de privacidade mais abaixo.]

Em terceiro lugar, o próprio arquivo. Se a Biblioteca do Congresso se interessa pelo Twitter, um serviço que, à escala da web é ainda muito recente e em relação ao qual nada permite afirmar se será ou não perene na sua forma actual e, mais, pela totalidade do Twitter, «é porque nessa totalidade transparece a própria essência do objecto documental ideal: Twitter como um paradigma da documentação e arquivística digital. E por isso o Twitter tem valor de contexto e de ilustração. Contexto e ilustração do mundo (real) em que se inscreve e que vem precisamente documentar, de que atesta de qualquer pessoa os movimentos importantes ou acessórios, um mundo de que é testemunho, valor de prova, o traço memorial imediato».

3) Questões em aberto

Aqui chegados, e ponderada a argumentação da Biblioteca do Congresso e a importância do acontecimento, não é contudo possível pode iludir uma série de questões, desde logo colocadas, e que levaram a esclarecimentos e entrevistas de responsáveis da Biblioteca. No entanto, as respostas  estão longe de esclarecer satisfatoriamente algumas dúvidas,  o que personalidades como Michael Zimmer, Anthony Hoffmann, Fred Stutzman ou, deste lado do Atlântico, Lionel Maurel, têm vindo a referir. O facto de o Twitter ser o exemplo tipo de um serviço web 2.0, cujo conteúdo é produzido pelos seus utilizadores  (User Generated Content), não facilita posições muito rígidas,  designadamente no que se refere à questão da propriedade destes conteúdos, inclusivamente pelo facto das mensagens do Twitter possuírem uma natureza bastante peculiar.

3.1) Copyright e direito de autor

Lionel Maurel (que seguimos neste ponto) tem escrito amplamente (ver sobretudo http://scinfolex.wordpress.com/2009/06/14/twitter-et-le-droit-dauteur-vers-un-copyright-2-0/ e http://scinfolex.wordpress.com/2009/06/27/twitter-et-le-droit-dauteur-des-relations-complexes/) sobre este tema, considerando que, tratando-se embora de matéria muito complexa, os tweets não se encontram abrangidos, na sua imensa maioria, pela propriedade intelectual :  seja por não poderem ser considerados como obra original seja por questões relacionadas com o nível da sua apresentação formal (por exemplo, o uso discursivo do twitter pode ser o equivalente de conversas ocasionais). Desse modo, eles poderão ter mais a ver com a o estatuto de informação em bruto ou de dados, e não deveriam poder ser objecto de uma apropriação (no limite pelos próprios «autores…).

No entanto, quando se lê o Gift Agreement divulgado pela Biblioteca do Congresso, verificamos que o Twitter se baseia precisamente no seu suposto Copyright para conceder à Biblioteca uma licença de utilização dos seus conteúdos. Veja-se este ponto específico tal como plasmado no acordo:  «2) Copyright : Donor grant an irrevocable nonexclusive licence to the library for such rights as the Donor has the right to transfer or licence under the Twitter Terms of Service in place at the time of the gift or before. The current, as of the effective date, and previous Terms of Service are appended».

Na realidade, o Twitter está a basear-se nos seus Terms of Service (http://twitter.com/tos) para reivindicar  um Copyright sobre os conteúdos produzidos pelos seus utilizadores. Ora, o que provavelmente a maioria dos utilizadores do Twitter não se terá apercebido é que, a 10 de Setembro de 2009, o Twitter modificou unilateralmente as suas condições de utilização de Serviço  (TOS – Terms of Service) num sentido bem mais assertivo. Até então, o Twitter não só não reivindicava qualquer direito de propriedade intelectual sobre os seus conteúdos (sob o lema Copyright (What’s Yours is Yours) como incitava mesmo os seus utilizadores a colocá-los no domínio público : «1. We claim no intellectual property rights over the material you provide to the Twitter service. Your profile and materials uploaded remain yours. You can remove your profile at any time by deleting your account. This will also remove any text and images you have stored in the system.2. We encourage users to contribute their creations to the public domain or consider progressive licensing terms». Mas, a partir dessa data, a filosofia alterou-se radicalmente. Agora, a formulação é a seguinte e vale a pena referi-la na sua integralidade pois suponho ser muito pouco conhecido.

You retain your rights to any Content you submit, post or display on or through the Services. By submitting, posting or displaying Content on or through the Services, you grant us a worldwide, non-exclusive, royalty-free license (with the right to sublicense) to use, copy, reproduce, process, adapt, modify, publish, transmit, display and distribute such Content in any and all media or distribution methods (now known or later developed).

Como sublinha Maurel, é com base nesta licença  – royalty-free license (with the right to sublicence) – que o Twitter estabelece os termos da sua doação e que lhe confere  juridicamente o seu estatuto de Donor. Ora, pode questionar-se seriamente se esta cadeia de concessões  tem validade e se  o Twitter pode reivindicar um direito sobre os seus conteúdos. Assim, conclui, não só o fundamento da convenção de doação  parece duvidoso  como, paradoxalmente, pode ser «prejudicial, pois homologa o gesto de apropriação pelo Twitter dos conteúdos produzidos pelos seus utilizadores, com o aval, agora, da própria Biblioteca do Congresso.» Acresce que esta, nos termos da lei americana do depósito legal, não tinha qualquer necessidade desta convenção para arquivar o conteúdo do Twitter.

3.2) Privacidade

Várias vozes se levantaram nos Estados Unidos  igualmente para contestar a possibilidade do Twitter oferecer os seus arquivos à Biblioteca do Congresso, em nome do respeito à vida privada.

E na verdade, algumas das dúvidas levantadas estão bem longe de se encontrarem esclarecidas, mesmo após as declarações de Matt Raymond e a entrevista de Martha Anderson.Se não, vejamos:

3.2.1) Informação pessoal/professional

Questionada directamente sobre este tema, Martha Anderson diz pouco mais do que generalidades,   aludindo designadamente ao modo como a anonimização poderá ajudar a diminuir as preocupações em matéria de privacidade: «And there’s a lot of work going on, especially over at [the National Institutes of Health] about how to anonymize data and still make it useful. We’re really big on partnering with people to learn what they’re learning, so I think that’s an area we’ll look into. In serving it, what can we do to make it useful to research but not identify personal information?» Michael Zimmer, por exemplo (http://michaelzimmer.org/2010/04/29/more-details-on-twitter-library-of-congress-deal/) considera esta resposta insatisfatória, defendendo que a Biblioteca do Congresso deveria ter uma posição mais forte sobre a possível existência de conteúdos pessois no conjunto de dados: «It should either require it purged before receiving it, or come up with specific steps it will take to scrub personal information from the data visible to outsiders». A atitude é, em meu entender, plenamente justificada: quando Phoebe Connelly lhe pergunta claramente se a Biblioteca está a remeter para o Twitter a questão da informação sobre utilizador, Martha Anderson responde: «Yes, or what they give to us».

E a questão não é das menores, pois abrange, pelo menos, dois temas fulcrais:

a) as Direct Messages. Estas, de facto, não são verdadeiramente «publicadas no  Twitter”, no sentido de «tornadas públicas”. Acresce que quem as utiliza o faz na presunção de estar a usar um canal «privado», pelo que o Twitter estaria pelo menos a faltar ao respeito e às obrigações que o ligavam aos seus utilizadores;

b) Geo-Locational Data. Apesar da Biblioteca já ter reconhecido o potencial que para os investigadores constituiria o acesso aos dados de geolocalização, o Gift Agreement é omisso em relação aos dados a serem partilhados. Zimmer considera que «a possível inclusão de dados geolocacionais constitui uma significativa ameaça à privacidade».

3.2.2) Acesso do utilizador  e Opt-Out

Mesmo em tweets públicos o utilizador tem a possibilidade de apagar informação. Ora, o arquivo dos tweets na Biblioteca do Congresso pode pôr em questão essa possibilidade. Não me refiro agora ao intervalo previsto de seis meses, mas à questão crucial de os utilizadores virem a ter a possibilidade de requerer a remoção de materiais do arquivo, mesmo depois desse período, ou pura e simplesmente decidir um opt-out total.

Afinal, como refere Fred Stutzman (http://fstutzman.com/2010/04/16/is-it-time-to-cancel-your-twitter-account/), o Twitter passou literalmente a informação de milhões de utilizadores para um arquivo publico e permanente sem «consulta, pré-notificação ou oportunidade de debate». E, muito embora Martha Anderson clame que «nothing is forever!» o que é certo é que, por um lado, as cláusulas de doação não têm limitação de prazo,  e, por outro que, como é aliás sua missão, a Biblioteca do Congresso é, refere ainda Stutzman «muito boa a lembrar-ser, mesmo provavelmente a melhor do mundo nessa matéria.  Até o Twitter ter enviado os seus arquivos para a Biblioteca, os utilizadores poderiam, realisticamente, realizar uma série de acções: podiam apagar  tweets; podiam alterar o nome da sua conta; podiam mesmo removê-la. Sem consultar os seus utilizadores, juristas, organizações de protecção de direitos ou outras organismos, o Twitter fez desaparecer sumariamente estes “remédios” de privacidade bem reais do alcance das pessoas».

E, como refere Nate Anderson no Ars Technica (http://arstechnica.com/tech-policy/news/2010/04/why-is-the-us-govt-archiving-your-tweets-we-ask-them.ars), «as far as “format rot” goes, the Twitter data set should be easy enough to use, even decades from now. It’s not locked up in some custom and ancient video or audio codec; this is XML-structured text, so preservation should be a straightforward matter…»

A situação pode ser tanto mais procupante quanto, inquirida sobre a possibilidade de opt-out, a Biblioteca do Congresso ter remetido para o Twitter: «We asked them to deal with the users; the library doesn’t want to mediate that».

Por outro lado, Google criou recentemente um novo serviço, o Google Replay, que permite disponibilizar no seu motor de pesquisa o acesso em tempo real aos tweets, acessível online, sem restrições de embargo, e, bem entendido, figurando nos resultados do motor (e seus concorrentes). Não parece despropositado, face a acontecimentos recentes, considerar que Google não se embaraça excessivamente com questões de protecção de dados pessoais…

Muitos poderão dizer que as reacções em relação à privacidade não têm  sentido face ao Google cache e third party tools e um largo conjunto de hosts onde os tweets são já preservados. Contudo Stutzman nota que estas ferramentas têm determinadas propriedades  - «they react to API calls, they decay, etc» – o que as torna, qualitativamente diferentes de um arquivo gerido profissionalmente. Asssim, «através da criação de um arquivo publico e permanente  Twitter altera as estratégias de gestão de privacidade que passarão a estar disponíveis para os utilizadores no futuro».

Anthony Hoffmann (http://sexdrugsandintellectualfreedom.com/2010/04/22/twitterloc-part-i/) considera que há algo mais implícito na citação anterior: «Google cache and third party tools, as well as their properties, exist in the same digital ecosystem as Twitter–and it is within this ecosystem that users, consciously or not, decide what services to use, what information to share, and what privacy-management strategies to take». Ora, como refere Gary Hall no seu último livro Digitize This Book!, estas ferramentas, tal como o Twitter, são “born digital”. A Biblioteca do Congresso não. A preservação de tweets na Biblioteca é uma ponte sobre um fosso  digital entre duas sociedades  — análoga e digital (e, de um modo mais lato, industrial e informacional) – que não pode ser reunificado evocando as tradicionais noções de público e privado. As questões que agora se colocam são novas e muito mais complexas do que isso.

4.)Uma nova arquivística documental?

Desde o seu início que o conjunto de técnicas de «Documentação» tiveram por objecto, em primeiro lugar, tornar mais eficazes e eficientes e, depois, mais massiva, sistemática e transparente, a externalização das nossas memórias documentais. Ora, como salienta Olivier Ertzscheid, ao decidir arquivar o conjunto deste fluxo conversacional que deve ser qualificado como «memória imediata», a Biblioteca do Congresso faz com que a arquivística no seu conjunto avance um passo mais ou, pelo menos, alarga o seu perímetro (não excluindo que a possa redefinir na sua totalidade). Anteriormente, dava-se início a um processo de arquivística documental «ou no momento em que um documento atingia o final do seu ciclo de vida ou quando o seu valor histórico se encontrava atestado ou considerado como justificando a sua conservação. Com o arquivo do de Twitter nenhuma destas condições se encontra preenchida».

Ora, prossegue Ertzscheid, se se decidir arquivar de modo sistemático e global, silos documentais antes mesmo de uma ou outra daquelas condições se verificar,  arriscamo-nos a «entrar num ciclo de (re)producção memorial inédito», fazendo entrechocar ciclos curtos e memórias longas.

O arquivo passará assim a produzir memória sobre o excesso e deixará progressivamente de dar resposta a uma ausência; vamos criar «memória sobre a memória» quando, desde há séculos, «criamos memória sobre o esquecimento, ou, mais precisamente para evitar o esquecimento». Esta memória que apenas alimenta a si mesma, esta hipermnésia de que sofria o Funes de Jorge Luis Borges (a referência deve-se a Ertzscheid) à escala das instituições que têm por natureza o depósito da nossa memória comum, é redobrada por uma outra corrida desenfreada: «a dos próprios indivíduos mergulhados em ciclos memoriais cada vez mais curtos, cada vez mais instantâneos, mas também cada vez mais densos, externalizados e perenes».

Depois de se ter inventado o direito ao esquecimento digital, Ertzscheid interroga-se se o dever da nossa geração de hipermnésicos compulsivos não será «instaurar um simples direito ao vazio, um direito ao não.dito, ao não-inscrito, ao não-perene? Uma legislação do efémero para evitar a tortura de um património do temporário?»

5) Conclusão

Em síntese, a real importância da transferência do arquivo do Twitter para a Biblioteca do Congresso dependerá em grande medida das respostas que o tempo der a estas questões, particularmente as que concernem ao copyright e direito à vida privada. Delas se poderá concluir, do mesmo modo, o acerto de iniciativas semelhantes em relação a outras ferramentas da Web 2.0.”

Contexto

José Afonso Furtado (@jafurtado no Twitter)  é director da Biblioteca de Arte da Fundação Calouste de Gulbenkian desde 1992. Licenciado em Filosofia pela Faculdade de Letras da Universidade de Lisboa, entre 1987 e 1991 exerceu o cargo de Presidente do Instituto Português do Livro e da Leitura. Foi membro do Conselho Superior de Bibliotecas desde 1998 até à sua extinção em 2007. É membro da Comissão de Honra do Plano Nacional de Leitura.

É Docente do “Curso de Pós-Graduação em Edição – Livros e Novos Suportes Digitais” da Universidade Católica Portuguesa. Para além de vários artigos e separatas, publicou O que é o Livro, Difusão Cultural, Lisboa, 1995, Os Livros e as Leituras. Novas Ecologias da Informação, Livros e Leituras, Lisboa, 2000, O papel e o pixel. Do impresso ao digital: continuidades e transformações, Florianópolis (Brasil), Escritório do Livro, 2006 (edição espanhola: El papel y el píxel. De lo impreso a lo digital: continuidades y transformaciones, Gijón, Ediciones Trea, 2007; edição portuguesa: O papel e o pixel. Do impresso ao digital: continuidades e transformações. Lisboa: Ariadne, 2007) e A Edição de Livros e a Gestão Estratégica. Lisboa: Booktailors, 2009.