Brewster Kahle, do Internet Archive, sobre IA para bibliotecas digitais

Python: as muitas maneiras de mesclar um dicionário

16 de março de 2024

O que são classes Python e como você as cria?

17 de março de 2024

Publicado por Douglas S. em 17 de março de 2024

Categorias

Data Science

Bibliotecas para máquinas?

No início da década de 1980, Kahle ajudou a fundar a Thinking Machines Corporation, que produziu os supercomputadores mais rápidos da época.

“Esta é uma foto que está no Museu de Arte Moderna de Nova York. Tinha lindas luzes piscando. Acho que é provavelmente por isso que está no museu. Mas também era um computador fabuloso – um computador extremamente paralelo.”

The Connection Machine (por Thinking Machine Corporation) - captura de tela da palestra de Don Davis de Brewster Kahle

Pensando Máquinas Inc.

No entanto, a esperança era uma espécie de inteligência artificial precoce – e Kahle percebeu desde cedo que precisariam de material digitalizado para alimentá-la. “E então iniciei uma busca, desde 1980, para construir uma biblioteca com tudo.”

Somente em 1996 é que o Internet Archive foi fundado. Mas aqui, em 2024, Kahle parecia agora estar a pedir a outros que se juntassem à sua missão de longa data.

Com mais de 13 petabytes de dados sendo servidos a cada mês, Kahle considera o Internet Archive “uma biblioteca de pesquisa moderna…”

“Então, o que vou sugerir é que é hora de nós, no campo das bibliotecas de pesquisa, enfrentarmos o desafio de disponibilizar nossos materiais de maneiras novas e diferentes, de modo que possamos construir bibliotecas digitais para máquinas pensantes, para que o as máquinas pensantes farão um trabalho interessante para nós, para potencialmente nos ajudar a resolver alguns dos grandes problemas do nosso tempo, sejam mudanças climáticas, questões de saúde ou coisas do gênero.”

IA no Arquivo da Internet

A IA pode até ter um papel prédio essas bibliotecas, bem sugeridas. “Temos em nossas coleções enormes quantidades de materiais que, francamente, não serão lidos pelas pessoas. Mas eles podem ser lidos por máquinas.”

O Internet Archive já usou IA para ajudar a catalogar mais de 18 mil periódicos digitalizados – em casos em que Kahle diz que os únicos diretórios que descrevem seu conteúdo agora tinham termos de licenciamento “ridículos”.

Antes eles usavam bibliotecários profissionais – que gastavam entre 45 minutos e uma hora criando sua entrada no diretório para cada periódico. Mas um sistema automatizado alimentado por IA agora pode gerar uma entrada inteira para usar como ponto de partida – o que reduz o tempo total para entre sete e 10 minutos. “Sim, ele tem alucinações e tem alguns problemas e tudo o mais – mas é muito mais rápido do que ter que escrevê-lo sozinho…”

Eles também estão usando a mesma técnica para livros, revisando o início da saída do reconhecimento óptico de caracteres para tentar extrair pelo menos o autor, título, editora, autor e data. “Conseguimos agora colocar metadados de forma muito eficiente em 50.000 livros… Estamos começando a usá-los para publicações do governo federal canadense, manuais de computador que não possuem bons metadados – isso ajuda a acelerar as coisas. Então é apenas IA para sempre.”

Outro uso da IA? Tentando pegar letras de gravações antigas

A coleção deles também tem vários milhões de programas de TV, “e temos usado isso para ajudar com as legendas…” Há também tradução automática – útil para entender o que está sendo transmitido em outros países – e agora eles também estão testando “Resumindo a IA, então você basicamente obtém quais são os 10 principais pontos que estão sendo discutidos nesses outros ambientes.” Kahle prevê serviços úteis que poderiam oferecer através de parcerias com empresas de IA.

Outro uso da IA? Tentando obter letras de gravações antigas – para que os pesquisadores possam encontrar o que procuram em uma pesquisa de texto. O Internet Archive usou o conversor de fala para texto da OpenAI e obteve bons resultados em tudo, desde programas de rádio dos anos 1950 até discos infantis de 78 rpm. Mesmo para uma gravação de 1907 de Thomas Edison, “foi muito bem”. Kahle prevê que em breve você será capaz de pesquisar um banco de dados de texto de todas as suas muitas gravações, “mas agora estamos apenas fazendo as tecnologias funcionarem…

Eles também estão usando IA para identificar onde termina uma trilha e começa outra. “Então, estamos usando muito essas tecnologias de IA…”

“Agora temos as tecnologias para podermos fazer bom uso de muitas das coisas que coletamos nas bibliotecas de pesquisa há décadas e séculos”.

Não há nada mais punk do que a biblioteca pública – no entanto, nossa coleção de panfletos de punk rock vintage dos anos 70 e além chega perto disso. Dê uma olhada no nosso vasto repositório destes panfletos, que documentam o movimento de resistência. Apresentado no Best of the Archive deste mês… pic.twitter.com/ACrTmq0V0O

– Arquivo da Internet (@internetarchive) 27 de fevereiro de 2024

Problemas legais

Um pesquisador presente na plateia disse que era “incrível” realizar pesquisas de texto completo na grande coleção do Internet Archive – e perguntou se essa capacidade poderia continuar se expandindo indefinidamente. “Ah, claro”, disse Kahle com confiança. “Os livros simplesmente não são tão grandes.” A coleção digital do Internet Archive já representa cerca de 25% do tamanho da maior biblioteca do mundo – a Biblioteca do Congresso dos EUA.

“Um livro tem cerca de um megabyte”, ressalta Kahle, então o espaço total de armazenamento da maior biblioteca do mundo é… 28 terabytes. “São dois discos rígidos que você pode comprar na Best Buy, por menos de um mês de aluguel.” Ele demonstrou quanto seria necessário mantendo as mãos afastadas cerca de 30 centímetros.

Tamanho da Biblioteca do Congresso - Brewster Kahle e Jim Kuhn na Universidade do Texas Austin Don Davis palestra 2024

“Pesquisar isso? Não se preocupe! Fazer coisas novas e interessantes com ele? Sem problemas! Que podemos descobrir coisas sobre nós mesmos olhando essas coisas como um todo? Absolutamente…! Simplesmente não é grande coisa.”

Mas há uma nuvem escura. “Exatamente no momento em que você pode colocar todas essas coisas em um espaço tão pequeno é que perdemos o direito de fazê-lo. E é para essa mudança que temos que voltar.”

Kahle fez referência a um processo recente contra o Internet Archive, ao qual ele também havia mencionado anteriormente na palestra.

“Há muitos processos judiciais por parte daqueles que querem controlar o que está acontecendo. Talvez devêssemos mostrar por que precisamos que essas ferramentas e tecnologias existam na esfera pública para fazer algum progresso.”

Descrevendo o caso contra eles, Kahle disse: “Eu realmente aprendi muito sobre o que acontece quando empresas bilionárias atacam organizações sem fins lucrativos”. Eles perderam em um tribunal inferior em Nova York e removeram mais de 500 mil livros de sua coleção de empréstimos online. Mas eles são atraentes – auxiliados por amicus briefs de apoiadores como a American Library Association – e a decisão é esperada em breve.

Kahle destacou que a Europa está “avançando” com empréstimos digitais controlados. “Só não tenho certeza sobre os Estados Unidos.”

Uma nova esperança

Se a digitalização permite novos tipos de análises sobre coleções de bibliotecas existentes, Kahle ainda acredita que “Isso é algo que podemos, e eu sugeriria que deveríamos e devemos fazer, para nos mostrarmos relevantes nesta nova geração.

Mas para chegar lá, as bibliotecas digitais precisam estabelecer os seus direitos. Por exemplo, precisam de ser capazes de adquirir a propriedade total dos seus materiais digitais (para empréstimo e partilha com outras bibliotecas). E, claro, também precisam de ser capazes de reparar, reformar e garantir a existência a longo prazo dos seus materiais. “Infelizmente, no mundo digital, há editores que dizem que não podemos coletar, não podemos preservar, não podemos emprestar e não podemos cooperar com outras bibliotecas com base em contratos de licença.

“Então, acho que precisamos afirmar e demonstrar por que sempre precisamos de bibliotecas mais uma vez e ver se podemos destilar isso em leis jurisdicionais que farão com que essas bibliotecas floresçam nos próximos cem anos, como fizeram nos últimos 100 anos…”

É necessário que haja algum nível de acesso, acredita Kahle – “Não de uma forma que interrompa demasiado o capitalismo – mas de uma forma que as pessoas possam fazer o seu trabalho… Precisamos de ser capazes de transferir colecções digitais entre bibliotecas porque é isso que será necessário para fazer algumas dessas novas ferramentas e tecnologias…

Onde espero que isto vá, e a verdadeira razão desta palestra, é tentar levar-nos a tomar grandes medidas onde possamos levar as nossas bibliotecas de investigação e ajudar a criar a próxima geração de máquinas pensantes.

David Cassel é um orgulhoso residente da área da baía de São Francisco, onde cobre notícias de tecnologia há mais de duas décadas. Ao longo dos anos, seus artigos apareceram em todos os lugares, desde CNN, MSNBC e Wall Street Journal Interactive…

Douglas S.

Comments are closed.

Brewster Kahle, do Internet Archive, sobre IA para bibliotecas digitais

Python: as muitas maneiras de mesclar um dicionário

O que são classes Python e como você as cria?

Python: as muitas maneiras de mesclar um dicionário

O que são classes Python e como você as cria?

Bibliotecas para máquinas?

IA no Arquivo da Internet

Problemas legais

Uma nova esperança

Douglas S.

Postagens relacionadas

Vamos ser agentes: agentes LangChain e LlamaIndex Talk AI

Como gerenciar 45 bilhões de registros de clientes com Aerospike

Usando SPLADE para gerar embeddings esparsos aprendidos