Como os dados de treinamento diferenciam o Falcon, o LLM dos Emirados Árabes Unidos

Instale o Proxmox no VMware Workstation Pro

30 de maio de 2024

McKinsey: a adoção da Gen AI dispara e gera valor para as empresas

30 de maio de 2024

Publicado por Douglas S. em 30 de maio de 2024

Categorias

Data Science

Tags

Como os dados de treinamento diferenciam o Falcon, o LLM dos Emirados Árabes Unidos

SEATTLE – Com um nome como Falcon, você sabe que deve haver uma história de fundo. Por que nomear um grande modelo de linguagem para uma ave de rapina?

A resposta abrange a visão da equipe que constrói o LLM, que não vem de Seattle ou do Vale do Silício, mas de Abu Dhabi, capital dos Emirados Árabes Unidos (EAU).

O Instituto de Inovação Tecnológica (TII) dos Emirados Árabes Unidos em Abu Dhabi começou em 2020, com foco na IA tradicional. Enfrentou um dilema existencial: a IA está a chegar tão rapidamente, com tantas consequências indesejadas. O que o ajudaria a compreender esse desafio?

O Falcão – a ave nacional dos Emirados Árabes Unidos – serve como símbolo de coragem e perseverança.

“Precisamos ter coragem para enfrentar desafios”, disse Hakim Hacid, diretor executivo e pesquisador-chefe interino da TII, neste episódio On the Road de The New Stack Makers, gravado no Open Source Summit em abril.

“A perseverança é que estamos avançando com os desafios que enfrentamos todos os dias”, disse ele. “Estamos levando as coisas adiante. Não vamos desistir. E estamos obtendo resultados interessantes no final do dia.”

Falcão em ascensão

Falcon está sendo notado. Quando surgiu, Hugging Face escreveu que era “o primeiro modelo” verdadeiramente aberto “com capacidades que rivalizam com muitos modelos atuais de código fechado. Esta é uma notícia fantástica para profissionais, entusiastas e para a indústria, pois abre a porta para muitos casos de uso interessantes.”

Em junho passado, a Falcon lançou um modelo de 40 bilhões de parâmetros que requer 90 gigabytes (GB) de memória GPU. Hugging Face observou que isso é muito, mas na época, o Falcon superou o LLaMA-65B. O modelo Falcon-7B menor precisa apenas de 15 GB, o que significa que alguém com um MacBook Pro pode fazer inferências e ajustes finos – sem necessidade de nuvem. Hoje, o Falcon possui um modelo 180B, treinado em 3,5 trilhões de tokens.

“E agora vamos mais longe”, disse Hacid. “E o desafio, eu diria, não é necessariamente ir grande, mas sim ir pequeno, com mais eficiência e mais qualidade. E este é o caminho que estamos trilhando.”

É um momento estranho, disse Hacid. As corporações têm mais poder computacional do que muitos estados-nação.

“Mas uma das coisas que está a tornar a situação um pouco estranha hoje em dia, entre governos e grandes corporações, é que não temos compreensão suficiente da IA e das suas capacidades”, disse ele. “Como podemos controlar a IA, qual é o impacto da IA, na sociedade, na economia, na segurança das nações? É por isso que todo mundo está encarando isso mais do ponto de vista do medo, em vez de ser mais corajoso.”

Dados limpos, resultados de qualidade

A abordagem de código aberto do Falcon, disse Hacid, ajuda a comunidade em geral a entender o que está acontecendo com a IA.

A diferença entre um modelo fechado, como o OpenAI, e um aberto, como o Falcon, pelo menos para Hacid, está no treinamento, com profunda importância nos dados. A equipe do Falcon usou transformadores e GPUs – 4.000 GPUs, na verdade – ao treinar o 180B.

Os dados são muito importantes para diferenciar o Falcon, disse Hacid. “Configuramos pipelines específicos para limpeza dos dados, para garantir que os dados injetados dentro do LLM estarão limpos o suficiente para obter alguns resultados interessantes. Então, depois de obter a computação, você obtém o transformador – ou as redes neurais – e os dados limpos, combinando esses três itens, fornecem um modelo interessante com resultados de altíssima qualidade.”

Hugging Face observa que mais de 80% dos dados de treinamento em modelos Falcon são baseados em RefinedWeb, que começa com um conjunto de dados baseado em CommonCrawl.

“Em vez de reunir fontes curadas dispersas, a TII concentrou-se em dimensionar e melhorar a qualidade dos dados da web, aproveitando a desduplicação em grande escala e a filtragem rigorosa para corresponder à qualidade de outros corpora. Os modelos Falcon ainda incluem algumas fontes selecionadas em seu treinamento (como dados de conversação do Reddit), mas significativamente menos do que tem sido comum para LLMs de última geração, como GPT-3 ou PaLM. “

Confira o episódio inteiro para saber mais sobre Falcon.

Alex Williams é o fundador e editor da The New Stack. Ele é um jornalista de tecnologia de longa data que trabalhou no TechCrunch, SiliconAngle e no que hoje é conhecido como ReadWrite. Alex é jornalista desde o final dos anos 1980, começando no…