SEATTLE – Com um nome como Falcon, você sabe que deve haver uma história de fundo. Por que nomear um grande modelo de linguagem para uma ave de rapina?
A resposta abrange a visão da equipe que constrói o LLM, que não vem de Seattle ou do Vale do Silício, mas de Abu Dhabi, capital dos Emirados Árabes Unidos (EAU).
O Instituto de Inovação Tecnológica (TII) dos Emirados Árabes Unidos em Abu Dhabi começou em 2020, com foco na IA tradicional. Enfrentou um dilema existencial: a IA está a chegar tão rapidamente, com tantas consequências indesejadas. O que o ajudaria a compreender esse desafio?
O Falcão – a ave nacional dos Emirados Árabes Unidos – serve como símbolo de coragem e perseverança.
“Precisamos ter coragem para enfrentar desafios”, disse Hakim Hacid, diretor executivo e pesquisador-chefe interino da TII, neste episódio On the Road de The New Stack Makers, gravado no Open Source Summit em abril.
“A perseverança é que estamos avançando com os desafios que enfrentamos todos os dias”, disse ele. “Estamos levando as coisas adiante. Não vamos desistir. E estamos obtendo resultados interessantes no final do dia.”
Falcão em ascensão
Falcon está sendo notado. Quando surgiu, Hugging Face escreveu que era “o primeiro modelo” verdadeiramente aberto “com capacidades que rivalizam com muitos modelos atuais de código fechado. Esta é uma notícia fantástica para profissionais, entusiastas e para a indústria, pois abre a porta para muitos casos de uso interessantes.”
Em junho passado, a Falcon lançou um modelo de 40 bilhões de parâmetros que requer 90 gigabytes (GB) de memória GPU. Hugging Face observou que isso é muito, mas na época, o Falcon superou o LLaMA-65B. O modelo Falcon-7B menor precisa apenas de 15 GB, o que significa que alguém com um MacBook Pro pode fazer inferências e ajustes finos – sem necessidade de nuvem. Hoje, o Falcon possui um modelo 180B, treinado em 3,5 trilhões de tokens.
“E agora vamos mais longe”, disse Hacid. “E o desafio, eu diria, não é necessariamente ir grande, mas sim ir pequeno, com mais eficiência e mais qualidade. E este é o caminho que estamos trilhando.”
É um momento estranho, disse Hacid. As corporações têm mais poder computacional do que muitos estados-nação.
“Mas uma das coisas que está a tornar a situação um pouco estranha hoje em dia, entre governos e grandes corporações, é que não temos compreensão suficiente da IA e das suas capacidades”, disse ele. “Como podemos controlar a IA, qual é o impacto da IA, na sociedade, na economia, na segurança das nações? É por isso que todo mundo está encarando isso mais do ponto de vista do medo, em vez de ser mais corajoso.”
Dados limpos, resultados de qualidade
A abordagem de código aberto do Falcon, disse Hacid, ajuda a comunidade em geral a entender o que está acontecendo com a IA.
A diferença entre um modelo fechado, como o OpenAI, e um aberto, como o Falcon, pelo menos para Hacid, está no treinamento, com profunda importância nos dados. A equipe do Falcon usou transformadores e GPUs – 4.000 GPUs, na verdade – ao treinar o 180B.
Os dados são muito importantes para diferenciar o Falcon, disse Hacid. “Configuramos pipelines específicos para limpeza dos dados, para garantir que os dados injetados dentro do LLM estarão limpos o suficiente para obter alguns resultados interessantes. Então, depois de obter a computação, você obtém o transformador – ou as redes neurais – e os dados limpos, combinando esses três itens, fornecem um modelo interessante com resultados de altíssima qualidade.”
Hugging Face observa que mais de 80% dos dados de treinamento em modelos Falcon são baseados em RefinedWeb, que começa com um conjunto de dados baseado em CommonCrawl.
“Em vez de reunir fontes curadas dispersas, a TII concentrou-se em dimensionar e melhorar a qualidade dos dados da web, aproveitando a desduplicação em grande escala e a filtragem rigorosa para corresponder à qualidade de outros corpora. Os modelos Falcon ainda incluem algumas fontes selecionadas em seu treinamento (como dados de conversação do Reddit), mas significativamente menos do que tem sido comum para LLMs de última geração, como GPT-3 ou PaLM. “
Confira o episódio inteiro para saber mais sobre Falcon.
YOUTUBE.COM/THENEWSTACK
A tecnologia avança rápido, não perca um episódio. Inscreva-se em nosso canal no YouTube para transmitir todos os nossos podcasts, entrevistas, demonstrações e muito mais.
SE INSCREVER
Alex Williams é o fundador e editor da The New Stack. Ele é um jornalista de tecnologia de longa data que trabalhou no TechCrunch, SiliconAngle e no que hoje é conhecido como ReadWrite. Alex é jornalista desde o final dos anos 1980, começando no…
Este site utiliza cookies para melhorar sua experiência de navegação. Ao continuar, você concorda com o uso de cookies. Para mais informações, consulte nossa Política de Privacidade.
Funcional
Sempre ativo
O armazenamento ou acesso técnico é estritamente necessário para a finalidade legítima de permitir a utilização de um serviço específico explicitamente solicitado pelo assinante ou utilizador, ou com a finalidade exclusiva de efetuar a transmissão de uma comunicação através de uma rede de comunicações eletrónicas.
Preferências
O armazenamento ou acesso técnico é necessário para o propósito legítimo de armazenar preferências que não são solicitadas pelo assinante ou usuário.
Estatísticas
O armazenamento ou acesso técnico que é usado exclusivamente para fins estatísticos.O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos anônimos. Sem uma intimação, conformidade voluntária por parte de seu provedor de serviços de Internet ou registros adicionais de terceiros, as informações armazenadas ou recuperadas apenas para esse fim geralmente não podem ser usadas para identificá-lo.
Marketing
O armazenamento ou acesso técnico é necessário para criar perfis de usuário para enviar publicidade ou para rastrear o usuário em um site ou em vários sites para fins de marketing semelhantes.