Metaengenheiro: Apenas duas usinas nucleares serão necessárias para alimentar a inferência de IA no próximo ano

Ex-CEO da Angi revela chaveiro para revolucionar a fabricação de CPG

13 de janeiro de 2024

Uma lição da Fórmula 1: Usar dados é uma estratégia vencedora

13 de janeiro de 2024

Publicado por Douglas S. em 13 de janeiro de 2024

Categorias

Data Science

As necessidades de energia para inferência estão sob controle

Edunov deu duas respostas separadas para abordar inferência e treinamento. Sua primeira resposta abordou a inferência, onde a maior parte do processamento ocorrerá à medida que as organizações implantarem aplicativos de IA. Ele explicou como fez seu cálculo simples para o lado da inferência: Ele disse que a Nvidia, fornecedora dominante de processadores para IA, parece estar pronta para lançar entre um milhão e dois milhões de suas GPUs H100 no próximo ano. Se todas essas GPUS fossem usadas para gerar “tokens” para LLMs de tamanho razoável, ele disse que isso somaria cerca de 100.000 tokens por pessoa no planeta por dia, o que ele admitiu serem muitos tokens.

Tokens são as unidades básicas de texto que os LLMs usam para processar e gerar linguagem. Podem ser palavras, partes de palavras ou até caracteres únicos, dependendo de como o LLM foi projetado. Por exemplo, a palavra “hello” pode ser um único token ou pode ser dividida em dois tokens: “hel” e “lo”. Quanto mais tokens um LLM puder manipular, mais complexa e diversificada será a linguagem que ele poderá produzir.

Então, quanta eletricidade precisamos para gerar tantos tokens? Bem, cada GPU H100 requer cerca de 700 watts e, como você precisa de um pouco de eletricidade para suportar o data center e o resfriamento, Edunov disse que arredondou para 1 kW por GPU. Somando tudo isso, são apenas dois reatores nucleares necessários para alimentar todos aqueles H100. “Na escala da humanidade, não é tanto assim”, disse Edunov. “Acho que, como seres humanos, como sociedade, podemos pagar até 100.000 fichas por dia por pessoa neste planeta. Então, do lado da inferência, sinto que pode estar tudo bem onde estamos agora.”

(Após a sessão, Edunov esclareceu ao VentureBeat que seus comentários se referiam à energia necessária para o adicionado Computação de IA do novo influxo de H100s da Nvidia, que são projetados especialmente para lidar com aplicações de IA e são, portanto, os mais notáveis. Além dos H100s, existem modelos mais antigos de GPU Nvidia, bem como CPUs AMD e Intel, bem como aceleradores de IA para fins especiais que fazem inferência para IA.)

Para treinar IA generativa, obter dados suficientes é o problema

Treinar LLMs é um desafio diferente, disse Edunov. A principal restrição é obter dados suficientes para treiná-los. Ele disse que é amplamente especulado que o GPT4 foi treinado em toda a Internet. Aqui ele fez algumas suposições mais simples. Toda a Internet disponível publicamente, se você apenas fizer o download, equivale a cerca de 100 trilhões de tokens, disse ele. Mas se você limpar e desduplicar os dados, poderá reduzir esses dados para 20 trilhões a 10 trilhões de tokens, disse ele. E se você focar em tokens de alta qualidade, o valor será ainda menor. “A quantidade de conhecimento destilado que a humanidade criou ao longo dos tempos não é tão grande”, disse ele, especialmente se for necessário adicionar mais dados aos modelos para escalá-los e obter um melhor desempenho.

Ele estima que os modelos de próxima geração e de maior desempenho exigirão 10 vezes mais dados. Portanto, se o GPT4 foi treinado para, digamos, 20 trilhões de tokens, o próximo modelo exigirá cerca de 200 trilhões de tokens. Pode não haver dados públicos suficientes para fazer isso, disse ele. É por isso que os investigadores estão a trabalhar em técnicas de eficiência para tornar os modelos mais eficientes e inteligentes em quantidades menores de dados. Os modelos LLM também podem ter que explorar fontes alternativas de dados, por exemplo, dados multimodais, como vídeo. “Essas são grandes quantidades de dados que podem permitir escalonamento futuro”, disse ele.

Edunov falou em um painel intitulado: “Gerando Tokens: A Eletricidade da Era GenAI”, e se juntaram a ele Nik Spirin, diretor de GenAI da Nvidia, e Kevin Tsai, chefe de arquitetura de soluções, GenAI, do Google.

Spirin concordou com Edunov que existem outros reservatórios de dados disponíveis fora da Internet pública, inclusive atrás de firewalls e fóruns, embora não sejam facilmente acessíveis. No entanto, eles poderiam ser usados por organizações com acesso a esses dados para personalizar facilmente modelos fundamentais.

A sociedade tem interesse em apoiar os melhores modelos de fundação de código aberto, para evitar ter que apoiar muitos esforços independentes, disse Spirin. Isso economizará em computação, disse ele, já que eles podem ser pré-treinados uma vez e a maior parte do esforço pode ser gasta na criação de aplicativos inteligentes de downstream. Ele disse que esta é uma resposta para evitar atingir qualquer limite de dados tão cedo.

Tsai, do Google, acrescentou que várias outras tecnologias podem ajudar a aliviar a pressão do treinamento. A geração aumentada de recuperação (RAG) pode ajudar as organizações a ajustar modelos básicos com seus tesouros de dados. Embora o RAG tenha seus limites, outras tecnologias que o Google experimentou, como vetores semânticos esparsos, podem ajudar. “A comunidade pode reunir modelos úteis que podem ser reaproveitados em muitos lugares. E esse é provavelmente o caminho certo para a Terra”, disse ele.

Previsões: Saberemos se a AGI é possível dentro de três ou quatro anos, e os LLMs proporcionarão às empresas um valor “massivo”

No final do painel, perguntei aos palestrantes suas previsões para os próximos dois a três anos sobre como os LLMs crescerão em capacidade e onde atingirão as limitações. Em geral, concordaram que, embora não esteja claro até que ponto os LLM serão capazes de melhorar, já foi demonstrado um valor significativo e as empresas provavelmente implementarão os LLM em massa dentro de cerca de dois anos.

As melhorias nos LLMs podem continuar exponencialmente ou começar a diminuir, disse Edunov da Meta. De qualquer forma, dentro de três a quatro anos teremos a resposta sobre se a inteligência artificial geral (AGI) é possível com a tecnologia atual, previu ele. A julgar pelas ondas anteriores de tecnologia, incluindo as tecnologias iniciais de IA, as empresas demorarão a adotá-las inicialmente, disse Spirin da Nvidia. Mas dentro de dois anos, ele espera que as empresas obtenham um valor “enorme” com isso. “Pelo menos foi esse o caso da onda anterior de tecnologia de IA”, disse ele.

Tsai do Google apontou que as limitações da cadeia de suprimentos – causadas pela dependência da Nvidia de memória de alta largura de banda para suas GPUS – estão retardando a melhoria do modelo e que esse gargalo precisa ser resolvido. Mas ele disse que continua encorajado por inovações, como o Blib-2, um projeto de pesquisa da Salesforce, para encontrar uma maneira de construir modelos menores e mais eficientes. Isto pode ajudar os LLMs a contornar as restrições da cadeia de abastecimento, reduzindo os seus requisitos de processamento, disse ele.

A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.