Inferência é uma aposta na mesa. Isso é uma coisa boa para Ampere

Relatório de tendências: mesclando observabilidade e gerenciamento de serviços de TI

15 de maio de 2024

Pesquisa do CEO da KPMG: Mercados de Trabalho, Semanas de Trabalho de 4 Dias e GenAI

16 de maio de 2024

Publicado por Douglas S. em 16 de maio de 2024

Categorias

Tags

Serviços em Nuvem

Inferência é uma aposta na mesa. Isso é uma coisa boa para Ampere

PARIS — A Ampere, fabricante de CPUs baseadas na arquitetura ARM, está se tornando conhecida, usando a inferência como um grande gancho.

O treinamento em IA é um fluxo de trabalho em lote, mas a inferência é crucial no desenvolvimento de aplicativos focados em IA. Todos os aplicativos eventualmente exigem inferência para permanecerem ajustados e atualizados.

O gancho para Ampere? O nativo da nuvem é um deles, além de seu desempenho e sua abordagem ao problema do vizinho barulhento que pode surgir com as máquinas virtuais.

Ampere é uma empresa de design de semicondutores fundada por executivos da Intel liderados pela CEO Renée James. Ela fabrica chips para serviços em nuvem e empresas que constroem sua infraestrutura. Seus clientes incluem todos os principais provedores de nuvem, exceto Amazon Web Services, que possui uma tecnologia semelhante, a Gravitron.

A história da Ampere centra-se no código aberto e na capacidade de executar qualquer carga de trabalho em sua arquitetura sem o incômodo de usar NVIDIA e integrar sua biblioteca CUDA, que é o software necessário para integrar GPUs ao software.

“Portanto, o foco está em capacitar todo esse ecossistema de código aberto”, disse Victor Jakubiuk, vice-presidente de IA da Ampere, ao The New Stack na KubeCon + CloudNativeCon Europe, em Paris.

Inferência é importante em escala

Estruturas de código aberto como PyTorch e TensorFlow funcionam com eficiência para inferência em CPUs puras, disse Jakubiuk. Eles otimizam a inferência especificamente para garantir que o código gerado durante o tempo de execução desses modelos de IA seja ideal para suas CPUs e possa ser dimensionado em vários servidores simultaneamente.

A eficiência da inferência é importante em escala, disse Jakubiuk.

“Se, para treinamento em IA, você treinasse um modelo uma vez, isso poderia custar caro”, disse ele. “Mas depois de ter esse modelo, ao iniciar a implantação, você estará essencialmente multiplicando isso por 10x, 100x, 1.000x, porque estará implantando isso em escala. E no momento em que você multiplica isso por um fator de 1.000, qualquer tipo de ineficiência que você possa ter se multiplica por 1.000 vezes. E, ao mesmo tempo, qualquer ganho de eficiência se multiplica significativamente.”

Ao combinar a otimização de software e hardware, um cliente pode obter um desempenho muito melhor por watt de energia fornecido ao seu data center e, portanto, um custo total de propriedade (TCO) muito melhor para os usuários finais na nuvem.

Existem três casos de uso principais, disse Jakubiuk:

Cargas de trabalho de visão computacional: Qualquer coisa que processe vídeos e imagens.
Mecanismos de recomendação: Por exemplo, mecanismos de recomendação de comércio eletrônico.
Modelos de linguagem grande (LLMs): Processar texto para gerar texto ou tentar compreender o texto. Ampere tem visto particular interesse em modelos de código aberto, como Mistral e Llama.

Primeiro, o desempenho bruto das CPUs, com seu grande número de núcleos, as torna adequadas para uso com LLMs. O próximo passo é o TCO em termos de desempenho por watt. É uma vantagem que Jakubiuk disse que dá às CPUs da Ampere uma vantagem sobre as GPUs. Isso faz diferença se você administra o data center da sua organização; o poder é um problema em quase todos os lugares. Maximizar o desempenho torna-se fundamental, pois os data centers exigem muita energia.

As CPUs Ampere rodam mais de 128 núcleos, disse Jakubiuk. Eles podem executar qualquer carga de trabalho sem problemas de vizinhos barulhentos, evitando os problemas de limitação de desempenho que as CPUs x86 sofrem devido aos problemas que surgem durante a execução de máquinas virtuais. Uma máquina virtual pode consumir muita computação e uma segunda pode estar executando um banco de dados ou uma carga de trabalho pesada que retarda o desempenho da CPU x86 devido a problemas de aquecimento e energia. Ampere redesenhou a CPU para evitar problemas com vizinhos barulhentos.

Ampere fornece inferência pronta para uso, de acordo com Jakubiuk. Modelos treinados por GPUs são executados em Ampere, que recomenda o uso de TensorFlow ou PyTorch. Três estruturas principais de IA são executadas nas CPUs da Ampere: TensorFlow, PyTorch e Onyx. Eles se concentram em permitir suporte para a comunidade de código aberto e de fontes como Hugging Face e modelos criados com VMs no Jupyter Notebook.

“Provavelmente os dois que valem a pena mencionar são o LLama e o Mistral porque estes são de longe os modelos mais populares”, disse Jakubiuk. “Eles funcionam com desempenho muito bom e principalmente desempenho por watt. E como eu disse, para o LLama, você pode obter um desempenho até 80% melhor por dólar gasto em comparação com a execução em GPUs.”

Janakiram MSV, analista de longa data e colaborador frequente do The New Stack, disse que a inferência se tornará essencial para o desenvolvimento de aplicativos, semelhante à importância das APIs. Os agentes surgirão da inferência, que será desenvolvida com Retrieval Augmentation Generation (RAG).

E isso levará a um novo surgimento de agentes para a comunidade nativa da nuvem, que, segundo ele, entrará em foco este ano e em 2025.

“Cada empresa de observabilidade terá seu próprio agente que poderá encontrar anomalias, realizar análises de causa raiz e usar esses dados para implementar RAG”, disse Janakiram.

Agentes – a conversa é sobre agentes. Eles surgirão em tecnologias de consumo, como a pesquisa gerada pelo Google, e em toda a empresa. Isso se aplica a Ampere, à medida que a inferência se torna um desafio para empresas grandes e pequenas.

Alex Williams é o fundador e editor da The New Stack. Ele é um jornalista de tecnologia de longa data que trabalhou no TechCrunch, SiliconAngle e no que hoje é conhecido como ReadWrite. Alex é jornalista desde o final dos anos 1980, começando no…