![A ferrugem cresce mais rápido, mas o JavaScript reina supremo](https://optimuscloud.com.br/wp-content/uploads/2024/06/1717785844_A-ferrugem-cresce-mais-rapido-mas-o-JavaScript-reina-supremo-150x150.jpg)
A ferrugem cresce mais rápido, mas o JavaScript reina supremo
7 de junho de 2024![Featued image for: At Kubernetes 10th Anniversary in Mountain View: History Remembered](https://optimuscloud.com.br/wp-content/uploads/2024/06/1717797607_No-10o-aniversario-do-Kubernetes-em-Mountain-View-historia-lembrada-150x150.png)
No 10º aniversário do Kubernetes em Mountain View: história lembrada
7 de junho de 2024Modelos abertos de grandes linguagens estão se tornando cada vez mais capazes e uma alternativa viável aos LLMs comerciais, como GPT-4 e Gemini. Dado o custo do hardware acelerador de IA, os desenvolvedores estão considerando APIs para consumir modelos de linguagem de última geração.
Embora plataformas em nuvem como Azure OpenAI, Amazon Bedrock e Google Cloud Vertex AI sejam as escolhas óbvias, existem plataformas desenvolvidas especificamente que são mais rápidas e baratas do que os hiperescaladores.
Aqui estão cinco plataformas generativas de inferência de IA para consumir LLMs abertos como Llama 3, Mistral e Gemma. Alguns deles também apoiam modelos básicos direcionados à visão.
1. Groq
Groq é uma empresa de infraestrutura de IA que afirma construir a tecnologia de inferência de IA mais rápida do mundo. Seu principal produto é o mecanismo de inferência de unidades de processamento de linguagem (LPU), uma plataforma de hardware e software com o objetivo de fornecer velocidade de computação, qualidade e eficiência energética excepcionais para aplicações de IA. Os desenvolvedores adoram o Groq por sua velocidade e desempenho.
Uma rede escalonada de LPUs alimenta o serviço GroqCloud, que permite aos usuários usar LLMs populares de código aberto, como o Llama 3 70B da Meta AI em (afirma-se) velocidades até 18x mais rápidas do que outros provedores. Você pode usar o SDK do cliente Python da Groq ou o SDK do cliente OpenAI para consumir a API. É fácil integrar Groq com LangChain e LlamaIndex para construir aplicativos LLM e chatbots avançados.
Em termos de preços, a Groq oferece uma gama de opções. Por seu serviço de nuvem, eles cobram com base nos tokens processados – com preços variando de US$ 0,06 a US$ 0,27 por milhão de tokens, dependendo do modelo usado. O nível gratuito é uma ótima maneira de começar a usar o Groq.
2. Laboratórios de Perplexidade
A perplexidade está rapidamente se tornando uma alternativa ao Google e ao Bing. Embora seu produto principal seja um mecanismo de pesquisa baseado em IA, eles também têm um mecanismo de inferência oferecido pelo Perplexity Labs.
Em outubro de 2023, a Perplexity Labs introduziu o pplx-api, uma API projetada para facilitar o acesso rápido e eficiente a LLMs de código aberto. Atualmente em versão beta pública, o pplx-api permite que usuários com assinatura do Perplexity Pro acessem a API, permitindo que uma ampla base de usuários teste e forneça feedback, o que ajuda o Perplexity Labs a aprimorar continuamente a ferramenta.
A API oferece suporte a LLMs populares, incluindo Mistral 7B, Llama 13B, Code Llama 34B e Llama 70B. Ele foi projetado para ser econômico tanto para implantação quanto para inferência, com economias de custos significativas relatadas pelo Perplexity Labs. Os usuários podem integrar a API perfeitamente com aplicativos existentes usando a interface compatível com o cliente OpenAI, tornando-a conveniente para desenvolvedores familiarizados com o ecossistema OpenAI. Para uma visão geral rápida, consulte meu tutorial sobre API Perplexity.
A plataforma também inclui lhama-3-sonar-small-32k-online e lhama-3-sonar-grande-32k-online, que são baseados no artigo FreshLLM. Esses modelos, baseados no Llama3, podem retornar citações — um recurso que está atualmente em beta fechado.
Perplexity Labs oferece um modelo de preços flexível para sua API. O plano pré-pago cobra dos usuários com base no número de tokens processados, tornando-o acessível sem compromissos iniciais. O plano Pro, com preço de US$ 20 por mês ou US$ 200 por ano, inclui um crédito mensal de US$ 5 para uso da API, uploads ilimitados de arquivos e suporte dedicado.
O preço varia de US$ 0,20 a US$ 1,00 por milhão de tokens, dependendo do tamanho do modelo. Além das cobranças de tokens, os modelos online incorrem em uma taxa fixa de US$ 5 por mil solicitações.
3. IA de fogos de artifício
O Fireworks AI é uma plataforma generativa de IA que permite aos desenvolvedores aproveitar modelos de código aberto de última geração para seus aplicativos. Ele oferece uma ampla gama de modelos de linguagem, incluindo FireLLaVA-13B (um modelo de linguagem de visão), FireFunction V1 (para chamada de função), Mixtral MoE 8x7B e 8x22B (modelos de seguimento de instruções) e o modelo Llama 3 70B da Meta.
Além dos modelos de linguagem, o Fireworks AI oferece suporte a modelos de geração de imagens como Stable Diffusion 3 e Stable Diffusion XL. Esses modelos podem ser acessados por meio da API sem servidor do Fireworks AI, que, segundo a empresa, oferece desempenho e rendimento líderes do setor.
A plataforma possui um modelo de preços competitivo. Ele oferece uma estrutura de preços pré-paga com base no número de tokens processados. Por exemplo, o modelo Gemma 7B custa US$ 0,20 por milhão de tokens, enquanto o modelo Mixtral 8x7B custa US$ 0,50 por milhão de tokens. O Fireworks AI também oferece implantações sob demanda, onde os usuários podem alugar instâncias de GPU (A100 ou H100) por hora. A API é compatível com OpenAI, facilitando a integração com LangChain e LlamaIndex.
O Fireworks AI é direcionado a desenvolvedores, empresas e empresas com diferentes níveis de preços. O nível Desenvolvedor oferece um limite de taxa de 600 solicitações/min e até 100 modelos implantados, enquanto os níveis Business e Enterprise fornecem limites de taxa personalizados, recursos de colaboração em equipe e suporte dedicado.
4. Nuvem Flare
Cloudflare AI Workers é uma plataforma de inferência que permite aos desenvolvedores executar modelos de aprendizado de máquina na rede global da Cloudflare com apenas algumas linhas de código. Ele fornece uma solução escalonável e sem servidor para inferência de IA acelerada por GPU, permitindo que os desenvolvedores aproveitem modelos pré-treinados para diversas tarefas – incluindo geração de texto, reconhecimento de imagem e reconhecimento de fala – sem a necessidade de gerenciar infraestrutura ou GPUs.
Cloudflare AI Workers oferece um conjunto selecionado de modelos populares de código aberto que cobrem uma ampla variedade de tarefas de IA. Alguns dos modelos notáveis suportados incluem llama-3-8b-instruct, mistral-8x7b-32k-instruct, gemma-7b-instruct e até modelos de visão como vit-base-patch16-224 e segformer-b5-finetuned-ade-512 -pt.
Cloudflare AI Workers oferece pontos de integração versáteis para incorporar recursos de IA em aplicativos existentes ou criar novos. Os desenvolvedores podem utilizar o ambiente de execução sem servidor, Workers e Pages Functions da Cloudflare para executar modelos de IA em seus aplicativos. Para aqueles que preferem integrar-se à sua pilha atual, está disponível uma API REST, permitindo solicitações de inferência de qualquer linguagem de programação ou estrutura. A API oferece suporte a tarefas como geração de texto, classificação de imagens e reconhecimento de fala, e os desenvolvedores podem aprimorar seus aplicativos de IA usando Vectorize da Cloudflare (um banco de dados vetorial) e AI Gateway (um plano de controle para gerenciar modelos e serviços de IA).
Cloudflare AI Workers usa um modelo de preços pré-pago com base no número de neurônios processados, oferecendo uma solução acessível para inferência de IA. Como a plataforma fornece um conjunto diversificado de modelos que vão além dos LLMs, os neurônios atuam como uma unidade semelhante a um token. Todas as contas têm um nível gratuito que permite 10.000 neurônios por dia, onde um neurônio agrega o uso em diferentes modelos. Além disso, a Cloudflare cobra US$ 0,011 por 1.000 neurônios adicionais. O custo varia de acordo com o tamanho do modelo; por exemplo, Llama 3 70B custa US$ 0,59 por milhão de tokens de entrada e US$ 0,79 por milhão de tokens de saída, enquanto Gemma 7B custa US$ 0,07 por milhão de tokens para entrada e saída.
5. Nvidia NIM
A API Nvidia NIM fornece acesso a uma ampla variedade de modelos de linguagem grande pré-treinados e outros modelos de IA que são otimizados e acelerados pela pilha de software da Nvidia. Através do Catálogo de APIs da Nvidia, os desenvolvedores podem explorar e experimentar mais de 40 modelos diferentes da Nvidia, Meta, Microsoft, Hugging Face e outros fornecedores. Isso inclui modelos poderosos de geração de texto, como o Llama 3 70B da Meta, o Mixtral 8x22B da Microsoft e o Nemotron 3 8B da própria Nvidia, bem como modelos de visão como Stable Diffusion e Kosmos 2.
A API NIM permite que os desenvolvedores integrem facilmente esses modelos de IA de última geração em seus aplicativos usando apenas algumas linhas de código. Os modelos são hospedados na infraestrutura da Nvidia e expostos por meio de uma API padronizada compatível com OpenAI, permitindo uma integração perfeita. Os desenvolvedores podem prototipar e testar seus aplicativos gratuitamente usando a API hospedada, com opções para implantar os modelos no local ou na nuvem usando os contêineres Nvidia NIM lançados recentemente, quando estiverem prontos para produção.
A Nvidia oferece níveis gratuitos e pagos para a API NIM. O nível gratuito inclui 1.000 créditos para começar, enquanto o preço pago é baseado no número de tokens processados e no tamanho do modelo, variando de US$ 0,07 por milhão de tokens para modelos menores como Gemma 7B, até US$ 0,79 por milhão de tokens de saída para modelos grandes como Llama 370B.
A lista acima é um subconjunto de plataformas de inferência que oferecem modelos de linguagem como serviço. Em um próximo artigo, abordarei servidores modelo auto-hospedados e mecanismos de inferência que podem ser executados no Kubernetes. Fique atento.
A postagem 5 plataformas abertas de inferência LLM para sua próxima aplicação de IA apareceu pela primeira vez em The New Stack.