Decodificando a estratégia de IA generativa da Amazon

A abordagem silenciosa da IBM para IA, Wasm e Serverless

25 de janeiro de 2024

OpenAI RAG vs. Seu RAG personalizado: qual é o melhor?

25 de janeiro de 2024

Publicado por Renato Yamazuki em 25 de janeiro de 2024

Categorias

Cloud

Calcular

A Amazon tem uma ampla gama de ofertas de computação personalizadas para treinar e implantar modelos generativos de base de IA.

Além das CPUs Intel e AMD, a Amazon investiu em CPUs caseiras baseadas em ARM, com a marca Graviton. No re:Invent 2023, a AWS anunciou o Graviton4, a mais recente iteração da CPU, que oferece desempenho de computação até 30% melhor, 50% mais núcleos e 75% mais largura de banda de memória do que o processador Graviton3 da geração anterior. Espera-se que as instâncias baseadas em Graviton4 ofereçam desempenho de preço até 40% melhor para aplicativos de uso intensivo de computação em comparação com as instâncias C6i da geração atual.

AWS Trainium é um chip desenvolvido especificamente que a AWS usa para treinar modelos de IA. A Amazon anunciou o Trainium2, a segunda geração de seu chip Trainium, no AWS re:Invent 2023. Este chip foi projetado para treinamento de modelos de IA. Espera-se que o Trainium2 supere o Trainium de primeira geração em até 4x em termos de desempenho e 2x em termos de eficiência energética. Este chip estará disponível em instâncias Amazon EC2 Trn2, que abrigam 16 chips Trainium em uma única instância.

Essas instâncias são projetadas para serem usadas no desenvolvimento e treinamento de modelos em larga escala. Clientes da AWS, como a Anthropic, estão usando esses chips para treinar LLMs.

Se o Trainium for usado para treinamento de modelos, o Inferentia é um chip projetado para inferência. A Amazon anunciou o chip Inferentia2, a segunda geração de seu chip Inferentia, no AWS re:Invent 2023, que é projetado para aplicações de inferência de aprendizagem profunda (DL). O Inferentia2 supera o Inferentia de primeira geração em até 4x em rendimento e 10x em latência. As instâncias Inf2 com tecnologia Inferentia2 vêm em quatro tamanhos e têm um poder de computação combinado de 2,3 petaFLOPS em tipos de dados BF16 ou FP16. Eles também possuem uma conexão NeuronLink ultrarrápida entre chips, que permite que modelos grandes sejam espalhados por vários chips Inferentia2 sem problemas de comunicação. Também faz com que a inferência seja executada mais rapidamente.

NVIDIA e AWS anunciaram uma expansão de sua parceria estratégica para fornecer nova infraestrutura de supercomputação, software e serviços para IA generativa. A AWS será a primeira a trazer o Superchip NVIDIA GH200 Grace Hopper para a nuvem como parte desta colaboração. A AWS também fornecerá infraestrutura em nuvem para o Projeto Ceiba da NVIDIA, que visa construir o supercomputador de IA mais rápido do mundo.

Modelos de Fundação

Amazon Bedrock é o tempo de execução que oferece vários modelos básicos aos clientes da AWS. No re:Invent 2023, a AWS anunciou a adição dos modelos Claude 2.1, Meta Llama 2 70B, Amazon Titan Image Generator e Amazon Titan Multimodal Embeddings da Anthropic. Bedrock já suporta Cohere’s Command, AI21’s Jurrasic e Stable Diffusion XL.

Amazon Bedrock oferece uma escolha de modelos básicos originais da Amazon sob a família Titan, modelos de código aberto, como Meta’s Llama 2, e modelos comerciais, incluindo Claude 2 e Jurassic-2.

Armazenamento de vetores

Os bancos de dados vetoriais são essenciais para gerenciar e consultar dados de alta dimensão para aplicações de aprendizado de máquina, como IA generativa e modelos de linguagem grande (LLMs). Eles armazenam os embeddings vetoriais gerados pelos LLMs e, em tempo de execução, a entrada do usuário é combinada com um embedding armazenado no banco de dados usando um algoritmo de busca do vizinho mais próximo.

No AWS re:Invent 2023, a Amazon anunciou a adição de recursos de pesquisa vetorial e incorporação de vetores a mais de seus serviços de banco de dados. Isso inclui Amazon MemoryDB para Redis, Amazon DocumentDB e Amazon DynamoDB.

A AWS também anunciou a disponibilidade geral do mecanismo vetorial anunciado anteriormente para Amazon OpenSearch Serverless. A AWS também introduziu o Neptune Analytics, um novo serviço que combina o poder da pesquisa vetorial com a capacidade de analisar grandes quantidades de dados gráficos em segundos. Os clientes podem usar a pesquisa vetorial para encontrar insights importantes em dados gráficos ou data lakes existentes do Neptune além do armazenamento S3 com este serviço.

Recuperação

O serviço de recuperação permite que os desenvolvedores reúnam fontes de dados diferentes em um único contexto para criar pipelines de geração aumentada de recuperação (RAG). Eles fornecem contexto adicional aos LLMs para reduzir as alucinações e aumentar a precisão das respostas.

O Amazon Bedrock Knowledgebase é um serviço totalmente gerenciado que conecta modelos básicos a fontes de dados para RAG, aprimorando os recursos dos modelos e tornando-os mais informados sobre domínios e organizações específicos. Um fluxo de trabalho RAG é possível graças à base de conhecimento, que combina dados privados com Large Language Models (LLMs) para criar aplicativos contextuais. Para criar uma base de conhecimento, uma fonte de dados como Amazon S3 é especificada para ingestão de dados, um modelo de base de embeddings como Amazon Titan Embeddings é usado para converter os dados em formato vetorial e um banco de dados vetorial de destino como Amazon OpenSearch Serverless, Pinecone , ou Redis Enterprise Cloud é escolhido para armazenar os dados vetoriais.

Orquestração

Para entregar um resultado preciso, o componente de orquestração integra o contexto RAG, dados externos e LLMs. Pode envolver recursivamente o LLM na identificação das APIs e ferramentas apropriadas a serem usadas, a fim de fornecer dados em tempo real e factualmente corretos.

Os agentes do Amazon Bedrock usam bases de conhecimento para identificar fontes de dados apropriadas, recuperar informações relevantes com base nas entradas do usuário e fornecer respostas mais precisas. A base de conhecimento pode ser gerenciada por meio do console Amazon Bedrock. O serviço foi anunciado em versão prévia em setembro de 2023 e disponibilizado ao público em novembro de 2023.

Plataforma de IA

A plataforma de IA permite que pesquisadores e desenvolvedores de ML gerenciem o ciclo de vida dos modelos básicos. Ele expõe APIs, ferramentas e ambiente para avaliar, testar, ajustar e implantar modelos.

O Amazon Bedrock e o Amazon SageMaker Studio Canvas oferecem os recursos necessários para gerenciar os modelos básicos. Bedrock fornece APIs sem servidor para realizar ajuste fino e inferência dos modelos, enquanto o SageMaker Studio atua como uma ferramenta de baixo ou nenhum código para personalizar os modelos. Modelos básicos que não estão disponíveis no tempo de execução Bedrock podem ser acessados por meio do SageMaker Studio, que fornece recursos adicionais para desenvolvedores e pesquisadores com experiência variada. A integração do Amazon Bedrock com o AWS Step Functions facilita a criação de aplicativos generativos de IA sem a necessidade de escrever código.

A Amazon anunciou vários novos recursos para o SageMaker Studio, seu ambiente de desenvolvimento integrado (IDE) para aprendizado de máquina, no AWS re:Invent 2023. O SageMaker Studio agora inclui um conjunto IDE, incluindo um editor de código baseado em Code-OSS. Código de código aberto do Visual Studio, JupyterLab aprimorado e mais rápido e RStudio permitem que os profissionais de ML selecionem seu IDE preferido para acelerar o desenvolvimento de ML. Além disso, o SageMaker Studio inclui uma experiência JumpStart aprimorada que torna mais fácil descobrir, importar, ajustar e implantar modelos básicos com apenas alguns cliques.

Aplicações de IA

Essa camada consiste em assistentes de IA do provedor da plataforma, bem como em aplicativos personalizados desenvolvidos e implantados por desenvolvedores.

A AWS anunciou dois assistentes de IA no re:Invent 2023: Amazon Q for Builders e Amazon Q for Business.

O Amazon Q for Builders é um assistente com tecnologia de IA projetado para ajudar desenvolvedores e profissionais de TI em seu trabalho. Ele se baseia em mais de 17 anos de conhecimento e práticas recomendadas da AWS e fornece assistência em todas as etapas do desenvolvimento de aplicativos, desde a pesquisa de práticas recomendadas até a resolução de erros e a codificação de novos recursos. O Amazon Q pode responder perguntas sobre o processo de desenvolvimento de software, explicar a lógica do programa em linguagem natural, identificar e corrigir bugs e até mesmo implementar recursos completos com casos de teste. Ele também possui recursos como transformação de código e solução de problemas de erros do console. O Amazon Q está disponível na AWS, incluindo o AWS Management Console, documentação, site, IDEs com Amazon CodeWhisperer, aplicativos de bate-papo em equipe como Slack ou Microsoft Teams com AWS Chatbot, Amazon CodeCatalyst e (em breve) o aplicativo móvel do console AWS.

O Amazon Q é um assistente generativo baseado em IA que pode ser adaptado às necessidades específicas do cliente. Fornece aos funcionários informações e conselhos oportunos e relevantes para ajudá-los a agilizar tarefas, acelerar a tomada de decisões e a resolução de problemas e estimular a criatividade e a inovação no trabalho. Com base nos dados e informações disponíveis nos sistemas dos clientes, o Amazon Q pode responder perguntas, fornecer resumos, gerar conteúdo e concluir tarefas. S3, Salesforce, Google Drive, Microsoft 365, ServiceNow, Gmail, Slack, Atlassian e Zendesk são apenas alguns dos aplicativos empresariais populares e repositórios de documentos aos quais ele pode se conectar. O Amazon Q respeita o controle de acesso existente com base nas permissões do usuário e fornece respostas com referências e citações para facilitar a verificação dos fatos.

Resumo

No AWS re:Invent 2023, a Amazon anunciou grandes avanços em suas ofertas de IA e computação. Para computação, a AWS introduziu as mais recentes CPUs Graviton, chips Trainium para treinamento e chips Inferentia para inferência, que oferecem melhorias significativas de desempenho em relação às gerações anteriores. A Amazon também expandiu sua colaboração com a NVIDIA, trazendo novas GPUs para a nuvem.

Na frente do modelo básico, Amazon Bedrock adicionou modelos como Claude 2.1 da Anthropic e Llama 2 70B da Meta. Para armazenamento de vetores, a Amazon habilitou novos recursos de vetores em bancos de dados como DynamoDB e OpenSearch para gerenciar com eficiência dados de machine learning. A empresa também lançou serviços para permitir a geração aumentada de recuperação (RAG), que fornece contexto adicional a grandes modelos de linguagem para aumentar a precisão. A Amazon anunciou novos recursos de orquestração na forma de agentes Bedrock para integrar fontes de dados externas com modelos para fornecer resultados precisos. A plataforma SageMaker fornece ferramentas para gerenciar o ciclo de vida do modelo básico, incluindo ajuste fino e implantação.

Por fim, a Amazon lançou assistentes de IA como o Amazon Q for Builders e o Amazon Q for Business para ajudar desenvolvedores e funcionários com informações oportunas e relevantes para aumentar a produtividade e a inovação.

A pilha de IA generativa da Amazon é abrangente e completa, com suporte para modelos comerciais e abertos de última geração. A combinação de Bedrock e SageMaker Studio fornece aos desenvolvedores e engenheiros de ML o nível apropriado de escolha com base em suas habilidades.

Publicarei uma revisão e análise detalhada de vários serviços generativos de IA anunciados pela AWS em re:Invent. Fique atento.

Renato Yamazuki

Comments are closed.

Decodificando a estratégia de IA generativa da Amazon

A abordagem silenciosa da IBM para IA, Wasm e Serverless

OpenAI RAG vs. Seu RAG personalizado: qual é o melhor?

A abordagem silenciosa da IBM para IA, Wasm e Serverless

OpenAI RAG vs. Seu RAG personalizado: qual é o melhor?

Calcular

Modelos de Fundação

Armazenamento de vetores

Recuperação

Orquestração

Plataforma de IA

Aplicações de IA

Resumo

Renato Yamazuki

Postagens relacionadas

Kubernetes Autoscaling: Perguntas e respostas com o CTO da Fairwinds, Andy Suderman

Segredos fantasmas: a ameaça oculta nos repositórios de código

Canonical oferece aplicativos em contêiner LTS ‘Distroless’ para K8s