Como a aceleração da GPU NVIDIA sobrecarregou o banco de dados de vetores Milvus

KubeCon24: Mirantis dobra em código aberto

28 de março de 2024

A engenharia de plataforma não se trata apenas de ferramentas

28 de março de 2024

Publicado por Douglas S. em 28 de março de 2024

Categorias

Aproveitando a aceleração da GPU

Para enfrentar esses desafios, a NVIDIA desenvolveu o CUDA-Accelerated Graph Index for Vector Retrieval (CAGRA), uma estrutura acelerada por GPU que aproveita os recursos de alto desempenho das GPUs para fornecer rendimento excepcional para cargas de trabalho de bancos de dados vetoriais.

No NVIDIA GTC 2024, Zilliz e NVIDIA revelaram o Milvus 2.4, o primeiro banco de dados vetorial do mundo acelerado por poderosas capacidades de indexação e pesquisa de GPU. Milvus é um sistema de banco de dados vetorial de código aberto desenvolvido para pesquisa de similaridade vetorial em grande escala e cargas de trabalho de IA. Criado inicialmente por Zilliz, um inovador no mundo do gerenciamento de dados não estruturados e tecnologia de banco de dados vetorial, o Milvus fez sua estreia em 2019. Para incentivar o amplo envolvimento e adoção da comunidade, ele é hospedado pela Linux Foundation desde 2020.

Milvus 2.4 aproveita o poder de computação massivamente paralelo das GPUs NVIDIA e o novo CAGRA da biblioteca RAPIDS cuVS. Essa aceleração de GPU permite ganhos significativos de desempenho no Milvus: os benchmarks demonstram desempenho de pesquisa vetorial até 50x mais rápido do que índices baseados em CPU de última geração, como Hierarchical Navigable Small Worlds (HNSW).

Explorando a arquitetura Milvus 2.4

Milvus foi projetado para ambientes nativos de nuvem e segue uma filosofia de design modular. Ele separa o sistema em vários componentes e camadas envolvidas no tratamento de solicitações de clientes, processamento de dados e gerenciamento de armazenamento e recuperação de dados vetoriais. Este design modular permite que Milvus atualize ou melhore a implementação de módulos específicos sem alterar suas interfaces. Essa modularidade torna relativamente fácil incorporar suporte de aceleração de GPU ao Milvus.

A arquitetura Milvus 2.4

A arquitetura modular inclui componentes como coordenador, camada de acesso, fila de mensagens, nó de trabalho e camadas de armazenamento. O Nó de Trabalho é subdividido em Nós de Dados, Nós de Consulta e Nós de Índice. Os nós de índice são responsáveis pela construção de índices, enquanto os nós de consulta cuidam da execução da consulta.

Para aproveitar os benefícios da aceleração de GPU, o CAGRA está integrado aos nós de índice e consulta da Milvus. Essa integração permite transferir tarefas computacionalmente intensivas, como construção de índices e processamento de consultas, para GPUs, aproveitando seus recursos de processamento paralelo.

Dentro dos nós de índice, o suporte CAGRA foi incorporado aos algoritmos de construção de índices, permitindo a construção e o gerenciamento eficientes de índices vetoriais de alta dimensão em hardware de GPU. Essa aceleração reduz significativamente o tempo e os recursos necessários para indexar conjuntos de dados vetoriais em grande escala.

Da mesma forma, CAGRA é usado nos nós de consulta para acelerar a execução de pesquisas complexas de similaridade vetorial. Ao aproveitar o poder de processamento da GPU, o Milvus pode realizar cálculos de distância de alta dimensão e pesquisas de similaridade em velocidades sem precedentes, resultando em tempos de resposta de consulta mais rápidos e melhor rendimento geral.

Avaliando Desempenho

Para esta avaliação, utilizamos três tipos de instância disponíveis publicamente na AWS:

m6id.2xgrande: Este tipo de instância é alimentado pela CPU Intel Xeon 8375C.
g4dn.2xgrande: Esta instância acelerada por GPU está equipada com uma GPU NVIDIA T4.
g5.2xgrande: Este tipo de instância apresenta a GPU NVIDIA A10G.

Ao aproveitar esses diversos tipos de instâncias, pretendemos avaliar o desempenho e a eficiência do Milvus com integração CAGRA em diferentes configurações de hardware. A instância m6id.2xlarge serviu como base para o desempenho baseado em CPU, enquanto as instâncias g4dn.2xlarge e g5.2xlarge nos permitiram avaliar os benefícios da aceleração de GPU usando as GPUs NVIDIA T4 e A10G, respectivamente.

Ambientes de avaliação, AWS

Usamos dois conjuntos de dados vetoriais disponíveis publicamente no VectorDBBench:

OpenAI-500K-1536-dim: Este conjunto de dados consiste em 500.000 vetores, cada um com dimensionalidade de 1.536. É derivado do modelo de linguagem OpenAI.
Cohere-1M-768-dim: Este conjunto de dados contém 1 milhão de vetores, cada um com dimensionalidade de 768. Ele é gerado a partir do modelo de linguagem Cohere.

Esses conjuntos de dados foram escolhidos especificamente para avaliar o desempenho e a escalabilidade do Milvus com integração CAGRA sob diferentes volumes de dados e dimensionalidades vetoriais. O conjunto de dados OpenAI-500K-1536-dim permite avaliar o desempenho do sistema com um conjunto de dados moderadamente grande de vetores de dimensões extremamente altas. Em contraste, o conjunto de dados Cohere-1M-768-dim testa a capacidade do sistema de lidar com volumes maiores de vetores de dimensões moderadamente altas.

Tempo de construção do índice

Comparamos o tempo de construção do índice entre Milvus com a estrutura de aceleração de GPU CAGRA e a implementação padrão do Milvus usando o índice HNSW em CPUs.

Milvus CAGRA x HNSW

Para o conjunto de dados Cohere-1M-768-dim, os tempos de construção do índice são:

CPU (HNSW): 454 segundos
GPU T4 (CAGRA): 66 segundos
GPU A10G (CAGRA): 42 segundos

Para o conjunto de dados OpenAI-500K-1536-dim, os tempos de construção do índice são:

CPU (HNSW): 359 segundos
GPU T4 (CAGRA): 45 segundos
GPU A10G (CAGRA): 22 segundos

Os resultados mostram claramente que CAGRA, a estrutura acelerada por GPU, supera significativamente a construção de índice HNSW baseado em CPU, com a GPU A10G sendo a mais rápida em ambos os conjuntos de dados. A aceleração de GPU fornecida pelo CAGRA reduz o tempo de construção de índice em até uma ordem de grandeza em comparação com a implementação de CPU, demonstrando os benefícios de aproveitar o paralelismo de GPU para operações vetoriais computacionalmente intensivas, como construção de índice.

Taxa de transferência

Também comparamos o desempenho entre Milvus com a estrutura de aceleração de GPU CAGRA e a implementação padrão Milvus usando o índice HNSW em CPUs. A métrica que avaliamos é consultas por segundo (QPS), que mede o rendimento da execução da consulta.

Variamos o tamanho do lote, representando o número de consultas processadas simultaneamente, de 1 a 100 durante o processo de avaliação. Essa ampla variedade de tamanhos de lote nos permitiu realizar uma avaliação realista e completa, avaliando o desempenho em diferentes cenários de carga de trabalho de consulta.

Avaliando o rendimento

Os gráficos mostram que:

Para um tamanho de lote de 1, o T4 é 6,4x a 6,7x mais rápido que a CPU, e o A10G é 8,3x a 9x mais rápido.
Quando o tamanho do lote aumenta para 10, a melhoria de desempenho é mais significativa: T4 é 16,8x a 18,7x mais rápido e A100 é 25,8x a 29,9x mais rápido.
Com um tamanho de lote de 100, o ganho de desempenho continua a crescer: T4 é 21,9x a 23,3x mais rápido e A100 é 48,9x a 49,2x mais rápido.

Os resultados demonstram ganhos substanciais de desempenho ao aproveitar a aceleração da GPU para consultas de bancos de dados vetoriais, especialmente para lotes maiores e dados de dimensões mais altas. Milvus com CAGRA desbloqueia os recursos de processamento paralelo das GPUs, permitindo melhorias significativas no rendimento e tornando-o adequado para cargas de trabalho exigentes de bancos de dados vetoriais.

Novas trilhas em chamas

Os benchmarks indicam que a integração da estrutura de aceleração de GPU CAGRA da NVIDIA no Milvus 2.4 representa uma grande conquista em bancos de dados vetoriais. O poder de computação massivamente paralelo das GPUs aumentou significativamente o desempenho das operações de indexação e pesquisa de vetores, melhorando o processamento de dados vetoriais de alto rendimento e em tempo real.

A colaboração Milvus 2.4 entre Zilliz e NVIDIA exemplifica o poder da inovação aberta e do desenvolvimento orientado pela comunidade, trazendo aceleração de GPU para bancos de dados vetoriais.

O Milvus 2.4 de código aberto já está disponível, e as empresas que procuram um serviço de banco de dados vetorial totalmente gerenciado podem esperar a aceleração da GPU chegando ao Zilliz Cloud ainda este ano. Zilliz Cloud oferece uma experiência perfeita para implantação e dimensionamento do Milvus nos principais provedores de nuvem, como AWS, Google Cloud Platform e Azure, sem sobrecarga operacional.

Charles Xie é o fundador e CEO da Zilliz, uma empresa dedicada ao desenvolvimento de uma plataforma de dados não estruturados de ponta para aplicações de IA. Ele é o criador do Milvus, um banco de dados vetorial de código aberto líder que é usado por mais de 5.000 empresas…

Douglas S.

Comments are closed.

Como a aceleração da GPU NVIDIA sobrecarregou o banco de dados de vetores Milvus

KubeCon24: Mirantis dobra em código aberto

A engenharia de plataforma não se trata apenas de ferramentas

KubeCon24: Mirantis dobra em código aberto

A engenharia de plataforma não se trata apenas de ferramentas

Aproveitando a aceleração da GPU

Explorando a arquitetura Milvus 2.4

Avaliando Desempenho

Tempo de construção do índice

Taxa de transferência

Avaliando o rendimento

Novas trilhas em chamas

Douglas S.

Postagens relacionadas

Usando SPLADE para gerar embeddings esparsos aprendidos

Flow-IPC melhora a comunicação entre processos para desenvolvedores C++

Melhorando a qualidade dos dados: anomalias e monitoramento automatizado