Usando SPLADE para gerar embeddings esparsos aprendidos

Grafana depende do Embrace para extrair dados móveis

26 de junho de 2024

Uma mulher de cabelos castanhos sentada em frente a um computador cercada por peças de um quebra-cabeça laranja e azul queimadas no ar ao seu redor

Creatio levanta US$ 200 milhões para desenvolver ainda mais soluções de CRM empresarial sem código e IA

27 de junho de 2024

Publicado por Douglas S. em 26 de junho de 2024

Categorias

DR

Os bancos de dados vetoriais dependem de vários embeddings para recuperar dados e gerar resultados precisos para os usuários. Os embeddings esparsos aprendidos combinam a capacidade dos embeddings esparsos de combinar palavras-chave com a capacidade dos embeddings densos de potencializar pesquisas semânticas.

Representações de codificador bidirecional de transformadores (ou BERT) é a arquitetura subjacente que alimenta o modelo SPLADE. Abordamos como o BERT cria embeddings a partir de uma string de texto de consulta na última parte.

O que é SPLADE?

O modelo Sparse Lexical and Dense Embeddings (SPLADE) foi projetado para tarefas de recuperação de informações, combinando os pontos fortes de representações lexicais esparsas com embeddings densos.

Antes de chegarmos ao SPLADE, precisamos retornar ao BERT. Existem duas tarefas de pré-treinamento que sustentam o BERT, uma das quais é Masked Language Modeling (MLM). Esse processo oculta aleatoriamente componentes do token e treina o modelo para prever o que melhor caberia ali.

Usamos a consulta a seguir para explicar o BERT e o BGE-M3 e a usaremos novamente aqui para fins de consistência.

Milvus é um banco de dados vetorial construído para pesquisa escalonável de similaridade.

Você pode ver no token gerado abaixo que o MLM mascara dois componentes do token.

Essa técnica resulta em um modelo com compreensão linguística mais profunda e consciência estrutural da linguagem porque depende de tokens adjacentes para substituir os valores mascarados por previsões precisas.

Para cada slot mascarado durante o pré-treinamento, o modelo usa a incorporação contextualizada do BERT (chamamos isso de Q), aqui o representamos como Q(i) para gerar uma distribuição de probabilidade w_icom w_{ij} denotando a probabilidade de um token de vocabulário BERT específico ocupar a posição mascarada. O comprimento deste vetor de saída w_i corresponde ao tamanho do extenso vocabulário do BERT, normalmente 30.522 palavras, e serve como um sinal de aprendizagem chave para refinar as previsões do modelo.

Agregado da pontuação de cada token de todas as posições.

(Nota: As probabilidades são calculadas para fins de demonstração.)

Embora a arquitetura BERT tenha algum MLM integrado, o SPLADE leva essa aplicação de MLM para o próximo nível. A principal diferença é que, uma vez que o BERT gera tokens e embeddings, o SPLADE aplica MLM em todos posições de token, calculando a probabilidade de cada token corresponder a cada palavra do vocabulário do BERT. Ele também usa processamento avançado para determinar uma relevância ponderada para cada palavra do vocabulário do token de entrada, criando um vetor esparso aprendido.

Uma das principais vantagens do uso do SPLADE é que ele identifica termos relevantes que não estavam presentes no texto original. Isso fornece muita flexibilidade e dinamismo para a produção do resultado final, expandindo o vetor para incluir mais tokens. Isso amplia os recursos de correspondência de termos porque os resultados retornados podem conter dados relevantes além do escopo literal da string de consulta original.

SPLADE no mundo real

SPLADE pega embeddings BERT e lhes dá maior resolução e densidade, tornando-os mais úteis para tarefas de busca e recuperação, especialmente aquelas onde o escopo e a relevância do termo são importantes. A seguir estão algumas aplicações do mundo real para o modelo SPLADE.

Otimização e aprimoramento de mecanismos de pesquisa

Melhorando a relevância e a eficiência do mecanismo de pesquisa

Os embeddings esparsos aprendidos gerados pelo SPLADE ajudam os mecanismos de pesquisa a entender melhor as consultas dos usuários e a recuperar documentos que são léxico e semanticamente relevantes.

Benefícios:

Relevância aprimorada: Fornece resultados de pesquisa mais precisos e contextualmente relevantes.
Compreensão aprimorada: Compreende melhor a intenção do usuário, mesmo para consultas complexas ou vagas.
Escalabilidade: Lida com eficiência com conjuntos de dados em grande escala devido às suas representações esparsas.
Satisfação do usuário: Aumenta a satisfação do usuário por meio de resultados de pesquisa mais precisos.

Pesquisa e recomendação de produtos de comércio eletrônico

Pesquisa aprimorada de produtos e recomendações personalizadas

No comércio eletrônico, o SPLADE pode melhorar a funcionalidade de pesquisa em plataformas de varejo online, oferecendo resultados de pesquisa de produtos mais precisos. Ele também pode aprimorar os sistemas de recomendação, compreendendo as nuances das preferências dos usuários por meio de seu histórico de pesquisas e compras. Isso leva a uma melhor descoberta de produtos e experiências de compra personalizadas.

Benefícios:

Melhor correspondência de produtos: Corresponde com precisão as consultas de pesquisa a produtos relevantes.
Personalização: Fornece recomendações personalizadas com base no comportamento e nas preferências do usuário.
Taxas de conversão: Aumenta as taxas de conversão ajudando os clientes a encontrar o que procuram com mais eficiência.
Gestão de inventário: Ajuda no melhor gerenciamento de estoque, entendendo a demanda do produto.

Pesquisa Acadêmica e Científica

Pesquisa aprimorada de literatura e descoberta de conhecimento

Você pode usar o SPLADE para melhorar as pesquisas bibliográficas em pesquisas acadêmicas e científicas. Os pesquisadores muitas vezes precisam encontrar artigos, artigos e dados relevantes em extensas bases de dados acadêmicas. A capacidade do SPLADE de capturar conteúdo léxico e semântico pode fornecer aos pesquisadores resultados de pesquisa mais precisos e abrangentes, facilitando uma melhor descoberta de conhecimento.

Benefícios:

Pesquisa abrangente: Recupera uma gama mais ampla de documentos relevantes, compreendendo questões científicas complexas.
Eficiência de tempo: Economiza o tempo dos pesquisadores fornecendo resultados mais precisos rapidamente.
Pesquisa interdisciplinar: Auxilia na descoberta de conexões entre diferentes campos de estudo.
Qualidade da pesquisa: Melhora a qualidade da pesquisa, garantindo que a literatura crítica e relevante não seja esquecida.

Conclusão

A capacidade do modelo SPLADE de criar embeddings esparsos aprendidos combinando representações lexicais esparsas com embeddings densos o torna excepcionalmente poderoso para tarefas de recuperação de informações.

Stephen Batifol é um defensor do desenvolvedor na Zilliz. Anteriormente, ele trabalhou como engenheiro de aprendizado de máquina na Wolt, onde criou e trabalhou na plataforma de ML, e anteriormente como cientista de dados na Brevo. Stephen estudou ciência da computação e…

Douglas S.

Comments are closed.

Usando SPLADE para gerar embeddings esparsos aprendidos

Grafana depende do Embrace para extrair dados móveis

Creatio levanta US$ 200 milhões para desenvolver ainda mais soluções de CRM empresarial sem código e IA

Grafana depende do Embrace para extrair dados móveis

Creatio levanta US$ 200 milhões para desenvolver ainda mais soluções de CRM empresarial sem código e IA

DR

O que é SPLADE?

SPLADE no mundo real

Otimização e aprimoramento de mecanismos de pesquisa

Pesquisa e recomendação de produtos de comércio eletrônico

Pesquisa Acadêmica e Científica

Conclusão

Douglas S.

Postagens relacionadas

Flow-IPC melhora a comunicação entre processos para desenvolvedores C++

Melhorando a qualidade dos dados: anomalias e monitoramento automatizado

Como avaliar os riscos de segurança de integração ao avaliar fornecedores de SaaS