Explorando a API do modelo de linguagem Gemini do Google

10 produtos principais para a construção de aplicativos baseados em LLM na AWS

4 de março de 2024

7 ótimas ferramentas para seu conjunto de ferramentas de engenharia de plataforma

5 de março de 2024

Publicado por Renato Yamazuki em 4 de março de 2024

Categorias

Api Management

Uma análise mais detalhada dos parâmetros da API

A API Gemini fornece um conjunto de parâmetros para ajustar a geração de texto, permitindo aos usuários equilibrar efetivamente a criatividade e a precisão. Aqui está uma visão geral dos principais parâmetros, juntamente com seus impactos na criatividade e precisão das respostas do LLM.

O trecho de código abaixo fornece a estrutura básica da chamada de API para geração de texto e conclusão de chat. Consulte o tutorial anterior, “Como começar a usar o modelo de linguagem grande Gemini do Google”, para obter detalhes sobre como instalar e configurar o SDK Python para Vertex AI.

from google.cloud import aiplatform
import vertexai
from vertexai.preview.generative_models import GenerativeModel, Part

vertexai.init()
model = GenerativeModel("gemini-pro")

response = model.generate_content(“What's the meaning of life?”,
max_output_tokens=128,
temperature=0,
top_p=1,
top_k=5
)
print(response.text)

Max_output_tokens: este parâmetro define o comprimento máximo da resposta do modelo em termos de tokens, que pode ser aproximadamente igualado a palavras. Ele controla o detalhamento da saída, com um limite mais alto permitindo respostas mais longas e detalhadas. A escolha deste limite pode afetar a profundidade e abrangência da resposta, mas não influencia diretamente a sua criatividade ou precisão.

Temperatura: Este parâmetro controla a aleatoriedade da saída. Uma temperatura mais alta aumenta a criatividade, tornando mais provável a escolha de tokens menos prováveis, levando a resultados mais variados e inesperados. Por outro lado, uma temperatura mais baixa resulta em resultados mais previsíveis e conservadores. É um parâmetro crucial para controlar o equilíbrio entre criatividade e determinismo nas respostas do modelo

Top_p (amostragem de núcleo): Este parâmetro, também conhecido como amostragem de núcleo, controla o limite de probabilidade cumulativa para seleção de tokens, garantindo que apenas os tokens mais prováveis (até uma probabilidade cumulativa especificada) sejam considerados. Isso permite um equilíbrio dinâmico entre criatividade e precisão. Um limite mais baixo (mais próximo de 0) tornará os resultados do modelo mais focados e menos diversificados, enquanto um limite mais alto aumenta a variedade de tokens usados, potencialmente tornando o resultado mais criativo, mas menos previsível.

Principais_k: Este parâmetro limita a seleção do próximo token aos k tokens mais prováveis. Um valor mais baixo de k restringe o modelo a uma escolha mais restrita de palavras, levando a resultados mais previsíveis, enquanto um valor mais alto permite uma seleção mais ampla de tokens, aumentando a criatividade potencial do resultado. No entanto, defini-lo muito alto pode prejudicar a relevância e a precisão do conteúdo.

Em comparação, temperature e top_p estão mais diretamente relacionados ao controle da criatividade do modelo, com valores mais elevados para ambos, levando a resultados mais novos e variados. O top_k O parâmetro oferece um controle mais granular sobre o conjunto de seleção dos próximos tokens, influenciando diretamente a diversidade e a criatividade potencial da saída. Os parametros max_output_tokensembora não afete diretamente a criatividade, define o escopo da resposta, afetando a capacidade do modelo de desenvolver ideias de forma completa ou fornecer informações detalhadas.

Cada um desses parâmetros desempenha um papel significativo na adaptação do resultado do LLM às necessidades específicas, permitindo aos usuários ajustar o equilíbrio entre criatividade e precisão com base na tarefa em questão. O ajuste desses parâmetros pode influenciar significativamente o desempenho do modelo, tornando imperativo compreender completamente seus efeitos para obter resultados ideais.

Aterramento e chamada de função expandem a capacidade de Gêmeos

Gemini introduziu recursos avançados de chamada de função, que permitem aos desenvolvedores integrar perfeitamente ferramentas externas e APIs em seus aplicativos orientados por IA. Esse recurso permite que o modelo interaja com fontes e serviços de dados externos, ampliando assim sua utilidade e escopo de aplicação muito além do que é possível com modelos de IA independentes. Por exemplo, ao definir funções que o modelo pode chamar com base na entrada que recebe, os desenvolvedores podem criar aplicações de IA mais dinâmicas, responsivas e úteis. Isso pode variar desde a busca de dados em tempo real de APIs externas até o processamento e geração de resultados com base em conjuntos de dados externos complexos.

A sofisticação do mecanismo de chamada de função do Gemini é uma prova de seu design como um modelo de IA altamente interativo e integrável, pronto para lidar com uma ampla gama de casos de uso práticos. Nas próximas partes desta série, orientarei você nas etapas de integração da API de rastreamento de voo em tempo real com o Gemini por meio de uma técnica de chamada de função.

Grounding é outra técnica que aumenta a capacidade do Gemini de fornecer informações relevantes e precisas, incorporando dados específicos do contexto em seu processamento. Essa capacidade, muitas vezes apoiada por pesquisa semântica e modelos de geração aumentada de recuperação, permite que o LLM acesse e use bases de conhecimento externas de forma eficaz, tornando-o mais apto a responder perguntas com alta precisão.

O aterramento oferece os seguintes benefícios:

Alucinações reduzidas: O aterramento minimiza a ocorrência de alucinações de modelo, evitando a geração de conteúdo não factual.
Respostas ancoradas: A fundamentação garante que as respostas do modelo estejam firmemente ancoradas em informações específicas, aumentando a sua relevância e fiabilidade.
Maior confiabilidade e aplicabilidade: o conteúdo fundamentado é mais confiável e aplicável na prática, levando a uma maior satisfação do usuário e à confiança no resultado gerado.

O Google integrou o Vertex AI Search com o Gemini para fornecer recursos de aterramento ao LLM. Semelhante à chamada de função, o modelo pode ser apontado para o índice do armazenamento de dados na Pesquisa para recuperar informações de contexto.

A API Gemini, com seus parâmetros personalizáveis — como temperature, max_output_tokens, top_pe top_k — oferece flexibilidade incomparável na adaptação do conteúdo gerado por IA às necessidades específicas, equilibrando criatividade e precisão de forma eficaz.

Além disso, os recursos de aterramento e de chamada de função do Gemini expandem significativamente sua utilidade, permitindo-lhe integrar fontes de dados e serviços externos perfeitamente em suas respostas. Esses recursos melhoram coletivamente a capacidade da Gemini de fornecer aplicações de IA contextualmente relevantes, precisas e altamente interativas em uma ampla variedade de domínios.

A postagem Explorando a API do modelo de linguagem Gemini do Google apareceu pela primeira vez no The New Stack.