Edge AI e quantização de modelos para análises em tempo real

Como truques de hacking ético podem proteger suas APIs e aplicativos

23 de janeiro de 2024

Featued image for: Docker Buys AtomicJar to Spur Dev-Led Integration Testing

Docker compra AtomicJar para estimular testes de integração liderados por desenvolvedores

23 de janeiro de 2024

Publicado por Renato Yamazuki em 23 de janeiro de 2024

Categorias

Edge Computing

Trajetória do Edge AI

A integração da borda e da IA está remodelando a forma como as organizações lidam com o processamento de dados. A IDC prevê que os gastos com computação de ponta atingirão US$ 317 bilhões em 2026. Além disso, o impulso da borda está acelerando com a adoção da IA, com a IDC prevendo que até 2027 o mercado de IA atingirá quase US$ 251 bilhões.

Edge AI aproxima o processamento de dados e modelos do local onde os dados são criados. Isso facilita o processamento de IA em tempo real. Ele também apresenta muitas outras vantagens.

Latência diminuída e velocidade aumentada: A inferência de IA é feita localmente, eliminando a necessidade de transmissão de dados para a nuvem. Isto é crucial para aplicações que requerem dados em tempo real e exigem respostas imediatas.
Melhor segurança e privacidade de dados: Manter os dados no dispositivo reduz bastante os riscos de segurança associados à transmissão e vazamento de dados.
Escalabilidade aprimorada: Edge AI é uma abordagem descentralizada que simplifica a escalabilidade de aplicativos, eliminando a dependência de um data center central para poder de processamento.

Entre na quantização do modelo

Para garantir a eficácia da IA de ponta, é crucial otimizar os modelos de IA para obter alto desempenho, mantendo a precisão. No entanto, a crescente complexidade e tamanho dos modelos de IA criam desafios ao implementá-los em dispositivos periféricos, que normalmente têm recursos limitados.

A inovação na quantização e compactação de modelos está possibilitando a implantação de poderosos modelos de IA na borda. A quantização do modelo envolve a redução da precisão numérica dos parâmetros do modelo, resultando em modelos leves que são adequados para implantações de ponta em dispositivos, incluindo telefones celulares e sistemas embarcados.

Três técnicas de ajuste fino, GPTQ, LoRA e QLoRA, surgiram como elementos transformadores no campo da quantização de modelos. O objetivo principal dessas técnicas é tornar a implantação e o ajuste fino de grandes modelos de linguagem (LLMs) mais eficientes e acessíveis, mas elas abordam esse objetivo de maneira diferente.

GPTQ se concentra na compactação de modelos após o treinamento para uma melhor implantação, enquanto LoRA e QLoRA são voltados para tornar o ajuste fino de modelos grandes mais eficiente. O GPTQ é mais adequado para implantar modelos já treinados em ambientes com memória restrita. LoRA e QLoRA são mais adequados para cenários em que é necessário ajustar grandes modelos pré-treinados em novas tarefas ou conjuntos de dados com recursos computacionais limitados. A escolha entre eles depende dos requisitos específicos do projeto, como o estágio de desenvolvimento do modelo (ajuste vs. implantação) e os recursos computacionais disponíveis.

A utilização dessas técnicas de quantização permite que os desenvolvedores estendam a IA até o limite e estabeleçam um equilíbrio entre desempenho e eficiência para diversas aplicações.

Capacidades e requisitos de Edge AI

Os usos da IA de ponta são amplamente variados – e crescentes.

Por exemplo, um varejista pode usar dispositivos de ponta alimentados por IA, como sensores e câmeras, para coletar dados sobre o comportamento do cliente. Ao observar o tráfego de pedestres ou identificar áreas com produtos populares, os varejistas podem usar as informações para otimizar layouts de lojas, estratégias de marketing e muito mais. Como outro exemplo, ao executar IA e analisar dados localmente em dispositivos de ponta, os fabricantes podem detectar defeitos, prever a manutenção e controlar a qualidade do produto. Isso permite que os fabricantes façam melhor uso dos dados em tempo real, reduzindo o tempo de inatividade e melhorando a eficiência da produção.

À medida que as empresas buscam levar a inferência para a borda, há uma necessidade crescente de pilhas robustas e bancos de dados dedicados à inferência na borda. Essas plataformas precisam oferecer suporte ao processamento de dados no local e, ao mesmo tempo, fornecer os benefícios da IA de ponta, incluindo latência reduzida e maior privacidade dos dados.

O sucesso da IA de ponta depende de uma camada de dados persistente, essencial para o gerenciamento de dados locais e baseados na nuvem. A ascensão dos modelos multimodais de IA ressalta a necessidade de uma plataforma unificada capaz de lidar com diversos tipos de dados para atender às demandas operacionais da computação de ponta. Isto permite uma conexão perfeita com repositórios de dados locais em cenários online e offline.

Olhando para o futuro

A convergência de IA, computação de ponta e gerenciamento de banco de dados de ponta é fundamental para alcançar soluções seguras e em tempo real. À medida que os casos de utilização da IA empresarial se expandem, as organizações devem concentrar-se na adoção de estratégias eficazes para otimizar a utilização dos seus dados e obter uma vantagem competitiva para os seus negócios.

Para fornecer os aplicativos mais rápidos e confiáveis possíveis, você precisa de um banco de dados projetado para computação de ponta. Saiba mais sobre os recursos de computação de ponta do Couchbase ou experimente-o gratuitamente. Para aumentar a produtividade do desenvolvedor e acelerar o tempo de lançamento de aplicativos modernos no mercado, o Couchbase introduziu recursos generativos de IA no Couchbase Capella. Saiba mais sobre Capella iQ e inscreva-se para uma prévia privada.

A postagem Edge AI e Model Quantization for Real-Time Analytics apareceu pela primeira vez em The New Stack.