![A Augmented World Expo 2024 vai de 18 a 20 de junho.](https://optimuscloud.com.br/wp-content/uploads/2024/06/1718734922_Augmented-World-Expo-2024-comeca-em-Long-Beach-150x150.jpg)
Augmented World Expo 2024 começa em Long Beach
18 de junho de 2024![Construindo software de IA com reconhecimento de privacidade com bancos de dados de vetores](https://optimuscloud.com.br/wp-content/uploads/2024/06/1718758808_Construindo-software-de-IA-com-reconhecimento-de-privacidade-com-bancos-150x150.png)
Construindo software de IA com reconhecimento de privacidade com bancos de dados de vetores
18 de junho de 2024Oito pesquisadores do Google levaram a IA a um novo estágio de evolução quando introduziram transformadores em uma importante conferência de aprendizado de máquina, há sete anos. A arquitetura do Transformer é a rede neural de IA inovadora que torna possíveis os grandes modelos de linguagem (LLMs) e os aplicativos generativos de IA construídos sobre eles. O trabalho depende de muitos, incluindo gigantes da IA, como o vencedor do Prêmio Turing, Geoffrey Hinton, e a lenda viva Fei Fei Li, esta última reconhecida por insistir que o big data era fundamental para desbloquear o poder da IA. Embora a investigação entre os hiperscaladores e os académicos continue tão dinâmica como sempre, o outro foco de inovação do modelo de IA hoje é a própria empresa.
Empresas de todos os setores verticais fizeram um balanço inteligente desse momento decisivo na história viva da IA, aproveitando o dia para refinar os LLMs de novas maneiras criativas e criar novos tipos de valor com eles. Mas, até agora, esse valor ainda não foi concretizado.
Neste momento, a meio de 2024, para tirar o máximo partido dos LLMs, os inovadores empresariais têm primeiro de pensar em muitas partes móveis. Ter a tecnologia certa subjacente e ajustá-la às necessidades exclusivas de uma empresa ajudará a garantir que as aplicações generativas de IA sejam capazes de produzir resultados confiáveis — e valor no mundo real.
Conjuntos de dados, modelos e ferramentas
Os dados, é claro, são o combustível da IA, e enormes conjuntos de dados públicos alimentam o poder dos LLMs. Mas estes conjuntos de dados públicos podem não incluir os dados corretos sobre o que um inovador empresarial está a tentar realizar. As alucinações e os preconceitos que nascem deles também entram em conflito com o controle de qualidade exigido pelas empresas. Linhagem, rastreabilidade, explicabilidade, confiabilidade e segurança dos dados são mais importantes para os usuários corporativos. Eles precisam ser responsáveis pelo uso de dados ou correr o risco de processos judiciais dispendiosos, problemas de reputação, danos aos clientes e danos aos seus produtos e soluções. Isso significa que eles devem determinar quais conjuntos de dados proprietários internos devem alimentar a personalização do modelo e o desenvolvimento de aplicativos, onde esses conjuntos de dados residem e qual a melhor forma de limpá-los e prepará-los para o consumo do modelo.
Os LLMs sobre os quais mais ouvimos falar são considerados modelos básicos: aqueles construídos pela OpenAI, Google, Meta e outros que são treinados em enormes volumes de dados da Internet – alguns dados de alta qualidade e outros tão pobres que contam como desinformação. Os modelos de fundação são construídos para um paralelismo massivo, adaptáveis a uma ampla variedade de cenários diferentes e exigem guarda-corpos significativos. O Llama 2 da Meta, “uma família de LLMs pré-treinados e ajustados, variando em escala de parâmetros de 7B a 70B”, é um ponto de partida popular para muitas empresas. Ele pode ser ajustado com conjuntos de dados internos exclusivos e combinado com o poder dos gráficos de conhecimento, bancos de dados vetoriais, SQL para dados estruturados e muito mais. Felizmente, há uma atividade robusta na comunidade de código aberto para oferecer novos LLMs otimizados.
A comunidade de código aberto também se tornou particularmente útil ao oferecer ferramentas que servem como tecido conjuntivo para ecossistemas generativos de IA. LangChain, por exemplo, é um framework que simplifica a criação de aplicações baseadas em IA, com uma biblioteca Python de código aberto projetada especificamente para otimizar o uso de LLMs. Além disso, uma ramificação da Linux Foundation está desenvolvendo padrões abertos para geração aumentada de recuperação (RAG), que é vital para trazer dados corporativos para LLMs pré-treinados e reduzir alucinações. Os desenvolvedores empresariais podem acessar muitas ferramentas usando APIs, o que é uma mudança de paradigma que está ajudando a democratizar o desenvolvimento de IA.
Embora algumas empresas tenham uma divisão de pesquisa pura que poderá investigar o desenvolvimento de novos algoritmos e LLMs, a maioria não reinventará a roda. O ajuste fino dos modelos existentes e o aproveitamento de um ecossistema crescente de ferramentas tornar-se-ão o caminho mais rápido para o valor.
Supercomputação e um plano de dados elástico
A era atual da IA, e o boom da IA generativa em particular, estão impulsionando um aumento espetacular no uso da computação e no avanço da tecnologia GPU. Isso se deve ao grande e complexo número de cálculos que o treinamento e a inferência de IA exigem, embora existam distinções na forma como esses processos consomem a computação. É impossível não mencionar aqui as GPUs Nvidia, que abastecem cerca de 90% do mercado de chips de IA e provavelmente continuarão a dominar com o recém-anunciado e extremamente poderoso Superchip GB200 Grace Blackwell, capaz de inferência e treinamento de trilhões de parâmetros em tempo real. .
A combinação dos conjuntos de dados certos, LLMs ajustados e um ecossistema de ferramentas robusto, juntamente com esta computação poderosa, é fundamental para permitir a inovação em IA empresarial. Mas a espinha dorsal tecnológica que dá forma a tudo isso é a infraestrutura de dados – sistemas de armazenamento e gestão que podem unificar um ecossistema de dados. A infraestrutura de dados que tem sido fundamental na computação em nuvem é agora também fundamental para a existência e o crescimento da IA.
Os LLMs atuais precisam de volume, velocidade e variedade de dados em uma taxa nunca vista antes, e isso cria complexidade. Não é possível armazenar o tipo de dados que os LLMs exigem na memória cache. Sistemas de armazenamento de alto IOPS e alto rendimento que podem ser dimensionados para conjuntos de dados massivos são um substrato necessário para LLMs onde milhões de nós são necessários. Com GPUs superpotentes, capazes de tempos de leitura de armazenamento extremamente rápidos, uma empresa deve ter um sistema massivamente paralelo e de baixa latência que evite gargalos e seja projetado para esse tipo de rigor. Por exemplo, a Virtual Storage Platform One da Hitachi Vantara oferece uma nova maneira de abordar a visibilidade de dados em blocos, arquivos e objetos. Diferentes tipos de armazenamento precisam estar prontamente disponíveis para atender aos diferentes requisitos de modelo, incluindo flash, no local e na nuvem. O Flash pode oferecer pegadas mais densas, desempenho agregado, escalabilidade e eficiência para acelerar o modelo de IA e o desenvolvimento de aplicativos que estão conscientes da pegada de carbono. E o flash reduz o consumo de energia, crucial para colher os benefícios da IA generativa num presente e futuro sustentáveis.
Em última análise, os fornecedores de infra-estruturas de dados podem apoiar melhor os programadores empresariais de IA, colocando um plano de dados elástico unificado e dispositivos fáceis de implementar com blocos de construção de IA generativos, juntamente com armazenamento e computação adequados, nas mãos dos programadores. Um plano de dados elástico unificado é uma máquina enxuta, que oferece manipulação de dados extremamente eficiente, com nós do plano de dados próximos de onde os dados estão, acesso fácil a fontes de dados diferentes e controle aprimorado sobre a linhagem, qualidade e segurança dos dados. Com os aparelhos, os modelos podem ficar em cima e ser treinados continuamente. Este tipo de abordagem acelerará o desenvolvimento empresarial de aplicações de IA geradoras de valor em vários domínios.
Controlando custos e pegada de carbono
É crucial que esses fundamentos tecnológicos da era da IA sejam construídos tendo em mente a eficiência de custos e a redução da pegada de carbono. Sabemos que a formação de LLMs e a expansão da IA generativa em todas as indústrias estão a aumentar a nossa pegada de carbono numa altura em que o mundo precisa desesperadamente de a reduzir. Sabemos também que os CIOs consideram consistentemente a redução de custos como uma prioridade máxima. Buscar uma abordagem híbrida para a infraestrutura de dados ajuda a garantir que as empresas tenham flexibilidade para escolher o que funciona melhor para seus requisitos específicos e o que é mais econômico para atender a essas necessidades.
Mais importante ainda, os inovadores de IA devem ser claros sobre o que exatamente desejam alcançar e quais modelos e conjuntos de dados precisam para alcançá-lo e, em seguida, dimensionar os requisitos de hardware, como flash, SSDs e HDDs, de acordo. Pode ser vantajoso alugar de hiperscaladores ou usar máquinas locais. A IA generativa precisa de armazenamento de alta densidade e eficiência energética para reduzir o consumo de energia.
Data centers híbridos com altos níveis de automação, um plano de dados elástico e dispositivos otimizados para a construção de aplicações de IA ajudarão a impulsionar a inovação em IA de uma forma socialmente responsável e sustentável, que ainda respeita os resultados financeiros. A forma como sua empresa aborda isso pode determinar se ela evolui com as próximas fases da IA ou se se torna um vestígio trancado no passado.
A postagem IA empresarial requer uma máquina de dados enxuta e média apareceu pela primeira vez em The New Stack.