![É por isso que as equipes de infraestrutura devem se preocupar com a engenharia de plataforma](https://optimuscloud.com.br/wp-content/uploads/2024/05/1715071444_E-por-isso-que-as-equipes-de-infraestrutura-devem-se-150x150.jpg)
É por isso que as equipes de infraestrutura devem se preocupar com a engenharia de plataforma
7 de maio de 2024![Falha em R cria riscos de segurança na cadeia de suprimentos](https://optimuscloud.com.br/wp-content/uploads/2024/05/1715077325_Falha-em-R-cria-riscos-de-seguranca-na-cadeia-de-150x150.jpg)
Falha em R cria riscos de segurança na cadeia de suprimentos
7 de maio de 2024Grandes modelos de linguagem (LLMs) surgiram como poderosos motores de criatividade, transformando instruções simples em um mundo de possibilidades.
Mas por baixo da sua capacidade potencial existe um desafio crítico. Os dados que fluem para os LLMs tocam inúmeros sistemas empresariais, e esta interconectividade representa uma ameaça crescente à segurança de dados para as organizações.
Os LLMs são incipientes e nem sempre completamente compreendidos. Dependendo do modelo, o seu funcionamento interno pode ser uma caixa preta, mesmo para os seus criadores – o que significa que não podemos compreender completamente o que acontecerá aos dados que inserimos e como ou onde poderão sair.
Para evitar riscos, as organizações precisarão construir infraestrutura e processos que realizem uma higienização rigorosa de dados de entradas e saídas, e possam monitorar e avaliar cada LLM continuamente.
Inventário de modelos: faça um balanço do que você está implantando
Como diz o velho ditado: “Você não pode proteger o que não pode ver”. Manter um inventário abrangente de modelos durante as fases de produção e desenvolvimento é fundamental para alcançar transparência, responsabilidade e eficiência operacional.
Na produção, rastrear cada modelo é crucial para monitorar o desempenho, diagnosticar problemas e executar atualizações oportunas. Durante o desenvolvimento, o gerenciamento de estoque ajuda a acompanhar as iterações, facilitando o processo de tomada de decisão para promoção do modelo.
Para ser claro, esta não é uma “tarefa de manutenção de registros” – um inventário de modelos robusto é absolutamente essencial para construir confiabilidade e confiança em sistemas baseados em IA.
Mapeamento de dados: saiba quais dados você está alimentando os modelos
O mapeamento de dados é um componente crítico do gerenciamento responsável de dados. Envolve um processo meticuloso para compreender a origem, a natureza e o volume dos dados que alimentam esses modelos.
É fundamental saber a origem dos dados, se contêm informações confidenciais, como informações de identificação pessoal (PII) ou informações de saúde protegidas (PHI), especialmente dada a grande quantidade de dados que estão sendo processados.
Compreender o fluxo preciso de dados é fundamental; isso inclui rastrear quais dados vão para quais modelos, quando esses dados são utilizados e para quais finalidades específicas. Este nível de conhecimento não só melhora a governança e a conformidade dos dados, mas também ajuda na mitigação de riscos e na preservação da privacidade dos dados. Ele garante que as operações de aprendizado de máquina permaneçam transparentes, responsáveis e alinhadas com os padrões éticos, ao mesmo tempo que otimiza a utilização de recursos de dados para obter insights significativos e melhorias no desempenho do modelo.
O mapeamento de dados tem uma notável semelhança com os esforços de conformidade frequentemente empreendidos para regulamentações como o Regulamento Geral de Proteção de Dados (GDPR). Tal como o GDPR exige uma compreensão profunda dos fluxos de dados, dos tipos de dados processados e da sua finalidade, o exercício de mapeamento de dados estende estes princípios ao domínio da aprendizagem automática. Ao aplicar práticas semelhantes à conformidade regulamentar e à gestão de dados de modelo, as organizações podem garantir que as suas práticas de dados aderem aos mais elevados padrões de transparência, privacidade e responsabilidade em todas as facetas das operações, seja no cumprimento de obrigações legais ou na otimização do desempenho dos modelos de IA.
Saneamento de entrada de dados: elimine dados arriscados
“Entra lixo, sai lixo” nunca soou mais verdadeiro do que com LLMs. Só porque você tem uma grande quantidade de dados para treinar um modelo, não significa que você deva fazê-lo. Quaisquer dados que você use devem ter uma finalidade razoável e definida.
O fato é que alguns dados são muito arriscados para serem inseridos em um modelo. Alguns podem acarretar riscos significativos, como violações de privacidade ou preconceitos.
É crucial estabelecer um processo robusto de sanitização de dados para filtrar esses pontos de dados problemáticos e garantir a integridade e justiça das previsões do modelo. Nesta era de tomada de decisões baseada em dados, a qualidade e a adequação dos dados são tão vitais como a sofisticação dos próprios modelos.
Um método que está ganhando popularidade são os testes adversários em modelos. Assim como a seleção de dados limpos e objetivos é vital para o treinamento do modelo, avaliar o desempenho e a robustez do modelo é igualmente crucial nos estágios de desenvolvimento e implantação. Estas avaliações ajudam a detectar potenciais preconceitos, vulnerabilidades ou consequências não intencionais que podem surgir das previsões do modelo.
Já existe um mercado crescente de startups especializadas na prestação de serviços justamente para esse fim. Estas empresas oferecem conhecimentos e ferramentas inestimáveis para testar e desafiar rigorosamente os modelos, garantindo que cumprem os padrões éticos, regulamentares e de desempenho.
Saneamento da saída de dados: garanta confiança e coerência
O saneamento de dados não se limita apenas às entradas no contexto de grandes modelos de linguagem; estende-se também ao que é gerado. Dada a natureza inerentemente imprevisível dos LLMs, os dados de saída requerem um exame cuidadoso para estabelecer barreiras de proteção eficazes.
Os resultados não devem apenas ser relevantes, mas também coerentes e sensatos no contexto da utilização pretendida. Não garantir esta coerência pode minar rapidamente a confiança no sistema, uma vez que respostas absurdas ou inadequadas podem ter consequências prejudiciais.
À medida que as organizações continuam a adotar os LLMs, terão de prestar muita atenção ao saneamento e à validação dos resultados do modelo, a fim de manter a fiabilidade e credibilidade de quaisquer sistemas orientados por IA.
A inclusão de um conjunto diversificado de partes interessadas e especialistas na criação e manutenção das regras para os resultados e na construção de ferramentas para monitorizar os resultados são passos fundamentais para o sucesso dos modelos de salvaguarda.
Colocando a higiene de dados em ação
Usar LLMs num contexto empresarial não é mais uma opção; é essencial ficar à frente da concorrência. Isto significa que as organizações terão que estabelecer medidas para garantir a segurança do modelo e a privacidade dos dados. A higienização de dados e o monitoramento meticuloso do modelo são um bom começo, mas o cenário dos LLMs evolui rapidamente. Manter-se atualizado sobre o que há de melhor e mais recente, bem como sobre as regulamentações, será fundamental para fazer melhorias contínuas em seus processos.
A postagem Dados limpos, modelo confiável: garanta uma boa higiene de dados para seus LLMs apareceu pela primeira vez em The New Stack.