Transparência por trás da cortina de IA generativa

Explorando o MicroOS, o sistema operacional de contêiner imutável do OpenSUSE

5 de julho de 2024

O evento inaugural da Copa do Mundo de Esports acontecerá no verão de 2024 em Riade, Arábia Saudita

Essas 27 marcas patrocinam a Copa do Mundo de Esports de 2024

6 de julho de 2024

Publicado por Douglas S. em 5 de julho de 2024

Categorias

Data Science

O que são modelos de base?

O termo “modelo básico” surgiu como um descritor coletivo para as enormes redes neurais de aprendizagem profunda que sustentam a IA generativa. Os modelos básicos são treinados em montanhas de dados para realizar uma ampla gama de tarefas, desde a geração de texto, imagens e código de programação até a conversa fluente em linguagem natural em resposta a solicitações e perguntas escritas. Porém, pode-se argumentar que seu maior poder é sustentar novas aplicações de IA: em vez de construir seus próprios modelos do zero, os modelos básicos permitem que as equipes de engenharia desenvolvam novas aplicações generativas de IA de maneira mais rápida e econômica.

Por que a transparência da IA é importante

Como o mesmo número relativamente pequeno de modelos básicos está por trás de tantas ferramentas generativas de IA voltadas para o ser humano, a necessidade de transparência é fundamental. Quando usamos, por exemplo, ChatGPT para gerar texto, Stable Diffusion para criar imagens e Tabnine para gerar código, precisamos entender como seus modelos fundamentais de ML são desenvolvidos e implantados. Os usuários querem saber que podemos confiar nas ferramentas de IA que rapidamente passamos a conhecer e amar, mas também das quais dependemos fortemente. Precisamos saber que eles são justos, explicáveis e seguros.

Este sentido de urgência na construção de confiança e transparência agora, durante o que é essencialmente o período do Velho Oeste da IA, provém das lições aprendidas nos primeiros dias não regulamentados das redes sociais. Sabendo melhor agora, é possível evitar crises semelhantes à medida que começamos a adotar a IA. Mas como podemos medir a transparência funcional real dentro da tecnologia ainda emergente?

Medindo a transparência da IA

Em outubro de 2023, pesquisadores de Stanford, MIT e Princeton colaboraram para plantar uma importante bandeira de transparência da IA, avaliando os modelos emblemáticos dos (então) principais modelos básicos. O white paper resultante, intitulado “The Foundation Model Transparency Index” (FMTI), apresentou um índice de transparência dos 10 principais modelos de fundação da época. O modelo da Meta obteve a pontuação mais alta ao atender 54 de 100 fatores do protocolo de transparência, enquanto a Amazon obteve a pontuação mais baixa (12 de 100). A pontuação média de 37 para todos os fornecedores de modelos – o que não é exatamente uma nota de aprovação – revela uma indústria que luta para se abrir ao escrutínio público.

Os mesmos pesquisadores publicaram um relatório de acompanhamento em maio de 2024, com algumas alterações. O relatório original baseou-se em dados disponíveis publicamente; para o estudo de acompanhamento de seis meses, os próprios criadores do modelo apresentaram relatórios de transparência divulgando as suas práticas para cada um dos 100 indicadores do FMTI. Desta vez, 14 organizações apresentaram relatórios de transparência. Os desenvolvedores participantes também foram além dos 100 fatores originais do protocolo de transparência que os pesquisadores definiram; no geral, as organizações apresentaram uma média de 17 novos indicadores de transparência de informações em seus relatórios individuais.

Pontuações crescentes de transparência

O que o FMTI 2024 revelou em termos de mudanças a partir de 2023, e o que isso nos diz sobre o novo status quo da transparência?

Desta vez, a pontuação máxima de transparência subiu para 85 em 100 para o modelo fundamental StarCoder da BigCode/Hugging Face/ServiceNow. A pontuação média de todos os 14 desenvolvedores de modelos subiu para 58 em 100, uma melhoria de 21 pontos em relação à média FMTI de outubro de 2023.

No geral, o FMTI de 2024 documenta uma melhoria notável: a pontuação máxima de transparência aumentou 31 pontos e a pontuação inferior, 21 pontos. Os oito desenvolvedores que apareceram no primeiro relatório e no relatório seguinte melhoraram suas pontuações; A Amazon obteve o maior ganho geral, saltando de 12 pontos em 2023 para 41 em 2024. Ainda mais tranquilizador, um desenvolvedor satisfez impressionantes 96 dos 100 indicadores de transparência estabelecidos pelos pesquisadores, e vários desenvolvedores conseguiram satisfazer 89 dos indicadores.

Estas tendências são, em geral, bastante positivas, mas os números também revelam alguns resultados nada animadores. Embora se registe uma melhoria significativa no status quo global da transparência, algumas áreas permanecem teimosamente inacessíveis. De acordo com o relatório, “Informações sobre dados (direitos autorais, licenças e PII), quão eficazes são as proteções das empresas (avaliações de mitigação) e o impacto posterior dos modelos básicos (como as pessoas usam os modelos e quantas pessoas os usam em regiões específicas ) todos permanecem bastante opacos.”

Por outras palavras, existem algumas áreas críticas onde os criadores de modelos ainda obscurecem as suas práticas, particularmente no que diz respeito à fonte de dados, privacidade e mitigação.

Para onde vamos nós, como comunidade, a partir daqui?

Possivelmente a conclusão mais importante: a transparência em torno do acesso aos dados diminuiu de 20% em outubro de 2023 para apenas 7% em maio de 2024. No novo relatório, os investigadores atribuem isto aos “riscos legais significativos que as empresas enfrentam associados à divulgação dos dados que utilizam”. para construir modelos de base.” Particularmente, “essas empresas podem ser responsabilizadas se os dados contiverem conteúdo protegido por direitos autorais, privado ou ilegal”. Infelizmente, 2.024 desenvolvedores de modelos participantes também tiveram pontuações baixas de “mitigação de modelo”, o que significa que eles não divulgam adequadamente suas estratégias para resolver problemas com violações de direitos autorais ou de privacidade.

É crucial que as empresas tecnológicas priorizem a transparência na IA, porque fora do próprio sector, a maioria das pessoas simplesmente não compreende o que é ou como realmente funciona. Para ser justo, assim como as tecnologias são novas, os padrões e expectativas em torno da transparência também são novos.

Estas são águas desconhecidas para a tecnologia e, de certa forma, estamos trilhando o caminho caminhando. O maior valor derivado desses relatórios e protocolos FMTI está em fornecer aos desenvolvedores de modelos etapas definidas e viáveis para melhorar a transparência do modelo.

O delta de informação entre os relatórios FMTI de 2023 e 2024 revela áreas de opacidade sustentada – e sistémica – nos fornecedores de modelos básicos. Quando se trata de IA, as próprias organizações de desenvolvedores de modelos fundamentais precisam ganhar a confiança não apenas dos usuários finais, mas também das entidades governamentais e, para não exagerar, da humanidade em geral.

Como comunidade, nosso trabalho é promover a acessibilidade. Não importa como — ou mesmo se — aqueles de nós que trabalham no desenvolvimento de software utilizam tecnologias de IA e ML, partilhamos a responsabilidade de garantir que estas tecnologias emergentes funcionam com base em padrões éticos e com o objetivo coletivo de reduzir quaisquer danos potenciais.

Como consumidores de IA, as empresas podem promover esta acessibilidade fazendo perguntas informadas antes de avançarem com a adoção de ferramentas específicas de IA. Este relatório revela por que é crucial revisar os contratos de licença e os termos de serviço reais, não apenas do fornecedor que fornece uma ferramenta assistente de código de IA, mas também o contrato de licença e os TOS dos modelos usados por trás da ferramenta.

Nossa conclusão: até que a transparência se torne simplesmente a forma padrão como os desenvolvedores de modelos fundamentais operam, a única maneira de garantir privacidade absoluta para os dados usados para interagir com qualquer plataforma de IA é não haver nenhuma maneira de esses dados saírem do seu perímetro.

Michelle Gienow é evangelista da Tabnine, a assistente de código de IA original. Michelle é uma desenvolvedora experiente e redatora técnica e é coautora de “Cloud Native Transformation: Practical Patterns for Innovation” da O’Reilly Media. Ela adora jogar, seu cachorro e…

Douglas S.

Comments are closed.

Transparência por trás da cortina de IA generativa

Explorando o MicroOS, o sistema operacional de contêiner imutável do OpenSUSE

Essas 27 marcas patrocinam a Copa do Mundo de Esports de 2024

Explorando o MicroOS, o sistema operacional de contêiner imutável do OpenSUSE

Essas 27 marcas patrocinam a Copa do Mundo de Esports de 2024

O que são modelos de base?

Por que a transparência da IA ​​é importante

Medindo a transparência da IA

Pontuações crescentes de transparência

Para onde vamos nós, como comunidade, a partir daqui?

Douglas S.

Postagens relacionadas

Python para automatizar APIs: crie um arquivo CSV de questionário de curiosidades

Instale e configure o Memcached para aplicativos da Web mais rápidos

Vamos ser agentes: agentes LangChain e LlamaIndex Talk AI

Por que a transparência da IA é importante