O que as empresas podem aprender sobre infraestrutura de dados com os carros Cruise sem motorista

Corp. Rampa de inicialização do cartão chega ao Microsoft 365 Copilot, Teams

16 de janeiro de 2024

Esta semana em dados: O que diabos é observabilidade de dados?

16 de janeiro de 2024

Publicado por Douglas S. em 16 de janeiro de 2024

Categorias

Network

Tags

Escalabilidade

O que as empresas podem aprender sobre infraestrutura de dados com os carros Cruise sem motorista

O desenvolvimento de tecnologia segura para automóveis sem condutor é uma tarefa altamente especializada, complexa e multifacetada — sei disso em primeira mão, tendo trabalhado recentemente para uma das poucas empresas ativas no setor.

Apesar disso, há muitas lições que as empresas de todos os setores podem aprender com a indústria automóvel sem condutor, especialmente as empresas que estão a adotar a IA generativa. Não menos importante entre eles: como construir uma infra-estrutura de dados robusta e segura para apoiar os seus modelos de IA, de acordo com Mo Elshenawy, vice-presidente executivo (EVP) de engenharia da Cruise, subsidiária de automóveis autónomos da General Motors (GM).

“Os dados são a tábua de salvação e você trabalha de trás para frente a partir daí”, Elshenawy me disse durante nosso bate-papo na conferência VentureBeat Transform 2023 na quarta-feira. “Você encontrará diferentes consumidores (de dados) em suas organizações. Quem precisa dos dados, em que formato e por quanto tempo? Quando eles precisarão dos dados? Então esse é um aspecto muito importante a se pensar.”

>>Siga toda a nossa cobertura do VentureBeat Transform 2023<<

Elshenawy compartilhou sua visão sob o capô da Cruise, que lançou o primeiro serviço de carro sem motorista voltado para o cliente em uma grande cidade – São Francisco – no início de 2022. Hoje, os Chevy Bolts sem motorista da Cruise são uma visão comum na City by the Bay, operando 24 horas por dia, 7 dias por semana, embora por enquanto estejam limitados a quem se inscreveu na lista de espera do Cruzeiro.

Cruise lida com mais dados do que a maioria das organizações em todos os tipos de setores, dando à empresa um ponto de vista único sobre o que funciona em termos de infraestrutura de dados, pipelines de dados e testes de estresse.

“Em qualquer mês, nossos engenheiros do Cruise estariam desviando cerca de sete exabytes de dados – equivalente a 150 milhões de anos de streaming de vídeo”, disse Elshenawy.

Como tal, a Cruise teve que garantir que sua infraestrutura de dados fosse robusta o suficiente para lidar com esse incrível volume de dados, mas também inteligente o suficiente para categorizá-los e torná-los facilmente acessíveis para aqueles na empresa que precisavam acessá-los – tudo isso mantendo alta, segurança crítica para a segurança.

Com os veículos capturando grandes volumes de dados de sensores em tempo real, Cruise teve que arquitetar uma infraestrutura de dados do zero que pudesse lidar com a imensa escala. As principais considerações incluíram escalabilidade, segurança, otimização de custos e ferramentas para ajudar os engenheiros a aproveitar os dados de maneira eficaz.

Do data lake à arquitetura de warehouse e lakehouse

Uma das questões mais urgentes que qualquer organização que procura usar IA generativa – ou aquelas que lidam com qualquer tipo de software e dados digitais, na verdade – é onde e como armazenar todos os seus dados.

Nos primórdios da computação pessoal e da tecnologia empresarial, os “armazéns” digitais eram a resposta. Isso significava colocar dados estruturados – dados organizados como uma planilha, arquivo de valores separados por vírgula ou similares – em um sistema para manter o controle de tudo.

Mas à medida que as organizações começaram a coletar e a procurar analisar mais dados não estruturados — como interações com clientes, códigos e conteúdo multimídia como fotos, vídeos e áudio — tornou-se incumbência delas encontrar outra maneira de armazenar tudo isso, especialmente dada a vasta e quantidades cada vez maiores que estavam acumulando. Foi assim que nasceu o data lake.

Finalmente, nos últimos anos, as empresas mudaram para uma arquitetura híbrida de armazenamento e recuperação de dados: a arquitetura lakehouse, que combina qualidades de dados estruturados e não estruturados e permite que ambos os tipos sejam armazenados e recuperados no mesmo banco de dados.

Elshenawy disse que a própria jornada de infraestrutura de dados de Cruise na verdade seguiu o inverso dessa tendência, começando com um data lake e adicionando um armazém e um lakehouse à medida que a empresa passava da codificação para os testes, para carros sem motorista voltados para o público em vias públicas.

“A certa altura, em nosso estágio de vida, fazia todo o sentido confiar apenas em um data lake porque nossos principais clientes eram nossos engenheiros de ML (aprendizado de máquina)”, disse Elshenawy. “Então você muda para outra arquitetura, data warehouses. Se você tem um lago e um armazém, você está movendo dados de um lugar para outro. E quando você chegar a esse ponto, e tiver uma arquitetura de dados de duas camadas, onde você está replicando seus dados, tenha certeza de que provavelmente deseja migrar para a nova arquitetura de uma casa no lago, onde você ainda tem um banco de dados. lake, mas você obtém os benefícios de construir um data warehouse em cima disso, então você acaba atendendo muito bem os dois clientes.”

Ele defendeu que as organizações de outras indústrias abordem as suas tarefas com uma mentalidade igualmente flexível, começando apenas com a infra-estrutura de dados de que necessitam e alterando-a à medida que a organização cresce, ou se os membros da organização precisarem de diferentes tipos de infra-estrutura de dados para atingir os objectivos da organização.

“Há engenheiros de ML esperando streaming diretamente de um data lake, em vez de analistas de business intelligence, eles querem um data warehouse.”

Garantindo que seus modelos de IA não se ajustem demais ou não aos casos de uso do mundo real

Embora Cruise não esteja principalmente no negócio de desenvolver, nem usar, grandes modelos de linguagem (LLMs), como Claude 2 da Anthropic ou Chat GPT da OpenAI, Elshenawy disse que havia um grande desafio que os usuários do LLM e os modelos de IA de veículos autônomos da Cruise compartilhavam: fazer certifique-se de que os modelos não se ajustem demais ou de forma insuficiente – ou seja, que eles sejam treinados adequadamente para responder aos novos dados do mundo real que encontrarem e que não necessariamente se assemelhem aos seus dados de treinamento. Isso pode incluir casos extremos.

Underfitting ocorre quando o modelo de IA não aprendeu bem o suficiente com os dados nos quais foi treinado para reconhecer padrões e não é capaz de produzir as respostas desejadas de maneira confiável ao encontrar dados de casos de uso do mundo real que se assemelham muito aos dados de treinamento – não não importa qual seja o setor ou indústria.

Overfitting ocorre quando o modelo de IA aprendeu muito bem com os dados de treinamento e fica confuso com novos dados do mundo real que não correspondem a ele, como um caso extremo – um evento incomum que não acontece com frequência. O objetivo no caso de Cruise e daqueles que usam LLMs é ter uma IA que não seja nem insuficiente nem superadaptada para seu caso de uso específico.

Elshenawy disse que Cruise consegue isso por meio do uso de diversas técnicas diferentes de ciência de dados e aprendizado de máquina, incluindo aumento de dados e geração de dados sintéticos.

Aprofundando-se especificamente no aumento, Elshenawy forneceu o exemplo dos carros Cruise atualmente em teste, realizando viagens sem motorista em São Francisco em vias públicas.

“Como estamos começando em São Francisco… vemos muitas coisas estranhas acontecendo” enquanto dirigimos por aí, explicou Elshenawy. “Você pode pegar um desses exemplos e criar milhares de variações (em software)… alterar as condições de iluminação, os ângulos, as velocidades de todos os outros veículos e assim por diante. Então você cria quase um novo conjunto de dados aumentado a partir de algo que você viu.”

Uma coisa estranha que tem acontecido com mais frequência recentemente: manifestantes colocando cones de trânsito nos veículos sem motorista do Cruise e do rival Waymo, apoiado pela Alphabet, que estão ambos testando em São Francisco, cobrindo seus sensores e fazendo-os parar no meio do caminho.

Elshenawy disse que embora esses protestos sejam uma espécie de “caso extremo”, os modelos Cruise AI foram construídos com resiliência suficiente para agir com segurança mesmo quando esses incidentes ocorrem.

“Esse é um exemplo em que nossos veículos lidam muito bem com as situações porque construímos um modelo generalizado, e o mais seguro se você cobrir um sensor ou danificar um sensor é o veículo encostar e esperar que alguém o faça. entre e elimine esse perigo.”

IA + LLM = AGI?

Quando questionado sobre a perspectiva de combinar sistemas de condução autónomos com grandes modelos de linguagem (LLMs) para produzir inteligência artificial geral (AGI), Elshenawy mostrou-se céptico.

“Não creio que colocá-los juntos levará diretamente à inteligência artificial geral. Ambos são ótimos à sua maneira. Colocá-los juntos pode trazer grandes avanços nas interações humano-robô, mas geralmente não levará a isso… o que me entusiasma é a rapidez com que ambos avançam.”

Elshenawy também forneceu informações sobre a abordagem rigorosa de Cruise à segurança cibernética, essencial para um sistema autônomo crítico para a segurança.

“Você realmente precisa de uma equipe multidisciplinar, uma equipe que inclua engenheiros de software, engenheiros de dados, analistas, cientistas de dados e engenheiros de segurança”, disse ele.

A sessão ofereceu uma perspectiva fascinante sobre os desafios de dados superados por um dos líderes em veículos autônomos. À medida que a IA permeia mais aspectos dos negócios e da sociedade, as lições de Cruise sobre infra-estruturas de dados robustas tornar-se-ão cada vez mais relevantes.

A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.