A IA generativa (GenAI) e os grandes modelos de linguagem (LLMs) irão remodelar a forma como vivemos, trabalhamos e fazemos negócios. À medida que a IA permite interações homem-máquina mais naturais, as empresas que utilizam estas tecnologias devem priorizar a gestão eficaz de dados para realmente impulsionar uma vantagem competitiva.
Com a investigação a sugerir que a IA generativa poderia acrescentar biliões de dólares à economia global, não é surpresa que em 2023 as empresas expandiram e solidificaram ainda mais as suas estratégias de investimento em IA e dados, e continuarão a fazê-lo no futuro.
O streaming de dados em tempo real é essencial para concretizar a promessa da empresa que prioriza a IA. O problema é o seguinte: as empresas operam aqui e agora e, para oferecer experiências de usuário ricas e personalizadas, as arquiteturas centradas em IA devem processar dados com imediatismo e baixa latência em escala, possibilitadas apenas por tecnologias de streaming como Apache Kafka e Apache Flink.
Portanto, superar as arquiteturas orientadas a lotes e aproveitar as vantagens do streaming de dados são passos fundamentais para implantações robustas de IA. Esta evolução, juntamente com o rápido crescimento da aprendizagem automática (ML), está a impulsionar grandes mudanças no mercado, conforme destacado pelo reconhecimento da Forrester das plataformas de streaming de dados como uma categoria de software emergente no seu relatório do quarto trimestre de 2023.
Em 2024, o foco para nós no streaming de dados não será apenas a IA. O modelo de implantação Bring Your Own Cloud (BYOC) oferece um mecanismo eficiente para dimensionar serviços de streaming gerenciados. O aprendizado de máquina está chegando a ambientes em tempo real por meio de aplicativos desenvolvidos no Apache Flink, enquanto formatos de tabela de código aberto como Apache Iceberg, Apache Hudi e Apache Paimon estão simplificando o ETL, posicionando o Kafka como a camada de ingestão para a empresa. Paralelamente, as arquiteturas de malha de dados e a governança de streaming estão se tornando cada vez mais requisitos de negócios e devem influenciar as melhores práticas para a transição das organizações para operações nativas em tempo real.
Adotando BYOC e muito mais: flexibilidade e controle de custos em streaming
À medida que avançamos em 2024, a tendência de o streaming de dados ser mais acessível será cada vez mais pronunciada. O modelo Bring Your Own Cloud (BYOC) está liderando essa tarefa, fornecendo às empresas uma maneira econômica e flexível de gerenciar suas cargas de trabalho de streaming enquanto maximizam os compromissos existentes com a nuvem. Mas o BYOC é apenas o começo: uma tendência mais ampla está remodelando o cenário do streaming, à medida que os usuários exigem soluções que funcionem perfeitamente em ambientes multicloud e que sejam mais econômicas.
Um aspecto significativo dessa tendência é a separação entre computação e armazenamento. Essa mudança permite que as empresas dimensionem seus recursos de streaming de forma independente, resultando em uma utilização mais eficiente e em economia de custos. Nas configurações tradicionais de streaming de dados, a computação e o armazenamento estão fortemente acoplados, levando a ineficiências e custos mais elevados, especialmente ao lidar com cargas de trabalho flutuantes. Embora alguns fornecedores ofereçam armazenamento em camadas há anos, os verdadeiros benefícios do armazenamento em camadas do Kafka (atualmente em versão prévia) ainda não foram realizados em escala.
Em 2024, espera-se que os recursos de implantação BYOC sejam ainda mais simplificados e automatizados. Também testemunharemos uma verdadeira separação entre armazenamento e computação, proporcionando níveis sem precedentes de elasticidade e economia de custos para fluxos de trabalho de streaming de dados. Curiosamente, algumas abordagens inovadoras já estão surgindo, aproveitando a integração direta com o Amazon S3 como uma camada de armazenamento para o Kafka e eliminando a necessidade do design que exige muita rede do Kafka. Juntamente com o armazenamento de objetos de baixa latência do Amazon S3 Express, isso cria uma abordagem poderosa para streaming desacoplado e nativo da nuvem — um conceito que merece uma exploração mais aprofundada em uma postagem futura no blog.
Formatos de tabelas abertas — liderando a unificação em tempo real e em lote
Muitas vezes me perguntam: “Por que não usar o Kafka para tudo?” Embora reconheça o poder dos dados em tempo real, o verdadeiro valor dos dados está além do seu fluxo: na sua utilidade, integração e gestão do ciclo de vida.
Os formatos de tabelas abertas estão remodelando nossa abordagem ao data lake, aumentando sua vida útil e utilidade e estabelecendo as bases para casos de uso de streaming avançado em escala. O streaming de dados no data lake se tornará um cidadão de primeira classe e a camada de ingestão padrão. Em 2024, testemunharemos os primeiros sinais da utopia dos dados: streaming em tempo real em Kafka, dados históricos em armazenamento de objetos, mas sempre prontos para consulta através de um formato de tabela aberta como Iceberg/Hudi ou Paimon.
Kafka está transcendendo seu papel como camada de transporte, integrando-se firmemente ao armazenamento de objetos em nuvem (Amazon S3, Google Cloud Storage, Azure Blob Storage) para capacitar análises de longo prazo. Projetos como Apache Hudi e Apache Paimon, projetados para arquiteturas de data lake transacionais e de streaming, posicionam Kafka como uma verdadeira fonte de verdade para processamento incremental. Embora o Iceberg sem dúvida lidere em 2024, a interoperabilidade e a compatibilidade entre formatos são realmente necessárias – OneTable, que promete interação perfeita entre os principais formatos de lakehouse, é um projeto para ficar de olho.
O entusiasmo em torno dos formatos lakehouse é justificado, mas qual é a conexão em tempo real? O streaming de dados ganha valor estratégico quando o contexto histórico é facilmente acessível. Imagine expandir a capacidade de atenção do seu algoritmo de ML de detecção de fraude de meros minutos para um ano inteiro de dados!
As arquiteturas de data lake transacionais, alimentadas por formatos de tabelas abertas e streaming, oferecem essa combinação poderosa. Os formatos de tabela aberta são uma virada de jogo: ao transcender estruturas tradicionais como Parquet e integrar-se perfeitamente à camada de ingestão, esses formatos permitem que as empresas unifiquem dados em tempo real e em lote. Esta unificação estabelece as bases para uma vantagem competitiva de IA verdadeiramente diferenciada. Esta evolução na gestão de dados não é apenas uma atualização processual; é fundamental por natureza e impulsionará a transformação de dados nos próximos anos.
Apache Flink: Acelerando a tomada de decisões em tempo real
Embora em 2023 os principais players introduzissem serviços gerenciados baseados em Flink, a adoção foi prejudicada pela complexidade percebida e pela falta de ferramentas simplificadas. O desafio é que os usuários empresariais não trabalham diretamente com streaming de dados. No entanto, 2024 promete uma grande atualização para o Flink, abrindo-o para públicos mais amplos, como cientistas de dados e analistas de negócios. Isso provavelmente será liderado por estruturas como Apache Paimon, que combinam o poder do processamento de fluxo com operações ETL declarativas simplificadas e recursos de lakehouse.
A ascensão do Flink reflete o domínio do Apache Spark no processamento de dados em lote. Spark definiu como as empresas abordam dados não estruturados no lago, potencializando ML, business intelligence (BI) e relatórios para tomada de decisões centradas no ser humano. Agora, à medida que a adoção da IA aumenta, há uma necessidade crescente de processamento contínuo de fluxos de dados para alimentar modelos de IA em evolução.
O Flink preenche essa função, oferecendo computação instantânea e dinâmica em grande escala. Isso permite que as empresas automatizem decisões com base em milissegundos de dados atualizados. Por exemplo, o TikTok usa o Flink para refinar seu poderoso mecanismo de recomendação em tempo real. Com base nas ações de fração de segundo do usuário (curtidas, pulos, compartilhamentos), o Flink atualiza continuamente as recomendações, tornando o feed do usuário exponencialmente mais preciso e transformando a resposta em tempo real em uma vantagem competitiva.
Num mundo movido pela IA, a velocidade não é um luxo; é uma necessidade. O Flink permite que as máquinas tomem decisões em tempo real com uma precisão sem precedentes. À medida que as empresas procuram oferecer experiências hiperpersonalizadas, esta mudança da tomada de decisões centrada no ser humano para a tomada de decisões na velocidade da máquina torna-se essencial. Flink não é apenas uma ferramenta; é o motor para uma nova era de estratégia em tempo real alimentada por IA. 2024 verá sua adoção disparar.
Governança de malha e fluxo de dados: dos princípios aos imperativos
Na Aiven, capacitamos os clientes a adotarem princípios de malha de dados por meio de ferramentas robustas de governança, streaming de autoatendimento, controles de acesso refinados e nosso provedor Terraform. Em 2024, o investimento empresarial na governação de fluxos tornar-se-á fundamental para garantir a fiabilidade, agilidade e disponibilidade de dados em tempo real em todas as aplicações. É uma disciplina multifacetada: rastrear a linhagem dos dados, garantir a precisão, enriquecer os metadados e catalogar com segurança — tudo para tornar os dados mais acessíveis e utilizáveis em velocidade e escala.
A estratégia de “dados como produto” será generalizada, aumentando a eficiência e impulsionando a inovação em todo o cenário de dados em tempo real. O desafio reside em contextualizar os dados partilhados sem comprometer a segurança. À medida que os dados viajam downstream, isso se torna mais complexo e caro. Incorporar a governação na fonte proporciona uma compreensão mais clara do seu contexto e valor — e revela-se mais rentável.
Embora várias equipes possam se beneficiar do acesso compartilhado aos mesmos dados para criar serviços e aplicativos, apresentar esses dados de forma segura, contextual e abrangente para usuários não originários representa desafios. À medida que os dados se afastam da sua fonte, fornecer contexto torna-se mais complexo e dispendioso. Iniciar o processo de governança de dados na fonte não é apenas econômico, mas também oferece uma compreensão superior da origem, do valor e do significado dos dados.
A integração de novos recursos de governança de dados em produtos como data warehouses em nuvem, bancos de dados e outros serviços de infraestrutura de dados está posicionada para atender a essas necessidades em evolução.
Isto significa que os desenvolvedores não precisam mais construir a infraestrutura manualmente ao criar e compartilhar produtos de dados reutilizáveis. Isso ajudará muito na adoção de dados em tempo real pelas camadas analíticas e de negócios das empresas.
A revolução do streaming de dados
Estou otimista quanto ao potencial do streaming de dados para transformar os negócios. Na Aiven, temos o compromisso de ampliar os limites da tecnologia de streaming de dados e promover um ecossistema aberto e vibrante. 2024 assistirá à solidificação do streaming de dados como a espinha dorsal indispensável da empresa moderna, desempenhando um papel tão vital como os data lakes e armazéns na condução da tomada de decisões estratégicas.
YOUTUBE.COM/THENEWSTACK
A tecnologia avança rápido, não perca um episódio. Inscreva-se em nosso canal no YouTube para transmitir todos os nossos podcasts, entrevistas, demonstrações e muito mais.
SE INSCREVER
Filip Yonov é Diretor de Gestão de Produtos da Aiven, onde supervisiona a Plataforma de Streaming. A Aiven Streaming Platform oferece um ecossistema abrangente que integra os melhores produtos de streaming, como Apache Kafka e Apache Flink, implantados em vários ambientes de nuvem. Com…
Este site utiliza cookies para melhorar sua experiência de navegação. Ao continuar, você concorda com o uso de cookies. Para mais informações, consulte nossa Política de Privacidade.
Funcional
Sempre ativo
O armazenamento ou acesso técnico é estritamente necessário para a finalidade legítima de permitir a utilização de um serviço específico explicitamente solicitado pelo assinante ou utilizador, ou com a finalidade exclusiva de efetuar a transmissão de uma comunicação através de uma rede de comunicações eletrónicas.
Preferências
O armazenamento ou acesso técnico é necessário para o propósito legítimo de armazenar preferências que não são solicitadas pelo assinante ou usuário.
Estatísticas
O armazenamento ou acesso técnico que é usado exclusivamente para fins estatísticos.O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos anônimos. Sem uma intimação, conformidade voluntária por parte de seu provedor de serviços de Internet ou registros adicionais de terceiros, as informações armazenadas ou recuperadas apenas para esse fim geralmente não podem ser usadas para identificá-lo.
Marketing
O armazenamento ou acesso técnico é necessário para criar perfis de usuário para enviar publicidade ou para rastrear o usuário em um site ou em vários sites para fins de marketing semelhantes.