Roteiro de streaming para 2024: navegando na revolução em tempo real

As previsões do Kubernetes estavam erradas

21 de fevereiro de 2024

Construir vs. Comprar: O Guia do Engenheiro de Plataforma

21 de fevereiro de 2024

Publicado por Douglas S. em 21 de fevereiro de 2024

Categorias

Adotando BYOC e muito mais: flexibilidade e controle de custos em streaming

À medida que avançamos em 2024, a tendência de o streaming de dados ser mais acessível será cada vez mais pronunciada. O modelo Bring Your Own Cloud (BYOC) está liderando essa tarefa, fornecendo às empresas uma maneira econômica e flexível de gerenciar suas cargas de trabalho de streaming enquanto maximizam os compromissos existentes com a nuvem. Mas o BYOC é apenas o começo: uma tendência mais ampla está remodelando o cenário do streaming, à medida que os usuários exigem soluções que funcionem perfeitamente em ambientes multicloud e que sejam mais econômicas.

Um aspecto significativo dessa tendência é a separação entre computação e armazenamento. Essa mudança permite que as empresas dimensionem seus recursos de streaming de forma independente, resultando em uma utilização mais eficiente e em economia de custos. Nas configurações tradicionais de streaming de dados, a computação e o armazenamento estão fortemente acoplados, levando a ineficiências e custos mais elevados, especialmente ao lidar com cargas de trabalho flutuantes. Embora alguns fornecedores ofereçam armazenamento em camadas há anos, os verdadeiros benefícios do armazenamento em camadas do Kafka (atualmente em versão prévia) ainda não foram realizados em escala.

Em 2024, espera-se que os recursos de implantação BYOC sejam ainda mais simplificados e automatizados. Também testemunharemos uma verdadeira separação entre armazenamento e computação, proporcionando níveis sem precedentes de elasticidade e economia de custos para fluxos de trabalho de streaming de dados. Curiosamente, algumas abordagens inovadoras já estão surgindo, aproveitando a integração direta com o Amazon S3 como uma camada de armazenamento para o Kafka e eliminando a necessidade do design que exige muita rede do Kafka. Juntamente com o armazenamento de objetos de baixa latência do Amazon S3 Express, isso cria uma abordagem poderosa para streaming desacoplado e nativo da nuvem — um conceito que merece uma exploração mais aprofundada em uma postagem futura no blog.

Formatos de tabelas abertas — liderando a unificação em tempo real e em lote

Muitas vezes me perguntam: “Por que não usar o Kafka para tudo?” Embora reconheça o poder dos dados em tempo real, o verdadeiro valor dos dados está além do seu fluxo: na sua utilidade, integração e gestão do ciclo de vida.

Os formatos de tabelas abertas estão remodelando nossa abordagem ao data lake, aumentando sua vida útil e utilidade e estabelecendo as bases para casos de uso de streaming avançado em escala. O streaming de dados no data lake se tornará um cidadão de primeira classe e a camada de ingestão padrão. Em 2024, testemunharemos os primeiros sinais da utopia dos dados: streaming em tempo real em Kafka, dados históricos em armazenamento de objetos, mas sempre prontos para consulta através de um formato de tabela aberta como Iceberg/Hudi ou Paimon.

Kafka está transcendendo seu papel como camada de transporte, integrando-se firmemente ao armazenamento de objetos em nuvem (Amazon S3, Google Cloud Storage, Azure Blob Storage) para capacitar análises de longo prazo. Projetos como Apache Hudi e Apache Paimon, projetados para arquiteturas de data lake transacionais e de streaming, posicionam Kafka como uma verdadeira fonte de verdade para processamento incremental. Embora o Iceberg sem dúvida lidere em 2024, a interoperabilidade e a compatibilidade entre formatos são realmente necessárias – OneTable, que promete interação perfeita entre os principais formatos de lakehouse, é um projeto para ficar de olho.

O entusiasmo em torno dos formatos lakehouse é justificado, mas qual é a conexão em tempo real? O streaming de dados ganha valor estratégico quando o contexto histórico é facilmente acessível. Imagine expandir a capacidade de atenção do seu algoritmo de ML de detecção de fraude de meros minutos para um ano inteiro de dados!

As arquiteturas de data lake transacionais, alimentadas por formatos de tabelas abertas e streaming, oferecem essa combinação poderosa. Os formatos de tabela aberta são uma virada de jogo: ao transcender estruturas tradicionais como Parquet e integrar-se perfeitamente à camada de ingestão, esses formatos permitem que as empresas unifiquem dados em tempo real e em lote. Esta unificação estabelece as bases para uma vantagem competitiva de IA verdadeiramente diferenciada. Esta evolução na gestão de dados não é apenas uma atualização processual; é fundamental por natureza e impulsionará a transformação de dados nos próximos anos.

Apache Flink: Acelerando a tomada de decisões em tempo real

Embora em 2023 os principais players introduzissem serviços gerenciados baseados em Flink, a adoção foi prejudicada pela complexidade percebida e pela falta de ferramentas simplificadas. O desafio é que os usuários empresariais não trabalham diretamente com streaming de dados. No entanto, 2024 promete uma grande atualização para o Flink, abrindo-o para públicos mais amplos, como cientistas de dados e analistas de negócios. Isso provavelmente será liderado por estruturas como Apache Paimon, que combinam o poder do processamento de fluxo com operações ETL declarativas simplificadas e recursos de lakehouse.

A ascensão do Flink reflete o domínio do Apache Spark no processamento de dados em lote. Spark definiu como as empresas abordam dados não estruturados no lago, potencializando ML, business intelligence (BI) e relatórios para tomada de decisões centradas no ser humano. Agora, à medida que a adoção da IA aumenta, há uma necessidade crescente de processamento contínuo de fluxos de dados para alimentar modelos de IA em evolução.

O Flink preenche essa função, oferecendo computação instantânea e dinâmica em grande escala. Isso permite que as empresas automatizem decisões com base em milissegundos de dados atualizados. Por exemplo, o TikTok usa o Flink para refinar seu poderoso mecanismo de recomendação em tempo real. Com base nas ações de fração de segundo do usuário (curtidas, pulos, compartilhamentos), o Flink atualiza continuamente as recomendações, tornando o feed do usuário exponencialmente mais preciso e transformando a resposta em tempo real em uma vantagem competitiva.

Num mundo movido pela IA, a velocidade não é um luxo; é uma necessidade. O Flink permite que as máquinas tomem decisões em tempo real com uma precisão sem precedentes. À medida que as empresas procuram oferecer experiências hiperpersonalizadas, esta mudança da tomada de decisões centrada no ser humano para a tomada de decisões na velocidade da máquina torna-se essencial. Flink não é apenas uma ferramenta; é o motor para uma nova era de estratégia em tempo real alimentada por IA. 2024 verá sua adoção disparar.

Governança de malha e fluxo de dados: dos princípios aos imperativos

Na Aiven, capacitamos os clientes a adotarem princípios de malha de dados por meio de ferramentas robustas de governança, streaming de autoatendimento, controles de acesso refinados e nosso provedor Terraform. Em 2024, o investimento empresarial na governação de fluxos tornar-se-á fundamental para garantir a fiabilidade, agilidade e disponibilidade de dados em tempo real em todas as aplicações. É uma disciplina multifacetada: rastrear a linhagem dos dados, garantir a precisão, enriquecer os metadados e catalogar com segurança — tudo para tornar os dados mais acessíveis e utilizáveis em velocidade e escala.

A estratégia de “dados como produto” será generalizada, aumentando a eficiência e impulsionando a inovação em todo o cenário de dados em tempo real. O desafio reside em contextualizar os dados partilhados sem comprometer a segurança. À medida que os dados viajam downstream, isso se torna mais complexo e caro. Incorporar a governação na fonte proporciona uma compreensão mais clara do seu contexto e valor — e revela-se mais rentável.

Embora várias equipes possam se beneficiar do acesso compartilhado aos mesmos dados para criar serviços e aplicativos, apresentar esses dados de forma segura, contextual e abrangente para usuários não originários representa desafios. À medida que os dados se afastam da sua fonte, fornecer contexto torna-se mais complexo e dispendioso. Iniciar o processo de governança de dados na fonte não é apenas econômico, mas também oferece uma compreensão superior da origem, do valor e do significado dos dados.

A integração de novos recursos de governança de dados em produtos como data warehouses em nuvem, bancos de dados e outros serviços de infraestrutura de dados está posicionada para atender a essas necessidades em evolução.

Isto significa que os desenvolvedores não precisam mais construir a infraestrutura manualmente ao criar e compartilhar produtos de dados reutilizáveis. Isso ajudará muito na adoção de dados em tempo real pelas camadas analíticas e de negócios das empresas.

A revolução do streaming de dados

Estou otimista quanto ao potencial do streaming de dados para transformar os negócios. Na Aiven, temos o compromisso de ampliar os limites da tecnologia de streaming de dados e promover um ecossistema aberto e vibrante. 2024 assistirá à solidificação do streaming de dados como a espinha dorsal indispensável da empresa moderna, desempenhando um papel tão vital como os data lakes e armazéns na condução da tomada de decisões estratégicas.

Filip Yonov é Diretor de Gestão de Produtos da Aiven, onde supervisiona a Plataforma de Streaming. A Aiven Streaming Platform oferece um ecossistema abrangente que integra os melhores produtos de streaming, como Apache Kafka e Apache Flink, implantados em vários ambientes de nuvem. Com…

Douglas S.

Comments are closed.

Roteiro de streaming para 2024: navegando na revolução em tempo real

As previsões do Kubernetes estavam erradas

Construir vs. Comprar: O Guia do Engenheiro de Plataforma

As previsões do Kubernetes estavam erradas

Construir vs. Comprar: O Guia do Engenheiro de Plataforma

Adotando BYOC e muito mais: flexibilidade e controle de custos em streaming

Formatos de tabelas abertas — liderando a unificação em tempo real e em lote

Apache Flink: Acelerando a tomada de decisões em tempo real

Governança de malha e fluxo de dados: dos princípios aos imperativos

A revolução do streaming de dados

Douglas S.

Postagens relacionadas

Usando SPLADE para gerar embeddings esparsos aprendidos

Flow-IPC melhora a comunicação entre processos para desenvolvedores C++

Melhorando a qualidade dos dados: anomalias e monitoramento automatizado