Na era dos microsserviços, a quantidade de dados gerados para observabilidade tornou-se esmagadora. As organizações estão lutando para decidir quanto armazenar e quanto podem descartar para manter os sistemas funcionando e ainda impedir a entrada do lobo financeiro.
Por exemplo, Loraine Lawson, da TNS, escreveu sobre a conta de US$ 65 milhões da Datadog de uma empresa.
E o engenheiro de software Elan Hasson escreveu em um tópico do X (antigo Twitter): “Pagar mais por registros e métricas do que para executar seu aplicativo ainda me fascina”.
É um problema que a Hydrolix, com sede em Portland, Oregon, está enfrentando de frente, oferecendo desempenho de consulta em tempo real em dados em escala de terabytes por uma fração do custo.
“(Dizem os líderes de TI): ‘Precisamos descartar os dados de forma mais agressiva para gerenciar nossos custos.’ Ao mesmo tempo, a engenharia diz: ‘Não, não, preciso de todos os dados.’ Portanto, há essa tensão entre tentar reduzir os custos e aumentar os dados”, disse o CEO da Hydrolix, Marty Kagan.
Kagan e seu cofundador Hasan Alayli vivenciaram o problema em primeira mão em sua startup de gerenciamento de tráfego Cedexis.
“Ele estava gerando enormes quantidades de dados, cerca de 23 bilhões de registros por dia, e para gerenciar esses dados, passávamos cheques em branco para o Google todos os meses”, explicou Kagan. “Na época em que vendemos a empresa para a Citrix (em 2018), meu cofundador disse: ‘Há uma maneira melhor de fazer isso. Acho que todo mundo está fazendo isso errado. Como rastreamos esse tipo de dados com esses logs de transações ou logs de eventos, você não precisa de um data warehouse compatível com ACID para voltar e mudar as coisas. Você não precisa de um data warehouse transacional; você só quer que ele lide com uma série de dados de log imutáveis e, em seguida, forneça todos os relatórios, análises e outras coisas.
Uma ‘casa de toras’
Hydrolix se autodenomina uma plataforma de streaming de data lake, embora não seja exatamente um data lake, normalmente um repositório central para dados que não são limpos ou formatados para um uso específico. Hydrolix é baseado em esquema e totalmente indexado para os dados, de acordo com Kagan. E não é um data warehouse, porque não é transacional. Porém, é um banco de dados de série temporal, ao contrário dos rivais de série temporal que não lidam bem com alta cardinalidade, o Hydrolix o faz. Ele foi desenvolvido especificamente para dados de log que envolvem centenas de milhares de colunas e cardinalidade extremamente alta.
Ele usa uma interface SQL compatível com ANSI que usa a sintaxe e parte do mecanismo SQL do banco de dados de colunas Clickhouse.
“Lidamos com dados fora de ordem, lidamos com dados de streaming,… resumos em tempo real do enriquecimento de dados, coisas que vão além do que consideramos bancos de dados de séries temporais”, disse ele.
Na falta de uma maneira melhor de descrever o Hydrolix, Anthony Falco, vice-presidente de marketing, afirma que é uma “casa de toras”.
Está estritamente focado em dados que chegam uma vez e nunca mudam, como na observabilidade.
“O tipo de log que os desenvolvedores escrevem, como avisos, erros, mensagens, eventos que acontecem – esses dados só são úteis por alguns dias”, disse Kagan. “Ninguém está tentando manter seus rastros por um ano. Mas os logs de acesso – logs do servidor web, logs do firewall, logs DNS – esses dados podem ser realmente valiosos para serem mantidos por um longo período de tempo. Assim, você pode ver o que muda ano após ano, pode voltar meses, pode fazer aprendizado de máquina nos dados ao longo do tempo. Então é aí que estamos realmente focados”, disse Kagan.
Esse tipo de retenção exige armazenamento eficiente – e onde podem ocorrer contas exorbitantes. De acordo com o Índice Global de Armazenamento em Nuvem Wasabi de 2024, 53% dos entrevistados disseram que estão excedendo seu orçamento de armazenamento em nuvem e 90% esperam que esse orçamento para armazenamento em nuvem aumente este ano.
Pesquisa de índice no armazenamento de objetos
Hydrolix é executado em Kubernetes em um contêiner que os clientes utilizam em seu próprio ambiente de nuvem, como Microsoft Azure, AWS ou Google Cloud Platform (GCP). Isso significa que não há migração envolvida, não há necessidade de comunicação com APIs ou serviços externos e os dados não saem do controle do cliente. Ele usa armazenamento de commodities – Amazon S3, Google Cloud Storage ou Azure Blob Storage. Embora os dados possam ser ingeridos por meio de ferramentas como Apache Kafka ou AWS Kinesis, a maioria dos clientes usa a API Hydrolix, disse Kagan.
O Hydrolix separa computação e armazenamento, o que permite que o trabalho seja atribuído dinamicamente para aproveitar ao máximo sua capacidade. Seus sistemas de ingestão, consulta e armazenamento operam e são dimensionados de forma independente. Ele fragmenta automaticamente os dados por tempo, mas também permite a fragmentação personalizada com base nos valores das colunas.
Ele realiza pesquisa de índice sobre o armazenamento de objetos, uma técnica que mantém todos os dados ativos, em vez de depender do armazenamento em cache de alguns dados na memória e de manter o restante em uma camada fria.
“Existe uma grande suposição de que seu armazenamento local é rápido e quente, e seus objetos são frios, lentos e distantes. E a maneira como a maioria das empresas lida com isso é com o cache, onde a primeira consulta será muito lenta quando lermos tudo. Mas depois disso será muito rápido”, explicou.
“(Cache) é ótimo para um caso de uso de BI e inútil se você estiver tentando observar dados em tempo real que estão sendo transmitidos porque seus caches estão vazios. E também é inútil fazer qualquer tipo de análise forense ad hoc… Cada vez que você consulta dados diferentes, você tem que pagar essa penalidade”, disse Kagan.
Se você estiver consultando dados dos últimos seis meses, estará analisando trilhões de registros e pode levar duas horas para executar essa consulta.
“(E contando com cache)… você realmente não pode fazer escalonamento automático. Porque sempre que você altera o número de máquinas, você perde a eficiência dos seus caches, porque as coisas ficam reequilibradas. Portanto, nosso objetivo é obter os benefícios do armazenamento remoto e da computação sem estado… e ser capaz de fornecer desempenho consistente, independentemente de os dados estarem em cache ou não.”
Ao usar índices para cada coluna, em vez de ter que fazer uma varredura completa da coluna para encontrar uma resposta de consulta específica, ele pode apenas ler blocos específicos de dados usando solicitações de intervalo.
“Com o tempo, seus dados estão evoluindo, seus dados estão mudando e você não quer voltar e reindexar tudo ou alterá-lo. Você quer um sistema que possa suportar dados que evoluem e mudem, mas também uma plataforma que possa lidar com isso, (onde) diferentes dados chegam com diferentes estruturas, diferentes esquemas, e podem coexistir em uma única tabela ao mesmo tempo”, ele disse.
Ela também escreveu seus próprios algoritmos de compressão e afirma taxas de compressão de 20 a 50 vezes. Ela possui quatro patentes em sua tecnologia, incluindo a indexação de dados baseados em colunas de séries temporais para armazenamento de objetos baseado em nuvem mais econômico.
Salvando ‘Cada Registro’
A empresa anunciou recentemente uma rodada Série B de US$ 35 milhões, elevando o financiamento total para US$ 68 milhões.
Seus clientes tendem a estar nos setores de mídia, jogos, tecnologia de publicidade ou segurança de telecomunicações, onde “eles realmente desejam preservar todos os registros”, disse Kagan. Mais recentemente, obteve sucesso em parcerias com outros fornecedores empresariais. Por exemplo, sua tecnologia serve de base para o produto de observabilidade TrafficPeak da Akamai.
Quando as empresas realizam bilhões de transações por dia e terabytes de dados, fica muito caro usar serviços como Splunk ou Datadog, disse Kagan.
“Então eles começam a pensar em trazer os dados internamente e usar coisas como o Elasticsearch de código aberto, mesmo assim ainda pode custar-lhes um quarto de milhão de dólares por mês apenas para construir e gerenciar essa infraestrutura”, disse ele. “E assim podemos compensar o que você está vendo hoje. Portanto, em vez de armazenar dados por sete dias, você poderia usar o Hydrolix para armazenar os dados por 15 meses. Você pode reduzir substancialmente seus custos ou apenas aumentar a (retenção) e obter mais pelo seu dinheiro.”
Ele adicionou:
“Achamos que em um grande mercado de bancos de dados de US$ 80 bilhões, há um pequeno problema de US$ 8 bilhões em torno dos logs de acesso – logs de acesso de alto volume, que não estavam sendo bem resolvidos. Não vamos substituir o BigQuery por tudo; não estamos substituindo Elastic ou Snowflake. Existe apenas um problema específico que não é bem atendido por essas outras plataformas, e podemos construir algo para esses problemas específicos. … Embora seja uma pequena subseção do mercado, é muito cara e as pessoas estão sentindo muita dor em relação a isso. E então estamos tendo sucesso com nosso foco pequeno e muito restrito nesta questão.”
YOUTUBE.COM/THENEWSTACK
A tecnologia avança rápido, não perca um episódio. Inscreva-se em nosso canal no YouTube para transmitir todos os nossos podcasts, entrevistas, demonstrações e muito mais.
SE INSCREVER
Susan Hall é a editora patrocinadora do The New Stack. Seu trabalho é ajudar os patrocinadores a atingir o maior número possível de leitores para o conteúdo que contribuem. Ela escreve para The New Stack desde seus primeiros dias, bem como para sites…
Este site utiliza cookies para melhorar sua experiência de navegação. Ao continuar, você concorda com o uso de cookies. Para mais informações, consulte nossa Política de Privacidade.
Funcional
Sempre ativo
O armazenamento ou acesso técnico é estritamente necessário para a finalidade legítima de permitir a utilização de um serviço específico explicitamente solicitado pelo assinante ou utilizador, ou com a finalidade exclusiva de efetuar a transmissão de uma comunicação através de uma rede de comunicações eletrónicas.
Preferências
O armazenamento ou acesso técnico é necessário para o propósito legítimo de armazenar preferências que não são solicitadas pelo assinante ou usuário.
Estatísticas
O armazenamento ou acesso técnico que é usado exclusivamente para fins estatísticos.O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos anônimos. Sem uma intimação, conformidade voluntária por parte de seu provedor de serviços de Internet ou registros adicionais de terceiros, as informações armazenadas ou recuperadas apenas para esse fim geralmente não podem ser usadas para identificá-lo.
Marketing
O armazenamento ou acesso técnico é necessário para criar perfis de usuário para enviar publicidade ou para rastrear o usuário em um site ou em vários sites para fins de marketing semelhantes.