Hydrolix assume contas de dados de registro altíssimas

Upstreaming do Linux Vector Packet Processor (VPP) para o FreeBSD

10 de junho de 2024

As métricas de produtividade do desenvolvedor impulsionam a melhoria contínua

10 de junho de 2024

Publicado por Douglas S. em 10 de junho de 2024

Categorias

Uma ‘casa de toras’

Hydrolix se autodenomina uma plataforma de streaming de data lake, embora não seja exatamente um data lake, normalmente um repositório central para dados que não são limpos ou formatados para um uso específico. Hydrolix é baseado em esquema e totalmente indexado para os dados, de acordo com Kagan. E não é um data warehouse, porque não é transacional. Porém, é um banco de dados de série temporal, ao contrário dos rivais de série temporal que não lidam bem com alta cardinalidade, o Hydrolix o faz. Ele foi desenvolvido especificamente para dados de log que envolvem centenas de milhares de colunas e cardinalidade extremamente alta.

Ele usa uma interface SQL compatível com ANSI que usa a sintaxe e parte do mecanismo SQL do banco de dados de colunas Clickhouse.

“Lidamos com dados fora de ordem, lidamos com dados de streaming,… resumos em tempo real do enriquecimento de dados, coisas que vão além do que consideramos bancos de dados de séries temporais”, disse ele.

Na falta de uma maneira melhor de descrever o Hydrolix, Anthony Falco, vice-presidente de marketing, afirma que é uma “casa de toras”.

Está estritamente focado em dados que chegam uma vez e nunca mudam, como na observabilidade.

“O tipo de log que os desenvolvedores escrevem, como avisos, erros, mensagens, eventos que acontecem – esses dados só são úteis por alguns dias”, disse Kagan. “Ninguém está tentando manter seus rastros por um ano. Mas os logs de acesso – logs do servidor web, logs do firewall, logs DNS – esses dados podem ser realmente valiosos para serem mantidos por um longo período de tempo. Assim, você pode ver o que muda ano após ano, pode voltar meses, pode fazer aprendizado de máquina nos dados ao longo do tempo. Então é aí que estamos realmente focados”, disse Kagan.

Esse tipo de retenção exige armazenamento eficiente – e onde podem ocorrer contas exorbitantes. De acordo com o Índice Global de Armazenamento em Nuvem Wasabi de 2024, 53% dos entrevistados disseram que estão excedendo seu orçamento de armazenamento em nuvem e 90% esperam que esse orçamento para armazenamento em nuvem aumente este ano.

Pesquisa de índice no armazenamento de objetos

Hydrolix é executado em Kubernetes em um contêiner que os clientes utilizam em seu próprio ambiente de nuvem, como Microsoft Azure, AWS ou Google Cloud Platform (GCP). Isso significa que não há migração envolvida, não há necessidade de comunicação com APIs ou serviços externos e os dados não saem do controle do cliente. Ele usa armazenamento de commodities – Amazon S3, Google Cloud Storage ou Azure Blob Storage. Embora os dados possam ser ingeridos por meio de ferramentas como Apache Kafka ou AWS Kinesis, a maioria dos clientes usa a API Hydrolix, disse Kagan.

O Hydrolix separa computação e armazenamento, o que permite que o trabalho seja atribuído dinamicamente para aproveitar ao máximo sua capacidade. Seus sistemas de ingestão, consulta e armazenamento operam e são dimensionados de forma independente. Ele fragmenta automaticamente os dados por tempo, mas também permite a fragmentação personalizada com base nos valores das colunas.

Ele realiza pesquisa de índice sobre o armazenamento de objetos, uma técnica que mantém todos os dados ativos, em vez de depender do armazenamento em cache de alguns dados na memória e de manter o restante em uma camada fria.

“Existe uma grande suposição de que seu armazenamento local é rápido e quente, e seus objetos são frios, lentos e distantes. E a maneira como a maioria das empresas lida com isso é com o cache, onde a primeira consulta será muito lenta quando lermos tudo. Mas depois disso será muito rápido”, explicou.

“(Cache) é ótimo para um caso de uso de BI e inútil se você estiver tentando observar dados em tempo real que estão sendo transmitidos porque seus caches estão vazios. E também é inútil fazer qualquer tipo de análise forense ad hoc… Cada vez que você consulta dados diferentes, você tem que pagar essa penalidade”, disse Kagan.

Se você estiver consultando dados dos últimos seis meses, estará analisando trilhões de registros e pode levar duas horas para executar essa consulta.

“(E contando com cache)… você realmente não pode fazer escalonamento automático. Porque sempre que você altera o número de máquinas, você perde a eficiência dos seus caches, porque as coisas ficam reequilibradas. Portanto, nosso objetivo é obter os benefícios do armazenamento remoto e da computação sem estado… e ser capaz de fornecer desempenho consistente, independentemente de os dados estarem em cache ou não.”

Ao usar índices para cada coluna, em vez de ter que fazer uma varredura completa da coluna para encontrar uma resposta de consulta específica, ele pode apenas ler blocos específicos de dados usando solicitações de intervalo.

“Com o tempo, seus dados estão evoluindo, seus dados estão mudando e você não quer voltar e reindexar tudo ou alterá-lo. Você quer um sistema que possa suportar dados que evoluem e mudem, mas também uma plataforma que possa lidar com isso, (onde) diferentes dados chegam com diferentes estruturas, diferentes esquemas, e podem coexistir em uma única tabela ao mesmo tempo”, ele disse.

Ela também escreveu seus próprios algoritmos de compressão e afirma taxas de compressão de 20 a 50 vezes. Ela possui quatro patentes em sua tecnologia, incluindo a indexação de dados baseados em colunas de séries temporais para armazenamento de objetos baseado em nuvem mais econômico.

Salvando ‘Cada Registro’

A empresa anunciou recentemente uma rodada Série B de US$ 35 milhões, elevando o financiamento total para US$ 68 milhões.

Seus clientes tendem a estar nos setores de mídia, jogos, tecnologia de publicidade ou segurança de telecomunicações, onde “eles realmente desejam preservar todos os registros”, disse Kagan. Mais recentemente, obteve sucesso em parcerias com outros fornecedores empresariais. Por exemplo, sua tecnologia serve de base para o produto de observabilidade TrafficPeak da Akamai.

Quando as empresas realizam bilhões de transações por dia e terabytes de dados, fica muito caro usar serviços como Splunk ou Datadog, disse Kagan.

“Então eles começam a pensar em trazer os dados internamente e usar coisas como o Elasticsearch de código aberto, mesmo assim ainda pode custar-lhes um quarto de milhão de dólares por mês apenas para construir e gerenciar essa infraestrutura”, disse ele. “E assim podemos compensar o que você está vendo hoje. Portanto, em vez de armazenar dados por sete dias, você poderia usar o Hydrolix para armazenar os dados por 15 meses. Você pode reduzir substancialmente seus custos ou apenas aumentar a (retenção) e obter mais pelo seu dinheiro.”

Ele adicionou:

“Achamos que em um grande mercado de bancos de dados de US$ 80 bilhões, há um pequeno problema de US$ 8 bilhões em torno dos logs de acesso – logs de acesso de alto volume, que não estavam sendo bem resolvidos. Não vamos substituir o BigQuery por tudo; não estamos substituindo Elastic ou Snowflake. Existe apenas um problema específico que não é bem atendido por essas outras plataformas, e podemos construir algo para esses problemas específicos. … Embora seja uma pequena subseção do mercado, é muito cara e as pessoas estão sentindo muita dor em relação a isso. E então estamos tendo sucesso com nosso foco pequeno e muito restrito nesta questão.”

Susan Hall é a editora patrocinadora do The New Stack. Seu trabalho é ajudar os patrocinadores a atingir o maior número possível de leitores para o conteúdo que contribuem. Ela escreve para The New Stack desde seus primeiros dias, bem como para sites…