LinkedIn abre fontes OpenHouse Data Lakehouse Control Plane

Superando os limites do RAG com ColBERT

6 de março de 2024

5 razões para executar o MongoDB no Kubernetes

6 de março de 2024

Publicado por Douglas S. em 6 de março de 2024

Categorias

Tags

Escalabilidade

LinkedIn abre fontes OpenHouse Data Lakehouse Control Plane

Gerenciar data lakehouses não é fácil, então o LinkedIn criou e agora lançou como código aberto o OpenHouse, um plano de controle e interface para supervisionar uma ampla variedade de data lakehouses.

Tudo começa com lagos de dados. São sistemas de armazenamento abertos e baratos para qualquer tipo de dados – CSV, JSON, dados tabulares, texto, imagens, áudio, vídeo, JSON, CSV, etc. Um Data Lakehouse, conforme definido por Databricks, é uma arquitetura que permite análises eficientes e seguras de Inteligência Artificial (IA) e Business Intelligence (BI) nos dados de um data lake. O OpenHouse do LinkedIn fornece um plano de controle de código aberto para gerenciar tabelas em implantações de open data lakehouse.

Este plano de controle é composto por um catálogo declarativo e um conjunto de serviços de dados. Os usuários podem definir tabelas, seus esquemas e metadados associados de forma transparente dentro do catálogo. O OpenHouse reconcilia o estado observado das tabelas com o estado desejado orquestrando vários serviços de dados.

O LinkedIn construiu isso porque não havia outras ferramentas disponíveis que pudessem resolver seus problemas. Suas implantações de data lakehouse de código aberto são baseadas em mecanismos de computação como Apache Spark, Trino e Apache Flink; armazenamento distribuído; e catálogos/formatos de tabela de metadados, como Apache Iceberg, Delta, Hudi, Apache Hive Metastore.” São muitos dados em uma ampla variedade de formatos e arquiteturas.

Como admitiu o LinkedIn: “Embora funcional, nossa configuração atual para gerenciar tabelas é fragmentada. Os blocos de construção individuais dos mecanismos de computação, armazenamento distribuído e catálogos de metadados operam de forma independente como parte de um plano de dados geral.”

Como o LinkedIn usa o OpenHouse

OpenHouse foi a resposta. Desde a sua criação no ano passado, o OpenHouse tem sido um pilar da infraestrutura de dados do LinkedIn, gerenciando mais de 3.500 tabelas e atendendo mais de 550 usuários ativos diariamente. Seu impacto foi profundo, reduzindo notavelmente o tempo de lançamento no mercado da implementação da ferramenta de criação de dados (dbt) do LinkedIn em tabelas gerenciadas em mais de seis meses e reduzindo pela metade o trabalho do usuário final associado ao compartilhamento de dados. Integrando mais de 1.000 conjuntos de dados, incluindo aqueles de IA e Large Language Models (LLMs), no OpenHouse.

A inspiração por trás do OpenHouse surgiu da luta perene entre controle e flexibilidade no gerenciamento de big data. As soluções tradicionais de data warehouse em nuvem, embora garantam governança e desempenho, muitas vezes carecem da escalabilidade e da adaptabilidade oferecidas pelos sistemas de data lakehouse de código aberto. O OpenHouse surge como uma solução para esse dilema, fornecendo uma experiência gerenciada que liberta os usuários finais das complexidades do gerenciamento de infraestrutura, ao mesmo tempo que capacita as equipes de infraestrutura de dados com recursos aprimorados de controle e governança.

No coração do OpenHouse está seu Catálogo, um serviço de tabela RESTful que oferece provisionamento de tabela seguro e escalonável junto com gerenciamento declarativo de metadados. Isto é complementado por Data Services, que facilita a manutenção contínua da tabela.

Os principais recursos do OpenHouse incluem operações fundamentais de catálogo, gerenciamento de retenção, governança por meio de marcação de colunas e ferramentas abrangentes de observabilidade. Esses recursos são perfeitamente integrados ao Apache Spark. Isso permite que a sintaxe padrão do mecanismo, as consultas SQL e a API DataFrame executem operações com eficiência.

Além disso, o OpenHouse introduz recursos avançados de replicação ao estender a estrutura Apache Gobblin, garantindo alta disponibilidade e consistência em todas as regiões geográficas. Seu suporte ao Apache Iceberg como formato de tabela ressalta ainda mais seu compromisso com a conformidade e o desempenho ideal por meio de tarefas regulares de manutenção.

Reconhecendo a importância da adaptabilidade, o OpenHouse foi projetado pensando na capacidade de conexão, oferecendo interfaces para armazenamento, autenticação, autorização, gerenciamento de banco de dados e envio de trabalhos. Essa filosofia de design garante que o OpenHouse possa ser personalizado para se adequar a diversos ambientes, desde infraestruturas em nuvem até formatos de tabelas específicos.

À medida que o OpenHouse embarca neste novo capítulo como um projeto de código aberto com licença BSD de 2 cláusulas, o LinkedIn convida a comunidade global a explorar suas capacidades, contribuir para seu desenvolvimento e fornecer feedback. A empresa está particularmente focada em compreender o desempenho do OpenHouse em vários ambientes e está comprometida em enfrentar os desafios técnicos durante a transição do Apache Hive para o OpenHouse.

Steven J. Vaughan-Nichols, também conhecido como sjvn, tem escrito sobre tecnologia e negócios de tecnologia desde que CP/M-80 era o sistema operacional de PC de última geração, 300bps era uma conexão rápida à Internet, WordStar era o estado da tecnologia. – processador de texto artístico, e gostamos.