SÃO FRANCISCO — Apache Spark, Dremio, Python, Trino e outras ferramentas de análise de big data poderão em breve ler e gravar com mais facilidade em tabelas Apache Iceberg, usando a API REST Iceberg, graças a uma nova iniciativa de serviços de dados em nuvem provedor Floco de neve.
No Snowflake Data Cloud Summit, realizado esta semana em São Francisco, a empresa revelou o Catálogo Polaris para o formato de tabela aberta Apache Iceberg, frequentemente usado para implementar data lakes e data lakehouses.
A ideia é integrar o mundo fragmentado dos motores de consulta de big data, segundo a empresa. Muitas vezes, uma organização precisa manter vários mecanismos de consulta para diferentes fontes de dados ou mover dados de um local para outro.
“Estamos reunindo vários parceiros do setor para garantir que possamos oferecer aos nossos clientes mútuos a opção de misturar e combinar vários mecanismos de consulta para coordenar as atividades de leitura e gravação”, disse Christian Kleinerman, vice-presidente executivo de produto da Snowflake.
Ao abrir o código do catálogo, a Snowflake está fornecendo aos usuários do Iceberg uma maneira de interoperabilidade potencial com Amazon Web Services (AWS), Confluent, Dremio, Google Cloud, Microsoft Azure, Salesforce e outros.
Ao rotear todas as operações de leitura e gravação, o Polaris permite que operações de dados leiam e gravem uma tabela por meio de vários mecanismos, mantendo a atomicidade.
O Catálogo Polaris implementa a API REST aberta do Iceberg para integração com mais mecanismos de consulta.
“Um protocolo de catálogo padronizado para todos os motores desbloqueia a interoperabilidade entre vários motores”, um grupo de engenheiros da Snowflake explicou a tecnologia em uma postagem recente no blog.
O Catálogo Polaris será hospedado no AI Data Cloud da Snowflake, embora o software também seja lançado como código aberto para que também possa ser auto-hospedado, usando contêineres.
Construído em tabelas abertas do Apache Iceberg
Lançado em 2020, o Apache Iceberg está rapidamente se tornando o formato de fato para vários tipos diferentes de plataformas de análise de dados em grande escala, como data lakes, lakehouses e meshes, tudo possibilitado pelo formato flexível de tabela aberta Iceberg.
A tecnologia já está abrindo novas possibilidades de compartilhamento de dados: o Confluent oferece aos clientes a capacidade de transformar fluxos de dados em Apache Iceberg por meio do Tableflow. A plataforma de dados de código aberto Legend da Goldman Sachs poderá trabalhar mais facilmente com o mecanismo de consulta Snowflake. A Salesforce planeja usar o Polaris como parte de sua iniciativa de compartilhamento de dados com cópia zero.
Floco de neve e código aberto
Esta não é a primeira incursão da Snowflake em software de código aberto para análise de dados. A empresa investiu pesadamente no projeto Iceberg Tables, que permite aos clientes do Snowflake usar o formato Apache Iceberg dentro do próprio Snowflake. Ela lançou como código aberto o Snowflake Arctic Large Language Model, que foi escrito para a empresa. Também contribui para o Streamlit, um projeto Python popular para renderizar scripts de dados como aplicativos da web.
Snowflake realizará um webinar no dia 23 de julho para fornecer mais detalhes sobre como funciona o catálogo.
YOUTUBE.COM/THENEWSTACK
A tecnologia avança rápido, não perca um episódio. Inscreva-se em nosso canal no YouTube para transmitir todos os nossos podcasts, entrevistas, demonstrações e muito mais.
SE INSCREVER
Joab Jackson é editor sênior do The New Stack, cobrindo computação nativa em nuvem e operações de sistema. Ele faz reportagens sobre infraestrutura e desenvolvimento de TI há mais de 25 anos, incluindo passagens pela IDG e pela Government Computer News. Antes disso, ele…
Este site utiliza cookies para melhorar sua experiência de navegação. Ao continuar, você concorda com o uso de cookies. Para mais informações, consulte nossa Política de Privacidade.
Funcional
Sempre ativo
O armazenamento ou acesso técnico é estritamente necessário para a finalidade legítima de permitir a utilização de um serviço específico explicitamente solicitado pelo assinante ou utilizador, ou com a finalidade exclusiva de efetuar a transmissão de uma comunicação através de uma rede de comunicações eletrónicas.
Preferências
O armazenamento ou acesso técnico é necessário para o propósito legítimo de armazenar preferências que não são solicitadas pelo assinante ou usuário.
Estatísticas
O armazenamento ou acesso técnico que é usado exclusivamente para fins estatísticos.O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos anônimos. Sem uma intimação, conformidade voluntária por parte de seu provedor de serviços de Internet ou registros adicionais de terceiros, as informações armazenadas ou recuperadas apenas para esse fim geralmente não podem ser usadas para identificá-lo.
Marketing
O armazenamento ou acesso técnico é necessário para criar perfis de usuário para enviar publicidade ou para rastrear o usuário em um site ou em vários sites para fins de marketing semelhantes.