Snowflake Polaris visa interoperabilidade do mecanismo multiconsulta

O Guia do Arquiteto para o GenAI Tech Stack – 10 Ferramentas

3 de junho de 2024

A confiança na GenAI requer uma plataforma aberta de movimentação de dados

4 de junho de 2024

Publicado por Renato Yamazuki em 4 de junho de 2024

Categorias

Cloud

Tags

Azure

Snowflake Polaris visa interoperabilidade do mecanismo multiconsulta

SÃO FRANCISCO — Apache Spark, Dremio, Python, Trino e outras ferramentas de análise de big data poderão em breve ler e gravar com mais facilidade em tabelas Apache Iceberg, usando a API REST Iceberg, graças a uma nova iniciativa de serviços de dados em nuvem provedor Floco de neve.

No Snowflake Data Cloud Summit, realizado esta semana em São Francisco, a empresa revelou o Catálogo Polaris para o formato de tabela aberta Apache Iceberg, frequentemente usado para implementar data lakes e data lakehouses.

A ideia é integrar o mundo fragmentado dos motores de consulta de big data, segundo a empresa. Muitas vezes, uma organização precisa manter vários mecanismos de consulta para diferentes fontes de dados ou mover dados de um local para outro.

“Estamos reunindo vários parceiros do setor para garantir que possamos oferecer aos nossos clientes mútuos a opção de misturar e combinar vários mecanismos de consulta para coordenar as atividades de leitura e gravação”, disse Christian Kleinerman, vice-presidente executivo de produto da Snowflake.

Ao abrir o código do catálogo, a Snowflake está fornecendo aos usuários do Iceberg uma maneira de interoperabilidade potencial com Amazon Web Services (AWS), Confluent, Dremio, Google Cloud, Microsoft Azure, Salesforce e outros.

Ao rotear todas as operações de leitura e gravação, o Polaris permite que operações de dados leiam e gravem uma tabela por meio de vários mecanismos, mantendo a atomicidade.

O Catálogo Polaris implementa a API REST aberta do Iceberg para integração com mais mecanismos de consulta.

“Um protocolo de catálogo padronizado para todos os motores desbloqueia a interoperabilidade entre vários motores”, um grupo de engenheiros da Snowflake explicou a tecnologia em uma postagem recente no blog.

O Catálogo Polaris será hospedado no AI Data Cloud da Snowflake, embora o software também seja lançado como código aberto para que também possa ser auto-hospedado, usando contêineres.

Construído em tabelas abertas do Apache Iceberg

Lançado em 2020, o Apache Iceberg está rapidamente se tornando o formato de fato para vários tipos diferentes de plataformas de análise de dados em grande escala, como data lakes, lakehouses e meshes, tudo possibilitado pelo formato flexível de tabela aberta Iceberg.

A tecnologia já está abrindo novas possibilidades de compartilhamento de dados: o Confluent oferece aos clientes a capacidade de transformar fluxos de dados em Apache Iceberg por meio do Tableflow. A plataforma de dados de código aberto Legend da Goldman Sachs poderá trabalhar mais facilmente com o mecanismo de consulta Snowflake. A Salesforce planeja usar o Polaris como parte de sua iniciativa de compartilhamento de dados com cópia zero.

Floco de neve e código aberto

Esta não é a primeira incursão da Snowflake em software de código aberto para análise de dados. A empresa investiu pesadamente no projeto Iceberg Tables, que permite aos clientes do Snowflake usar o formato Apache Iceberg dentro do próprio Snowflake. Ela lançou como código aberto o Snowflake Arctic Large Language Model, que foi escrito para a empresa. Também contribui para o Streamlit, um projeto Python popular para renderizar scripts de dados como aplicativos da web.

Snowflake realizará um webinar no dia 23 de julho para fornecer mais detalhes sobre como funciona o catálogo.

Joab Jackson é editor sênior do The New Stack, cobrindo computação nativa em nuvem e operações de sistema. Ele faz reportagens sobre infraestrutura e desenvolvimento de TI há mais de 25 anos, incluindo passagens pela IDG e pela Government Computer News. Antes disso, ele…