Como agendar backups do PostgreSQL com ações do GitHub

As 3 principais tecnologias que você precisa aprender AGORA

6 de junho de 2024

Crédito: VentureBeat feito com Midjourney

Luna da Galileo redefine a avaliação GenAI, apresentando custos 97% mais baixos e velocidades 11x mais rápidas

7 de junho de 2024

Publicado por Douglas S. em 6 de junho de 2024

Categorias

A ação finalizada do GitHub

Aqui está um link para a ação finalizada que estou usando para fazer backup do banco de dados usado pelo meu site. The Action faz backup do meu banco de dados Neon todas as noites à meia-noite e exclui todos os anteriores .sql.gz arquivos do bucket S3.

Posteriormente neste artigo, explicarei o que cada uma das etapas faz e onde você precisará fazer alterações para que funcione com seu banco de dados, repositório GitHub e credenciais AWS.

Mas primeiro…

Configurar provedor de identidade, função e intervalo S3

Existem três partes na configuração da AWS:

Criando um provedor de identidade OIDC.
Criando uma função.
Criação de um bucket S3 e atualização da política do bucket S3.

Adicionar um provedor de identidade

Um provedor de identidade (IdP) OIDC (OpenID Connect) na AWS é um serviço de terceiros que lida com autenticação. O GitHub deve ser adicionado como um provedor de identidade para permitir que a ação use suas credenciais da AWS.

Para criar um novo provedor de identidade, navegue até IAM > Gerenciamento de acesso > Provedores de identidade e clique em Adicionar provedor.

Na próxima tela, selecione OpenID Connect e adicione o seguinte aos campos URL do provedor e Público:

URL do provedor: https://token.actions.githubusercontent.com
Público: sts.amazonaws.com

Quando terminar, clique em Adicionar provedor.

Agora você verá que esse provedor está visível na lista em IAM > Gerenciamento de acesso > Provedores de identidade.

Criar função

Uma função é uma identidade que você pode assumir para obter credenciais de segurança temporárias para tarefas ou ações específicas na AWS. As funções são usadas para delegar permissões e conceder acesso aos serviços da AWS sem a necessidade de credenciais como senhas ou chaves de acesso.

Para criar um novo provedor de identidade, navegue até IAM > Gerenciamento de acesso > Funções e clique em Criar função.

Na próxima tela, crie uma identidade confiável para a função.

Selecione Identidade Confiável

Nesta tela selecione Identidade Webe selecione token.actions.githubusercontent.com de Identidade Web menu suspenso.

Depois de selecionar o Provedor de Identidade, você verá vários campos para preencher. Selecione sts.amazonaws.com no menu suspenso Público e preencha os detalhes do repositório GitHub de acordo com seus requisitos.

Quando terminar, clique em Próximo.

Para referência, as opções mostradas na imagem abaixo são para o seguinte repositório: https://github.com/PaulieScanlon/paulie-dev-2023

Adicionar permissões – Pular

Você pode pular a seleção de qualquer coisa nesta tela e clicar Próximo continuar.

Nomear, revisar e criar

Nesta tela, dê um nome e uma descrição à função. Você usará o nome da função no código da ação do GitHub (eu nomeei o meu, paulie-dev-2023-github-action). Considere nomear a função especificamente para evitar confusão no futuro.

Quando estiver pronto, clique Criar função.

Configurar intervalo S3

Existem duas partes na criação de um bucket S3:

Criando o balde.
Atualizando a política de bucket.

Criando o balde

Os buckets AWS S3 (Amazon Simple Storage Service) são contêineres de armazenamento usados para armazenar objetos no serviço de armazenamento em nuvem da Amazon. Um bucket S3 pode armazenar qualquer quantidade de dados, desde arquivos e documentos até imagens e vídeos ou, no caso de backup de banco de dados, um .gz (GNUzip).

Para criar um novo Bucket, navegue até S3 > Buckets e clique em Crie um balde.

Na próxima tela, selecione Propósito geral para o tipo de balde e, em seguida, dê um nome ao seu balde.

A coisa mais importante a notar nesta tela é qual região você está criando o bucket para.

Conforme mencionado, meu provedor de banco de dados é o Neon, que implanta bancos de dados na AWS. No meu caso, é importante criar meu bucket S3 na mesma região do meu banco de dados (us-east-1 N. Virginia) para não incorrer em cobranças de saída ao realizar backups. Isso ocorre porque ao realizar um dump do banco de dados, você extrai uma grande quantidade de dados do armazenamento; e ao carregá-lo em um bucket S3, você insere uma grande quantidade de dados de volta no armazenamento. Ao garantir que as regiões da AWS sejam iguais, os dados não apenas nunca sairão da rede da AWS, mas também nunca sairão da região da AWS — e, portanto, sem cobranças de saída e sem custos.

Atualizando a política de bucket

Para garantir que a função usada na ação do GitHub possa executar ações no bucket S3, você precisará atualizar a política do bucket.

Selecione seu bucket, selecione a guia Permissões e clique em Editar.

Agora você pode adicionar a política a seguir, que concede à função que você criou anteriormente acesso para executar ações S3 List, Get, Put e Delete. Você precisará listar o nome do bucket duas vezes em Recursos – um sem a barra final, outro com uma barra final e curinga. Sem os dois links, a Action irá falhar (não sei porquê, desculpe).

No trecho acima, substitua o nome da função (paulie-dev-2023-github-action) pelo nome da sua função e substitua o nome do bucket S3 (paulie-dev-db-backup) pelo nome do seu bucket S3.

Quando estiver pronto, clique em Salvar alterações.

Configurar segredos do GitHub

Há uma série de variáveis sensíveis usadas no GitHub Action. No meu caso, o repositório é público e naturalmente não quero revelá-los no código da Action. Para evitar isso, estou usando GitHub Secrets.

Para fazer o mesmo em sua conta GitHub, navegue até Configurações > Segredos e variáveis > Ações e adicione as seguintes variáveis.

- AWS_ACCOUNT_ID
  - Isso pode ser encontrado clicando em seu nome no menu de navegação da AWS. O primeiro item da lista será o ID da sua conta da AWS.
- DATABASE_URL
  - Esta deve ser a string de conexão completa do PostgreSQL: por exemplo postgres://paulie:123@abc.us-east-1.aws.neon.tech/paulie-db
- S3_BUCKET_URL
  - Este é o nome do bucket S3 criado anteriormente, o meu é paulie-dev-db-backup.

Criando a ação GitHub

Com a função da AWS, o bucket S3 do provedor de identidade, a política do bucket S3 e os segredos do GitHub configurados, agora você pode criar a ação do GitHub.

No seu repositório, crie um novo diretório e nomeie-o .github. Dentro deste diretório, crie outro diretório e nomeie-o workflows. Em seguida, crie um novo arquivo (chamei o meu db-backup.yml).

Adicione o seguinte código ao .yml arquivo. As alterações que você pode precisar fazer são para PG_VERSION (que é a versão PostgreSQL do seu banco de dados) e o AWS_REGION (a região do balde S3).

Você também pode querer renomear a ação. O meu tem nome Backup de néon | paulie-dev (us-east-1) e o trabalho que nomeei backup de banco de dados.

Ações do GitHub explicadas

Abaixo estão cada uma das etapas contidas na Ação, juntamente com uma explicação sobre o que cada uma faz.

sobre:

workflow_dispatch é um evento no GitHub Actions que permite acionar manualmente um fluxo de trabalho executado por meio da interface do usuário do GitHub Actions e é particularmente útil para fins de desenvolvimento e teste.

empregos:

Este será o nome do trabalho executado na ação.

permissões:

id-token: write concede permissão para escrever tokens OIDC, permitindo que o trabalho seja autenticado com serviços externos, por exemplo, AWS.

ambiente:

Essas variáveis são uma combinação de segredos do GitHub e variáveis que não são confidenciais, mas são usadas no código da ação.

Instale o PostgreSQL

Estou instalando o PostgreSQL a partir de um repositório Apt, que contém o pacote PostgreSQL relevante adequado para uso em ambientes Ubuntu. O PG_VERSION A variável de ambiente é usada no comando de instalação para garantir que estou instalando o PostgreSQL versão 16.

Obter carimbo de data/hora

Para criar backups com uma data como parte do nome do arquivo, criei uma etapa que irá criar um carimbo de data/hora e salvá-lo no ambiente da Action. Posteriormente, posso me referir a esse valor usando env.TIMESTAMP. Aqui está um recurso útil para entender as opções de formato de carimbo de data/hora Unix: Imprima ou defina a data e hora do sistema.

Usar a mesma formatação que usei resultaria em um novo arquivo chamado algo assim: 03-June-2024@19:17:13.sql.gz

Execute pg_dump

Esta etapa foi realmente muito frustrante. Para garantir que você está usando a versão do PostgreSQL instalada (no meu caso 16), preciso acessar o pg_dump diretamente dos binários. A não inclusão deste caminho resulta na tentativa da Action de usar uma versão incorreta do PostgreSQL.

Configurar credenciais da AWS

Estou usando a ação configure-aws-credentials da AWS para configurar as credenciais necessárias para que a ação do GitHub interaja com os serviços da AWS, usando a função definida anteriormente.

Balde vazio (opcional)

Esta etapa é opcional e esvaziará o bucket S3 antes de gravar um novo arquivo. No meu caso, não preciso de mais do que o último backup – mas você pode querer continuar e salvar todos os backups anteriores. Nesse caso, você pode remover esta etapa com segurança. Você também pode querer remover s3:ListBucket, s3:GetObject e s3:DeleteObject da lista de ações na política do bucket S3.

Fazer upload para o intervalo

Finalmente, o upload para S3. Muito simplesmente, usando o AWS cp comando eu copio o recém-criado .sql.gz arquivo e carregue-o no S3_BUCKET_URL.

Finalizado

E é isso. Agora tenho uma ação agendada no GitHub que é executada todas as noites à meia-noite, que executa um backup completo dos dados e do esquema do meu banco de dados Neon PostgreSQL e os carrega em um balde S3 para proteção – coisa adorável!

Paul é engenheiro de software sênior, defensor independente do desenvolvedor e redator técnico. Mais informações de Paul podem ser encontradas em seu site, paulie.dev.

Douglas S.

Comments are closed.

Como agendar backups do PostgreSQL com ações do GitHub

As 3 principais tecnologias que você precisa aprender AGORA

Luna da Galileo redefine a avaliação GenAI, apresentando custos 97% mais baixos e velocidades 11x mais rápidas

As 3 principais tecnologias que você precisa aprender AGORA

Luna da Galileo redefine a avaliação GenAI, apresentando custos 97% mais baixos e velocidades 11x mais rápidas

A ação finalizada do GitHub

Configurar provedor de identidade, função e intervalo S3

Adicionar um provedor de identidade

Criar função

Selecione Identidade Confiável

Adicionar permissões – Pular

Nomear, revisar e criar

Configurar intervalo S3

Criando o balde

Atualizando a política de bucket

Configurar segredos do GitHub

Criando a ação GitHub

Ações do GitHub explicadas

sobre:

empregos:

permissões:

ambiente:

Instale o PostgreSQL

Obter carimbo de data/hora

Execute pg_dump

Configurar credenciais da AWS

Balde vazio (opcional)

Fazer upload para o intervalo

Finalizado

Douglas S.

Postagens relacionadas

Usando SPLADE para gerar embeddings esparsos aprendidos

Flow-IPC melhora a comunicação entre processos para desenvolvedores C++

Melhorando a qualidade dos dados: anomalias e monitoramento automatizado