Leon Kuperman é cofundador e CTO da CAST AI. Ex-vice-presidente de produtos de segurança OCI da Oracle, Leon tem mais de 20 anos de experiência em empresas como IBM, Truition e HostedPCI. Ele fundou e atuou como CTO da…
Leia mais de Leon Kuperman
À medida que os serviços em nuvem proliferam para o mainstream, as organizações procuram continuamente estratégias inovadoras para otimizar os seus gastos sem comprometer o desempenho e o tempo de atividade.
Em meio ao rápido crescimento de hiperescaladores como AWS, Microsoft Azure e Google Cloud Platform (GCP), que tiveram uma expansão de dois dígitos, uma oportunidade significativa de economia reside em um recurso muitas vezes mal compreendido: as instâncias spot.
Apesar do potencial de redução dos custos de computação em 75% a 90%, muitos clientes continuam hesitantes, principalmente devido a preocupações com a sua aparente instabilidade. Na CAST AI, vimos esses desafios em primeira mão. Por exemplo, um de nossos clientes executou a maioria dos aplicativos da empresa em instâncias spot no ano passado, sem tempo de inatividade, mesmo durante a parte mais movimentada do período de festas de fim de ano, quando o estoque de instâncias spot se torna escasso. Apesar disso, os líderes seniores continuam alertando sobre o risco de depender de instâncias pontuais. Também vimos o que funciona de forma eficaz em escala ao usar instâncias spot em uma estratégia de redução de custos.
O principal impedimento contra o uso de instâncias pontuais é o medo da instabilidade. Os provedores de nuvem podem recuperar essas instâncias com o mínimo de aviso prévio: 2 minutos na AWS e apenas 30 segundos no GCP e Azure. Essa imprevisibilidade representa um desafio alucinante para as empresas que dependem de recursos de computação estáveis e ininterruptos: economizo de 75% a 90% em custos de computação e risco de tempo de inatividade ou pago mais e me preocupo menos com o tempo de inatividade?
No contexto dos ambientes Kubernetes, as instâncias spot representam vários desafios técnicos únicos e interessantes. Isso se deve à imprevisibilidade inerente à disponibilidade de instâncias spot e à natureza complexa do gerenciamento de carga de trabalho. Vejamos alguns exemplos.
Desligamento e migração graciosos de cargas de trabalho: ao receber um aviso de encerramento de uma instância spot, o cluster Kubernetes precisa realizar diversas operações em um período muito curto. Isso inclui desligar normalmente os aplicativos em execução, comprometer qualquer estado final no armazenamento e redirecionar o tráfego para garantir a disponibilidade. Essas operações não são triviais, especialmente para aplicativos com estado ou aqueles com procedimentos de desligamento complexos que podem exigir mais tempo do que o período de aviso prévio permite.
Reprogramação e planejamento de capacidade: o Kubernetes deve reprogramar rapidamente as cargas de trabalho da instância spot encerrada para outro recurso de computação. Isto requer planeamento de capacidade em tempo real para identificar os recursos disponíveis que podem acomodar as cargas de trabalho despejadas sem causar contenção de recursos ou degradação do desempenho. Em um ambiente de nuvem, onde a disponibilidade de instâncias spot pode flutuar drasticamente, garantir uma transição tranquila pode ser um desafio.
Tomada de decisões automatizada e inteligente: para gerenciar essas transições de maneira eficaz, os clusters Kubernetes precisam empregar algoritmos sofisticados de automação e tomada de decisão. Isso envolve não apenas reagir ao encerramento de instâncias spot, mas também gerenciar proativamente a combinação de tipos de instâncias e opções de compra (spot, sob demanda, reservadas) com base nos requisitos de custo, disponibilidade e carga de trabalho. Desenvolver e ajustar esses algoritmos para equilibrar a economia de custos com os objetivos de confiabilidade e desempenho requer profundo conhecimento e ajuste contínuo.
Gerenciamento de rede e dependências: as cargas de trabalho executadas em instâncias spot podem fazer parte de uma arquitetura de microsserviços maior e interdependente. Quando uma instância é encerrada, não se trata apenas de mover a carga de trabalho afetada; trata-se também de garantir que as configurações de rede, os mecanismos de descoberta de serviços e as relações de dependência sejam atualizados em tempo real para refletir a nova topologia de implantação. Kubernetes e tecnologias nativas de nuvem adjacentes, como service mesh, cuidam de muitas dessas preocupações. No entanto, as restrições de tempo aumentam a complexidade.
Considerando tudo isso, é compreensível que muitas empresas hesitem em adotar a capacidade de instância spot. Optar por planos de poupança, instâncias reservadas e outros programas de descontos baseados em compromissos dos provedores de nuvem parece muito mais simples em termos de planejamento e utilização. No entanto, ao seguir este caminho, os clientes ignoram as oportunidades de poupança mais substanciais que a nuvem tem para oferecer, juntamente com a flexibilidade absoluta.
E se a instabilidade percebida pudesse ser quantificada e, portanto, gerida de forma eficaz através da automação? Esta é a premissa por trás da nossa mais recente inovação: um mapa de calor global que fornece insights claros sobre a disponibilidade e confiabilidade de instâncias spot em diferentes regiões e zonas de disponibilidade. Com o próximo lançamento do nosso mapa de calor de instâncias spot, ao rastrear métricas como taxa de interrupção pontual e erros de capacidade insuficiente (ICE), ofereceremos uma maneira tangível de avaliar o risco associado ao uso de instâncias spot em locais específicos.
A chave para desbloquear todo o potencial das instâncias spot está na automação. A natureza dinâmica do preço, da disponibilidade e da estabilidade das instâncias spot exige uma abordagem proativa, onde os ajustes nas cargas de trabalho são feitos em tempo real com base nas condições atuais do mercado. Isto inclui não apenas escolher as instâncias com melhor relação custo-benefício, mas também preparar e responder a interrupções sem intervenção manual. A automação pode garantir que as cargas de trabalho sejam transferidas perfeitamente para novas instâncias, eliminando o tempo de inatividade e mantendo o desempenho.
Esperamos que nosso mapa de calor forneça às organizações alguns insights sobre o gerenciamento de riscos em todas as regiões de nuvem e zonas de disponibilidade. Contudo, a observabilidade e as avaliações de risco não são suficientes. Com ferramentas de gerenciamento automatizadas, as empresas podem incorporar com segurança instâncias spot em sua infraestrutura de nuvem. Isto não só leva a poupanças substanciais de custos, mas também permite que as organizações tomem decisões baseadas em dados sobre os seus recursos na nuvem. O medo da instabilidade torna-se um risco administrável, ofuscado pelos benefícios de uma despesa optimizada e de uma maior eficiência.
Para saber mais sobre Kubernetes e o ecossistema nativo da nuvem, junte-se a nós na KubeCon + CloudNativeCon Europe em Paris, de 19 a 22 de março de 2024.
YOUTUBE.COM/THENEWSTACK
A tecnologia avança rápido, não perca um episódio. Inscreva-se em nosso canal no YouTube para transmitir todos os nossos podcasts, entrevistas, demonstrações e muito mais.
SE INSCREVER