Novo Formato de Backup em Nuvem: Como Voltar a Trabalhar Após Uma Pane Até 10x Mais Rápido.

0
748

Pensando no tempo da retomada da operação, a WSpeed criou um novo formato de backup que permite recuperar os arquivos até 10x mais rápido, e neste artigo você vai conhecer todos prós e contras deste novo formato.

No vídeo acima, você vai ver uma comparação do tempo para rodar um backup e um restore em uma pasta com 100.000 arquivos, comparando novo formato de backup.

Aqui na WSpeed, nos preocupamos em deixar nossos clientes tranquilos oferecendo a garantia de que é possível recuperar seus arquivos em qualquer situação.

A principal forma que fazemos isso é armazenamento em nuvem arquivo por arquivo, guardando no mínimo 3 versões e na maioria dos casos, mantendo-o para sempre na nuvem, mesmo que seja excluído localmente.

Desta maneira, mesmo no pior caso, conseguimos recuperar tudo e você voltar a trabalhar, tranquilo.

Agora na prática, se você precisar recuperar uma pasta com 3 milhões de arquivos? Sendo que 2 milhões de arquivos são arquivos bem pequenos com menos de 1 kbyte? Arquivos xml de Nota fiscal por exemplo…

A recuperação desta pasta, vai naturalmente demorar mais, pois vamos literalmente baixar arquivo por arquivo, não existe mágica.

Em 2020 com a pandemia, auxiliando alguns de nossos clientes em casos de recuperação de desastres, percebemos que precisávamos de algo a mais, algo mais rápido, mais eficiente e que permitisse uma recuperação mais rápida.

Em Outubro de 2021, lançamos o novo formato de backup.

Quais são as diferenças deste novo formato de backup?

O novo formato de backup é baseado na ideia de que os dados de backup na nuvem são sempre mantidos como um contêiner de dados, independente do tipo de backup. 

Os planos de backup completamente independentes uns dos outros. Cada plano é sempre uma configuração separada que entrega dados de backup em locais distintos na nuvem.

Em outras palavras, cada dado de plano de backup separado é mantido em seu próprio diretório na nuvem. Essa estrutura de dados permite evitar possíveis problemas de interferência nos dados de backup, como por exemplo planos rodando de maneira concorrente.

Os dados de backup são divididos em blocos e um bloco de dados é uma entidade operacional principal em vez de arquivos e pastas. 

À medida que os dados são carregados na nuvem, os blocos são combinados em partes de dados, cujo tamanho pode variar: o tamanho de uma parte de dados depende de dois fatores: velocidade de upload (uma nova parte de dados é formada a cada 5 minutos) ou limite de tamanho (1 GB). 

O upload de dados de backup por partes permite continuar o upload em caso de interrupção do backup: apenas a parte de dados inacabada é carregada novamente, todas as partes anteriores que foram carregadas com sucesso antes da rede ou qualquer outro problema de conexão já estão no armazenamento de backup e são válidas para restauração de dados.

Logo, uma pasta com 3 milhões de arquivos, pode se tornar apenas 100 arquivos, acelerando bastante a recuperação.

Neste novo formato, não armazenamos arquivo por arquivo, e sim blocos de dados.

O maior benefício é que o tempo de backup e de restauração reduz bastante, pois não é necessário enviar cada arquivo, e sim um bloco compactado de dados.

Desta maneira, é reduzido o número de requisições necessárias para fazer o backup, e otimizado o uso de banda do cliente.

Em contrapartida, ele funciona um pouco diferente do formato tradicional do backup.

No backup tradicional, precisamos fazer um backup full completo para enviar todos arquivos, e então enviamos apenas os novos arquivos, o que foi excluído, movido e alterado. Assim, fazemos um backup full e incremental para sempre.

No novo formato de backup, precisamos 1x por mês pelo menos fazer um backup full.

Conheça agora um resumo dos principais recursos deste novo formato de backup:

  • Política de retenção Grandfather-Father-Son (GFS): para arquivamento e compliance de dados;
  • Imutabilidade: para ser impossível excluir arquivos da nuvem, mesmo que hackers façam a engenharia reversa do WSpeed.
  • Deduplicação no lado do cliente: para não consumir espaço na nuvem de arquivos duplicados;
  • Consistency-Check: para validar se o backup está consistente;
  • Backup sintético: ao invés de fazer o backup full e subir todos arquivos é possível fazer o in-cloud copy, copiar direto nuvem-nuvem, reduzindo tempo dos próximos backups full;
  • Menor número de requisições;
  • O upload por partes permite o upload contínuo em caso de problemas de rede;
  • Suporte para quaisquer caracteres (emoji, 0xFFFF, etc) e nomes de arquivos extra-longos;
  • Criptografia de nome de arquivo em cada backup (e uma senha para geração);
  • Backup Full Real para backups em nível de arquivo;
  • Sincronização rápida: número reduzido de objetos no armazenamento de backup;
  • A configuração do plano é sempre incluída em um backup;
  • É feito backup dos logs de backup junto com os dados de backup;
  • O tamanho máximo do objeto agora é limitado a 256 TB (terabytes);
  • Limpeza rápida: número reduzido de objetos no armazenamento de backup, exclusão de todo o banco de dados de geração;
  • Backup e restauração mais rápidos para um grande número de arquivos pequenos;

Estes recursos são novos, e cada um deles merecia um artigo para detalhar o que faz.

No entanto, escolhemos os 3 principais para resumir e você ficar por dentro da mudança aqui mesmo neste artigo.

Primeiro, você precisa saber como muda a política de retenção na prática, quais são as novas terminologias deste novo formato e como ele funciona.

Depois, vamos te apresentar sobre a deduplicação de dados do lado do cliente e como isso permite economizar tempo e espaço na nuvem.
Por fim, você vai entender como funciona o backup sintético, e por mais que agora seja necessário fazer 1 backup full a cada mês, como esse recurso permite economizar tempo fazendo a cópia direto da nuvem (ao invés de subir novamente todos os seus dados).

Política de Retenção no Novo Formato de Backup

No formato de backup tradicional a política de retenção funciona a nível de arquivo (ex: manter 3 versões, nunca excluir da nuvem mesmo que seja excluído localmente).

Agora, essa política vale para cada conjunto de dados. E antes de explicar melhor, você precisa saber a terminologia.

O Plano de Backup: determina a configuração dos dados de backup enviados para um destino de backup. A configuração contém os parâmetros: quais dados entram no backup, criptografia, compressão, política de retenção e o agendamento.

O Bunch: é uma noção do plano de backup no banco de dados principal e está vinculado a um diretório no banco de dados que, por sua vez, está vinculado a uma pasta que quer fazer backup. A pasta pode ser modificada, já o Bunch é sempre único dentro da pasta da nuvem e do tipo de plano. Essa abordagem permite a exclusão confortável de dados no armazenamento em nuvem, pois todo o conteúdo de backup é armazenado em um diretório.

A Geração (ou Generation): é um conjunto completo de dados autocontido suficiente para restauração de dados. Em outras palavras, a geração é um conjunto de um backup completo e uma cadeia de backups incrementais para um plano de backup específico.

Ponto de Restauração: É um conjunto de dados parcial para restauração. Um ponto de restauração completo contém pelo menos um arquivo ou diretório. Se um ponto de restauração não contiver nenhum arquivo ou diretório, ele será considerado vazio, mas bem-sucedido poderá conter blocos para outras execuções subsequentes. Um ponto de restauração válido garante uma restauração correta dos dados de backup. Ao contrário, o ponto de restauração inválido não contém um conjunto de dados completo para restauração, mas ao mesmo tempo pode conter blocos que são usados ​​para restauração de outros pontos de restauração.

Ao navegar no WSpeed Backup, dentro de um plano de backup é assim que você vai ver a geração:

Novo Formato de Backup - A geração ou Generation

E se for configurado um plano de backup, para manter os backups por apenas 8 dias, e todo domingo você rodar um backup full, na verdade você não está mantendo seus arquivos apenas 8 dias na nuvem, está mantendo por mais tempo, pois os 8 dias se aplicam à Geração.

Imagine o seguinte exemplo:

Você configura um backup para rodar diariamente, e 1 backup full semanal.

Após 3 semanas, digamos no dia 22 de Maio d 2021, após a conclusão do backup incremental, a sua nuvem contém os seguintes dados:

Generation após 3 backups full - como e feito a limpeza

A geração 1 será removida. O período de retenção expirou para o último ponto de restauração nesta geração. Existe um ponto de restauração bem-sucedido dentro do período de retenção.

A geração 2 não será removida. O período de retenção não expirou para o último ponto de restauração nesta geração.

A geração 3 também não será removida. Esta é a geração atual. As gerações atuais não estão sujeitas a uma política de retenção.

Fez sentido para você?

Vamos para o próximo recurso.

Deduplicação de dados do lado do cliente

A deduplicação é uma abordagem que envolve o uso múltiplo das mesmas partes de dados em vários processos.

O novo formato de backup usa a deduplicação do lado do cliente. Essa abordagem traz os seguintes benefícios:

  • A deduplicação do lado do cliente é muito mais rápida em comparação com a deduplicação do servidor;
  • Ausência de problemas de conexão com a Internet;
  • Diminuição do tráfego da Internet;
  • Um banco de dados de deduplicação do servidor cresce constantemente e isso pode causar um aumento significativo de espaço. A deduplicação do lado do cliente usa apenas capacidades locais;

Como ele funciona na prática?

Independentemente do tipo de backup, o primeiro backup é sempre um backup completo. 

Trazendo uma rotina para um backup, um backup implica em atualizações de dados, portanto, os próximos trabalhos de backup geralmente são incrementais e dependem do backup completo e dos backups incrementais anteriores.

O formato de backup prevê uma independência total do plano de backup, portanto, cada plano de backup separado tem seu próprio banco de dados de deduplicação. 

Além disso, as gerações de planos de backup também têm seus próprios bancos de dados de deduplicação.

Depois que um plano de backup é executado, o aplicativo lê os dados de backup em lotes e determina o tamanho do bloco. Depois que um bloco é lido, ele é comparado com os registros do banco de dados de deduplicação. Se um bloco não for encontrado, ele será entregue ao armazenamento e será atribuído a um ID de bloco, que se tornará um novo registro do banco de dados de deduplicação. A varredura de bloco continua e, se um bloco corresponder a qualquer um dos registros do banco de dados de deduplicação, um bloco com tal ID será excluído de um plano de backup.

Essa abordagem diminui significativamente o tamanho do backup, especialmente em ambientes virtuais com um grande número de blocos idênticos. Se um banco de dados de deduplicação for excluído ou corrompido, um backup completo será sempre forçado.

Para o tipo de backup baseado em imagem, a abordagem é um pouco diferente. Em vez da leitura do cluster, uma Master File Table (MFT) é lida e o mecanismo verifica quais arquivos foram modificados. Isso diminui exponencialmente a leitura dos dados de origem.

Fez sentido para você?

Vamos agora para o último recurso.

Backup Full Sintético

O backup sintético é um tipo de backup que cria um backup completo usando a cópia de dados na nuvem.

O backup sintético é muito mais rápido devido a uma combinação de dois tipos de backup que oferece economia de tempo e tráfego de rede em backups completos. 

Essa combinação é uma cadeia de backup incremental sintético e cópia de dados em nuvem. Uma cópia de dados na nuvem implica que as peças são copiadas apenas no lado da nuvem, de modo que o tempo de backup pode ser significativamente menor em comparação com backups da mesma quantidade de dados do servidor para a nuvem.

Como Funciona?

O backup sintético consiste em três etapas. Esses estágios são os seguintes:

  • Um Backup Incremental. Esse backup incremental cria um novo ponto de restauração na geração atual de backups. Depois que um backup incremental sintético for concluído com êxito, todos os dados necessários para o backup completo sintético estarão no armazenamento de backup;
  • Cópia de dados na nuvem. À medida que um backup incremental sintético é concluído, uma nova geração é criada e os dados da geração anterior estão sendo copiados para uma nova, juntamente com os dados carregados no backup incremental sintético dentro do armazenamento em nuvem. 
  • Exclusão de dados incrementais sintéticos. Depois que uma cópia de dados em uma nuvem é concluída com êxito, os dados de backup incremental sintéticos são excluídos em uma geração de backup anterior e um backup sintético é considerado concluído e bem-sucedido;

Agora, a primeira pergunta que fica é: O que acontece se um backup sintético for interrompido por algum motivo?

Depende do momento em que é interrompido. Caso um backup incremental sintético tenha sido concluído com sucesso, mas a cópia na nuvem tenha sido interrompida por algum motivo (problemas de rede, por exemplo), uma nova geração será excluída e um backup incremental sintético bem-sucedido será considerado válido para a geração anterior. Se um backup incremental sintético falhar, isso será considerado uma falha de backup regular.

Se você deseja executar um backup sintético por conta própria:

  1. Selecione um plano de backup para o qual deseja executar um backup sintético completo e expanda-o.
  2. No Menu Executar , abra o menu suspenso.
  3. Clique em Forçar backup completo sintético.

E aí, gostou das novidades?

Comente abaixo o que chamou mais a sua atenção neste novo formato de backup que vamos responder você.

Até o próximo artigo.

Maurício Bento é o CEO da WSpeed. Ele aprendeu sobre backups da forma mais dura possível - perdendo dados quando jovem. Após trabalhar em grandes empresas como SAP e Walmart, ele aprendeu a se proteger e decidiu resgatar suas origens e ajudar os pequenos e médios empresários a protegerem seus dados da forma mais confiável possível.

DEIXAR UM COMENTÁRIO

Por favor digite seu comentário!
Por favor digite seu nome aqui