Blog

Resumo do Serviço de Interrupção (2021/05/03) e Planos de Capacidade

A Quad9 foi alvo de um ataque distribuído de negação de serviço (DDoS) que teve início a 3 de Maio, às 16:10 UTC, e que durou cerca de noventa minutos nos websites mais afetados. Ainda que o serviço não tenha sido afetado na maioria das nossas localizações (na maioria das cidades não houve qualquer interferência), utilizadores em algumas das maiores localizações POP na América do Norte e na Europa, e com menos impacto na Asia, podem ter verificado falhas na resolução de DNS, ou desempenho lento durante uma parte do tempo afetado.
Em suma, este ataque foi breve mas significativo e concentrou-se em algumas grandes cidades onde temos intensas interconexões com outras redes. A Quad9 já está a trabalhar para se expandir significativamente para tornar ataques deste género menos problemáticos no futuro, adicionando recursos nas cidades grandes e expandindo o número de localizações de onde recebemos pedidos DNS.

Contexto do Fluxo de Tráfico de Ataques DDoS

Como todas as grandes redes, a Quad9 interconeta com a restante internet através de “peering” (emparelhamento) na maioria das trocas de pacotes. Peering é a troca bilateral de tráfego entre a nossa rede e outras redes de internet, é o exemplo dos Fornecedores de Serviço Internet (ISP) que fornecem Internet de banda larga a utilizadores da Quad9. Quando um utilizador envia uma consulta aos servidores da Quad9, o ISP do utilizador escolhe um Ponto de Troca de Tráfego (PTT) e entrega-nos aí a consulta. Devolvemos-lhes a resposta, e o PTT encaminha-a para o utilizador. Muitos dos maiores ISPs têm interconexões dedicadas com a nossa rede em muitos PTTs, normalmente de dez a cem gigabits por segundo em cada localização.

Quad9-img-01.png

Num ataque distribuído de negação de serviço (DDoS), o atacante depende de máquinas “botted” (robotizadas), ou seja, computados que pertencem a utilizadores regulares que os usam nas suas casas e escritórios, mas que foram infectados com software malicioso que usa indevidamente a Internet de banda larga dos utilizadores para tráfego de ataque. Este tráfego de ataque concorre com o tráfego lícito, e se existe tráfego de ataque suficiente em relação ao tráfego lícito, os pacotes inválidos expulsam o tráfego lícito, e o ataque tem êxito ao negar o serviço aos utilizadores legítimos. (A Quad9 na verdade defende os utilizadores finais contra muitas das variantes deste tipo de ataques ao bloquear os servidores de comando e controlo de software malicioso, os quais permitem aos autores ou operadores destas redes DDoS executar os seus ataques, contudo não podemos obrigar ninguém a usar a Quad9, portanto ainda hoje muitos sistemas não estão protegidos e podem ser usados para gerar tráfego de ataque se forem infectados.)

Quad9-img-02.png

ISPs mais pequenos, e ISPs que não estão intensivamente a melhorar a sua infraestrutura, podem depender de portas partilhadas nos PTTs, ou podem depender de um fornecedor de trânsito de percurso mais longo para chegar às nossas redes. Nestes casos, as consultas de DNS lícitas que os utilizadores nos enviam podem ser misturadas com significantes volumes de tráfego de ataque antes de chegar aos congestionamentos condicionados. Nestes congestionamentos, pacotes lícitos são rejeitados juntamente com o tráfego de ataque na disputa para passar através da nossa rede.

Quad9-img-03.png

Este ataque em particular foi um ataque por reflexão ampliado, que utiliza as fraquezas de protocolos e servidores de pouca segurança para ampliar o tráfego de máquinas botted antes de atingirem a nossa rede. O motivo do ataque não é evidente, mas não é uma situação invulgar e por norma não é fácil determinar o motivo. Uma análise precoce indica que provavelmente foi usada amplificação CLDAP (Protocolo ligeiro de acesso a diretórios sem conexão), um tipo de ataque já bastante conhecido, mas que infelizmente permanece eficaz, sendo provavelmente combinado com outros métodos de amplificação de ataques. A nossa infraestrutura de encaminhamento e filtragem conseguiu absorver o tráfego onde este foi visto, para que nenhum tráfego de ataque chegasse aos nossos servidores reais, os quais não identificaram tráfico anormal durante o ataque, contudo a contenção nos congestionamentos de capacidade mais além na Internet e fora do nosso controlo significou que durante o ataque foi negado o acesso, de muitos utilizadores legítimos, a esses servidores.

A Quad9 está sob constante ataque a níveis baixos. Alguns destes ataques são ao nível do protocolo - pacotes de DNS inválidos, elevado volume de consultas para domínios ou anfitriões específicos, ataques “ping flood” (negação de serviço) ou tráfego que voluntária ou involuntariamente tenta causar a falha nos nossos sistemas e software, ou causar resultados inesperados contra terceiros. Estes são normalmente mitigados sem muitos incidentes, pois temos um grande número de localizações (aproximadamente 170), e a capacidade em cada localização é normalmente suficiente para suportar estes acontecimentos sem que os utilizadores legítimos se apercebam do problema. No entanto, os acontecimentos DDoS são cada vez mais desafiantes, com centenas e até milhares de gigabits por segundo de tráfego de ataque e, nas formas mais concentradas, alguns websites podem sofrer a perda de pacotes, enquanto outros continuam operacionais. Os padrões de tráfego de ataque mudam dependendo da origem do ataque, e a Quad9 está a explorar algumas formas para diminuir as possibilidades de um ataque causar interrupções.

Peering local, Peering Regular

A Internet funciona melhor como modelo de cooperação - operadores de rede e editores de conteúdo trabalham juntos para melhorar a experiência para os utilizadores finais. Para reduzir o impacto deste tipo de ataques, esperamos que os operadores de rede possam cooperar para construir uma Internet mais substancialmente interconetada.

Neste caso, os utilizadores que não foram afetados foram aqueles cujos servidores de Internet não estavam a alojar quantidades significativas de máquinas de reflexão CLDAP, e cujos ISPs estavam conetados diretamente a nós, usando interconexões de capacidade suficiente e que foram distribuídos através de uma geografia apropriada. Não cobramos por interconexão nem pelos nossos serviços, e todos são bem-vindos para se encontrarem em qualquer ponto de troca de internet partilhada pública e interconetar livremente com o nosso parceiro de peering PCH a 10gbps ou 100gbps. Fazendo isto, assim com, no maior número de localizações possíveis, está a ajudar a impedir que ocorram os ataques DDoS.

Em lugares como Frankfurt, vemos um significativo volume de tráfego de operadores em cujos países a Quad9 tem equipamento, mas muitos desses operadores não fazem peering com a Quad9 ou com os nossos parceiros de peering na sua própria nação. Vemos isto como uma oportunidade desperdiçada, e uma clara situação em que tais ausências de peering local causam fragilidade na rede de uma forma pouco óbvia à primeira vista. Não optar pelo peering local por parte de redes maiores deve-se muitas vezes ao abuso de uma posição dominante no mercado pelos operadores dentro do seu próprio país, e um convite aos reguladores nacionais de comunicações para intercederem e corrigirem esses abusos, sendo que na verdade ninguém quer uma Internet arquitetada por reguladores. Quando as interconexões são distribuídas ao máximo, os ataques DDoS como este tornam-se mais dissipados e menos concentrados.

Este caso foi um bom exemplo de como esta cooperação e distribuição podem melhorar o desempenho, mesmo sob condições adversas de ataque: as nossas localizações regionais e nacionais de TT (troca de tráfego) e as redes que se conetam a elas verificaram menos ou nenhuma interrupção devido ao excesso de tráfego DDoS, mas algumas localizações de “peering hub” (centros de peering) com volumes desordenadamente densos de redes interconetadas foram inundadas com tráfego. Pontos de acesso na rede são obviamente pontos de problemas concentrados durante um DDoS, e um peering mais alargado em localizações mais diversificadas ajudaria, em muitos casos, a aliviar estes problemas, ou pelo menos reduzir o número de utilizadores que verificariam os efeitos de um ataque.

Percebemos que o peering nem sempre é uma opção devido a regulamentos, custos, realidades políticas, e mesmo quando o peering é bem distribuído subsistem ainda congestionamentos em determinados modelos de interconexão, tais como, conexões “muito solicitadas” a fornecedores de alojamento de websites que podem estar a gerar descontroladamente grandes quantidades de tráfego de ataque, ou a redes que têm apenas uma presença muito localizada e poucas oportunidades de localizações de troca de tráfego com as quais se interconetar. Para contornar isto, estamos constantemente a trabalhar para encontrar formas de tornar a Quad9 mais robusta, mesmo onde outras redes têm dificuldade em interconetar directamente, ou onde a densidade é naturalmente elevada (ver abaixo), contudo, esperaríamos ver os operadores de rede a colaborem localmente - iria melhorar a experiência de base para todos os utilizadores, não somente para tráfego DNS da Quad9, mas para todos os destinos e origens do tráfego.

Como a Quad9 Trabalha para se Antecipar aos Ataques DDoS

Enquanto existem técnicas de mitigação que podem ser aplicadas a ataques DDoS volumétricos, uma defesa de sucesso é maioritariamente uma questão de ser-se suficientemente grande para continuar a manutenção de todos os pedidos lícitos, simultaneamente absorvendo e descartando o tráfego de ataque - “mais” é a única estratégia. Neste contexto, “mais” significa portas com mais capacidade, com mais localizações de troca de tráfego, com mais máquinas, e com mais fornecedores de trânsito e mais interconexões através de peering.

A Quad9 está a trabalhar para fornecer estas cinco soluções:

  • Nas nossas maiores cidades por volume de consulta, a Quad9 está a atualizar a capacidade das portas entre os nossos servidores e o nosso trânsito, e os colaboradores parceiros, bem como a instalar equipamento adicional.
  • A maioria das nossas maiores localizações já foram programadas tanto para atualizações de capacidade de servidor (~2x), como para atualizações de interconexão (~10x), ou ambas, nos próximos 30-60 dias.
  • O nosso parceiro de peering PCH anunciou recentemente a primeira de muitas atualizações de interconexão aumentando os circuitos de 10G para 100G nas localizações de troca de tráfego maiores, fornecendo mais capacidade a montante do nosso equipamento e permitindo que mais sessões de peering sejam estabelecidas em tráfegos de maior volume.
  • A Quad9 continua a expandir geograficamente e através de mais localizações de troca de tráfego: Nos dois últimos meses, o serviço foi ativado em 6 novas localizações, e temos outras 30 localizações que aguardam a implementação ou activação, mais ou menos nos próximos 60 dias, o que levará a Quad9 a mais de 200 localizações a nível mundial.
  • Temos vários anúncios pendentes sobre a expansão com novos patrocinadores de trânsito e peering, os quais irão reduzir significativamente a latência, adicionar capacidade de largura de banda e resistência a DDoS, assim como aumentar enormemente a área do nosso servidor, levando a que estas alterações sejam das mais importantes na nossa rede há já alguns anos - em breve teremos uma publicação sobre o assunto também no nosso blog. Se a sua rede ou empresa de alojamento tem uma presença multicontinental e uma estrutura de comunidade de BGP (protocolo de encaminhamento entre sistemas autónomos) robusto para trânsito de ASNs (Número de Sistema Autónomo), estaríamos muito interessados em discutir oportunidades de patrocínio que permitissem a continuação da expansão da Quad9.

Temos estado a prever tanto o crescimento da nossa base de clientes, mas também o crescimento deste género de ataques, contudo não existe nenhuma rede que seja completamente impermeável aos efeitos de DDoS. Podemos apenas esperar reduzir os impactos negativos, mas não podemos prevenir os ataques. Estamos a avançar com aquilo que julgamos serem as soluções de uma perspectiva a curto e também a longo prazo, por forma a anteciparmo-nos aos ataques e ao crescimento natural do tráfego DNS recursivo, mas os acontecimentos da semana passada, em algumas cidades, excederam a capacidade dos nossos recursos para fazer totalmente face a um ataque concentrado. A equipa da Quad9 está a trabalhar longas horas e a avançar consideravelmente de maneira a expandir a rede e o serviço, na expetativa de podermos antecipar estes problemas num futuro próximo.

O que pode fazer: Alternar Endereços Secundários da Quad9

Por forma a melhorar o desempenho no futuro, encorajamos todos os utilizadores dos serviços da Quad9 a ativar os nossos endereços secundários alternativos, em todos os serviços DNS da Quad9 que estiverem a ser usados. Ter os endereços primários e os alternativos permite aos resolvedores DNS de clientes alternar entre os endereços em caso de existir algum problema nas nossas redes, mesmo que esse problema seja muito localizado numa determinada cidade, fornecedor, ou até numa rede em casa que esteja com problemas. Esta resiliência integrada faz parte do protocolo DNS, mas necessita ser configurada para trabalhar corretamente. Se os vossos aparelhos ou rede estiverem a usar o 9.9.9.9, por favor certifiquem-se que o 149.112.112.112, bem como, o 2620:fe::fe também estão configurados na lista do resolvedor para quaisquer sistemas que usem a Quad9 para resolução DNS, visto isto poder tornar os problemas de rede menos evidentes. Veja a página completa dos nossos Endereços de Serviço.

Quer ajudar? Considere doar à Quad9 - somos uma organização sem fins lucrativos, cujo foco é a proteção da privacidade e a segurança dos utilizadores finais. O seu patrocínio vai direta e unicamente para estes objetivos. Contamos com a nossa comunidade de utilizadores para nos ajudarem a financiar atualizações que nos permitam melhorar o tempo de atividade, melhorar a segurança que fornecemos e manter a privacidade dos seus dados DNS.