Blog

Zusammenfassung der Dienstunterbrechung (2021/05/03) und Kapazitätspläne

Quad9 war das Ziel eines verteilten Denial-of-Service-Angriffs, der am 3. Mai um 16:10 UTC begann und auf den am stärksten betroffenen Seiten etwa neunzig Minuten lang andauerte. Obwohl der Dienst an den meisten unserer Standorte nicht beeinträchtigt war (in den meisten Städten kam es zu keinerlei Unterbrechungen), konnten Quad9-Benutzer an einigen der grössten POP-Standorte in Nordamerika und Europa und in geringerem Masse auch in Asien einen hohen Prozentsatz an DNS-Auflösungsfehlern oder eine langsame Leistung für einen Teil oder die gesamte Zeit feststellen.

Zusammenfassend lässt sich feststellen, dass es sich um einen kurzen, aber schwerwiegenden Angriff handelte, der sich auf einige wenige Grossstädte konzentrierte, in denen wir über dichte Verbindungen zu anderen Netzwerken verfügen. Quad9 arbeitet bereits an einer deutlichen Erweiterung, um Angriffe wie diesen in Zukunft unproblematischer bewältigen zu können, sowohl durch zusätzliche Ressourcen in Grossstädten als auch durch die Erweiterung der Anzahl der Standorte, von denen aus wir DNS-Anfragen bedienen.

Hintergrund des Traffic-Flusses bei DDoS-Attacken

Wie alle grossen Netzwerke ist auch Quad9 für den Grossteil des Paketaustauschs über Peering mit dem Rest des Internets verbunden. Peering ist der bilaterale Austausch von Traffic zwischen unserem Netzwerk und anderen Internet-Netzwerken, z. B. denen der Internet Service Provider, die den Benutzern von Quad9 Internet-Bandbreite zur Verfügung stellen. Wenn ein Benutzer eine Abfrage an die Server von Quad9 sendet, wählt der ISP des Benutzers einen nahegelegenen Internet-Austauschpunkt („Internet Exchange Point“, IXP) und liefert die Abfrage dort an uns. Wir senden die Antwort an den ISP zurück, der sie dann an den Benutzer weiterleitet. Viele der grössten ISPs haben dedizierte Verbindungen mit unserem Netzwerk an vielen IXPs, normalerweise mit zehn bis hundert Gigabit pro Sekunde an jedem Standort.

Quad9-img-01.png

Bei einem DDoS-Angriff („Distributed Denial of Service“) stützt sich der Angreifer auf sogenannte „Botted“-Rechner, d. h. Computer, die normalen Benutzern zu Hause oder im Büro gehören, aber mit Malware infiziert sind, die die Internet-Bandbreite der Benutzer zweckentfremdet, um Angriffs-Traffic zu senden. Dieser Angriffs-Traffic konkurriert mit dem legitimen Traffic, und wenn es genug davon im Verhältnis zum legitimen Traffic gibt, verdrängen die ungültigen Pakete den legitimen Traffic, und der Angriff ist erfolgreich, indem er den legitimen Benutzern den Dienst verweigert. (Quad9 schützt Endanwender tatsächlich vor vielen Varianten dieser Angriffsarten, indem es die Malware-Befehls- und Kontrollserver blockiert, die es den Urhebern oder Betreibern dieser DDoS-Netzwerke ermöglichen, ihre Angriffe durchzuführen, aber wir können niemanden dazu zwingen, Quad9 zu verwenden, so dass auch heute noch die meisten Systeme ungeschützt sind und zur Generierung von Angriffs-Traffic verwendet werden können, wenn sie infiziert werden).

Quad9-img-02.png

Kleinere ISPs und ISPs, die ihre Infrastruktur nicht konsequent aufrüsten, sind möglicherweise auf gemeinsam genutzte Ports an den IXPs angewiesen oder benötigen einen Transitprovider mit längeren Wegen, um unsere Netzwerke zu erreichen. In diesen Fällen können die legitimen DNS-Abfragen, die Benutzer an uns senden, mit erheblichen Mengen an Angriffs-Traffic vermischt werden, bevor sie Engpässe erreichen. An diesen Engpässen werden legitime Pakete zusammen mit dem Traffic von Angreifern verworfen, wenn es darum geht, zu unserem Netzwerk durchzukommen.

Quad9-img-03.png

Bei diesem speziellen Angriff handelte es sich um einen volumetrischen Reflektionsangriff, der Schwachstellen in Protokollen und unzureichend gesicherte Server ausnutzt, um den Traffic von Botted-Rechnern zu verstärken, bevor er auf unser Netzwerk zielt. Es ist unklar, warum der Angriff gestartet wurde, aber das ist kein ungewöhnlicher Zustand und die Bestimmung der Absicht ist normalerweise nicht einfach. Eine frühe Analyse deutet darauf hin, dass möglicherweise CLDAP-Amplifikation verwendet wurde, eine Angriffsart, die gut verstanden wird, aber leider immer noch effektiv ist, möglicherweise in Kombination mit anderen Amplifikations-Angriffsmethoden. Unsere Routing- und Filterinfrastruktur war in der Lage, den Traffic dort zu absorbieren, wo er auftrat, so dass kein Traffic des Angriffs unsere eigentlichen Server erreichte, die während des Angriffs keinen ungewöhnlichen Traffic verzeichneten, aber die Überlastung von Kapazitätsengpässen, die weiter entfernt im Internet und ausserhalb unserer Kontrolle lagen, bedeutete, dass während des Angriffs vielen legitimen Benutzern der Zugriff auf diese Server verwehrt wurde.

Quad9 ist ständigen Angriffen auf niedriger Ebene ausgesetzt. Einige dieser Angriffe finden auf Protokollebene statt – missgebildete DNS-Pakete, grosse Mengen von Abfragen an bestimmte Domains oder Hosts, „Ping Flood“-Attacken oder Traffic, der absichtlich oder unabsichtlich versucht, unsere Systeme und Software zum Versagen zu bringen oder unerwartete Ergebnisse gegenüber Dritten zu verursachen. Diese werden in der Regel ohne grössere Zwischenfälle abgefangen, da wir eine grosse Anzahl von Standorten haben (etwa 170) und die Kapazität an jedem Standort normalerweise ausreicht, um diese Ereignisse ohne Probleme für legitime Kunden zu überstehen. Allerdings werden DDoS-Ereignisse mit Hunderten oder sogar Tausenden von Gigabit pro Sekunde an Angriffs-Traffic immer anspruchsvoller. In den konzentriertesten Formen kann es auf einigen Seiten zu Paketverlusten kommen, während andere in Betrieb bleiben. Die Muster des Angriffs-Traffics ändern sich je nach Ursprung des Angriffs, und es gibt einige Möglichkeiten, mit denen Quad9 die Wahrscheinlichkeit verringert, dass ein Angriff Ausfälle verursacht.

Peer Locally, Peer Often

Das Internet funktioniert am besten in einem kooperativen Modell – Netzwerkbetreiber und Content-Publisher arbeiten zusammen, um das Erlebnis für den Endbenutzer zu verbessern. Um die Auswirkungen dieser Art von Angriffen zu verringern, hoffen wir, dass Netzwerkbetreiber zusammenarbeiten, um ein besser vernetztes Internet aufzubauen.

In diesem Fall waren jene Benutzer nicht betroffen, deren Internet-Dienstanbieter keine signifikante Anzahl von CLDAP-Spiegelnden Maschinen hosten und deren ISPs direkt mit uns verbunden sind, indem sie Zusammenschaltungen mit ausreichender Kapazität nutzen, die über eine geeignete Fläche verteilt sind. Wir erheben keine Gebühren für die Zusammenschaltung oder für unsere Dienste, und jeder kann sich an jedem gemeinsam genutzten öffentlichen Internet-Austauschpunkt treffen und sich mit unserem Peering-Partner PCH mit 10 gbit/s oder 100 gbit/s frei zusammenschalten. Dies zu tun, und zwar an so vielen Standorten wie möglich, trägt dazu bei, dass DDoS-Angriffe keinen Erfolg haben

An Standorten wie Frankfurt sehen wir ein beträchtliches Traffic-Volumen von Betreibern, in deren Ländern Quad9 über Anlagen verfügt, aber viele dieser Betreiber betreiben kein Peering mit Quad9 oder unseren Peering-Partnern in ihrem eigenen Land. Wir sehen dies als eine verpasste Gelegenheit und als einen klaren Fall, in dem solche Versäumnisse beim lokalen Peering zu einer Fragilität des Netzwerks führen, die auf den ersten Blick nicht offensichtlich ist. Das Versäumnis des lokalen Peerings durch grössere Netzwerke geht auch oft einher mit dem Missbrauch einer marktbeherrschenden Stellung durch Betreiber im eigenen Land, was eine Einladung an die nationalen Kommunikationsregulierer zur Korrektur dieses Missbrauchs darstellt – niemand von uns will jedoch ein Internet, das vollständig von Regulierern gestaltet wird. Wenn die Zusammenschaltungen so weit wie möglich verteilt sind, werden DDoS-Angriffe wie dieser eher zerstreut als konzentriert.

Dieser Fall war ein gutes Beispiel dafür, wie diese Zusammenarbeit und Verteilung die Leistung auch unter ungünstigen Angriffsbedingungen verbessern kann: Unsere nationalen und regionalen IX-Standorte und die Netzwerke, die mit ihnen verbunden sind, sahen weniger oder keine Unterbrechungen aufgrund von DDoS-Traffic-Überlastung – einige „Peering-Hub“-Standorte mit übermässig dichten Mengen an miteinander verbundenen Netzwerken wurden dagegen mit Traffic überschwemmt. Hotspots im Netzwerk sind offensichtliche Punkte, an denen während eines DDoS-Angriffs Probleme auftreten, und ein breiteres Peering an verschiedenen Standorten würde in vielen Fällen dazu beitragen, diese Probleme zu lindern oder zumindest die Anzahl der Benutzer zu reduzieren, die die Auswirkungen eines Angriffs zu spüren bekommen.

Wir sind uns bewusst, dass Peering aufgrund von Richtlinien, Kosten oder politischen Gegebenheiten nicht immer eine Option ist, und selbst wenn Peering gut verteilt ist, gibt es immer noch Engpässe in bestimmten Zusammenschaltungsmodellen, wie z. B. sehr „heisse“ Verbindungen zu Webhosting-Providern, die möglicherweise unverhältnismässig grosse Mengen an Angriffs-Traffic generieren, oder Netzwerke, die nur sehr lokal vertreten sind und nur wenige IX-Standorte haben, an denen eine Zusammenschaltung möglich ist. Um dem entgegenzuwirken, arbeiten wir ständig an Wegen, Quad9 auch dort robuster zu machen, wo andere Netzwerke Schwierigkeiten haben, sich direkt zusammenzuschalten, oder wo die Dichte von Natur aus hoch ist (siehe unten). Gleichwohl würden wir uns wünschen, dass Netzwerkbetreiber sich lokal zusammenschliessen – dies verbessert das Erlebnis für alle Nutzer, nicht nur für Quad9-DNS-Traffic, sondern für alle Traffic-Ziele und -Ursprünge.

Wie Quad9 agiert, um DDoS-Angriffen einen Schritt voraus zu sein

Zwar gibt es Techniken zur Abschwächung volumetrischer DDoS-Angriffe, doch eine erfolgreiche Verteidigung besteht hauptsächlich darin, gross genug zu sein, um weiterhin alle legitimen Anfragen zu bedienen und gleichzeitig den Angriffs-Traffic aufzunehmen und zu verwerfen – es gibt keinen Ersatz für die „mehr“-Strategie. In diesem Zusammenhang bedeutet „mehr“ grössere Ports mit mehr Kapazität, an mehr IX-Standorten, mit mehr Maschinen und mit mehr Transit-Providern und mehr Peering-Verbindungen.

Quad9 arbeitet an der Bereitstellung aller fünf dieser Lösungen:

  • In unseren nach Abfragevolumen grössten Städten rüstet Quad9 die Portkapazität zwischen unseren Servern und unseren Transit- und Peering-Partnern auf und installiert zusätzliche Geräte.
  • Für die meisten unserer grössten Standorte sind in den nächsten 30-60 Tagen entweder signifikante Upgrades der Serverkapazität (~2x) oder Upgrades der Interconnects (~10x) oder beides geplant.
  • Unser Peering-Partner PCH hat vor kurzem das erste von vielen Interconnection-Upgrades angekündigt, bei denen an den grössten IX-Standorten von 10G- auf 100G-Schaltungen umgestellt wird, wodurch mehr Kapazität vor unseren Geräten zur Verfügung steht und mehr Peering-Sessions bei höherem Traffic-Volumen eingerichtet werden können.
  • Quad9 expandiert weiterhin sowohl geografisch als auch über weitere IX-Standorte: In den letzten zwei Monaten wurde der Dienst an sechs neuen Standorten aktiviert, und wir haben weitere 30 Standorte, die in den nächsten 60 Tagen eingerichtet oder aktiviert werden sollen, womit Quad9 an mehr als 200 Standorten weltweit verfügbar sein wird.
  • Wir haben mehrere Ankündigungen über die Expansion mit neuen Transit- und Peering-Fördermitteln, die die Latenz erheblich reduzieren, die Bandbreitenkapazität und DDoS-Resilienz erhöhen und unseren Server-Footprint massiv vergrössern werden. Diese werden die wichtigsten Änderungen in unserem Netzwerk seit mehreren Jahren sein – wir veröffentlichen dazu in Kürze auch einen Beitrag in unserem Blog. Wenn Ihr Netzwerk oder Ihre Hosting-Firma über eine multikontinentale Ausleuchtzone und eine robuste BGP-Community-Struktur für Transit-ASNs verfügt, wären wir sehr daran interessiert, Möglichkeiten für Fördermittel zu besprechen, die es Quad9 ermöglichen, weiter zu expandieren.

Wir haben sowohl mit einem Wachstum unseres Kundenstamms als auch mit einer Zunahme dieser Art von Angriffen gerechnet, aber es gibt kein Netzwerk, das vollständig von DDoS-Effekten isoliert ist. Wir können nur versuchen, die negativen Folgen zu reduzieren – die Angriffe selbst können wir nicht verhindern. Wir arbeiten sowohl auf kurze als auch auf lange Sicht an Lösungen, um den Angreifern und dem natürlichen Wachstum des rekursiven DNS-Traffics einen Schritt voraus zu sein, aber die Ereignisse der letzten Woche in einigen Städten überstiegen unsere Ressourcen, um einen konzentrierten Angriff zu bewältigen. Das Team hier bei Quad9 arbeitet hart an unserer Netzwerk- und Dienst-Erweiterung und wir hoffen, dass wir diesen Problemen in naher Zukunft einen Schritt voraus sein werden.

Was Sie tun können: Alternative sekundäre Quad9-Adressen

Um die Leistung in Zukunft zu verbessern, empfehlen wir allen Nutzern von Quad9-Diensten, unsere alternativen sekundären Adressen für alle Quad9-DNS-Dienste zu aktivieren, die verwendet werden. Sowohl die primäre als auch die alternative Adresse zu haben, ermöglicht es den DNS Resolvern der Clients, im Falle eines Problems mit einem der Netzwerke zwischen den Adressen umzuschalten, selbst wenn sich das Problem auf eine bestimmte Stadt, einen Provider oder sogar ein Heimnetzwerk beschränkt. Diese eingebaute Ausfallsicherheit ist Teil des DNS-Protokolls, muss aber konfiguriert werden, um korrekt zu funktionieren. Wenn Ihre Geräte oder Ihr Netzwerk 9.9.9.9 verwenden, stellen Sie bitte sicher, dass 149.112.112.112 sowie 2620:fe::fe ebenfalls in der Resolver-Liste für alle Systeme konfiguriert sind, die Quad9 für die DNS-Auflösung verwenden, da dies eventuelle zukünftige Netzwerkprobleme weniger auffällig machen kann. Eine vollständige Liste finden Sie auf unserer Seite Dienst-Adressen.

Möchten Sie helfen? Ziehen Sie eine Spende an Quad9 in Erwägung – wir sind eine gemeinnützige Organisation, deren Schwerpunkt auf dem Schutz der Privatsphäre und der Sicherheit von Endbenutzern liegt. Ihre Fördermittel fliessen direkt und ausschliesslich in diese Ziele. Wir sind darauf angewiesen, dass unsere Anwendergemeinschaft uns dabei hilft, Upgrades zu finanzieren, die uns dabei unterstützen, die Betriebszeit zu verbessern, die von uns gebotene Sicherheit zu erhöhen und den Datenschutz für Ihre DNS-Daten zu wahren.