Künstliche Intelligenz und IT-Sicherheit

Der alte Kampf mit neuen Waffen

Der einzige Trost beim Thema künstliche Intelligenz und Cybersicherheit? Dass auch die Angreifer nicht verstehen, wie die technologische Black Box KI genau funktioniert. Steve Rymell, Technikchef bei Airbus CyberSecurity, berichtet über die Notwendigkeit, künstliche Intelligenz auf dem Feld der IT-Sicherheit im Auge zu behalten – ohne ihr freilich einen Sonderstatus zuzuweisen.

Bild: ©Gorodenkoff/stock.adobe.com
Bild: ©Gorodenkoff/stock.adobe.com

Eines der auffälligsten Probleme der Cybersicherheitsbranche ist, dass Angreifer oft in der Lage sind, Verteidigern scheinbar mühelos einen Schritt voraus zu sein. Die grundsätzlichen Ursachen sind hier meist technischer Natur. Bestes Beispiel sind Software-Schwachstellen, die Cyberkriminelle in der Regel vor Anbietern und ihren Kunden aufdecken. Gegen dieses sogenannte Zero-Day-Phänomen bei vielen bekannten Cyberattacken sind selbst Sicherheitsexperten nahezu machtlos. Zudem machen Unternehmen, die mit der Komplexität neuer Technologien zu kämpfen haben, Fehler und lassen unbeabsichtigt gefährdete Ports und Services ungeschützt. Ein besonders drastisches Beispiel dafür sind Tools und Infrastrukturen, die Organisationen eigentlich dabei helfen sollten, sich zu verteidigen (z.B. Shodan, aber auch zahlreiche Pen-Test-Tools), mittlerweile aber genauso von Angreifern, die in Netzwerke eindringen, gegen Unternehmen eingesetzt werden können. Hinzu kommt, dass moderne Malware derart vielseitig auftreten kann, dass Angreifer fast unaufhaltsam erscheinen. So betonen selbst Sicherheitsanbieter zunehmend die Notwendigkeit, Angriffe nicht zu blockieren, sondern stattdessen so schnell wie möglich auf diese zu reagieren.

Der KI-Gegenangriff

Vor einigen Jahren gingen einige, meist in den USA ansässige, Startups mit einer mutigen neuen Idee zu einer Art Gegenangriff über – Machine-Learning-Security durch Algorithmen. Machine Learning (ML) wird hauptsächlich verwendet, um Daten zu kategorisieren, die mit Datenklassen übereinstimmen, die für das Training des ML-Algorithmus verwendet werden. Die Ansprüche an die KI im Cyberspace ist die Fähigkeit, Zero-Day-Malware oder Anomalien im Netzwerkverkehr zu erkennen. Dies ist ein Schritt weg von der Identifikation bereits bekannter Bedrohungen hin zum Versuch, das Unbekannte zu erkennen. Es handelt sich also um eine Weiterentwicklung der ML-Techniken, die es (in einigen Fällen) ermöglicht hat, die Raten von falsch-positiven und falsch-negativen Meldungen auf ein Niveau zu reduzieren, auf dem die Technologie nützlich sein kann. Große Unternehmen scannen möglicherweise Tausende von Dateien pro Tag, sodass selbst eine False-Positive-Rate von einigen Prozent in absoluten Zahlen ein Problem darstellen würde. Im Zeitalter von Big Data kann diese Herangehensweise durchaus sinnvoll sein, die Idee wurde deshalb auch von verschiedenen Systemen zur Bekämpfung von Spam, Malware-Erkennung, Bedrohungsanalyse und -aufklärung sowie zur Automatisierung des Security Operations Centre (SoC) aufgegriffen, wo sie auch dem Fachkräftemangel entgegenwirkt.

Kaum jemand versteht die Black Box

Bei allen Fortschritten wird dieser Ansatz von manchen auch als ultimatives Beispiel für Technologie als Black Box bezeichnet, die niemand wirklich versteht. Der Großteil der KI basiert auf maschinellem Lernen, das im Wesentlichen eine statistische Technik ist, die Ereignisse oberhalb einer bestimmten Schwelle meldet. Bei unüberwachtem Lernen (d.h. das System aktualisiert sich ständig in Abhängigkeit von den bisherigen Ergebnissen) gibt es nicht einmal die Garantie, für die gleiche Eingabe das gleiche Ergebnis zweimal zu erhalten, es ist also nicht deterministisch. Daher ist es schwierig, einen Benchmark zu schaffen, die Ergebnisse sind als Beweis nicht zulässig. Stattdessen ist zur Überprüfung der Ergebnisse immer eine weitere Analyse erforderlich. Woher wissen wir, dass Machine Learning in der Lage ist, neue und unbekannte Angriffstypen zu erkennen, die herkömmliche Systeme nicht erkennen? Weil die Produktbroschüre dies sagt? Wie bereits erwähnt, garantiert das Training eines ML-Systems mit bekannter Malware nicht, dass es neue auch erkennt. Tatsächlich wird es wahrscheinlich nur routinemäßige Varianten der Malware erkennen, für die das System geschult wurde. Einige ML-Systeme sind daher kaum besser als Heuristiken oder Analytic Use Cases, die als Skripte für bekannte bösartige Aktivitäten entwickelt wurden. ML sollte daher nur als eines der Werkzeuge in der Analysten-Toolbox und nicht als eine einzige magische Lösung verstanden werden. Tatsächlich können schlecht konstruierte Systeme mit hohen False-Positive-Raten die oft begrenzte Zeit von Analysten verschwenden. Und weiter: Was sollte Angreifer davon abhalten, das defensive ML mit einem noch besseren zu überlisten? Wenn dies auch nur in wenigen Fällen möglich wäre, stehen wir wieder komplett am Anfang. Das ist natürlich reine Spekulation, denn bisher konnte kein Einsatz von KI in einem Cyberangriff nachgewiesen werden. Unser Verständnis davon, wie es funktionieren könnte, basiert weitgehend auf akademischer Forschung wie IBMs Proof-of-Concept DeepLocker Malware Project.

Bösartiges Machine Learning

Diese Bedrohungs-Potenziale sollte man dennoch rechtzeitig in den Blick nehmen. Angreifer sind darauf angewiesen, schnell erkennen zu können, was funktioniert, etwa beim Versenden von Spam, Phishing und zunehmend auch politischer Desinformation. Es ist vorstellbar, dass Big-Data-Ansätze mit Unterstützung durch ML die Effizienz dieser Bedrohungen massiv steigern, zum Beispiel durch eine Analyse, wie die Ziele darauf reagieren und dies in Echtzeit teilen. Dies impliziert die Möglichkeit, dass solche Kampagnen in nicht allzu ferner Zukunft in wenigen Stunden oder Minuten weiterentwickelt werden könnten. Das zeitnahe Bekämpfen mit heutigen Technologien würde dann extrem schwer werden. Ein zweites Szenario wäre, dass Cyberkriminelle die Schutzmaßnahmen eines Ziels mit eigenem ML simulieren, um die Erfolgsaussichten verschiedener Angriffe zu messen. Diese Technik wird bereits routinemäßig zur Umgehung von Antivirenprogrammen eingesetzt. Auch hier wird der Vorteil genutzt, dass Angreifer immer das Ziel im Blick haben, während sich Verteidiger auf Schätzungen verlassen müssen. Und hochwahrscheinlich könnte ML auch einfach dazu verwendet werden, weit größere Mengen an neuer und individueller Malware als heute zu generieren. Welcher dieser oder anderer Ansätze auch immer gewählt wird: Es ist deutlich zu sehen, wie schwierig die Verteidigung selbst gegen relativ einfache ML-basierte Angriffe wäre. Dann bliebe als einziger Trost, dass die ML-basierte KI für Angreifer wie Verteidiger gleichermaßen eine Black Box ist. Dann verschwänden Angreifer ihre Zeit wenigstens mit Experimenten, sie zu verstehen.

Unbeabsichtigte Folgen

Trotzdem sollten wir uns gerade deswegen vor dem Blackbox-Effekt in Acht nehmen. Zum einen besteht bei ML-basierter Malware die Gefahr, dass sie Ungewolltes bewirkt, insbesondere beim Angriff auf kritische Infrastrukturen. Dieses Phänomen ist beispielsweise bei der Malware Stuxnet im Jahr 2010 und NotPetya im Jahr 2017 aufgetreten, ganz ohne KI. In beiden Fällen wurden Tausende von Organisationen infiziert, die nicht auf der ursprünglichen Zielliste standen, nachdem sich die Malware unkontrolliert verbreitet hatte. Wenn Schadsoftware gleich mehrere Zero Day Exploits nutzt, gibt es kaum Chancen, sie wirksam einzugrenzen. Nach der Veröffentlichung bleibt diese Art von Malware pathogen gefährlich, bis jedes System, das sie infizieren könnte, gepatcht oder offline genommen wird, was Jahre oder Jahrzehnte dauern kann. Da Fachwissen zum Verständnis von ML bislang sehr rar ist, besteht zudem die Gefahr, dass sich Sicherheitsexperten darauf verlassen, ohne die Grenzen des Ansatzes vollständig zu verstehen. Dies betrifft sowohl die Verteidigungsmöglichkeiten, als auch eine Überschätzung von Angriffspotentialen. Das könnte dazu führen, dass zu viel an falscher Stelle investiert und Marketingversprechen geglaubt werden, die am Ende Ressourcen verbrauchen, die an anderer Stelle mehr geholfen hätten. Eine realistischere Bewertung könnte ML dagegen als weiteres Werkzeug einstufen, das gut darin ist, bestimmte sehr spezifische Probleme zu lösen. Ein gut entwickeltes ML-System, das auf einem umfangreichen und vielfältigen Datensatz basiert, kann ein nützliches Werkzeug sein, um neue Varianten von Malware zu erkennen, z.B. neue Zero-Day-Angriffe und Anomalien im Netzwerkverkehr. Es kann eine Reduzierung der Notwendigkeit der Entwicklung von Use-Case-Skripten ermöglichen, die im SIEM (Security Information and Event Management) ausgeführt werden, um bekannte bösartige Aktivitäten zu erkennen. Seinen Hauptnutzen könnte es jedoch als Screening-Tool haben, um offensichtliche Störungen des Datenverkehrs zu eliminieren, so wie es Antivirenprogramme heute tun. Andere Tools oder Analytiker haben damit die Möglichkeit, sich auf andere Aufgaben konzentrieren zu können.

Fazit

Die zunächst widersprüchlich klingende Schlussfolgerung ist, dass ML und KI vielleicht überhaupt keinen grundlegenden Unterschied machen. Sie stellen lediglich eine weitere Station in der Entwicklung der Computersicherheit seit Beginn der digitalen Zeitrechnung dar. Hier müssen Vorurteile abgebaut werden, was diese bewirken können. Vor allem müssen wir die Tendenz überwinden, ML und KI als geheimnisvoll anders zu betrachten, weil wir sie nicht verstehen und es daher schwierig finden, das Konzept von Maschinen, die komplexe Entscheidungen treffen, zu akzeptieren. Auch mit der heutigen Pre-ML-Technologie sind Angreifer bereits in der Lage, tief in Netzwerke einzudringen. Auch heute werden sie dabei bereits von gut vorbereiteten Verteidigern regelmäßig mit der gleichen Technologie aufgehalten. Das erinnert alles daran, dass letztlich zählt, wie Organisationen verteidigt werden – und nicht wogegen.