Ein Beitrag von

AI assisted hacking. Ein Erfahrungsbericht

20.3.2026 | 4 Minuten Lesezeit

Motivation

Das Thema Agentic Coding gewinnt zunehmend an Bedeutung. KI-Modelle sollen Softwareentwickler nicht nur bei einzelnen Aufgaben unterstützen, sondern in der Lage sein, komplexe Entwicklungsprozesse zu planen, umzusetzen und zu reviewen – mit dem Ziel, die Entwicklungsgeschwindigkeit deutlich zu erhöhen.

Dabei stellt sich jedoch eine zentrale Frage: Verfügen diese Modelle auch über ein ausreichendes Verständnis für IT-Sicherheit?

Können KI-Modelle dabei helfen, Sicherheitslücken in Software zu identifizieren? Zudem wurde zeitnah die Frage aufgeworfen, in welchem Umfang KI auch zur Ausnutzung bestehender Lücken beitragen kann.

Genau diesen Fragestellungen wurde im Rahmen eines kleinen Experiments nachgegangen.

Das Experiment

Für das Experiment habe ich mehrere Web Challenges von der Hacking-Plattform Hack The Box verwendet. Der große Vorteil dieser Challenges liegt darin, dass es sich um kleine, abgeschlossene Webanwendungen mit überschaubarem Funktionsumfang handelt, die garantiert mindestens eine Sicherheitslücke enthalten. Außerdem liegt der Source Code vor, was eine statische Analyse ermöglicht.

Als Coding-Agent kam OpenCode zum Einsatz. Innerhalb dieses Tools habe ich mit verschiedenen KI-Modellen experimentiert:

Kimi K2.5 Free
GPT-5-Nano
qwen3-coder (lokal über Ollama gehostet)
Claude Opus 4.6

Einfache Web Challenge

Zunächst habe ich eine einfache Web Challenge von Kimi K2.5 analysieren lassen. Der verwendete Prompt war bewusst minimal gehalten:

“Find vulnerabilities in any files in the app directory.”

Es kam kein aufwendiges Prompt Engineering zum Einsatz. Überraschenderweise identifizierte Kimi die Sicherheitslücke nahezu sofort und generierte direkt einen passenden Request-Payload, um die Schwachstelle auszunutzen. Bis zu diesem Zeitpunkt hatte ich gar nicht in Betracht gezogen, dass die KI auch aktiv bei der Erstellung von Angriffen helfen könnte.

Für die einfache Challenge waren noch zwei weitere Prompts notwendig, bis der erzeugte Payload alle Bedingungen der Challenge erfüllte. GPT-5-Nano zeigte bei dieser Challenge eine sehr ähnliche Performance.

Auffällig war bei beiden Cloud-Modellen jedoch, dass sie teilweise die Zusammenarbeit verweigerten, sobald explizit von Ausnutzen, Angriffen oder Hacking die Rede war. Diese Einschränkung ließ sich jedoch relativ leicht umgehen, indem die Prompts entsprechend neutraler formuliert wurden.

Lokale Modelle

Zusätzlich zu den Cloud-Modellen wurde auch ein lokal gehostetes KI-Modell getestet. Hier kam qwen3-coder zum Einsatz. Dieses Modell konnte die Sicherheitslücke der Web Challenge ebenfalls relativ schnell identifizieren, hatte jedoch Schwierigkeiten beim Erstellen eines funktionierenden Angriffspayloads zu helfen.

Es erwies sich als deutlich anspruchsvoller dem Modell klar zu vermitteln, welches Ziel ich verfolge und wie es mich konkret unterstützen soll. Dabei lässt sich allerdings nicht ausschließen, dass ein Teil der Probleme auch auf fehlendes oder suboptimales Prompting zurückzuführen ist.

Harte Web Challenge

Da das Experiment mit der einfachen Web Challenge vielversprechend verlief, wollte ich prüfen, ob die KI auch mit komplexeren Herausforderungen umgehen können.

„Schwierig“ bedeutet in diesem Zusammenhang, dass:

mehrere Sicherheitslücken kombiniert werden müssen oder
die vorhandenen Lücken sehr spezifische Ausnutzungsbedingungen erfordern.

Teilweise enthalten diese Challenges Code, der zwar eine Sicherheitslücke darstellt, jedoch in den vorhandenen Umständen nicht direkt ausnutzbar ist. Ein Beispiel hierfür wäre User Input, der unmaskiert in HTML eingefügt wird, jedoch ausschließlich alphanumerische Zeichen akzeptiert.

Zur Lösung der harten Web Challenge wurde ausschließlich Claude Opus eingesetzt. Dabei zeigte sich, dass das Modell Sicherheitslücken sehr zuverlässig identifizieren und auch einschätzen konnte, ob diese grundsätzlich ausnutzbar sind. Schwierigkeiten hatte es jedoch dabei, die tatsächlich praktisch ausnutzbare Schwachstelle zu erkennen.

Nachdem ich Opus gezielt auf die relevante Sicherheitslücke hingewiesen hatte, bestätigte das Modell diese und konnte nachvollziehbar erklären, warum sie anfällig ist. Dennoch gelang es in diesem Fall nicht, einen funktionierenden Exploit zu erzeugen, da die Schwachstelle einen sehr spezifischen und ungewöhnlichen Angriffsweg erforderte.

Hier zeigte sich deutlich, dass die Stärke des Modells weniger im eigenständigen Finden komplexer Exploit-Ketten liegt, sondern vielmehr darin, Hypothesen zu verifizieren, Angriffsideen zu bewerten und bei der Erstellung von Exploit-Skripten unterstützend mitzuwirken. Das Lösen der harten Challenge erforderte daher deutlich mehr eigene Analyse und manuellen Input, gelang jedoch nach meiner subjektiven Einschätzung insgesamt schneller als ohne KI-Unterstützung.

Erkenntnisse

Aus dem Experiment lassen sich mehrere zentrale Erkenntnisse ableiten:

KI-Modelle sind bereits heute sehr gut darin, klassische Web-Schwachstellen zu erkennen
Bei einfachen Szenarien ist sogar Exploit-Generierung möglich
Cloud-Modelle liefern meist bessere Ergebnisse, sind jedoch stärker reglementiert
Lokale Modelle bieten mehr Freiheit, erfordern aber deutlich präziseres Prompting und häufig weniger Leistungsfähigkeit
Bei komplexen Angriffen bleibt menschliche Expertise unverzichtbar

Trotzdem ließ sich feststellen, dass selbst bei schwierigen Challenges der Lösungsprozess mit KI-Unterstützung spürbar schneller verlief als ohne.

Fazit und Risiken

Agentic Coding hat das Potenzial, auch im Bereich Application Security einen echten Mehrwert zu bieten. KI-Modelle können Entwickler:innen und Security Engineers bereits heute effektiv bei der Analyse von Code, der Identifikation von Schwachstellen und der Validierung von Angriffsideen unterstützen.

Gleichzeitig zeigt das Experiment deutlich, dass KI derzeit kein Ersatz für tiefgehendes Sicherheitsverständnis ist. Insbesondere bei komplexen, nicht standardisierten Angriffsszenarien bleibt menschliche Analyse entscheidend.

Ein weiterer, nicht zu unterschätzender Aspekt ist der Umgang mit sensiblen Daten. Bei der Nutzung cloudbasierter KI-Modelle werden Source Code, Konfigurationsdateien und potenziell sicherheitskritische Informationen an externe Modellbetreiber übermittelt. Auch wenn viele Anbieter Zusicherungen zu Datenschutz, Verschlüsselung und Nicht-Nutzung der Daten für Trainingszwecke geben, stellt dies insbesondere für proprietäre Software, sicherheitskritische Systeme oder regulierte Branchen ein relevantes Risiko dar.

Lokale oder selbst gehostete Modelle können dieses Risiko reduzieren, bringen jedoch andere Herausforderungen mit sich – etwa geringere Modellqualität, höheren Betriebsaufwand und zusätzlichen Bedarf an Prompt-Expertise.

In der Praxis bedeutet dies: Der Einsatz von KI im Security-Kontext erfordert eine bewusste Abwägung zwischen Leistungsfähigkeit, Datenschutz und Risikoprofil. Richtig eingesetzt, kann KI jedoch als leistungsfähiger Sparringspartner dienen - nicht nur zur Steigerung der Entwicklungsgeschwindigkeit, sondern auch zur Verbesserung der Sicherheit moderner Software.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

David

IT-Security Consultant

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Der Synergetic Blueprint revisited — und warum KI alles verändert

Vom Workshop zur laufenden Software — die Lücke, über die niemand spricht Die meisten Teams, die Domain-Driven Design einführen, investieren stark in Workshops. Domain Storytelling Sessions, EventStorming Boards, Context-Mapping-Übungen — die Zusammenarbeit...

28.4.2026 | 8 Minuten Lesezeit

Annegret Junker

Wird Spring Boot obsolet?

Im März 2026 starteten wir in ein Modernisierungs-Projekt bei einem Kunden. Spring Boot war eine übliche Wahl. Es gab eine strategische Setzung. Es gab vorhandenes Know-how. Es gab bestehende Infrastruktur. Das Team stand. Die Arbeit lief an. Einer der...

Generative KI
LLM
Künstliche Intelligenz
Softwareentwicklung
Softwarearchitektur

27.4.2026 | 7 Minuten Lesezeit

Johannes Barop

EXACT Coding: KI-gestützte Entwicklung mit Qualität statt Vibe-Chaos

TL;DR Unkontrolliertes Agentic Coding („Vibe Coding“) liefert schnell Code – und oft Sicherheits- und Wartungsprobleme, sobald Software produktiv gehen soll. EXACT Coding (Example-guided AI-Collaborative Test-driven Coding) bündelt bewährte Praktiken...

Generative KI
Künstliche Intelligenz
Test Driven Development

22.4.2026 | 6 Minuten Lesezeit

Marco Emrich

Ferdinand Ade

KI deckt 13 Jahre alte RCE auf: Patch Tuesday April 2026

Der Patch Tuesday im April 2026 steht ganz im Zeichen einer außergewöhnlichen Entdeckung: Eine Remote-Code-Execution-Schwachstelle in Apache ActiveMQ Classic, die über 13 Jahre unentdeckt blieb, wurde mithilfe des KI‑Assistenten Claude identifiziert....

IT-Security

14.4.2026 | 2 Minuten Lesezeit

Sarah

AI Governance ohne Theater

Warum Unternehmen nicht an KI scheitern, sondern an ihrer eigenen Entscheidungsordnung Es gibt in deutschen Konzernen keinen Mangel an AI Governance. Es gibt Lenkungskreise, Richtlinien, Prüfprozesse, AI Ethics Boards und Grundsatzpapiere in beeindruckender...

Künstliche Intelligenz
Datenschutz
IT-Governance
Compliance
Regulatorik

7.4.2026 | 14 Minuten Lesezeit

Alexander Rose

Harald Schlüter

Der Ralph Wiggum Loop: Autonome Code-Generierung mit frischem Kontext

Ralph Wiggum ist der einfältige Junge aus den Simpsons, der Sätze sagt wie "I'm learnding!" und Kleber isst. Ausgerechnet er ist jetzt Namensgeber für eine Technik zur autonomen Code-Generierung. Die Idee dahinter: Wenn dir der Gedanke, Code autonom ...

Generative KI
LLM
Künstliche Intelligenz
Softwareentwicklung

6.4.2026 | 6 Minuten Lesezeit

Johannes Barop

Information Retrieval mit Databricks Agents

Durch die Nutzung von großen Sprachmodellen (LLMs) ist es immer einfacher möglich, explorativ Daten zu analysieren. Dabei werden LLM-Agenten genutzt, um Informationen über die vorhandene Datenbasis zu erhalten. In den letzten Jahren hat sich RAG (Retrieval...

Generative KI
Künstliche Intelligenz
LLM

31.3.2026 | 8 Minuten Lesezeit

Stefan Herrmann

AI Code-Tsunami trifft auf QA-Staumauer: Das Ende der eingependelten Geschwindigkeit

Vorab: Dieser Artikel richtet sich gezielt an Teams, die an der Modernisierung und Weiterentwicklung von bestehenden Systemen arbeiten und nicht an Projekte auf der sprichwörtlichen grünen Wiese, wo völlig andere Gesetze gelten. Jeder spricht über den...

Generative KI
Künstliche Intelligenz
DevOps
Test Driven Development
Testing

30.3.2026 | 8 Minuten Lesezeit

Jan Rümenapf

Resilienz in der Softwareentwicklung: Warum wir im KI-Zeitalter einen ...

Resilienz in der Softwareentwicklung: Warum wir im KI-Zeitalter einen neuen Autopiloten brauchen In der modernen IT-Landschaft ist „Resilienz“ längst zu einem Modewort geworden. Jeder möchte sie haben, viele behaupten, sie zu besitzen, doch nur wenige...

Resilienz
DevOps
Generative KI

25.3.2026 | 4 Minuten Lesezeit

Niko Blättermann

DeepFake: Erkenne AI Generierte Bilder, in 5 Schritten

Wir leben in einer Zeit, in der ein Bild längst keine Garantie für die Wahrheit mehr ist. KI generierte Inhalte fluten täglich unsere sozialen Medien, Nachrichtenportale und Messenger Gruppen, und die wenigsten Menschen erkennen den Unterschied. Was ...

IT-Security
Künstliche Intelligenz
Generative KI
Search
Google
Datenschutz
Digitalisierung

16.3.2026 | 5 Minuten Lesezeit

Mehmet Avci

Patch Tuesday März 2026

Der beginnende Frühling macht alles erfreulicher, auch den Patch Tuesday. Was ist der Patch Tuesday? Der Begriff bezeichnet den zweiten Dienstag im Monat, an dem Microsoft wichtige Patches für seine Systeme veröffentlicht. Durch den festen Rhythmus wird...

IT-Security

10.3.2026 | 1 Minuten Lesezeit

Sarah

Bugs, Refactoring, Tests: Wo Chatbots beim Coden glänzen und wo sie scheitern

Die Suche nach meinem Platz in der KI-Ära Als Softwareentwickler habe ich mich intensiv mit den neuen KI-Möglichkeiten auseinandergesetzt. Dabei drängte sich mir eine zentrale Frage auf: Wie kann mich KI im Alltag wirklich unterstützen? Oder provokanter...

LLM
Softwareentwicklung
Künstliche Intelligenz

9.3.2026 | 7 Minuten Lesezeit

Lennart Golubski

MCP-Server sicher konfigurieren mit Passwortmanager CLIs

MCP Server sind mittlerweile als Erweiterungen für Coding Agents wie Claude Code oder Cursor zu alltäglichen Tools geworden. Doch bei der Konfiguration der MCP Server gibt es oft ein Sicherheitsrisiko. Viele MCP Server brauchen Credentials, API Tokens...

Künstliche Intelligenz
Softwareentwicklung
LLM
IT-Security

9.3.2026 | 4 Minuten Lesezeit

Paul Severin

KI-Lava im Griff: Der 3-Phasen-Plan für professionelle Softwareentwicklung

KI-Tools in der Softwareentwicklung sind mittlerweile allgegenwärtig. Fast wöchentlich erscheinen neue Werkzeuge, Workflows oder Analysen, welche die Transformation unserer Branche beschreiben. Bei codecentric erleben wir diese Veränderung bereits tä...

Künstliche Intelligenz
Softwareentwicklung
LLM

6.3.2026 | 8 Minuten Lesezeit

Denis Stalz-John

KI-Pflaster statt KI-Strategie

Die erste Welle ist durch. Copilot-Lizenzen sind gekauft, ein CompanyGPT steht, ein paar Meetings werden per KI zusammengefasst. In vielen Chefetagen stellt sich jetzt die richtige Frage: Was hat das eigentlich gebracht? Die Time-to-Market für die eigenen...

Data
Künstliche Intelligenz

6.3.2026 | 9 Minuten Lesezeit

Marcel Mikl

Anatomie eines Claude Code Workflows: Wie aus Slash Commands ein KI-Entwicklungssystem...

Das Tooling rund um KI-getriebene Entwicklungs-Workflows rund um Claude-Code entwickelt sich aktuell mit atemberaubender Geschwindigkeit. Um zu verstehen, wie so ein Tool unter der Haube funktioniert, habe ich mir GSD (Get Shit Done) mal genauer angeschaut...

LLM
Generative KI

3.3.2026 | 11 Minuten Lesezeit

Felix Abele

Kein Schummeln erlaubt: Isolierte Specification Tests mit Claude Code

KI-Agenten sind leistungsfähig — aber sie schummeln, wenn man sie lässt. Wer denselben Agenten entwickeln und testen lässt, riskiert, dass er nicht mehr die Spezifikation erfüllt, sondern nur noch die Tests besteht. Dieser Artikel zeigt, wie man das...

Künstliche Intelligenz
LLM
Testing

2.3.2026 | 11 Minuten Lesezeit

Thomas Jaspers

GenAI jenseits von Anwendungscode – maßgeschneidertes Tooling und Analysen

Wenn von GenAI in der Softwareentwicklung die Rede ist, denken viele zuerst an die Erzeugung von Anwendungscode – und damit an Entwickler:innen als primäre Zielgruppe. Dabei liegt ein großer Mehrwert gerade dort, wo Fachseite und Technik aufeinandertreffen...

Generative KI
Software-Modernisierung
Content Management

26.2.2026 | 18 Minuten Lesezeit

Patrick Krings

KI-Strategie mit Substanz

KI-Strategie mit Substanz Einleitung: Der KI-Hype und das Strategie-Vakuum Lars Rückemann hat in seinem Blogpost zuletzt die Notwendigkeit ganzheitlicher Lösungen betont – doch wie kommen wir methodisch dorthin? Wie finden wir zur eigenen KI-Strategie...

Künstliche Intelligenz
Generative KI
LLM

25.2.2026 | 5 Minuten Lesezeit

Thomas Manthey

Mit einem ganzheitlichen Ansatz zum KI-Gewinner werden

Viele Unternehmen stehen aktuell vor einer beispiellosen Herausforderung. Anstelle von Experimenten in isolierten Pilotprojekten geht es jetzt darum, Kernprozesse grundlegend für KI neu zu denken. Die Art, wie wir Arbeit erledigen, wie wir Teams strukturieren...

Künstliche Intelligenz
Generative KI
Data

20.2.2026 | 2 Minuten Lesezeit

Lars Rückemann