Bugs, Refactoring, Tests: Wo Chatbots beim Coden glänzen und wo sie scheitern

9.3.2026 | 6 Minuten Lesezeit

Die Suche nach meinem Platz in der KI-Ära

Als Softwareentwickler habe ich mich intensiv mit den neuen KI-Möglichkeiten auseinandergesetzt. Dabei drängte sich mir eine zentrale Frage auf: Wie kann mich KI im Alltag wirklich unterstützen?

Oder provokanter formuliert: Was muss ich lernen, um die KI zu steuern, statt von ihr ersetzt zu werden?

Genau darum geht es in dieser dreiteiligen Serie: Ich nehme dich mit auf meine Reise – von den ersten Chatbot-Versuchen hin zu autonomen Agenten. Im ersten Teil dieser Serie zeige ich, warum Chatbots oft exzellente Refactoring-Partner sind, als Code-Generator beim Schreiben neuer Business-Logik aber schnell an ihre Grenzen stoßen.

Wie funktioniert ein Chatbot eigentlich?

Um herauszufinden, wie uns ein Chatbot wie ChatGPT beim Coden unterstützen kann, müssen wir zunächst die grundsätzliche Funktionsweise verstehen.

Ein Large Language Model (LLM) ist im Grunde eine gigantische Wahrscheinlichkeitsmaschine. Zwar basiert es auf riesigen Textmengen aus dem Training, es besitzt aber kein echtes Verständnis von Logik oder Wahrheit.

Das Prinzip: Token für Token

Die Funktionsweise ist simpel: Das Modell sagt basierend auf dem bisherigen Text das statistisch wahrscheinlichste nächste Token (Wort oder Wortteil) voraus. So generiert es Stück für Stück eine kohärente Antwort.

Das Diagramm beschreibt den typischen Flow, der oft missverstanden wird:

Der User gibt einen Prompt ein (z.B. "Wie wird morgen das Wetter?")
Das Orchestrierungssystem (z.B. ChatGPT, Claude) verarbeitet die Eingabe
Das System reichert den Prompt nun massiv an:
- Kontext:
  - Die bisherige Konversationshistorie mit Fragen & Antworten (z.B. "Ich wohne in Leipzig")
  - Zusätzliche Daten wie Web-Such-Ergebnisse oder hochgeladene Dateien
- User-Prompt: Die eigentliche Nutzereingabe ("Wie wird morgen das Wetter?")
- Systemeingaben:
  - Basis-Instruktionen (z.B. "Heutiges Datum ist 2026-03-09")
  - Spezifische Instruktionen (z.B. "Der Nutzer kommuniziert auf Deutsch. Antworte auf Deutsch")
LLM (z.B. GPT-5.2) erhält dieses riesige Textpaket und generiert daraufhin die Antwort

Wichtig zu verstehen: Das LLM selbst ist zustandslos. Es weiß nicht, was wir vor fünf Minuten geschrieben haben. Das Orchestrierungssystem muss ihm jedes Mal die komplette Historie erneut mitsenden. Es gibt technisch keine Trennung – für das Modell ist alles ein einziger langer Text.

Wie greift das LLM auf aktuelle Informationen zu?

Das Modell kennt die Wettervorhersage von morgen nicht, weil diese nicht in den Trainingsdaten steckt. Trotzdem kann ChatGPT dir das Wetter von morgen sagen.

Der Trick ist die Tool-Definition: Im System-Prompt teilt das Orchestrierungssystem dem LLM mit, welche Werkzeuge (z.B. eine Websuche) bereitstehen. Wenn das LLM merkt, dass es die Antwort nicht weiß, generiert es keinen Text für den Nutzer, sondern einen Funktionsaufruf (Function Call).

Das Orchestrierungssystem führt diesen Befehl aus (sucht also im Web nach den Wettervorhersagen für Leipzig) und übergibt das Suchergebnis in einem neuen Request an das LLM. Erst jetzt – mit den Fakten im Kontext – formuliert das Modell die finale Antwort.

Was passiert, wenn der Prompt zu groß wird?

Bei langen Chat-Historien stoßen wir an das Kontext-Limit (Context Window). Das Orchestrierungssystem muss hier Platz schaffen.

Eine gängige Methode ist das Context Compacting: Das System fasst im Hintergrund ältere Nachrichten zusammen oder entfernt weniger relevante Details. Für das LLM sieht es so aus, als hätten wir eine kurze Zusammenfassung unseres bisherigen Gesprächs geliefert, statt des kompletten Transkripts.

Chatbot-gestütztes Coden: Meine Erfahrungen

Im Kern konzentriert sich meine Arbeit mit Chatbots auf vier Use Cases:

Bugs fixen
Refactoring von bestehendem Code
Tests zur Implementierung generieren
Neuen Code generieren

Das Vorgehen ist dabei immer ähnlich: Ich kopiere ausgewählten Quellcode in den Chat und erhalte verbesserten oder neuen Code als Antwort.

1. Bugs fixen

Es fühlt sich an wie eine Weiterentwicklung von Plattformen wie Stack Overflow. Im Grunde ist der Chatbot das neue Googlen – nur effizienter.

Auf Stack Overflow musste ich mein konkretes Problem oft mühsam abstrahieren, um eine passende Antwort zu finden. Diese kognitive Last nimmt mir die KI ab: Ich poste den konkreten Fehler samt Code, und sie transferiert die Lösung direkt auf meinen Kontext.

Sind die Lösungen dabei immer richtig? Nein. Zwar bietet Stack Overflow durch die bewerteten Antworten eine gewisse Sicherheit, dass der Code zumindest bei jemandem schon einmal funktioniert hat – diese Garantie fehlt bei der KI völlig. Der entscheidende Unterschied im Alltag ist für mich aber: Ich verbringe meine Zeit nicht mehr mit der Suche und Adaption, sondern investiere sie direkt in die kritische Bewertung und das Review des maßgeschneiderten KI-Vorschlags.

2. Refactoring von bestehendem Code

Wenn ich mich tief im Detail bewege – also auf Methoden- oder Klassenebene – ist die KI ein exzellenter Sparringspartner. Das gilt für zwei Szenarien:

Legacy-Code verstehen: Wenn ich alten Code lese, den ich nicht (mehr) verstehe, lasse ich ihn mir erklären und im Anschluss lesbarer umschreiben. Aber Vorsicht: Da dem LLM das tiefe Verständnis für unsere Fachlichkeit fehlt, muss ich seine Erklärungen kritisch hinterfragen. Wenn ich die Business-Logik selbst nicht kenne, ist es extrem schwer, ein "ratendes" LLM vernünftig zu reviewen.
Neuen Code polieren: Auch bei frischem Code hilft der Chatbot, die Lesbarkeit und Wartbarkeit zu erhöhen.

Mein Tipp: Ich fordere oft explizit mehrere Lösungsvarianten an (z.B. "Mach es funktionaler" oder "Optimiere auf Performance"). Am Ende wähle ich diejenige aus, die am besten zur bestehenden Codebase passt. Hier bin ich der Reviewer, die KI der Coding-Assistent.

3. Tests zur Implementierung generieren

Das klingt nach der Wunschvorstellung vieler Entwickler: Ich schreibe die Business-Logik, der Chatbot liefert die passenden Tests.

Doch hier liegt eine Falle: Kennt die KI nur meine Implementierung, schreibt sie Tests, die diese Logik lediglich spiegeln. Echte Bugs oder Denkfehler fallen so nicht auf, da der Test denselben Fehler macht wie der Code. Das Ergebnis sind oft viele kleinteilige Tests, die zwar "grün" sind (oder auch nicht), aber keine fachliche Korrektheit garantieren.

Meine Strategie: Ich drehe den Spieß um. Das Test-Setup und den ersten, kritischen Test-Case schreibe ich selbst – das setzt den Qualitätsstandard. Die weiteren Szenarien erarbeite ich oft im Dialog mit dem Chatbot, bevor er die Fleißarbeit der Ausformulierung übernimmt. Doch Vorsicht: Das Review bleibt Pflicht. Blindes Vertrauen führt zu grünen Tests, aber fehlerhaftem Produktionscode.

4. Neuen Code generieren

Während das Polieren von Code gut funktioniert, ist das Generieren von gänzlich neuem Code oft frustrierend. Hier zeigt sich: Der KI fehlt das tiefe Verständnis für die Fachlichkeit und die Architektur meiner Anwendung.

Das Problem: Der generierte Code passt oft nicht in die bestehende Codebase. Ich muss im Prompt extrem tief ins Detail gehen, damit sich das Ergebnis zuverlässig verhält.

Ein konkretes Beispiel aus meinem Alltag: Wenn ich moderne UI-Komponenten generieren lasse, greift der Chatbot standardmäßig auf veraltete Paradigmen zurück, statt die aktuellen Standards unseres Teams zu nutzen. Zudem flutet er den Quelltext mit trivialen Kommentaren („Variable X wird gesetzt“), die den Code unnötig aufblähen.

Mein Fazit hier: Oft bin ich schneller, wenn ich den Code selbst schreibe, statt die KI-Lösung mühsam zu debuggen und zu bereinigen.

Licht und Schatten: Ein Zwischenfazit

Die Arbeit mit KI-Chatbots ist in dieser ersten Ausbaustufe noch stark von manueller Arbeit geprägt. Der Workflow besteht oft aus „Copy-Paste“, um Kontext zu liefern und die Ergebnisse dann in die IDE zurückzuführen.

Die Effizienzsteigerung findet hier vor allem im Mikrokosmos statt: Wenn ich mich innerhalb einer Methode oder Klasse bewege, ist der Support exzellent. Der Chatbot nimmt mir Tipparbeit ab und liefert Syntax-Beispiele.

Aber: Das große Ganze – die Architektur und die Fachlichkeit – liegt weiterhin zu 100 % bei mir. Der Chatbot überblickt die Zusammenhänge nicht. Ich werde (noch) nicht zum reinen Reviewer, sondern bleibe Coder, der sich für Detailfragen einen sehr schnellen Assistenten an die Seite holt. Die Hauptlast der Entwicklung und des „Zusammenfügens“ trage ich weiterhin selbst.

Ausblick

Wir haben gesehen, dass der Chatbot ein mächtiges Werkzeug ist, aber durch die Zustandslosigkeit und das ständige Kontext-Hopping auch mühsam zu bedienen sein kann.

Das wirft die Frage für den nächsten Teil auf: Lässt sich dieser manuelle „Copy-Paste-Wahnsinn“ automatisieren? Können Tools den Kontext unserer Codebase vielleicht selbstständig verstehen, ohne dass wir ihn füttern müssen?

In Teil 2: Agentic Vibecoding untersuche ich, ob ein autonomer Agent diesen manuellen Aufwand eliminieren kann – oder ob es problematisch sein kann, wenn wir uns für unseren eigenen Code nicht mehr interessieren.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Lennart Golubski

IT Consultant & Developer

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Starte deinen KI-Deep Dive

WORKSHOP

Hands-on Workshop: Von Chatbot zu KI-Agent mit GPT & RAG

Lerne, wie du mit GPT, RAG und Agentensystemen einen autonomen KI-Agenten entwickelst – praxisnah und direkt im Code!

online oder inhouse

Generative KI
LLM
Künstliche Intelligenz

Illustration einer künstlichen Intelligenz, einem Laptop, Kopfhörer daneben und einem Hypnobild auf dem Bildschirm

WEBINAR on demand

Wenn die KI halluziniert: Wie du mit falschen Antworten von LLMs richtig umgehst

Erfahre im Webinar, warum LLMs falsche Antworten liefern, wie du mit Prompt-Design und Guardrails gegensteuerst und deine KI-Anwendungen optimierst.

on demand

Generative KI
Künstliche Intelligenz

Marcus Hanhart

Foto eines Notebooks, aus dem Daten und Linien zu kommen scheinen

Künstliche Intelligenz

Künstliche Intelligenz (KI) ist nicht nur ein Trend, sondern ein entscheidender Faktor für den Unternehmenserfolg. Nutze das volle Potenzial deiner Daten durch einen strategischen und zielgerichteten KI-Einsatz.

Der Synergetic Blueprint revisited — und warum KI alles verändert

Vom Workshop zur laufenden Software — die Lücke, über die niemand spricht Die meisten Teams, die Domain-Driven Design einführen, investieren stark in Workshops. Domain Storytelling Sessions, EventStorming Boards, Context-Mapping-Übungen — die Zusammenarbeit...

28.4.2026 | 8 Minuten Lesezeit

Annegret Junker

EXACT Coding: KI-gestützte Entwicklung mit Qualität statt Vibe-Chaos

TL;DR Unkontrolliertes Agentic Coding („Vibe Coding“) liefert schnell Code – und oft Sicherheits- und Wartungsprobleme, sobald Software produktiv gehen soll. EXACT Coding (Example-guided AI-Collaborative Test-driven Coding) bündelt bewährte Praktiken...

Generative KI
Künstliche Intelligenz
Test Driven Development

22.4.2026 | 6 Minuten Lesezeit

Marco Emrich

Ferdinand Ade

AI Governance ohne Theater

Warum Unternehmen nicht an KI scheitern, sondern an ihrer eigenen Entscheidungsordnung Es gibt in deutschen Konzernen keinen Mangel an AI Governance. Es gibt Lenkungskreise, Richtlinien, Prüfprozesse, AI Ethics Boards und Grundsatzpapiere in beeindruckender...

Künstliche Intelligenz
Datenschutz
IT-Governance
Compliance
Regulatorik

7.4.2026 | 14 Minuten Lesezeit

Alexander Rose

Harald Schlüter

Der Ralph Wiggum Loop: Autonome Code-Generierung mit frischem Kontext

Ralph Wiggum ist der einfältige Junge aus den Simpsons, der Sätze sagt wie "I'm learnding!" und Kleber isst. Ausgerechnet er ist jetzt Namensgeber für eine Technik zur autonomen Code-Generierung. Die Idee dahinter: Wenn dir der Gedanke, Code autonom ...

Generative KI
LLM
Künstliche Intelligenz
Softwareentwicklung

6.4.2026 | 6 Minuten Lesezeit

Johannes Barop

Information Retrieval mit Databricks Agents

Durch die Nutzung von großen Sprachmodellen (LLMs) ist es immer einfacher möglich, explorativ Daten zu analysieren. Dabei werden LLM-Agenten genutzt, um Informationen über die vorhandene Datenbasis zu erhalten. In den letzten Jahren hat sich RAG (Retrieval...

Generative KI
Künstliche Intelligenz
LLM

31.3.2026 | 8 Minuten Lesezeit

Stefan Herrmann

AI Code-Tsunami trifft auf QA-Staumauer: Das Ende der eingependelten Geschwindigkeit

Vorab: Dieser Artikel richtet sich gezielt an Teams, die an der Modernisierung und Weiterentwicklung von bestehenden Systemen arbeiten und nicht an Projekte auf der sprichwörtlichen grünen Wiese, wo völlig andere Gesetze gelten. Jeder spricht über den...

Generative KI
Künstliche Intelligenz
DevOps
Test Driven Development
Testing

30.3.2026 | 8 Minuten Lesezeit

Jan Rümenapf

AI assisted hacking. Ein Erfahrungsbericht

Motivation Das Thema Agentic Coding gewinnt zunehmend an Bedeutung. KI-Modelle sollen Softwareentwickler nicht nur bei einzelnen Aufgaben unterstützen, sondern in der Lage sein, komplexe Entwicklungsprozesse zu planen, umzusetzen und zu reviewen – mit...

IT-Security
Generative KI
LLM
Künstliche Intelligenz

20.3.2026 | 5 Minuten Lesezeit

David

DeepFake: Erkenne AI Generierte Bilder, in 5 Schritten

Wir leben in einer Zeit, in der ein Bild längst keine Garantie für die Wahrheit mehr ist. KI generierte Inhalte fluten täglich unsere sozialen Medien, Nachrichtenportale und Messenger Gruppen, und die wenigsten Menschen erkennen den Unterschied. Was ...

IT-Security
Künstliche Intelligenz
Generative KI
Search
Google
Datenschutz
Digitalisierung

16.3.2026 | 5 Minuten Lesezeit

Mehmet Avci

MCP-Server sicher konfigurieren mit Passwortmanager CLIs

MCP Server sind mittlerweile als Erweiterungen für Coding Agents wie Claude Code oder Cursor zu alltäglichen Tools geworden. Doch bei der Konfiguration der MCP Server gibt es oft ein Sicherheitsrisiko. Viele MCP Server brauchen Credentials, API Tokens...

Künstliche Intelligenz
Softwareentwicklung
LLM
IT-Security

9.3.2026 | 4 Minuten Lesezeit

Paul Severin

KI-Lava im Griff: Der 3-Phasen-Plan für professionelle Softwareentwicklung

KI-Tools in der Softwareentwicklung sind mittlerweile allgegenwärtig. Fast wöchentlich erscheinen neue Werkzeuge, Workflows oder Analysen, welche die Transformation unserer Branche beschreiben. Bei codecentric erleben wir diese Veränderung bereits tä...

Künstliche Intelligenz
Softwareentwicklung
LLM

6.3.2026 | 8 Minuten Lesezeit

Denis Stalz-John

KI-Pflaster statt KI-Strategie

Die erste Welle ist durch. Copilot-Lizenzen sind gekauft, ein CompanyGPT steht, ein paar Meetings werden per KI zusammengefasst. In vielen Chefetagen stellt sich jetzt die richtige Frage: Was hat das eigentlich gebracht? Die Time-to-Market für die eigenen...

Data
Künstliche Intelligenz

6.3.2026 | 9 Minuten Lesezeit

Marcel Mikl

Narwhals: DataFrame-Agnostic Libraries ohne Dependencies Bauen

Nach der Veröffentlichung unseres Artikels über Ibis wies uns Dr. André Schemaitat auf ein ähnliches Tool mit wachsender Beliebtheit hin – Narwhals. Narwhals beschreibt sich selbst als eine „extrem leichtgewichtige und erweiterbare Kompatibilitätsschicht...

Data
Python
Softwareentwicklung

3.3.2026 | 11 Minuten Lesezeit

Niklas Niggemann

Anatomie eines Claude Code Workflows: Wie aus Slash Commands ein KI-Entwicklungssystem...

Das Tooling rund um KI-getriebene Entwicklungs-Workflows rund um Claude-Code entwickelt sich aktuell mit atemberaubender Geschwindigkeit. Um zu verstehen, wie so ein Tool unter der Haube funktioniert, habe ich mir GSD (Get Shit Done) mal genauer angeschaut...

LLM
Generative KI

3.3.2026 | 11 Minuten Lesezeit

Felix Abele

Kein Schummeln erlaubt: Isolierte Specification Tests mit Claude Code

KI-Agenten sind leistungsfähig — aber sie schummeln, wenn man sie lässt. Wer denselben Agenten entwickeln und testen lässt, riskiert, dass er nicht mehr die Spezifikation erfüllt, sondern nur noch die Tests besteht. Dieser Artikel zeigt, wie man das...

Künstliche Intelligenz
LLM
Testing

2.3.2026 | 11 Minuten Lesezeit

Thomas Jaspers

KI-Strategie mit Substanz

KI-Strategie mit Substanz Einleitung: Der KI-Hype und das Strategie-Vakuum Lars Rückemann hat in seinem Blogpost zuletzt die Notwendigkeit ganzheitlicher Lösungen betont – doch wie kommen wir methodisch dorthin? Wie finden wir zur eigenen KI-Strategie...

Künstliche Intelligenz
Generative KI
LLM

25.2.2026 | 5 Minuten Lesezeit

Thomas Manthey

Mit einem ganzheitlichen Ansatz zum KI-Gewinner werden

Viele Unternehmen stehen aktuell vor einer beispiellosen Herausforderung. Anstelle von Experimenten in isolierten Pilotprojekten geht es jetzt darum, Kernprozesse grundlegend für KI neu zu denken. Die Art, wie wir Arbeit erledigen, wie wir Teams strukturieren...

Künstliche Intelligenz
Generative KI
Data

20.2.2026 | 2 Minuten Lesezeit

Lars Rückemann

MuleSoft Agent Fabric - Teil 1 - Agenten brauchen Struktur

In den letzten Jahren hat sich in der AI-Welt unglaublich viel getan - was mit an Sicherheit grenzender Wahrscheinlichkeit für niemanden mehr ein Geheimnis ist. Am Anfang habe ich, wie vermutlich die meisten von uns, einfach nur herumexperimentiert:...

LLM
Künstliche Intelligenz
Integration
Software-Modernisierung

17.2.2026 | 5 Minuten Lesezeit

Pasquale Brunelli

Erste Erfahrungen mit einer explorativen, nicht spezifikationsgetriebenen...

Dieser Blogpost ist der erste Teil einer dreiteiligen Serie. In dieser Folge teile ich meine ersten Erfahrungen mit der technischen Modernisierung eines Vaadin-Frontends zu Angular, wobei ich noch keine Spec-driven Development verwende.In mehreren Kundenprojekten...

Software-Modernisierung
Künstliche Intelligenz

6.2.2026 | 10 Minuten Lesezeit

Krisztina Szathmary

Christopher Flocke

Tech Trends 2026 in Deutschland: KI operationalisieren statt hypen

Die wirtschaftliche Lage in Deutschland wird sich dieses Jahr nicht schlagartig verbessern – sie bleibt angespannt, der Kostendruck hoch. Zusätzlich belasten Fachkräftemangel, demografischer Wandel und Fragen der digitalen Souveränität den Markt.Was ...

Künstliche Intelligenz
Generative KI
IT-Security
Softwareentwicklung
Digitalisierung

28.1.2026 | 2 Minuten Lesezeit

Rainer Vehns

5 Minuten reden, ein Proof of Concept - unser KI-Experiment mit AI-Assisted...

TL;DR: Wie viel lässt sich aus einem fünfminütigen Gespräch herausholen? Wir haben es ausprobiert: Mit einem kurzen Interview, einem Transkript und AI-unterstützten Coding nach der BMAD-Methode entstand in kürzester Zeit ein nutzbarer Proof of Concept...

Generative KI
Künstliche Intelligenz
Softwareentwicklung
Digitalisierung
Prozessautomatisierung
Prozessmanagement
Agilität
Agile Methoden
Cloud
Handel
Versicherung
Euro-Cloud
Projektmanagement
Softwarearchitektur
LLM
NLP
Software-Modernisierung
Collaboration
Digitale Produktentwicklung
Mobile
Dokumentation
Framework
Produktmanagement
UX/UI
Dokumentenmanagement
Input-Management
Agile
Fullstack

28.1.2026 | 5 Minuten Lesezeit

Teoman Kinaci

Sven Heinz