GenAI für Full Stack EntwicklerInnen: RAG Evaluation mit TypeScript (Teil 3)

3.7.2024 | 15 Minuten Lesezeit

Disclaimer: Dieser Artikel ist Teil einer Serie. Lies am besten zuerst Teil 1 und Teil 2, um auf dem neuesten Stand zu sein.

In der traditionellen Softwareentwicklung sind Tests ein essenzieller Bestandteil. Wir nutzen E2E-Tests, Unit- und Integrationstests, Security-Scans und andere Methoden, um sicherzustellen, dass das Produkt unseren Ansprüchen entspricht. Selbstverständlich gibt es auch im GenAI-Umfeld ähnliche Ansätze, die sich jedoch als etwas komplexer erweisen. Da wir es hier mit nicht-deterministischen Systemen zu tun haben, ist ein simpler Unit-Test oft wenig aussagekräftig. Mal antwortet das LLM mit X, mal mit Y. Gerade deshalb ist die strukturierte Evaluierung eines RAG-Systems ein Schritt, den wir gehen müssen (und wollen). Letztendlich wirst du auch als Full-Stack-EntwicklerIn stets testen, testen und nochmals testen.

Im Folgenden beschreibe ich verschiedene Metriken und ihre konkrete Implementierung, um zu zeigen, wie sich letztendlich doch verlässliche Zahlen an ein RAG-System koppeln lassen. Daraufhin nutzen wir dieses Wissen, um herauszufinden, welche Stellschrauben für unser aktuelles RAG die wichtigsten sind. Wir werden das System schrittweise verbessern und überprüfen, ob sich wirklich etwas verbessert hat. Das Ganze wird Full-Stack-freundlich in TypeScript entwickelt, mit so vielen frei verfügbaren Tools wie möglich. Mit diesem Ansatz werden wir unserem RAG letzten Endes vielleicht sogar entlocken können, was wir in unserem Kontext denn nun wirklich als ollama verstehen.

Voraussetzungen

Um diesem Artikel folgen zu können, kannst du ganz einfach das Github-Repo klonen. Im evaluations-Ordner findest du alle Dateien des heutigen Themas. Die modifizierte RAG-Pipeline kannst du dann mit yarn serve-for-evaluation ausführen.

Leider kommen wir dieses Mal nicht ganz ohne einen Internetzugang aus. Um Antworten unseres RAGs zu bewerten, werden üblicherweise LLMs verwendet, und wir könnten versuchen, das lokal abzubilden. Doch ich habe die Erfahrung gemacht, dass unser bisheriges Llama3 das nicht ausreichend zuverlässig schafft. Deshalb empfehle ich die Nutzung eines möglichst kompetenten Modells, in unserem Fall eine auf Azure gehostete OpenAI-Instanz. Das hat zusätzlich den Vorteil, dass wir unsere Testdaten ebenso mit ChatGPT generieren können und nicht allzu viel manuelle Vorarbeit benötigen. Wie du eine Azure OpenAI-Instanz einrichtest, findest du in der Azure Dokumentation.

Für die Konfiguration von LangChain musst du nun eine Datei azure.env ins Projektverzeichnis ablegen mit den folgenden Informationen:

1export AZURE_OPENAI_API_INSTANCE_NAME=<AZURE_REGION>  
2export AZURE_OPENAI_API_DEPLOYMENT_NAME=<AZURE_DEPLOYMENT>  
3export AZURE_OPENAI_API_KEY=<AZURE_AUTH_KEY>
4export AZURE_OPENAI_API_VERSION="2024-02-01"  
5export AZURE_OPENAI_BASE_PATH=https://<AZURE_DOMAIN>/openai/deployments

Wie wird ein RAG evaluiert?

Die grundsätzliche Idee für die Evaluierung eines RAGs ist, auf Basis der Eingabe, der Antwort, des Kontextes und einer Idealantwort (im Englischen als „Ground Truth" bekannt), verschiedene Metriken zu messen. Da RAGs meist Text ausgeben und die Bewertung von Text auf deterministische Weise relativ schwierig ist, nutzt man hier wiederum ein LLM (LLM-as-a-judge). Diese sind schließlich auf Texterfassung spezialisiert.

Was wollen wir eigentlich herausfinden?

Bevor wir mit dem Testen anfangen, sollten wir darüber nachdenken, was wir überhaupt wissen wollen. In unserem minimalen Fall habe ich gleich mehrere Ansätze, über die ich gerne weitere Details wissen möchte:

Sind die Antworten des RAGs faktisch korrekt?
Nutzt das RAG ausschließlich Antworten aus der Wissensdatenbank?
Wie konkret (oder relevant) sind die Antworten für die gestellte Frage?

Zusätzlich habe ich auch noch ein paar Bonusanforderungen, die ich gerne überprüfen und verbessern möchte. Mir ist aufgefallen, dass das RAG meistens auf Englisch antwortet, selbst wenn ich eine Frage auf Deutsch gestellt habe. Außerdem ist das System verhältnismäßig langsam, vielleicht gibt es ja eine Konfiguration, mit der wir schneller bessere Antworten generieren lassen können?

Sind die Antworten in der richtigen Sprache?
Wie schnell antwortet das RAG?

Sinnvolle Metriken für unser RAG

Glücklicherweise sind wir nicht die Ersten, die die Qualität eines RAGs evaluieren möchten. Ein beliebtes Framework hierfür ist Ragas. Dort werden verschiedene qualitative Metriken beschrieben, von denen wir einige gebrauchen können. Die folgenden Ansätze werden wir heute implementieren:

Answer Relevance: Hierbei wird gemessen wie relevant die Antworten des RAGs für die Frage sind. Um das zu evaluieren, bedarf es eines gewissen Aufwands. Zunächst werden von der RAG-Antwort mithilfe eines LLMs künstlich Fragen generiert. Diese werden dann mit der Originalfrage verglichen. Das Vergleichen können wir mit der Vektorenähnlichkeit beider Embeddings erreichen. Sind die Antworten des RAGs ausreichend präzise sollten auch die daraus generierten Fragen näher an der Originalfrage liegen.
Faithfulness: Wie gut hat das RAG den Kontext genutzt, um die Antwort zu generieren? Der Ansatz, um das zu testen, ist, zuerst eine Reihe von Aussagen von der RAG-Antwort zu generieren. Das kann ebenso mithilfe von ChatGPT geschehen. Als nächstes wird dann jede Aussage mit dem Kontext aus der Wissensdatenbank verglichen, um herauszufinden, ob sie allein vom Kontext her abgeleitet werden kann. Das Verhältnis von "erschwindelten" zu korrekt abgeleiteten Aussagen ist dann der Faithfulness-Faktor.

Unsere zusätzlichen Messungen können wir wie folgt bemessen:

Sprachloyalität: Die Konsistenz von Frage- und Antwortsprache können wir einfach mit ChatGPT überprüfen lassen.
Zeit: Noch einfacher lassen sich Anfrage- und Antwortszeit mit TypeScript messen.

Evaluierung von RAGs mit TypeScript

Leider gibt es Stand Juni 2024 keine generischen RAG-Evaluierungstools für TypeScript-Projekte. Die beiden wichtigsten Frameworks für RAGs, LlamaIndex und LangChain, bieten aber wenigstens ein paar rudimentäre Helferfunktionen, mit denen sich für das jeweilige Framework Tests entwickeln lassen. Eine „opinionated" Implementierung unabhängig von der genutzten Bibliothek, wie z.B. Ragas für Python, gibt es jedoch noch nicht. Daher sind wir gezwungen, einige der komplexeren Metriken selbst zu schreiben. Der Ablauf unseres Evaluierungsprozesses ist wie folgt:

Testfragen & Idealantworten erstellen und manuell überprüfen
Das RAG mit diesen Fragen füttern und dessen Antworten plus den genutzten Kontext dokumentieren
Auf Basis dieser Daten die Metriken anwenden
Die Metriken auswerten und vergleichen
Das RAG-System anpassen und erneut Testantworten generieren

Ablauf einer RAG Evaluation

Testfragen generieren

Für alle oben genannten Metriken benötigen wir zunächst einen Datensatz an Fragen und Antworten. Immerhin ist das beantworten von Fragen genau jene Fähigkeit unseres RAGs deren Qualität wir bemessen wollen. Um diese zu bekommen, gibt es verschiedene Ansätze. Die höchste Qualität erreicht man sicher durch einen manuellen Prozess, indem händisch Frage-Antwort Paare auf Basis der Wissensdatenbank geschrieben werden. Zudem gibt es ein paar (mal wieder nur in Python entwickelte) Tools, um solche Fragen automatisch zu generieren. Ein guter Kompromiss für mich ist die Nutzung von ChatGPT. Mit dem folgenden Prompt habe ich 10-20 Fragen automatisch generieren lassen. Für einen vollwertigen Test wäre das zwar ein recht kleiner Datensatz, aber so bekommen wir ausreichend Informationen und müssen später nicht allzu lange warten.

1Deine Aufgabe ist es, genau 10 Fragen aus dem gegebenen Kontext zu formulieren und die Antwort zu jeder Frage zu geben.
2
3Beende jede Frage mit einem '?' Zeichen.
4Die Antwort sollte im JSON-Format mit den Feldern question und groundTruth angegeben werden.
5
6Die Fragen müssen die unten aufgeführten Regeln erfüllen:
71. Die Fragen sollten für Menschen auch ohne den gegebenen Kontext verständlich sein.
82. Die Fragen sollten vollständig aus dem gegebenen Kontext beantwortet werden.
93. Die Fragen sollten sich aus einem Teil des Kontexts ergeben, der wichtige Informationen enthält. Dies kann auch aus Tabellen, Code usw. stammen.
104. Die Antworten auf die Fragen dürfen keine Links enthalten.
115. Die Fragen sollten von mittlerem Schwierigkeitsgrad sein.
126. Die Fragen müssen vernünftig sein und von Menschen verstanden und beantwortet werden können.
137. Verwende keine Formulierungen wie „angegebener Kontext“ usw. in den Fragen.
148. Vermeide Fragen mit dem Wort "und", die in mehr als eine Frage aufgeteilt werden könnten.
159. Die Fragen sollten nicht mehr als 10 Wörter enthalten. Verwende wenn möglich Abkürzungen.
1610. Die Fragen und Antworten sollten auf Deutsch sein.
17
18Kontext:
19...

Das habe ich mit mehreren der Dokumente gemacht und letztlich alle Ergebnisse in die Datei evaluations/data/questions.json kopiert. Diese Fragen sollten aber dennoch einmal manuell durchgesehen werden, um schlechte oder falsch in den Kontext gesetzte Fragen herauszufiltern.

Frag das RAG!

Der nächste Schritt ist die aktuelle Konfiguration des RAGs zu testen. Hierfür senden wir einfach die zuvor gespeicherten Fragen nacheinander an das System. Da wir für unsere Metriken später auch den Retrieval-Kontext benötigen, speichern wir diesen ebenso ab. Auch unsere Zeitmessung muss schon jetzt erfolgen. Im Projekt ausführen kannst du den folgenden Code mit yarn generate-test-data <szenarioName> ausführen.

1async function generateTestData() {  
2  const questions = getQuestionsFromFile()  
3  const chain = await initializeRagChain("./data")  
4  const testData = []  
5  
6  for (const { question, groundTruth } of questions) {  
7    console.log("Requesting answer for question: " + question)  
8    const start = Date.now()  
9    const { answer, context } = await chain.invoke(question)  
10    const end = Date.now()  
11  
12    testData.push({  
13      question,  
14      answer,  
15      groundTruth,  
16      context,  
17      executionTimeInSeconds: (end - start) / 1000,  
18    })  
19  }  
20  writeTestResultToFile(datasetName, testData)  
21}

Das Ergebnis wird dann in evaluations/data/test-data-<szenarioName>.json abgespeichert und sieht dann ungefähr so aus:

1{  
2    "question": "Welche Portnummer nutzt das Open WebUI Interface?",  
3    "groundTruth": "3000",  
4    "answer": "Das Open WebUI Interface wird auf Port 3000 erreichbar sein.",  
5    "context": "System erst einmal nur lokal hoste. Für komplexere Setups ist das\nnatürlich nicht geeignet.\n...",  
6    "executionTimeInSeconds": 3.702  
7  }

Die Zwischenspeicherung unserer Ergebnisse hilft uns später nachzuvollziehen, wie genau ein Metrikwert zustande gekommen ist. Vielleicht war eine Frage nicht gut gestellt oder der Kontext völlig daneben?

Evaluierung des RAGs in TypeScript

Jede unserer Metriken erhält die für sie relevanten Informationen und gibt am Ende einen Wert zwischen 0 und 1 zurück. Je näher der Wert an 1 liegt, desto besser ist die Performance des RAGs in Bezug auf diese spezifische Metrik.

LanguageLoyalty

Die einfachste Metrik ist die Konsistenz der Sprache. Hier können wir einfach einen Custom-Evaluator von LangChain nutzen und ihm mitteilen, welche Fragestellung wir überprüfen wollen.

1async function evaluateLanguageLoyalty({ question, answer }) {  
2  const criteria = {  
3    languageLoyalty: "Is the output in the same language as the input?",  
4  }  
5  const evaluator = await loadEvaluator("criteria", {  
6    criteria,  
7  })  
8  const languageResult = await evaluator.evaluateStrings({  
9    input: question,  
10    prediction: answer,  
11  })  
12  return languageResult.score  
13}

Das Ergebnis von evaluateStrings beinhaltet auch noch ein Feld reasoning, das die Begründung von ChatGPT für seine Entscheidung enthält. Falls eine Bewertung unklar ist, empfehle ich, dort einmal nachzuschauen.

Faithfulness

Schon etwas komplexer wird es bei „Faithfulness". Um herauszufinden wie viele der Aussagen einer möglicherweise langen Antwort halluziniert wurden versuchen wir mithilfe von ChatGPT einige Aussagen zu extrahieren, die auf die gegebene Antwort anwendbar sind. Wir lassen ChatGPT die Fragen mit einem eindeutigen Trennzeichen (XXX) separieren, um es später einfacher zu haben, die einzelnen Fragen zu extrahieren.

1async function generateMinimalStatementsFromAnswer(answer: string) {  
2  const model = new AzureChatOpenAI()  
3  const response = await model.invoke(  
4    `Generate 5 minimal statements which can be directly derived from the following context. Separate each statement only with 'XXX'. The statements should be as clear as possible. \n CONTEXT:\n ${answer}`,  
5  )  
6  return response.content.toString().split("XXX")  
7}

Für die Antwort Der Retriever wird durch das initialisierte VectorStore generiert. generiert ChatGPT folgende Aussagen:

Der Retriever wird generiert.
Der Retriever wird durch VectorStore generiert.
Das VectorStore ist initialisiert.
Ein initialisiertes VectorStore ist erforderlich.
Der Retriever benötigt das initialisierte VectorStore.

Mit diesen fünf Sätzen können wir nun wiederum einen LangChain Evaluator nutzen, um herauszufinden, welche der Aussagen aus dem Kontext ableitbar waren. Von den einzelnen Scores (entweder 0 oder 1) errechnen wir anschließend den Durchschnittswert.

1async function evaluateFaithfulness({ answer, context }) {  
2  const statements = await generateMinimalStatementsFromAnswer(answer)  
3  const criteria = {  
4    faithfulness:  
5      "Can the following statement directly be derived from the input?",  
6  }  
7  const evaluator = await loadEvaluator("criteria", { criteria })  
8  let results = []  
9  for (const statement of statements) {  
10    const faithfulness = await evaluator.evaluateStrings({  
11      input: context,  
12      prediction: statement,  
13    })  
14    results.push(faithfulness.score)  
15  }  
16  return average(results)  
17}

Relevanz

Ähnlich wie bei der vorherigen Metrik müssen wir auch für die Relevanz zunächst ein paar synthetische Daten erheben. Dieses Mal lassen wir ChatGPT allerdings 10 Fragen generieren, die seiner Meinung nach auf die gegebene Antwort passen könnten. Dann erstellen wir einen EmbeddingEvaluator mit LangChain und konfigurieren ihn so, dass er mit einem lokalen Embedding kommuniziert. Dadurch können wir uns etwas Zeit sparen. Auch hier geben wir abschließend den durchschnittlichen Wert der errechneten Ähnlichkeit zurück.

1async function evaluateRelevance({ question, answer }) {  
2  const questions = await generateQuestionsFromAnswer(answer)  
3  const evaluator = await loadEvaluator("embedding_distance", {  
4    embedding: new OllamaEmbeddings({  
5      model: "jina/jina-embeddings-v2-base-de",  
6    }),  
7  })  
8  const relevances = []  
9  for (const syntheticQuestion of questions) {  
10    const relevance = await evaluator.evaluateStrings({  
11      prediction: syntheticQuestion,  
12      reference: question,  
13    })  
14    relevances.push(relevance.score)  
15  }  
16  return average(relevances)  
17}

Die Metriken kombinieren

Die oben gezeigten Metriken können wir nun mit yarn evaluate <szenarioName> über unsere generierten Testdaten laufen lassen. Da hierbei einige Anfragen an ChatGPT gestellt werden, kann dieser Schritt je nach Datensatz mehrere Minuten dauern. Um die Nachvollziehbarkeit zu gewährleisten, empfehle ich, auch hier die genutzten Kontextinformationen wie Frage, Antwort etc. zu speichern. Nebenbei erfassen wir ebenfalls die zuvor erstellte executionTime.

1async function evaluate () {  
2  const testData = getTestResultFromFile(datasetName)  
3  const evaluationResults = []  
4  for (const dataSet of testData) {  
5    console.log(`Evaluation for: ${dataSet.question}`)  
6    const relevance = await evaluateRelevance(dataSet)  
7    const languageLoyalty = await evaluateLanguageLoyalty(dataSet)  
8    const faithfulness = await evaluateFaithfulness(dataSet)  
9    evaluationResults.push({  
10      relevance,  
11      languageLoyalty,  
12      faithfulness,  
13      executionTime: dataSet.executionTimeInSeconds,  
14      question: dataSet.question,  
15      answer: dataSet.answer,  
16      context: dataSet.context,  
17      groundTruth: dataSet.groundTruth,  
18    })  
19  }  
20  writeEvaluationResultToFile(datasetName, evaluationResults)  
21}

Ein mögliches Ergebnis könnte dann wie folgt Aussehen:

1{  
2  "relevance": 0.08137573866625877,  
3  "languageLoyalty": 1,  
4  "faithfulness": 1,  
5  "executionTime": 3.702,  
6  "question": "Welche Portnummer nutzt das Open WebUI Interface?",  
7  "answer": "Das Open WebUI Interface wird auf Port 3000 erreichbar sein.",  
8  "context": "System erst einmal nur lokal hoste. Für komplexe...",  
9  "groundTruth": "3000"  
10}
11...

Auswertung der Ergebnisse

Zur Bewertung der Qualität des Systems können wir nun einen Testlauf starten. Mit averageOfField nutzen wir einen kleinen Helfer, der von einer Liste aus Objekten die Werte aus dem übergebenen Feld holt und den Durchschnitt ermittelt.

1const evaluationResults = getEvaluationResultFromFile(datasetName)  
2const critiques = [  
3  "executionTime",  
4  "relevance",  
5  "languageLoyalty",  
6  "faithfulness",  
7]  
8critiques.forEach((criteria) => {  
9  const average = averageOfField(criteria, evaluationResults)  
10  console.log(`${criteria}: ${average.toFixed(3)}`)  
11})

Ausgeführt mit yarn summarize <szenarioName> sieht das Ergebnis für die Konfiguration von Artikel 2 dann wie folgt aus:

1executionTime: 6.827
2relevance: 0.411
3languageLoyalty: 0.444
4faithfulness: 0.656

Iterative Optimierung des RAG Systems

Wir sind endlich so weit, herauszufinden, wie gut unser bisheriges RAG abschneidet. Das Problem mit den Werten ist natürlich, dass sie für sich allein wenig Aussagekraft haben. Um das zu ändern, können wir nun einige der Stellschrauben des letzten Artikels anwenden. Anschließend lässt sich bewerten, welche Anpassung eine Verbesserung gebracht hat und welche sich vielleicht nicht lohnt. Wir testen die folgenden Szenarien nacheinander. Am Ende wenden wir alle drei Szenarien gleichzeitig an und schauen uns das Ergebnis an.

Embedding: Statt nomic-embed-text versuchen wir es mit dem für die deutsche Sprache ausgelegten jina/jina-embeddings-v2-base-de.
Prompt: Unser erster Prompt war sehr einfach gehalten. Vielleicht erzielen wir bessere Ergebnisse mit einem Prompt, der gleichzeitig die Sprachkonsistenz fordert? Wir versuchen es mit:

You are an expert in computer science. 
Answer the question based only on the following context. 
Always answer in the same language as the question. 
Answer concise and accurate.

Chunks: Durch kleinere Text-Chunks bei der Vektorisierung könnten wir schneller und gleichzeitig genauer werden. Anstatt des Default-Werts von "1 PDF-Seite" werden wir eine Chunk-Größe von 500 testen.

Die Testläufe haben folgende Tabelle hervorgebracht:

Szenario	Time	Relevance	Language	Faithfulness
Start	6.82	0.41	0.44	0.66
Embedding	7.15	0.45	0.44	0.82
Prompt	6.66	0.49	0.611	0.711
Chunks	4.80	0.33	0.611	0.77
Kombination	3.97	0.36	0.89	0.733

Bei der Änderung des Embeddings lassen sich erste Zeitverbesserungen messen, auch wenn diese marginal sind. Dafür scheint jedoch die Vertrauenswürdigkeit des Systems deutlich besser zu sein. Das ist auch verständlich, denn mit einem besseren Embedding sollte auch das "Textverständnis" höher sein.

Die Anpassung des Prompts hingegen hat vor allem die Sprachkonsistenz erhöht. Auch dies sorgt für zusätzliches Vertrauen in unser Test-Setup, denn die erwarteten Änderungen spiegeln sich in der Statistik wider.

Beim Textsplitting wird das System zwar merklich schneller, verliert aber gleichzeitig an Relevanz. Hier können wir als EntwicklerInnen nun entscheiden, welche Prioritäten wir setzen wollen – auf der Basis von klaren Zahlen. ❤️

Die Kombination aller Anpassungen hat überraschenderweise eine noch bessere Geschwindigkeit, zeigt aber leider keine nennenswert höhere Relevanz. Immerhin schafft sie es, die Sprache deutlich konsistenter zu halten als die anderen Kombinationen.

Diese Konfiguration habe ich letztlich für das RAG genutzt und dieses nach Ollama befragt. Dabei kam heraus, dass Ollama eine Webseite und ein CLI sei. Was, wie ich es im ersten Artikel vorgestellt habe, wohl der Wahrheit ausreichend nahe kommt. Zudem kam die Antwort dieses Mal auf Deutsch!

Die zentrale Frage musste gestellt werden

Was nun?

Auf der Basis der vorgestellten Metriken lässt sich unser RAG nun deutlich einfacher messbar machen. Wir stellen konkrete Änderungen in der Statistik fest, wenn wir Anpassungen am System vornehmen, und können nun iterativ herausfinden, welcher Ansatz die Ausgabe positiv beeinflusst. Falls du Interesse an weiteren, spezialisierteren Metriken hast, schau dir zum Beispiel die Context Recall- und die Context Relevancy-Metrik an. Beide versuchen die Qualität des Retrievers messbar zu machen. Auch weitere sogenannte Critique-Metriken, wie das Erfassen von schadhaften oder boshaften Ausgaben, sind denkbar. Es gibt auch bessere Tests für die Qualität des LLM-Outputs, wie zum Beispiel die Conciseness-Metrik. Wie du dir vorstellen kannst, hängt die Wahl der Metriken stark vom Use Case des RAGs ab.

Unsere Reise als Full-Stack-EntwicklerInnen in die Welt der generativen KI ist hier aber erst am Anfang. Wir sind mittlerweile in der Lage, Sprachmodelle lokal zu nutzen, sie mit unserem privaten Kontext zu füttern und zu evaluieren, ob sie dabei gute Arbeit leisten. Doch ob mit oder ohne Kontext – derzeit sind unsere Modelle nicht viel mehr als Textgeneratoren. Diese Texte sind oft unstrukturiert und wenig vorhersehbar. Verlässliche Systeme oder gar die Einbindung in ein komplexeres Interface ist damit noch nicht möglich. Wie wir die Stärken eines LLMs außerhalb eines Chat-Interfaces nutzen können, dessen Antwort als zuverlässiges API-Interface nutzen und damit herkömmliche UI-Workflows ablösen können bespreche ich im nächsten Artikel. Ich freue mich schon darauf!

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Robin Schlenker

Full Stack Consultant

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Autonome Entwicklungs-Workflows mit Claude Code

Die meisten Entwickelnden nutzen KI-Tools heute als schnelleres Autocomplete. In den letzten Monaten habe ich in einem Kundenprojekt einen anderen Weg eingeschlagen: Multi-Agent-Setups mit Claude Code, in denen spezialisierte Agenten parallel arbeiten...

Künstliche Intelligenz
Softwareentwicklung
Generative KI

22.6.2026 | 16 Minuten Lesezeit

Christoph Dalski

KI-Agenten im Einsatz: Der moderne SDLC mit GitLab Duo Agent Platform

Während KI die Softwareentwicklung in einigen Unternehmen komplett umkrempelt, setzen andere noch gar keine KI ein. Als Grund werden dann oft Compliance und Regulierung angegeben.Natürlich ist klar, dass man im Bereich von Gesundheit, Finanzen, kritischer...

GitLab
Softwareentwicklung
Künstliche Intelligenz

17.6.2026 | 6 Minuten Lesezeit

Erik Petzold

Vom Prompt zur Anwendung: Warum der Designschritt zählt

Wer heute mit KI-gestützten Coding-Assistants arbeitet, kennt das Versprechen: Eine Beschreibung eingeben und wenige Sekunden später steht ein funktionierendes Interface. Tools wie Cursor, Claude Code oder GitHub Copilot liefern dabei zunehmend beeindruckende...

Künstliche Intelligenz
UX/UI
Frontend
Generative KI

16.6.2026 | 8 Minuten Lesezeit

Michel Ehmen

Brainstorming mit KI — Wann man den Advocatus Diaboli spielt

Teil der Serie Domain-Driven Design trifft KI. Jedes Projekt beginnt mit einem leeren Blatt – und das leere Blatt ist der Ort, an dem gute Ideen sterben. Man bringt 8–12 Menschen in einen Raum, zeigt auf ein leeres Whiteboard und fragt: „Was ist unser...

DDD
Generative KI
LLM

15.6.2026 | 10 Minuten Lesezeit

Annegret Junker

Barrierefreiheit mit KI sicherstellen: was heute schon geht (und was nicht...

Seit Juni 2025 ist das Barrierefreiheitsstärkungsgesetz (BFSG) in Kraft. Die meisten Teams wissen, dass sie etwas tun sollten, aber im Alltag geht das Thema meistens unter. Zu aufwendig, zu speziell, zu wenig Expertise im Team, außerdem gibt es ja Wichtigeres...

Barrierefreiheit
Künstliche Intelligenz
UX/UI
Testing

2.6.2026 | 10 Minuten Lesezeit

Elina Onchul

Warum 600 PS auf einem Schotterweg nicht helfen: Das KI-Produktivitäts...

Die 600 PS eines modernen Sportwagens bringen nicht viel, wenn der Untergrund aus einem holprigen Schotterweg besteht. Quelle: Adobe Stock. Stell dir vor, du sitzt in einem hochmodernen Sportwagen mit 600 PS auf einem holprigen Schotterweg: Die schiere...

Künstliche Intelligenz
Softwareentwicklung

21.5.2026 | 4 Minuten Lesezeit

Rainer Vehns

MCP-Server bauen mit Spring AI

Einleitung Das Model Context Protocol (MCP) ist ein offener Standard, der definiert, wie KI-Modelle mit externen Tools, Diensten und Datenquellen kommunizieren. Es ersetzt individuelle Integrationen durch ein einziges, klar definiertes JSON-RPC-2.0-Protokoll...

Künstliche Intelligenz
Softwareentwicklung

17.5.2026 | 4 Minuten Lesezeit

Tobias Trelle

Von Inferenz zu Governance: Warum Agent-Metadaten wichtig sind, auch wenn...

Moderne LLMs (Large Language Models) zeigen eine starke Fähigkeit, Bedeutungen aus Spaltennamen abzuleiten. Ein Tool wie Genie kann in der Regel pct_cust_attrit_q als „Churn“ (Abwanderung) auflösen oder rev_mrr_usd allein durch Mustererkennung dem Begriff...

Künstliche Intelligenz
LLM
Big Data
Datenbank

15.5.2026 | 6 Minuten Lesezeit

Niklas Niggemann

KI als Design-Partner — Entwerfer, Prüfer, Kritiker

Teil der Serie Domain-Driven Design Meets AI. Der vorherige Beitrag stellte den Synergetic Blueprint als strukturierten Prozess vor, der DDD-Methoden zu einem zusammenhängenden End-to-End-Design-Flow verbindet, und legte dar, dass KI jeden seiner Schritte...

14.5.2026 | 12 Minuten Lesezeit

Annegret Junker

Strukturierte Migration mit Claude Code - Context Engineering statt Prompt...

Garbage in, garbage out Im ersten Teil dieser Serie haben wir einen bewusst explorativen Ansatz gewählt: Den kompletten Quellcode hochladen, einmal prompten, schauen was passiert. Das Ergebnis war beeindruckend schnell – aber auch inkonsistent: Drei ...

Künstliche Intelligenz
Software-Modernisierung

12.5.2026 | 18 Minuten Lesezeit

Krisztina Szathmary

Christopher Flocke

Die konsumierbare Domäne: Knowledge Engineering für KI-gestützte Entwicklung

Das alte Versprechen Ende der 70er prägte der Stanford-Informatiker Edward Feigenbaum den Begriff "Knowledge Engineering". Er beschrieb damit den Prozess, Expertenwissen zu extrahieren, zu strukturieren und in einem Software-System nutzbar zu machen....

Generative KI
Künstliche Intelligenz
LLM
Software-Modernisierung
Softwareentwicklung

11.5.2026 | 9 Minuten Lesezeit

Johannes Barop

Benjamin Font Pera

Zuverlässige AI Analytics durch Data Quality: Genie Spaces in Databricks

Garbage In, Garbage Out. Dieser Grundsatz der Informatik war noch nie so kritisch wie im Zeitalter der KI. Large Language Models verstärken schlechte Datenqualität nicht, sie verpacken sie in selbstsicher klingenden Formulierungen, die selbst erfahrene...

Generative KI
LLM
Künstliche Intelligenz
Data

7.5.2026 | 8 Minuten Lesezeit

Niklas Niggemann

16000 Tests in 4 Tagen - Mit Claude Code zu 80% Testabdeckung

Die Ausgangssituation Als wir bei codecentric vor Kurzem bei einem Kunden die Codebasis eines früheren Dienstleisters übernahmen, wurde uns schnell klar, dass dies keine alltägliche Herausforderung werden würde. Backends, Frontends, Batches, Services...

Künstliche Intelligenz
Softwareentwicklung
Testing

5.5.2026 | 11 Minuten Lesezeit

Selvarajah Sivarupan

Kai Lüttmann

Der Synergetic Blueprint revisited — und warum KI alles verändert

Vom Workshop zur laufenden Software — die Lücke, über die niemand spricht Die meisten Teams, die Domain-Driven Design einführen, investieren stark in Workshops. Domain Storytelling Sessions, EventStorming Boards, Context-Mapping-Übungen — die Zusammenarbeit...

28.4.2026 | 8 Minuten Lesezeit

Annegret Junker

Wird Spring Boot obsolet?

Im März 2026 starteten wir in ein Modernisierungs-Projekt bei einem Kunden. Spring Boot war eine übliche Wahl. Es gab eine strategische Setzung. Es gab vorhandenes Know-how. Es gab bestehende Infrastruktur. Das Team stand. Die Arbeit lief an. Einer der...

Generative KI
LLM
Künstliche Intelligenz
Softwareentwicklung
Softwarearchitektur

27.4.2026 | 7 Minuten Lesezeit

Johannes Barop

EXACT Coding: KI-gestützte Entwicklung mit Qualität statt Vibe-Chaos

TL;DR Unkontrolliertes Agentic Coding („Vibe Coding“) liefert schnell Code – und oft Sicherheits- und Wartungsprobleme, sobald Software produktiv gehen soll. EXACT Coding (Example-guided AI-Collaborative Test-driven Coding) bündelt bewährte Praktiken...

Generative KI
Künstliche Intelligenz
Test Driven Development

22.4.2026 | 6 Minuten Lesezeit

Marco Emrich

Ferdinand Ade

AI Governance ohne Theater

Warum Unternehmen nicht an KI scheitern, sondern an ihrer eigenen Entscheidungsordnung Es gibt in deutschen Konzernen keinen Mangel an AI Governance. Es gibt Lenkungskreise, Richtlinien, Prüfprozesse, AI Ethics Boards und Grundsatzpapiere in beeindruckender...

Künstliche Intelligenz
Datenschutz
IT-Governance
Compliance
Regulatorik

7.4.2026 | 14 Minuten Lesezeit

Alexander Rose

Harald Schlüter

Der Ralph Wiggum Loop: Autonome Code-Generierung mit frischem Kontext

Ralph Wiggum ist der einfältige Junge aus den Simpsons, der Sätze sagt wie "I'm learnding!" und Kleber isst. Ausgerechnet er ist jetzt Namensgeber für eine Technik zur autonomen Code-Generierung. Die Idee dahinter: Wenn dir der Gedanke, Code autonom ...

Generative KI
LLM
Künstliche Intelligenz
Softwareentwicklung

6.4.2026 | 6 Minuten Lesezeit

Johannes Barop

Information Retrieval mit Databricks Agents

Durch die Nutzung von großen Sprachmodellen (LLMs) ist es immer einfacher möglich, explorativ Daten zu analysieren. Dabei werden LLM-Agenten genutzt, um Informationen über die vorhandene Datenbasis zu erhalten. In den letzten Jahren hat sich RAG (Retrieval...

Generative KI
Künstliche Intelligenz
LLM

31.3.2026 | 8 Minuten Lesezeit

Stefan Herrmann

AI Code-Tsunami trifft auf QA-Staumauer: Das Ende der eingependelten Geschwindigkeit

Vorab: Dieser Artikel richtet sich gezielt an Teams, die an der Modernisierung und Weiterentwicklung von bestehenden Systemen arbeiten und nicht an Projekte auf der sprichwörtlichen grünen Wiese, wo völlig andere Gesetze gelten. Jeder spricht über den...

Generative KI
Künstliche Intelligenz
DevOps
Test Driven Development
Testing

30.3.2026 | 8 Minuten Lesezeit

Jan Rümenapf

GenAI für Full Stack EntwicklerInnen: RAG Evaluation mit TypeScript (Teil 3)

Voraussetzungen

Wie wird ein RAG evaluiert?

Was wollen wir eigentlich herausfinden?

Sinnvolle Metriken für unser RAG

Evaluierung von RAGs mit TypeScript

Testfragen generieren

Frag das RAG!

Evaluierung des RAGs in TypeScript

LanguageLoyalty

Faithfulness

Relevanz

Die Metriken kombinieren

Auswertung der Ergebnisse

Iterative Optimierung des RAG Systems

Was nun?

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Artikel in diesem Themenbereich

Autonome Entwicklungs-Workflows mit Claude Code

KI-Agenten im Einsatz: Der moderne SDLC mit GitLab Duo Agent Platform

Vom Prompt zur Anwendung: Warum der Designschritt zählt

Brainstorming mit KI — Wann man den Advocatus Diaboli spielt

Barrierefreiheit mit KI sicherstellen: was heute schon geht (und was nicht...

Warum 600 PS auf einem Schotterweg nicht helfen: Das KI-Produktivitäts...

MCP-Server bauen mit Spring AI

Von Inferenz zu Governance: Warum Agent-Metadaten wichtig sind, auch wenn...

KI als Design-Partner — Entwerfer, Prüfer, Kritiker

Strukturierte Migration mit Claude Code - Context Engineering statt Prompt...

Die konsumierbare Domäne: Knowledge Engineering für KI-gestützte Entwicklung

Zuverlässige AI Analytics durch Data Quality: Genie Spaces in Databricks

16000 Tests in 4 Tagen - Mit Claude Code zu 80% Testabdeckung

Der Synergetic Blueprint revisited — und warum KI alles verändert

Wird Spring Boot obsolet?

EXACT Coding: KI-gestützte Entwicklung mit Qualität statt Vibe-Chaos

AI Governance ohne Theater

Der Ralph Wiggum Loop: Autonome Code-Generierung mit frischem Kontext

Information Retrieval mit Databricks Agents

AI Code-Tsunami trifft auf QA-Staumauer: Das Ende der eingependelten Geschwindigkeit

Jetzt für unseren Newsletter anmelden