Große Sprachmodelle: Was ist ein LLM?

20.6.2023 | 4 Minuten Lesezeit

Große Sprachmodelle (Large Language Models oder LLM) haben in den letzten Jahren enorme Fortschritte gemacht und spielen eine entscheidende Rolle in verschiedenen Anwendungen. Aber was ist ein LLM?

Es ist sinnvoll zu erklären, was ein „einfaches“ Sprachmodell generell ist. Ein Sprachmodell ist eine Wahrscheinlichkeitsverteilung über Wortfolgen. Sprachen können eine unendlich lange Sequenz an validen Sätzen haben, was für ein Sprachmodell ein Problem ist. Das heißt, ein Sprachmodell kann Sequenzen, die nie in dem Trainings-Datensatz vorgekommen sind, immer noch eine gewisse (nicht 0 %) Wahrscheinlichkeit zuweisen. Verschiedene Modell-Ansätze wurden entwickelt, um dieses Problem zu überwinden, z. B. die Anwendung der Markov-Annahme, die Verwendung neuronaler Netzwerke wie rekurrente neuronale Netze (RNNs) oder Transformer (die Architektur hinter ChatGPT).

Ein LLM (großes Sprachmodell) ist ein Sprachmodell, das auf einer neuronalen Netzwerk-Architektur basiert (meistens ist das eine Transformer-Architektur). Ein besonders wichtiges Merkmal dabei ist, dass diese Modelle Milliarden von Parametern haben. Diese Parameter werden während des sog. Modell-Trainings aus großen Datenmengen gelernt und bilden somit die Wissensbasis des Modells. Früher wurde ein Modell für eine spezifische Aufgabe entwickelt. LLMs haben diese Richtung geändert – ein LLM kann meistens mehrere Aufgaben erledigen. Die Bandbreite der Aufgaben und generelle Leistung hängt in erster Linie von den zur Verfügung gestellten Ressourcen (Datensätzen, Rechenleistung) ab und nicht vom Architektur-Design.

Ein bekanntes Beispiel eines LLM ist ChatGPT. ChatGPT basiert auf der GPT-Architektur, die für Generative Pre-trained Transformer steht. Leider veröffentlicht OpenAI wenige bis kaum Informationen zum Training und den verwendeten Daten. Wir können allerdings anhand der offiziellen Veröffentlichungen vermuten, wie das Modell aufgebaut und trainiert wurde.

Schritt 1: Generatives Pre-Training

In diesem Schritt wird ein Sprachmodell auf Texten trainiert, ohne dass eine spezifische Aufgabe dabei zu lösen wäre. Allerdings ist das nicht genug, um damit sinnvolle Ergebnisse zu produzieren – das Modell „versteht“ immer noch nichts von Nutzer-Anweisungen und kann bspw. auf eine Frage mit einer anderen Frage antworten, weil diese Frage in demselben Kontext im Training aufgetaucht ist.

Schritt 2: überwachtes Nachtrainieren (Supervised fine-tuning)

Ab dem Schritt 2 wird das sog. Nachtrainieren (Engl. fine-tuning) eingesetzt. Nachtrainieren bedeutet, wir wollen unser Modell auf spezifische Aufgaben vorbereiten und das Modell-Wissen spezifizieren. In dem ChatGPT-Beispiel wollen wir das Modell so trainieren, dass es ein Chatbot möglichst gut imitieren sollte. Das wird dadurch erreicht, dass dem Modell beim Training eine große Anzahl an Beispiel-Konversationen in einem Frage-Antwort-Format gezeigt wird. Allerdings gibt es hier ein großes Problem: Während des Trainings wird das Modell hauptsächlich von dem Experten-Wissen beeinflusst. Basierend auf diesem Wissen kann das Modell während des Trainings seine Entscheidungen verbessern. Wichtig zu bemerken ist, dass sich das Modell dem Experten-Wissen nur annähert und versucht, sein Verhalten daran anzupassen. Fehler sind daher nicht selten, vor allem, wenn das Modell nach dem Training getestet/angewendet wird. In der Inferenz-Zeit kann nur das Modell selber seine Entscheidungen beeinflussen. Falls währenddessen das Modell einmal eine falsche Entscheidung getroffen hat (was zuvor im Training mit menschlicher Überwachung nicht passiert ist), wird diese Entscheidung weitere falsche Entscheidungen nach sich ziehen. Dieses Problem wird in der Literatur als *Compounding-Error-*Problem bezeichnet. Frühere Fehler des Modells bei der Inferenz resultieren später oftmals in übermütigen Behauptungen oder Halluzinationen (erfundene Informationen). Um diesen negativen Effekt zu minimieren, sollte unser Modell selber Ausgaben während des Trainings produzieren und nicht nur passiv Eingabedaten konsumieren. Dabei hilft uns Reinforcement Learning (RL).

Schritt 3: Reinforcement Learning from Human Feedback

Disclaimer: Wir werden nicht genau auf RL eingehen und erklären nur, welche Konzepte aus RL im ChatGPT-Training verwendet wurden. Mehr über RL hier.

Im Prinzip haben KI-Trainer eine Konversation mit der aktuellen ChatGPT-Version, die gerade im Trainingsprozess ist. Für eine Frage produziert das Modell eine Antwort und weitere mögliche Antworten. Diese möglichen Alternativen werden von dem KI-Trainer als mehr oder weniger passend zur Frage bewertet. Wir müssen allerdings diese Informationen in einen Skalarwert destillieren. Dafür wird ein neues Modell von dem bestehenden abgeleitet und auf diesen Bewertungen trainiert. Das abgeleitete „Hilfsmodell“ lernt, eine möglichst passende Antwort aus allen Alternativen der Frage zuzuweisen. Wenn das „Hilfsmodell“ trainiert ist, können die Wahrscheinlichkeiten für mögliche alternative Antworten als Belohnung im Training verwendet werden, was ein interaktiveres Training ermöglicht.

Ausblick: Die Zukunft von ChatGPT und LLM

ChatGPT wird kontinuierlich verbessert. Da das Training solch eines LLM mehrere Millionen Dollar kosten kann, versucht OpenAI, das Modell auf anderen Wegen zu optimieren. Immerhin produziert das Modell nicht selten ausgedachte Informationen, falsche Fakten und kann nicht zu den expliziten Ressourcen verlinken.

Zum Glück ist die Open Source Community auch fleißig dabei, die Welt der LLMs zugänglicher zu machen. Dabei ist es wichtig die jeweilige Lizenz zu beachten, vor allem im Business-Kontext. Eine Auflistung der bekanntesten Open Source LLMs findet man hier. LLMs brauchen allerdings große Rechenressourcen und Rechenleistung. Das kann schnell teuer werden. Das Preis-Leistungs-Verhältnis, das man mit einem Open Source LLM hat, ist dabei wichtig zu beachten.

Die Zukunft der LLMs ist vielversprechend. Mit weiteren Fortschritten in der Forschung und der Berücksichtigung von Themen wie Datenschutz und Voreingenommenheit der Sprachmodelle können wir eine noch leistungsfähigere und vertrauenswürdigere Generation von Sprachmodellen erwarten.

LLMs ermöglichen es uns, neue Horizonte in der Sprachverarbeitung zu erkunden. Wir stehen am Anfang einer aufregenden Reise und können gespannt sein, welche weiteren Innovationen und Anwendungen uns in Zukunft erwarten.

War dieser Beitrag hilfreich?

Beitrag teilen

Gefällt mir

Blog-Autor*in

Elvira Siegel

Machine Learning Engineer

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Die Corona-Krise ist weiterhin in aller Munde und wird uns mit hoher Wahrscheinlichkeit noch etwas länger begleiten. Wie man aus unterschiedlichen Statistiken erfährt, schwanken die Fallzahlen weiter und sorgen für zusätzliche Restriktionen. Diese werden...

Computer Vision
Künstliche Intelligenz
IoT
Machine Learning

13.12.2021 | 7 Minuten Lesezeit

Michel Ehmen

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Die Qualität bzw. Nützlichkeit von Machine-Learning-Modellen lässt sich mit Hilfe von Testdaten und Metriken bewerten. Allerdings in welchem Umfang? Manuell, automatisiert, einmalig, regelmäßig? Manuell lassen sich die ersten Modelle als Ergebnis eines...

Data
Machine Learning
Softwareentwicklung
CI/CD

7.12.2021 | 7 Minuten Lesezeit

Berthold Schulte

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Machine Learning (ML) erzeugt erst dann realen Mehrwert, wenn es in Produktion benutzt wird. Allerdings kann die Zeitspanne zwischen der Entwicklung eines belastbaren Modells und dessen Einsatz frustrierend lange sein. Insbesondere in schnelllebigen ...

Agile Methoden
Cloud
Machine Learning

26.7.2021 | 5 Minuten Lesezeit

Timo Böhm

Niklas Haas

Schnelles Training eines Recommendation-Modells durch BigQuery ML

Machine Learning (ML) kann nur durch Modelle in der Produktion Business Value erzeugen. Allerdings kann die Zeitspanne zwischen der Entwicklung der nächsten Iteration eines Modells und dessen Einsatz in einer Produktionsumgebung massiv sein. Dies gilt...

Accelerate
Cloud
Data
Google Cloud
Machine Learning

26.7.2021 | 11 Minuten Lesezeit

Niklas Haas

Timo Böhm

KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben...

Heutzutage steht fast alles, was mit den Labels „künstliche Intelligenz (KI)“ oder „Machine Learning (ML)“ versehen ist, für Fortschritt. Seltsamerweise schließt diese Assoziation jedoch häufig die Themen Daten und Dateninfrastruktur nicht ausreichend...

Kultur
Data
Machine Learning

21.6.2021 | 12 Minuten Lesezeit

Marcel Mikl

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Bei klassischen Machine-Learning-(ML-)Projekten beschäftigen sich Data Scientists häufig längere Zeit (mehrere Monate) mit der Entwicklung eines ML-Modells. Dabei werden hohe Kosten verursacht und die Zeit, bis ein erstes Modell zur Verfügung steht, ...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Google Cloud
Machine Learning

17.5.2021 | 5 Minuten Lesezeit

Nils Bauroth

Sven Rediske

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

Noch vor kurzer Zeit mussten für den Einsatz von künstlicher Intelligenz (KI) unter großem Aufwand eigene KI-Modelle erstellt werden. Heute ist für viele Anwendungsfälle die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Machine Learning
Python

29.7.2020 | 11 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und Konstruktion eigener neuronaler Netze möglich. Heute ist die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken. So kann man ...

Cloud
Computer Vision
Data
Python
Machine Learning
Google Cloud
Künstliche Intelligenz

8.7.2020 | 11 Minuten Lesezeit

Nico Axtmann

Marcel Mikl

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und ausreichend Spezialwissen möglich. Hauptsächlich große Internet-Konzerne wie Google, Apple und Facebook hatten das Geld, die Daten und die Expertise, um ...

Data
Machine Learning
Künstliche Intelligenz

6.7.2020 | 7 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

BIE Spotty – unsere Lösung beim BIE City Hackathon

Typischerweise sind bei Hackathons viele Soft- und Hardware-Entwickler zu finden, die innerhalb eines begrenzten Zeitraums versuchen, kreative und ungewöhnliche Lösungen in Form von Code und ersten Prototypen für vorher definierte Challenges zu erarbeiten...

IoT
Computer Vision
IT-Security
Machine Learning

2.7.2020 | 5 Minuten Lesezeit

Meike Wocken

Machine Learning in der Praxis. Eine Mate mit … Matthias Niehoff #EineMateMit

Machine Learning und künstliche Intelligenz sind aktuell in aller Munde und versprechen vielfältige Einsatzmöglichkeiten im Unternehmen. Trotzdem tun sich viele Unternehmen aktuell noch schwer, das Potential der Technologie zu nutzen. „Der Fokus liegt...

Künstliche Intelligenz
Data
Community
Machine Learning

27.5.2020 | 1 Minuten Lesezeit

Matthias Niehoff

Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert

Warum gelingt es Data-Science-Initiativen häufig nicht, einen echten Mehrwert zu schaffen? Wir haben einige Ursachen dafür ausgemacht. In diesem Blogpost stellen wir vier typische Fallen für Data-Science-Projekte vor und geben Tipps, wie Du sie umschiffen...

Machine Learning
Data
Künstliche Intelligenz
Softwareentwicklung

27.3.2020 | 11 Minuten Lesezeit

Marcel Mikl

Machine-Learning-Modelle bewerten – die Crux mit den Testdaten

Machine-Learning-Technologien lassen sich erfolgreich und praxisnah im Unternehmensumfeld einsetzen. Ein konkreter, überschaubarer Anwendungsfall und somit fokussierter Einsatz von Machine-Learning-Modellen kann dabei echten Mehrwert generieren. Dieser...

Data
Machine Learning
Data Science

25.3.2020 | 5 Minuten Lesezeit

Berthold Schulte

Deployment von Machine-Learning-Modellen mit Seldon Core

In diesem Artikel sehen wir uns an, wie wir Machine-Learning- und Deep-Learning-Modelle mit Seldon Core deployen können. Seldon Core ist eine Open-Source-Plattform, um Modelle auf einem Kubernetes-Cluster in Betrieb zu nehmen. Bevor wir uns Seldon Core...

Softwarearchitektur
Data
Künstliche Intelligenz
Machine Learning

9.9.2019 | 7 Minuten Lesezeit

Nico Axtmann

Data Science in der Praxis: Häufige Fehler und Vorgehen

In diesem Artikel gehen wir auf die Besonderheiten von Data Science in der Praxis ein. Wir konzentrieren uns auf die technischen Unterschiede, häufige Fehler und Herausforderungen. Dabei lassen wird die sozialen und kommunikativen Aspekte außen vor. ...

Agilität
Machine Learning
Data

28.8.2019 | 11 Minuten Lesezeit

Nico Axtmann

Inbetriebnahme eines scikit-learn-Modells mit ONNX und FastAPI

Dieser Artikel befasst sich mit dem Deployment eines Machine-Learning-Modells, das den Wert eines Hauses in Boston anhand gewisser Merkmale wie der Kriminalitätsrate des Bezirks und der Anzahl der Räume in einer Wohnung bestimmen kann. Im ersten Schritt...

Data
Python
Künstliche Intelligenz
Machine Learning

6.8.2019 | 3 Minuten Lesezeit

Nico Axtmann

Machine-Learning-Modelle bewerten – die Crux mit der Metrik

Ist ein Modell erst einmal trainiert, kann es auf verschiedene Art und Weise und mit mehr oder weniger komplexen und aussagekräftigen Verfahren und Metriken bewertet werden. Die Anzahl und möglichen Kriterien, ein Modell zu bewerten, sind allerdings....

Data
Machine Learning
Softwareentwicklung

1.7.2019 | 13 Minuten Lesezeit

Berthold Schulte

E-Mail-Klassifizierung mit SpaCy

Noch vor kurzer Zeit war E-Mail-Klassifikation mittels Deep Learning nur mit Spezialwissen und ausreichend Data Science Know-how möglich. Heute existieren sehr gute Open-Source-Bibliotheken mit fertigen Deep-Learning-Modellen, welche sehr weit optimiert...

Data
Machine Learning

28.4.2019 | 8 Minuten Lesezeit

Marcel Mikl

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Absenden

Große Sprachmodelle: Was ist ein LLM?

Schritt 1: Generatives Pre-Training

Schritt 2: überwachtes Nachtrainieren (Supervised fine-tuning)

Schritt 3: Reinforcement Learning from Human Feedback

Ausblick: Die Zukunft von ChatGPT und LLM

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Weitere Artikel in diesem Themenbereich

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Schnelles Training eines Recommendation-Modells durch BigQuery ML

KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben...

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

BIE Spotty – unsere Lösung beim BIE City Hackathon

Machine Learning in der Praxis. Eine Mate mit … Matthias Niehoff #EineMateMit

Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert

Machine-Learning-Modelle bewerten – die Crux mit den Testdaten

Deployment von Machine-Learning-Modellen mit Seldon Core

Data Science in der Praxis: Häufige Fehler und Vorgehen

Inbetriebnahme eines scikit-learn-Modells mit ONNX und FastAPI

Machine-Learning-Modelle bewerten – die Crux mit der Metrik

E-Mail-Klassifizierung mit SpaCy

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten