Wie KI wirklich funktioniert: Von Wörtern zu Verständnis
Eine verständliche Erklärung, wie KI-Modelle aus Wörtern Bedeutung extrahieren, Zusammenhänge verstehen und wo ihr Wissen gespeichert ist.
ChatGPT versteht Ihre Fragen und gibt sinnvolle Antworten. Aber wie funktioniert das eigentlich? Wie wird aus Text Verständnis? Und wo ist das ganze Wissen gespeichert? Zeit für einen tiefen Blick unter die Haube.
Die große Herausforderung: Computer verstehen keine Wörter
Computer arbeiten mit Zahlen, nicht mit Wörtern. Das ist das fundamentale Problem, das KI lösen muss. Wenn Sie "Katze" schreiben, sieht der Computer nur eine Folge von Buchstaben. Er hat keine Ahnung, was eine Katze ist.
Die Lösung? Wir verwandeln Wörter in Zahlen - aber nicht irgendwelche Zahlen, sondern in mathematische Vektoren, die die Bedeutung der Wörter einfangen. Dieser Prozess heißt Embedding.
Schritt 1: Von Wörtern zu Token
Bevor wir Wörter in Vektoren verwandeln können, müssen wir sie in kleinere Einheiten zerlegen - sogenannte Token.
Beispiel: Tokenisierung
# Ein Satz wird in Token zerlegt
text = "Künstliche Intelligenz verändert die Welt"
# Mögliche Tokenisierung:
tokens = ["Künst", "liche", " Intell", "igenz", " ver", "ändert", " die", " Welt"]
# Warum nicht ganze Wörter?
# - "Veränderung", "verändert", "verändern" haben gemeinsame Teile
# - Token können wiederverwendet werden
# - Reduziert die Anzahl unterschiedlicher Einheiten
Ein modernes KI-Modell wie GPT-4 arbeitet mit etwa 50.000 bis 100.000 verschiedenen Token. Das reicht aus, um praktisch jeden Text in jeder Sprache darzustellen.
💡 Warum Token statt Buchstaben?
Buchstaben wären zu klein (zu viele Schritte), ganze Wörter zu groß (zu viele verschiedene). Token sind der Goldilocks-Kompromiss: genau richtig.
Schritt 2: Embeddings - Wörter werden zu Vektoren
Jetzt kommt die Magie: Jedes Token wird in einen hochdimensionalen Vektor verwandelt. Stellen Sie sich das wie Koordinaten im Raum vor - nur mit viel mehr Dimensionen.
Vereinfachtes Beispiel: 3D-Embeddings
# In der Realität haben Embeddings 768-4096 Dimensionen
# Hier vereinfacht in 3D:
embeddings = {
"Katze": [0.2, 0.8, 0.1], # Tier, pelzig, klein
"Hund": [0.3, 0.7, 0.2], # Tier, pelzig, mittel
"Tiger": [0.4, 0.6, 0.8], # Tier, pelzig, gefährlich
"Auto": [0.9, 0.1, 0.3], # Objekt, Metall, Transport
"Fahrrad": [0.8, 0.0, 0.2], # Objekt, Metall, Transport
}
# Ähnliche Konzepte haben ähnliche Vektoren
# Distanz zwischen "Katze" und "Hund" < Distanz zwischen "Katze" und "Auto"
Das Geniale daran: Diese Vektoren werden nicht von Menschen definiert, sondern vom Modell während des Trainings gelernt. Das Modell entdeckt selbst, welche Wörter ähnlich sind.
Die Magie der Vektor-Arithmetik
In diesem Embedding-Raum passieren faszinierende Dinge. Man kann tatsächlich mit Wörtern rechnen:
Berühmte Beispiele
- König - Mann + Frau ≈ Königin
- Paris - Frankreich + Deutschland ≈ Berlin
- Laufen - Langsam + Schnell ≈ Rennen
Die Beziehungen zwischen Wörtern werden zu mathematischen Operationen!
Schritt 3: Attention - Der Kontext macht die Bedeutung
Ein Wort allein hat selten eine eindeutige Bedeutung. "Bank" kann eine Sitzgelegenheit oder ein Geldinstitut sein. Hier kommt der Attention-Mechanismus ins Spiel.
🎯 Was ist Attention?
Attention ist die Fähigkeit des Modells, zu entscheiden, welche Wörter im Kontext wichtig sind, um die Bedeutung eines anderen Wortes zu verstehen.
Wie Attention funktioniert
Stellen Sie sich vor, Sie lesen den Satz: "Ich ging zur Bank und hob Geld ab." Das Modell macht Folgendes:
- Query (Frage): "Was bedeutet 'Bank' in diesem Kontext?"
- Keys (Schlüssel): Alle anderen Wörter im Satz
- Values (Werte): Die Bedeutungen dieser Wörter
Vereinfachte Attention-Berechnung
# Für das Wort "Bank" im Satz
sentence = ["Ich", "ging", "zur", "Bank", "und", "hob", "Geld", "ab"]
# Attention-Gewichte (vereinfacht)
attention_weights = {
"Ich": 0.05, # wenig relevant
"ging": 0.10, # etwas relevant (Bewegung)
"zur": 0.15, # relevant (Richtung)
"Bank": 0.20, # selbst-referenz
"und": 0.05, # wenig relevant
"hob": 0.15, # sehr relevant!
"Geld": 0.25, # extrem relevant!
"ab": 0.05 # wenig relevant
}
# "Geld" hat das höchste Gewicht → Bank = Geldinstitut
Multi-Head Attention: Viele Perspektiven gleichzeitig
Moderne Transformer nutzen nicht nur eine, sondern viele Attention-"Köpfe" gleichzeitig. Jeder Kopf achtet auf andere Aspekte:
- Kopf 1: Grammatikalische Struktur (Subjekt-Verb-Objekt)
- Kopf 2: Semantische Beziehungen (Wer macht was?)
- Kopf 3: Zeitliche Abfolge (Was passiert wann?)
- Kopf 4-16: Weitere spezialisierte Aspekte
Schritt 4: Layer - Vom Einfachen zum Komplexen
Ein Transformer-Modell besteht aus vielen Schichten (Layers), die aufeinander aufbauen. Jede Schicht versteht komplexere Zusammenhänge:
Was passiert in den verschiedenen Schichten?
- Frühe Layer (1-6): Grundlegende Syntax, Wortarten, einfache Beziehungen
- Mittlere Layer (7-18): Semantische Konzepte, Themen, Entitäten
- Späte Layer (19-32): Abstrakte Konzepte, Logik, Schlussfolgerungen
- Finale Layer: Aufgabenspezifische Ausgabe
Das ist wie beim Verstehen eines Textes: Erst erkennen Sie Buchstaben, dann Wörter, dann Sätze, dann die Bedeutung, und schließlich die Implikationen.
Wo ist das Wissen gespeichert?
Das ist die Millionen-Dollar-Frage! Das "Wissen" einer KI ist nicht an einem Ort gespeichert, sondern verteilt über Milliarden von Parametern.
1. In den Embeddings
Die Wort-Embeddings speichern grundlegende Bedeutungen und Beziehungen zwischen Konzepten. Hier "weiß" das Modell, dass Katzen und Hunde ähnlich sind.
2. In den Attention-Gewichten
Die trainierten Attention-Muster speichern, wie Wörter typischerweise miteinander interagieren. Hier lernt das Modell Grammatik und Kontext-Regeln.
3. In den Feed-Forward-Netzwerken
Zwischen den Attention-Layern gibt es Feed-Forward-Netzwerke. Diese speichern Faktenwissen:
Vereinfachtes Beispiel: Faktenspeicherung
# Ein Neuron könnte auf "Hauptstadt von Frankreich" reagieren:
def neuron_paris(input_pattern):
if resembles(input_pattern, "capital_of_france"):
return high_activation # → "Paris"
else:
return low_activation
# Millionen solcher Neuronen speichern Fakten
# Aber verteilt und redundant, nicht wie eine Datenbank
⚠️ Wichtig zu verstehen
KI-Wissen ist nicht wie in einer Datenbank gespeichert. Es ist verteilt, redundant und emergent. Deshalb können KIs auch "halluzinieren" - sie interpolieren zwischen gelernten Mustern.
Von der Theorie zur Praxis
Was bedeutet das alles für die praktische Anwendung?
1. Warum Prompts so wichtig sind
Der Attention-Mechanismus nutzt Ihren kompletten Prompt als Kontext. Mehr Kontext = bessere Attention = präzisere Antworten.
Praktisches Beispiel
- Schlechter Prompt: "Hauptstadt?"
- Guter Prompt: "Was ist die Hauptstadt von Frankreich?"
- Bester Prompt: "Ich plane eine Geschäftsreise. Was ist die Hauptstadt von Frankreich und welche Business-Hotels gibt es dort?"
Mehr Kontext aktiviert relevantere Neuronen!
2. Warum Fine-Tuning funktioniert
Beim Fine-Tuning passen wir die Gewichte an spezielle Aufgaben an. Wir "biegen" den Embedding-Raum so, dass firmespezifische Konzepte besser repräsentiert werden.
3. Warum KIs manchmal "vergessen"
Da Wissen verteilt gespeichert ist, kann neues Training altes Wissen überschreiben. Das nennt sich "catastrophic forgetting".
Die Grenzen des Systems
Trotz aller Komplexität hat das System klare Grenzen:
- Kein echtes Verständnis: KI simuliert Verständnis durch Mustererkennung
- Keine Kausalität: Korrelation wird oft mit Kausalität verwechselt
- Begrenzer Kontext: Auch mit Attention kann nur begrenzt viel Text berücksichtigt werden
- Statisches Wissen: Nach dem Training lernt das Modell nicht mehr dazu
Praktische Implikationen für Ihr Unternehmen
🎯 Embeddings nutzen
Verwenden Sie Embeddings für Ihre eigenen Daten. Ähnlichkeitssuche, Clustering und Klassifikation werden damit trivial.
🔍 Kontext maximieren
Geben Sie KI-Modellen immer ausreichend Kontext. Der Attention-Mechanismus kann nur arbeiten, wenn genug Information da ist.
📊 Spezialisierung durch Fine-Tuning
Für domänenspezifische Aufgaben lohnt sich Fine-Tuning. Die generellen Embeddings werden an Ihre Bedürfnisse angepasst.
Zusammenfassung: Das große Bild
KI-Modelle verwandeln Text in Zahlen (Embeddings), nutzen Attention um Kontext zu verstehen, bauen in vielen Layern immer komplexeres Verständnis auf, und speichern Wissen verteilt in Milliarden von Parametern.
Es ist keine Magie - es ist Mathematik. Aber es ist verdammt clevere Mathematik, die erstaunlich gut funktioniert.
🚀 Die Zukunft
Mit jedem Jahr werden die Modelle größer, die Embeddings ausdrucksstärker und die Attention-Mechanismen raffinierter. Was heute noch Science Fiction ist, wird morgen Alltag sein.
Möchten Sie KI-Technologie in Ihrem Unternehmen einsetzen? Wir helfen Ihnen, von der Theorie zur praktischen Anwendung zu kommen - verständlich, realistisch und erfolgreich.