Wie KI wirklich funktioniert: Von Wörtern zu Verständnis

ChatGPT versteht Ihre Fragen und gibt sinnvolle Antworten. Aber wie funktioniert das eigentlich? Wie wird aus Text Verständnis? Und wo ist das ganze Wissen gespeichert? Zeit für einen tiefen Blick unter die Haube.

Die große Herausforderung: Computer verstehen keine Wörter

Computer arbeiten mit Zahlen, nicht mit Wörtern. Das ist das fundamentale Problem, das KI lösen muss. Wenn Sie "Katze" schreiben, sieht der Computer nur eine Folge von Buchstaben. Er hat keine Ahnung, was eine Katze ist.

Die Lösung? Wir verwandeln Wörter in Zahlen - aber nicht irgendwelche Zahlen, sondern in mathematische Vektoren, die die Bedeutung der Wörter einfangen. Dieser Prozess heißt Embedding.

Schritt 1: Von Wörtern zu Token

Bevor wir Wörter in Vektoren verwandeln können, müssen wir sie in kleinere Einheiten zerlegen - sogenannte Token.

Beispiel: Tokenisierung


# Ein Satz wird in Token zerlegt
text = "Künstliche Intelligenz verändert die Welt"

# Mögliche Tokenisierung:
tokens = ["Künst", "liche", " Intell", "igenz", " ver", "ändert", " die", " Welt"]

# Warum nicht ganze Wörter?
# - "Veränderung", "verändert", "verändern" haben gemeinsame Teile
# - Token können wiederverwendet werden
# - Reduziert die Anzahl unterschiedlicher Einheiten

Ein modernes KI-Modell wie GPT-4 arbeitet mit etwa 50.000 bis 100.000 verschiedenen Token. Das reicht aus, um praktisch jeden Text in jeder Sprache darzustellen.

💡 Warum Token statt Buchstaben?

Buchstaben wären zu klein (zu viele Schritte), ganze Wörter zu groß (zu viele verschiedene). Token sind der Goldilocks-Kompromiss: genau richtig.

Schritt 2: Embeddings - Wörter werden zu Vektoren

Jetzt kommt die Magie: Jedes Token wird in einen hochdimensionalen Vektor verwandelt. Stellen Sie sich das wie Koordinaten im Raum vor - nur mit viel mehr Dimensionen.

Vereinfachtes Beispiel: 3D-Embeddings


# In der Realität haben Embeddings 768-4096 Dimensionen
# Hier vereinfacht in 3D:

embeddings = {
    "Katze":    [0.2,  0.8,  0.1],  # Tier, pelzig, klein
    "Hund":     [0.3,  0.7,  0.2],  # Tier, pelzig, mittel
    "Tiger":    [0.4,  0.6,  0.8],  # Tier, pelzig, gefährlich
    "Auto":     [0.9,  0.1,  0.3],  # Objekt, Metall, Transport
    "Fahrrad":  [0.8,  0.0,  0.2],  # Objekt, Metall, Transport
}

# Ähnliche Konzepte haben ähnliche Vektoren
# Distanz zwischen "Katze" und "Hund" < Distanz zwischen "Katze" und "Auto"

Das Geniale daran: Diese Vektoren werden nicht von Menschen definiert, sondern vom Modell während des Trainings gelernt. Das Modell entdeckt selbst, welche Wörter ähnlich sind.

Die Magie der Vektor-Arithmetik

In diesem Embedding-Raum passieren faszinierende Dinge. Man kann tatsächlich mit Wörtern rechnen:

Berühmte Beispiele

König - Mann + Frau ≈ Königin
Paris - Frankreich + Deutschland ≈ Berlin
Laufen - Langsam + Schnell ≈ Rennen

Die Beziehungen zwischen Wörtern werden zu mathematischen Operationen!

Schritt 3: Attention - Der Kontext macht die Bedeutung

Ein Wort allein hat selten eine eindeutige Bedeutung. "Bank" kann eine Sitzgelegenheit oder ein Geldinstitut sein. Hier kommt der Attention-Mechanismus ins Spiel.

🎯 Was ist Attention?

Attention ist die Fähigkeit des Modells, zu entscheiden, welche Wörter im Kontext wichtig sind, um die Bedeutung eines anderen Wortes zu verstehen.

Wie Attention funktioniert

Stellen Sie sich vor, Sie lesen den Satz: "Ich ging zur Bank und hob Geld ab." Das Modell macht Folgendes:

Query (Frage): "Was bedeutet 'Bank' in diesem Kontext?"
Keys (Schlüssel): Alle anderen Wörter im Satz
Values (Werte): Die Bedeutungen dieser Wörter

Vereinfachte Attention-Berechnung


# Für das Wort "Bank" im Satz
sentence = ["Ich", "ging", "zur", "Bank", "und", "hob", "Geld", "ab"]

# Attention-Gewichte (vereinfacht)
attention_weights = {
    "Ich":   0.05,   # wenig relevant
    "ging":  0.10,   # etwas relevant (Bewegung)
    "zur":   0.15,   # relevant (Richtung)
    "Bank":  0.20,   # selbst-referenz
    "und":   0.05,   # wenig relevant
    "hob":   0.15,   # sehr relevant!
    "Geld":  0.25,   # extrem relevant!
    "ab":    0.05    # wenig relevant
}

# "Geld" hat das höchste Gewicht → Bank = Geldinstitut

Multi-Head Attention: Viele Perspektiven gleichzeitig

Moderne Transformer nutzen nicht nur eine, sondern viele Attention-"Köpfe" gleichzeitig. Jeder Kopf achtet auf andere Aspekte:

Kopf 1: Grammatikalische Struktur (Subjekt-Verb-Objekt)
Kopf 2: Semantische Beziehungen (Wer macht was?)
Kopf 3: Zeitliche Abfolge (Was passiert wann?)
Kopf 4-16: Weitere spezialisierte Aspekte

Schritt 4: Layer - Vom Einfachen zum Komplexen

Ein Transformer-Modell besteht aus vielen Schichten (Layers), die aufeinander aufbauen. Jede Schicht versteht komplexere Zusammenhänge:

Was passiert in den verschiedenen Schichten?

Frühe Layer (1-6): Grundlegende Syntax, Wortarten, einfache Beziehungen
Mittlere Layer (7-18): Semantische Konzepte, Themen, Entitäten
Späte Layer (19-32): Abstrakte Konzepte, Logik, Schlussfolgerungen
Finale Layer: Aufgabenspezifische Ausgabe

Das ist wie beim Verstehen eines Textes: Erst erkennen Sie Buchstaben, dann Wörter, dann Sätze, dann die Bedeutung, und schließlich die Implikationen.

Wo ist das Wissen gespeichert?

Das ist die Millionen-Dollar-Frage! Das "Wissen" einer KI ist nicht an einem Ort gespeichert, sondern verteilt über Milliarden von Parametern.

1. In den Embeddings

Die Wort-Embeddings speichern grundlegende Bedeutungen und Beziehungen zwischen Konzepten. Hier "weiß" das Modell, dass Katzen und Hunde ähnlich sind.

2. In den Attention-Gewichten

Die trainierten Attention-Muster speichern, wie Wörter typischerweise miteinander interagieren. Hier lernt das Modell Grammatik und Kontext-Regeln.

3. In den Feed-Forward-Netzwerken

Zwischen den Attention-Layern gibt es Feed-Forward-Netzwerke. Diese speichern Faktenwissen:

Vereinfachtes Beispiel: Faktenspeicherung


# Ein Neuron könnte auf "Hauptstadt von Frankreich" reagieren:
def neuron_paris(input_pattern):
    if resembles(input_pattern, "capital_of_france"):
        return high_activation  # → "Paris"
    else:
        return low_activation

# Millionen solcher Neuronen speichern Fakten
# Aber verteilt und redundant, nicht wie eine Datenbank

⚠️ Wichtig zu verstehen

KI-Wissen ist nicht wie in einer Datenbank gespeichert. Es ist verteilt, redundant und emergent. Deshalb können KIs auch "halluzinieren" - sie interpolieren zwischen gelernten Mustern.

Von der Theorie zur Praxis

Was bedeutet das alles für die praktische Anwendung?

1. Warum Prompts so wichtig sind

Der Attention-Mechanismus nutzt Ihren kompletten Prompt als Kontext. Mehr Kontext = bessere Attention = präzisere Antworten.

Praktisches Beispiel

Schlechter Prompt: "Hauptstadt?"
Guter Prompt: "Was ist die Hauptstadt von Frankreich?"
Bester Prompt: "Ich plane eine Geschäftsreise. Was ist die Hauptstadt von Frankreich und welche Business-Hotels gibt es dort?"

Mehr Kontext aktiviert relevantere Neuronen!

2. Warum Fine-Tuning funktioniert

Beim Fine-Tuning passen wir die Gewichte an spezielle Aufgaben an. Wir "biegen" den Embedding-Raum so, dass firmespezifische Konzepte besser repräsentiert werden.

3. Warum KIs manchmal "vergessen"

Da Wissen verteilt gespeichert ist, kann neues Training altes Wissen überschreiben. Das nennt sich "catastrophic forgetting".

Die Grenzen des Systems

Trotz aller Komplexität hat das System klare Grenzen:

Kein echtes Verständnis: KI simuliert Verständnis durch Mustererkennung
Keine Kausalität: Korrelation wird oft mit Kausalität verwechselt
Begrenzer Kontext: Auch mit Attention kann nur begrenzt viel Text berücksichtigt werden
Statisches Wissen: Nach dem Training lernt das Modell nicht mehr dazu

Praktische Implikationen für Ihr Unternehmen

🎯 Embeddings nutzen

Verwenden Sie Embeddings für Ihre eigenen Daten. Ähnlichkeitssuche, Clustering und Klassifikation werden damit trivial.

🔍 Kontext maximieren

Geben Sie KI-Modellen immer ausreichend Kontext. Der Attention-Mechanismus kann nur arbeiten, wenn genug Information da ist.

📊 Spezialisierung durch Fine-Tuning

Für domänenspezifische Aufgaben lohnt sich Fine-Tuning. Die generellen Embeddings werden an Ihre Bedürfnisse angepasst.

Zusammenfassung: Das große Bild

KI-Modelle verwandeln Text in Zahlen (Embeddings), nutzen Attention um Kontext zu verstehen, bauen in vielen Layern immer komplexeres Verständnis auf, und speichern Wissen verteilt in Milliarden von Parametern.

Es ist keine Magie - es ist Mathematik. Aber es ist verdammt clevere Mathematik, die erstaunlich gut funktioniert.

🚀 Die Zukunft

Mit jedem Jahr werden die Modelle größer, die Embeddings ausdrucksstärker und die Attention-Mechanismen raffinierter. Was heute noch Science Fiction ist, wird morgen Alltag sein.

Möchten Sie KI-Technologie in Ihrem Unternehmen einsetzen? Wir helfen Ihnen, von der Theorie zur praktischen Anwendung zu kommen - verständlich, realistisch und erfolgreich.