Wie Künstliche Intelligenz wirklich funktioniert: Ein verständlicher Grundlagenartikel ohne Buzzwords

Jeder spricht über KI. Wenige verstehen, was tatsächlich passiert, wenn ChatGPT einen Text schreibt, Claude Code programmiert oder Midjourney ein Bild erzeugt. Dieser Artikel erklärt die Grundlagen so, dass man sie versteht, ohne Informatik studiert zu haben. Ohne Vereinfachung bis zur Falschheit. Ohne Buzzwords.

Was "Künstliche Intelligenz" bedeutet (und was nicht)

KI ist ein Oberbegriff. Er beschreibt Computersysteme, die Aufgaben erledigen, für die Menschen normalerweise Intelligenz brauchen: Sprache verstehen, Muster erkennen, Entscheidungen treffen, kreativ kombinieren.

Was KI 2026 NICHT ist: bewusst, fühlend oder "denkend" im menschlichen Sinne. Auch das leistungsfähigste Sprachmodell hat kein Verständnis von dem, was es sagt. Es berechnet die wahrscheinlichste Fortsetzung eines Textes. Extrem gut, aber fundamental anders als menschliches Denken.

Die KI, die 2026 den Alltag dominiert, heisst maschinelles Lernen (Machine Learning) und speziell Deep Learning: Programme, die aus grossen Datenmengen Muster lernen, statt von Menschen Regel für Regel programmiert zu werden.

Neuronale Netze: Das Grundprinzip

Ein neuronales Netz ist eine mathematische Struktur, inspiriert (sehr grob) vom menschlichen Gehirn. Es besteht aus "Neuronen" (Recheneinheiten), die in Schichten angeordnet sind:

Eingabeschicht: Nimmt Daten entgegen (Text, Bild, Ton)
Versteckte Schichten: Verarbeiten die Daten durch mathematische Operationen. Je mehr Schichten, desto "tiefer" das Netz (daher "Deep Learning")
Ausgabeschicht: Liefert das Ergebnis (nächstes Wort, Bildklassifikation, Übersetzung)

Jede Verbindung zwischen Neuronen hat ein "Gewicht": eine Zahl, die bestimmt, wie stark das Signal weitergegeben wird. Ein neuronales Netz mit 100 Milliarden solcher Gewichte (wie GPT-4) hat 100 Milliarden einstellbare Zahlen, die zusammen sein "Wissen" ausmachen.

Training: Wie die KI lernt

Ein untrainiertes Netz produziert Unsinn. Es wird brauchbar durch Training:

Daten sammeln: Grosse Mengen Text (Bücher, Websites, Code, Gespräche), Bilder, oder was auch immer das Modell können soll.
Vorhersage machen: Das Netz bekommt einen Teil der Daten und soll vorhersagen, was als nächstes kommt. Bei Sprache: "Der Hund sitzt auf dem ___".
Fehler messen: Das Netz sagt "Tisch", die richtige Antwort war "Sofa". Der Fehler wird als Zahl berechnet.
Gewichte anpassen: Die 100 Milliarden Gewichte werden ein winziges Stück in die Richtung verschoben, die den Fehler verringert. Das nennt man "Backpropagation".
Milliardenfach wiederholen: Das passiert für Milliarden von Textausschnitten. Nach genug Wiederholungen hat das Netz Muster gelernt: Grammatik, Fakten, Logik, Stil, Code-Syntax.

Dieses Training kostet Millionen. Nicht wegen der Software (die ist oft Open Source), sondern wegen der Hardware: Tausende Hochleistungs-GPUs (NVIDIA H100/Blackwell), die wochen- oder monatelang rechnen. GPT-4 zu trainieren hat geschätzt 100 Millionen Dollar gekostet. GPT-5.4 vermutlich mehr.

Transformer: Die Architektur hinter ChatGPT, Claude und Co.

2017 veröffentlichte Google ein Paper mit dem Titel "Attention Is All You Need". Es beschrieb eine neue Netzwerk-Architektur: den Transformer. Diese Architektur ist die Grundlage aller modernen Sprachmodelle.

Was den Transformer besonders macht: der Attention-Mechanismus. Statt Text Wort für Wort zu verarbeiten (wie ältere Modelle), kann ein Transformer bei jedem Wort auf alle anderen Wörter im Text "schauen" und entscheiden, welche am relevantesten sind.

Beispiel: In "Die Bank am Fluss war grün" muss das Modell wissen, dass "Bank" hier eine Sitzbank ist, nicht ein Finanzinstitut. Der Attention-Mechanismus erkennt, dass "Fluss" und "grün" auf eine Sitzbank hindeuten. Er gewichtet diese Wörter stärker als andere.

Diese Fähigkeit, Zusammenhänge über lange Texte hinweg zu erkennen, ist der Grund, warum Sprachmodelle 2026 so beeindruckend kohärent sind, selbst über tausende Wörter.

Token: Die Sprache der KI

Sprachmodelle lesen keine Wörter. Sie lesen Token. Ein Token ist ein Textfragment, typischerweise 3-4 Zeichen. "Künstliche Intelligenz" sind z.B. 4-5 Token. "KI" ist 1 Token.

Warum Token statt Wörter? Weil es effizienter ist. Das Modell muss nicht jedes Wort der Welt kennen. Es lernt, Wörter aus Fragmenten zusammenzusetzen. "Unver" + "ständ" + "lich" ergibt "unverständlich", auch wenn es das Wort nie als Ganzes gesehen hat.

Wenn von "GPT-5.4 hat 1 Million Token Kontext" die Rede ist, bedeutet das: Das Modell kann bei jeder Antwort die letzten ~750.000 Wörter des Gesprächs berücksichtigen. Zum Vergleich: "Herr der Ringe" (alle drei Bände) hat ca. 576.000 Wörter.

Inference: Wenn die KI antwortet

Training ist das Lernen. Inference ist die Anwendung: Das fertig trainierte Modell bekommt eine Frage und erzeugt eine Antwort.

Der Prozess, Token für Token:

User tippt: "Was ist die Hauptstadt von Frankreich?"
Das Modell berechnet: Welches Token kommt am wahrscheinlichsten als nächstes? Antwort: "Die"
Nächstes Token: "Haupt" (Wahrscheinlichkeit 94%)
Nächstes: "stadt" (99%)
Nächstes: "von" (97%)
Nächstes: "Frank" (98%)
Nächstes: "reich" (99%)
Nächstes: "ist" (92%)
Nächstes: "Paris" (99,5%)
Nächstes: "." (Endtoken)

Das passiert in Millisekunden. Jedes Token wird einzeln berechnet, basierend auf allem, was vorher kam. Das ist der Grund, warum KI-Antworten wortweise erscheinen, nicht als ganzer Block.

Warum KI halluziniert

Das grösste Problem von Sprachmodellen: Sie können Dinge erfinden, die plausibel klingen, aber falsch sind. Das nennt man Halluzination.

Warum? Weil das Modell nicht "weiss", was wahr ist. Es weiss nur, was wahrscheinlich klingt. Wenn man fragt "Wer hat den Nobelpreis für Physik 2019 gewonnen?", berechnet das Modell die wahrscheinlichste Antwort basierend auf seinen Trainingsdaten. Meistens stimmt das. Aber manchmal kombiniert es Fakten falsch, erfindet Quellen oder generiert plausibel klingende Zahlen, die nie existiert haben.

Das ist kein Bug, den man einfach fixen kann. Es ist eine Eigenschaft der Architektur. Sprachmodelle sind Muster-Vervollständiger, keine Wissens-Datenbanken. Deshalb ist Fact-Checking bei KI-generierten Inhalten unverzichtbar.

GPU, VRAM und warum KI so viel Hardware braucht

Neuronale Netze bestehen aus Matrix-Multiplikationen: Millionen von Zahlen, die mit Millionen anderen Zahlen multipliziert werden. GPUs (Grafikprozessoren) können das massiv parallel, CPUs nicht.

VRAM: Der Speicher der GPU. Ein Modell mit 70 Milliarden Parametern braucht ca. 35 GB VRAM (bei halber Genauigkeit). Eine NVIDIA RTX 4090 hat 24 GB. Reicht nicht. Deshalb laufen grosse Modelle auf Profi-GPUs (H100: 80 GB) oder werden auf mehrere GPUs verteilt.
Quantisierung: Man kann Modelle "kleiner rechnen", indem man die Genauigkeit der Zahlen reduziert (von 16-bit auf 8-bit oder 4-bit). Weniger Speicher, schnellere Berechnung, aber etwas weniger Qualität.
Training vs. Inference: Training braucht 10-100x mehr Rechenleistung als Inference. Deshalb trainiert OpenAI auf Clustern mit 25.000+ GPUs, aber Inference läuft auf verteilten, kleineren Setups.

RAG: Wie KI auf eigene Daten zugreift

Retrieval-Augmented Generation (RAG) ist die Technik, die KI-Systeme für Unternehmen nützlich macht. Das Prinzip:

User stellt eine Frage
Das System durchsucht eine Datenbank (SharePoint, Dateiserver, Handbücher) nach relevanten Dokumenten
Die relevantesten Ausschnitte werden dem Sprachmodell als Kontext mitgegeben
Das Modell antwortet basierend auf den gefundenen Dokumenten

Vorteil: Das Modell muss nicht alles "wissen". Es bekommt die richtigen Informationen zur Laufzeit. Dadurch sind die Antworten aktueller, genauer und nachprüfbar (man kann die Quellen anzeigen).

Nachteil: Die Qualität hängt von der Suche ab. Wenn das Retrieval die falschen Dokumente findet, antwortet das Modell basierend auf falschen Informationen. Deshalb ist die Pflege der Datenquellen und Suchindizes so wichtig.

Was 2026 anders ist als 2024

Agentische KI: Modelle können nicht nur antworten, sondern handeln: Dateien erstellen, APIs aufrufen, Software installieren, Webseiten navigieren. Das ist der grösste Sprung.
Reasoning: Neue Modelle (GPT-5.4, Claude Opus 4.6) können "nachdenken", also mehrere Schritte intern durchgehen, bevor sie antworten. Das verbessert Logik und Mathematik deutlich.
Multimodalität: Modelle verarbeiten Text, Bilder, Audio und Video gleichzeitig. Ein Modell kann ein Foto analysieren, die Situation beschreiben und Handlungsempfehlungen geben.
Lokale KI: Dank Quantisierung und besserer Hardware laufen brauchbare Modelle auf normalen PCs (Ollama, LM Studio). Nicht so gut wie die Cloud-Modelle, aber gut genug für viele Aufgaben. Und: Die Daten bleiben im Haus.

Was KI nicht kann (Stand 2026)

Verstehen: KI erkennt Muster und generiert Text. Sie versteht nicht, was sie sagt.
Zuverlässig Fakten liefern: Halluzinationen sind nicht gelöst. Für kritische Entscheidungen braucht es immer menschliche Überprüfung.
Kreativ im menschlichen Sinne sein: KI kombiniert Gelerntes neu. Sie hat keine Absicht, keine Vision, keine Meinung.
Sich selbst verbessern: KI-Modelle lernen nicht aus ihren eigenen Fehlern, es sei denn, sie werden explizit mit Feedback nachtrainiert (RLHF).

KI ist 2026 das mächtigste Werkzeug, das je gebaut wurde. Aber es ist ein Werkzeug. Wer versteht, wie es funktioniert, kann es besser einsetzen, seine Grenzen erkennen und Fehler vermeiden. Wer es als Magie behandelt, wird früher oder später von der Realität eingeholt.