Referenz

KI-Sicherheits­glossar

Definitionen zentraler Begriffe aus KI-Sicherheit, DSGVO und LLM-Entwicklung.

C

Chain-of-Thought (CoT)
Prompt-Technik, bei der das Modell aufgefordert wird, seinen Denkprozess schrittweise zu erläutern. Verbessert die Genauigkeit bei komplexen Reasoning-Aufgaben, erhöht aber gleichzeitig die Token-Kosten.

D

DSGVO
Datenschutz-Grundverordnung (EU 2016/679). Europäisches Datenschutzrecht, das die Verarbeitung personenbezogener Daten regelt. Für KI-Systeme besonders relevant: Art. 22 (automatisierte Entscheidungen), Art. 25 (Privacy by Design), Art. 35 (DSFA).

E

Embedding
Numerische Vektordarstellung von Text oder anderen Daten in einem hochdimensionalen Raum. Embeddings ermöglichen semantische Ähnlichkeitssuche und sind Grundlage für RAG-Systeme und Vektordatenbanken.
EU AI Act
Verordnung (EU) 2024/1689 zur Regulierung von KI-Systemen nach Risikoklassen. Hochrisiko-KI (z. B. im HR, Kreditwesen, Strafverfolgung) unterliegt strengen Anforderungen an Transparenz, Dokumentation und Konformitätsbewertung. In Kraft seit August 2024.

F

Few-Shot Learning
Technik, bei der ein LLM durch wenige Beispiele im Prompt auf eine Aufgabe konditioniert wird, ohne Fine-Tuning. Kontrastiert mit Zero-Shot (kein Beispiel) und Many-Shot (viele Beispiele im Kontext).
Fine-Tuning
Weiteres Training eines vortrainierten LLM auf einem spezifischen Datensatz, um es auf bestimmte Aufgaben oder einen bestimmten Stil zu spezialisieren. Kann Halluzinationen reduzieren, aber auch neue Sicherheitsrisiken einführen.

H

Halluzination
Fachbegriff für Ausgaben eines LLM, die faktisch falsch, erfunden oder irreführend sind, vom Modell aber mit hoher Konfidenz präsentiert werden. Ein zentrales Sicherheitsrisiko in Produktivsystemen ohne Validierungsschicht.

J

Jailbreak
Angriff, bei dem ein Nutzer durch geschickte Prompt-Formulierungen die Sicherheitsrichtlinien eines LLM umgeht und das Modell dazu bringt, verbotene Inhalte zu generieren. Troja testet systematisch auf bekannte und neuartige Jailbreak-Muster.

L

LLM (Large Language Model)
Großes Sprachmodell, das auf umfangreichen Textmengen trainiert wurde. Bekannte Vertreter: GPT-4o (OpenAI), Claude (Anthropic), Gemini (Google), Mistral. LLMs bilden die Grundlage moderner KI-Assistenten und Agenten.

O

OWASP LLM Top 10
Von OWASP veröffentlichte Liste der 10 häufigsten Sicherheitsrisiken in LLM-basierten Systemen. Enthält u. a. Prompt Injection, Insecure Output Handling, Training Data Poisoning, Model Denial of Service. Grundlage für Trojas Scan-Framework.

P

PII (Personally Identifiable Information)
Personenbezogene Daten, die eine Person direkt oder indirekt identifizierbar machen. Beispiele: Name, Adresse, IBAN, Sozialversicherungsnummer, IP-Adresse, E-Mail. Nach DSGVO besonders schützenswert; π PII-Filter erkennt und anonymisiert PII vor LLM-Übertragung.
Prompt Injection
Angriff, bei dem schadhafter Text in einem Prompt das LLM dazu bringt, unbeabsichtigte Anweisungen auszuführen. Unterschieden wird zwischen direkter (im User-Prompt) und indirekter Injection (in externen Datenquellen, die das Modell liest). OWASP LLM Top 10 #1.

R

RAG (Retrieval-Augmented Generation)
Architekturmuster, bei dem ein LLM mit einer Wissensdatenbank (Vektordatenbank) kombiniert wird. Bei jeder Anfrage werden relevante Dokumente abgerufen und dem Prompt hinzugefügt. Reduziert Halluzinationen, schafft aber neue Injection-Angriffsflächen.
Red Teaming
Systematisches Testen eines KI-Systems durch ein Team, das versucht, Sicherheitslücken, Bias oder Missbrauchspotenzial aufzudecken. Troja automatisiert Red-Teaming-Szenarien auf Basis des OWASP LLM Top 10 Frameworks.
RLHF (Reinforcement Learning from Human Feedback)
Trainingsverfahren, bei dem ein LLM durch menschliche Bewertungen von Ausgaben verfeinert wird. Grundlage für Instruction-Tuning bei GPT-4, Claude und anderen modernen Modellen. Verbessert Hilfsbereitschaft, aber kann auch neue Schwachstellen einführen.

T

Token
Grundlegende Einheit, in die Text von LLMs zerlegt wird (ca. ¾ eines englischen Wortes). LLMs haben eine maximale Kontextlänge (Context Window) in Token. Token-Verbrauch bestimmt direkt die API-Kosten; Savior optimiert Token-Routing zur Kostenreduktion.

V

Vector Database
Datenbank, die für die effiziente Speicherung und Suche von Embedding-Vektoren optimiert ist. Beispiele: Pinecone, Weaviate, pgvector, Chroma. Kernkomponente in RAG-Architekturen.

Z

Zero-Shot Learning
Fähigkeit eines LLM, eine Aufgabe zu lösen, ohne dafür explizite Beispiele im Prompt zu erhalten. Modelle wie GPT-4 oder Claude 3 zeigen starke Zero-Shot-Fähigkeiten für viele Standard-Aufgaben.