Performance-Tests: Genauigkeit und Zuverlässigkeit messen
Performance-Tests messen, ob das System die definierten Leistungsanforderungen erfüllt: Train/Test/Validation-Split-Evaluierung auf repräsentativen Datensätzen, Out-of-Sample-Tests mit Daten aus dem realen Einsatzkontext, Zeitreihen-Evaluierung für Systeme mit temporalen Abhängigkeiten, Benchmarking gegen Baseline-Modelle und Branchenstandards. Wichtig: Tests müssen auf Daten durchgeführt werden, die den realen Einsatzbedingungen entsprechen. Ein System, das im Labor gut funktioniert, kann im Einsatz versagen.
Bias-Tests: Diskriminierung erkennen
Bias-Tests sind für viele Hochrisiko-Systeme gesetzlich erforderlich. Gängige Methoden: Disparate Impact Analysis (unterschiedliche Auswirkungen auf geschützte Gruppen), Fairness-Metriken (Statistical Parity, Equalized Odds, Calibration), Subgruppenanalysen nach Geschlecht, Alter, Herkunft, Intersektionalitätsanalysen (Kombination mehrerer Merkmale), Counterfactual Fairness-Tests. Dokumentieren Sie Testergebnisse vollständig, einschließlich identifizierter Biases und ergriffener Gegenmaßnahmen.
Robustheitstests: Verhalten bei unerwarteten Eingaben
Robustheitstests prüfen das Systemverhalten unter nicht-optimalen Bedingungen: Stress-Tests mit Grenzwerten und Edge Cases, Adversarial Robustness Testing (FGSM, PGD, AutoAttack), Distribution Shift Tests (Verhalten bei Daten aus anderen Quellen/Zeiträumen), Missing Data Tests (Verhalten bei fehlenden oder korrumpierten Eingaben), Fuzz-Testing (zufällige/unerwartete Eingaben). Diese Tests sollten in realen oder realitätsnahen Bedingungen durchgeführt werden.
Security-Tests: Angriffsvektoren prüfen
KI-spezifische Security-Tests umfassen: Data Poisoning Resistance Tests, Model Stealing Tests (API-Abfrage-basiert), Membership Inference Tests (können Trainingsdaten rekonstruiert werden?), Prompt Injection Tests (bei LLM-basierten Systemen), Privacy Attack Simulations. Security-Tests sollten von unabhängigen Red Teams durchgeführt werden, die nicht in die Entwicklung involviert sind. Dokumentieren Sie alle Testergebnisse und Remediationsmaßnahmen.
Test-Dokumentation für EU AI Act-Konformität
Die Testdokumentation ist Teil der technischen Dokumentation nach Art. 11 EU AI Act. Erforderlich: vollständige Testpläne und Testspezifikationen, verwendete Datensätze (Herkunft, Umfang, Repräsentativität), angewandte Testmethoden und Tools, vollständige Testergebnisse (auch negative!), identifizierte Mängel und ergriffene Abhilfemaßnahmen, Datum und Version der Tests, Qualifikation der Testverantwortlichen. Diese Dokumentation muss 10 Jahre nach Inverkehrbringen aufbewahrt werden.
AI Act Compliance Tool
Ist Ihr KI-System EU AI Act-konform?
Kostenlos prüfen in 10 Minuten — spezifisch für Ihr Unternehmen und Ihre Branche.
Jetzt Risiko prüfen →