Online-Assessments unter Druck: Wie Online-Assessments trotz KI-Lösungshilfe valide bleiben

Alexander Zimmerhofer
Online-Assessments

Online-Assessments gehörten – viele groß angelegte Studien belegen dies – lange Zeit zu den wirksamsten Instrumenten, um Berufseignung effizient, valide und fair vorherzusagen.

Zu Recht stellt sich jedoch heute die Frage, ob das in Zeiten von KI noch gilt: Kandidat:innen können KI-Tools ganz einfach nutzen, um bessere Bearbeitungsergebnisse zu erzielen.

Ein schlichtes Beispiel aus der Online-Assessment-Welt: Eine Bewerberin auf eine Azubi-Stelle soll zu Hause einen kurzen Mathetest bearbeiten – etwa Prozentrechnungen, Dreisatzaufgaben oder Ähnliches. Früher hätte man aus dem Ergebnis vor allem auf mathematisches Verständnis geschlossen. Heute kann, so die Sorge, dieselbe Person die Aufgabe abfotografieren und per Screenshot an ein KI-Tool geben und sich in Sekunden den Rechenweg samt Lösung ausgeben lassen.

Aber statt zu fragen, ob Online-Tests überhaupt noch funktionieren, sollten wir präziser fragen: Unter welchen Bedingungen liefern sie weiterhin diagnostisch belastbare Informationen?

Die kurze Antwort: Online-Assessments machen Personalauswahl – auch zu Zeiten von KI – besser, wenn sie professionell konstruiert, sinnvoll in den Auswahlprozess eingebettet und passend professionell gegen Täuschungsversuche abgesichert werden. Denn wie bei jeder Diagnostik geht es nicht um maximale Fehlerfreiheit, sondern um Fehlerkontrolle.

Ein Blutdruckmessgerät liefert auch nicht bei jeder Messung exakt denselben Wert. Schon Körperhaltung, Tageszeit, Aufregung, Manschettensitz usw. beeinflussen das Ergebnis. Niemand käme deshalb auf die Idee, Blutdruckmessungen grundsätzlich abzuschaffen. Man standardisiert die Bedingungen, wiederholt gegebenenfalls die Messung und interpretiert Ergebnisse fachkundig. Genau so sollte man über Eignungsdiagnostik sprechen.

Online-Assessments sind nämlich kein Orakel. Aber sie sind, richtig eingesetzt, deutlich objektiver, valider und effizienter als viele vermeintlich aussagekräftige Auswahlmethoden wie unstrukturierte Interviews, Lebenslauf-Analysen und Co.

Das Messproblem: Nicht jeder Störfaktor zerstört die Diagnostik

In jeder Messung, ob bei Online-Assessments oder bei der Blutdruckmessung, gibt es wahre Varianz und Fehlervarianz. Die wahre Varianz ist das, was uns interessiert: Unterschiede in relevanten Fähigkeiten etc. Wenn eine Person zum Beispiel tatsächlich schneller logisch schlussfolgert als eine andere, ist das eine diagnostisch relevante Information; es ist also die wahre Varianz. Fehlervarianz ist dagegen alles, was das Ergebnis beeinflusst, obwohl es diagnostisch nicht „gemeint“ ist: etwa leicht missverständliche Aufgaben, die für eine bestimmte Bearbeitungsgruppe die Leistung im Test schmälern, für eine andere vielleicht nicht.

Bei Online-Tests können solche Störfaktoren zum Beispiel sein: technische Probleme, Ablenkung, unterschiedliche Bearbeitungsumgebungen, fremde Hilfe, Nachschlagen im Internet oder eben KI-Nutzung.

Somit gab es solche Störfaktoren schon immer. Die entscheidende Frage lautet daher nicht: „Kann es Störfaktoren geben?“. Die Antwort ist immer: ja. Die entscheidende Frage lautet: „Welche Störfaktoren sind für diesen Test, diese Zielgruppe und diese Auswahlentscheidung relevant – und wie stark müssen wir sie kontrollieren?“.

Es gilt ein einfaches Prinzip: Je wichtiger der Test bzw. das Testergebnis, desto sorgfältiger müssen Durchführung, Kommunikation und Absicherung gestaltet werden. Und das war schon lange vor KI so.

Diagnostik in Zeiten der KI: Was jetzt zählt

Unser Whitepaper zeigt in 10 praxisnahen Punkten, worauf Organisationen jetzt achten sollten, um Eignung auch unter KI-Bedingungen fundiert, fair und belastbar zu beurteilen.

Welche Kompetenz messen wir eigentlich?
Klare KI-Regeln
Robuste Online-Assessments
Strukturierte Interviews
KI-resiliente Assessment Center
Proctoring mit Augenmaß

Kostenloses Whitepaper
herunterladen:

1. Testsetting klären: Wo wird getestet?

Der erste große Unterschied liegt im Testort. Ein Online-Test unter kontrollierten Bedingungen, zum Beispiel in einem Testzentrum, in Räumen eines Unternehmens, einer Behörde oder Hochschule, hat andere Rahmenbedingungen als ein unbegleiteter Test von zu Hause. Bei der Testung in einem Testraum lassen sich Identität, Hilfsmittel, Umgebung und damit die Bearbeitungsbedingungen relativ gut kontrollieren.

Bei einer Testung von zu Hause steigt die Freiheit der Kandidat:innen; und damit auch die Möglichkeit, unerlaubte Hilfsmittel zu nutzen. KI ist dabei nur die aktuell prominenteste Variante. Früher waren es Suchmaschinen, Taschenrechner, zweite Bildschirme, Messenger-Gruppen oder Personen im Raum, die die Leistungen verfälschten.

Das bedeutet jedoch nicht, dass Assessments von zu Hause wertlos sind. Es bedeutet, dass man bewusster entscheiden muss, was dort gemessen werden soll und wie man überwacht.

Für manche Verfahren ist das Risiko geringer. Persönlichkeitsfragebögen, Interesseninventare oder berufsbezogene Selbstbeschreibungen sind durch KI nicht im gleichen Sinne „lösbar“ wie Wissens- oder Intelligenzaufgaben. Allerdings kann KI auch hier Impression Management unterstützen, etwa indem Antworten automatisiert durch eine KI an eine vermutete Wunschrolle angepasst werden.

Praxis-Tipp: Unterscheiden Sie früh zwischen „low stakes“, „medium stakes“ und „high stakes“. Low stakes meint etwa ein Test zur freiwilligen Orientierung oder zur Selbstreflexion; medium stakes meint die Vorauswahl, bei der ein Testergebnis ein wichtiges, aber nicht alleiniges Kriterium ist; high stakes sind Auswahlentscheidungen mit unmittelbaren Konsequenzen, etwa Zulassung, Einstellung oder Beförderung. Ein unüberwachter Online-Test kann für Orientierung, Selbstselektion oder Vorauswahl sehr sinnvoll sein. Für die endgültigen Auswahlentscheidungen sollte er entweder mit weiteren Verfahren kombiniert oder durch ein kontrollierteres Setting ersetzt werden.

2. Beaufsichtigung wählen: Wie viel Kontrolle ist angemessen?

In Wirklichkeit ist es gar nicht der Testraum, der Testungen im Unternehmen sicherer macht. Es ist die Testüberwachung. Eine Person also, die schaut, ob unerlaubte Hilfsmittel eingesetzt werden.

Digital gestütztes Proctoring, also technische Testüberwachung bei Online-Testungen, denkt diese Idee konsequent weiter und verschiebt die Testüberwachung in die „Remote-Welt“. Dabei reicht das Spektrum von sehr schlanken technischen Überprüfungen bis zur Live-Beaufsichtigung mit Identitätsprüfung, Webcam und Bildschirmfreigabe.

Allerdings sollte man ernsthaft auch eine Testung vor Ort in Erwägung ziehen. Das bedeutet zwar, dass Teilnehmende an einen bestimmten Ort anreisen müssen; zugleich entsteht dadurch aber eine zusätzliche Chance: Organisationen können den Termin für direkte Interaktion nutzen, das Unternehmen oder die Institution vorstellen, Fragen beantworten und bereits im Auswahlprozess positive Arbeitgebererlebnisse schaffen. Gerade bei wichtigen Auswahlentscheidungen kann eine Präsenztestung somit nicht nur diagnostische Sicherheit erhöhen, sondern auch zum Employer Branding beitragen.

Alles hat aber auch eine Kehrseite: Nicht jedes Verfahren braucht maximale Kontrolle der Testbedingungen. Zu viel Überwachung kann Akzeptanz kosten, datenschutzrechtlich anspruchsvoll sein und unnötig teuer werden. Zu wenig Kontrolle kann dagegen die Aussagekraft des Ergebnisses gefährden. Entscheidend ist also die Passung.

Eine niedrigschwellige, technische Sicherheitsmaßnahme für Testungen von zu Hause ist die Erkennung von Fokuswechseln. Dabei wird erfasst, ob Kandidat:innen während der Bearbeitung den Browser-Tab verlassen oder andere Programme öffnen. Das ist kein endgültiger Betrugsbeweis. Es kann aber ein diagnostisch relevanter Hinweis sein: Wiederholte oder lange Wechsel während eines Leistungstests können darauf hindeuten, dass externe Informationen, andere Anwendungen oder Hilfsmittel genutzt wurden – oder dass technische bzw. situative Störungen vorlagen. In jedem Fall sollte das Ergebnis dann vorsichtiger interpretiert und gegebenenfalls mit einer zweiten Testung vor Ort validiert werden.

Stärkere Varianten sind Foto-Proctoring, Video-Review oder Live-Proctoring. Sie können Identitätsprüfung (Personalausweis-Check), Webcam-Aufnahmen, Bildschirmaufzeichnungen und/oder eine zweite Kameraüberwachung enthalten (meist wird dann noch von „hinten“ auf die Person und den Rechner gefilmt). Der Nutzen liegt darin, die Testbedingungen stärker zu standardisieren und unerlaubte Hilfsmittel wahrscheinlicher zu erkennen.

Dabei gilt: Proctoring sollte nicht als Misstrauenssignal gestaltet werden, sondern als Fairnessmaßnahme. Die Botschaft lautet nicht: „Wir trauen Ihnen nicht.“ Die Botschaft lautet: „Wir wollen, dass alle Teilnehmenden unter vergleichbaren Bedingungen zeigen können, was sie können.“

Praxis-Tipp: Wählen Sie die Sicherheitsstufe anhand von drei Fragen: Wie wichtig ist das Testergebnis für die Entscheidung? Wie leicht wäre das Verfahren mit KI oder anderen Hilfsmitteln zu beeinflussen? Wie hoch ist der Schaden einer falschen Auswahlentscheidung?

3. Kommunikation gestalten: Was passiert bei Auffälligkeiten?

Ein häufig unterschätzter Punkt ist die Vorab-Kommunikation mit Blick auf die Durchführungssicherheit. Viele Organisationen investieren in Tests und technische Absicherung, formulieren aber unklar, welche Regeln bei der Durchführung gelten. Das ist problematisch: diagnostisch, rechtlich und psychologisch.

Teilnehmende müssen vor Testbeginn wissen, welche Hilfsmittel erlaubt sind, welche nicht, welche Proctoring-Daten erhoben werden und was bei Auffälligkeiten geschieht. Dazu gehört auch eine eindeutige Erklärung zum KI-Einsatz. Wenn KI nicht erlaubt ist, sollte dies explizit benannt und aktiv bestätigt werden. Geeignet sind kurze, verständliche Aussagen wie: „Ich bearbeite den Test eigenständig“, „Ich nutze keine KI-Tools oder andere nicht erlaubte Hilfsmittel“ oder „Ich bestätige, dass ich die Regeln zur Bearbeitung verstanden habe.“ Diese Bestätigung sollte unmittelbar vor Teststart erfolgen, nicht irgendwo in einem langen Datenschutzhinweis o.Ä.

Eine solche Bestätigung erfüllt mehrere Funktionen. Erstens schafft sie Transparenz. Zweitens erhöht sie die Verbindlichkeit. Drittens schützt sie die Organisation, weil sie im Fall von Auffälligkeiten auf klare Prozessregeln verweisen kann. Viertens unterstützt sie die Fairness gegenüber denjenigen, die sich an die Regeln halten.

Wichtig ist auch: Auffälligkeiten sollten nicht automatisch zu harten Konsequenzen, wie einem Ausschluss aus dem Verfahren, führen. Ein Fokuswechsel kann viele Gründe haben: Pop-up, Systemmeldung, versehentliches Klicken, technische Probleme. Deshalb sollte der Prozess abgestuft sein. Auffällige Bearbeitungsverläufe können überprüft, mit weiteren Daten abgeglichen oder in einem nachgelagerten Test oder kurzen Gespräch plausibilisiert werden.

Praxis-Tipp: Formulieren Sie vorab drei Dinge eindeutig: erlaubte Hilfsmittel, nicht erlaubte Hilfsmittel und den Umgang mit Auffälligkeiten. Lassen Sie sich aktiv von den Teilnehmenden bestätigen, dass sie keine unerlaubten Hilfsmittel verwenden.

4. Validität prüfen: Misst das Verfahren wirklich das, was es messen soll?

Die vielleicht spannendste Frage lautet: Ist KI-Einsatz im Assessment überhaupt grundsätzlich ein Problem? Die Antwort hängt davon ab, ob das Verfahren die relevanten Fähigkeiten tatsächlich so erfasst, wie sie später gebraucht werden. Genau das meint der Begriff der Validität.

Die Antwort lautet: Es kommt darauf an, was Sie messen wollen.

Wenn ein Test erfassen soll, ob jemand eine Aufgabe ohne Hilfsmittel lösen kann, dann ist KI-Nutzung ein Störfaktor. Beispiel: mathematische Probleme lösen, Rechtschreibung oder berufsbezogenes Wissen. In diesen Fällen verfälscht KI die Aussage über die Fähigkeiten der Person.

Wenn die spätere Tätigkeit aber gerade darin besteht, mit KI zu recherchieren, KI-generierte Entwürfe zu prüfen, Ergebnisse zu hinterfragen und produktiv mit Tools zu arbeiten, kann KI-Nutzung sogar die Realitätsnähe erhöhen. Dann lautet die diagnostische Frage nicht: „Kann die Person das ohne KI?“, sondern: „Wie gut nutzt die Person KI als Arbeitsmittel… kritisch, effizient, reflektiert und aufgabengerecht?“

Damit verschiebt sich der zu messende Kompetenzbereich. Neben fachlichem Wissen geht es dann um Prompting, Quellenbewertung, Plausibilitätsprüfung, fachliche Einordnung sowie Umgang mit Unsicherheit. Genau diese Fähigkeiten werden in vielen beruflichen Rollen relevanter.

Entscheidend ist daher die saubere Trennung zweier Assessment-Logiken:

Erstens: KI-freie Diagnostik. Hier geht es um Fähigkeiten, die unabhängig von Hilfsmitteln erfasst werden sollen, etwa grundlegendes logisch-analytisches Denken, sprachliche Präzision oder fachliches Basiswissen. Dafür braucht es klare Regeln, Absicherung und gegebenenfalls Beaufsichtigung.

Zweitens: KI-integrierte Diagnostik. Hier wird KI zugelassen oder sogar deren Einsatz bewusst verlangt. Dann muss aber nicht nur das Ergebnis bewertet werden, sondern der Umgang mit der KI: Welche Fragen stellt die Person? Erkennt sie Fehler? Prüft sie Quellen? Versteht sie den Output? Kann sie ihn auf den konkreten Kontext übertragen? Trifft sie ein begründetes Urteil?

Nicht ganz vergleichbar, aber strukturell ähnlich, ist der Taschenrechner in der Mathematik. Beim Testen der Kopfrechnen-Kompetenz wäre er ein unerlaubtes Hilfsmittel. In einer Controlling-Aufgabe wäre es absurd, seine Nutzung zu verbieten. Dort interessiert, ob die Person Zahlen versteht, Annahmen prüft und tragfähige Schlussfolgerungen zieht. Es interessiert eben nicht, wer gut im Kopfrechnen ist.

Praxis-Tipp: Entscheiden Sie pro Diagnostikbaustein, ob KI ein Störfaktor oder dessen Nutzung Teil der Arbeitsrealität ist. Diese Entscheidung sollte aus dem Anforderungsprofil abgeleitet werden und nicht allein aus der Sorge, dass KI zu Täuschungszwecken genutzt werden könnte. Wenn KI bewusst zugelassen wird, kann eine kurze, nachgelagerte Reflexion, zum Beispiel in einem strukturierten Video-Call, helfen zu prüfen, ob die Person den eigenen Lösungsweg und die KI-Ergebnisse fachlich erklären kann.

Back to paper? Nein. Aber zurück zur Diagnostik.

Dass in einzelnen Organisationen wieder über Papier-Tests nachgedacht wird, zeigt vor allem die Verunsicherung im Umgang mit Digitalisierung. Verständlich ist dieser Impuls – überzeugend ist er kaum: In der Praxis wäre das meist ein Rückschritt und keine tragfähige Lösung.

Testverfahren im Papierformat sind nicht automatisch valider, also nicht automatisch aussagekräftiger im Hinblick auf das, was sie messen sollen. Sie sind weniger effizient, aufwendiger auszuwerten und oft weniger kandidatenfreundlich. Bei internationalen oder dezentralen Verfahren sind sie zudem organisatorisch schwerer umzusetzen.

Außerdem lösen sie nicht das Kernproblem der Verfälschbarkeit: Auch Papier-Tests können abgeschrieben oder vorab bekannt werden, wenn sie nicht gut beaufsichtigt werden. Auch dort wachsen die technischen Möglichkeiten, einen Test besser abzuschließen, ohne dass dies unmittelbar auffällt – smarte Brillen sind nur ein Beispiel.

Die bessere Antwort lautet daher nicht „zurück zu Papier“, sondern „vorwärts zu professioneller Prozessarchitektur“.

Das bedeutet: Online-Assessments sollten nicht isoliert als einzelnes Tool betrachtet werden. Sie sind Teil eines diagnostischen Systems. Dazu gehören ein klares Anforderungsprofil, passende Sicherheitsstufen, transparente Kommunikation, sinnvolle Kombination mit strukturierten Interviews, Arbeitsproben oder Verhaltenssimulationen und eine fachkundige Interpretation der Ergebnisse. Eine solche Prozessarchitektur reduziert Verfälschbarkeit nicht durch eine einzelne Maßnahme, sondern durch mehrere aufeinander abgestimmte Sicherungen: klare Regeln vorab, angemessene Kontrolle während der Bearbeitung und Plausibilisierung auffälliger Ergebnisse im weiteren Verfahren.

Gerade in Zeiten von KI wird professionelle Eignungsdiagnostik wichtiger. Denn die zentrale Kompetenz besteht nicht darin, irgendeinen Test online zu stellen. Sie besteht darin, zu entscheiden, welche Informationen unter welchen Bedingungen erhoben werden sollten – und wie belastbar diese Informationen für die konkrete Auswahlentscheidung sind.

Fazit: KI macht Online-Assessments nicht überflüssig. Sie macht gutes Assessment wichtiger.

Online-Assessments bleiben ein zentraler Baustein professioneller Personalauswahl. Sie sind effizient, objektiv, skalierbar und, bei guter Konstruktion, hoch relevant für die Vorhersage beruflicher Leistung. KI verändert die Spielregeln, aber sie entwertet nicht automatisch das Verfahren.

Was sich ändert, ist der Anspruch an die Gestaltung. Organisationen müssen genauer definieren, was gemessen werden soll, wie die Durchführung abgesichert wird, welche Hilfsmittel erlaubt sind und ob KI als Störfaktor oder als Teil der zu messenden Kompetenz betrachtet wird.

Wer Online-Assessments einfach unverändert weiterlaufen lässt, riskiert Messfehler. Wer wegen KI Tests streicht, verliert häufig Effizienz, Fairness, Validität und damit diagnostische Qualität.

Der richtige Weg liegt dazwischen: differenzieren, absichern, transparent kommunizieren und die Verfahren dort weiterentwickeln, wo KI bereits Teil der Arbeitsrealität ist.

Professionelle Personalauswahl war nie fehlerfrei. Aber sie kann Fehler systematisch reduzieren. Genau darin liegt der Wert guter Online-Assessments – auch und gerade in Zeiten der KI.

Das könnte Sie auch interessieren

Leadership

Online-Assessments unter Druck: Wie Online-Assessments trotz KI-Lösungshilfe valide bleiben

Das Messproblem: Nicht jeder Störfaktor zerstört die Diagnostik

Diagnostik in Zeiten der KI: Was jetzt zählt

Kostenloses Whitepaper
herunterladen:

1. Testsetting klären: Wo wird getestet?

2. Beaufsichtigung wählen: Wie viel Kontrolle ist angemessen?

3. Kommunikation gestalten: Was passiert bei Auffälligkeiten?

4. Validität prüfen: Misst das Verfahren wirklich das, was es messen soll?

Back to paper? Nein. Aber zurück zur Diagnostik.

Fazit: KI macht Online-Assessments nicht überflüssig. Sie macht gutes Assessment wichtiger.

Das könnte Sie auch interessieren

Performance UND Zufriedenheit steigern: Erfolgsfaktor Führung

Ab unter die Dusche – Wertschätzung in der Systemischen Eignungsdiagnostik

Das HR-Playbook zur Planung von 360 Grad Feedback: 4 Schritte zu Wirkung, Akzeptanz und ROI

Mit unserem Newsletter bleiben Sie auf dem Laufenden

Online-Assessments unter Druck: Wie Online-Assessments trotz KI-Lösungshilfe valide bleiben

Das Messproblem: Nicht jeder Störfaktor zerstört die Diagnostik

Diagnostik in Zeiten der KI: Was jetzt zählt

Kostenloses Whitepaper herunterladen:

1. Testsetting klären: Wo wird getestet?

2. Beaufsichtigung wählen: Wie viel Kontrolle ist angemessen?

3. Kommunikation gestalten: Was passiert bei Auffälligkeiten?

4. Validität prüfen: Misst das Verfahren wirklich das, was es messen soll?

Back to paper? Nein. Aber zurück zur Diagnostik.

Fazit: KI macht Online-Assessments nicht überflüssig. Sie macht gutes Assessment wichtiger.

Das könnte Sie auch interessieren

Performance UND Zufriedenheit steigern: Erfolgsfaktor Führung

Ab unter die Dusche – Wertschätzung in der Systemischen Eignungsdiagnostik

Das HR-Playbook zur Planung von 360 Grad Feedback: 4 Schritte zu Wirkung, Akzeptanz und ROI

Mit unserem Newsletter bleiben Sie auf dem Laufenden

Kostenloses Whitepaper
herunterladen: