Unausgereift: Risiken und Probleme beim Einsatz von KI in der Personalauswahl

Nehmen wir einmal an, ein Großunternehmen möchte wissen, welche Eigenschaften den Ausbildungserfolg von Lehrlingen erklären. Diese Merkmale will das Unternehmen später zur Auswahl neuer Lehrlinge einsetzen. Schon seit Jahrzehnten ließe sich diese Frage leicht beantworten, sofern ein hinreichend großer Datensatz im Personalcomputer schlummerte. Fast jeder Psychologiepraktikant könnte mithilfe einer Regressionsanalyse eine einfach Formel berechnen, der zufolge sich der Ausbildungserfolg in unserem fiktiven Fall beispielsweise aus 0,78 x Abiturschnitt + 1,02 x Intelligenzquotient + 0,25 x Gewissenhaftigkeit + 0,08 x Einschätzung im Einstellungsinterview ergibt.

Was ist künstliche Intelligenz?

Künstliche Intelligenz geht einen großen Schritt weiter. Der Computer optimiert eigenständig in mehreren aufeinanderfolgenden Lernphasen die Formel (= „Algorithmus“) immer weiter, sodass eine zunehmend bessere Erklärung der Ausbildungsleistung möglich ist. Die resultierenden Algorithmen sind aber mathematisch so komplex, dass sie für den Menschen kaum noch nachvollziehbar sind (= „black box“). Auf Basis des Algorithmus’ könnte der Computer – im Extremfall – bei zukünftigen Bewerbern eigenständig die relevanten Informationen abfragen, die individuelle Eignung berechnen und die künftigen Mitarbeiter auswählen. Zwischen der Berechnung der Formel auf der einen Seite und der kompletten Auswahl durch den Computer auf der anderen Seite sind alle Abstufungen der Entscheidungsfreiheit eines Computers denkbar.

Wie sehen KI-basierte Methoden der Personalauswahl aus?

Die Bandbreite möglicher Methoden ist sehr groß und geht weit über das soeben skizzierte Beispiel hinaus. Während die Merkmale der Bewerber im genannten Beispiel leicht nachvollziehbar sind und es nur noch darum geht, eine optimale Verrechnung der Einzelmerkmale zu einer Gesamteinschätzung der Personen zu erzielen, mutet bei manchen KI-Anbietern schon die Auswahl der Merkmale recht eigenwillig an. Da gibt es Anbieter, die beispielsweise auf Grundlage eines Anschreibens oder verschiedener Sprachparameter, die in einem kurzen Computerinterview erhoben werden (zum Beispiel Satzlänge, Häufigkeit bestimmter Wörter oder Betonungen), komplette Persönlichkeitsprofile erstellen. Andere durchforsten mithilfe einer Software die Einträge der Bewerber in sozialen Netzwerken und basteln aus den hier gefundenen Daten (wie der Anzahl der Interessengebiete oder der Menge der Fotos) Persönlichkeitsprofile. Wieder andere lassen den Computer ein Einstellungsinterview führen und deuten auf geheimnisvolle Weise die Physiognomie und Körpersprache eines Kandidaten. Wir dürfen gespannt sein, wie lange es noch dauert, bis irgendein Computeralgorithmus auch die Schuhgröße, die Handschrift oder das Tierkreiszeichen deutet. Geradezu banal erscheint in diesem Kontext ein Computer, der in den Bewerbungsunterlagen nach Stichwörtern fahndet, die passend zur Stellenanzeige sind (wie die Bezeichnung einer Ausbildung oder die Benennung relevanter Kompetenzen), um danach die Eignung der Person einzuschätzen.

Wo liegen die Chancen?

Grundsätzlich bietet der Einsatz von KI in der Personalauswahl aber Chancen. Sie bestehen vor allem darin, dass der derzeit in den meisten Unternehmen noch vorherrschenden Subjektivität der Entscheidungsträger Einhalt geboten wird und daraus validere Auswahlentscheidungen resultieren könnten. In etwa 50 Prozent der Fälle existieren heute bei der Sichtung der Bewerbungsunterlagen keine stellenspezifischen Kriterien. Stattdessen orientieren sich die Unternehmen mehrheitlich an Kriterien, die individuell gedeutet werden beziehungsweise nachweislich keine nennenswerte Aussagekraft besitzen (zum Beispiel Lücken im Lebenslauf oder Tippfehler im Anschreiben). Einstellungsinterviews laufen nach wie vor weitgehend unstrukturiert ab, obwohl die Forschung seit Jahrzenten zeigt, dass sich mit unstrukturierten Interviews die berufliche Leistung der Bewerber nur zu etwa vier bis 14 Prozent prognostizieren lässt. Ob eine bestimmte Person eine Stellenzusage bekommt, hängt in den meisten Unternehmen letztlich weniger von ihrer Eignung ab als vielmehr davon, ob sie den Entscheidungsträgern ein gutes Gefühl bereitet. Viele Entscheider glauben, dass ihr Bauchgefühl das eigentliche Messinstrument der Personalauswahl darstellt. Folgen wir der Forschung, so ist das Bauchgefühl jedoch nicht die Lösung, sondern das eigentliche Problem. Bewerber werden systematisch diskriminiert, ohne dass die Verantwortlichen dies merken. Der Einsatz von Algorithmen kann dabei helfen, sich gezielt an den Kriterien zu orientieren, die für eine bestimmte Stelle wichtig sind, und dabei die Willkür der Verfahren zu reduzieren.

Wo liegen die Risiken?

Die Potenziale der KI können sich nur dann entfalten, wenn die angebotenen Softwarelösungen tatsächlich das halten, was das Marketing der Anbieter verspricht. Genau hier fangen die Probleme an. Nach derzeitigem Stand des Wissens sind die meisten Algorithmen wohl nicht in der Lage, die berufliche Eignung für eine Stelle hinreichend gut zu prognostizieren. Für die Kunden ist dies leider kaum zu erkennen. Zum Teil veröffentlichen die Anbieter keine Studienergebnisse, so dass den Kunden keine Belege für die tatsächliche Aussagekraft vorliegen. Andere Anbieter interpretieren ihre Befunde falsch. Wenn eine Software beispielsweise zu 50 Prozent die Gewissenhaftigkeit eines Menschen erfassen kann, so ist sie damit nicht auch schon ein sinnvolles Diagnosetool, wie im Folgenden noch weiter erläutert werden wird. Letztlich kaufen Anwender sprichwörtlich die Katze im Sack, ohne sicher sein zu können, ob sich überhaupt irgendein Tier im Beutel befindet. Denn die Anbieter legen ihre Algorithmen grundsätzlich nicht offen. Eine unabhängige Prüfung der Qualität ist somit unmöglich. Mehr noch: Nichts hindert einen skrupellosen Marktteilnehmer daran, einfach zu behaupten, hier sei KI am Werke, obwohl er sich einfach irgendeine Formel ausgedacht hat. Die Leichtigkeit, mit der Diagnosen über Bewerber gestellt werden, verführt zudem zu einem völlig unreflektierten Einsatz der Methoden. Dies ist heute schon beim Einsatz von Testverfahren weithin gelebte Praxis.

Wie aussagekräftig sind KI-basierte Verfahren?

Die Forschung zu konkreten Methoden ist noch überschaubar, dennoch lassen sich ein paar grundlegende Probleme aufzeigen:

Auch wenn die Forschung belegt hat, dass beispielsweise Sprachkriterienoder Informationen aus sozialen Netzwerken mit grundlegenden Persönlichkeitsmerkmalen korrelieren, so sind diese Zusammenhänge in der Regel so gering, dass eine Anwendung in der Praxis kaum sinnvoll erscheint.
Sofern die Anbieter überhaupt irgendwelche Zahlen veröffentlichen, zeigen diese, wie gut ihre Software Persönlichkeitsmale erfassen kann. Die berichteten Zahlen liegen oft weit über denen der Forschung. Sie reichen zum Teil für einzelne Persönlichkeitsmerkmale bis zu etwa 50 Prozent. Dies bedeutet, dass sie mit ihrer Software zum Beispiel 50 Prozent der Gewissenhaftigkeit eines Menschen erklären, die zuvor über einen klassischen Fragebogen erfasst wurde. Der gute alte Fragebogen wäre also immer noch doppelt so aussagekräftig wie der Algorithmus und gleichzeitig sehr viel kostengünstiger.
Aus der Tatsache, dass ein Tool Persönlichkeitsmerkmale zu einem nennenswerten Anteil erklären kann, lässt sich nicht auf dessen Eignung für die Personalauswahl schließen. Dies liegt daran, dass klassische Persönlichkeitsmerkmale die berufliche Leistung in aller Regel nur zu wenigen Prozent prognostizieren können. Ein Tool, das die Gewissenhaftigkeit zu 50 Prozent erklärt, würde die berufliche Eignung des Bewerbers nur zu fünf Prozent prognostizieren können, wenn die Gewissenhaftigkeit selbst eine Prognosegüte von zehn Prozent hätte.
Die lernenden Algorithmen sind immer nur so gut wie die Qualität der Datensätze anhand derer sie gelernt haben. Liegt in einem Unternehmen keine qualitativ gute Leistungsbeurteilung vor – werden Beförderungen beispielsweise nicht auf der Grundlage der realen Leistung, sondern nach dem Prinzip „Vitamin B“ ausgesprochen –, kann auch der beste Algorithmus der Welt nicht die berufliche Leistung vorhersagen. Ein Auswahlverfahren auf Grundlage des KI-Tools würde im Bewerberpool also gegebenenfalls nicht die besten Mitarbeiter, sondern die größten Schleimer herausfiltern.
KI-Tools, die den Versuch unternehmen, in einem Unternehmen anhand vorhandener Daten Leistung zu prognostizieren, arbeiten zwangsläufig mit selektierten Stichproben, die eine gegebenenfalls vorherrschende Diskriminierung bestimmter Bevölkerungsgruppen zementieren, ohne dass dies irgendjemand merkt. In einem Unternehmen, in dem es nur zwei weibliche Führungskräfte gibt, die nicht besonders leistungsstark sind, würde der Algorithmus weibliche Bewerber negativer bewerten, obwohl ihre mangelnde Leistung individuell bedingt und nicht auf das Geschlecht zurückzuführen ist.
Algorithmen, die ausschließlich dazu entwickelt wurden, bestimmte Formulierungen in Bewerbungsunterlagen aufzuspüren, können keine validen Auswahlentscheidungen treffen, sofern nicht zuvor sichergestellt wurde, dass diese Informationen auch tatsächlich im Berufsalltag leistungsrelevant sind.

Kann KI den Menschen oder herkömmliche Diagnosemethoden ersetzen?

Nein, das kann sie sicherlich nicht und zwar nicht deshalb, weil der Mensch an sich der bessere Diagnostiker wäre – das ist er nicht –, sondern weil valide Personalauswahl immer spezifisch auf die Arbeitsaufgaben und die Arbeitsumgebung zugeschnitten sein muss. Genau dies ist die Aufgabe des diagnostischen Fachpersonals im Unternehmen. Es geht darum, die für eine bestimmte berufliche Aufgabe relevanten Kompetenzen vor Ort zu definieren und ein Auswahlverfahren zusammenzustellen, das mit verschiedenen Methoden arbeitet (zum Beispiel biografische Daten, Selbstauskünfte der Bewerber, Leistungstests, Verhaltensbeobachtungen und Arbeitsproben), sodass der Methodenmix die Schwächen der einzelnen Methoden ausgleicht. Selbst wenn die oben genannten Probleme der KI in einem bestimmten Tool bewältigt worden sind, wäre die künstliche Intelligenz nur eine weitere Methode neben vielen anderen.

Wie bewerten Bewerber KI-basierte Verfahren?

In Zeiten eines zunehmenden Fachkräftemangels müssen sich Arbeitgeber auch Gedanken darüber machen, wie ihre Auswahlverfahren auf Bewerber wirken. Eine bislang noch nicht veröffentlichte Studie (Kanning, Kraul & Litz, under review) unter 224 Studierenden (also potenziellen Bewerbern) und 202 Berufstätigen in Deutschland geht der Frage nach, wie potenzielle Bewerber und Mitarbeiter verschiedene Formen der Sprachanalyse sowie der Analyse von Internetdaten durch den Computer bewerten. Beide Gruppen sehen die Methoden zwar als „modern“ an, in allen anderen Kriterien schneiden sie aber signifikant schlechter ab als die klassische Bewerbungsmappensichtung oder das Einstellungsinterview. Wer heute KI-Methoden offen einsetzt, läuft also Gefahr, Bewerber zu vergraulen oder seinem Image zu schaden. Wer sie verdeckt einsetzt, handelt unethisch.

Wie wird sich der Einsatz der KI in der Personalauswahl entwickeln?

Diese Frage ist naturgemäß schwer zu beantworten. In den Personalabteilungen überwiegt bislang – anders als bei vielen der üblichen Modethemen, die alle paar Monate aufpoppen – eine skeptische Grundhaltung. Dies hat nicht zuletzt wohl auch damit zu tun, dass KI die Rolle der Personaler in Frage stellt und letztlich zum Abbau von Arbeitsplätzen in diesem Bereich beitragen könnte. Langfristig werden sich KI-basierte Methoden aber wohl auch völlig unabhängig von ihrer Qualität ausbreiten und zwar allein deshalb, weil es immer mehr Unternehmen ausprobieren und man fälschlicherweise davon ausgeht, dass Tausende von Anwendern sich nicht irren können.

Vielleicht nutzen wir diesmal die Zeit, bevor sich die Dinge verselbstständigen, um klare Standards festzulegen und die Spreu vom Weizen zu trennen. Nur so kann KI in der Personalauswahl als eine ergänzende Methode Potenziale entfalten und gleichzeitig viele Probleme abschütteln. Für potenzielle Anwender gibt es keinen Grund zur Hektik. Wer in Ruhe abwartet und in fünf Jahren einmal schaut, ob sich bestimmte Methoden nachweislich als effizient erwiesen haben, ist allemal besser dran als derjenige, der dem nächstbesten Trend unreflektiert hinterherrennt und dabei auf das falsche Pferd setzt. Die gewonnene Zeit ließe sich im Übrigen hervorragend nutzen, um im eigenen Haus den diagnostischen Sachverstand zu schärfen.

HRM.de als bevorzugte Quelle bei Google hinzufügen