Der zentrale Grund hierfür liegt darin, dass die wenigsten Entscheidungsträger auf der Kundenseite über hinreichendes Fachwissen zur Bewertung der Tests verfügen und daher die Angebote nicht kritisch genug hinterfragen können. Der vorliegende Beitrag verfolgt das Ziel, hier ein wenig Abhilfe zu schaffen.

man writing on paper
Foto von Scott Graham

Seit mehr als 100 Jahren gibt es in der Psychologie Forschung zu Testverfahren. Ein Test ist ein Instrument, das bestimmte Fähigkeiten eines Menschen (zum Beispiel Intelligenz oder soziale Kompetenzen) unter standardisierten Bedingungen misst. Messen bedeutet in diesem Zusammenhang, dass ein Verfahren die Ausprägung der Fähigkeiten in Form von Zahlenwerten ausdrückt. Das bekannteste Beispiel hierfür ist der Intelligenztest. Je intelligenter ein Mensch ist, desto mehr Punkte erzielt er in einem solchen Test.

Im Unterschied zu anderen Verfahren der Personaldiagnostik, wie etwa dem Interview oder dem Assessment-Center, werden seriöse Testverfahren in einem aufwendigen, mitunter mehrere Jahre währenden Prozess auf der Basis empirischer Studien konstruiert. Die Testentwickler geben klare Anweisungen, wie das Verfahren durchzuführen, auszuwerten und zu interpretieren ist. Aufgrund des großen Konstruktionsaufwandes handelt es sich in der Regel nicht um spezifische Instrumente für eine bestimmte Stelle, sondern um abstraktere Verfahren, die einen breiten Einsatzbereich abdecken. Allein schon aufgrund dieser Tatsache sollten Arbeitgeber Testverfahren niemals als alleiniges Kriterium zur Personalauswahl einsetzen. Sie ergänzen lediglich die für die fragliche Stelle maßgeschneiderten Instrumente, wie Interviews und Assessment-Center.

Grundsätzlich ist zwischen Leistungstests und Fragebögen zu unterscheiden (Abbildung 1).

Die Ergebnisse von Fragebögen lassen sich im Gegensatz zu denen von Leistungstests gezielt zum eigenen Vorteil manipulieren. Dies liegt daran, dass die Formulierung der Fragen in der Regel eine Vorstellung davon vermittelt, was der Arbeitsgeber sich wünscht (zum Beispiel teamfähige Mitarbeiter). Viele Studien belegen, dass sich Bewerber beim Einsatz von Fragebögen entsprechend positiv verzerrt darstellen. Interessanterweise schränkt dies nicht grundsätzlich die Aussagekraft (Validität) der Verfahren ein. Allerdings verändert sich die Rangordnung der Bewerber. Jemand, der zum Beispiel bei ehrlichen Antworten auf Rangplatz 10 liegt, könnte sich durch eine weit überdurchschnittliche Selbstdarstellung auf Rangplatz 1 vorarbeiten und damit die Wahrscheinlichkeit für eine Fehlentscheidung des Unternehmens erhöhen. Der Effekt der Rangplatzverschiebung ist für das Unternehmen umso problematischer, je weniger Stellen mit einem Verfahren zu besetzen sind. Würde ein Unternehmen, wie in unserem Beispiel, nur eine Stelle besetzen, so käme es zu einer Fehlentscheidung. Besetzt es hingegen 20 Stellen, ist das Problem deutlich geringer, da es den fraglichen Kandidaten auch eingestellt hätte, wenn er vollkommen ehrlich geantwortet hätte. Die meisten Fragebögen ignorieren dieses Problem. Als Anwender sollte man jedoch kritischer sein. Sind nur wenige Stellen zu besetzen, muss der Arbeitgeber die Ergebnisse auf ihre Stimmigkeit hin hinterfragen: Weist jemand, der sich als extrem leistungsmotiviert darstellt, einen passenden Lebenslauf auf? Ist es realistisch, dass ein Bewerber auf zehn Fähigkeitsdimensionen zu den fünf Prozent derjenigen Personen mit maximaler Ausprägung gehört? Zudem können Arbeitgeber einen Zusatzfragebogen einsetzen, der zumindest die ex-tremsten Selbstdarsteller identifiziert.

Die Testanwender stehen vor dem Problem, aus einer immensen Vielfalt auswählen zu müssen. Während die Entwicklung und der Vertrieb von Testverfahren ursprünglich eine Domäne der Wissenschaft war, dürfte heute die Mehrheit der eingesetzten Tests von Beratungsunternehmen entwickelt beziehungsweise vertrieben werden. Unabhängig von ihrer Herkunft bemisst sich die Qualität eines Tests insbesondere nach den folgenden Kriterien:

  • Objektivität: Der Begriff der Objektivität wird in der Diagnostik anders verwendet als im Alltagsprachgebrauch. Die Objektivität eines Verfahrens ist umso höher, je weniger ein Diagnostiker Einfluss auf das Ergebnis nehmen kann. Optimal sind in diesem Zusammenhang computergestützte Tests, weil hier Testablauf und Auswertung ohne Ansehen des Probanden immer identisch ablaufen.
  • Reliabilität: Jede Messung – ob in der Personaldiagnostik oder in der Physik – hat einen Messfehler. Die Reliabilität gibt Aufschluss darüber, wie groß der Messfehler eines Testverfahrens ist. Ausgedrückt wird die Reliabilität in Form einer mathematischen Kenngröße, dem sogenannten Reliabilitätskoeffizienten.Um ihn bestimmen zu können, müssen die Testentwickler empirische Studien durchführen. Grundsätzlich ist die sogenannte Innere Konsistenz („Cronbachs Alpha“) zu berechnen. Sie macht eine Aussage darüber, inwieweit alle Items, die ein bestimmtes Merkmal messen, zueinander gehören. Darüber hinaus ist zu überprüfen, inwieweit das Messergebnis konstant bleibt, wenn dieselben Menschen das Verfahren im Abstand von einigen Monaten zweimal durchlaufen (Retest-Reliabilität). Als international gültige Mindestanforderung gilt ein Wert von mindestens 0,7 (Wertebereich: 0–1,0).
  • Validität: Die Validität macht eine Aussage darüber, inwieweit ein Testverfahren tatsächlich dasjenige Merkmal erfasst, das erfasst werden soll. Auch hier sind empirische Studien notwendig, um den sogenannten Validitätskoeffizienten berechnen zu können. Da es sehr viele Möglichkeiten gibt, die Validität zu ermitteln, müssen auch mehrere Studien vorliegen. Häufig handelt es sich dabei um Untersuchungen, die zum Beispiel einen neuen Intelligenztest mit einem etablierten Intelligenztest korrelieren (Innere Kriterienbezogene Validität). Anspruchsvoller sind Studien, die Ergebnisse des Testverfahrens mit Kriterien des beruflichen Lebens (etwa Leistung oder Zufriedenheit) korrelieren (Äußere Kriterienbezogene Validität). Für die Praxis besonders interessant sind Studien, die im Längsschnitt nachweisen, dass sich mit Hilfe des Tests berufsrelevante Kriterien prognostizieren lassen (Prognostische Validität). Die Materie ist zu komplex, als dass sie hier auch nur annähernd erschöpfend dargestellt werden kann. Beispielsweise spielt bei der Interpretation der Validitätskoeffizienten auch eine Rolle, welche Stichproben verwendet wurden oder über welchen Zeitraum hinweg eine prognostische Validität berechnet wurde. Bei der Auswahl eines Testverfahrens sollten sich die Anwender daher gegebenenfalls unabhängigen Rat suchen.
  • Normierung: Bei Instrumenten, die aus der Wissenschaft stammen, ist es seit Jahrzehnten üblich, Normwerte anzubieten. Diese liefern ein Bezugssystem zur Interpretation der Testergebnisse. Sie sagen aus, inwieweit ein Wert als unter-, über- oder durchschnittlich zu gelten hat. Die bekannteste Normierung stellt der Intelligenzquotient dar. Ein IQ von 100 repräsentiert die kognitive Leistung, die in der Normstichprobe (in der Regel > 1000 Menschen) die meisten Personen aufweisen. Unterhalb von 85 Punkten kann die Leistung als unter-, und oberhalb von 115 als überdurchschnittlich bezeichnet werden. Alternativ zu solchen Normwerten könnten größere Unternehmen auch ein eigenes Bezugssystem berechnen, beispielsweise, indem sie herausfinden, welchen Mindestwert die besonders erfolgreichen Auszubildenden im Test aufweisen. Da derartige Bezugssysteme fast nie existieren, kommt den Normwerten der Testanbieter eine große Bedeutung zu, denn es ist leider nicht so, dass die Anwender an der Anzahl der Punktwerte eines Testverfahrens einfach die Ausprägung der Fähigkeit des Probanden ablesen können. Hierzu ein Beispiel: Ein Leistungstest weist 50 Aufgaben auf und ein Proband löst 40 davon. Auf den ersten Blick scheint dies eine gute Leistung zu sein. Dass diese Interpretation voreilig war, wird erst erkennbar, wenn man weiß, dass 80 Prozent der Menschen 45 Aufgaben lösen.

Eine besondere Gruppe von Instrumenten stellen projektive Verfahren dar. Sie basieren meist auf psychoanalytischen Überlegungen und gelten in der internationalen Forschung seit Jahrzehnten als überholt. Von jeher war ihr Einsatzgebiet eher die Psychiatrie als die Wirtschaft. Der bekannteste von ihnen ist der Rohrschachtest, bei dem die Probanden verschiedene Karten mit Tintenklecksen deuten. Auch das Anordnen von Farbtafeln nach dem subjektiven Wohlempfinden (Lüscher-Farben-Test) gehört in diese Kategorie. Projektive Verfahren haben bei allen soeben erläuterten Qualitätskriterien massive Mängel. Von ihrer Anwendung ist grundsätzlich abzuraten. Zudem sind projektive Verfahren wie der Rohrschachtest keine psychometrischen Verfahren, wie in dem Artikel „Auswahl von Potenzialanalyse-Verfahren“ in Ausgabe 5/12 dargestellt wurde. „Psychometrie“ bedeutet, dass man menschliche Fähigkeiten und Fertigkeiten quantifiziert, also in Zahlen umwandelt. Genau dies leisten projektive Verfahren nicht.

Einige wenige Instrumente arbeiten heute noch mit Typologien. In der Wissenschaft ist dies schon seit Jahrzehnten nicht mehr üblich. Im Gegensatz zu zeitgenössischen Verfahren, die das Fähigkeitsprofil eines Menschen differenziert über die Ausprägung mehrerer Kompetenzdimensionen beschreiben, nehmen Typologien grobe Kategorisierungen nach dem Prinzip „Der Bewerber ist ein Mensch der Kategorie X.“ vor. Das Ziel ist dabei – wie in Ausgabe 5/12 beschrieben – Komplexität zu reduzieren. Genau das ist aber das Problem. Entweder arbeitet ein Verfahren mit sehr vielen Typen, damit jeder Mensch einigermaßen eindeutig einer Gruppe zugeordnet werden kann, und verfehlt dann das Ziel der Übersichtlichkeit. Oder es bietet sehr wenige Typen, die so unscharf definiert sind, dass möglichst viele unterschiedliche Menschen hineinpassen. In diesem Fall ist die Aussage, dass ein Mensch der Kategorie X zuzuordnen ist, weitgehend wertlos. Typologien ignorieren die Vielfalt des Menschen. Hinzu kommt, dass sie sich mitunter auf extrem veraltete Modelle – etwa von C. G. Jung – beziehen, die wissenschaftlich nicht hinreichend abgesichert wurden. Alles in allem spricht mehr gegen die Anwendung von typenbasierten Testverfahren als für sie.

Fragebögen erfassen die Beschreibung einer Person. Zwar gibt es auch hier ein „richtig und falsch“ – jemand könnte zum Beispiel wissentlich die Unwahrheit ankreuzen –, ob eine Angabe richtig oder falsch ist, lässt sich aber kaum feststellen. Aufgrund der vielfach belegten Tatsache, dass Menschen sich selbst und andere in systematischer Weise verzerrt wahrnehmen, bilden Fragebogendaten die Realität immer nur unvollständig ab. Dies bedeutet aber nicht, dass sie wertlos sind. Auch wenn ein Fragebogen die Teamfähigkeit eines Bewerbers nicht völlig unverzerrt erfasst, ist es durchaus möglich, dass das Ergebnis ein wertvoller Baustein in einem komplexen Auswahlverfahren ist. Wie nützlich die Ergebnisse sind, lässt sich aber letztlich nur durch empirische Studien belegen. Inhaltlich
decken Fragebögen ein sehr breites Spektrum ab, angefangen von allgemeinen Persönlichkeitsmerkmalen über berufsbezogene Merkmale, soziale Kompetenzen, Motive und Interessen bis hin zu biografischen Fakten. Methodisch arbeitet man in diesem Bereich oft mit papiergestützten Instrumenten. Meist existieren inzwischen aber auch computergestützte Varianten. Manche Verfahren setzen zusätzlich zu Texten auch Bilder oder kurze Filmsequenzen ein. Fast alle bitten den Probanden um eine Selbsteinschätzung, manche erheben zusätzlich Fremdbilder, etwa im Rahmen einer 360-Grad-Beurteilung.

An der Schnittstelle zwischen Leistungstests und Fragebögen bewegen sich Situational Judgment Tests. Sie konfrontieren den Probanden mit Darstellungen von Situationen aus dem Berufsalltag und verschiedenen Verhaltensalternativen. Die Aufgabe des Probanden ist es, entweder anzukreuzen, welches Verhalten in der Situation grundsätzlich das beste ist oder wie er sich in der fraglichen Situation verhalten würde. Situational Judgment Tests sind heute noch ein Ausnahme. Der Grund hierfür liegt darin, dass Anwender die Verfahren in aller Regel maßgeschneidert für einen bestimmten Arbeitsplatz beziehungsweise eine Gruppe von Arbeitsplätzen entwickeln (lassen). In den meisten Organisationen fehlt jedoch das methodische Knowhow zur Entwicklung derartiger Verfahren. Zudem scheuen viele Unternehmen den Aufwand.

In der kommenden Ausgabe der Zeitschrift personal manager erscheint der zweite Teil des Beitrags, der sich mit Auswahl und Einsatz von Testverfahren beschäftigt.

Quelle: personal manager Zeitschrift für Human Resources Ausgabe 1 Jänner / Februar 2013

Leistungstests konfrontieren die Probanden mit Aufgaben, bei denen es eine objektiv richtige oder falsche Lösung gibt. Der Prototyp hierfür sind Intelligenztests, bei denen die Teilnehmer zum Beispiel Zahlenreihen ergänzen oder Zusammenhänge zwischen sprachlichen Begriffen erkennen müssen (2, 4, 6, 8, 10, ?; „Hund“ verhält sich zu „Welpe“ wie „Kuh“ zu „?“). Innerhalb der Gruppe der Leistungstests unterscheiden sich die Verfahren hinsichtlich ihrer inhaltlichen Ausrichtung. Manche Verfahren differenzieren verschiedene Facetten der Intelligenz, zum Beispiel bezogen auf den Umgang mit Sprache, Zahlen oder geometrischen Figuren, während andere nur einen allgemeinen Intelligenzindikator erfassen. Wieder andere beziehen sich ausschließlich auf die Konzentrationsfähigkeit oder erheben das allgemeine beziehungsweise berufsspezifische Wissen. Neben der inhaltlichen Ausrichtung lassen sich die Instrumente hinsichtlich ihrer Methodik abgrenzen. An die Seite der klassischen papiergestützten Tests treten zunehmend computergestützte Varianten. Sehr selten sind heute noch sogenannte adaptive Testverfahren, bei denen der Computer in der laufenden Untersuchung berechnet, welche Aufgaben für das Leistungsniveau des Probanden adäquat sind, so dass niemand viel zu leichte oder viel zu schwere Aufgaben bearbeiten muss. Sie sind extrem aufwendig in der Entwicklung. Beispielsweise benötigen sie deutlich mehr Items als herkömmliche Verfahren.

Testverfahren zur Messung der Konzentrationsfähigkeit arbeiten mit sehr einfachen Aufgaben, die nahezu jeder Mensch fehlerfrei lösen könnte. Allerdings müssen die Probanden die Aufgaben unter großem Zeitdruck bearbeiten. Bei diesen sogenannten Speed-Tests geht es darum, möglichst schnell Aufgaben zu lösen. Bei einem reinen Power-Test wäre es genau umgekehrt. Hier liegt keine Zeitbegrenzung vor, die Aufgaben werden jedoch zunehmend schwieriger, so dass früher oder später jeder an seine Grenzen stößt. Die allermeisten Testverfahren stellen eine Mischung aus beiden Prinzipien dar: Die Aufgaben werden zunehmend schwieriger und müssen in einer begrenzten Zeit bearbeitet werden. Eine Besonderheit sind computergestützte Problemlöseszenarien. Wie bei einem Computerspiel durchläuft der Proband eine Simulation, in der er zum Beispiel ein Unternehmen leiten muss. Die Aufgaben sind komplex und miteinander vernetzt. In Abhängigkeit von den Entscheidungen verändert sich die Situation, so dass der Proband sich immer wieder auf Neues einstellen muss. Letztlich geht es hierbei um das Lösen komplexer Probleme, die im besten Falle eine Nähe zum Berufsalltag aufweisen. Leistungstests zur Messung der allgemeinen Intelligenz schneiden in Metaanalysen – dies sind Studien, die Ergebnisse vieler Einzelstudien statistisch zusammenfassen – hervorragend ab, wenn es um die Prognose von Ausbildungs- oder Berufserfolg geht. Differenziert man nicht zwischen verschiedenen Berufen oder Arbeitplätzen, so ist der Intelligenztest allen übrigen Verfahren überlegen. Das bedeutet jedoch nicht, dass Unternehmen immer und ausschließlich Intelligenztests einsetzen sollten. Besonders relevant ist die Intelligenzmessung für Arbeitsplätze, auf denen die Stelleninhaber viel lernen beziehungsweise komplexe Aufgaben rational lösen müssen. Da die Intelligenz eines Menschen kaum mit der sozialen Kompetenz korreliert ist, sollte der Intelligenztest trotz seiner besonders hohen Validität immer nur einen Baustein neben mehreren anderen darstellen.