Skip to main content

Test als Methode in der wissenschaftlichen Psychologie: Bedeutung, Anwendung & Auswertung


Menschen streben danach, sich selbst und andere zu verstehen.
Ein Mittel dafür ist die Vielzahl an wissenschaftlichen Tests, welche verschiedene Eigenschaften unserer Psyche erheben sollen. Die Testergebnisse sollen uns bei der Einschätzung unseres Wesens und dem Vergleich mit anderen helfen.

  • Doch was muss bei psychologischen Testungen alles beachtet werden?
  • Was macht einen wissenschaftlichen Test aus und wie läuft er ab?

Die Antworten auf diese Fragen und eine Beschreibung der verschiedenen Testarten, welche in der wissenschaftlichen Psychologie eingesetzt werden – liefern die folgenden Absätze.

Was bezeichnet man als Test in der wissenschaftlichen Psychologie

Persönlichkeitsmerkmale sind nicht sichtbar, aber messbar.
Ein wissenschaftliches Verfahren zur Erfassung von einem oder mehreren psychologischen Merkmalen wird als Test bezeichnet.

Dieser zielt darauf ab, möglichst genaue quantitative Aussagen über den Grad der Merkmalsausprägung zu machen. Quantitativ bedeutet, dass Daten erhoben und mittels statistischer Methoden ausgewertet werden. Um einen Test durchführen zu können, muss eine Theorie über das zu messende Merkmal existieren und der Test muss bestimmten Qualitätsansprüchen genügen.

Die grundlegende Annahme ist die, dass das menschliche Verhalten auf bestimmte Persönlichkeitsmerkmale zurückgeführt werden kann. So kann zum Beispiel die Ängstlichkeit einer Person erfasst werden oder auch die Extraversion. Letzteres beschreibt, wie gesprächig oder bestimmt jemand ist oder dass er sich gern in Gruppen aufhält.

Wie laufen psychologische Testungen ab?

Eine Testung verläuft in mehreren Phasen.
Die Testung teilt sich in die Testdurchführung und die Testauswertung auf. Beide Schritte bestehen jeweils wieder aus anderen Unterschritten. So besteht die Testdurchführung aus einer Vorbereitungs- und einer Testphase.

In der Vorbereitungsphase werden verschiedene Punkte geklärt:

  • Die fachliche Qualifikation und Erfahrung des Testers,
  • die Auswahl des Tests,
  • Informationen für die Testpersonen und deren Einverständniserklärung
  • sowie die Planung des Ablaufs
  • und das Schaffen einer geeigneten Atmosphäre für den Test.

In der Testphase muss die Instruktion des Testmanuals (Testhandbuch) beachtet werden. Dieses enthält standardisierte Angaben zur Durchführung. Außerdem muss darauf geachtet werden, dass Täuschungsversuche oder Verfälschungen vermieden werden.

Die Anfertigung eines Protokolls ist ebenfalls Teil der Testphase. Die Testperson enthält zum Beispiel Fragebögen mit verschiedenen Items. Bei einem Item handelt es sich um eine Testaufgabe. Dieses kann eine Frage sein oder eine Aussage, zu dem die Testperson ihre Zustimmung gibt. Diese wird zum Beispiel durch eine Skala von 1 bis 5 erfasst. Die 1 stünde etwa für eine geringe und die 5 für eine sehr hohe Zustimmung.

Die Testauswertung umfasst die Ergebnisauswertung, deren Interpretation und die Sicherung. Dabei werden die Ergebnisse mittels standardisierter Methoden ausgewertet. Es wird besonderen Wert auf die Exaktheit und Korrektheit gelegt. Die Auswertung der Ergebnisse muss auch für die Testperson transparent gemacht werden, sofern diese das fordert.

Bei der Interpretation der Ergebnisse werden alle möglichen Einflussfaktoren berücksichtigt. Das können zum Beispiel wechselnde Testräume oder Tester sein. Reliabilität (Zuverlässigkeit) und Validität (Qualität) werden ebenso geprüft. Für die Interpretation der individuellen Ergebnisse einer Testperson werden Norm- oder Vergleichswerte herangezogen. Schließlich findet noch eine strukturierte Erläuterung der Ergebnisse statt.

Im letzten Schritt der Testauswertung geht es um die Sicherung. Hierbei geht es um Richtlinien zur Aufbewahrung der Testdaten und deren Herausgabe. Nicht anonymisierte Daten dürfen nur nach ausdrücklicher Zustimmung durch die Testperson herausgegeben werden.

Norm- und kriteriumsorientierte Tests in der wissenschaftlichen Psychologie

Bei einer Normorientierten wird der individuelle Testwert einer Person als Normwert bestimmt.
Das heißt, dass der Wert dieser Testperson zu einer Norm- beziehungsweise Bezugsgruppe ins Verhältnis gesetzt wird. Dabei wird entweder mit Prozentrangnormen oder mit standardisierten z-Normwerten gearbeitet.

Was heißt das?
Ein Prozentrang zeigt, wie viel Prozent der Bezugsgruppe einen gleich hohen oder niedrigeren Wert erzielt haben als die Testperson. Aus der Berechnung der Prozentränge wird eine Normtabelle gebildet. In dieser wird jedem Prozentrang zwischen 1 und 100 ein jeweiliger Testwert zugeordnet. Der z-Normwert hingegen gibt die Abweichung des individuellen Testwerts vom Mittelwert und der Standardabweichung der Bezugsgruppe an.

Mittels z-Normwerten kann zum Beispiel der Intelligenzquotient berechnet werden. Erzielt die Testperson etwa einen Wert von -0.33 bei einem Intelligenztest, wird dieser mit der Standardabweichung von 15 multipliziert und mit dem Mittelwert 100 addiert. Daraus ergibt sich ein IQ-Wert von 95. Da der Mittelwert der Bezugsgruppe bei 100 liegt, besteht hier also eine Abweichung von 5 IQ-Punkten.

Leistungstest in der wissenschaftlichen Psychologie

Hierbei geht es um die Lösung von Problemen oder Testaufgaben. Unterschieden werden Speed-Tests und Power-Tests.

Ein Beispiel für einen Speed-Test ist der d2 Aufmerksamkeits-Belastungstest von Brickenkamp.
Der Testperson wird ein Blatt Papier vorgelegt, auf welchem die Buchstaben „p“ und „d“ zu sehen sind. Über und unter jedem Buchstaben befinden sich ein oder zwei Striche. Aufgabe ist es nun, innerhalb eines bestimmten Zeitfensters alle „d“s mit zwei Strichen durchzustreichen. Dabei ist es egal, ob sich zwei Striche über oder unter dem „d“ befinden. Auch „d“s mit zwei Strichen oben oder zwei unten müssen markiert werden. Alle anderen Variationen sind zu ignorieren. Werden sie dennoch durchgestrichen, gilt das als Fehler.

Wie der Name schon sagt, wird in diesem Test die individuellen Fähigkeiten zur Aufmerksamkeit unter Zeitdruck getestet. Die Aufgaben von Speed-Tests sind so einfach, dass theoretisch jeder sie lösen kann. Entscheidend ist hier der Faktor Zeit.

Power-Tests verwenden schwierigere Aufgaben als Speed-Tests, haben allerdings auch keine zeitliche Begrenzung. Durch die höhere Schwierigkeit können theoretisch nicht alle Personen die Aufgaben lösen – auch nicht ohne Zeitlimit. Sie kommen daher oft bei der Intelligenzdiagnostik von Kindern im Vorschulalter vor.
Auch Mischformen dieser beiden Testformen werden häufig verwendet.

Reife- und Entwicklungstest in der Psychologie

Durch verschiedene Verfahren soll der Entwicklungsstand von Kindern festgestellt werden.
Entwicklungstests werden vor allem zur Bestimmung der Schulreife verwendet. Es werden dabei nicht nur quantitative Methoden, wie Fragebögen genutzt. Auch qualitative Methoden kommen zum Einsatz. So werden etwa auch projektive Verfahren angewendet.

Ein Beispiel dafür ist der Thematische Apperzeptionstest, auch TAT genannt. Dabei werden den Testpersonen Bilder gezeigt und sie sollen die Situation beschreiben. Ihre Geschichten zu den Bildern werden dann vom Tester interpretiert. Da hier allerdings keine hohe Standardisierung besteht, sind die Ergebnisse eher fraglich. Untersucht wird bei Entwicklungstests unter anderem die Körpermotorik, die Wahrnehmung, die emotionale sowie soziale Entwicklung oder auch die Sprachentwicklung.

Diese Tests dienen nicht nur dazu, die Schulreife eines Kindes einzuschätzen. Mit ihrer Hilfe können auch Defizite in der Entwicklung ausfindig gemacht und entsprechende Fördermaßnahmen eingeleitet werden. Wiederholte Tests können weiterhin die Wirksamkeit der erteilten Maßnahmen überprüfen. Falls die verordnete Förderung keine Wirkung zeigt, kann entsprechend nach einer passenderen gesucht werden.

Psychologische Persönlichkeitstest

Anders als bei Leistungstests ist hier nicht das maximale Leistungsverhalten von Interesse, sondern das für eine Person typische Verhalten.

Die Testperson gibt eine Selbstauskunft über die eigenen Persönlichkeitsmerkmale, indem sie verschiedene Fragen beantwortet. Diese sollte die Person spontan und wahrheitsgemäß beantworten.

Ein Beispiel ist der NEO-FFI von Borkenau und Ostendorf. Dieser erfragt mittels verschiedener Items die Big Five. Dabei handelt es sich um die Persönlichkeitsmerkmale:

  1. Neurotizismus („Ich ärgere mich oft darüber, wie andere Leute mich behandeln“),
  2. Extraversion („Ich unterhalte mich wirklich gern mit anderen Menschen“),
  3. Offenheit gegenüber Neuem („Ich habe Spaß daran, mit Theorien oder abstrakten Ideen zu spielen“),
  4. Verträglichkeit („Ich versuche, stets rücksichtsvoll und sensibel zu handeln“)
  5. und Gewissenhaftigkeit („Ich versuche, alle mir übertragenen Aufgaben sehr gewissenhaft zu erledigen“).

Diese werden mit Items (Fragen) abgefragt, wie du sie jeweils in den Klammern hinter den einzelnen Merkmalen siehst.

Ein Nachteil dieser Methode ist, dass die Testperson die Testergebnisse gezielt beeinflussen kann. Sie kann die Fragen so beantworten, dass sie eine scheinbar sehr hohe oder scheinbar sehr niedrige Ausprägung einer Persönlichkeitseigenschaft hat. Hierbei spricht man auch vom „faking good“ beziehungsweise „faking bad“. Eine Verfälschung in beide Richtungen ist möglich.

Auch ist die Metakognition häufig ein Problem bei dieser Art von Test. Die Persönlichkeit steht nicht selten mit dem Selbstbild im Konflikt. Eine Persönlichkeitseigenschaft, die nicht in das eigene Ideal-Selbstbild passt, wird gern verfälscht. Auch die soziale Erwünschtheit kann das Ergebnis verzerren. Bestimmte Merkmale werden gesellschaftlich als unerwünscht empfunden. Daher verschweigt die Testperson diese gegebenenfalls oder macht gegenteilige Angaben. Auch die Bereitschaft, die eigene Persönlichkeit zu offenbaren, muss gegeben sein. Ist die Testperson nicht dazu bereit, bilden die Testergebnisse nicht die korrekte Merkmalsausprägung ab.

Welche Bedingungen muss ein wissenschaftlich anerkannter Test erfüllen?

Tests müssen bestimmten Gütekriterien genügen, damit sie verlässliche Aussagen ermöglichen.

Es werden drei Hauptgütekriterien unterschieden:

  1. Objektivität,
  2. Reliabilität
  3. und Validität.

Bei der Objektivität geht es um die Unabhängigkeit der Testergebnisse von äußeren Einflüssen. Hier besteht die Frage danach, ob die Ergebnisse wirklich die Merkmale der Testperson widerspiegeln oder vielleicht durch andere Faktoren zustande kamen. So sollte die Durchführung eines Tests immer standardisiert ablaufen.

Die Reliabilität beschreibt die Genauigkeit der Testergebnisse. Damit ist gemeint, dass der Test bei mehrfacher Wiederholung immer annähernd gleiche Ergebnisse zeigen müsste. Fehler beim Messen verfälschen das Ergebnis.

Bei der Validität geht es um die Gültigkeit des Tests. Misst der Test wirklich das zu messende Merkmal oder etwas anderes? Eine hohe Validität lässt eine Schlussfolgerung auf das Verhalten außerhalb der Testsituation zu.

Neben diesen drei Hauptgütekriterien gibt es auch noch einige Nebengütekriterien. Diese bestehen aus:

  • Normierung,
  • Skalierung,
  • Testökonomie,
  • Nützlichkeit,
  • Zumutbarkeit,
  • Unverfälschbarkeit
  • und Fairness.

Unter Normierung versteht man das Erstellen eines Bezugssystems. Mit diesem sollen die Merkmalsausprägungen einer Testperson mit einer Bezugsgruppe verglichen werden. Das ist zum Beispiel bei Intelligenztests der Fall: Anhand eines Normwertes wird festgelegt, ob der individuelle Intelligenzquotient von der Bezugsgruppe (der Norm) abweicht oder nicht.

Das Kriterium der Skalierung erfüllt ein Test dann, wenn die Testwerte die Merkmalsrelationen richtig abbilden. Man unterscheidet zwischen einer ordinale, nominalen und kardinalen Skalierung.

  • Bei nominalen Skalierungen sind nur Datenerfassungen möglich, ohne dass man diese vergleichen oder in Rangordnungen abbilden kann. (Geschlecht, Telefonnummern, Studienfächer)
  • Die ordinale Skalierung lässt schon Vergleiche und Rangordnungen zu. Allerdings kann man mit diesen Daten nicht rechnen oder aussagekräftige Durchschnitte bilden. Zum Beispiel ist dies bei Schulnoten oder Zufriedenheitsmessungen der Fall: gut, besser, schlechter bzw. 1, 2,3…
  • Bei Daten der kardinalen Skalierung lässt sich mit dem Datenmaterial rechnen. Es lassen sich aussagekräftige Durchschnitte oder andere statistische Werte anfertigen. Außerdem sind Abstandsmessungen zwischen zwei Werten möglich. (Abstand in cm, Abstand in Euro)

Testökonomie bedeutet, dass der Erkenntnisgewinn des Tests mit dem damit verbundenen Zeit- und Ressourcenaufwand übereinstimmt. Ein sehr zeitintensiver Test mit schlechter Abbildung der Merkmalsausprägung wäre also nicht ökonomisch.

Nützlich ist ein Test dann, wenn die daraus gewonnenen Erkenntnisse eine praktische Bedeutung haben und nützliche Entscheidungen erlauben.

Wenn ein Test die zeitlichen, psychischen und körperlichen Ressourcen der Testperson nicht übermäßig beansprucht, erfüllt er das Gütekriterium der Zumutbarkeit.

Unverfälschbarkeit besteht dann, wenn der Test fälschungssicher konstruiert ist. Er muss also so angelegt sein, dass die Testperson das Testergebnis nicht mutwillig verzerren oder steuern kann.

Tests dürfen Personen nicht aufgrund ihrer ethnischen, sozialen und geschlechtsspezifischen Merkmale benachteiligen. Tun sie dies doch, verletzen sie das Gütekriterium der Fairness.

Wie gut sind Einstellungstests für Bewerber hinsichtlich Karrierechancen und IQ wirklich?

Ein gutes Testergebnis macht nicht immer einen guten Mitarbeiter aus.
Je nach Beruf gibt es verschiedene Einstellungstests: Intelligenztests, Sporttest, Stresstests und mehr. Jetzt sollte man meinen, dass gute Testergebnisse ohne Zweifel für einen Bewerber sprechen.

Allerdings ist das nicht immer der Fall. Bei Fragebögen mit Antwortmöglichkeiten kann die Lösung eines Problems schnell gefunden werden, sofern die Testperson diese bereits kennt.

Doch was ist mit Problemen im Berufsalltag?
Hier kann es zu ganz neuen Situationen kommen, mit denen umzugehen der Bewerber noch nicht gelernt hat. Die Übertragbarkeit von der Testsituation auf die Alltagssituation im Beruf ist nicht immer gegeben. Hinzu kommt, dass das Testergebnis die Fähigkeiten des Bewerbers nur zu einem gewissen Teil wiedergeben kann. Denn vielleicht hat er sich gut auf die Testsituation vorbereitet, reagiert in unvorhersehbaren Situationen jedoch vollkommen anders.

Außerdem variiert auch die Tagesform. Unter Stress oder Krankheit kämen ganz andere Testergebnisse heraus. Menschen sind keine Roboter, die sich immer gleich verhalten. Es gibt etliche Faktoren, die uns beeinflussen und unser Verhalten anders ausfallen lassen können.

Auch die Methodik ist manchmal fraglich. Es kommt häufig vor, dass Einstellungstests für Bewerber nicht von Psychologen erstellt werden, sondern von fachfremden Personen. Mitarbeiter der Personalabteilung können in ihrem Fach natürlich sehr gut ausgebildet sein. Doch sofern ihnen das Wissen über die wissenschaftliche Testkonstruktion und die entsprechende Auswertung der Ergebnisse fehlt, sind die Testergebnisse nicht unbedingt gültig.

Für die Bewertung des Intelligenzquotienten gilt hier dasselbe. Sofern diese Tests auf Basis von zweifelhaften Quellen konstruiert wurden, sagen sie wenig über die Eignung eines Bewerbers aus. Es gibt eine Reihe von wissenschaftlichen Methoden zur Intelligenzdiagnostik. Allerdings gibt es auch hier Schwachstellen.

Der sogenannte Flynn-Effekt beschreibt, dass Menschen scheinbar seit Beginn des 20. Jahrhundert immer klüger werden. Hier stellt sich allerdings die Frage, ob wir nicht mittlerweile einfach die Logik hinter den Fragen von Intelligenztests gelernt haben. Abgesehen davon stellt sich auch die Frage, ob Intelligenz überhaupt messbar ist. Selbst der Erfinder des Intelligenztests, Alfred Binet, schien das bereits um das Jahr 1900 zu bezweifeln.



PS…
Mehr zur wissenschaftlichen Psychologie erfährst du hier.


wissen
Mit unserem kostenlosen ScioDoo-Kurs lernst du die Wissenschaft hinter der Psychologie kennen.

Gib deine Email Adresse ein und wir schicken dir die kostenlosen Lektionen zu.


Buchempfehlungen:


Ähnliche Beiträge