218
Psychotherapieerfolg: eine Frage der Operationalisierung? Konvergenzen und Divergenzen von Psychotherapieerfolgsmaßen Inaugural-Dissertation Zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät für Psychologie der RUHR-UNIVERSITÄT BOCHUM vorgelegt von: Dominik Ülsmann

Psychotherapieerfolg: eine Frage der Operationalisierung ... · these differences need to be explored and understood. Further research needs to clarify the Further research needs

Embed Size (px)

Citation preview

Psychotherapieerfolg: eine Frage der Operationalisierung?

Konvergenzen und Divergenzen von Psychotherapieerfolgsmaßen

Inaugural-Dissertation

Zur Erlangung des Grades eines Doktors der Philosophie

in der

Fakultät für Psychologie

der

RUHR-UNIVERSITÄT BOCHUM

vorgelegt von:

Dominik Ülsmann

2

Gedruckt mit Genehmigung der Fakultät für Psychologie der

Ruhr-Universität Bochum

Referent: Prof. Dr. Dietmar Schulte

Koreferent: Prof. Dr. Thomas Fydrich

Tag der mündlichen Prüfung: 18.07.2013

3

Danksagung

Mein erster Dank gilt allen, die unmittelbar an der Betreuung der Arbeit beteiligt

waren: Thomas Fydrich, Dietmar Schulte und Ulrike Willutzki.

Ich danke allen Kollegen und Studenten der letzten Jahre für ihre vielfältige

Unterstützung sowie allen Freunden für ihren emotionalen Beistand: u.v.a. Kirsten Baschin,

Sonja Baumann, Moran Beeg, Andrea Ertle, Wolfgang Groeger, Frank Jacobi, Krishantha

Kamaladiwala, Joachim Kosfelder, Rainer Künzel, Ulrike von Lersner, Dagmar Meister,

Benjamin Melzer, Frank Meyer, Johannes Michalak, Helen Niemeyer, Mirja Petri, Reinhard

Pietrowsky, Daniel Regli, Sophie Reiske, Babette Renneberg, Mascha Roth, Margot

Schmiedel, Sabine Schulz, Teresa Smaczny, Tobias Teismann, Theresa Unger, Andreas

Veith, Silja Vocks, Matthias Ziegler, Hans-Jörg Znoj, den Teams der Abteilungen Klinische

Psychologie und Psychotherapie der Ruhr-Universität Bochum, Klinische Psychologie der

Heinrich-Heine Universität Düsseldorf, Psychotherapie und Somatopsychologie der

Humboldt-Universität zu Berlin sowie dem Zentrum für Psychotherapie der Ruhr-

Universität Bochum und der Hochschulambulanz der Freien Universität Berlin.

Besonders möchte ich allen Patienten danken, die mit ihrem Einverständnis zur

oftmals aufwändigen Evaluation ihrer Therapien am Zentrum für Psychotherapie der Ruhr-

Universität Bochum diese Arbeit erst möglich machten.

Zuletzt möchte ich meiner Familie und damit vor allem meinen Eltern danken. Ich

bin unendlich dankbar für all die liebevolle Unterstützung, die ich in meinem bisherigen

Leben von ihnen erfahren durfte.

4

Inhaltsverzeichnis

Einleitung ................................................................................................................................. 6

1. Klassifikation von Therapieerfolgsmaßen............................................................................ 7

2. Chaos in der Operationalisierung des Psychotherapieerfolgs? .......................................... 14

3. Methodische Probleme verschiedener Messansätze ........................................................... 23

3.1 Indirekte Veränderungsmessung .................................................................................. 23

3.2 Direkte Veränderungsmessung..................................................................................... 26

3.3 Statistische Definition der Veränderung ...................................................................... 27

3.4 Zufriedenheitsurteile .................................................................................................... 30

3.5 Individuelle Zielerreichung und normativer Vergleich ................................................ 31

3.6 Statistische Definition der Zielerreichung .................................................................... 32

4. Empirische Dimensionen des Therapieerfolgs ................................................................... 34

4.1 Direkte und indirekte Veränderungsmessung .............................................................. 36

4.2 Selbst- und Fremdurteil ................................................................................................ 37

4.3 Indirekte Veränderungsmessung und retrospektive Verfahren .................................... 38

5. Der retrospektive Vortest ................................................................................................... 41

6. Ableitung der Fragestellungen der Studien ........................................................................ 47

7. Publikationen ...................................................................................................................... 52

5

7.1 Publikation 1 - Es ging mir schlechter, als ich dachte! Retrospektive

Symptomeinschätzung und Psychotherapieerfolg.............................................................. 53

7.2 Publikation 2 - Ziel erreicht! Aber auch verändert? Zwei basale Perspektiven in der

Psychotherapieerfolgsbeurteilung ...................................................................................... 83

7.3 Publikation 3 - Direkte Veränderungsmessung in der Psychotherapie: Der Bochumer

Veränderungsbogen-2000 (BVB-2000) ........................................................................... 116

8. Vertiefende Diskussion von Einzelaspekten der Studien ................................................. 154

8.1 Studie 1 ....................................................................................................................... 154

8.2 Studie 2 ....................................................................................................................... 158

8.3 Studie 3 ....................................................................................................................... 164

9. Ausblick............................................................................................................................ 170

9.1 Subjektive Urteilsprozesse ......................................................................................... 171

9.2 Subjektive Urteilsprozesse und Psychotherapieerfolg ............................................... 180

10. Literaturverzeichnis ........................................................................................................ 189

11. Anhang ........................................................................................................................... 213

11.1 Lebenslauf ................................................................................................................ 213

11.2 Liste aller Veröffentlichungen .................................................................................. 216

6

Einleitung

Der Erfolg einer Intervention hängt zum großen Teil davon ab, wie er gemessen

wurde. Wilson und Lipsey (2001) konnten in einer Zusammenschau von 319 Metaanalysen

aus verschiedenen Bereichen der Evaluationsforschung den Einfluss methodischer Aspekte

auf das Studienergebnis zeigen: „Methodological choices made by the researcher have

nearly as much influence on observed effect sizes as the features of the intervention

phenomena under study” (S. 413). Die Operationalisierung der abhängigen Variable weist

dabei einen hohen Anteil an der Aufklärung des Interventionserfolgs auf. Die Größe dieses

Effekts stehe dabei laut Autoren in einem eklatanten Missverhältnis zur geringen Beachtung

von Fragen der Operationalisierung. Gleiches lässt sich im Überblick auch für die klinische

Evaluationsforschung zeigen. Obwohl die Operationalisierung der abhängigen Variable die

Darstellung des Psychotherapieerfolgs systematisch beeinflusst, kann gleichzeitig ein

Mangel an systematischer Forschung zu Fragen der Operationalisierung festgestellt werden

(vgl. im Überblick Baumann & Reinecker-Hecht, 2005; Hautzinger, 2007; Hill & Lambert,

2004; Krampen & Hank, 2008; Lutz & Böhnke, 2010; Ogles, 2013; Reinecker, 2009;

Stieglitz & Baumann, 2001). So resümieren zum Beispiel Ogles, Lambert, Weight und

Payne (1990) in ihrer Übersicht von Outcome-Studien im Bereich der Behandlung von

Agoraphobie: „The size of treatment effects and judgements of improvement are highly

dependent on which outcome measures are used in a given study“ (S. 323). Dieser Befund

konnte erst kürzlich in einer Meta-Analyse zu Outcome Studien im Bereich Agoraphobie

repliziert werden (Sanchez-Meca, Rosa-Alcazar, Marin-Martinez & Gomez-Conesa, 2010).

Die vorliegende Arbeit beschäftigt sich in Anbetracht dieser Problemlage mit spezifischen

Fragen der Operationaliserung des Psychotherapieerfolgs und hat zum Ziel einen Beitrag zu

einem Verständnis der Bedingungen zu leisten, die zu Unterschieden in der Darstellung des

Therapieerfolgs in Abhängigkeit von der Operationalisierung führen können: „It appears that

7

there are reliable differences in the picture of outcome provided by different measures and

these differences need to be explored and understood. Further research needs to clarify the

various factors that inflate and deflate estimates of change” (Hill & Lambert, 2004, S. 117).

Innerhalb dieses Vorhabens liegt der Fokus verstärkt auf zwei weniger beachteten Ansätzen

der Therpieerfolgsmessung (vgl. Stieglitz & Baumann, 2001): der direkten

Veränderungsmessung (vgl. Bereiter, 1963) und dem retrospektiven Vortest (Stieglitz,

1990). Die folgenden Kapitel beschreiben und ordnen zunächst die Bandbreite möglicher

Operationaliserungen des Therapieerfolgs. Dem folgt eine Darstellung der gängigen Praxis

in der Operationalisierung des Psychotherapieerfolgs. Im Anschluss werden die

messtheoretischen und methodischen Probleme verschiedener Operationalisierungen

erörtert. Dem folgt schließlich die Darstellung von Dimensionen des Therapieerfolgs, die

sich - über theoretische Annahmen hinaus - auch in empirischen Befunden abbilden lassen.

Vor der Ableitung der Fragestellungen der drei Studien der vorliegenden Arbeit wird zum

Ende der einleitenden Kapitel der retrospektive Vortest (Stieglitz, 1990) als eine ansonsten

in der Literatur nur wenig präsente Form der Erfolgsoperationaliserung ausführlicher

vorgestellt. Im Anschluss an die drei Publikationen folgen eine vertiefte Diskussion

ausgewählter Aspekte der drei Studien sowie eine zusammenfassende Diskussion aller

Studien und ein Ausblick auf mögliche zukünftige Forschung.

1. Klassifikation von Therapieerfolgsmaßen

Eine systematische Klassifikation von Evaluationsverfahren ist die Vorbedingung

aller Bemühungen empirisches Wissen über ihre Unterschiede zu erarbeiten (vgl. Ogles,

2013). Lambert und Hawkins (2004) betonen dabei die herausragende Bedeutung eines

konzeptuellen Schemas, das es vermag, verschiedene Varianten der Erfolgsmessung entlang

8

bedeutsamer Charakteristika zu ordnen (vgl. auch Froyd, Lambert & Froyd, 1996). Ohne ein

derartiges Ordungsraster ist eine systematische Integration verschiedener Befunde nur

schwer möglich. Versuche, die Vielfalt der verschiedenen Verfahren zu ordnen, wurden

dabei bereits mehrfach unternommen (im Überblick Hill & Lambert, 2004; Ogles, 2013; vgl.

auch Schulte 1993, 1995). In den bis dato erarbeiteten Taxonomien lässt sich zwar eine

Reihe von Überschneidungen zeigen, die relativ unverbindlichen Klassifikationskriterien

machen einen direkten Vergleich der Vorschläge dennoch mitunter schwierig. Die Vielfalt

der Ordnungssysteme spiegelt dabei zugleich ihre Unverbindlichkeit wider (Schulte, 1993).

Verschiedene Taxonomien unterscheiden sich vor allem in der Setzung der zentralen

Charakteristika, nach denen das Ordnungssytem aufgebaut werden soll. Grundforderungen

an Klassifikationssysteme (vgl. Margraf & Milenkovic, 2008) wie eine logische Ordnung,

die vollständige Verortung der betrachteten Elemente, disjunkte Klassen und einheitliche

Einteilungsprinzipien werden dabei aber meist verletzt. Die Begründungen der

verschiedenen Ordnungssysteme entbehren zudem oft einer empirischen Basis. An

prominenter Stelle, dem Handbook of Psychotherapy and Behavior Change, versuchen Hill

und Lambert (2004) verschiedene Aspekte bereits existierender Taxonomien zu integrieren

und so eine möglichst theoriefreie aber konsensuelle Heuristik zu erarbeiten. Die Autoren

unterscheiden im Überblick der gegebenen Literatur schließlich vier Dimensionen der

Operationalisierung des Therapieerfolgs:

1. Inhalt (content)

2. Temporalität (temporality)

3. Quelle (source)

4. Methode (technology)

9

In der Kategorie Inhalt (content) können Operationalisierungen nach dem jeweils

adressierten Funktionsbereich (u.a. Kognition, Emotion, Verhalten, Physiologie), nach

bestimmten Konstrukten (z.B. Persönlichkeitsstruktur) oder grob nach verschiedenen

Zielbereichen (z.B. intrapersonal, interpersonal, soziale Rolle) unterschieden werden.

Temporalität (temporality) meint die Festlegung der Erhebungszeitpunkte (u.a. Ein- oder

Mehrpunkterhebung), den in der Messung implizierten zeitlichen Fokus (u.a. Statusmessung,

retrospektive Messung, prospektive Messung) oder die Stabilität des untersuchten

Konstrukts (state vs. trait). Datenquelle (source) beschreibt den Rückgriff auf verschiedene

Informationsgeber (Patient, Therapeut, Bezugsperson, trainierte Beobachter, Institutionen,

technische Instrumente usw.). Innerhalb der Kategorie Methode (technology) können

verschiedene diagnostische Methoden (z.B. Beobachtung, Selbstbeurteilung, physiologische

Parameter) oder Strategien der Erfolgsoperationalisierung (z.B. Prä-Post Differenzwerte,

direkte Veränderungsschätzung) unterschieden werden.

Schulte (1993) erarbeitete aus Kritik an der Beliebigkeit derartiger

Einteilungskriterien einen theoretisch stringenteren Vorschlag für eine Taxonomie. Als

basale Differenzierungsmöglichkeit von Verfahren führt der Autor die Leitunterscheidung

Inhalt und Methode ein. Verfahren lassen sich danach klassifizieren was sie erfassen (Inhalt)

und wie sie dies tun (Methode). Um zu explizieren was bei der Erfassung von Therapieerfolg

inhaltlich zu messen ist, greift Schulte (1993) auf die Forderung des deutschen Gesetzgebers

zurück. Dieser definiert das Endziel (Parloff, 1967) einer Behandlung als Heilung oder

Besserung von Krankheit. Aus dem medizinischen Krankheitsbegriff expliziert Schulte

(1993) im Anschluss verschiedene Aspekte von Krankheit. Krankheit im Rahmen des

medizinischen Modells umfasst dabei, dass definierte Krankheitsursachen zu bestimmten

Krankheitsdefekten führen, die als mehr oder weniger manifestes Erscheinungsbild ein

bestimmtes Kranksein (Symptome) aufweisen und schließlich Krankheitsfolgen (Einnahme

10

der Krankenrolle, Beeinträchtigung normaler Rollenfunktionen, Demoralisierung) nach sich

ziehen können. Da keine einheitliche Nosologie psychischer Störungen existiert, sollte eine

schulenübergreifende Vereinheitlichung in der Operationaliserung der Ursachen und Defekte

kaum erreichbar sein. Therapieerfolg wäre demnach inhaltlich auf drei Ebenen zu messen:

1. Krankheitsdefekt (Kranksein)

2. Symptome und Beschwerden

3. Krankheitsfolgen

Therapieerfolg auf der Ebene des Krankseins kann so als Reduktion von Symptomen

aufgefasst werden. Zur Operationaliserung kann dabei auf eine ganze Reihe

(störungsspezifischer) Instrumente zurückgegriffen werden. Auf der Ebene der

Krankheitsfolgen sind verschiedene Operationalisierungen von Beeinträchtigungen oder

Leiden denkbar. Das Konstrukt der Beeinträchtigung lässt sich nach Schulte theoretisch in

Parsons (1967) Begriff der Krankenrolle abbilden. Krankenrolle meint sowohl (a) das

Ausmaß der Übernahme der Krankenrolle als auch (b) die Beeinträchtigung der „normalen“

Rollen. Übernahme der Krankenrolle und Beeinträchtigung normaler Rollen lassen sich

dabei jeweils auf den Ebenen (a) des beobachtbaren Verhaltens und (b) des subjektiven

Erlebens untersuchen.

Die Übernahme der Krankenrolle bildet sich im Verhalten vor allem als

Inanspruchnahme der Versorgungsstrukturen ab. Als Datenbasis bieten sich hier z.B.

institutionelle Daten an (Wiederaufnahme von Behandlung, Medikamentenkonsum usw.).

Das subjektive Erleben des Krankseins kann dabei als Reaktion auf das Kranksein aufgefasst

werden (Kassebaum & Baumann, 1965). Die Beeinträchtigung der normalen Rollen kann als

Beeinträchtigung in zentralen Lebensbereichen definiert werden. Das subjektive Erleben der

Beeinträchtigung normaler Rollen (z.B. in Form von Leiden) kann u.a. in Form von

11

Demoralisierung (Frank, 1973) gefasst werden. Taylor (1983) beschreibt in seiner Theorie

der kognitiven Anpassung an belastende Ereignisse drei bedeutsame

Bewältigungsmechanismen (a) die Suche nach Bedeutung (b) die Kontrolle über das

belastende Ereignis (Leben generell) und (c) die Verbesserung des Selbstwertes.

Neben der Frage was inhaltlich zu messen ist, steht die Frage wie dies erfolgen soll.

Die Frage nach der Methode wird von Schulte (1993) dabei in drei Aspekte weiter

differenziert:

1. Operationalisierung der Erfolgsvariablen

2. Kriterienbildung

3. Design der Datenerhebung

Die Operationalisierung der Erfolgsvariablen meint die Festlegung der konkreten

Verfahren bzw. Instrumente einschließlich der Entscheidung über die herangezogene

Datenquelle (Patient, Therapeut, Beurteiler, Bezugsperson, Instrumente, Institution). Soll auf

Selbst-oder Fremdbeurteilung, auf Verhaltensbeobachtung oder Inhaltsanalyse,

Leistungstests oder projektive Verfahren zurückgegriffen werden? Bieten sich

psychophysiologische, neuropsychologische oder biochemische Verfahren an? Oder scheint

eine soziale Beziehungsanalyse das Mittel der Wahl? Gehaltvoll werden alle diese

möglichen Messungen allerdings erst durch den Vergleich mit einem Kriterium. Die

Bestimmung des Therapieerfolgs geschieht dabei nach Schulte (1993) auf der Basis der

Messung zu Therapieende (Post). Der Autor unterscheidet zwei basale Kriterien, zu denen

die Post-Werte in Relation gesetzt werden können. Zieht man die Werte zu Therapiebeginn

(Prä) heran und betrachtet die Differenz zu den Post-Werten, so bildet dies eine Veränderung

(vgl. Abb. 1, A) ab. Andererseits kann der Post-Wert auch in Relation zu Normen oder vorab

definierten Zielen gesetzt werden und zeigt dann den Grad einer Zielerreichung an (vgl.

12

Abb. 1, B). Beide Formen von Vergleichsurteilen können dabei als subjektive Schätzung

(vgl. Abb. 1, 1) durch Bildung eines Differenzwertes (vgl. Abb. 1, 2) oder durch statistische

Definition (vgl. Abb. 1, 3) bestimmt werden. Abbildung 1 tabelliert die zwei Varianten der

Kriterienbildung und die drei Varianten der Urteilsbildung.

Abbildung 1

Unterschiedliche Kriterien zur Kennzeichnung der Effektivität psychologischer Therapie

entlang der zwei Dimensionen Messdesign (A, B) und Kriterienbildung (1, 2, 3) (modifiziert

nach Schulte, 1993)

Bezug der Post-Werte zu

Zustand vor der Behandlung Ziel, Norm

A Veränderung

B Zielerreichung

1 Subjektive Schätzung

Direkte Veränderungsmessung

Individuelle Zufriedenheit

2 Empirischer

Differenzwert

Indirekte Veränderungsmessung

Individuelle Zielerreichung,

Normativer Vergleich

3 Statistische Definition

Reliable Veränderung, Effektstärke

Klinische Bedeutsamkeit

Innerhalb dieser sechs Kategorien sollten sich die gängigsten Verfahren zur

Psychotherapieerfolgsmessung relativ erschöpfend verorten lassen. Die ersten beiden Zeilen

der Spalte Veränderung (Abb. 1, A) bilden die gängige Leitunterscheidung direkter (Abb. 1,

A1) und indirekter (Abb. 1, A2) Veränderungsmessung ab (Bereiter, 1963). Werden unter

13

indirekten Veränderungsmessungen meist mathematische Differenzwerte (Prä-Post)

verstanden, werden unter direkter Veränderungsmessung meist Verfahren gefasst, die in

Komparativform (besser, schlechter) direkt nach der stattgefundenen Veränderung fragen

(im Überblick Stieglitz & Baumann, 1994, 2001). Die dritte Variante der

Veränderungsmessung (Abb. 1, A3) zieht weitere Parameter heran, um Veränderungswerte

statistisch abzusichern. So wird zum Beispiel im Konzept des Reliable Change Index (RCI;

Jacobson, Follette & Revenstorf, 1984; Jacobson & Truax, 1991) die Prä-Post Differenz des

Einzelfalls in Relation zum Standardfehler der Differenzwerte der jeweiligen Population

gesetzt. Effektstärken wiederum gewichten die Differenz Prä-Post an Populationsparametern

wie der Standardabweichung und erlauben so standardisierte Vergleiche des Ausmaßes der

Veränderung (u.a. Grawe, Bernauer & Donati, 1994). Werden nicht die Ausgangswerte (Prä)

sondern Normen oder Zielwerte als Referenz zu den Post-Werten herangezogen, erheben die

Verfahren eine Zielerreichung (Abb. 1, B). Die subjektive Schätzung (Abb. 1, B1) der

Zielerreichung umfasst Urteile der Zufriedenheit oder verschiedene Formen der sozialen

Validierung. Das Erreichen eines definierten Zielzustandes kann aber auch als empirische

Differenz zu einem bereits zu Beginn der Behandlung gesetzten Therapieziel abgebildet

werden (Abb. 1, B2) wie dies in Zielerreichungsskalierungen (vgl. Kiresuk & Sherman,

1968) der Fall ist. Eine ganze Reihe weiterer Norm- oder Soll-Werte sind als Referenz für

einen Vergleich mit den Post-Werten denkbar (vgl. Kendall, Marrs-Garcia, Nath &

Sheldrick, 1999) und können zu komplexen statistischen Definitionen der Zielerreichung

verrechnet werden (Abb. 1, B3). Beim so genannten End State Functioning werden diverse

Zielkriterien definiert wie z.B. die Cut-off Werte gängiger (störungsspezifischer)

Instrumente. Das Ausmaß des Therapieerfolgs lässt sich dann quantitativ in der Summe der

erreichten Zielkriterien abbilden (Michelson, Mavissakalian & Marcione, 1985; vgl. im

Überblick Ogles, 2013). Derartige Vergleiche können auch weitere statistische Definitionen

14

von Normen umfassen. So wird im Konzept der Klinischen Bedeutsamkeit (Jacobson et al.,

1984; Jacobson & Truax, 1991) gefordert, dass ein Patient im Laufe der Psychotherapie

einen Populationswechsel von der dysfunktionalen in die ungestörte Population durchläuft,

um von klinisch bedeutsamer Besserung sprechen zu können.

Fragen des Designs der Datenerhebung (z.B. der zeitliche Zusammenhang zwischen

Messung und Intervention) lassen sich nach Schulte (1993) als Fragen der

Generalisierbarkeit rekonstruieren. Bei der Generalisierbarkeit lassen sich wiederum vier

Arten unterscheiden: (a) Generalisierbarkeit über die Zeit, (b) die Situation, (c) das

Verhalten und (d) die Personen. Für eine möglichst hohe Generalisierbarkeit der

nachgewiesenen Effekte braucht es in Bezug auf die Zeit wiederholte und katamnestische

Erhebungen, in Bezug auf die Situation Erhebungen in verschiedenen Settings, in Bezug auf

das Verhalten die Erhebung verschiedener Inhalte und eine Generaliserbarkeit über die

Personen erfordert schließlich Messungen aus verschiedenen Quellen. Bei der Planung des

Messdesigns sind somit Fragen der erwünschten Generalisierbarkeit zu beachten.

2. Chaos in der Operationalisierung des Psychotherapieerfolgs?

Nach Schulte (1993) sind in Bezug auf die Evaluation von Psychotherapie zunächst

zwei einfache Fragen zu stellen:

1. Was soll gemessen werden?

2. Wie soll gemessen werden?

Die Antworten auf diese Fragen sind allerdings derart zahlreich, heterogen und wenig

empirisch fundiert (im Überblick Hill & Lambert, 2004), dass eine ganze Reihe von Autoren

zu quasi-fatalistischen Superlativen wie Chaos (Froyd et al., 1996; Reinecker, 2009) oder

15

Versagen (Hill & Lambert, 2004) der klinischen Evaluationsforschung verleitet werden. Bis

dato existieren weder einheitliche Taxonomien verschiedener Evaluationsverfahren, noch

verbindliche konsensuelle oder gar empirisch basierte Empfehlungen für die

Operationalisierung von Therapieerfolg (im Überblick Ogles, 2013; Hill & Lambert, 2004).

Die Abbildung des Interventionserfolgs hängt aber andererseits zu einem großen Teil von

der Operationalisierung des Therapieerfolgs ab.

Versuche einen verbindlichen Konsens in Bezug auf die basale Frage nach der

Operationalsiserung von Psychotherapieerfolg zu etablieren, erweisen sich dabei sogar

bezüglich einzelner Störungsbilder als äußerst schwierig (vgl. Strupp, Horowitz & Lambert,

1997). Im Überblick zeigen Hill & Lambert (2004), dass aus der Flut möglicher Instrumente

uneinheitlich ausgewählt wird oder in großem Umfang auf modifizierte und eigens

konstruierte Instrumente zurückgegriffen wird. Hill, Nutt und Jackson (1994) untersuchten

297 Studien, die zwischen 1978 und 1992 im Journal of Counseling Psychology (JCP) und

Journal of Consulting and Clinical Psychology (JCCP) veröffentlicht wurden. Dabei konnten

sie insgesamt 344 verwendete Erhebungsinstrumente unterscheiden. Ein Drittel (38%; JCP)

bzw. die Hälfte (49%; JCCP) davon stellten spezifisch für eine einzelne Studie konzipierte

Instrumente dar. Lediglich sieben Instrumente wurden in mehr als zehn Studien verwendet.

Froyd und Kollegen (1996) untersuchten 348 Psychotherapieerfolgsstudien aus 21

ausgesuchten Zeitschriften eines Untersuchungszeitraumes von sechs Jahren (1983-1988).

Dabei konnten sie zeigen, dass 1430 verschiedene Messinstrumente zur Operationalisierung

des Psychotherapieerfolgs herangezogen wurden. Von diesen nahezu eineinhalbtausend

Verfahren wurden 840 nur ein einziges Mal herangezogen. Viele der verwendeten

Instrumente waren dabei zudem nicht standardisiert. Beide Studien replizieren ähnliche

Ergebnisse früherer Studien (u.a. Hall, 1979; Lambert, 1983; Wells, Hawkins & Catalano,

1988). Man könnte nun vermuten, dass die adressierten Störungsbilder in diesen

16

Publikationen vielleicht zu heterogen gewählt wurden und die Vielzahl verschiedener

Instrumente dadurch erklärlich würde. Aber auch für eine homogene Stichprobe mit Studien

zur Behandlung der Agoraphobie konnten Ogles und Kollegen (1990) entsprechende

Ergebnisse zeigen. In 106 Studien konnten die Autoren 98 verschiedene

Operationalisierungen des Psychotherapieerfolgs aufzeigen. Basco, Krebaum & Rush (1997)

trugen in ihrer Literaturübersicht zu Instrumenten im Rahmen der Depressionsbehandlung 27

verschiedene Ratingskalen und 90 verschiedene Selbstbeurteilungsfragebögen zusammen.

Insgesamt scheint es nicht nur weit verbreitet auf Eigenkonstruktionen zurückzugreifen (vgl.

Senra, 1996), sondern auch Modifikationen gängiger Instrumente vorzunehmen. Selbst bei

vordergründiger Ähnlichkeit der Instrumente ist die Vergleichbarkeit dann nicht mehr

gegeben. Grundy, Lunnen, Lambert, Ashton und Tovey (1994) fanden mehr als ein Dutzend

verschiedener Varianten der Hamilton Rating Scale for Depression (Hamilton, 1960) in ihrer

Stichprobe von Therapiestudien zur Depression vor. Ogles (2013) konnte diese Befunde in

einer erneuten Untersuchung an drei Jahrgängen des Journal of Consulting and Clinical

Psychology (JCCP) abermals untermauern und fasst im Überblick die Charakteristika der

gängigen Praxis zusammen:

1. There is great variety in outcome measurement…

2. Researchers often develop their own outcome measurement…

3. Most modern studies include more than one outcome measure in order to obtain a

multifactored view of outcome. Unfortunately, even studies with multiple measures

sometimes limit their view of outcome to a single source (e.g., self report)…

4. The use of unstandardized measures with no psychometric data has become a less

pressing problem over the years…

17

5. Increasingly, certain measures (e.g., BDI, State-Trait Anxiety Inventory) are used

more frequently across studies and provide some opportunity to aggregate and

compare across studies that did not exist earlier…

6. As studies become more and more specific, new outcome measures are developed for

assessing the outcome of a treatment for a more narrow, disorder specific population.

(Ogles, 2013, S. 144-145).

Trotz einiger der genannten erfreulichen Veränderungen verwendet aber auch Ogles

(2013) immer noch das adjektiv chaotic (S. 145) um die gängige Praxis des Feldes zu

beschreiben. Einerseits können derartige Ergebnisse natürlich als Abbild der Komplexität

des Gegenstandes verstanden werden, andererseits kann es aber auch als Hinweis auf eine

problematische Heterogenität der Psychotherapieforschung gedeutet werden. In jedem Fall

aber sind die Vergleichbarkeit von Studien und die Integration von Ergebnissen in

Metaanalysen unter dieser Sachlage erheblich erschwert. Hill und Lambert (2004) sehen

darin gar einen derart unbefriedigenden Umstand, dass sie ihn mit dem Versagen der

Psychotherapieforschung im Aufbau einer kohärenten Wissenschaft zusammenfassen. Ogles

(2013) ist seinem Urteil zum Forschungsfeld knapp zehn Jahre später zwar etwas milder,

schreibt der gängigen Evaluationspraxis aber immer noch einen lähmenden Effekt auf den

wissenschaftlichen Prozess zu: „Yet the lack of consistency, replication, and organization

that characterizes outcome measurement likely slows progress in the field“ (S. 145).

Reinecker (2009) fordert Ordnung in das Chaos der Operationalisierungen zu bringen. Die

Frage der Wahl eindeutiger und einheitlicher Kriterien für die Beurteilung von

therapeutischen Veränderungen sei dabei laut Autor eines der wichtigsten und zugleich

schwierigsten Themen der Psychotherapieforschung.

18

Trotz der großen Varianz in der Ausgestaltung der Operationalisierung des

Therapieerfolgs lässt sich empirisch bestimmen, welche Formen der Operationaliserung

häufiger gewählt werden als andere. Auch hierbei kann unterschieden werden, was (Inhalt)

und wie (Methode) gemessen wird. Historisch lässt sich insgesamt eine relativ einhellige

Entwicklung weg von globalen Einschätzungen der Veränderung (Inhalt) durch den

Therapeuten (Methode) hin zu störungs- und symptomspezifischen Einschätzungen (Inhalt)

aus verschiedenen als gleichwertig betrachteten Blickpunkten (Methode) rekonstruieren (vgl.

Hill & Lambert, 2004; Lambert, Bergin & Garfield, 2004). Eine Entwicklung, die vermutlich

insgesamt der jüngeren Entwicklung hin zu störungsspezifischen Therapieansätzen

geschuldet ist. Inhaltlich konnten Farnsworth, Hess und Lambert (2001) in ihrer

Zusammenschau von Studien der Jahre 1995 bis 2000 im Journal of Consulting and Clinical

Psychology (JCCP) dementsprechend zeigen, dass aktuell störungsspezifische und globale

Symptommaße dominieren. Die drei häufigst verwendeten Instrumente im Rahmen der

Psychotherapieevaluation stellen dabei das Beck Depression Inventory (BDI; Beck, Ward,

Mendelson, Mock & Erbaugh, 1961), das State-Trait Anxiety Inventory (STAI; Spielberger,

Gorsuch, Lushene, Vagg, & Jacobs, 1983) und die Symptom Checklist 90 Revised (SCL-90-

R; Derogatis, 1983) dar (vgl. auch Lambert & Hawkins, 2004). Diese drei Instrumente

konnten ebenfalls bereits in der Studie von Froyd und Kollegen (1996) als meist verwendete

Instrumente gezeigt werden (vgl. auch Lambert & McRoberts, 1993). Die prototypische

Operationalisierung von Psychotherapieerfolg in Bezug auf methodische Aspekte zeigen die

Autoren in ihrer Zusammenschau von 348 Evaluationsstudien auf. Die Mehrzahl der

Operationaliserungen des Therapieerfolgs zeigt dabei folgende Bestimmungsstücke: „The

typical measurement practice is a paper-and-pencil instrument on which an individual rates

his or her own behavior including feelings of being distressed (symptomatic states)” (Froyd

et al., 1996, S. 14). Farnsworth und Kollegen (2001) bestätigen in ihrer Untersuchung den

19

Patienten als die häufigst herangezogene Quelle (vgl. auch Hill et al., 1994). Dabei zeigen

die Autoren, dass sich ca. 41% der untersuchten Studien ausschließlich auf das Selbsturteil

verlassen (vgl. auch Lambert & McRoberts, 1993). Den klassischen Ansatz stellen dabei

indirekte Veränderungsmessungen dar (im Überblick Newman & Tejeda, 2004). Es

existieren eine ganze Reihe von Vorschlägen, die das Chaos in der Operationalisierung des

Therapieerfolgs über einen Konsens in Bezug auf verbindliche Standards geordnet sehen

wollen (im Überblick Ogles, 2013; vgl. auch Braun & Regli, 2000; Fydrich, Laireiter, Saile

& Engberding, 1996; Grawe & Braun, 1994; Groen & Petermann, 2000; Hautzinger, 1994;

Lairaiter & Vogel, 1998; Schulte, 1997). Die verbindliche Verwendung von weit

verbreiteteten Verfahren z.B. als sogenannte Core Batteries (im Überblick Ogles, 2013) oder

Primary Outcome (im Überblick De Los Reyes Shannon & Wang, 2011) wird dabei als ein

möglicher Ausweg aus dem Chaos der Operationaliserungen gesehen (vgl. auch Froyd et

al., 1996; Fydrich et al., 1996; Grawe & Braun, 1994; Hill & Lambert, 2004; Reinecker,

2009; Stieglitz & Baumann, 2001). Fraglich ist bei allen konkreteren Vorschlägen zu einer

Vereinheitlichung aber stets nach welchen Kriterien die Verfahren ausgesucht werden sollen

(vgl. De Los Reyes et al., 2011). Gleichzeitig herrscht relative Einigkeit darüber, dass

Therapieerfolg über multiple Kriterien, multidimensional, multimethodal und multimodal

bestimmt werden sollte (Schulte, 1993; vgl. u.a. Baumann & Reinecker-Hecht, 2005; Hill &

Lambert, 2004; Lambert & Ogles, 2004; Lutz & Böhnke, 2010; Ogles, 2013). Bis heute stellt

die Forderung nach einem methodischen Pluralismus (Reinecker, 2009) somit wohl die

gängigste Forderung dar.

It is unfortunate but true that no single measure of the outcome of therapeutic

intervention is either reliable or comprehensive enough to serve as the sole indicator

of clients´gains (or setbacks). Rather, a variety of methods, measures, data sources,

20

and sampling domains . . . is necessary to fully assess therapy outcomes.” (Kendall,

Holmbeck & Verdun, 2004, S. 24)

Diese Forderung ist vermutlich auch dem Umstand geschuldet, dass auf kein

absolutes Kriterium zur Beurteilung der Validität verwiesen werden kann. Beide

Forderungen -Vereinheitlichung und möglichst breite Operationaliserung - finden sich

dementsprechend auch in den meisten Vorschlägen zur Operationaliserung des

Psychotherapieerfolgs wieder und werden meist um weitere Forderungen ergänzt. So sollte

nach Reinecker-Hecht und Baumann (2005) anstelle eines univariaten Zugangs ein

multivariater Zugang zu wählen sein, bei dem innerhalb folgender Kategorien zu variieren

ist: (a) Datenebenen (biologoisch somatisch, psychisch psychologisch, sozial, ökologisch),

(b) Datenquellen (Selbsturteil, Fremdurteil, apparative Verfahren), (c)

Untersuchungsverfahren und (d) Konstrukte und Funktionsbereiche. McLellan und Durell

(1996) setzen demgegnüber vier Bereiche der Erfolgsmessung als zentral: (a)

Symptomreduktion, (b) Steigerung der Gesundheit, sowie psychischer und sozialer

Funktionen, (c) Behandlungskosten und (d) Reduktion der Bedrohung der allgemeinen

Gesundheit und Sicherheit. Docherty und Streeter (1996) wiederum nennen sieben

Dimensionen, die es bei der Erfolgsmessung zu beachten gilt: (a) Symptome, (b) soziale

Funktionsfähigkeit, (c) Arbeitsfähigkeit, (d) Zufriedenheit mit der Behandlung, (e)

Inanspruchnahme, (f) globaler Gesundheitsstatus und (g) Lebenszufriedenheit. Weitere

Vorschläge fordern zudem die Berücksichtigung verschiedener testtheoretischer

Anforderungen (Objektivität, Reliabilität, Validität, Normierung, Ökonomie, Transparenz,

Zumutbarkeit, Änderungssensitivität usw.). So empfehlen Horowitz, Strupp, Lambert und

Elkin (1997) bei der Auswahl von Instrumenten zur Einschätzung des Therapieerfolgs

folgende Kriterien zu beachten: Vorliegen von Normen, hinreichende Reliabilität und

Validität, einfache Anwendung, nachgewiesene Änderungssensitivität, günstige Kosten,

21

Trainierbarkeit (bei Fremdurteilen) sowie der parallele Rückgriff auf Selbst- und

Fremdbeurteilungsverfahren. Sie empfehlen zudem die kategoriale Zuordnung zu Diagnosen

mittels strukturierter Interviews, die Verwendung eines allgemeinen Angstmaßes sowie eines

allgemeinen Depressionsmaßes. Außerdem brauche es ein Maß zur Quantifizierung der

funktionalen Beeinträchtigung (Arbeit, Soziales usw.), der Selbstbewertung (z.B.

Selbstvertrauen), interpersoneller Beziehungen und der Nutzung von weiteren

Behandlungsangeboten. Stieglitz und Baumann (2001) empfehlen die Assessment Ziele

eindeutig festzulegen, eine Auswahl nicht redundanter Instrumente zu treffen, nicht-reaktive

Verfahren zu berücksichtigen, sowie eine gezielte Auswahl von Verfahren unter den

Aspekten Quelle und Technologie sowie von Vorteilen (Ökonomie, Normen usw.) und

Nachteilen (Urteilsfehler, Kosten usw.) vorzunehmen. Nach Laireiter (2001) sollten

möglichst Mehrpunkterhebungen stattfinden, da retrospektive Einpunkterhebungen keinen

Rückschluss darauf erlauben, ob die Effekte auf die Therapie zurückzuführen sind oder

nicht. Neben Prä- und Postmessungen sollten auch Verlaufsmessungen und katamnestische

Erhebungen erfolgen. Neben Selbstbeurteilungen sollten auch kriterienbezogene Messungen

und Fremdbeurteilungen herangezogen werden. Inhaltlich sollte nicht ausschließlich auf den

engen Ausschnitt störungsspezifischer Maße fokussiert werden, sondern auch das soziale

Funktionieren, die Lebensqualität, somatische Probleme usw. erhoben werden. Die

Verfahren sollten ökonomisch und zeitsparend sein, sowie objektiv ausgewertet werden

können. Sie sollten leicht verständlich und nicht belastend sein, empirischen Gütekriterien

entsprechen und änderungssensitiv sein, sowie eine breite Anwendbarkeit besitzen, sich in

der klinisichen Praxis bewährt haben und einen hohen Informationsgehalt für den

Therapeuten besitzen. Lambert und Hawkins (2004) wiederum geben den Rat:

Clearly define the construct measured . . . measure change from multiple perspectives

. . . employ different types of rating scales and methods . . . employ symptom-based

22

atheoretical measures . . . examine, to some extent, patterns of change over time (S.

173).

Insgesamt bleibt aber in Anbetracht der Vielzahl der Vorschläge abermals die Frage,

welcher denn nun am ehesten zielführend ist. Kann diese Frage empirisch beantwortet

werden?

Michalak, Kosfelder, Meyer und Schulte (2003) differenzieren die Ansprüche, die an

Evaluationsverfahren gestellt werden sollten, entlang ihres Verwertungskontextes. Sie

betonen die Bedeutung der konkreten Zielsetzung für die Operationalisierung von

Therapieerfolg (vgl. auch Hautzinger, 2007; Hill & Betz, 2005; Stieglitz & Baumann, 2001).

In der Qualitätssicherung der psychotherapeutischen Routineversorgung sind andere

Evaluationsziele von Bedeutung als in der Psychotherapieforschung (vgl. auch Hunsley &

Mash, 2007). Die Operationalisierung sollte dabei laut Michalak und Kollegen (2003) der

jeweiligen Zielsetzung genau angepasst sein: „Auch Therapieerfolg ist ein theoretisches

Konstrukt, dessen Operationalisierung durch die Zielsetzung zu rechtfertigen ist“ (S. 102).

Empirische Befunde im Bereich der Psychotherapieevaluation aus denen derartig

differenzierte Empfehlungen für die Evaluation von Psychotherapie in verschiedenen

Kontexten (u.a. Forschung, klinische Evaluation) abgeleitet werden könnten sind allerdings

rar. Hierzu bedürfte es einer differenzierten empirisch basierten Kenntnis der Charakteristika

der verschiedenen Verfahren, die Divergenzen und Konvergenzen in der Abschätzung des

Therapieerfolgs bedingen können. Diese Charakteristika müssten dann auf ihre Validität in

Bezug auf definierte Evaluationsziele hin geprüft werden, um so letztlich empirisch fundierte

best use (Hill & Betz, 2005) Empfehlungen geben zu können.

23

3. Methodische Probleme verschiedener Messansätze

Im Überblick zeigen Stieglitz und Baumann (2001) eine ganze Reihe von

spezifischen Problemen auf, die mit der jeweiligen Operationalisierung von Therapieerfolg

verbunden sind (vgl. auch Reinecker-Hecht & Baumann, 2005). Die unterschiedlichen mess-

bzw. testtheoretischen Problemlagen verschiedener Operationalisierungsstrategien bieten

erste Hinweise auf mögliche Ursachen ihrer Divergenzen in der Abbildung des

Therapieerfolgs und damit auch auf ihre Validität in Hinblick auf verschiedene

Evaluationsziele. Im Folgenden werden die spezifischen methodischen Problemlagen der

oben (vgl. Abb. 1) unterschiedenen Evaluationsverfahren resümiert.

3.1 Indirekte Veränderungsmessung

Einfache Differenzwerte zwischen Gruppen oder innerhalb einer Gruppe zu

verschiedenen Zeitpunkten (Prä-Post) stellen den klassischen und vermutlich

meistverwendeten Ansatz der Veränderungsmessung dar (Newman & Tejeda, 2004). Unter

indirekter Veränderungsmessung wird die mathematische Differenzwertbildung der

Statusmessung zu Therapiebeginn (Prä) und Therapieende (Post) verstanden (vgl. Abb. 1,

A2). Verfahren, die im Rahmen der Therapieevaluation zur Prä-Post Differenzwertbildung

verwendet werden, basieren in ihrer Entwicklung aber nahezu ausschließlich auf den

Annahmen der Klassischen Testtheorie (KTT). Allerdings lassen sich Veränderungen von

Messwerten (von Prä zu Post) nur schwer im Rahmen der KTT unterbringen. Die wahren

Merkmalswerte im Rahmen der Klassischen Testtheorie sind zeit- und bedingungsinvariant

definiert, so dass intraindividuelle Veränderungen in der Merkmalsausprägung letztlich als

Messfehler interpretiert werden müssten (vgl. Lienert & Raatz, 1998). Die stellt ein

Grunddilemma der Veränderungsmessung im Rahmen der KTT dar, dem nur schwer zu

24

entkommen ist. Werden wie bei der indirekten Veränderungsmessung dennoch Prä-Post

Differenzwerte berechnet, führt dies zu diversen Problemen wie Regressionseffekten, dem

Reliabilitäts-Validitäts-Dilemma und dem Physikalismus-Subjektivismus-Dilemma

(Bereiter, 1963; Spada, 1983). Die häufig gezeigte statistische Abhängigkeit von Prä-Post

Differenzwerten und Ausgangszustand (Prä) wird so z.B. als Regressionseffekt verstanden

(anders Rogosa & Willett, 1985; Speer, 1992). Dieses Phänomen kann zu Verzerrungen bei

der Einschätzung des Therapieeffekts führen, insbesondere dann, wenn Patienten in ihren

Eingangswerten extreme Ausprägungen aufweisen. In Bezug auf Differenzwerte wird

angenommen, dass diese aufgrund von Mesfehlerkumulation weniger reliabel sind als die

ihnen zugrundeliegenden Statusmessungen (im Überblick Stieglitz, 2001; anders Willett,

Ayoub & Robinson, 1991; Speer, 1992). Korrelationen mit Differenzwerten sollen daher

häufig zu statistischen Artefakten führen. Das Reliabiltäts-Validitätsdilemma kann als

erzwungene Entscheidung zwischen einer hohen Validität der Statusmessungen (Prä, Post)

oder einer hohen Reliabilität der Differenzwerte (Prä-Post) beschrieben werden: Je höher die

Korrelation zwischen den Statusmessungen, desto niedriger ist die Reliabilität der

Differenzwerte. Je niedriger die Korrelation zwischen den Statusmessungen, desto niedriger

ist ihre Validität. Das Physikalismus-Subjektivismus-Dilemma stellt in Frage, ob gleiche

Differenzwerte an verschiedenen Stellen des Messwertkontinuums die gleiche subjektive

Bedeutung repräsentieren. Bewertet eine Person den Verlust von 20 kg Gewicht anders,

jenachdem ob sie mit 90 kg oder mit 120 kg in die Diät gestartet ist?

Diese Grundprobleme der indirekten Veränderungsmessung lassen sich innerhalb der

KTT nur schwer lösen (Pawlik, 1976) und stellen auch an die Probabilistische Testtheorie

große Herausforderungen (vgl. Doucette & Wolf, 2009; Rost, 1996). Versuche die

Veränderungsmessung im Rahmen der KTT zu „retten“ müssen in Anbetracht ihrer

Grundannahmen auf die Stabilität der Messwerte abstellen. Stieglitz, Baumann, Tobien &

25

von Zerssen (1980) fordern so die Konstanz der Trennschärfekoeffizienten, der Reliabilität

und der Faktorenstruktur der eingesetzten Instrumente. Stieglitz und Baumann (2001) wollen

die Forderung der Konstanz der Faktorenstruktur auch auf abstraktere Konstrukte wie

Therapieerfolg insgesamt ausgeweitet sehen. Wie Zielke (1999) ausführt, verändern sich die

einzelnen Teilaspekte eines multifaktoriellen Syndroms (z.B. Depression) im Laufe der

Therapie aber vermutlich nicht homogen. Dies sollte einen Einfluss auf die faktorielle

Struktur entsprechender Instrumente (z.B. BDI) oder abstrakter Konstrukte (z.B.

Therapieerfolg) zu verschiedenen Zeitpunkten haben. Weitere Konzepte zur Rettung der

KTT in der Veränderungsmessung wie änderungssensitive Items werden als Lösungsversuch

ebenfalls kritisch betrachtet und scheinen für Mehrfachmessungen über

Zweipunkterhebungen hinaus nicht geeignet (im Überblick Maier, Albus & Bech, 1990). Die

verbreiteste Vorgehensweise besteht im nachträglichen Nachweis der Änderungssensitivität

eines Instruments über die Konvergenz (meist Korrelation) mit anderen

Veränderungsmaßen. Hierzu müsste aber wiederum die Änderungssensitivität der Kriterien

belegt sein. Den Grunddilemmata der indirekten Veränderungsmessung entkommen

derartige Lösungsvorschläge somit insgesamt nicht. Stelz (1982) argumentiert

darüberhinaus, dass Differenzwerte skalenabhängig sind und damit über Skalendefinitionen

und -transformationen manipulierbar seien. Cronbach und Furby (1970) spitzen ihr Urteil

über Differenzwerte in Anbetracht der Problemlage derart zu, dass sie von ihrer Verwendung

gänzlich abraten und vorschlagen, stattdessen between-group outcome und posttreatment

measures zu fokussieren.

26

3.2 Direkte Veränderungsmessung

Unter direkter Veränderungsmessung (vgl. Abb. 1, A1) werden Verfahren gefasst,

die in Komparativform (besser, schlechter) direkt nach der stattgefundenen Veränderung

fragen (u.a. Baumann, Sodemann & Tobien, 1980; Bereiter, 1963; Beutler & Crago, 1983;

Hill & Lambert, 2004; Michalak et. al., 2003; Stieglitz & Baumann, 1994; Zielke, 1999). In

einigen wenigen Fällen wird der Begriff direkte Veränderungsmessung aber auch als

Oberbergriff für eine Reihe von Verfahren verwendet, die direkt und somit für den Patienten

offensichtlich den Therapieerfolg adressieren statt eine Statusmessung (z. B. von

Symptomen) vorzunehmen. So verstanden werden dann z. B. auch

Zielerreichungsskalierungen oder Zufriedenheitsurteile als direkte Veränderungsmessung

aufgefasst werden (u.a. Flückiger, Regli, Grawe & Lutz, 2007; Krampen & Hank, 2008). Die

folgenden Ausführungen beziehen sich allerdings auf das ursprüngliche Verständnis der

direkten Veränderungsmessung in der Patienten in Komparativform (besser, schlechter)

direkt nach dem Ausmaß der subjektiv erlebten Veränderung gefragt werden (Bereiter,

1963). Die direkte Veränderungsmessung fordert Patienten auf, die Veränderung direkt

anzugeben und umgeht so das Reliabilitäts-Validitäts-Dilemma ebenso wie eine Regression

zur Mitte (vgl. Stieglitz & Baumann, 1994). Andererseits stellen sich in Bezug auf die

direkte Veränderungsmessung auch kritische Fragen, die Zielke (1999) zunächst auf drei

herunterbricht: (a) Sind die so gewonnenen Änderungswerte numerisch als Äquivalente zur

indirekten Veränderungsmessung anzusehen? (b) Kommt es dabei zu einer Überschätzung

der Veränderung? (c) Welchen Einfluss hat eine mögliche Änderung des Bezugssystems

(Sarris, 1971) in Verbindung mit den notwendigen Gedächtnisleistungen bei der

rückwärtsorientierten Einschätzung von Veränderungen über einen vorgegebenen Zeitraum?

In der Literatur werden dementsprechend vor allem Gedächtnis- Urteils- und

Bezugssystemfehler sowie damit verbunden eine mögliche Überschätzung des

27

Therapieerfolgs bei der direkten Veränderungsmessung diskutiert (vgl. im Überblick

Fydrich, 2006; Hill & Lambert, 2004; Reinecker-Hecht & Baumann, 2005; Stieglitz &

Baumann, 1994, 2001; vgl. auch Kastner & Basler, 1997; Lam & Bengo, 2003; Mintz 1972,

1977; Smith, Glass & Miller, 1980; Wiggins, 1973; Zielke, 1999).

Baumann und Kollegen (1980) führen geringe Korrelationen direkter und indirekter

Veränderungsmessung darauf zurück, dass Patienten schlichtweg vergessen, wie schlecht es

ihnen vor Beginn der Behandlung gegangen ist. Andererseits wird aber auch vermutet, dass

Patienten die intendierte Rückschau systematisch umgehen (Lam & Bengo, 2003) und statt

tatsächlich einen Differenzwert Prä-Post zu bilden von ihrem aktuellen Status auf eine

Veränderung schließen (Kastner & Basler, 1997; Michalak et al., 2003; anders Flückiger et

al., 2007). Die Abweichung vom intendierten Urteilsalgorithmus kann als

Bezugssystemfehler betrachtet werden. Zusätzlich zu Gedächtnis- und Bezugssystemfehlern

besteht der Verdacht, dass bei der direkten Veränderungsschätzung systematische

Antworttendenzen zum Tragen kommen könnten. Insbesondere werden Recency-Effekte,

Generalisierungseffekte, soziale Erwünschtheit oder eine systematisch erhöhte Zustimmung

bei Itemformulierungen angenommen, die in Richtung einer Verbesserung (anstatt

Verschlechterung) ausgelegt sind (vgl. Zielke, 1999; vgl. auch Smith et al., 1980; Wiggins,

1973).

3.3 Statistische Definition der Veränderung

Die Angabe einfacher Differenzwerte (Prä-Post) gibt keine Auskunft über die

statistische Bedeutsamkeit der Veränderung und bietet keine Möglichkeit, das Ausmaß der

Veränderung auf verschiedenen Instrumenten zu vergleichen. Verschiedene Erfolgswerte

wurden daher erarbeitet, um derartige Informationsdefizite des einfachen Differenzwertes zu

28

kompensieren (im Überblick Steketee & Chambless, 1992; vgl. auch Kordy & Hannöver,

2000; Newman & Tejeda, 2004; Ogles, Lambert & Masters, 1996; Zielke, 1999). So

gewichtet der Reliable Change Index (Jacobson et al., 1984; Jacobson & Truax, 1991) den

Differenzwert (Prä-Post) am Standardfehler, um die statistische Bedeutsamkeit einer

Veränderung verlässlich zu bestimmen. Effektstärken erreichen über die Standardisierung

von Differenzwerten eine Vergleichbarkeit verschiedener Veränderungswerte (vgl. Cohen,

1988). Grawe et al. (1994) schlagen zur Darstellung der indirekten Veränderungsmessung

(iVM) Prä-Post Effektstärken vor, die den einfachen Differenzwert an der

Standardabweichung der Prä Messung gewichten.

!"#$% = %()ä+%(,-./0()ä (1)

Kritisierbar bleibt bei derartigen Vorschlägen stets die Auswahl der herangezogenen

Parameter. Hartmann und Herzog (1995) zeigen in Bezug auf Effektstärken, dass

verschiedene Berechnungsformen im Großen und Ganzen zwar insgesamt vergleichbare

Effekte ausweisen, dennoch könnten auch hier systematische Verzerrungen durch die

jeweilige Methode angenommen werden (vgl. auch Maier-Riehle & Zwingmann, 2000).

Wenn zum Beispiel innerhalb von Behandlungsgruppen auf die Prä-Streuung als Maß der

Gewichtung zurückgegriffen wird, sollten aufgrund der geringeren Streuung stets höhere

Effektstärken resultieren als würde die Post-Streuung verwendet.

29

Neben Differenzwerten (d-Familie) kann aber auch auf Korrelationen

zurückgegriffen werden (r-Familie) um Veränderung zwischen zwei Messzeitpunkten

abzubilden (vgl. Lutz & Böhnke, 2010).

In general, when one is presented with measurements taken at two time points there

are several ways in which the analysis may be approached, the the most obvious are

either to work with difference scores or to use the first occasion's measurements as

covariates in analysing the second (Hand & Taylor, 1987; S. 166).

Bei der Binominal Effect Size Display (Rosenthal, Rosnow & Rubin, 2000) wird z.B.

der Interventionseffekt über die Punkt-biserielle Korrelation zwischen der dichotomisierten

Behandlungsbedingungen (Experimental vs. Behandlungsgruppe) und dem dichotomisierten

outcome (Erfolg vs. kein Efolg) bestimmt. Residual Gain Scores gewichten den

Differenzwert dagegen an der Korrelation von Prä- und Post-Messung oder an der

Korrelation von Prä-Messung und Prä-Post Differenzwert. Hierbei kann kritisch angemerkt

werden, dass die statistische Bereinigung von Differenzwerten um Unterschiede in den

Ausgangswerten im Sinne der ökologischen Validität insgesamt nicht sinnvoll erscheint.

Zudem beraubt die Adjustierung mittels einer Statusmessung den Veränderungswert um die

Eigenschaft eines reinen Prozessmaßes. Der Residual Gain Score weist dabei vermutlich

zudem kombinierte Messfehler aus Status-und Differenzwerten auf (vgl. Newman & Tejeda,

2004). Hill und Lambert (2004) empfehlen in ihrer Überblicksarbeit: “At this point in time,

the raw change score remains the metric of choice for most circumstances in which client

change is to be assessed” (S. 123). Denn auch die sophistizierten Maßformeln (Pawlik,

1976) lösen die oben geschilderten Dilemmata der indirekten Veränderungsmessung im

Rahmen der KTT nicht.

30

3.4 Zufriedenheitsurteile

Im Rahmen der Qualitätssicherung erleben Zufriedenheitsurteile (Abb. 1, B1) in

jüngerer Zeit eine Renaissance, da sie in diesem Feld als relevantes Kriterium betrachtet

werden. Dort beziehen sie sich allerdings auch auf Aspekte der Struktur- und nicht

ausschließlich der Ergebnisqualität (vgl. Piechotta, 2008). Im Bereich der

Psychotherapieevaluation standen Zufriedenheitsurteile vor allem im Zuge der

Auseinandersetzung um die Consumer Reports Study (Seligman, 1995) stark in der Kritik.

Es wurde angenommen, dass in Zufriedenheitsurteilen eher die Erfüllung globalerer

Erwartungen abgebildet wird als punktgenau Psychotherapieerfolg zu messen (vgl. Mintz,

Drake & Crits-Christoph, 1996). Methodisch erscheint es problematisch, dass es kaum nicht

zufriedene Therapiepatienten gibt, so dass die Verteilungen der erhaltenen Antworten in der

Regel extrem linksschief sind (vgl. Laireiter, 2001). Jacob und Bengel (2000) zeigen im

Überblick für die medizinische Versorgung, dass eine elaborierte Theorie der

Patientenzufriedenheit fehlt. Insgesamt resümieren die Autoren, dass das Konstrukt

Patientenzufriedenheit theoretisch und empirisch große Lücken aufweise. Großer

Forschungsbedarf bestünde dabei vor allem auch in Bezug auf das Zustandekommen der

Zufriedenheitsurteile bei Patienten. Mitunter wird Zufriedenheitsurteilen aber auch der

Status einer eigenen Dimension der Erfassung von Therapieerfolg zugesprochen. So werden

sie in Kontrast zu indirekten (Lunnen & Ogles, 1998; Pekarik & Wolf, 1996) und auch

direkten (Seligman, 1995) Veränderungsmessungen gesehen. Seligman (1996) argumentiert,

dass retrospective change scores (direkte Veränderungsmessung) und satisfaction scores nur

mit r = .27 korrelieren und somit eine andere Dimension von Psychotherapieerfolg

repräsentieren (vgl. auch Lunnen & Ogles, 1998; Pekarik & Wolf, 1996, anders u.a.

Flückiger et al., 2007; Michalak et al., 2003).

31

3.5 Individuelle Zielerreichung und normativer Vergleich

Bei der individuellen Zielerreichung (vgl. Abb. 1, B2) werden idiosynkratisch

definierte Therapieziele auf das Ausmaß ihres Erreichens hin evaluiert. Hierbei lassen sich

eine ganze Reihe von Verfahren unter das Konzept der Zielerreichungsskalierung fassen (im

Überblick Stieglitz & Haug, 1995). Zielerreichungsskalierungen bieten über den evaluativen

Verwendungszweck hinaus weitere Vorteile in Bezug auf die allseitige Transparenz und die

Stringenz der Therapieplanung (Kordy & Hannöver, 1999; Schulte, 1996). Diese Vorteile

sollen gar die Therapie insgesamt effektiver machen (Guy & Moore, 1982). Eine weit

verbreitete Variante der Zielerreichungskalierung ist das Goal Attainment Scaling (GAS;

Kiresuk & Sherman, 1968). Zu Therapiebeginn werden individuelle Ziele des Patienten

formuliert und ihr Erreichen im Therapieprozess oder zu Therapieende im Selbst- oder

Fremdurteil evaluiert. Hierbei stellen allerdings sowohl die intra- und intersubjektive

Varianz der Ziele, als auch die Verwendung verschiedenster modifizierter Varianten der

GAS die Vergleichbarkeit der Befunde über verschiedene Zeitpunkte, Individuen und

Studien hinweg in Frage (Cytrynbaum, Ginath, Birdwell & Brandt, 1979; Guy & Moore,

1982). „GAS is itself a variety of different methods“ (Hill & Lambert, 2004, S. 111). Zudem

scheinen die Auswahl und die Bestimmung des Erreichens von Therapiezielen beeinflusst

von Therapeuten und Patientencharakteristika, so dass empfohlen wird, derartige

Einschätzungen Dritten zu überlassen. Die Schwierigkeit der jeweils gesetzten Ziele variiert,

was die Vergleichbarkeit der Werte zusätzlich erschwert. Insgesamt ist auch zu bemängeln,

dass der Prozess der Zielbestimmung nicht standardisiert ist und hohe kognitive

Anforderungen stellt (vgl. Baily & Simeonson, 1988). Einzelne Ziele der GAS

interkorrelieren oft, was einerseits deren Unabhängigkeit fraglich erscheinen lässt,

andererseits aber auch als Argument für die Zulässigkeit der Verrechnung verschiedener

Ziele zu Summenwerten betrachtet werden kann (vgl. Kiresuk, Smith & Cardillo, 1994). Ein

32

Beispiel für einen normativen Vergleich der Zielerreichung stellt das sogenannte End State

Functioning dar (im Überblick Ogles et al. 1996). Hier werden für jedes verwendete Maß

zunächst Zielkriterien definiert. Das Ausmaß der Zielerreichung lässt sich anschließend

quantitativ in der Summe der erreichten Zielkriterien abbilden. Die konsensuelle Setzung

von Cut-off Werten oder die Definition von Zielkriterien können dabei aber wiederum

durchaus kritisch betrachtet werden, da dies aufgrund des Fehlens normierter Instrumente

abermals einer gewissen Willkür unterliegt. Eine größere Kontroverse innerhalb der

klinischen Evaluationsforschung betrifft die Frage, ob Verfahren bzw. Instrumente

standardisiert oder individualisiert gestaltet sein sollten. Individualisierte Messungen

könnnen direkt auf die spezifischen Problemlagen und Ziele des einzelnen Patienten

zugeschnitten werden und zeigen daher eine höhere Veränderungssensitivität (Ogles et al.,

1990). Daten standardisierter Verfahren lassen sich wiederum einfacher aggregieren und

bieten damit die Möglichkeit eines aussagekräftigen interpersonellen Vergleichs.

Individualisierte Formen der Zielerreichung erfahren insgesamt jedoch weniger Zuspruch in

Evaluationsstudien als andere Formen der Operationalisierung: „At this point however, the

individualized measures receive far less attention in the literature and could be a useful

source of future research regarding the rich and complex nature of individual client response

to intervention” (Ogles, 2013, S. 149).

3.6 Statistische Definition der Zielerreichung

Werden statistisch bedeutsame Unterschiede bei einem Vergleich von Behandlungs-

und Kontrollgruppe oder der Differenz von Statusmessungen (z.B. Prä-Post) ausgewiesen

muss dies nicht in jedem Fall eine bedeutsame klinische Relevanz aufweisen. Im Rahmen

der Diskussion um die klinische Bedeutsamkeit von Veränderungen existieren eine ganze

33

Reihe verschiedener Konzepte (im Überblick Lambert, Hansen & Bauer, 2008; vgl. auch

Jacobson, Roberts, Berns & McGlinchey, 1999; Kendall et al., 1999). Den gängigsten

Ansatz stellt vermutlich das Konzept des Clinical Significant Change dar (Jacobson et al.,

1984; Jacobson & Truax, 1991). Hier wird die statistische Signifikanz einer Prä-Post

Veränderung mit der Beurteilung der Populationszugehörigkeit des Patienten zu

Therapiebeginn und Therapieende kombiniert (im Überblick Ogles, Lunnen, & Bonesteel,

2001; vgl. auch Fydrich, 2006; Hahlweg, 2000). Idealerweise sollte ein Patient zu Beginn

der Behandlung in einer klinischen Population zu verorten sein, nach der Therapie sollten die

Testwerte allerdings in den Wertebereich einer gesunden Vergleichspopulation (bzw.

außerhalb einer klinischen Population) fallen. Klinische Signifikanz fordert demnach die

Rückkehr zum normal functioning (Jacobson et al., 1999). Leider liegen nur für äußerst

wenige klinische Verfahren tatsächlich Normwerte vor, so dass meist auf konsensuelle Cut-

off Werte zurückgegriffen wird, die die jeweilige Populationszugehörigkeit (funktional,

dysfunktional) definieren sollen. Schmitz und Davies-Osterkamp (1997) zeigen den Einfluss,

den die Anwendung verschiedener Trennpunkte auf die Abbildung der klinisch bedeutsamen

Besserung haben kann. Die klinische Signifikanz eignet sich zwar gut, bedeutsame

Verbesserungen abzubilden, nicht jedoch zur Erfassung bedeutsamer Verschlechterungen

(Ogles et al., 1996). Zudem zeigte sich die Klassifikation abhängig vom jeweils konkret

gewählten Instrument (im Überblick Lambert et al., 2008). Es bleiben eine ganze Reihe von

Fragen offen, die hier nur kurz angedeutet werden sollen: Müssen mehrere Verfahren

herangezogen werden, um klinisch signifikante Veränderungen zu definieren? Und wenn ja,

wie viele? Wie sollen Cut-off Punkte gesetzt werden? Braucht es dazu zwingend normierte

Instrumente? Braucht man normalverteilte Daten? Was ist mit Boden- und Deckeneffekten?

Sind Verfahren, die in Richtung Pathologie konstruiert wurden, überhaupt valide zur

Messung des ungestörten Zustands? Welche Referenzgruppe ist valide? Und wie ist mit

34

Patienten umzugehen, die aufgrund einer Chronifizierung den funktionalen Status nicht mehr

erreichen werden, oder die zu Beginn der Therapie (evtl. trotz Vorliegens einer gesicherten

Diagnose) symptomatisch nicht in der dysfunktionalen Population zu verorten sind (vgl. im

Überblick Kendall et al., 199; Lambert et al., 2008; Ogles, 2013; Ogles et al., 2001; Wise,

2004). Mittlerweile existiert eine ganze Reihe von Weiterentwicklungen, die vor allem

strittige Punkte in Bezug auf die Berechnung statistisch bedeutsamer Veränderung und die

Verwendung verschiedener Cut-off Werte betreffen (im Überblick Wise, 2004). Unbestritten

scheint aber, dass die klinische Siginifikanz insgesamt ein eher konservatives Maß für den

Psychotherapieerfolg darstellt (Wise, 2004). Einer ähnlichen Logik wie die klinisch

bedeutsame Veränderung folgen auch Ansätze, die erwünschte oder normative

Verlaufsparameter definieren und den Verlauf von einzelnen Patienten mit diesen Werten

vergleichen. Je nach Ergebnis dieses Vergleichsurteils können so Response, Remission,

Rückfall, Genesung oder Rezidive identifiziert werden (vgl. Riso, Thase, Howland,

Friedman, Simons & Tu, 1997). Wachstumsanalysen (Lutz, 2002) ziehen als

Vergleichswerte für die Werte einer einzelnen Therapie die Verlaufsparameter sogenannter

ähnlicher Patienten heran. Die Figurationsanalyse (vgl. Grawe, 1998) bewertet die

Ergebnis- und Verlausparameter eines einzelnen Patienten vor dem Hintergrund einer

Referenzpopulation. Kritisch bleibt aber auch hier stets die konsensuelle Setzung von

Trennpunkten oder anderen Vergleichsparametern (vgl. Tedlow, Fava, Uebelacker,

Nierenberg, Alpert & Rosenbaum, 1998).

4. Empirische Dimensionen des Therapieerfolgs

Insgesamt kann festgestellt werden, dass sämtliche Verfahren der

Psychotherapieevaluation methodische Einschränkungen aufweisen. Derartige

35

Einschränkungen können auch als Ursache von Divergenzen verschiedener Verfahren in der

Abbildung des Therapieerfolgs in Betracht gezogen werden. Faktorenanalytische

Untersuchungen bieten die Möglichkeit eine größere Zahl verschiedener

Therapieerfolgswerte auf wenige Dimensionen des Therapieerfolgs herunterzubrechen. Hill

und Lambert (2004) sehen im Überblick der Ergebnisse der klinischen Evaluationsforschung

in der Unterscheidung direkter und indirekter Veränderungsmessung eine broad dimension

(S. 114) der Therapieerfolgsoperationalisierung. Ogles (2013) betont in seinem Überblick

zur klinischen Evaluationsforschung die Quelle (Selbst vs. Fremdbeurteilung) als große

Ursache von Divergenzen zwischen Erfolgswerten. Diese beiden großen Dimensionen der

Psychotherapieevaluation konnten in verschiedenen faktorenanalytischen Untersuchungen

wiederholt als sogenannte Methodenfaktoren repliziert werden (im Überblick Hill &

Lambert, 2004; Ogles, 2013). Erstaunlich ist bei derartigen Befunden, dass inhaltliche

Unterschiede der Verfahren meist keinen systematischen Einfluss auf die Gruppierung der

Faktoren zeigen. Zwei neuere faktorenanalytische Studien betonen die Unterscheidung von

Veränderungsmaßen (indirekte Veränderungsmaße) und retrospektiven Erfolgsbeurteilungen

(Michalak et al., 2003; Flückiger et al., 2007) und fokussieren damit die Zeitperspektive (vgl.

Baumann, 1982) als bedeutsames Unterscheidungsmerkmal verschiedener Verfahren.

Im Folgenden werden diese drei Dimensionen - direkte und indirekte

Veränderungsmessung, Fremd- und Selbsturteil sowie indirekte Veränderungsmaße und

retrospektive Verfahren - als empirisch belegte Taxonomien von Evaluationsverfahren

ausführlicher dargestellt.

36

4.1 Direkte und indirekte Veränderungsmessung

Stieglitz und Baumann (2001) nenen als zentrale Unterschiede der direkten (Abb. 1,

A1) und indirekten (Abb. 1, A2) Veränderungsmessung folgende Punkte: (a) die Anzahl der

notwendigen Messzeitpunkte (Ein- vs. Zweipunkterhebungen), (b) die Generierung der

Messwerte (abgeleitet vs. direkt) und (c) die Art des Messvorgangs (Status vs.

Retrospektion). Diese beiden unterschiedlichen Herangehensweisen bringen jeweils

spezifische Problemlagen mit sich, die oben ausführlicher erörtert wurden. Es erscheint

somit wenig verwunderlich, dass direkte und indirekte Veränderungsmessungen in einer

Vielzahl von Studien lediglich moderate Zusammenhänge aufweisen (im Überblick Stieglitz

& Baumann, 1994, 2001; vgl. auch Baumann et al., 1980; Fischer, Stewart, Bloch, Lorig,

Laurent & Holman, 1999; Kastner & Basler, 1997; Kohlmann & Raspe, 1998; Raspe,

Weber, Voigt, Kosinski & Petras, 1997; Zielke, 1999). Derartige Ergebnisse werden

überwiegend dahingehend interpretiert, dass direkte und indirekte Veränderungsmessungen

eigenständige Dimensionen des Therapieerfolgs darstellen und daher in einem

Ergänzungsverhältnis gesehen werden müssen (im Überblick Hill & Lambert, 2004; Stieglitz

& Baumann, 1994, 2001; Zielke, 1999 vgl. auch Flückiger et al., 2007; Krampen, 2010;

Michalak et al., 2003). Green, Glaser & Stone (1975) vermuten, dass bei Prä-Post

Differenzwerten Messfehler aus beiden Messungen kumulieren, was Konvergenzen mit

anderen Verfahren verdecken könnte (vgl. auch Stelz, 1982). In Bezug auf die direkte

Veränderungsmessung werden sowohl das Vergessen des Ausgangszustandes (Baumann et

al., 1980) oder aber das systematische Umgehen der Retrospektive (Kastner & Basler, 1997;

Michalak et al., 2003; anders Flückiger et al., 2007) für Divergenzen mit anderen Verfahren

verantwortlich gezeichnet. Kohlmann und Raspe (1998) vermuten eine generelle Tendenz

der direkten Veränderungsmessung zur Bildung eines eigenständigen Faktors. Während also

bei der indirekten Veränderungsmessung die mathematische Operation der

37

Differenzwertbildung und die damit einhergehenden statistischen Effekte Divergenzen mit

der direkten Veränderungsmessung provozieren könnte (Green et al., 1975), werden auf

Seiten der direkten Veränderungsmessung Gedächtnis- (Baumann et al., 1980) oder

Bezugssystemfehler (Kastner & Basler, 1997) des Beantwortenden als Verantwortliche

Mechanismen vermutet.

4.2 Selbst- und Fremdurteil

Selbst- und Fremdbeurteilungen divergieren in der Darstellung des Therapieerfolgs

häufig (im Überblick Lambert & Hawkins, 2004; Ogles, 2013). In einer umfassenden Meta-

Analyse von outcome Studien im Bereich der Depressionsbehandlung konnten Cuipers, Li,

Hofmann und Andersson (2010) zeigen, dass Urteile von Klinikern bedeutsam höhere

Therapieeffekte ausweisen als Selbsturteile. Für Depressionsmaße konnten Corruble,

Legrand, Zvenigorowsky, Duret und Guelfi (1999) im Literaturüberblick eine weite Range

der Korrelationen zwischen den Werten aus verschiedenen Quellen zeigen die von r = .2 bis

r = .8 reicht. Geringe Übereinstimmungen seien dabei laut Autoren nicht nur auf

Messungenauigkeiten zurückzuführen. Fremd- und Selbsturteile basierten auf völlig

unterschiedlichen sich ergänzenden Perspektiven. Für die Kinder- und

Jugendpsychotherapie, in der Einschätzungen von (nahen) Bezugspersonen große Bedeutung

beigemessen wird, berichten De Los Reyes und Kazdin (2005) in ihrer Metaanalyse ähnliche

Ergebnisse: „Different informants´(e.g. parents, teachers, children) ratings of social,

emotional, or behavior problems in children are discrepant (e.g., r s often in the .20)“ (S.

483). Nach Reinecker-Hecht und Baumann (2005) kann die Fremdbeurteilung keineswegs

als objektiver bezeichnet werden, vielmehr müsse beiden Zugangsweisen die gleiche

wissenschaftliche Dignität zugestanden werden. Hill und Lambert (2004) fassen hierzu

38

zusammen: „Observational data can be just as vulnerable to distortion as self-report

measures . . . none of these viewpoints is „objective“ or most authoritative“ (S. 106).

Seidenstücker und Baumann (1987) gehen davon aus, dass sich Divergenzen verschiedener

Urteiler auf unterschiedliche Bezugssysteme zurückführen lassen. Sie postulieren, dass

Fremdurteile per se eher die wahrgenommene Differenz zwischen gegenwärtigem und

vergangenem beobachtbaren Verhalten als Bezugspunkt fokussieren, während für Patienten

die zentrale Perspektive der Unterschied von gegenwärtigem und vergangenem Erleben zu

sein scheint. Die zentrale Annahme für Divergenzen verschiedener Quellen wird hier somit

in den unterschiedlichen Bezugssystemen (Sarris, 1971) der jeweiligen Beurteiler gesehen.

4.3 Indirekte Veränderungsmessung und retrospektive Verfahren

Zwei jüngere faktorenanalytische Studien (Flückiger et al., 2007; Michalak et al.,

2003) mit hoher Relevanz für die ambulante psychotherapeutische Versorgung zeigen in

Zusammenschau verschiedener Evaluationsverfahren (vgl. Abb. 1) ebenfalls

Methodenfaktoren auf. Beide Autorengruppen unterscheiden hierbei Prä-Post Differenzwerte

von sogenannten retrospektiven Verfahren.

Michalak und Kollegen (2003) grenzen in ihrer Studie Veränderungsmaße und

retrospektive Erfolgsbeurteilungen voneinander ab. Auf den Faktor Veränderungsmaße

laden dabei vor allem indirekte Veränderungsmessungen berechnet als Prä-Post Effektstärke

(Mprä-Mpost/SDprä; Grawe et al., 1994). Der Faktor retrospektive Erfolgsbeurteilung

umfasst vor allem Ladungen globaler Zufriedenheitsurteile (Abb. 1, B1) und

Zielerreichungsskalierungen (Abb. 1, B2). Die direkte Veränderungsmessung (Abb. 1, A1)

zeigt eine heterogene Ladung auf beide Faktoren. Für retrospektive Erfolgsbeurteilungen

zeigen die Autoren eine prognostische Bedeutung in Bezug auf Medikamenteneinnahme und

39

erneute Behandlungsaufnahme zum Katamnesezeitpunkt auf, die sich für Veränderungsmaße

nur sehr eingeschränkt zeigen lässt. Die Autoren gestehen in ihren Schlussfolgerungen

beiden Dimensionen den Status eigenständiger valider Evaluationsstrategien zu. Bei der

Erklärung der Divergenz beider Dimensionen in der Abbildung des Therapieerfolgs stellen

die Autoren auf zweierlei ab:

Neben diesen methodischen Unterschieden (indirekteVeränderungsmessung auf der

Grundlage einer zweifachen Statusdiagnostik vs. retrospektive Einschätzung)

unterscheiden sich die Verfahren des Faktors retrospektive Erfolgsbeurteilung von

denen des Faktors Veränderungsmaß außerdem hinsichtlich des zur Beurteilung des

Erfolgs gewählten Kriteriums. Die Erfolgswerte des ersten Faktors erfassen das

(berechnete) Ausmaß der erzielten Veränderung (Postwert im Vergleich zum

Präwert), die des zweiten Faktors hingegen das (subjektive) Ausmaß der

Zielerreichung (Postwert im Vergleich zum Ziel) (Michalak et al., 2003, S. 101).

Bedeutsame Zusammenhänge der retrospektiven Erfolgsbeurteilungen mit der

Restsymptomatik (Post-Werte) und geringe Zusammenhänge mit dem Ausgangszustand

(Prä-Werte) werden von den Autoren als Hinweis auf ein Bezugssystem der Beantwortenden

gedeutet, das vor allem auf den aktuellen Zustand in Relation zu den subjektiven Zielen

rekurriert (vgl. auch Kastner & Basler, 1997). Die Divergenz von Veränderung und

Zielerreichung wird von den Autoren dabei anschaulich so gefasst: „Umfangreiche

Symptomreduktion bedeutet nicht notwendigerweise eine relativ zufriedenstellende

Lebenssituation oder eine klinisch relevante Heilung oder Besserung, denn der erreichte

Zustand kann immer noch unbefriedigend sein. Umgekehrt stellt sich ein befriedigender

Lebenszustand eventuell schon nach einer geringen Symptomreduktion ein“ (S. 102).

40

Flückiger und Kollegen (2007) unterscheiden in ihrer Untersuchung zunächst

theoretisch retrospective measures unter die sie Zufriedenheitsurteile (Abb. 1, B1),

Zielerreichungsskalierungen (Abb. 1, B2) und direkte Veränderungsmessungen (Abb. 1, A2)

fassen von indirekten Veränderungsmaßen (Abb. 1, A1) die sie als pre-post measures

bezeichnen. In einer Hauptkomponentenanalyse aller dieser Erfolgsmaße zeigen die Autoren

zunächst eine einfaktorielle Struktur des Psychotherapieerfolgs. Eine konfirmatorische

Faktorenanalyse verweist dabei auf drei überlappende Methodenfaktoren, die pre-post

measures (Abb. 1, A1) von retrospective measures global mit Ladungen von Zielerreichung

(Abb. 1, B2) und Zufriedenheitsurteilen (Abb. 1, B1), sowie von retrospective measures

scales mit Ladungen direkter Veränderungsmessungen (Abb. 1, A2) abgrenzt. Die Autoren

betonen: „Therapeutic outcome seems to be unidimensional, and at the same time three

strongly overlapping method factors can be differentiated” (S. 363). Als mögliche Erklärung

für die Faktorenstruktur stellen die Autoren verschiedene Hypothesen auf, die die

Beteiligung von Retrospektion am Urteilsprozess umfassen, aber auch andere Möglichkeiten

benennen wie das Abstraktionsniveau der befragten Inhalte, die direkte Adressierung des

Therapieerfolgs, Unterschiede in den Iteminhalten, verschiedene Quellen und die

Konzeption des Therapierationals.

Obwohl somit in beiden Studien zugleich verschiedene Ursachen für die Divergenz

der Erfolgsmaße angenommen werden, betonen beide Studien in der Bezeichnung der

Faktoren die Zeitperspektive (Baumann, 1982) bzw. die Bedeutung der Temporalität (vgl.

Hill & Lambert, 2004) in Bezug auf die Divergenz der Verfahren: retrospektive Verfahren

(Rückschau in Einpunktmessung) werden von indirekten Veränderungsmaßen

(Differenzwert aus Statusmessungen) abgegrenzt.

41

5. Der retrospektive Vortest

Urteile in Selbstbeurteilungsfragebögen erfordern komplexe kognitive Operationen,

die meist auch retrospektive Informationen beinhalten. Offensichtlich ist dies, wenn wie zum

Beispiel im Brief Symptom Inventory (BSI; Franke, 2002) nach dem Leiden unter einem

Symptom innerhalb der letzten sieben Tage gefragt wird. Ein Bewertungshintergrund muss

konstruiert werden, autobiographische Erinnerungen müssen generiert und zusammengefasst

werden, ein Vergleichsmaßstab muss gesetzt werden und nach einem bestimmten

Algorithmus müssen die Elemente hierarchisiert und kombiniert werden (vgl. Collins, 2003).

Dennoch wird mitunter bezweifelt, dass retrospektive Urteile über Symptome - hiermit sind

meist Urteile über größere Zeiträume hinweg gemeint - valide sind. So vermuten Baumann

und Kollegen (1980), dass Divergenzen von direkter und indirekter Veränderungsmessung

darauf zurückzuführen sein könnten, dass die direkte Veränderungsmessung aufgrund der

mangelnden Erinnerbarkeit der früheren Symptome verzerrt ist. Implizit steckt in der

Benennung der Faktoren retrospektive Erfolgsbeurteilung bei Michalak und Kollegen (2003)

oder retrospective measures bei Flückiger und Kollegen (2007) die Interpretation, die

Retrospektive sei das gemeinsame Charakteristikum dieser Verfahren und erkläre die

Divergenz zu den Veränderungsmaßen bzw. pre-post measures. Bis dato existieren

allerdings nur wenige Studien die die Güte retrospektiver Symptomeinschätzungen an

klinischen Stichproben untersuchten (im Überblick Safer & Keuler, 2002; vgl. auch Schmidt,

Steffanowski, Nübling, Lichtenberg & Wittmann, 2003; Stieglitz, 1990).

Der retrospektive Vortest (Stieglitz, 1990) fordert Patienten explizit auf, das Erleben

und Verhalten eines früheren Zeitpunktes (zum Beispiel des Therapiebeginns) zu

rekonstruieren. Vor allem außerhalb der klinisch psychologischen Forschung existiert ein

reger Diskurs in Bezug auf die Validität derartiger retrospektiver Erhebungen und aus ihnen

42

abgeleiteter Erfolgswerte. Die dortigen Befunde bieten eine große Zahl von

Anküpfungspunkten für die Untersuchung retrospektiver Erfolgswerte im Rahmen der

Psychotherapie. Es existiert zwar eine Reihe von Studien die unter Rückgriff auf klinische

beeinträchtigte Populationen die retrospektive Einschätzung von Affekten untersuchen.

Häufig werden hierbei allerdings unstandardisierte Instrumente verwendet (u.a. Ben-Zeev,

Young & Madsen, 2009; Bryant, 1993; Hodgins, el-Guebaly & Armstrong, 1995;

Zimmerman & Coryell, 1986) oder die Studien sind eher in der Gedächtnisforschung zu

verorten (im Überblick Ehlers & Lüer, 1996; Williams, Barnhofer, Crane, Hermans, Raes,

Watkins & Dalgleish, 2007). Studien allerdings, die die die initiale Symptomausprägung

mittels retrospektiven Vortest adressieren, sind rar (im Überblick Safer & Keuler, 2002; vgl.

auch Stieglitz, 1990). Ein prominentes Beispiel für die Verwendung des retrospektiven

Vortests stellt die Consumer Reports Study (Seligman, 1995) dar. Ehemalige

Psychotherapiepatienten sollten zur Einschätzung des Therapieerfolgs (0-3 Jahre nach

Therapieende) vor allem Fragen zu Zufriedenheit, Zielerreichung und subjektiv

eingeschätzter Veränderung (direkte Veränderungsmessung) beantworten. Zudem wurden

die ehemaligen Patienten retrospektiv nach ihrem Befinden zu Therapiebeginn und

Therapieende befragt. Einer der vielen Kritikpunkte gegenüber der Consumer Reports Study

betraf diese retrospektiven Erhebungen. So wurde vor allem die Fähigkeit bezweifelt, sich

reliabel an früheres Erleben und Verhalten zu erinnern (Mintz et al., 1996). Abbildung 2

zeigt die idealtypische Darstellung von Ergebnissen, die den retrospektiven Vortest in Bezug

auf psychopathologische Symptome im Rahmen der Psychotherapie verwenden (im

Überblick Safer & Keuler, 2002; vgl. auch Schmidt et al., 2003; Stieglitz, 1990). Der

retrospektive Vortest erhebt die Prä-Werte (Prä) retrospektiv (Retro) am Ende (Post) der

Therapie. Wenn ebenfalls eine reguläre Prä-Messung vorliegt, können verschiedene

Differenzwerte berechnet werden, die eine vertiefte Untersuchung des retrospektiven

43

Vortests und daraus abgeleiteter Veränderungsmaße erlauben. Der Differenzwert Prä-Post

beschreibt die indirekte Veränderungsmessung (Abb. 2, A). Als Äquivalent zur indirekten

Veränderungsmessung kann der Differenzwert Retro-Post als alternatives Veränderungsmaß

berechnet werden. Schmidt und Kollegen (2003) bezeichnen dieses aus dem retrospektiven

Vortest abgeleitete indirekte Veränderungsmaß als quasi-indirekte Veränderungsmessung

(Abb. 2, B). Der Differenzwert Retro-Prä kann als Maß für die Abweichung retrospektiver

und regulärer Prä-Werte betrachtet werden (Abb. 2, C). Die reguläre Prä-Messung (Prä)

bildet die Baseline der Symptomerhebung. Im Zuge einer erfolgreichen Therapie liegen die

Werte (z.B. eines Symptommaßes) zu Therapieende (Post) unter den Prä-Werten (Prä).

Zumeist zeigen die retrospektiv zu Therapieende erhobenen retrospektiven Prä-Messungen

(Retro) deutlich höhere Werte als die regulär zu Therapiebeginn (Prä) erhobenen

Messungen. Quasi-indirekte Veränderungsmaße weisen in diesem Fall meist einen größeren

Therapieerfolg aus als indirekte Veränderungsmessungen. Außerhalb der klinischen

Forschung existiert ein elaboriert geführter Diskurs über die verantwortlichen Prozesse der

Abweichung von Retro- und Prä-Messungen (Abb. 2, C). Kritiker sehen dabei in der

Differenz Prä-Post den wahren Wert der Veränderung und vermuten eine systematische

Überschätzung des Interventionserfolgs durch quasi-indirekte Veränderungswerte. Sie sehen

den retrospektiven Vortest dabei mit einer ganzen Reihe von Urteilsfehlern konfundiert (im

Überblick Hill & Betz, 2005; Levine, Safer & Lench, 2006; Norman, 2003; Safer & Keuler,

2002; Taylor, Russ-Eft & Taylor, 2009).

44

Abbildung 2

Graphische Darstellung indirekter und quasi-indirekter Veränderungsmessung sowie der

Differenz Retro-Prä

Bei den wenigen vorhandenen Studien stellt die geringe Vergleichbarkeit der

Befunde aufgrund unterschiedlicher Zielvariablen, verschiedener überblickter Zeiträume,

heterogener Stichproben und verschiedener methodischer Designs ein Problem dar. Dies

zeigt die Darstellung von drei relevanten Studien zum retrospektiven Vortest.

Stieglitz (1990) konnte keine statistisch bedeutsamen Unterschiede zwischen

retrospektiven und regulären Prä-Werten auf der Beschwerdeliste (BL; von Zerssen, 1976)

zeigen. Zwischen Retro- und Prä-Messung bestand dabei ein statistisch bedeutsamer

Zusammenhang von r = .55. Quasi-indirekte Veränderungsmessungen (Retro-Prä

45

Differenzwert) der BL zeigten tendentiell höhere Zusammenhänge mit der Beurteilung der

globalen Zustandsänderung im Fremdurteil als die reguläre indirekte Veränderungsmessung

(Prä-Post Differenzwert). Alter, Geschlecht und Aufenthaltsdauer zeigten dabei keinen

Zusammenhang mit der Überschätzung der initialen Symptomatik. Quasi-indirekte

Veränderungswerte unter Verwendung retrospektiver Prä-Werte der Subskala

Verstimmungsstörungen (Ve) der Kieler Änderungssensitive Symptomliste (KASSL; Zielke,

1979) zeigten statistisch bedeutsame Bezüge zu direkten und indirekten

Veränderungsmessungen mit ca. 40-70% gemeinsamer Varianz. Quasi-indirekte

Veränderungswerte korrelierten dabei tendentiell höher mit direkten Veränderungswerten

und Fremdeinschätzungen der Veränderung als indirekte Veränderungsmaße. Quasi-

indirekte Veränderungsmessungen werden von Stieglitz (1990) daher resümierend als

„sensitives Maß zur Abbildung subjektiv erlebter Veränderung“ (S. 149) bezeichnet.

Safer und Keuler (2002) untersuchen die Validität des retrospektiven Prä-Tests in

Beratung und Psychotherapie. Neben statistisch bedeutsamen retrospektiven

Überschätzungen der Prä-Werte durch die Retro-Werte, zeigten reguläre und retrospektive

Prä-Werte in zwei der dargestellten Studien bedeutsame Zusammenhänge (r = .83 - .84; p <

.01). Safer und Keuler (2002) beschreiben den retrospektiven Vortest schlussfolgernd daher

als „highly reliable, though not necessarily accurate“ (S. 173). In Studie 1 zeigen die

Autoren, dass vor allem Personen die Prä-Werte überschätzen, die auf indirekten

Veränderungsmessungen operationalisiert nicht von der Therapie profitierten. Es zeigten

sich allerdings keine Zusammenhänge der Überschätzung mit der subjektiv

wahrgenommenen Hilfe und Veränderung oder einer direkten Veränderungsmessung im

Fremdurteil. Die Autoren zeigen in Studie 2 einen bedeutsamen negativen Zusammenhang

der gezeigten Überschätzung (Retro-Post Differenzwert) mit dem Prä-Post Differenzwert (r

= .44; p < .01) und einen bedeutsam positiven Zusammenhang mit den Post-Werten (r = .43;

46

p < 0.1) auf der Hopkins Symptom Checklist(desselben Instruments (HSCL; Derogatis,

Lipman, Rickels, Uhlenhuth & Covi; 1974). Die höheren retrospektiven Werte für die

Symptomatik könnten somit laut Autoren dadurch motiviert sein, eine Veränderung

wahrzunehmen, die objektiv nicht stattgefunden hat. Die Darstellung des Therapieerfolgs

durch die quasi-indirekte Veränderungsmessung weist in Studie 2 höhere Therapieeffekte

aus als indirekte Veränderungswerte. Safer und Keuler (2002) zeigen darüber hinaus einen

positiven Zusammenhang (Korrelation) der Überschätzung (Retro-Post Differenzwert) mit

Neurotizismus, Angst und Depression (r = .31 - 34; p < .01), sowie einen negativen

Zusammenhang mit Ich-Stärke (r = .39; p < .01), Selbsttäuschung (r= .26; p < .05) und

Lügen (r = .24; p < .05). In einer dritten Studie zeigen die Autoren keine Überschätzung in

einer studentischen Kontrollgruppe. Resümierend konstatieren die Autoren eine reliable aber

nicht akkurate retrospektive Messbarkeit der initialen Belastung. Überschätzungen

repräsentierten dabei eine positive illusion of change.

Schmidt und Kollegen (2003) untersuchen verschiedene Erfolgskriterien im Rahmen

der Rehabilitation. Für die retrospektive Einschätzung der Symptomatik auf einem selbst

entworfenen Instrument konnten sie statistisch bedeutsam höhere retrospektive Werte sowie

einen deutlichen Zusammenhang von Retro- und Prä-Messungen (r = .64; p < .01) zeigen.

Die Zusammenhänge indirekter und quasi-indirekter Veränderungsmaße zu diversen anderen

Psychotherapieerfolgsmaßen in Form von verschiedenen Selbst- und Fremdurteilen zeigen

dabei keine bedeutsamen Unterschiede. Für die indirekte Veränderungsmessung lassen sich

bedeutsame Zusammenhänge mit den Ausgangswerten zeigen, nicht allerdings für die quasi-

indirekte Veränderungsmessung. Mittels linearer Regression konnte aus

soziodemographischen Daten (Geschlecht, Alter, Schulbildung) kein bedeutsamer Prädiktor

isoliert werden, um direkte, indirekte und quasi-indirekte Veränderungsmessungen

vorherzusagen. Die Autoren halten in Anbetracht ihrer Ergebnisse die Annahme einer

47

grundsätzlichen Überlegenheit der indirekten Veränderungsmessung gegenüber der quasi-

indirekten Veränderungsmessung für unangemessen.

6. Ableitung der Fragestellungen der Studien

Das übergeordnete Ziel der vorliegenden Arbeit ist es, einen Beitrag zur Klärung der

Faktoren zu leisten, die zu Unterschieden in der Darstellung des Therapieerfolgs in

Abhängigkeit von der Operationalisierung führen können (Hill & Lambert, 2004). In der

Hoffnung, so auch neue Erkenntnisse über die Bedingungen von Divergenzen verschiedener

Erfolgswerte zu erhalten, werden in den drei geplanten Studien auch die weniger genutzten

Ansätze des retrospektiven Vortests und der direkten Veränderungsmessung fokussiert.

Die erste Studie widmet sich dem gängigen Vorwurf an retrospektive Verfahren

Urteils- Gedächtnis- und Bezugsystemfehler zu beinhalten und so letztlich zu einer

Überschätzung des Therapieerfolgs zu führen (im Überblick Hill & Betz, 2005). Die

Untersuchung soll mittels retrospektiven Vortest (Stieglitz, 1990) die Reliabilität und

Validität retrospektiver Symptomeinschätzungen im Rahmen der Psychotherapie

untersuchen. Zudem soll die Annahme eines systematischen Urteilsfehlers im Sinne eines

Rechtfertigungseffekts (illusion of positive change; Safer & Keuler, 2002) sowie eine

mögliche Überschätzung des Therapieerfolgs durch retrospektive Veränderungsmaße geprüft

werden. Limitationen vorheriger Studien (im Überblick Safer & Keuler, 2002; vgl. auch

Stieglitz, 1990; Schmidt et al., 2003) sollen dabei möglichst umgangen werden. So sollen für

den retrospektiven Vortest mit BDI und BSI zwei der am häufigsten verwendeten

Instrumente der Therapieevaluation (Farnsworth et al., 2001; Froyd et al., 1996)

herangezogen werden, um eine möglichst hohe Repräsentativität der Ergebnisse zu

gewährleisten. Safer und Keuler (2002) berechneten zum Beleg ihrer Vermutung einer

48

illusion of positive change die Korrelation des Differenzwertes Retro-Post als Maß für eine

Fehleinschätzung mit einem Prä-Post Differenzwert als Maß für den Therapieerfolg. Dabei

ist kritisch zu bemerken, dass Korrelationen mit Differenzwerten im Verdacht stehen

statistische Artefakte zu provozieren (vgl. Steketee & Chambless, 1992). Der Einfluss des

Therapieerfolgs auf die retrospektiven Einschätzungen (Retro) soll in Anbetracht dieser

Problematik daher in linearen Regressionen berechnet werden. Zudem sollen über indirekte

Veränderungsmaße hinaus auch weitere Evaluationsverfahren wie direkte

Veränderungsmaße und Maße der Zielerreichung in ihren Bezügen zu einer möglichen

Überschätzung untersucht werden, um von einem systematischen Einfluss des

Therapieerfolgs auf die retrospektive Einschätzung sprechen zu können. Die retrospektiven

Prä-Werte (Retro) von BSI bzw. BDI sollen dabei jeweilsals abhängige Variablen und die

zugehörigen regulären Prä-Werte (Prä) des jeweiligen Instruments sowie verschiedene

Veränderungs- und Zielerreichungsmaße als unabhängige Variablen herangezogen werden.

Als indirekte Erfolgsmaße sollen statt einfacher Prä-Post Differenzwerte Residual Gain

Scores für BSI und BDI verwendet, um die Gefahr statistischer Artefakte im Vergleich zur

Verwendung von einfachen Differenzwerten zu minimieren (vgl. Steketee & Chambless,

1992). Die regulären Prä-Werte sollen zusammen mit den verschiedenen

Therapieerfolgsmaßen in Blöcken in die Regressionsgleichung einbezogen werden. So

können die Anteile der einzelnen Therapieerfolgsmaße an der Varianzaufklärung über den

Erklärungswert der regulären Prä-Werte hinaus auch quantitativ bestimmt werden. Um die

Überschätzung des Therapieerfolgs unter Verwendung retrospektiver Werte zu prüfen, wird

eine Effektstärkenmetrik berechnet, die den direkten Vergleich indirekter und quasi-

indirekter Veränderungsmaße ermöglichen soll (vgl. Schmidt et al., 2003). Die

Konstruktvalidität beider Effektstärkevarianten - indirekter und quasi-indirekter - soll über

49

Zusammenhänge mit den anderen herangezogenen Therapieerfolgsmaßen vergleichend

untersucht werden.

Die zweite Studie hat die Untersuchung empirischer Dimensionen des

Therapieerfolgs mittels explorativer Faktorenanalyse zum Gegenstand. Im Fokus der Studie

steht die Forderung von Hill und Lambert (2004), die Bedingungen weiter aufzuklären, die

zu Unterschieden in der Abschätzung des Therapieerfolgs durch verschiedene

Evaluationsverfahren führen. Ausgangspunkt für Studie 2 stellen die beiden oben

dargestellten Studien dar, die Veränderungsmaße faktorenanalytisch in Kontrast zu

sogenannten retrospektiven Erfolgsbeurteilungen setzen (Michalak et al., 2003; vgl. auch

Flückiger et al., 2007). Fraglich ist, ob die in beiden Studien unter retrospektiv gefassten

Verfahren tatsächlich einen retrospektiven Rückblick implizieren. In Bezug auf die

Taxonomie von Schulte (vgl. Abb. 1) sollten bei Zufriedenheitsurteilen und

Zielerreichungsskalierungen ein Abgleich von einem Ziel (Ideal) mit dem aktuellen Zustand

vorgenommen werden, anstatt eine retrospektive Rückschau auf den Ausgangszustand

vorzunehmen. In Bezug auf die direkte Veränderungsmessung betonen Michalak und

Kollegen (2003) selbst, dass Patienten vermutlich vielmehr vom aktuellen Zustand auf die

Veränderung (vgl. auch Kastner & Basler, 1997) schließen als tatsächlich einen Rückblick

auf den Ausgangszustand vorzunehmen und einen Differenzwert Prä-Post zu berechnen. Im

eigentlichen Sinne retrospektiv können vermutlich lediglich Verfahren betrachtet werden,

die direkt zur Rekonstruktion eines früheren Zustandes auffordern (vgl. Baumann, 1982).

Ein derartiges Verfahren findet allerdings in keiner der beiden Studien eine

Berücksichtigung. Es bleibt somit fraglich, ob die unterschiedliche Zeitperspektive

(Baumann, 1982) der Verfahren (Differenzwerte aus Statusmessungen vs. retrospektive

Messungen) die gezeigte Divergenz erklären kann. In einer faktorenanalytischen

Zusammenschau verschiedener Verfahren der Therapieerfolgsmessung soll geprüft werden,

50

ob sich abermals Methodenfaktoren zeigen lassen, die die Zeitperspektive als

Unterscheidungsmerkmal der Verfahren abbilden. Über vorhandene Studien hinaus werden

dabei quasi-indirekte Veränderungswerte (Schmidt et. al, 2003) auf Basis des retrospektiven

Vortests (Stieglitz, 1990) mit in die Faktorenanalyse einbezogen und die Verortung dieses

explizit retrospektiven und zugleich indirekten Veränderungsmaßes untersucht. Zum anderen

sollen über Zusammenhänge aller herangezogenen Erfolgswerte mit der retrospektiven

Rekonstruktion des Ausgangszustandes (retrospektiver Vortest) Rückschlusse auf ihren

möglichen retrospektiven Charakter ermöglicht werden.

Die dritte Studie soll den Bochumer Veränderungsbogen-2000 (BVB-2000) als

Instrument zur direkten Veränderungsmessung reanalysieren. Der BVB-2000 stellt eine

Revison des weit verbreiteten (im Überblick Zielke & Kopf-Mehnert, 2001a)

Veränderungsfragebogens des Erlebens und Verhaltens (VEV) von Zielke und Kopf-

Mehnert (1978) dar. Mitte der neunziger Jahre wurde der VEV aufgrund einer als schwer

verständlich einzustufenden Skalenkonstruktion (vgl. auch Zielke & Kopf-Mehnert, 2001b)

von Veith und Willutzki in Bochum überarbeitet (Veith & Willutzki, 2000). Der BVB-2000

soll hinsichtlich seiner Struktur und Gütekriterien reanalysiert werden. Dabei sollen vor

allem Fragen der konvergenten Validität fokussiert werden. Auf Basis einer

Wartekontrollgruppe soll ein kritischer Veränderungswert (vgl. Zielke & Kopf-Mehnert,

1978) für den BVB-2000 berechnet werden. Dieser soll es ermöglichen, den Therapieerfolg

auch im Einzelfall zu bestimmen, sowie den Verdacht einer möglichen Überschätzung des

Therapieerfolgs durch direkte Veränderungsmessungen zu untersuchen. Letzteres soll auch

darüber erreicht werden, dass die ermittelten kritischen Veränderungswerte auf die

Behandlungsgruppe angewendet werden und die Anzahl (N, %) gebesserter bzw.

verschlechterter Patienten bestimmt werden soll. Diese Erfolgsgruppen sollen dann

hinsichtlich ihres weiteren Therapieoutcomes (indirekte Veränderungsmessung, Maße der

51

Zielerreichung) deskriptiv verglichen und Unterschiede im Therapieeerfolg zwischen den

Gruppen inferenzstatistisch auf Bedeutsamkeit getestet werden. Über den Vergleich der

Zusammenhänge der verschiedenen Erfolgswerte mit den Statusmessungen (Prä, Post) der

Symptomatik soll zudem der Verdacht eines Bezugssystemfehlers (Kastner & Basler, 1997)

bei der direkten Veränderungsmessung untersucht werden.

52

7. Publikationen

53

7.1 Publikation 1 - Es ging mir schlechter, als ich dachte! Retrospektive

Symptomeinschätzung und Psychotherapieerfolg

Ülsmann, D. & Fydrich, T. (in Druck). Es ging mir schlechter, als ich dachte!

Retrospektive Symptomeinschätzung und Psychotherapieerfolg. Zeitschrift für klinische

Psychologie und Psychotherapie.

54

Kolumnentitel: RETROSPEKTIVE SYMPTOMEINSCHÄTZUNG

Es ging mir schlechter, als ich dachte!

Retrospektive Symptomeinschätzung und Psychotherapieerfolg

Dominik Ülsmann und Thomas Fydrich

Humboldt-Universität zu Berlin

55

Zusammenfassung

Theoretischer Hintergrund: Bei retrospektiven Einschätzungen des Erlebens und Verhaltens

werden meist Gedächtnis- und Urteilsfehler vermutet. Fragestellung: Wie zuverlässig sind

retrospektive Symptomeinschätzungen in der Psychotherapie? Wie valide sind

Therapieerfolgsmaße auf Basis retrospektiver Symptomeinschätzungen? Methode:

Psychotherapiepatienten (N = 83) rekonstruieren zu Therapieende ihre Symptomausprägung

vom Beginn der Therapie auf dem Brief Symptom Inventory (BSI) und dem Beck

Depressions Inventar (BDI). Ergebnisse: Neben einer bedeutsamen retrospektiven

Überschätzung zeigen retrospektive und reguläre Prä-Messungen bedeutsame

Zusammenhänge. Das Ausmaß der retrospektiven Symptomeinschätzungen ist vom

Therapieerfolg weitgehend unabhängig. Prä-Post Effektstärken auf Basis der retrospektiven

Prä-Messungen zeigen vergleichbare Zusammenhänge mit anderen Therapieerfolgsmaßen

wie reguläre Prä-Post Effektstärken. Schlussfolgerungen: Retrospektive

Symptomeinschätzungen sind zuverlässig aber nicht akkurat. Pauschale Annahmen über

Urteilsfehler und eine wenig valide Darstellung des Therapieerfolgs bei retrospektiver

Erfassung von Symptomen müssen zurückgewiesen werden.

Schlagwörter: Retrospektiver Vortest - Evaluation - Therapieerfolg - Behandlungserfolg -

retrospektive Erfolgsbeurteilung

56

Abstract

Background: Retrospective assessments of experiences and behaviour are often accused of

systematic biases. Objective: How accurate are retrospective estimates of symptom severity

in psychotherapy? How valid are treatment success measures based on retrospective

assessments? Method: Outpatients (N = 83) retrospectively reconstruct their initial symptom

severity at the end of therapy on the Brief Symptom Inventory (BSI) and the Beck

Depression Inventory (BDI). Results: The retrospective estimates show higher mean values.

Regular and retrospective estimates correlate substantially. Relations between the

retrospective estimates and psychotherapy outcome are not consistent. Retrospective and

regular effect sizes show similar correlations with different other measures of psychotherapy

outcome. Conclusions: Retrospective assessments of symptom severity are highly reliable,

though not necessarily accurate. General assumptions about biases and an invalid display of

treatment success in retrospective measurements must be rejected.

Key words: retrospective pretest - evaluation - psychotherapy outcome - treatment success -

retrospective measurement

57

„Retrospective reports of emotional states will always be with us.”

(Seligman, 1995)

Einleitung

Eine große deutsche Testzeitschrift präsentiert im Herbst 2011 die Ergebnisse ihrer

Konsumentenumfrage: „Therapie hat vielen geholfen“ (Stiftung Warentest, 2011).

Teilnehmer, die psychotherapeutische Behandlung in Anspruch genommen hatten, schätzten

dazu ihr seelisches Leiden zum Teil weit nach Therapieende noch einmal ein. „So fanden 77

Prozent der Teilnehmer vor Beginn der Behandlung ihr seelisches Leiden „sehr groß“ oder

„groß“. Nach dem Ende der Therapie lag dieser Anteil nur noch bei 13 Prozent.“ (Stiftung

Warentest, 2011). Wie bereits in der Diskussion um die Consumer Reports Study (Seligman,

1995) stellt sich auch in Bezug auf diese Konsumentenstudie umgehend die Frage, ob

Patienten so etwas wie ihr psychisches Befinden zu verschiedenen Zeitpunkten in der

Vergangenheit überhaupt zuverlässig retrospektiv einschätzen können. Auf der Suche nach

empirischen Befunden zur Beantwortung dieser Frage muss allerdings festgestellt werden,

dass nur wenigen Studien die Güte retrospektiver Symptomeinschätzungen an klinischen

Stichproben direkt prüfen (im Überblick Safer & Keuler, 2002). Vor dem Hintergrund, dass

der klinische Alltag von Professionellen und Betroffenen sehr oft mit derartigen

Einschätzungen zu tun hat, ist dies ein eher verwunderlicher Umstand. Fundierte Aussagen

zur Güte retrospektiver Symptomeinschätzungen hätten sicherlich eine große Tragweite.

Werden doch auf Basis retrospektiver Aussagen zu Symptomen Diagnosen gestellt,

Interventionen abgeleitet oder der Therapieerfolg bestimmt. Das Spektrum retrospektiver

Einschätzungen im psychotherapeutischen Setting reicht von der einfache Frage „Wie ist es

Ihnen seit unserer letzten Sitzung ergangen?“ bis hin zur systematischen Erhebung von

Symptomen in Selbstbeurteilungsinstrumenten oder klinischen Interviews. Oder wie

58

Seligman (1995) es ausdrückt: „Retrospective reports of emotional states will always be with

us“ (S. 973).

Eine verbreitete Methode der retrospektiven Einschätzung früheren Erlebens und

Verhaltens ist der retrospektive Vortest (Stieglitz, 1990; vgl. im Überblick Hill & Betz,

2005). Dabei werden auf der Basis von Testverfahren die Prä-Werte retrospektiv (im

Folgenden Retro genannt) am Ende (Post) eines Interventionszeitraumes erhoben und

können so mit einer entsprechenden regulären Messung, die zu Therapiebeginn

stattgefunden hat (Prä), verglichen werden. Studien, die den retrospektiven Vortest zur

Einschätzung früherer psychischer Symptome verwenden, zeigen dabei überwiegend eine

retrospektive (Retro) Überschätzung der initialen Symptomatik (Prä) bei gleichzeitig

bestehenden bedeutsamen Zusammenhängen zwischen Retro- und Prä-Messung (im

Überblick Safer & Keuler, 2002; vgl. auch Schmidt, Steffanowski, Nübling, Lichtenberg &

Wittmann, 2003; Stieglitz, 1990). Insgesamt könne die Erinnerung an die frühere

Symptomatik bzw. deren systematische retrospektive Erfassung somit als „highly reliable,

though not necessarily accurate“ (Safer & Keuler, 2002, S. 173) bezeichnet werden.

Bei der Frage nach der Validität derartiger retrospektiver Einschätzungen wird meist

auf die Problematik systematischer Verzerrungstendenzen verwiesen (Hill & Betz, 2005).

Der vorliegenden Literatur können dabei eine ganze Reihe von möglichen Faktoren

entnommen werden, die die retrospektive Einschätzung früheren Erlebens und Verhaltens

beeinflussen oder zumindest beeinflussen könnten (im Überblick Hill & Betz, 2005; vgl.

auch Levine, Safer & Lench, 2006; Taylor, Russ-Eft & Taylor, 2009). Für die retrospektive

Einschätzung von Symptomen im Rahmen der Psychotherapie existieren dazu allerdings nur

wenige Befunde (im Überblick Safer & Keuler, 2002). Soziodemographische Variablen (u.a.

Alter, Geschlecht) zeigen kein Potential zur Erklärung der erhöhten retrospektiven

59

Symptomschätzungen (Schmidt et al., 2003; Stieglitz, 1990). Ein Zusammenhang mit der

Dauer des überblickten Zeitraums konnte ebenfalls nicht gezeigt werden (Stieglitz, 1990).

Safer und Keuler (2002) konnten allerdings einen Einfluss von Neurotizismus, Angst und

Depression, sowie von Ich-Stärke, Selbsttäuschung und Lügen belegen. Besondere Brisanz

für den Bereich der Psychotherapieevaluation weist dabei ein Befund auf, der eine

systematische retrospektive Überschätzung in Abhängigkeit vom Therapieerfolg nahelegt.

Patienten, die nicht von der Therapie profitierten oder deren Befinden sich gar

verschlechterte, wiesen in der Studie von Safer und Keuler (2002) statistisch bedeutsam

höhere Fehleinschätzungen (Differenzwert Retro-Prä) der initialen Symptomatik auf als

Patienten, bei denen sich im Prä-Post Vergleich Verbesserungen der Problematik zeigten.

Zudem konnte in dieser Studie ein bedeutsamer negativer Zusammenhang der gezeigten

Überschätzung (Retro-Prä Differenzwert) mit dem Prä-Post Differenzwert desselben

Instruments (HSCL, Hopkins Symptom Checklist; Derogatis, Lipman, Rickels, Uhlenhuth &

Covi; 1974) gezeigt werden, auf dem auch der retrospektive Vortest vorgenommen wurde.

Safer und Keuler (2002) vermuten hinter den retrospektiven Überschätzungen somit eine

illusion of positive change. Die höheren retrospektiven Werte für die Symptomatik könnten

dadurch motiviert sein, eine Veränderung wahrzunehmen, die objektiv nicht stattgefunden

hat.

Die verbreitete Vermutung systematischer Verzerrungen bei der Rekonstruktion

früheren Erlebens und Verhaltens ist vermutlich auch der Grund dafür, dass retrospektive

Therapieerfolgsmaße (z.B. Retro-Post Differenzwerte) in der Evaluation von Psychotherapie

deutlich seltener verwendet werden als Prä-Post Differenzwerte (im Überblick Hill &

Lambert, 2004; vgl. auch Hill & Betz, 2005). Mit der Annahme systematischer Verzerrungen

bei der Retrospektion geht auch der Verdacht einer Überschätzung des Interventionserfolgs

einher (vgl. Hill & Betz, 2005). Als ein retrospektives indirektes Veränderungsmaß

60

(Bereiter, 1963) können analog zu Prä-Post Differenzwerten auch Retro-Post Differenzwerte

berechnet werden. Retro-Post Veränderungswerte, die retrospektive Werte (Mittelwert,

Standardabweichung) zur ihrer Berechnung heranziehen, weisen dabei höhere Effekte für die

psychotherapeutische Behandlungen aus als reguläre Prä-Post Veränderungswerte (Schmidt

et al., 2003; Stieglitz, 1990). Gleichwohl können im Vergleich von Retro-Post und Prä-Post

Veränderungsmaßen aber auch vergleichbar hohe und zum Teil sogar erhöhte korrelative

Bezüge der Retro-Post Veränderungswerte mit anderen Veränderungsmaßen sowohl im

Selbst- als auch im Fremdurteil gezeigt werden (Schmidt et al., 2003; Seligman, 1995;

Stieglitz, 1990).

Fragestellung

Mit der vorliegenden Studie sollen drei Fragen fokussiert untersucht werden: Wie

zuverlässig sind retrospektive Einschätzungen der Symptomatik im Rahmen ambulanter

kognitiv-verhaltenstherapeutischer Psychotherapie? Lässt sich die Annahme einer illusion of

positive change (Safer & Keuler, 2002) weiter belegen? Wie valide sind indirekte

Veränderungswerte auf Basis retrospektiver Werte?

Die vorliegende Untersuchung erweitert das methodische Vorgehen von vorhandenen

Studien zu diesen Fragestellungen, indem zwei der am häufigsten verwendeten (Hill &

Lambert, 2004) Instrumente der Psychotherapieevaluation, das Brief Symptom Inventory

(BSI; Franke, 2000) und das Beck Depressionsinventar (BDI; Hautzinger, Bailer, Worall &

Keller, 1995) für den retrospektiven Vortest herangezogen werden und die Ergebnisse für

beide Instrumente vergleichend gegenüberstellt werden können. Zudem soll methodischer

Kritik an der Studie von Safer und Keuler (2002) begegnet werden (vgl. Safer, Levine &

Drapalski, 2002). Die Autoren griffen zum Beleg einer illusion of positive change auf

Korrelationsberechnungen mit Differenzwerten zurück (als Erfolgsmaß Prä-Post

61

Differenzwerte und als Maß der Überschätzung Retro-Post Differenzwerte). Zudem konnten

sie den Nachweis eines Zusammenhangs zwischen Therapieerfolg (Prä-Post Differenzwert)

und Überschätzung (Retro-Prä Differenzwert) nur für das Instrument aufzeigen, auf dem

auch der retrospektive Vortest vorgenommen wurde (HSCL, Hopkins Symptom Checklist;

Derogatis et al., 1974). In der vorliegenden Studie soll dieser Problematik begegnet werden,

indem bei der Datenauswertung zu dieser Frage ein multivariates Verfahren eingesetzt wird

(lineare Regression) und zur indirekten Therapieerfolgsmessung (Prä-Post) für die

Regressionsberechnungen auf messfehlerkorrigierte Differenzwerte von zwei inhaltlich

verschiedenen Instrumenten zurückgegriffen wird (vgl. hierzu Steketee & Chambless, 1992).

In Bezug auf die Validität indirekter Veränderungswerte auf Basis retrospektiver Werte

bietet die vorliegende Studie den Vorteil, dies unter Rückgriff auf zwei etablierte und

normierte Instrumente vergleichend untersuchen zu können.

Es wird erwartet, dass sich neben bedeutsam höheren retrospektiven Werten (Retro)

gleichzeitig ein hoher Zusammenhang retrospektiver (Retro) und regulärer (Prä) Messungen

zeigen lässt (vgl. Safer & Keuler, 2002; Schmidt et al., 2003; Stieglitz, 1990). Zudem sollte

sich eine Abhängigkeit der retrospektiven Einschätzung vom Therapieerfolg derart zeigen

lassen, dass zwischen Therapieerfolg und retrospektiver Symptomeinschätzung ein inverses

Verhältnis besteht (Safer & Keuler, 2002). Therapieerfolgswerte, die mit retrospektiven

Werten (M; SD) berechnet werden (Retro-Post Effektstärke), sollten einen höheren

Therapieerfolg ausweisen als reguläre Prä-Post Erfolgswerte (vgl. hierzu Schmidt et al.,

2003). Dennoch sollten Retro-Post Erfolgswerte vergleichbar hohe Zusammenhänge mit

anderen Psychotherapieerfolgsmaßen zeigen wie Prä-Post Erfolgswerte (Schmidt et al.,

2003; Stieglitz, 1990).

62

Methode

Stichprobe

Die Erhebungen wurden mit N = 83 Patienten durchgeführt, die zwischen 2007 und

2009 am Zentrum für Psychotherapie (ZPT) der Ruhr Universität Bochum kognitiv-

verhaltenstherapeutisch behandelt wurden und deren Therapien im Mittel nach 37.5

Therapiestunden (SD = 15.01) regulär beendet wurden. Das Durchschnittsalter der Patienten

beträgt 37.3 Jahre (SD = 12.43) und 55.4% (N = 46) sind weiblichen Geschlechts.

Diagnostiziert wurden mittels Strukturiertem Klinischen Interview für DSM-IV (SKID;

Wittchen, Zaudig & Fydrich, 1997) überwiegend Angststörungen (N = 30; 36.1%) und

affektive Störungen (N = 16; 19.3%), sowie Essstörungen (N = 11; 13.3%),

Zwangsstörungen (N = 8; 9.6%) und sonstige Störungen (N = 18; 21.3%).

Ausschlusskriterium war ein vorzeitiger Abbruch der Therapie, so dass nur abgeschlossene

Therapien einbezogen wurden. Um die Belastung für die Patienten gering zu halten, galt als

weiteres Ausschlusskriterium die Teilnahme der Patienten an anderen aufwändigen

Forschungsprojekten der Ambulanz.

Prozedur

Die Erhebungen fanden in Form von zwei Messungen zu Therapiebeginn (Prä) und

Therapieende (Post) statt. Die Prä-Messung umfasste neben dem Strukturiertem Klinischen

Interview für DSM-IV (SKID; Wittchen et. al., 1997), das Brief Symptom Inventory (BSI;

Franke, 2000) und das Beck Depressionsinventar (BDI; Hautzinger et al., 1995). Die

Messung zu Therapieende (Post) umfasste folgende Psychotherapieerfolgsmaße:

Veränderungsfragebogen des Erlebens und Verhaltens in einer revidierten Form (VEV-VW;

Veith & Willutzki, 2000), Globalurteil der Zufriedenheit mit der Therapie (Globalurteil;

Meyer & Schulte, 2002) und eine Zielerreichungsskalierung (GAS; Kiresuk & Shermann,

63

1968; Schulte, 1996). Zudem wurden abermals BSI und BDI (Post) erhoben und mit beiden

Instrumenten der retrospektive Vortest (Retro) vorgenommen. Der Zeitraum, den die

Patienten für den retrospektiven Vortest zu überblicken hatten, betrug im Mittel 462 Tage

(SD = 208; min = 83, max = 1023). Für den retrospektiven Vortest wurden die

Standardinstruktionen von BSI und BDI um folgende Einleitung ergänzt: „Wir möchten Sie

für diese Befragung bitten, sich noch einmal an den Zeitpunkt ihres Therapiebeginns zurück

zu erinnern. Führen Sie sich bitte vor Augen, wie es Ihnen damals ging und beantworten Sie

die folgenden Fragen so, wie Sie sich damals fühlten.“

Material

Das Brief Symptom Inventory (BSI; Franke, 2000) erfasst die subjektiv empfundene

Beeinträchtigung durch körperliche und psychische Symptome in 9 Subskalen. Der

Gesamtwert des BSI (Global Severity Index; GSI) stellt ein reliables Maß für die

Symptombelastung dar (GSI; Franke, 2000; α > .92). Das Beck Depressions Inventar (BDI;

Hautzinger et al., 1995; α = .88) erfasst in 21 Items den Schweregrad einer depressiven

Symptomatik. Der Veränderungsfragebogen des Erlebens und Verhaltens VW (VEV-VW;

Veith & Willutzki, 2000) stellt eine Überarbeitung des Veränderungsfragebogens des

Erlebens und Verhaltens nach Zielke (VEV; Zielke, 1978) dar und fordert Patienten auf, ihre

Veränderungen im Zuge der Psychotherapie direkt anzugeben (VEV-VW; Veith &

Willutzki, 2000; Ülsmann, Willutzki & Veith, 2009; α = .96). Die Antwortmöglichkeiten der

26 Items des VEV-VW sind als Polaritätsprofile mit einer sieben-stufigen Skala gestaltet (1

bis 7). Der neutrale Skalenmittelpunkt 4 verweist auf keine Veränderung, höhere Werte

verweisen aufsteigend auf eine positive Veränderung, niedrigere Werte absteigend auf eine

negative Veränderung. Das Globalurteil der Zufriedenheit (Globalurteil; Meyer & Schulte,

2002) erfasst in zwei Items (6 stufige Likert Skala von 1 bis 6) die Zufriedenheit des

64

Patienten mit der Therapie. Höhere Werte verweisen hierbei auf höhere Zufriedenheit. Die

Zielerreichungsskalierung (vgl. Schulte, 1996) erfragt zu Therapieende den Grad der

Zielerreichung idiosynkratisch für die zu Therapiebeginn operationalisierten Therapieziele (6

stufige Likert Skala von 0 „nichts erreicht“ bis 5 „voll erreicht“) in Anlehnung an das Goal

Attainment Scaling (GAS; Kiresuk & Shermann, 1968).

Statistische Analysen

Retrospektiver Vortest (Retro) und reguläre Prä-Messung (Prä) von BSI und BDI

werden mittels t-Test (für abhängige Stichproben) auf Mittelwertsunterschiede geprüft und

ihr Zusammenhang mittels Korrelation (Pearson) untersucht. Um den Einfluss des

Therapieerfolgs auf die retrospektiven Einschätzungen (Retro) zu untersuchen, werden

lineare Regressionen berechnet. Die retrospektiven Prä-Werte (Retro) von BSI bzw. BDI

werden in den Regressionsberechnungen jeweils als abhängige Variable und die zugehörigen

regulären Prä-Werte (Prä) des jeweiligen Instruments sowie die Therapieerfolgsmaße

(indirekte Erfolgsmaße von BSI und BDI, VEV, Global, GAS) als unabhängige Variablen

herangezogen. Als indirekte Erfolgsmaße werden in den Regressionsberechnungen statt

einfacher Prä-Post Differenzwerten residual gain scores (RGS; (Z1-Z2) x r12) für BSI und

BDI verwendet. Dies geschieht in der Annahme, dadurch die Gefahr statistischer Artefakte

im Vergleich zur Verwendung von einfachen Differenzwerten zu minimieren (vgl. Steketee

& Chambless, 1992). Die regulären Prä-Werte werden jeweils in einem ersten Block in die

Regressionsgleichung eingegeben und die Therapieerfolgsmaße (RGS von BSI und BDI,

VEV, Global, GAS) schrittweise innerhalb eines zweiten Blocks einbezogen. So können die

Anteile der einzelnen Therapieerfolgsmaße an der Varianzaufklärung über den

Erklärungswert der regulären Prä-Werte hinaus quantitativ bestimmt werden. Um die

Überschätzung des Therapieerfolgs unter Verwendung retrospektiver Werte zu prüfen,

65

werden Prä-Post Effektstärken von BSI und BDI unter Verwendung regulärer (Mprä-

Mpost/SDprä; Grawe, Bernauer & Donati, 1994) und retrospektiver Werte (Mretro-

Mpost/SDretro; vgl. Schmidt et al., 2003) berechnet und deskriptiv auf Unterschiede

untersucht. Zusammenhänge (Pearson) beider Effektstärkevarianten (Prä-Post, Retro-Post)

untereinander und jeweils mit anderen Therapieerfolgsmaßen (VEV, Global, GAS) werden

mittels Korrelation (Pearson) untersucht.

Ergebnisse

Retrospektive Einschätzung der Symptomatik

Tabelle 1 zeigt die deskriptiven Statistiken aller herangezogenen Maße. Die

retrospektiven Einschätzungen (Retro) von BSI und BDI für die Symptomatik zu

Therapiebeginn zeigen erwartungskonform höhere Mittelwerte als die regulären Messungen

zu Therapiebeginn (Prä). Die Standardabweichungen der retrospektiven Werte (Retro) sind

bei beiden Instrumente (BSI, BDI) augenscheinlich höher als die der regulären Prä-Werte

(Prä). Deskriptiv verweisen die Differenzwerte Retro-Prä im Mittel auf eine Überschätzung

der Symptomatik auf beiden Instrumenten (BSI, BDI). Die Betrachtung der

Standardabweichung der Differenzwerte Retro-Prä zeigt aber auch, dass Abweichungen von

Retro- und Prä- Messung für beide Instrumente (BSI, BDI) in positive und negative

Richtung vorliegen (ebenso Safer & Keuler, 2002, Schmidt et al., 2003).

>> Tabelle 1 bitte hier einfügen <<

So zeigen beim BSI 24.1% (N = 20) und beim BDI 37.2% (N = 29) der Patienten

numerisch eine Unterschätzung (Retro < Prä). Eine Überschätzung (Retro > Prä) kann für

den BSI bei 75.9% (N = 63) und für den BDI bei 57.7% (N = 45) der Patienten gezeigt

werden. Keine numerische Abweichung lag für den BDI in 5.1% (N = 4) der Fälle vor, für

66

den BSI in keinem Fall. Im t-Test (für abhängige Stichproben) zeigt sich, dass Patienten ihre

initiale Symptomatik (Prä) sowohl für den BSI als auch für den BDI retrospektiv im Mittel

statistisch bedeutsam höher (Retro > Prä) einschätzen (BSI p < .01, T = 5.82, df = 82; BDI p

< .01, T = 2.99, d f = 77). Retrospektive und reguläre Prä-Messungen beider Instrumente

korrelieren (Pearson) dabei deutlich (BSI r = .63, p < .01, N = 83; BDI r = .77, p < .01, N =

78).

Zusammenhang zwischen retrospektiver Symptomerhebung und Psychotherapieerfolg

Die Tabellen 2 und 3 zeigen die Ergebnisse der linearen Regressionen mit den

retrospektiven Prä-Werten von BSI und BDI als jeweiliger abhängiger Variable und den

regulären Prä-Werte des jeweiligen Instruments sowie den Therapieerfolgsmaßen (RGS von

BSI und BDI, VEV, Global, GAS) als unabhängige Variablen.

>> Tabelle 2 bitte hier einfügen <<

Für die retrospektive Messung des BSI (Retro) zeigt das Modell 1 unter

Berücksichtigung der regulären Prä-Werte (Prä) eine Varianzaufklärung von ca. 51% (vgl.

Tabelle 2). Das Modell 2 weist unter zusätzlicher schrittweiser Berücksichtigung der

Therapieerfolgsmaße einen statistisch bedeutsamen Zugewinn an Varianzaufklärung von ca.

5% auf. Hierbei zeigt lediglich die direkte Veränderungsmessung mittels VEV-VW ein

statistisch bedeutsames positives Beta Gewicht. Im Modell 3 zeigt sich zudem ein

bedeutsames und erwartungsgemäß negatives Beta Gewicht für den RGS des BSI (GSI).

Dieses Modell weist einen statistisch bedeutsamen Zugewinn an Varianzaufklärung von 3%

auf. Der RGS des BDI wird erwartungswidrig nicht in die Regressionsgleichung

aufgenommen.

>> Tabelle 3 bitte hier einfügen <<

67

Für die retrospektiven Werte des BDI (Retro) zeigt das Modell 1 unter

Berücksichtigung der regulären Prä-Werte (Prä) eine Varianzaufklärung von ca. 55% (vgl.

Tabelle 3). Die weiteren Modelle 2 und 3 weisen unter zusätzlicher schrittweiser

Berücksichtigung der Therapieerfolgsmaße einen statistisch bedeutsamen Zugewinn an

Varianzaufklärung von jeweils ca. 4% auf. Hierbei zeigt sich im Modell 2 zunächst für die

direkte Veränderungsmessung mittels VEV-VW ein statistisch bedeutsames positives Beta

Gewicht. Im nächsten Schritt wird zusätzlich der RGS des BDI mit einem erwartungsgemäß

negativen Beta Gewicht in die Gleichung aufgenommen. Der RGS des BSI wird

erwartungswidrig nicht in der Regressionsgleichung berücksichtigt.

Validität retrospektiver indirekter Veränderungswerte (Retro-Post Effektstärken)

Tabelle 1 zeigt die Werte für die regulären Prä-Post Effektstärken (Mprä-

Mpost/SDprä) und die retrospektiven Retro-Post Effektstärken (Mretro-Mpost/SDprä). Die

regulären Prä-Post Effektstärken weisen einen mittleren Effekt für den BSI und einen großen

Effekt für den BDI aus (vgl. Cohen, 1988). Die Verwendung retrospektiver Prä-Werte

(Retro-Post Effektstärken) weist demgegenüber für beide Instrumente einen großen Effekt

der Behandlung aus. Tabelle 4 zeigt die Interkorrelationen der Therapieerfolgsmaße.

Reguläre Prä-Post Effektstärken (Mprä-Mpost/SDprä) und retrospektive Retro-Post

Effektstärken (Mretro-Mpost/SDretro) von BSI und BDI weisen statistisch bedeutsame

Zusammenhänge auf. Hierbei zeigen die beiden Effektstärkevarianten untereinander für den

BSI 20% geteilte Varianz und für den BDI nahezu 50% gemeinsame Varianz.

>> Tabelle 4 bitte hier einfügen <<

Erwartungsgemäß zeigen sowohl die regulären Prä-Post Effektstärken (Mprä-

Mpost/SDprä) als auch die retrospektiven Retro-Post Effektstärken (Mretro-Mpost/SDretro)

bedeutsame Bezüge zu den anderen Therapieerfolgsmaßen (vgl. Tabelle 4). Die

68

Zusammenhänge der retrospektiven Retro-Post Effektstärken mit den anderen

Therapieerfolgsmaßen sind dabei in Richtung und Ausmaß (8-23% geteilte Varianz)

weitestgehend vergleichbar mit denen der regulären Prä-Post Effektstärken (6-15% geteilte

Varianz).

Diskussion

Retrospektive Symptomeinschätzungen (Retro) weisen wie erwartet im Mittel

bedeutsam höhere Werte der Ausgangssymptomatik auf als regulär erhobene Prä-Werte

(Prä). Ebenso erwartungskonform zeigen retrospektive (Retro) und reguläre (Prä)

Messungen bedeutsame Zusammenhänge (ebenso Safer & Keuler, 2002; Schmidt et al.,

2003; Stieglitz, 1990). Die Regressionsanalysen zeigen, dass mehr als 50% der Varianz der

retrospektiven Werte (Retro) beider Instrumente durch die jeweiligen regulären Prä-Werte

(Prä) erklärt werden können. Die Ergebnisse unterstützen somit insgesamt den Befund, dass

Patienten vergangene Symptome „highly reliable, though not necessarily accurate“ (Safer &

Keuler, 2002, S. 173) erinnern (ebenso Schmidt et al., 2003; Stieglitz, 1990). Der Verdacht,

dass das Ausmaß des Therapieerfolgs die retrospektive Rekonstruktion der Symptomatik

systematisch beeinflussen könnte, bildet sich in den vorliegenden Ergebnissen

erwartungswidrig nicht ab. Therapieerfolgsmaße leisten zur Aufklärung der retrospektiven

Einschätzungen insgesamt lediglich einen vergleichsweise geringen Beitrag

(Varianzaufklärung ca. 8-9%). Zudem ist die Richtung der Zusammenhänge verschiedener

Therapieerfolgsmaße mit den retrospektiven Einschätzungen (Retro) nicht einhellig. Die

erwarteten negativen Zusammenhänge von indirekter Veränderungsmessung (RGS) und

retrospektiver Symptomeinschätzung (Retro) lassen sich darüber hinaus jeweils nur für das

Instrument zeigen, auf dem auch der retrospektive Vortest vorgenommen wurde. Der

Verdacht einer illusion of positive change bei der retrospektiven Symptomeinschätzung

69

erscheint somit insgesamt eher unbegründet (anders Safer & Keuler, 2002). Weiterhin lässt

sich entgegen der Erwartung keine Überschätzung des Therapieerfolgs per se durch

retrospektive Retro-Post Effektstärken (Mretro-Mpost/SDretro) im Vergleich zu regulären

Prä-Post Effektstärken (Mprä-Mpost/SDprä) zeigen. Lediglich für den BSI, nicht aber für

den BDI kann eine höhere retrospektive Effektstärke belegt werden. Hierbei ist allerdings zu

beachten, dass das Ausmaß der Effektgröße abhängig von der jeweiligen

Standardabweichung der Messungen ist (Mprä-Mpost/SDprä bzw. Mretro-Mpost/SDretro).

Trotz Überschätzung der Prä-Werte durch den retrospektiven Vortest (Retro), weist die

retrospektive Retro-Post Effektstärke des BDI somit aufgrund der erhöhten

Standardabweichung einen vergleichbar großen Effekt aus wie die reguläre Prä-Post

Effektstärke. Die Zusammenhänge der Retro-Post Effektstärken mit anderen

Psychotherapieerfolgsmaßen entsprechen wie erwartet in Richtung und Ausmaß denen der

regulären Prä-Post Effektstärken. In punkto Konstruktvalidität kann somit für keine der

beiden Effektstärkevarianten eine Überlegenheit konstatiert werden (ebenso Schmidt et al.,

2003). Diese Ergebnisse bestätigen insgesamt den Befund von Stieglitz (1990), der in

retrospektiven indirekten Veränderungsmaßen ein „sensitives Maß zur Abbildung subjektiv

erlebter Veränderung“ (S. 149) sieht (vgl. auch Seligman, 1995).

Diese Interpretation der Ergebnisse unterliegt allerdings einigen Einschränkungen.

Das Fehlen einer Kontrollgruppe erscheint vor allen Dingen deshalb als Einschränkung, da

insgesamt von einer implicit theory of change bei der Teilnahme an Interventionen

ausgegangen werden kann, die systematisch Überschätzungen in der retrospektiven

Symptomschätzung provozieren könnte (vgl. Norman, 2003). Die vorliegende Studie konnte

diese sehr plausible Annahme ohne Kontrollgruppe nicht adressieren. Zudem unterliegt die

Stichprobe systematischen (und nicht zufälligen) Auswahlkriterien, da sie sich ausschließlich

aus Patienten rekrutiert, die nicht an weiteren aufwändigen Projekten der

70

Hochschulambulanz im zudem von vorneherein begrenzten Zeitraum der Untersuchung

teilnahmen. Als weitere Einschränkung kann das Fehlen von Fremdurteilen zur Abschätzung

des Therapieerfolgs gesehen werden (vgl. hierzu Schmidt et al., 2003; Stieglitz, 1990). Auch

katamnestische Daten zum Vergleich der Konstruktvalidität der retrospektiven Retro-Post

Effektstärken mit regulären Prä-Post Effektstärken wären wünschenswert gewesen.

Trotz dieser Einschränkungen verweist die vorliegende Studie mit ihren Ergebnissen

insgesamt auf die Notwendigkeit einer differenzierteren Betrachtung bei der Einschätzung

der Zuverlässigkeit und Validität retrospektiver Symptomeinschätzungen und davon

abgeleiteter Therapieerfolgswerte. In Anbetracht der Literatur und in Bezug auf die

vorliegenden Ergebnisse scheinen dabei vor allem zwei Forschungsstränge Potential für

weitere interessante Befunde zu bieten:

1. Die Identifikation möglicher anderer Faktoren, die eine retrospektive Über- oder

Unterschätzungen der Symptomatik beeinflussen könnten (im Überblick Hill & Betz,

2005).

2. Die systematische vergleichende Untersuchung der Validität von regulären Prä-Post

Veränderungswerten und retrospektiven Verfahren in der Abschätzung des

Psychotherapieerfolgs (vgl. Flückiger, Regli, Grawe & Lutz, 2007; Michalak,

Kosfelder, Meyer & Schulte, 2003; Schmidt et al., 2003) insbesondere in Bezug auf

unterschiedliche Evaluationsziele (vgl. Hill & Betz, 2005).

Für die Identifikation anderer möglicher Einflussfaktoren auf die retrospektive

Symptomschätzung bieten die vorliegenden Ergebnisse zunächst Anlass zu der Vermutung,

dass der befragte Inhalt eine Rolle bei der Retrospektion spielen könnte. So überschätzen

75.9% (N = 63) der Patienten die Ausgangswerte des BSI retrospektiv (Retro < Prä), beim

BDI lässt sich dies demgegenüber nur für 57.7% (N = 45) der Patienten zeigen. Hill & Betz

71

(2005) konnten für den Bereich der Erwachsenenbildung zeigen, dass Items, deren Inhalte

eher die Zielbereiche einer Intervention betreffen oder sozial erwünschtes Verhalten

repräsentieren, deutlichere Überschätzungen aufweisen. Schwartz & Rapkin (2004)

vermuten, dass retrospektive Erhebungen von verhaltensnah gefassten Items im Vergleich zu

Items mit eher emotionalem Gehalt zu geringeren Abweichungen von den regulären Prä-

Werten führen (im Überblick vgl. auch Safer & Keuler, 2002). Die Frage nach der

Zuverlässigkeit retrospektiver Symptomeinschätzungen könnte somit in Folgestudien

gezielter den abgebildeten Inhalt der Items (bzw. Instrumente) fokussieren, um die

Bedingungen von Über- oder Unterschätzungen weiter aufzuklären. Der Literatur lassen sich

darüber hinaus aber eine Fülle weiterer möglicher kognitiver, emotionaler, motivationaler

und differentieller Einflussfaktoren entnehmen, die auf die retrospektive Einschätzung von

Symptomen im Rahmen der Psychotherapieevaluation gewinnbringend übertragen werden

könnten (im Überblick Hill & Betz, 2005; vgl. auch Levine, Safer & Lench, 2006; Taylor et

al., 2009). Die Diagnose stellt für den Bereich Psychotherapieevaluation dabei zunächst

sicherlich einen äußerst plausiblen möglichen Einflussfaktor dar. In der

Grundlagenforschung konnte bereits eine ganze Reihe von Befunden zu

störungsspezifischen Einflüssen auf die Gedächtnisleistungen insbesondere für affektive

Störungen zusammengetragen werden (Ehlers & Lüer, 1996; Williams, Barnhofer, Crane,

Hermans, Raes, Watkins & Dalgleish, 2007). Dabei zeigen eine größere Zahl von Befunde

allerdings, dass das Vorliegen einer Depression mit einer akkurateren retrospektiven

Einschätzung zumindest für negativ valentes oder störungsspezifisches Material einhergeht

(im Überblick MacLeod, Tata, Kentish & Jacobsen, 1997). Safer & Keuler (2002) konnten

demgegenüber in ihrer Studie einen positiven Zusammenhang zwischen Depressionsausmaß

zu Therapieende und der Überschätzung der initialen Symptomatik zeigen. Die Formen des

Einflusses verschiedener Faktoren und ihrer Kombination auf die Retrospektion sind

72

insgesamt vermutlich komplexer Gestalt und lassen pfadanalytische Verfahren in

Folgestudien wünschenswert erscheinen (vgl. hierzu Safer et al., 2002). Darüber hinaus ist

zu betonen, dass die mögliche Identifikation systematischer Einflussfaktoren auf den

Retrospektionsprozess nicht per se als Urteilsfehler betrachtet werden muss. So vermutet

Levine (1997) eine herausragende Funktion von aktuellen Zielen und Bewertungen bei der

Erinnerung an früheres Erleben und Verhalten (vgl. auch Levine, Lench & Safer, 2009).

Über- und Unterschätzungen könnten dabei jeweils funktional im Sinne verschiedener

Selbstregulationsstrategien betrachtet werden. Sie können für die Aufrechterhaltung einer

kohärenten Selbstbeschreibung dienlich sein und Persönlichkeit so gleichermaßen

konstituieren, wie Persönlichkeit umgekehrt Über- und Unterschätzungen erst provozieren

könnte (Safer & Keuler, 2002; Safer et al., 2002). Auch die Auswahl von Art und Ausmaß

weiteren Copingverhaltens nach einer Intervention kann durch die jeweilige Rekonstruktion

einer vergangenen Episode bestimmt sein (Levine et al., 2009). Über- und Unterschätzungen

sind von (mehr oder weniger adaptiven) Strategien der Selbstregulation dann aber nur noch

schwer zu trennen (vgl. Levine et al., 2009; Güthlin, 2004). Die Abweichung retrospektiver

von regulär erhobenen Messungen wäre unter diesen Bedingungen kein rationales Kriterium

mehr für die Zuverlässigkeit oder Validität der retrospektiven Messung. Gütekriterien zur

Beurteilung retrospektiver Verfahren sollten bei Erhärtung derartiger Annahmen

messtheoretisch sogar neu gefasst werden (vgl. hierzu Schwartz und Rapkin, 2004).

Eine derartige funktionale Interpretation retrospektiver Symptomeinschätzungen

hätte dann wohl auch weitreichende Folgen für die Beurteilung der Validität retrospektiver

Therapieerfolgswerte, da sie den Blick auf ihre Validität von der Konvergenz mit Prä-Post

Differenzwerten (Effektstärken, RGS usw.) entkoppeln würde. Einige Studien belegen

bereits einen genuinen Beitrag zur Beschreibung des Psychotherapieerfolgs durch

retrospektive Erfolgswerte (u.a. Michalak et al., 2003; Flückiger et al, 2007), der mitunter

73

gar eine höhere prädiktive Potenz retrospektiver Erfolgswerte (u.a. für die Wiederaufnahme

von Psychotherapie) im Vergleich zu Prä-Post Veränderungswerten einschließt (Michalak et

al., 2003). Trotz derartiger Befunde werden immer noch vielfach (wenn auch meist implizit)

Prä-Post Differenzwerte (bzw. Effektstärken) in ihrer Bedeutung herausgehoben und die

Validität retrospektiver Verfahren in der Konvergenz mit ihnen beurteilt (vgl. Hill

&Lambert, 2004). Dabei ist andererseits davon auszugehen, dass auch „zeitnahe“

Einschätzungen von Symptomen (zum Beispiel repräsentiert in regulären Prä-Messungen)

Urteilsfehlern unterliegen. So fassen Hill und Betz (2005) die Befunde zum retrospektiven

Vortest im Rahmen der Programmevaluation folgendermaßen zusammen: „Given that both

prospective and retrospective pretests are biased, and that our knowledge of how and when

these biases operate is currently far from comprehensive, how are program evaluators and

providers to determine which type of pretest to use“ (Hill & Betz, 2005, S. 514). Aufgrund

der jeweiligen spezifischen Beschränkungen jedes der bekannten Evaluationsverfahren kann

auf keinen absoluten Referenzpunkt der wahren Veränderung mehr gedeutet werden, von

dem aus die Validität eines anderen Verfahrens beurteilt werden könnte (Kendall, Holmbeck

& Verdun, 2004). Hill und Betz (2005) fordern daher die Erarbeitung differenzierter

empirisch basierter Empfehlungen eines best use einzelner Therapieerfolgswerte in Hinblick

auf verschiedene mögliche Evaluationsziele.

Die vorliegende Studie unterstützt die Feststellung, dass die Vernachlässigung

retrospektiver Verfahren in der Evaluation von Psychotherapie empirisch derzeit nicht

elaboriert begründbar ist (im Überblick Hill & Lambert, 2004; vgl. auch Flückiger et al.,

2007; Michalak et al., 2003) und einen ungerechtfertigten Verzicht auf ein ökonomisches

(Ein-Punkt-Messung) und zudem valides Vorgehen der Psychotherapieerfolgsmessung

bedeuten könnte.

74

Literaturverzeichnis

Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C.W. Harris

(Hrsg.), Problems in measuring change (S. 3-20). Maison: The University of

Wisconsin Press.

Cohen, J. (1988). Statistical power analysis for the behavioural sciences. Hillsdale, NJ:

Erlbaum.

Derogatis, L. R., Lipman, R. S., Rickels, K., Uhlenhuth, E. H. & Covi, L. (1974). The

Hopkins Symptom Checklist (HSCL): A self-report symptom inventory. Behavioral

Science, 19, 1–15.

Ehlers, A. & Lüer, G. (1996). Pathologische Prozesse der Informationsverarbeitung.

Kognitionspsychologische Interpretation von Depressionen und Angststörungen. In

A. Ehlers & K. Hahlweg (Hrsg.), Enzyklopädie der Psychologie. Grundlagen der

Klinischen Psychologie (Themengebiet D, Serie 2, Band 1, S. 351-403). Göttingen:

Hogrefe.

Flückiger, C., Regli, D., Grawe, K. & Lutz, W. (2007). Differencies and similarities between

pre-post and retrospective measurements of outcome. Psychotherapy Research, 17

(3), 359-364.

Franke, G. H. (2000). Brief Symptom Inventory von L. R. Derogatis (Kurzform der SCL-90

R). Göttingen: Beltz Test.

Grawe, K., Bernauer, F. & Donati, R. (1994). Psychotherapie im Wandel. Von der

Konfession zur Profession. Göttingen: Hogrefe.

Güthlin, C. (2004). Response Shift: alte Probleme der Veränderungsmessung, neu

angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische

Psychologie, 13, 165–174.

75

Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar

(BDI). (2. überarbeitete Auflage). Bern: Hans Huber.

Hill, L. G. & Betz, D. L. (2005). Revisiting the retrospective pretest. American Journal of

Evaluation, 26, 501-517.

Hill, C. E. & Lambert, M. J. (2004). Methodological Issues in Studying Psychotherapy

Processes and Outcomes. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook

of Psychotherapy and Behavior Change (S. 84–136). New York: Wiley.

Kendall, P. E., Holmbeck, G. & Verdun, T. (2004). Methodology, design, and evaluation in

psychotherapy research. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook

of Psychotherapy and Behavior Change (S. 16-43). New York: Wiley.

Kiresuk, T. I. & Sherman, R. E. (1968). Goal Attainment Scaling: A general method for

evaluating comprehensive community mental health programs. Community Mental

Health Journal, 4, 443-453.

Levine, L. J. (1997). Reconstructing memory for emotions. Journal of Experimental

Psychology: General, 126, 165-177.

Levine, L. J., Lench, H. C. & Safer, M. A. (2009). Functions of Remembering and

Misremembering Emotion. Applied Cognitive Psychology, 23, 1059-1075.

Levine, L. J., Safer, M. A. & Lench, H. C. (2006). Remembering and misremembering

emotions. In: L. J. Sanna & E. C. Chang (Hrsg.), Judgments over time: The interplay

of thoughts, feelings, and behaviors (S. 271-290). New York: Oxford University

Press.

MacLeod, A. K., Tata, P., Kentish, J. & Jacobsen, H. (1997). Retrospective and prospective

cognitions in anxiety and depression. Cognition and Emotion, 11, 467–479.

Meyer, F. & Schulte, D. (2002). Zur Validität der Beurteilung des Therapieerfolgs durch

Therapeuten. Zeitschrift für Klinische Psychologie und Psychotherapie, 31, 53-61.

76

Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs.

Veränderungsmessung oder retrospektive Erfolgsbeurteilung. Zeitschrift für Klinische

Psychologie und Psychotherapie, 32, 94-103.

Norman, G. (2003). Hi! How are you? Response shift, implicit theories and differing

epistemologies. Quality of Life Research, 12, 239-249.

Safer, M. A. & Keuler, D. J. (2002). Individual Differences in Misremembering Pre -

Psychotherapy Distress: Personality and Memory Distortion. Emotion, 2, 162–178

Safer, M. A., Levine, L. J. & Drapalski, A. L. (2002). Distortion in memory for emotions:

The contributions of personality and post-event knowledge. Personality and Social

Psychology Bulletin, 28, 1495-1507.

Schmidt, J., Steffanowski, A., Nübling, R., Lichtenberg, S. & Wittmann, W. W. (2003).

Ergebnisqualität stationärer psychosomatischer Rehabilitation: Vergleich

unterschiedlicher Evaluationsstrategien. Regensburg: Roderer.

Schulte, D. (1996). Therapieplanung. Göttingen: Hogrefe.

Schwartz, C. E. & Rapkin, B. D. (2004). Reconsidering the psychometrics of quality of life

assessment in light of response shift and appraisal. Health and Quality of Life

Outcomes, 2, 16.

Seligman, M. E. P. (1995). The effectiveness of psychotherapy: The Consumer Reports

study. American Psychologist, 50, 965-974.

Steketee, G. & Chambless, D. L. (1992). Methodological issues in prediction of treatment

outcome. Clinical Psychology Review, 12, 387-400.

Stieglitz, R. D. (1990). Validitätsstudien zum retrospektiven Vortest in der

Therapieforschung. Zeitschrift für Klinische Psychologie, 19, 144-150.

Stiftung Warentest (2011). Ergebnisse der Umfrage Psychotherapie: Therapie hat vielen

geholfen. Zugriff am 17.11.2011. Verfügbar unter

77

http://www.test.de/themen/gesundheit-kosmetik/meldung/Ergebnisse-der-Umfrage-

Psychotherapie-Therapie-hat-vielen-geholfen-4288428-4288430#

Taylor, P. J., Russ-Eft, D. F. & Taylor, H. (2009). Gilding the Outcome by Tarnishing the

Past: Inflationary Biases in Retrospective. American Journal of Evaluation, 30, 31-

43.

Ülsmann, D., Willutzki, W. & Veith, A. (2009). Psychotherapieerfolgsmessung: Der

Bochumer Veränderungsfragebogen. Poster präsentiert auf dem 6.

Workshopkongress für Klinische Psychologie und Psychotherapie, Zürich.

Veith, A. & Willutzki, U. (2000). Eine Revision des Veränderungsfragebogens des Erlebens

und Verhaltens (VEV). Vortrag auf dem Kongress für Klinische Psychologie und

Psychotherapie der Deutschen Gesellschaft für Verhaltenstherapie, Berlin.

Williams, J. M., Barnhofer, T., Crane, C., Hermans, D., Raes, F., Watkins, E., Dalgleish, T.

(2007). Autobiographical Memory Specifity and Emotional Disorder. Psychological

Bulletin, 133 (1), 122-148.

Wittchen, H. U., Zaudig, M. & Fydrich, T. (1997). Strukturiertes Klinisches Interview für

DSM-IV Achse I und II. Göttingen: Hogrefe.

Zielke, M. & Kopf-Mehnert, C. (1978). Der Veränderungsfragebogen des Erlebens und

Verhaltens VEV. Weinheim: Beltz.

78

Tabelle 1

Deskriptive Statistiken

N M (SD)

BSI Prä 83 .85 (.53)

BSI Retro 83 1.21 (.73)

BSI Retro-Prä 83 .36 (.57)

BSI Post 82 .51 (.49)

BDI Prä 79 16.43 (9.67)

BDI Retro 82 18.77 (13.00)

BDI Retro-Prä 78 2.80 (8.28)

BDI Post 83 6.07 (7.66)

VEV-VW Post 83 5.43 (.97)

GAS Post 65 4.62 (1.11)

Global Post 81 4.90 (1.09)

ES BSI¹ 82 .64 (.87)

ES BSI Retro¹ 82 .97 (.83)

ES BDI¹ 79 1.05 (.86)

ES BDI Retro¹ 82 1.00 (.88)

Anmerkungen. Brief Symptom Inventory (BSI), Beck Depressions Inventar (BDI), Veränderungsfragebogen

des Erlebens und Verhaltens VW (VEV-VW), Zielerreichungsskalierung (GAS), Globalurteil (Global),

Effektstärke (ES). Die Kürzel Prä und Post verweisen auf den Zeitpunkt der jeweiligen Messung, Retro

verweist auf eine retrospektive Messung. Durch minus Zeichen getrennte Kürzel (Retro, Prä, Post) zeigen

Differenzwerte an.

¹Effektstärke berechnet als Mprä-Mpost/SDprä bzw. Mretro-Mpost/SDretro

79

Tabelle 2

Lineare Regression mit der retrospektiven Messung (Retro) des Brief Symptom Inventory

(BSI) als abhängiger Variable und der regulären Prä-Messung des BSI (BSI Prä; Block 1,

Einschluss) sowie Therapieerfolgsverfahren¹ (Block 2, schrittweise) als unabhängige

Variablen²

Modell

korrigiertes R² Variable

B

SE Beta

T P VIF

1 .51** BSI Prä .89 .11 .72 7.86 .01 1.00

2 .56* BSI Prä .92 .11 .75 8.50 .01 1.01

VEV-VW .17 .07 .23 2.64 .05 1.01

3 .59* BSI Prä .94 .10 .77 9.03 .01 1.02

VEV-VW .26 .07 .35 3.59 .01 1.38

RGS BSI -.22 .09 -.23 -2.38 .05 1.36

Anmerkungen.

¹ herangezogene Therapieerfolgsverfahren: Residual Gain Score (RGS) von BSI (RGS BSI) und BDI (RGS

BDI), Zielerreichungsskalierung (GAS), Globalurteil (Global) und Veränderungsfragebogen des Erlebens und

Verhaltens VW (VEV-VW)

² lediglich statistisch bedeutsame Prädiktoren werden aufgeführt (Aufnahme p<.05, Ausschluss p<.10)

**(p<.01) bzw. *(p<.05) Signifikanzniveau von F (Änderung in R²)

80

Tabelle 3

Lineare Regression mit der retrospektiven Messung (Retro) des Beck Depressions Inventar

(BDI) als abhängiger Variable und der Prä-Messung des BDI (BDI Prä; Block 1,

Einschluss) sowie Therapieerfolgsverfahren¹ (Block 2, schrittweise) als unabhängige

Variablen²

Modell

korrigiertes R² Variable

B

SE Beta

T p VIF

1 .55** BDI Prä .91 .11 .75 8.54 .01 1.00

2 .59* BDI Prä .94 .10 .77 9.07 .01 1.01

VEV-VW 2.52 1.08 .20 2.34 .05 1.01

3 .63* BDI Prä 1.00 .10 .82 9.90 .01 1.07

VEV-VW 4.92 1.37 .39 3.60 .01 1.80

RGS BDI -4.12 1.56 -.29 -2.65 .05 1.80

Anmerkungen.

¹ herangezogene Therapieerfolgsverfahren: Residual Gain Score (RGS) von BSI (RGS BSI) und BDI (RGS

BDI), Zielerreichungsskalierung (GAS), Globalurteil (Global) und Veränderungsfragebogen des Erlebens und

Verhaltens VW (VEV-VW)

² lediglich statistisch bedeutsame Prädiktoren werden aufgeführt (Aufnahme p<.05, Ausschluss p<.10)

**(p<.01) bzw. *(p<.05) Signifikanzniveau von F (Änderung in R²)

81

Tabelle 4

Interkorrelationen (Pearson) der Psychotherapieerfolgsmaße

ES BSI

Retro¹

ES BDI¹

ES BDI

Retro¹

VEV-VW GAS Global

ES BSI¹ .45** (N=82)

.31** (N=78)

.23** (N=81)

.34** (N=82)

.35** (N=64)

.38** (N=80)

ES BSI Retro¹ - .59** (N=78)

.77** (N=81)

.48** (N=82)

.38** (N=64)

.48** (N=80)

ES BDI¹ - - .70** (N=78)

.39** (N=79)

.24 (N=61)

.34** (N=77)

ES BDI Retro¹ - - - .45** (N=82)

.28* (N=65)

.41** (N=80)

Anmerkungen.

Effektstärke (ES), Brief Symptom Inventory (BSI), Beck Depressions Inventar (BDI),

Veränderungsfragebogen des Erlebens und Verhaltens VW (VEV-VW), Zielerreichungsskalierung (GAS),

Globalurteil (Global)

Die Kürzel Prä und Post verweisen auf den Zeitpunkt der jeweiligen Messung, Retro verweist auf eine

retrospektive Messung

¹Effektstärke berechnet als Mprä-Mpost/SDprä bzw. Mretro-Mpost/SDretro

82

Autorenhinweis

Dominik Ülsmann, Humboldt-Universität zu Berlin; Thomas Fydrich, Humboldt-Universität

zu Berlin

[email protected]

Dominik Ülsmann

Humboldt-Universität zu Berlin

Institut für Psychologie

Psychotherapie und Somatopsychologie

Rudower Chaussee 18

12489 Berlin

83

7.2 Publikation 2 - Ziel erreicht! Aber auch verändert? Zwei basale Perspektiven in der

Psychotherapieerfolgsbeurteilung

Ülsmann, D. & Schulte, D. (in Druck). Ziel erreicht! Aber auch verändert? Zwei

basale Perspektiven in der Psychotherapieerfolgsbeurteilung. Zeitschrift für Klinische

Psychologie und Psychotherapie.

84

Kolumnentitel: ZIEL ERREICHT! ABER AUCH VERÄNDERT?

Ziel erreicht! Aber auch verändert?

Zwei basale Perspektiven in der Psychotherapieerfolgsbeurteilung.

Dominik Ülsmann

Humboldt-Universität zu Berlin

Dietmar Schulte

Ruhr-Universität Bochum

85

Zusammenfassung

Theoretischer Hintergrund: In faktorenanalytischen Untersuchungen verschiedener

Psychotherapieerfolgswerte resultieren meist sogenannte Methodenfaktoren. Hierbei lassen

sich Zwei-Punkt-Messungen (Prä-Post) von Ein-Punkt-Messungen zu Therapieende (Post)

trennen. Einige Studien betrachten diese Divergenz der Erfolgswerte als Ergebnis einer

unterschiedlichen Zeitperspektive (Veränderungsmaße versus retrospektive

Erfolgsbeurteilungen). Fragestellung: Ist die unterschiedliche Zeitperspektive tatsächlich für

die Divergenz der Erfolgswerte verantwortlich? Methode: Über vorhandene Studien

hinausgehend werden Patienten (N=59) aufgefordert ihre Prä-Werte zu Therapieende

abermals retrospektiv zu schätzen (Retro). Retro-Post Differenzwerte werden als

retrospektives Maß der Veränderung zusätzlich in eine Faktorenanalyse verschiedener

Erfolgswerte einbezogen. Ergebnisse: Es lässt sich eine zweifaktorielle Struktur mit den

Komponenten „Veränderung“ und „Restsymptomatik/Zielerreichung“ zeigen. Verschiedene

retrospektive Strategien müssen unterschiedlichen Faktoren zugeordnet werden.

Schlussfolgerungen: Differenzwerte (Prä-Post, Retro-Post) lassen sich komplementär von

einer subjektiven Heuristik der Erfolgsbeurteilung abgrenzen, die einen Abgleich von

aktuellem Befinden und Zielvorstellungen vornimmt. Hierbei spielt die Retrospektivität der

Erhebung – also die Zeitperspektive – nur eine untergeordnete Rolle.

Schlagwörter: Psychotherapieerfolg - Therapieerfolgskontrolle – retrospektive

Erfolgsbeurteilung - Veränderungsmessung - Evaluation

86

Abstract

Background: Most factor-analytic studies on the dimensionality of psychotherapy outcome

show so-called method factors. Some studies contrast two-point measurements (pre-post)

and single-point measurements (post). This is interpreted as a result of a different time

perspective (pre-post versus retrospective measures). Objective: Is a different time

perspective of the outcome measures an appropriate explanation for the divergence? Method:

An exploratory factor analysis of various evaluation instruments including different types of

retrospective approaches is conducted. Results: A two-factor structure with the components

"change" and "end state functioning/goal attainment" can be shown. Different types of

retrospective approaches can be assigned to different factors. Conclusions: Statistical

characteristics of difference scores are in contrast with a subjective heuristic for therapy

outcome that focuses goal attainment. Retrospective measures cannot be seen as a coherent

class of evaluation strategies.

Key words: psychotherapy outcome - treatment effectiveness - retrospective measures -

measurement of change - evaluation

87

How we should measure "change" - or should we?

(Cronbach & Furby, 1970)

Why we should measure “change” –and, can we?

(Willett, 1988)

Einleitung

Eine auf den ersten Blick schlichte, aber dennoch zentrale Frage der Evaluation von

Psychotherapie lautet bis heute: „Wie sollte Psychotherapieerfolg gemessen werden?“

(Schulte, 1993). Antworten auf diese Frage existieren zwar reichlich (im Überblick Schulte,

1993; Hill & Lambert, 2004), die Forderung nach einheitlichen Regeln für die

Operationalisierung von Psychotherapieerfolg blieb bis dato allerdings unerfüllt. In diesem

Umstand sehen Hill und Lambert (2004) gar das Versagen der klinischen

Evaluationsforschung eine kohärente Wissenschaft aufzubauen. Der größte Konsens besteht

derzeit darin, verschiedene Strategien der Psychotherapieevaluation in einem

Ergänzungsverhältnis zu sehen und Psychotherapieerfolg möglichst breit zu

operationalisieren (Hill & Lambert, 2004). Dieser Vorschlag erscheint auf den zweiten Blick

allerdings wie eine Kapitulation vor der Frage nach den genauen Bedingungen von

Konvergenzen und Divergenzen verschiedener Strategien in der Abbildung des

Psychotherapieerfolgs. Aus einer ökonomischen Perspektive, die oft begrenzten Ressourcen

in Forschung und Praxis geschuldet ist, wären gezielte Empfehlungen eines best use (Hill &

Betz, 2005) einzelner Operationalisierungsstrategien im Hinblick auf bestimmte

Evaluationsvorhaben wünschenswert. Um derartig differenzierte Empfehlungen geben zu

können, bedarf es allerdings einer breiten Kenntnis der Faktoren, die Divergenzen und

88

Konvergenzen verschiedener Erfolgswerte in der Abschätzung des Therapieerfolgs bedingen

können.

Bereits mehrfach wurden Systematisierungs- und Konzeptualisierungsversuche

unternommen, um die Vielfalt der verfügbaren Evaluationsstrategien theoretisch zu ordnen

(im Überblick Schulte, 1993; Hill & Lambert, 2004). Nach Schulte (1993) lassen sich

Verfahren danach unterscheiden, was sie erfassen (Inhalt) und wie sie dies tun (Methode). In

Bezug auf den Inhalt lassen sich die Messung des Krankheitsdefekts (Ursachen) von der

Messung des Krankseins bzw. der Krankheit (Symptome, Defekt; primary outcome) und der

Krankheitsfolgen (secondary outcome) unterscheiden. In Bezug auf die Methode lassen sich

verschiedene Strategien der Erfolgsoperationalisierung differenzieren. Schulte (1993)

fokussiert dabei den Vergleich mit verschiedenen Kriterien, die jeweils zur Bewertung der

Testwerte zu Therapieende (Post) herangezogen werden (vgl. Abb. 1). Um Veränderung

abzubilden kann eine Differenz von Post-Werten und Ausgangszustand (Prä) bestimmt

werden (Abb. 1, A Veränderung). Alternativ können die Werte zu Therapieende auch in

Hinblick auf eine Norm oder ein (subjektives) Ziel bewertet werden und bilden damit das

Erreichen eines Ideals ab (Abb.1, B Zielerreichung). Vergleichsurteile, wie die von Post in

Bezug zu Prä (Abb.1, A Veränderung) oder von Post in Bezug zu einem Ideal (Abb. 1, B

Zielerreichung), können dabei in dreierlei Form gefällt werden: als subjektive Schätzung

(Abb. 1, 1), als empirischer Differenzwert (Abb. 1, 2) oder über weitergehende statistische

Definitionen (Abb. 1, 3).

>> Abbildung 1 bitte hier einfügen <<

Abbildung 1 zeigt, wie sich unter rein methodischen Aspekten die gängigsten

Strategien der Psychotherapieevaluation in dieser Heuristik unterbringen lassen.

Veränderung (Abb. 1, A) kann indirekt über die Berechnung von Prä-Post Differenzwerten

89

(empirischer Differenzwert) bestimmt werden (Abb. 1, A2), oder der Patient wird direkt in

Komparativform (besser/schlechter) nach der erlebten Veränderung (subjektive Schätzung)

befragt (Abb. 1, A1). Aus der Perspektive der Zielerreichung können subjektive Schätzungen

wie die Zufriedenheit mit der Therapie (Abb. 1, B1) von empirischen Differenzwerten wie

bei der individuellen Zielerreichung oder normativen Vergleichen (Abb. 1, B2)

unterschieden werden. Weitergehende statistische Definitionen von Veränderung oder

Zielerreichung (Abb. 1, 3) zum Beispiel in Form von reliabler Veränderung (vgl. Jacobson

& Truax, 1991), Effektstärken (vgl. Grawe, Bernauer & Donati, 1994) oder der klinischen

Bedeutsamkeit (vgl. Jacobson & Truax, 1991) ziehen zusätzliche Variablen heran, um die

Erfolgswerte statistisch breiter abzusichern. Für alle genannten Strategien (vgl. Abb. 1)

lassen sich jeweils spezifische messtheoretische Probleme formulieren (im Überblick Hill &

Lambert, 2004; Stieglitz & Baumann, 2001). Insgesamt kann festgestellt werden, dass die

verschiedenen Erfolgswerte in der Abschätzung des Therapieerfolgs mehr oder weniger stark

divergieren, ohne dass die sichere Überlegenheit einer der Operationalisierungsstrategien

gezeigt werden kann (im Überblick Hill & Lambert, 2004; Stieglitz & Baumann, 2001).

Faktorenanalysen bieten die Möglichkeit, die theoretischen Annahmen zu Kategorien

von Evaluationsstrategien empirisch zu untermauern. Derartige Untersuchungen zeigen

meist Komponenten auf, die sich entlang der Methode - also entlang verschiedener

Operationalisierungsstrategien (vgl. Abb. 1) oder der herangezogenen Quelle (u.a. Fremd-

vs. Selbst) - entfalten (im Überblick Hill & Lambert, 2004; vgl. auch Flückiger, Regli,

Grawe & Lutz, 2007; Michalak, Kosfelder, Meyer& Schulte, 2003). Diese

Methodenfaktoren können als empirischer Beleg für eine Taxonomie verschiedener

Erfolgswerte nach ihrer Operationalisierungsstrategie betrachtet werden. Inhaltliche Aspekte

scheinen bei der Gruppierung in Faktorenanalysen nur eine untergeordnete Rolle zu spielen

(im Überblick Hill & Lambert, 2004).

90

Zwei faktorenanalytische Studien mit hoher ökologischer Validität in Bezug auf die

ambulante psychotherapeutische Versorgung extrahieren ebenfalls derartige

Methodenfaktoren. Michalak und Kollegen (2003) grenzen unter Rückgriff auf eine große

Zahl inhaltlich und methodisch verschiedener Verfahren die beiden Methodenfaktoren

Veränderungsmaße und retrospektive Erfolgsbeurteilungen voneinander ab. Inhaltliche

Aspekte zeigen auch in dieser Studie keinen Einfluss auf die Gruppierung der Erfolgswerte.

Auf den Faktor Veränderungsmaße laden vor allem indirekte Veränderungsmessungen (Abb.

1, A2) in Form von Prä-Post Effektstärken (Mprä-Mpost/SDprä; Grawe et al., 1994). Der

Faktor retrospektive Erfolgsbeurteilung umfasst vor allem Ladungen von

Zufriedenheitsurteilen (Abb. 1, B1) und Zielerreichungsskalierungen (Abb.1, B2). Die

direkte Veränderungsmessung (Abb. 1, A1) zeigt eine heterogene Ladung auf beide

Faktoren.

Flückiger und Kollegen (2007) unterscheiden theoretisch retrospective measures,

unter die sie ebenfalls Zufriedenheitsurteile (Abb. 1, B1), Zielerreichungsskalierungen

(Abb.1, B2) und direkte Veränderungsmessungen (Abb. 1, A1) fassen, von pre-post

measures (Abb. 1, A2). In einer Hauptkomponentenanalyse der Erfolgsmaße zeigen die

Autoren zunächst eine einfaktorielle Struktur des Psychotherapieerfolgs. Eine anschließende

konfirmatorische Faktorenanalyse verweist auf drei überlappende Methodenfaktoren. Pre-

post measures (Abb. 1, A2) mit Ladungen von Prä-Post Effektstärken können so von

retrospective measures global mit Ladungen von Zielerreichungsskalierungen (Abb. 1, B2)

und Zufriedenheitsurteilen (Abb. 1, B1), sowie von retrospective measures scales mit

Ladungen direkter Veränderungsmessungen (Abb. 1, A1) abgegrenzt werden. Die direkte

Veränderungsmessung wird bei Flückiger und Kollegen (2007) somit einem eigenen dritten

Faktor retrospective measures scales zugeordnet, wobei die Überlappung mit dem Faktor

retrospective measures global von den Autoren betont wird. Sowohl die Studie von Michalak

91

und Kollegen (2003) als auch die von Flückiger und Kollegen (2007) verweisen auf einen

möglichen zentralen Unterschied zwischen den Erfolgswerte: die Zeitperspektive (vgl.

Baumann, 1982, Stieglitz & Baumann, 2001). Beide Studien unterscheiden retrospektive

Beurteilungen des Therapieerfolgs zu Therapieende (Post) von Strategien, die

Statusmessungen (Prä, Post) zu Prä-Post Differenzwerten verrechnen (vgl. auch Jensen,

Mortensen & Lotz, 2008). Allerdings ist fraglich, ob die Zeitperspektive das zentrale

Unterscheidungsmerkmal der verschiedenen Erfolgswerte darstellt. In Anbetracht der bei

Michalak und Kollegen (2003) und Flückiger und Kollegen (2007) unter retrospektive

Erfolgsbeurteilungen bzw. restrospective measures gefassten Verfahren kann kritisch gefragt

werden, ob sie tatsächlich als retrospektive Erfolgswerte aufzufassen sind. Die Form der

Aussagen, die in Zufriedenheitsurteilen und Zielerreichungsskalierungen zu treffen sind

(Wie zufrieden sind sie mit der Behandlung? Wie nah sind sie ihrem Ziel gekommen?)

lassen sich nur schwer unter retrospektive Aussagen fassen (vgl. Baumann, 1982). Nach

Schulte (1993) implizieren diese Operationalisierungsstrategien statt eines retrospektiven

Rückblicks auf den Ausgangszustand vielmehr einen Abgleich der aktuell gegebenen

Restsymptomatik mit (subjektiven) Zielkriterien. In Bezug auf die direkte

Veränderungsmessung wird vermutet, dass Patienten vom gegenwärtigen Befinden auf eine

Veränderung schließen statt retrospektiv eine Differenz Prä-Post zu bilden (Kastner &

Basler, 1997; Lam & Bengo, 2003; Michalak et al., 2003; anders Flückiger et al., 2007).

Fragestellung

Es wird überprüft, ob sich in faktorenanalytischer Gesamtschau verschiedener

Evaluationsstrategien (Abb. 1, A1, A2, B1, B2) Methodenfaktoren zeigen lassen, die die

Zeitperspektive als zentrales Unterscheidungsmerkmal abbilden. Über vorhandene Studien

hinausgehend werden zusätzlich retrospektive Prä-Werte (im Überblick Hill & Betz, 2005)

92

mit in die Analysen einbezogen. Die Eingangsmessung (Prä) wird zu Therapieendende

(Post) erneut, diesmal also retrospektiv (Retro) vorgenommen. Zum einen werden die

retrospektiven Prä-Werte zu Retro-Post Differenzwerten analog zu Prä-Post Differenzwerten

verrechnet (vgl. Hill & Betz, 2005; Stieglitz, 1990) und die Verortung dieses explizit

retrospektiven Erfolgswertes in einer explorativen Faktorenanalyse untersucht. Zum anderen

sollen über Zusammenhänge der verschiedenen Erfolgswerte mit der retrospektiven

Rekonstruktion des Ausgangszustandes (Retro) Rückschlusse auf ihren retrospektiven

Charakter ermöglicht werden. Zusammenhänge mit dem Ausgangszustand (Prä) bzw. der

retrospektiven Rekonstruktion des Ausgangszustandes (Retro) können dabei als Hinweis auf

eine Retrospektion gelten, während Zusammenhänge mit den Post Werten als Hinweise für

eine Referenz auf den aktuellen anstelle eines vergangenen Zustands verstanden werden

können (Kastner & Basler, 1997; Michalak et al., 2003).

Methode

Stichprobe

Die Untersuchung wurde an 59 Patienten durchgeführt, die zwischen 2007 und 2009

am Zentrum für Psychotherapie (ZPT) der Ruhr Universität Bochum kognitiv-

verhaltenstherapeutisch behandelt wurden und ihre Therapien zwischen 05/2008 und

11/2009 im Mittel in 36.7 Therapiestunden (SD = 14.31) regulär beendeten. Das

Durchschnittsalter der Patienten beträgt 37.6 Jahre (SD = 12.63) und 50.8% (N = 30) sind

weiblichen Geschlechts. Diagnostiziert wurden mittels Strukturiertem Klinischen Interview

für DSM-IV (SKID; Wittchen, Zaudig & Fydrich, 1997) überwiegend Angststörungen (N =

26; 44,1%) und affektive Störungen (N = 15; 25,4%), sowie Essstörungen (N = 5; 8,5%),

Zwangsstörungen (N = 3; 5,1%) und sonstige Störungen (N = 10; 16,9%).

Ausschlusskriterium war ein vorzeitiger Abbruch der Therapie, so dass nur abgeschlossene

93

Therapien einbezogen wurden. Um die Belastung der Patienten gering zu halten, galt als

weiteres Ausschlusskriterium die Teilnahme an anderen aufwändigen Forschungsprojekten

der Ambulanz. Größere Projekte zum Zeitpunkt der Erhebung betrafen vor allem Patienten

mit sozialer Phobie und affektiven Störungen. Es wurden lediglich vollständige Datensätze

in die Analyse aufgenommen.

Prozedur

Die Erhebungen fanden in zwei Messungen zu Therapiebeginn (Prä) und

Therapieende (Post) statt. Die Messung zu Therapiebeginn umfasste neben dem

Strukturierten Klinischen Interview für DSM-IV (SKID; Wittchen et al., 1997), das Brief

Symptom Inventory (BSI; Franke, 2000) und das Beck-Depressions-Inventar (BDI;

Hautzinger, Bailer, Worall & Keller, 1995). Die Messung zu Therapieende (Post) umfasste

eine Reihe von Psychotherapieerfolgsmaßen: Veränderungsfragebogen des Erlebens und

Verhaltens in einer revidierten Form (VEV; Veith & Willutzki, 2000), Globalurteil der

Zufriedenheit mit der Therapie (Global; Meyer & Schulte, 2002) sowie eine

Zielerreichungsskalierung im Sinne des Goal Attainment Scaling (GAS; Kiresuk &

Shermann, 1968). Ebenfalls zu Therapieende wurden die Post-Statusmessungen von BSI und

BDI erhoben sowie der retrospektive Prä-Test (im Überblick Hill & Betz, 2005; vgl.

Stieglitz, 1990) für BSI und BDI (Retro) vorgenommen. Für den retrospektiven Prä-Test

wurden die Standardinstruktionen von BSI und BDI um folgende Einleitung ergänzt: „Wir

möchten Sie für diese Befragung bitten, sich noch einmal an den Zeitpunkt Ihres

Therapiebeginns zurück zu erinnern. Führen Sie sich bitte vor Augen, wie es Ihnen damals

ging und beantworten Sie die folgenden Fragen so, wie Sie sich damals fühlten.“

94

Material

Das Brief Symptom Inventory (BSI; Franke, 2000) erfasst in 53 Items die subjektiv

empfundene Beeinträchtigung durch körperliche und psychische Symptome. Der Global

Severity Index (GSI; Franke, 2000; α > .92) findet als globales störungsübergreifendes Maß

der subjektiv wahrgenommenen Beeinträchtigung weite Verbreitung in

Psychotherapiestudien (Hill & Lambert, 2004). Das Beck-Depressions-Inventar (BDI;

Hautzinger et al., 1995; α = .88) erfasst in 21 Items den Schweregrad einer depressiven

Symptomatik. Der verwendete Veränderungsfragebogen des Erlebens und Verhaltens (VEV)

stellt eine Überarbeitung des Veränderungsfragebogens des Erlebens und Verhaltens von

Zielke und Kopf-Mehnert (1978) dar (Veith & Willutzki, 2000; α = .96). Die überarbeitete

Variante des VEV fordert Patienten im Sinne einer direkten Veränderungsmessung in 26

Items auf, ihre Veränderungen im Zuge der Psychotherapie einzuschätzen. Die Items sind

als Polaritätsprofile mit einer sieben-stufigen Skala gestaltet (1 bis 7, der neutrale

Skalenmittelpunkt 4 verweist auf keine Veränderung, höhere Werte verweisen auf eine

positive Veränderung, niedrigere Werte auf eine negative Veränderung). Das Globalurteil

der Zufriedenheit mit der Therapie (Global; Meyer & Schulte, 2002) erfasst in zwei Items

die globale Zufriedenheit des Patienten mit der Therapie (6-stufige Likert Skala von 1 bis 6,

höhere Werte verweisen auf höhere Zufriedenheit). Das Goal Attainment Scaling (GAS;

Kiresuk & Shermann, 1968) erfasst den Grad der Zielerreichung zu Therapieende von

individuell zu Therapiebeginn operationalisierten Therapiezielen (6-stufige Likert Skala von

1 bis 6, höhere Werte verweisen auf größere Zielerreichung).

Statistische Analysen

Es werden Prä-Post und Retro-Post Effektstärken von BSI und BDI berechnet. Prä-

Post Effektstärken werden als Prä-Post Differenzwerte berechnet, die an der

95

Standardabweichung zu Prä gewichtet werden (Mprä-Mpost/SDprä; Grawe et al., 1994; vgl.

Michalak et al., 2003). Bei den Retro-Post Effektstärken werden retrospektive Prä-Werte

(Retro) und deren Standardabweichung herangezogen (Mretro-Mpost/SDretro). Um die

Frage nach der Dimensionalität von Therapieerfolg zu beantworten, wird eine explorative

Faktorenanalyse (Hauptkomponentenanalyse mit Varimax Rotation) aller

Psychotherapieerfolgsmaße berechnet. Im Anschluss werden Korrelationen aller

herangezogenen Erfolgsmaße mit den Ausgangswerten der Psychopathologie (Prä), der

Restsymptomatik (Post-Werte) und den retrospektiven Ausgangswerten (Retro) von BSI und

BDI berechnet.

Ergebnisse

Deskriptive Statistiken

Tabelle 1 zeigt die deskriptiven Statistiken sämtlicher herangezogener

Psychotherapieerfolgsmaße, sowie der Statusmessungen (Prä, Post) und retrospektiven

Statusmessungen (Retro) von BSI und BDI.

>> Tabelle 1 bitte hier einfügen <<

Die Prä-Post Effektstärken von BSI und BDI weisen mittlere (BSI) bis große Effekte

(BDI) der psychotherapeutischen Behandlung aus.

Faktorenanalyse der Erfolgsmaße

Die Faktorenanalyse umfasst sämtliche Erfolgswerte. Neben den Prä-Post und Retro-

Post Effektstärken (ES) von BSI und BDI wird die direkte Veränderungsmessung (VEV),

das Globalurteil der Zufriedenheit (Global), sowie das Goal Attainment Scaling (GAS) in die

Hauptkomponentenanalyse (Varimax Rotation) einbezogen. Tabelle 2 zeigt die

Faktorladungen der verschiedenen Strategien sowie Eigenwerte und Varianzaufklärung der

96

Faktoren. Nach dem Kaiser-Kriterium ergibt sich eine zweifaktorielle Struktur des

Psychotherapieerfolgs. Beide Faktoren zeigen nach der Rotation nahezu identische Anteile

an Varianzaufklärung. Auf den ersten Faktor laden sowohl Retro-Post als auch Prä-Post

Effektstärken von BSI und BDI. Der zweite Faktor zeigt substantielle Ladungen des Goal

Attainment Scaling (GAS), des Globalurteils der Zufriedenheit mit der Therapie (Global)

sowie der direkten Veränderungsmessung (VEV). Die direkte Veränderungsmessung (VEV)

und die Effektstärke, basierend auf dem retrospektiven Prä-Test des BSI (ES BSI Retro),

zeigen zudem auch Ladungen auf dem jeweils anderen Faktor, wenn auch deutlich

schwächer.

>> Tabelle 2 bitte hier einfügen <<

Korrelation von Therapieerfolgsmaßen und Statusmessungen (Prä, Retro, Post)

Tabelle 3 zeigt die Korrelationen (Pearson) aller herangezogenen Erfolgswerte mit

den Statusmessungen (Prä, Retro, Post) von BSI und BDI.

>> Tabelle 3 bitte hier einfügen <<

Es lässt sich ein statistisch bedeutsamer Zusammenhang aller

Operationalisierungsstrategien des ersten Faktors (Prä-Post und Retro-Post Effektstärken

von BSI und BDI) mit den Ausgangswerten (Prä) und den retrospektiven Ausgangswerten

(Retro) von BSI und BDI zeigen und nahezu kein bedeutsamer Zusammenhang mit den

Post-Werten (mit Ausnahme eines statistisch bedeutsamen Zusammenhangs der Effektstärke

des BDI und der BDI Restsymptomatik). Die Zusammenhänge der Erfolgswerte des zweiten

Faktors (GAS, Global, VEV) mit den Statusmessungen stellen sich umgekehrt dar. Während

bedeutsame Zusammenhänge aller drei Verfahren mit der Restsymptomatik (Post) von BSI

und BDI gezeigt werden können, bestehen nahezu keine bedeutsamen Zusammenhänge mit

97

dem Ausgangszustand (Prä) und den retrospektiven (Retro) Ausgangswerten (mit Ausnahme

eines statistisch bedeutsamen Zusammenhangs von GAS und den Ausgangswerten des BDI).

Diskussion

Die Faktorenanalyse verweist auf zwei separate Methodenfaktoren (vgl. Michalak et

al., 2003). Der erste Faktor umfasst vor allem Ladungen der Differenzwerte (Prä-Post;

Retro-Post) vergleichbar mit den Faktoren Veränderungsmaße bei Michalak und Kollegen

(2003) und pre-post measures bei Flückiger und Kollegen (2007). Bedeutsame Ladungen

auf den zweiten Faktor zeigen demgegenüber nahezu ausschließlich Erfolgswerte, die

einmalig zu Therapieende (Post) erhoben werden: Goal Attainment Scaling (GAS),

Zufriedenheitsurteil (Global) und direkte Veränderungsmessung (VEV). Diese Ladungen

entsprechen insgesamt denen auf dem Faktor retrospektive Erfolgsbeurteilungen bei

Michalak und Kollegen (2003) sowie denen auf den stark überlappenden Faktoren

retrospective measures global und retrospective measures scales bei Flückiger und

Kollegen (2003). Die Bezeichnung dieses Faktors als retrospektiv wäre hier allerdings aus

zwei Gründen irreführend. Erstens zeigen die explizit retrospektiven Retro-Post

Effektstärken nahezu keine bedeutsamen Ladungen auf diesen Faktor. Zweitens zeigen

sämtliche Erfolgswerte des zweiten Faktors nahezu ausschließlich bedeutsame

Zusammenhänge mit der Restsymptomatik (Post) und nahezu keine bedeutsamen

Zusammenhänge mit dem (retrospektiven) Ausgangszustand (Prä, Retro). Die Bedeutung der

Zeitperspektive für die Interpretation der Faktorenstruktur scheint somit insgesamt

vernachlässigbar. Zudem ist fraglich, ob im Fall von direkten Veränderungsmessungen,

Zufriedenheitsurteilen und Zielerreichungsskalierungen überhaupt von retrospektiven

Strategien gesprochen werden kann, wenn keine bedeutsamen Bezüge zur retrospektiven

Rekonstruktion des Ausgangszustands bestehen. Zur weiteren Interpretation der

98

Faktorenstruktur bieten sich vor allem zwei Foki an. Statt die Zeitperspektive zu fokussieren

kann die Divergenz zuallererst über statistische Besonderheiten von Differenzwerten erklärt

werden. Ergänzend dazu kann die jeweilige mathematische und/oder subjektive Referenz

(Ausgangszustand vs. Ziel/Norm) fokussiert werden, die zur Beurteilung der Post-Werte bei

den einzelnen Strategien herangezogen wird (vgl. Schulte, 1993).

Eine Besonderheit von Prä-Post Differenzwerten (und ebenso von Retro-Post

Differenzwerten) stellt der Informationsverlust in Bezug auf den Schweregrad der

(retrospektiven) initialen Symptomatik (Prä, Retro) und der Restsymptomatik (Post) dar. Die

gleiche Differenz kann weitestgehend unabhängig davon resultieren, ob anfangs - und

folglich auch noch immer am Ende - eine sehr schwere oder eine sehr leichte Störung vorlag

(bzw. rekonstruiert wird). Die nahezu fehlenden bedeutsamen Zusammenhänge beider

Effektstärkevarianten (Prä-Post, Retro-Post) mit der Restsymptomatik (Post) unterstreichen

dies. Allerdings lassen sich statistisch bedeutsame Zusammenhänge beider

Effektstärkevarianten (Prä-Post, Retro-Post) mit den (retrospektiven) Ausgangswerten

(Retro, Prä) zeigen (vgl. Flückiger et al., 2007). Diese statistische Abhängigkeit von Prä-Post

Differenzwerten und dem Ausgangszustand stellt ein nahezu ubiquitäres Phänomen dar und

wird häufig auf Regressionseffekte zurückgeführt (im Überblick Weeks, 2007). Willett und

Kollegen (1991) betonen ebenfalls diese „intime“ (S 39) Beziehung von Veränderung und

Ausgangszustand und zeigen gleichzeitig auf, dass dies nicht zwangsläufig eine Bedrohung

der Validität von Prä-Post Differenzwerten darstellen muss (vgl. auch Rogosa & Willett,

1985).

Die Erfolgsoperationalisierungen des zweiten Faktors zeigen demgegenüber ein

völlig anderes Muster der Zusammenhänge mit den Statusmessungen. Es bestehen nahezu

ausschließlich bedeutsame Bezüge zur Restsymptomatik (Post) und nahezu keine mit dem

99

(retrospektiven) Ausgangszustand (Prä, Retro). Der zentrale geteilte Aspekt der Erfolgswerte

des zweiten Faktors scheint somit der durchgängige Bezug zu den Post-Werten zu sein (vgl.

Michalak et al., 2003, anders Flückiger et al., 2007), so dass dieser Faktor in erster

Annäherung als Schweregrad der Restsymptomatik aufgefasst werden kann. Der erste Faktor

kann demgegenüber in Anlehnung an die Interpretation der Faktoren bei Michalak und

Kollegen (2003) als Faktor Veränderung interpretiert werden. Unter diesen vermutlich

zentralen divergenten Aspekt der Erfolgswerte - Veränderung versus Schweregrad der

Restsymptomatik - kann ein weiterer subsumiert werden.

In Anlehnung an Schulte (1993) könnten Unterschiede in der (mathematischen oder

subjektiven) Referenz auch Unterschiede in den Ladungen der Erfolgswerte erklären. Wird

eine Referenz auf die Prä-Werte forciert (Veränderung) oder eher der Bezug zu Zielen oder

einer Norm (Zielerreichung)? Die Erfolgswerte des Faktors Veränderung folgen einer

statistischen Logik: Prä-Post Differenzwerte (bzw. Retro-Post Differenzwerte) sollen den

intersubjektiven Vergleich der erzielten Veränderung ermöglichen. Die mathematische

Referenz zur Beurteilung der Post-Werte stellen dabei die Prä-Werte dar. Die subjektive

Heuristik für die Beurteilung des Therapieerfolgs ist davon deutlich zu unterscheiden. Die

mathematische Operation der Differenzwertbildung (Prä-Post) ist als kognitive Operation

sehr aufwändig und wird von Probanden daher vermutlich systematisch umgangen (Lam &

Bengo, 2003). Darüber hinaus sind Informationen über das Ausmaß der initialen

Symptomatik und deren Veränderung für den Einzelnen wohl wenig bedeutsam (vgl.

Howard, Lueger & Kolden, 1997). Die dominante subjektive Heuristik zur Einschätzung des

Therapieerfolgs fokussiert wahrscheinlich vielmehr das aktuell gegebene Erleben

(Restsymptomatik) und verfolgt einen Abgleich mit den erwünschten Zielzuständen (vgl.

Schulte, 1993; Kastner & Basler, 1997; Michalak et al. 2003). Die Zielvorgabe von Patienten

ist dabei vermutlich die Wiederherstellung des eigenen Wohlbefindens (vgl. Howard et al.,

100

1997): „Es soll mir wieder gut gehen!“ (Schulte, 2008). Wird die mathematische und/oder

subjektive Referenz fokussiert die zu den Post-Werten herangezogen wird (vgl. Schulte,

1993) kann der erste Faktor somit als Veränderung (mathematische Referenz Prä-Werte)

und der zweite Faktor als Zielerreichung (subjektive Referenz Ziel) verstanden werden.

Die unterschiedlichen Ladungen der retrospektiven Effektstärken und der direkten

Veränderungsmessung können beide bisher angeführten Interpretationen der Faktoren

integrierend veranschaulichen. Beide Verfahren stimmen in dem von der Konstruktion her

angestrebten Algorithmus überein: Ziel ist es eine Veränderung analog zu Prä-Post

Differenzwerten abzubilden. Bei den Retro-Post Effektstärken ist es den Patienten gelungen,

den Ausgangszustand reliabel (Safer & Keuler, 2002) zu erinnern, wie Zusammenhänge

(Pearson) der zu Therapiebeginn erhobenen (Prä) und der retrospektiven (Retro)

Ausgangswerte zeigen (BSI r = .72, p < .01; BDI r = .75, p < .01). Die

Differenzwertbildung Retro-Post wird anschließend (extern) mathematisch vorgenommen,

so dass die resultierenden Effektstärken gemeinsame bedeutsame Ladungen mit den Prä-Post

Effektstärken auf den ersten Faktor zeigen und ausschließlich bedeutsame Zusammenhänge

mit dem (retrospektiven) Ausgangszustand (Prä, Post) und keine mit der Restsymptomatik

(Post) aufweisen. Die direkte Veränderungsmessung ist demgegenüber trotz der intendierten

Perspektive der Veränderung dem zweiten Faktor zuzuordnen. Entgegen der intendierten

Differenzwertbildung wird vermutlich unter Rückgriff auf die oben beschriebene dominante

subjektive Heuristik - Abgleich von Restsymptomatik (Post) und Zielkriterium - auf eine

Veränderung geschlossen. Die bedeutsamen Zusammenhänge mit der Restsymptomatik

(Post) sowie die weitestgehend fehlenden Zusammenhänge mit dem Ausgangszustand

(ebenso Baumann, Sodemann & Tobien, 1980; Kastner & Basler, 1997, Michalak et al,

2003; anders Flückiger et al., 2007) und dem retrospektiv rekonstruierten Ausgangszustand

(Retro) können als deutlicher Hinweis hierauf betrachtet werden. Zusammengenommen lässt

101

sich somit eine Interpretation der Faktoren als Veränderung (Faktor 1) und

Restsymptomatik/Zielerreichung (Faktor 2) rechtfertigen. Im Rahmen dieser Interpretation

lassen sich auch die (geringeren) Ladungen der direkten Veränderungsmessung und des

Retro-Post Differenzwertes des BSI auf den jeweils anderen Faktor verstehen. Levine (1997)

vermutet - analog zu der hier vorgeschlagenen dominanten subjektiven Heuristik zur

Einschätzung des Therapieerfolgs - eine herausragende Funktion von aktuellen Zielen und

Bewertungen bei der Erinnerung emotionaler Episoden (vgl. auch Levine, Lench & Safer,

2009; Safer & Keuler, 2002). Die (geringe) Ladung des Retro-Post Differenzwertes des BSI

auf den Faktor Restsymptomatik/Zielerreichung könnte somit derart erklärt werden, dass die

Retrospektion beim retrospektiven Prä-Test durch diese dominante Heuristik „korrumpiert“

wird. Zudem kann die (geringe) Ladung der direkten Veränderung auf den Faktor

Veränderung so interpretiert werden, dass es zumindest partiell gelungen ist die subjektiv

ungewöhnliche mathematische Prä-Post Differenzwertbildung (Veränderung) als kognitive

Operation zu induzieren.

Die beiden Perspektiven Veränderung und Restsymptomatik/Zielerreichung bieten

ein anschauliches Verständnis der Divergenz der verschiedenen Erfolgswerte. Einerseits

können Effektstärken eine statistisch bedeutsame Veränderung widerspiegeln, während der

Patient zugleich aufgrund einer (subjektiv unbefriedigend) hohen Restsymptomatik angibt,

mit der Behandlung relativ unzufrieden zu sein, sein Ziel (noch) nicht erreicht zu haben und

von daher auch (noch) keine große Veränderung erfahren zu haben. Andererseits kann ein

Patient am Ende seiner Therapie aufgrund einer (subjektiv befriedigend) geringen

Restsymptomatik mit dem Ergebnis hoch zufrieden sein, angeben seine Ziele erreicht zu

haben und subjektiv eine bedeutsame Veränderung wahrnehmen, ohne dass eine statistische

bedeutsame Veränderung (z. B. aufgrund geringer Prä-Werte) nachweisbar sein muss: Ziel

erreicht aber nicht verändert.

102

Der Abgleich der theoretisch intendierten Algorithmen zur Einschätzung des

Therapieerfolgs mit den subjektiven Heuristiken (wie oben am Beispiel dargestellt), aber

auch die intrapersonale (über die Zeit) und interpersonale Konstanz (zwischen Individuen)

subjektiver Heuristiken untereinander bietet großes Potential zur Erklärung von Divergenzen

verschiedener Erfolgswerte in der Abschätzung des Therapieerfolgs (vgl. Schwartz &

Rapkin, 2004; vgl. auch Kupper & Tschacher, 2008). Eine Reihe von methodischen

Vorschlägen diese Divergenzen vertiefend zu untersuchen wurden bereits für den Bereich

der Lebenszufriedenheit zusammengetragen (im Überblick Güthlin, 2004; Schwartz &

Sprangers, 1999). Unter anderem könnten die komplexen Urteilsprozesse bei der

Itembeantwortung mittels cognitive interviewing (vgl. Collins, 2003) begleitet werden, um

Rückschlüsse auf die Art der kognitiven Operationen bzw. Heuristiken zu erhalten: Welcher

Bewertungshintergrund wird herangezogen, wie werden autobiographische Erinnerungen

generiert und zusammengefasst, welche Vergleichsmaßstäbe werden gesetzt, was für ein

Algorithmus liegt hinter der Hierarchisierung und Kombination der einzelnen Elemente

usw.?

Im Zuge weiterer Forschung zu den Ursachen von Konvergenzen und Divergenzen

verschiedener Operationalisierungsstrategien könnten differenziertere Empfehlungen ihrer

Verwendung erarbeitet werden, die einer ökonomischeren Gestaltung von Evaluation zu

Gute kämen. Die vorliegende Studie bietet dazu bereits einige Hinweise. Die Erfolgswerte

des Faktors Restsymptomatik/Zielerreichung haben zu allererst ökonomische Vorteile (Ein-

Punkt-Messung). Michalak und Kollegen (2003) konnten zudem eine größere prospektive

Potenz von Zufriedenheitsurteilen, Zielerreichungsskalierung und eingeschränkt auch der

direkten Veränderungsmessung im Vergleich zur indirekten Veränderungsmessung zeigen

(erneute Medikamenteneinnahme zum Katamnesezeitpunkt und die Wiederaufnahme von

Psychotherapie). Diese erhöhte prospektive Potenz kann ebenfalls mit der dominanten

103

subjektiven Heuristik auf den Therapieerfolg erklärt werden, da sie als Referenz die eigenen

Zielzustände (Bedürfnissen) im Abgleich mit der Restsymptomatik (Post) fokussiert. Im

Falle eines Evaluationsinteresses, das näher an der (zukünftigen) Entwicklung der einzelnen

Person orientiert ist, sind diese Strategien somit insgesamt empfehlenswert. Zudem bieten

Verfahren des Faktors Restsymptomatik/Zielerreichung bei Patienten mit niedrigen

Eingangswerten den Vorteil Therapieerfolg auch ohne statistisch bedeutsame Veränderungen

abzubilden. Prä-Post Differenzwerte adressieren demgegenüber den intersubjektiven

Vergleich und stellen Informationen zu einer vergleichenden Bestimmung der Veränderung

bereit, wie sie vor allem in kontrollierten experimentellen Studien von hohem Interesse sind.

Retro-Post Effektstärken scheinen für den Fall, dass Veränderung erfasst werden sollen, aber

nur eine Messung zum Postzeitpunkt durchzuführen ist, eine ökonomische Alternative zu

Prä-Post Differenzwerten zu bieten. Studien zur Reliabilität und Validität des retrospektiven

Prä-Tests und der Retro-Post Effektstärken im Rahmen der klinischen Evaluationsforschung

sind allerdings noch rar (vgl. Safer & Keuler, 2002). Stieglitz (1990) konnte zeigen, dass

Veränderungswerte basierend auf retrospektiven Prä-Werten höher mit anderen

Veränderungswerten und Fremdeinschätzungen korrelieren als reguläre Prä-Post

Differenzwerte. Ein Vorteil der direkten Veränderungsmessung könnte die geteilte Varianz

mit Strategien beider Faktoren (vgl. auch Michalak et al., 2003) darstellen. Diese

Zwischenposition könnte sich als vorteilhaft erweisen, wenn unter knappen Ressourcen

und/oder fehlenden Prä-Werten auf die direkte Veränderungsmessung als stand alone

Lösung zurückgegriffen werden soll. Allerdings sollte zukünftige Forschung die unklare

Form der Urteilsbildung weiter erhellen. Die Kombination der beiden Perspektiven

Veränderung und Restsymptomatik/Zielerreichung kann auch als großer Vorteil des

Konzepts der klinisch bedeutsamen Veränderung (Jacobson & Truax, 1991) gesehen werden.

Dort wird zusätzlich zur statistisch bedeutsamen Veränderung ein normatives Zielkriterium

104

zum Abgleich mit der Restsymptomatik herangezogen (Fallstatus): Der Patient soll zu

Therapieende innerhalb einer ungestörten Vergleichspopulation verortet werden können. Die

Dominanz von Prä-Post Differenzwerten in der Psychotherapieevaluation gegenüber

retrospektiven Strategien (wie Retro-Post Differenzwerten) und/oder Maßen der

Zielerreichung ist vor dem Hintergrund der vorliegenden Ergebnisse und in Zusammenschau

der Befunde der klinischen Evaluationsforschung (im Überblick Hill & Lambert, 2004) nur

schwer zu begründen. Insgesamt ist eine differenziertere Perspektive auf die Unterschiede

von Erfolgswerten von Nöten. Dabei ist die gezielte Untersuchung der jeweiligen Vor- und

Nachteile einzelner Operationalisierungsstrategien in Bezug auf unterschiedliche

Evaluationsvorhaben wünschenswert (vgl. Hill & Betz, 2005; Michalak et al., 2003).

Die Ergebnisse der vorliegenden Studie unterliegen vor allem in Bezug auf die

gewählte Population möglichen Einschränkungen. Eine insgesamt geringe Zahl an Patienten

(N = 59) und die gewählten Ein- und Ausschlusskriterien schränken die Repräsentativität der

Ergebnisse ein. Es wurden lediglich Patienten berücksichtigt, die im betreffenden Zeitraum

ihre Therapien regulär abschlossen und nicht in andere Projekte der Ambulanz involviert

waren. Es lassen sich so auch Unterschiede der Studienpopulation zur Gesamtpopulation des

Zentrums für Psychotherapie (ZPT) im fraglichen Zeitraum in Bezug auf die Verteilung des

Alters (Gesamtpopulation: M = 41.63 mit SD = 16.04) und des Geschlechts

(Gesamtpopulation 60,7% weiblich) zeigen. Die geringe Probandenzahl schränkt zudem die

statistische Power ein und könnte damit auch Auswirkungen auf die Güte der geschätzten

Faktorenstruktur haben. Abbrecher wurden aufgrund fehlender Post-Werte nicht mit in die

Analyse aufgenommen. Allerdings wäre es hoch interessant, Konvergenzen und

Divergenzen verschiedener Operationalisierungsstrategien gerade auch bei Abbrechern

genauer zu untersuchen. So vermuten Flückiger und Kollegen (2007) eine erhöhte

Konvergenz der Messmittel bei Vorliegen eines „broad treatment success“ (S. 363).

105

Abbrecher könnten somit insgesamt eine geringere Konvergenz der verschiedenen

Evaluationsstrategien aufweisen.

106

Literaturverzeichnis

Baumann, U. (1982). Psychodiagnostische Verfahren zur Therapieindikation und

Effektkontrolle. In R. Bastine, P. Fiedler, K. Grawe, S. Sommer & S. Schmidtchen

(Hrsg.), Grundbegriffe der Psychotherapie (S. 287-292). Weinheim: Edition

Psychologie.

Baumann, U., Sodemann, U. & Tobien, H. (1980). Direkte versus indirekte

Veränderungsdiagnostik. Zeitschrift für Differentielle und Diagnostische

Psychologie, 1, 201-216.

Collins, D. (2003). Pretesting survey instruments: an overview of cognitive methods. Quality

of Life Research, 12 (3), 229-238.

Cronbach, L. J. & Furby, L. (1970). How we should measure "change" -or should we?

Psychological Bulletin, 74, 68-80.

Flückiger, C., Regli, D., Grawe, K. & Lutz, W. (2007). Differencies and similarities between

pre-post and retrospective measurements of outcome. Psychotherapy Research, 17

(3), 359-364.

Franke, G. H. (2000). Brief Symptom Inventory von L. R. Derogatis (Kurzform der SCL-90-

R). Göttingen: Beltz Test GmbH.

Grawe, K., Bernauer, F. & Donati, R. (1994). Psychotherapie im Wandel. Von der

Konfession zur Profession. Göttingen: Hogrefe.

Güthlin, C. (2004). Response Shift: alte Probleme der Veränderungsmessung, neu

angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische

Psychologie, 13, 165–174.

Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar

(BDI). (2. überarbeitete Auflage). Bern: Hans Huber.

107

Hill, C. E. & Lambert, M. J. (2004). Methodological Issues in Studying Psychotherapy

Processes and Outcomes. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook

of Psychotherapy and Behavior Change (S. 84–136). New York: Wiley.

Hill, L. G. & Betz, D. L. (2005). Revisiting the retrospective pretest. American Journal of

Evaluation, 26, 501-517.

Howard, K. I., Lueger, R. J. & Kolden, G. G. (1997). Measuring progress and outcome in the

treatment of affective disorders. In H. H. Strupp, L. M. Horowitz & M. J. Lambert

(Hrsg.), Measuring patient changes in mood, anxiety, and personality disorders:

Toward a core battery (S. 191-245). Washington: American Psychological

Association.

Jacobson, N. S. & Truax, P. (1991). Clinical significance: a statistical approach to defining

meaningful change in psychotherapy-research. Journal of Consulting and Clinical

Psychology, 59, 12-19.

Jensen, H. H., Mortensen, E. L. & Lotz, M. (2008). The association between retrospective

outcome evaluations and pre-post-treatment changes in psychodynamic group-

psychotherapy. Scandinavian Journal of Psychology, 49, 339–343.

Kastner, S. & Basler, H.-D. (1997). Messen Veränderungsfragebögen wirklich

Veränderung? Schmerz, 11, 254-262.

Kiresuk, T. J. & Lund, S. H. (1978). Goal Attainment Scaling. In C. C. Attkisson, W. A.

Hargreaves, M. J. Horowitz & J. E. Sorensen (Hrsg.), Evaluation of human service

programs (S. 341-370). New York: Academic Press.

Kiresuk, T .I. & Sherman, R. E. (1968). Goal Attainment Scaling: A general method for

evaluating comprehensive community mental health programs. Community Mental

Health Journal, 4, 443-453.

108

Kupper, Z. & Tschacher, W. (2008). Lack of concordance between subjective improvement

and symptom change in psychotic episodes. British Journal of Clinical Psychology,

47, 75–93.

Lam, T .C. M. & Bengo, P. (2003). A comparison of three retrospective self-reporting

methods of measuring change in instructional practice. American Journal of

Evaluation, 24, 65-80.

Levine, L. J. (1997). Reconstructing memory for emotions. Journal ofExperimental

Psychology: General, 126, 165-177.

Levine, L. J., Lench, H. C. & Safer, M. A. (2009). Functions of Remembering and

Misremembering Emotion. Applied Cognitive Psychology, 23, 1059-1075.

Meyer, F. & Schulte, D. (2002). Zur Validität der Beurteilung des Therapieerfolgs durch

Therapeuten. Zeitschrift für Klinische Psychologie und Psychotherapie, 31, 53-61.

Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs.

Veränderungsmessung oder retrospektive Erfolgsbeurteilung. Zeitschrift für Klinische

Psychologie und Psychotherapie, 32, 94-103.

Rogosa, D. R. & Willett, J. B. (1985). Understanding correlates of change by modeling

individual differences in growth. Psychometrika, 50, 203-228.

Safer, M. A. & Keuler, D. J. (2002). Individual Differences in Misremembering Pre-

Psychotherapy Distress: Personality and Memory Distortion. Emotion, 2, 162–178

Schulte, D. (1993). Wie soll Therapieerfolg gemessen werden? Zeitschrift für Klinische

Psychologie, 22, 374-393.

Schulte, D. (2008). Auch für die Verhaltenstherapie ist die therapeutische Beziehung wichtig

-wirklich? Vortrag auf dem 25. Kongress der Deutschen Gesellschaft für

Verhaltenstherapie, Berlin.

109

Schwartz, C. E. & Rapkin, B. D. (2004). Reconsidering the psychometrics of quality of life

assessment in light of response shift and appraisal. Health and Quality of Life

Outcomes, 2, 16.

Schwartz, C. E. & Sprangers, M. A. G. (1999). Methodological approaches for assessing

response-shift in longitudinal health-related quality-of-life research. Social Science &

Medicine, 48, 1531–1548.

Stieglitz, R.-D. (1990). Validitätsstudien zum retrospektiven Vortest in der

Therapieforschung. Zeitschrift für Klinische Psychologie, 19, 144-150.

Stieglitz, R.-D., & Baumann, U. (2001). Veränderungsmessung. In R.-D. Stieglitz & U.

Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21 – 37). Stuttgart:

Enke.

Veith, A. & Willutzki, U. (2000). Eine Revision des Veränderungsfragebogens des Erlebens

und Verhaltens (VEV). Vortrag auf dem Kongress für Klinische Psychologie und

Psychotherapie der Deutschen Gesellschaft für Verhaltenstherapie, Berlin.

Weeks, D. L. (2007). The regression effect as a neglected source of bias in nonrandomized

intervention trials and systematic reviews of observational studies. Evaluation & the

Health Professions, 30, 254-265.

Willett, J. B. (1988). Questions and answers in the measurement of change. In E. Z.

Rothkopf (Hrsg.), Review of research in education (S 345-422). Washington:

American Educational Research Association.

Willett, J. B., Ayoub, C. C. & Robinson, D. (1991). Using growth modeling to examine

systematic differences in growth: an example of change in the functioning of families

at risk of maladaptive parenting, child abuse, or neglect. Journal of Consulting and

Clinical Psychology, 59, 38-47.

110

Wittchen, H. U., Zaudig, M. & Fydrich, T. (1997). Strukturiertes Klinisches Interview für

DSM-IV Achse I und II. Göttingen: Hogrefe.

Zielke, M. & Kopf-Mehnert, C. (1978). Der Veränderungsfragebogen des Erlebens und

Verhaltens VEV. Weinheim: Beltz.

111

Abbildung 1

Unterschiedliche Kriterien zur Kennzeichnung der Effektivität psychologischer Therapie

entlang der zwei Dimensionen Messdesign (A, B) und Kriterienbildung (1, 2, 3) (modifiziert

nach Schulte, 1993)

Bezug der Post-Werte zu

Zustand vor der Behandlung

Ziel/Norm

A Veränderung

B Zielerreichung

1 Subjektive Schätzung

Direkte Veränderungsmessung

Individuelle Zufriedenheit

2 Empirischer

Differenzwert

Indirekte Veränderungsmessung

Individuelle Zielerreichung,

Normativer Vergleich

3 Statistische Definition

Reliable Veränderung, Effektstärke

Klinische Bedeutsamkeit

112

Tabelle 1

Deskriptive Statistiken

M (SD)

BSI Prä .89 (.55)

BSI Retro 1.16 (.68)

BSI Post .48 (.45)

BDI Prä 16.00 (9.5)

BDI Retro 18.07 (11.56)

BDI Post 5.90 (7.07)

ES BSI ¹ .77 (.82)

ES BSI Retro ² .94 (.82)

ES BDI ¹ 1.04 (.88)

ES BDI Retro ² .94 (.84)

VEV 5.37 (.91)

GAS 4.60 (1.15)

Global 4.91 (1.05)

Anmerkungen. Brief Symptom Inventory (BSI), Beck Depressions Inventar (BDI), Effektstärke (ES),

Veränderungsfragebogen des Erlebens und Verhaltens revidiert (VEV), Goal Attainment Scaling (GAS),

Globalurteil der Zufriedenheit (Global). Die Kürzel Prä und Post verweisen auf den Zeitpunkt der jeweiligen

Messung, Retro verweist auf eine retrospektive Messung. Wertebereiche: VEV 1-7, GAS 1-6, Global 1-6.

¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä.

²Effektstärke (ES) berechnet als Mretro-Mpost/SDretro.

113

Tabelle 2

Hauptkomponentenanalyse (Varimax Rotation) der Therapieerfolgsmaße (Zuordnungen der

Erfolgswerte zu den Faktoren sind hervorgehoben)

Erfolgsmaß Faktorladungen

Faktor 1 2

Veränderung ES BDI Retro² .869

ES BDI¹ .845

ES BSI Retro² .814 .343

ES BSI¹ .713

Restsymptomatik GAS .918

Zielerreichung Global .885

VEV .339 .818

vor Rotation

Eigenwert

Varianzaufklärung

4.07

58.10

1.31

18.72

nach Rotation Eigenwert

Varianzaufklärung

2.84

40.50

2.54

36.32

Anmerkungen: Effektstärke (ES), Brief Symptom Inventory (BSI), Beck-Depressions-Inventar (BDI), Goal

Attainment Scaling (GAS), Globalurteil der Zufriedenheit (Global), Veränderungsfragebogen des Erlebens und

Verhaltens revidiert (VEV). Retro zeigt die Verwendung retrospektiver Prä-Werte an.

Ladungen <.30 wurden weggelassen.

¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä.

²Effektstärke (ES) berechnet als Mretro-Mpost/SDretro.

114

Tabelle 3

Korrelationen (Pearson) der Therapieerfolgsmaße mit den Statusmessungen (Prä, Post) und

retrospektiven Statusmessungen (Retro) von BSI und BDI (statistisch bedeutsame

Korrelationen sind hervorgehoben)

ES BSI¹ ES BSI

Retro² ES BDI¹

ES BDI

Retro² GAS Global VEV

BSI Prä .60** .33** .43** .41** -.15 -.08 -.11

BSI Retro .39** .76** .52** .71** .03 .10 .15

BDI Prä .35** .34** .70** .47** -.28* -.14 -.11

BDI Retro .39** .61** .50** .80** -.09 .07 .11

BSI Post -.23 -.19 .040 .011 -.51** -.50** -.47**

BDI Post -.14 -.22 -.27* -.222 -.66** -.54** -.63**

Anmerkungen: Effektstärke (ES), Brief Symptom Inventory (BSI) und Beck-Depressions-

Inventar (BDI), Goal Attainment Scaling (GAS), Globalurteil der Zufriedenheit (Global),

Veränderungsfragebogen des Erlebens und Verhaltens revidiert (VEV). Die Kürzel Prä und

Post verweisen auf den Zeitpunkt der jeweiligen Messung, Retro verweist auf eine

retrospektive Messung.

¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä.

²Effektstärke (ES) berechnet als Mretro-Mpost/SDretro.

*(p<.05)

**(p<.01)

115

Autorenhinweis

Dominik Ülsmann, Humboldt-Universität zu Berlin; Dietmar Schulte, Ruhr-Universität

Bochum

[email protected]

Dominik Ülsmann

Humboldt-Universität zu Berlin

Institut für Psychologie

Psychotherapie und Somatopsychologie

Rudower Chaussee 18

12489 Berlin

116

7.3 Publikation 3 - Direkte Veränderungsmessung in der Psychotherapie: Der

Bochumer Veränderungsbogen-2000 (BVB-2000)

Willutzki, U., Ülsmann, D., Veith, A. & Schulte, D. (in Druck). Direkte

Veränderungsmessung in der Psychotherapie: Der Bochumer Veränderungsbogen-2000

(BVB-2000). Zeitschrift für klinische Psychologie und Psychotherapie.

117

Kolumnentitel: DIREKTE VERÄNDERUNGSMESSUNG BVB-2000

Direkte Veränderungsmessung in der Psychotherapie:

Der Bochumer Veränderungsbogen-2000 (BVB-2000)

Ulrike Willutzki

Ruhr-Universität Bochum

Dominik Ülsmann

Humboldt-Universität zu Berlin

Andreas Veith

Zentrum für Psychotherapie Dortmund

Dietmar Schulte

Ruhr-Universität Bochum

118

Zusammenfassung

Theoretischer Hintergrund: Verfahren zur direkten Veränderungsmessung bestimmen den

Psychotherapieerfolg in ökonomischer Ein-Punkt-Messung. Hierzu wurde der Bochumer

Veränderungsbogen-2000 (BVB-2000) als überarbeitete und gekürzte Variante des

Veränderungsfragebogens des Erlebens und Verhaltens (VEV; Zielke & Kopf-Mehnert,

1978) entwickelt. Fragestellung: Der BVB-2000 soll einer testtheoretischen Reanalyse mit

Fokus auf die konvergente Validität unterzogen werden. Kritische Veränderungswerte auf

Basis der Werte einer klinischen Wartekontrollgruppe sollen die Möglichkeit bieten den

Therapieerfolg auch in Einzelfällen zu bestimmen. Methode: Die Psychotherapie von N =

205 Patienten wird mit verschiedenen Instrumenten zur Therapieerfolgsmessung inklusive

des BVB-2000 begleitet. Auf Basis einer Wartekontrollgruppe (N = 88) werden kritische

Veränderungswerte für den BVB-2000 berechnet. Ergebnisse: Der BVB-2000 weist eine

hohe interne Konsistenz auf (α = .96; 26 Items) und zeigt durchgängig statistisch bedeutsame

Zusammenhänge mit anderen Therapieerfolgsmaßen vor allem der Zielerreichung. Kritische

Veränderungswerte ermöglichen die Einschätzung des Therapieerfolgs im Einzelfall.

Schlussfolgerungen: Der BVB-2000 ist ein verständliches, ökonomisches, reliables und

valides Instrument zur Psychotherapieerfolgsmessung.

Schlagwörter: direkte Veränderungsmessung – Psychotherapieerfolg – Evaluation -

Psychologische Diagnostik - Qualitätssicherung

119

Abstract

Background: Direct psychotherapy measures evaluate treatment outcome in an economic

single point measurement. The Bochum Change Questionnaire 2000 (BCQ-2000) is

developed for this purpose as a revised and shortened form of the Questionnaire to Assess

Changes in Experiencing and Behavior (QCEB; Zielke & Kopf-Mehnert, 1978). Objective:

The BVB-2000 is subjected to a test-theoretical re-analysis with focus on criterion validity

and including the definition of critical change values on the basis of a clinical wait-control

group. Method: Psychotherapy outcome for n = 205 outpatients is assessed by various

instruments to determine treatment success. Based on a wait control group (n = 88) critical

change values are calculated. Results: The BCQ-2000 shows a high internal consistency (α =

.96; 26 items) and meaningful correlations with other psychotherapy outcome measures

especially with measures of goal attainment. Critical change values allow the evaluation of

therapy outcome in single cases. Conclusion: The BCQ-2000 is an understandable,

economic, reliable and valid instrument for the direct measurement of psychotherapy

outcome.

Key words: direct measurement of change - psychotherapy outcome - evaluation -

psychological assessment - quality assessment

120

Einführung

Der Erfolg von Psychotherapie sollte wegen der Vielgestaltigkeit möglicher

Veränderungen breit operationalisiert werden (Hill & Lambert, 2004). Neben dem

klassischen Ansatz der indirekten Veränderungsmessung (Newman & Tejeda, 2004) gehören

Verfahren der direkten Veränderungsmessung inzwischen zu den etablierten Methoden der

Therapieerfolgsmessung (z.B. Fydrich, 2006; Schulte, 1993; Wittchen & Hoyer, 2006). Die

zentralen Unterschiede zwischen direkter und indirekter Veränderungsmessung liegen in (1)

der Anzahl der notwendigen Messzeitpunkte (Einpunkterhebung bei direkter vs.

Zweipunkterhebung bei indirekter Veränderungsmessung), (2) der Generierung der

Messwerte (direkte Einschätzung vs. aus Differenz der Erhebungen abgeleitet) sowie (3) der

Art des Messvorgangs (Retrospektion vs. Einschätzung des je aktuellen Status; Stieglitz &

Baumann, 2001). Die Vorteile der direkten Veränderungsmessung liegen in ihrer Ökonomie

und damit einfachen Durchführung.

Ausgangspunkt für die Entwicklung direkter Veränderungsmaße waren die von

Bereiter (1963) herausgearbeiteten Dilemmata der Veränderungsmessung, die daraus

erwachsen, dass die Verfahren zur indirekten Veränderungsmessung in der Klassischen

Testtheorie verwurzelt sind (vgl. auch Stieglitz & Baumann, 2001, 1994). In der Klassischen

Testtheorie sind wahre Merkmalswerte zeit- und bedingungsinvariant definiert, so dass

intraindividuelle Veränderungen in der Merkmalsausprägung letztlich als Messfehler – und

nicht als Indikator „wahrer“ Veränderung – interpretiert werden müssten. Diesem

Grunddilemma können weitere Probleme zugeordnet werden (vgl. insgesamt hierzu Bereiter,

1963): Das Reliabiltäts-Validitätsdilemma beschreibt die erzwungene Wahl zwischen einer

hohen Validität der Statusmessungen (Prä, Post) und einer hohen Reliabilität der

Differenzwerte (Prä-Post): Je höher die Korrelation zwischen den Statusmessungen, desto

121

niedriger ist die Reliabilität der Differenzwerte. Je niedriger die Korrelation zwischen den

Statusmessungen, desto niedriger ist ihre Validität. Beim Physikalismus-Subjektivismus-

Dilemma geht es darum, dass „physikalisch“ gleiche Differenzwerte an verschiedenen

Stellen des Messwertkontinuums eine unterschiedliche „subjektive“ Bedeutung haben. Der

sogenannte Regressionseffekt beschreibt die statistische Abhängigkeit der Prä-Post

Differenzwerte vom Ausgangszustand (Prä): Insbesondere bei Patienten mit extremen

Eingangswerten kommt es zur Regression zur Mitte.

Direkte Veränderungsmessung umgeht diese Dilemmata mit der komparativen

subjektiven Einschätzung der Veränderung („schlechter“/“besser“) durch die Probanden.

Durch Einbeziehung von Wartegruppen kann zudem das Physikalismus-Subjektivismus-

Problem reduziert werden: Vergleichswerte nicht behandelter Patienten erlauben die

Abschätzung kritischer Veränderungswerte, mittels derer „zufällige“ von „echten“

Veränderungen zumindest pragmatisch abgegrenzt werden.

Indem die Veränderungseinschätzung den Probanden selbst überlassen wird, liefern

sich jedoch Verfahren der direkten Veränderungsmessung möglichen Urteilsfehlern der

Person aus. Hierbei spielt vor allem der Verdacht auf Gedächtnis-, Urteils- und

Bezugssystemfehler (im Überblick Stieglitz & Baumann, 2001, 1994; Zielke, 1999; vgl.

auch Kastner & Basler, 1997) und damit verbunden einer Überschätzung des

Interventionserfolgs (im Überblick Fydrich, 2006; Reinecker-Hecht & Baumann, 2005; vgl.

auch Lam & Bengo, 2003) eine besondere Rolle. So wird vermutet, dass Patienten sich

entweder nicht mehr korrekt an den Ausgangszustand erinnern können (Baumann,

Sodemann & Tobien, 1980) oder die intendierte Rückschau bei der direkten

Veränderungsmessung systematisch umgehen und statt einen Differenzwert Prä-Post zu

bilden vom aktuellen Status auf Veränderung schließen. So berichten Kastner und Basler

122

(1997) nur geringe Zusammenhänge eines von ihnen entwickelten Instruments der direkten

Veränderungsmessung mit indirekten Veränderungsmessungen sowie deutliche

Zusammenhänge mit den Statusmessungen der Symptomatik zu Therapieende (Post),

während erwartungskonträr keine Zusammenhänge mit der Symptomatik zu Therapiebeginn

(Prä) gefunden wurden. Zusätzlich werden systematische Antworttendenzen wie Recency-

Effekte, Generalisierungseffekte oder soziale Erwünschtheit bei der direkten

Veränderungsmessung diskutiert (vgl. Zielke, 1999).

Direkte und indirekte Veränderungsmessung leisten empirisch unterscheidbare

Beiträge zur Beschreibung des Therapieerfolgs. So zeigen jüngere faktorenanalytische

Studien, dass sich direkte und indirekte Veränderungsmessung trotz deutlicher

Zusammenhänge faktorenanalytisch separieren lassen (Flückiger, Regli, Grawe & Lutz,

2007; Michalak, Kosfelder, Meyer & Schulte, 2003; Ülsmann & Schulte, in Druck). Direkte

Veränderungsmaße werden dabei eher als Indikatoren der Zielerreichung und Zufriedenheit

der Patienten interpretiert, während indirekte Veränderungsmessungen deutlicher von

letzteren abgegrenzt werden können (Michalak et al., 2003; Ülsmann & Schulte, in Druck;

vgl. ähnlich Flückiger et al., 2007). In der Studie von Michalak et al. (2003) erwiesen sich

die direkten Veränderungsmaße zu Therapieende systematisch als prognostisch relevant für

die Wiedererkrankung zum Katamnesezeitpunkt, während dies für die indirekten

Veränderungsmaße nur vereinzelt galt.

Insgesamt kann festgestellt werden, dass es bis heute kein allen Anforderungen

genügendes Veränderungsmaß gibt (De Los Reyes, Kundey & Wang, 2011). Direkte und

indirekte Veränderungsmessung werden vielmehr in einem Ergänzungsverhältnis zur

Abschätzung des Therapieerfolgs gesehen (im Überblick Hill & Lambert, 2004; Kendall,

Holmbeck & Verdun, 2004; Ogles, 2013; Stieglitz & Baumann, 2001; vgl. auch Flückiger et

123

al., 2007, Krampen, 2010; Michalak et al., 2003). Gleichwohl liegen bis heute

vergleichsweise wenige Studien zur direkten Veränderungsmessung vor.

Im deutschsprachigen Raum wird zur direkten Veränderungsmessung vielfach der

Veränderungsfragebogen des Erlebens und Verhaltens (VEV; Zielke & Kopf-Mehnert,

1978) eingesetzt (im Überblick Zielke & Kopf-Mehnert, 2001a). Am Zentrum für

Psychotherapie der Ruhr-Universität Bochum kam es bei der Verwendung des VEV immer

wieder zu Verständnisproblemen: Die Items des Fragebogen explizieren inhaltlich jeweils

nur einen Veränderungspol (z.B. „ich fühle mich weniger gehetzt“), der hinsichtlich der

Veränderung seit Therapiebeginn auf einer 7-stufigen Skala mit den Polen „in gleicher

Richtung“ bis hin zu „in entgegen gesetzter Richtung“ eingeschätzt wird. Die

Skalenkonstruktion wurde von Patienten - neben Items mit doppelter Verneinung -

insgesamt als schwer verständlich eingeschätzt (vgl. auch Zielke & Kopf-Mehnert, 2001b)

und der Fragebogen daher häufig inkonsistent oder unvollständig beantwortet. Um derartige

Probleme zu umgehen wurde der VEV Mitte der neunziger Jahre von Veith und Willutzki

überarbeitet (Veith & Willutzki, 2000). In Anlehnung an die inhaltlichen Dimensionen des

VEV wurden die Items als Polaritätsprofile formuliert: Hierbei werden die beiden

Veränderungspole (Verbesserung und Verschlechterung) explizit als Anker genannt, so dass

der Patient direkt die von ihm wahrgenommene Veränderung bestimmen kann (vgl. Tabelle

1). Das Skalenformat wurde als 7-stufige Likert-Skala gefasst, wobei „1“ bzw. „7“ die volle

Zustimmung zu jeweils einem Pol und der Wert „4“als neutraler Skalenmittelpunkt das

Fehlen subjektiv wahrgenommener Veränderung beschreibt. Auf Basis erster Analysen

konnte die Itemanzahl ohne Reliabilitätseinbußen auf 26 verringert werden (a.a.O.). Von

diesen 26 Items wird die Verbesserung bei 12 Items rechtspolig (stärkste Verbesserung „7“)

und bei 14 Items linkspolig (stärkste Verbesserung „1“) repräsentiert (letztere sind für die

Auswertung zu invertieren; vgl. Tabelle 1).

124

Veith und Willutzki (2000) konnten für verschiedene Messzeitpunkte innerhalb des

Therapieverlaufs eine dreifaktorielle Struktur des Instruments zeigen. Die ersten beiden

Faktoren separierten sich vor allem entlang der Polung der Items, während sich der dritte

Faktor inhaltlich auf Veränderungen sozialer Interaktionen bezog. Über die verschiedenen

Messzeitpunkte hinweg berichten die Autoren interne Konsistenzen (Cronbachs alpha) für

die drei Faktoren (Subskalen) von α = .87 bis α =.95. Für alle Messzeitpunkte konnten

darüber hinaus durchgängig hochsignifikante und substantielle Zusammenhänge (Pearson)

von r = .40 bis r = .72 (p < .01) mit anderen Psychotherapieerfolgsmaßen gezeigt werden.

Unter Berücksichtigung der Vorarbeiten von Veith und Willutzki (2000) stellten

Zielke und Kopf-Mehnert (2001b) ebenfalls eine Überarbeitung des VEV unter Verwendung

von Polaritätsprofilen vor (VEV-R-2001 mit 42 Items; Zielke & Kopf Mehnert, 2001b), die

die Vorteile des neuen Itemformats gegenüber der ursprünglichen Skalenkonstruktion

bestätigte. Kriebel, Paar, Schmitz-Buhl und Raatz (2001) legten eine Kurzfassung des VEV

mit 25 Items (VEV-K) vor, der jedoch noch das ursprüngliche problematische Skalenformat

des VEV zugrunde liegt (Zielke & Kopf-Mehnert, 1978); hinsichtlich der Iteminhalte

bestehen bei etwa der Hälfte der Items (14 Items) Ähnlichkeiten zu der Version von Veith

und Willutzki (2000).

Die von Veith und Willutzki (2000) überarbeitete Variante des VEV wird im

Folgenden als Bochumer Veränderungsbogen-2000 (BVB-2000) bezeichnet. Der BVB-2000

vereint die Vorteile der oben genannten anderen Varianten des VEV: 1. Die Antwortskala

wurde im Unterschied zur ursprünglichen Version des VEV (Zielke & Kopf-Mehnert, 1978)

bzw. der gekürzten Version (VEV-K; Kriebel et al., 2001) in Form von Polaritätsprofilen

gefasst, die Patienten eine intuitive Einschätzung von Verschlechterung bzw. Verbesserung

erlauben. 2. Im Vergleich zum VEV-R-2001 (Zielke & Kopf-Mehnert, 2001b), der ebenfalls

125

Polaritätsprofile (42 Items) als Antwortformat vorsieht, stellt der BVB-2000 mit 26 Items ein

ökonomischeres Instrument dar. Inhaltlich bestehen Überlappungen zum VEV in seinen

verschiedenen Varianten.

Ziel dieser Studie ist die Reanalyse des BVB-2000 hinsichtlich der inhaltlichen

Struktur und der Gütekriterien unter Einbezug einer Wartekontrollgruppe. Weiterhin wird

die konvergente Validität des Fragebogens über die Bezüge zu anderen

Therapieerfolgsmaßen betrachtet: Der BVB-2000 sollte insgesamt statistisch bedeutsame

Zusammenhänge mit Therapieerfolgswerten verschiedener Messansätze zeigen und sich

trotz statistisch bedeutsamer Zusammenhänge mit indirekten Veränderungsmessungen

zugleich von ihnen als eigenständige Form der Veränderungsmessung separieren lassen

(Flückiger et al., 2007; Michalak et al., 2003; Ülsmann & Schulte, in Druck). Der Verdacht,

dass Patienten bei der direkten Veränderungsmessung vom aktuellen Status auf eine

Veränderung schließen statt einen Differenzwert Prä-Post zu bilden, soll über den Vergleich

der Zusammenhänge des BVB-2000 und der verschiedenen Erfolgswerte mit den

Statusmessungen (Prä, Post) der Symptomatik untersucht werden (ebenso Kastner & Basler,

1997). Weiterhin werden kritische Veränderungswerte auf Basis einer Wartekontrollgruppe

berechnet (vgl. Zielke & Kopf-Mehnert, 1978), um den Therapieerfolg auch in Einzelfällen

abschätzen zu können und die Frage einer möglichen Überschätzung des Therapieerfolgs

durch den BVB-2000 zu adressieren.

Methode

Stichprobe

Die Behandlungsgruppe (BG) bilden N = 205 Psychotherapiepatienten (Geschlecht:

57.6% weiblich; Alter: M = 39.12 Jahre mit SD = 12.33), die eine kognitiv-

verhaltenstherapeutische Psychotherapie zwischen Ende 2003 und Anfang 2008 am Zentrum

126

für Psychotherapie (ZPT) der Ruhr-Universität Bochum regulär beendeten (mittlere

Sitzungszahl: 40.28; SD = 17.22; Median = 37). Diagnostiziert wurden mit dem

Strukturiertem Klinischen Interview für DSM-IV (SKID; Wittchen, Zaudig & Fydrich,

1997) als Primärdiagnosen vorwiegend Angststörungen (47.3%) und affektive Störungen

(35.6%) sowie 17.1% sonstige Störungen. Einschlusskriterien waren entsprechend der

Empfehlung von Hiller, Bleichhardt und Schindler (2009) neben einer klinischen Diagnose

ein T-Wert im Global Severity Index (GSI) des Brief Symptom Inventory (BSI; Franke,

2000) von T > 63. Die Wartekontrollgruppe (WKG) bilden N = 88 Psychotherapiepatienten

(Geschlecht: 47.7% weiblich; Alter: M = 38.26 Jahre, SD = 11.31). Als Primärdiagnosen

wurden in der WKG mittels SKID vorwiegend affektive Störungen (52.3%) und

Angststörungen (23.9%) sowie 23.8% sonstige Störungen diagnostiziert. Zwischen beiden

Stichproben bestehen keine statistisch bedeutsamen Unterschiede bzgl. des Alters (t=.55; df

= 291; n.s.; d = .86) oder der Geschlechterverteilung (12 = 2.40; df = 1; n.s.), wohl aber

hinsichtlich der Verteilung der Diagnosen (12= 14.10; df = 2; p < .001): Die BG

unterscheidet sich von der WKG durch einen höheren Anteil von Angststörungen und einen

geringeren Anteil affektiver Störungen.

Design

Die Ersttestung der BG (N = 205) fand zu Therapiebeginn (Prä) mit den Instrumenten

zur späteren indirekten Veränderungsmessung statt. Die Re-Testung mit diesen Instrumenten

erfolgte bei Abschluss der psychotherapeutischen Behandlung (Post). Zu Therapieende

wurde zudem der BVB-2000 sowie drei Maße zur Bestimmung der Zielerreichung (Schulte,

1993) erhoben. Die WKG (N = 88) bearbeitete den BVB-2000 rückblickend für die letzten

drei Monate ihrer Wartezeit.

127

Operationalisierung des Therapieerfolgs

Zur indirekten Veränderungsmessung werden das Brief Symptom Inventory (BSI;

Franke, 2000), das Beck-Depressions-Inventar (BDI; Hautzinger, Bailer, Worall & Keller,

1995) sowie das Inventar Interpersonaler Probleme (IIP; Horowitz, Strauß & Kordy, 2000)

verwendet. Zur Bestimmung der Zielerreichung (Schulte, 1993) werden das Globalurteil der

Zufriedenheit mit dem Therapieergebnis (Schulte & Meyer, 2002) sowie ein Goal

Attainment Scaling (GAS; Kiresuk & Sherman, 1968) im Selbst- (GAS Patient) und

Fremdurteil (GAS Therapeut) einbezogen. Im Einzelnen werden die folgenden Instrumente

genutzt:

• Das Brief Symptom Inventory (BSI; Franke, 2000) stellt die Kurzform der Symptom

Check Liste (SCL-90-R; Derogatis, 1986) dar. Der Global Severity Index (GSI; α =

.92 bis α = .96) als Gesamtwert des BSI ist ein globales störungsübergreifendes Maß

des Schweregrades der subjektiv wahrgenommenen Symptombelastung.

• Das Beck-Depressions-Inventar (BDI; Hautzinger et al., 1995; α = .88) erfasst mit 21

Items affektive Verstimmungen bis hin zur depressiven Symptomatik.

• Das Inventar Interpersoneller Probleme (IIP; Horowitz et al., 2000) dient der

Selbstbeschreibung interaktioneller Probleme. Da die Gesamtskala des IIP mit 64

Items in untransformierter Form höhere interne Konsistenzen aufweist als ipsatierte

Werte, wird in der vorliegenden Studie auf untransformierte Werte zurückgegriffen:

Becker und Mohr (2005) berichten für untransformierte Werte eine interne

Konsistenz von α = .75.

• Das Globalurteil der Zufriedenheit mit dem Therapieergebnis (Schulte & Meyer,

2002) erfasst in zwei Items die globale Zufriedenheit des Patienten mit der Therapie

128

(6-stufige Likert Skala von 1 bis 6, höhere Werte verweisen auf höhere

Zufriedenheit).

• Die Zielerreichungsskalierung erfragt in Anlehnung an das Goal Attainment Scaling

(GAS; Kiresuk & Sherman, 1968) den Grad der Zielerreichung zu Therapieende

hinsichtlich idiosynkratisch zu Therapiebeginn operationalisierter Therapieziele (6-

stufige Likert Skala von 1 bis 6, höhere Werte verweisen auf größere Zielerreichung).

Statistische Analysen

Die Überprüfung der von Veith und Willutzki (2000) angenommenen

Faktorenstruktur des BVB-2000 erfolgt mittels konfirmatorischer Faktorenanalyse (CFA) in

der BG. Die Itemanalyse umfasst deskriptive Statistiken, Schwierigkeiten sowie korrigierte

Trennschärfen. Zur Abschätzung der Reliabilität des BVB-2000 wird die interne Konsistenz

(Cronbachs alpha) in der BG und der WKG berechnet. Zur Prüfung möglicher Unterschiede

zwischen kürzeren und längeren Therapien wird die BG am Median der Sitzungsanzahl

(Median=37) in kürzere und längere Therapien unterteilt und die interne Konsistenz in

beiden Substichproben untersucht. Um zu überprüfen, ob zufällige Schwankungen des

Befindens von Veränderungen im Rahmen von Psychotherapie mit dem BVB-2000 zu

separieren sind, werden BG und WKG hinsichtlich der BVB-2000 Gesamtwerte mittels t-

Test für unabhängige Stichproben auf bedeutsame Mittelwertsunterschiede verglichen und

die Abweichung des Mittelwertes vom neutralen Skalenmittelpunkt im BVB-2000 geprüft

(t-Test). Die am Median der Sitzungsanzahl in kürzere und längere Therapien unterteilten

Substichproben der BG werden ebenfalls mittels t-Test auf Unterschiede im BVB-2000 hin

untersucht. Zur Analyse der konvergenten Validität werden Korrelationen (Pearson) des

BVB-2000 mit den Maßen der Zielerreichung (Schulte, 1993) und den indirekten

Veränderungsmessungen berechnet. Als indirekte Veränderungsmessung werden Prä-Post

129

Effektstärken in der u.a. von Grawe, Bernauer und Donati (1994) in ihrer Metaanalyse

verwendeten Form berechnet (Mprä-Mpost/SDprä; vgl. Maier-Riehle & Zwingmann, 2000).

Zudem werden Zusammenhänge des BVB-2000 mit den Statusmessungen (Prä, Post) der

Symptomatik (BSI, BDI, IIP) in der BG berechnet. Um den BVB-2000 in der Gesamtschau

aller Erfolgswerte zu verorten wird eine exploratorische Faktorenanalyse (EFA) 2. Ordnung

berechnet. Zur Abschätzung der Bedeutung einzelner Testergebnisse in der klinischen

Anwendung des BVB-2000 wird analog zum Vorgehen bei Zielke und Kopf-Mehnert (1978)

die kritische Profildifferenz (Lienert & Raatz, 1998) auf Basis der folgenden Formel

berechnet:

345#6 = 78 ± :; ∙ "3 ∙ =2(1 −"66)

Da davon ausgegangen wird, dass therapiebedingte Veränderungen über

Veränderungen in einer unbehandelten Vergleichsgruppe hinausgehen, wird die kritische

Profildifferenz aus den BVB-2000 Werten der WKG berechnet. Über den

Standardmessfehler wird das Vertrauensintervall des Testwertes definiert; als Streuungsmaß

wird die Standardabweichung (SD) und als Reliabilitätsmaß ("66) die interne Konsistenz

(Cronbachs alpha) des BVB-2000 in der WKG verwendet (ebenso Zielke & Kopf-Mehnert,

1978; Krampen, 2010). Für die Berechnung der kritischen Profildifferenz wird ein

Signifikanzniveau von p < .05 (z = 1.96) gewählt. Patienten mit Werten außerhalb der

berechneten Intervallgrenzen werden als gebessert bzw. verschlechtert kategorisiert.

Anschließend wird der kritische Veränderungswert des BVB auf die BG angewendet und die

Anzahl (N, %) gebesserter, unveränderter und verschlechterter Patienten bestimmt (ebenso

Krampen, 2010, Zielke & Kopf-Mehnert, 1978). Diese BVB-2000 Erfolgsgruppen werden

130

hinsichtlich der anderen Therapieerfolgswerte mittels einfaktorieller Varianzanalyse auf

Unterschiede geprüft.

Ergebnisse

Faktorenstruktur des BVB-2000 in der Behandlungsgruppe

Auf Basis der CFA (ML-Schätzmethode) muss die von Veith und Willutzki (2000)

berichtete dreifaktorielle Struktur zurückgewiesen werden (χ2 = 832.329 (df = 296; p <

.001); SRMS = 0.057; CFI = 0.88; RMSEA = 0.094). Um die Struktur des Instruments in der

vorliegenden Stichprobe nach Ablehnung dieser Strukturannahme weiter explorativ zu

untersuchen, wurde anschließend eine EFA (Hauptkomponentenanalyse) des Itemsatzes

berechnet. Unter dem Kaiser-Guttman-Kriterium resultiert erneut eine dreifaktorielle

Struktur. Der Eigenwertverlauf verweist allerdings auf einen dominanten Hauptfaktor mit

einem Eigenwert von 14.45 und etwa 55.58% Varianzaufklärung (Faktor 2: Eigenwert 1.7,

6.53% Varianzaufklärung; Faktor 3: Eigenwert 1.14, 4.38% Varianzaufklärung). Im Scree-

Plot zeichnet sich eine asymptotische Annäherung an die X-Achse mit dem zweiten

Eigenwert (Knie) ab. Da das Kaiser-Kriterium nach Moosbrugger und Schermelleh-Engel

(2008) bzw. Bühner (2011) oft zu einer Überschätzung der Faktorenanzahl führt und die

konfirmatorische Faktorenanalyse die dreifaktorielle Struktur zurückweist, wird der Scree-

Test zur Entscheidungsfindung herangezogen. Dieser wird von Moosbrugger und

Schermelleh-Engel (2008, S. 312) als „einfaches und in den meisten Fällen zuverlässiges

Kriterium“ charakterisiert. Dementsprechend wird von einem dominanten Hauptfaktor des

BVB-2000 ausgegangen und zur weiteren Analyse der Gesamtmittelwert herangezogen (vgl.

entsprechend Kriebel et al., 2001; Zielke & Kopf-Mehnert, 1978; Zielke & Kopf-Mehnert,

2001b).

131

Itemanalyse und Reliabilität

Tabelle 1 zeigt die Ergebnisse der Itemanalyse für den BVB-2000 in der BG sowie

Faktorladungen der Items auf dem oben gezeigten Hauptfaktor der EFA. Die

durchschnittliche Schwierigkeit der Items beträgt pi = .79 (min = .70, max = .84). Die

Trennschärfen sind insgesamt hoch (rit > .59; Konfidenzintervalle: 5%-Niveau (zweiseitig)

= .33, 1%-Niveau = .43). Es bestehen durchgängig substantielle Faktorladungen der Items

auf den Hauptfaktor von im Mittel a = .74 (min = .52, max = .85). Dementsprechend weist

der BVB-2000 mit einem Cronbachs alpha von α = .96 (26 Items) in der BG eine hohe

interne Konsistenz auf. Die Reliabilität des BVB-2000 für Therapien geringerer Sitzungszahl

liegt bei α = .97; für Therapien mit höherer Sitzungszahl liegt sie bei α = .96. In der WKG (N

= 88) liegt die interne Konsistenz bei α = .95 (26 Items).

>> Tabelle 1 hier einfügen <<

Vergleich der Stichproben bezüglich der BVB-2000 Werte

In der BG liegt der Gesamtwert des BVB-2000 im Mittel bei M = 5.54 (SD = .98)

und verweist damit auf eine subjektiv erlebte Befindensverbesserung (max = 7.00; min =

2.81). Der Mittelwert der WKG (N = 88) liegt mit M = 3.88 (SD = .83, min = 1.35, max =

5.81) nahe dem neutralen Skalenmittelpunkt („keine Veränderung“) mit dem Wert 4. Die BG

weist einen statistisch bedeutsam höheren Mittelwert im BVB-2000 auf als die WKG (t =

14.84; df = 191.92; p < .001; d = 1.66). Die WKG zeigt im t-Test keine signifikante

Differenz zum neutralen Skalenmittelpunkt (t = -1.39; df = 87; n.s.; d = -.12), während die

BG statistisch bedeutsam in Richtung einer Befindensverbesserung von ihm abweicht (t =

22.52; df = 204; p < .001; d = 1.54). Therapien mit geringerer Sitzungszahl (Mittlere

Sitzungszahl = 26.07; SD = 6.09) unterscheiden sich von Therapien höherer Sitzungsanzahl

(mittlere Sitzungszahl = 54.13; SD = 12.58) im BVB-2000 nicht signifikant voneinander

132

(BVB-2000 bei geringerer Sitzungsanzahl M = 5.57 (SD = 1.04) vs. bei größerer

Sitzungsanzahl M = 5.50 (SD = .92); t = .50, df = 200; n.s.).

Konstruktvalidität

Tabelle 2 gibt die Kennwerte (M, SD) aller verwendeten Instrumente in der BG zu

beiden Messzeitpunkten (Prä, Post) sowie der abgeleiteten indirekten Veränderungsmaße

(Prä-Post Effektstärken) wieder. Die Prä-Post Effektstärken (ES) von BSI, BDI und IIP

bilden im Mittel einen großen Effekt (vgl. Cohen, 1988) der psychotherapeutischen

Behandlung ab.

>> Tabelle 2 hier einfügen <<

Tabelle 3 zeigt die Interkorrelationen aller Therapieerfolgsmaße in der BG. Es

bestehen statistisch bedeutsame Bezüge des BVB-2000 zu allen herangezogenen

Erfolgsmaßen. Die Zusammenhänge des BVB-2000 mit den indirekten

Veränderungsmessungen (Prä-Post Effektstärken) von BSI, BDI und IIP sind insgesamt

geringer (14-22% geteilte Varianz) als die Zusammenhänge der indirekten

Veränderungsmaße (Prä-Post Effektstärken) untereinander (24-32% geteilte Varianz). Die

geteilte Varianz des BVB-2000 mit den beiden Maßen zur Zielerreichung (Schulte, 1993) im

Selbsturteil (Global, GAS Patient) ist deutlich höher (48% und 53%) als die der indirekten

Veränderungsmaße mit diesen Erfolgswerten (11-23%). Dies gilt ebenso für das Fremdurteil

der Zielerreichung (GAS Therapeut), das 15% geteilte Varianz mit dem BVB-2000 und

lediglich 3-4% geteilte Varianz mit den indirekten Veränderungsmaßen (Effektstärken)

aufweist.

>> Tabelle 3 hier einfügen <<

133

Tabelle 4 zeigt die Ergebnisse der explorativen Faktorenanalyse 2. Ordnung

(Hauptkomponentenanalyse, Varimax Rotation) aller Erfolgswerte. Nach dem Kaiser-

Guttman-Kriterium resultieren zwei Komponenten, die nach Rotation ein vergleichbares

Ausmaß an Varianzaufklärung aufweisen. Wie erwartet lädt der BVB-2000 auf einem

gemeinsamen Faktor (Komponente 1) mit den Maßen der Zielerreichung (Schulte, 1993).

Die indirekten Veränderungsmaße bilden gemeinsam einen zweiten Faktor (Komponente 2),

wobei der BVB-2000 hier eine substantielle (< .30), jedoch niedrigere Ladung aufweist.

>> Tabelle 4 hier einfügen <<

Tabelle 5 zeigt die Korrelationen aller Therapieerfolgswerte mit den

Statusmessungen (Prä, Post) der Symptomatik (BSI, BDI, IIP). Die Prä-Werte der

Statusmessungen korrelieren nicht substantiell mit denMaßen der Zielerreichung und dem

BVB-2000 , während sie fast durchgängig (bei geteilten Varianzen von 4-56%) substantiell

mit den Effektstärken der indirekten Veränderungsmaße korrelieren. Sämtliche

Psychotherapieerfolgswerte weisen einen hohen negativen Zusammenhang mit den Post-

Werten der Statusmessungen auf: Je erfolgreicher die Therapien - unabhängig vom

jeweiligen Verfahren - eingeschätzt werden, desto geringer die Symptombelastung zu

Therapieende.

>> Tabelle 5 hier einfügen <<

Kritische Veränderungswerte des BVB-2000

Zur Abschätzung der Bedeutung einzelner Testergebnisse des BVB-2000 wird die

kritische Profildifferenz (Lienert & Raatz, 1998) aus den Werten der WKG berechnet. Bei

einem Signifikanzniveau von p<.05 werden Patienten mit einem Wert größer 4.40 als

gebessert und kleiner 3.36 als verschlechtert klassifiziert; Patienten mit Werten innerhalb

134

dieses Intervalls werden als unverändert klassifiziert. In der BG werden so 85.9% (N = 176)

der Patienten als gebessert, 13.2% (N = 27) als unverändert und 1% (N = 2) als

verschlechtert kategorisiert. In der WKG werden 17% (N = 17) als verbessert, 59.1% (N =

52) als unverändert und 21.6% (N = 19) als verschlechtert klassifiziert.

>> Tabelle 6 hier einfügen <<

Tabelle 6 vergleicht die in der BG auf Basis der kritischen Veränderungswerte im

BVB-2000 als unverändert und gebessert klassifizierten Patienten bezüglich aller

Therapieerfolgswerte: Die als gebessert klassifizierte Patientengruppe weist auf allen

Instrumenten statistisch bedeutsam höhere Erfolgswerte auf als die als unverändert

klassifizierte Gruppe.

Diskussion

Der BVB-2000 erweist sich in der vorliegenden Studie als reliables Instrument der

direkten Veränderungsmessung. Die von Veith und Willutzki (2000) berichtete

dreifaktorielle Struktur konnte mittels CFA nicht repliziert werden; die Ergebnisse der

anschließenden explorativen Faktorenanalyse (Hauptkomponentenanalyse) verweisen unter

Einbezug des Scree-Kriteriums auf einen dominanten Hauptfaktor. Die interne Konsistenz

(Cronbachs alpha) des BVB-2000 ist mit α = .97 für Therapien geringerer Sitzungszahl und

α = .96 (26 Items) für Therapien höherer Sitzungszahl in der BG (N = 205) und α = .95 in

der WKG (N = 88) bei jeweils 26 Items sehr hoch. Der Vergleich von BG und WKG zeigt,

dass sich mit dem BVB-2000 zufällige Schwankungen im Erleben und Verhalten von

Veränderungen im Rahmen einer Psychotherapie differenzieren lassen - zumindest bezogen

auf die hier berücksichtigte Wartekontrollzeit von drei Monaten. Veränderungen im BVB-

2000 sind zudem nicht abhängig von der Therapiedosis: Therapien geringerer und höherer

Sitzungsanzahl unterscheiden sich im BVB nicht deutlich voneinander.

135

Hinsichtlich der Konstruktvalidität weist der BVB-2000 statistisch bedeutsame

Zusammenhänge mit allen herangezogenen Therapieerfolgsmaßen auf, wobei die

Größenordnung der Zusammenhänge mit geteilten Varianzen von 14% bis 53% insgesamt

mit denen anderer Überarbeitungen des VEV (Kriebel et al., 2001; Zielke & Kopf-Mehnert,

2001b) wie auch anderen Instrumenten zur direkten Veränderungsmessung (z.B. Krampen,

2010) vergleichbar ist (anders Kastner & Basler, 1997). Trotz bedeutsamer Zusammenhänge

mit den indirekten Veränderungsmaßen lässt sich der BVB-2000 in der explorativen

Faktorenanalyse 2. Ordnung (Hauptkomponentenanalyse) von den indirekten

Veränderungsmaßen (Prä-Post Effektstärken) separieren und lädt deutlich gemeinsam mit

anderen Zielerreichungsmaßen (Schulte, 1993). Dementsprechend lässt sich die erste

Dimension als Zielerreichungsfaktor auffassen, während die zweite Dimension eher die

Symptomveränderungen repräsentiert (vgl. ähnlich Ülsmann & Schulte, in Druck). Die

Ergebnisse zur konvergenten Validität verweisen so erneut darauf, dass der Beitrag der

direkten Veränderungsmessung zur Erfolgsbeurteilung über eine statistisch bedeutsame

Konvergenz mit der indirekten Veränderungsmessung (Prä-Post Effektstärken) hinausgeht

(vgl. Flückiger et al., 2007; Michalak et al., 2003; Ülsmann & Schulte, in Druck).

Der BVB-2000 weist durchgängig statistisch bedeutsame Bezüge zu allen

herangezogenen Erfolgswerten - auch den indirekten Veränderungsmaßen auf (ebenso

Flückiger et al., 2007; Michalak et al., 2003; Ülsmann & Schulte, in Druck). Zudem

korrelieren sämtliche herangezogenen Erfolgswerte (auch die indirekten Veränderungsmaße)

statistisch bedeutsam negativmit den Postwerten. Das Ergebnismuster dieser Studie

unterscheidet sich damit - ebenso wie bei Flückiger und Kollegen (2007) - von den

Ergebnissen von Kastner und Basler (1997): Sie finden mit ihrem „Fragebogen zur

subjektiven Erfolgsbeurteilung der Therapie“ (FSET) in einer Stichprobe chronischer

Schmerzpatienten kaum Zusammenhänge dieses direkten Veränderungsmaßes zu indirekten

136

Veränderungsmaßen, wohl aber deutliche Zusammenhänge zur Restsymptomatik zu

Therapieende. Es bleibt offen, ob diese Diskrepanzen auf Unterschiede zwischen den

Instrumenten oder aber den hohen Chronifizierungsgrad der Patienten bei Kastner und

Basler (a.a.O.) zurückgehen: Die Effektstärken (rekonstruiert aus den Kennwerten der

indirekten Veränderungsmaße) in der zugrundeliegenden Therapievergleichsstudie liegen

mehrheitlich unter .50 (Basler, Jäkle & Kröner-Herwig, 1997). Wie auch Flückiger und

Kollegen (2007) herausarbeiten, spricht ein Zusammenhang zwischen direkten

Veränderungsmaßen und der Restsymptomatik zu Therapieende nicht prinzipiell gegen die

Validität direkter Veränderungsmaße: Bei Veränderungen in der Psychotherapie ist eine

Reduktion der Restsymptomatik und damit die Annäherung an die unbelastete

Normalpopulation zu erwarten. Der BVB-2000 weist in dieser, wie auch in anderen Studien

bei bedeutsamen Zusammenhängen mit indirekten Veränderungsmaßen gleichzeitig eine

deutlichere Nähe zu Maßen der Zielerreichung auf (Flückiger et al., 2007; Michalak et al.,

2003; Ülsmann & Schulte, in Druck). Der BVB-2000 teilt somit Varianz mit beiden

Dimensionen des Therapieerfolgs. Diese „Doppelstellung“ könnte im Falle des Einsatz des

BVB-2000 als ‚stand alone’ Lösung (z.B. bei knappen Ressourcen und/oder fehlenden Prä

Werten) durchaus Vorteile bieten (vgl. auch Ülsmann & Schulte, in Druck).

Zielerreichungsmaße implizieren den kognitiven Abgleich eines Idealzustandes mit dem

aktuellen Befinden (Post) im Unterschied zum Abgleich zwischen initialer Symptomatik und

Restsymptomatik (Schulte, 1993), was wiederum den Urteilsprozess bei der direkten

Veränderungsmessung fraglich erscheinen lässt.

Der Frage einer möglichen Überschätzung des Interventionserfolgs durch den BVB-

2000 (im Überblick Fydrich, 2006; Reinecker-Hecht & Baumann, 2005; vgl. auch Lam &

Bengo, 2003) wurde in der vorliegenden Studie mittels kritischer Profildifferenzen

nachgegangen. Der Prozentsatz der mittels kritischem Veränderungswert des BVB-2000 als

137

verbessert klassifizierter Patienten ist mit 85.9% direkt mit den von Zielke und Kopf-

Mehnert (1978) für den VEV berichteten 85% vergleichbar. Von Zielke und Kopf-Mehnert

(2001b) bzw. Kriebel et al. (2001) werden mit 74.4% und 61.1% geringere Prozentsätze

verbesserter Patienten berichtet, was vermutlich auf Unterschiede im Behandlungssetting

(ambulant vs. stationär) zurückgeht. Gegen eine Überschätzung des Therapieerfolgs durch

den BVB-2000 in Vergleich zu anderen Therapieerfolgsmaßen sprechen auch die Ergebnisse

der varianzanalytischen Vergleiche der im BVB-2000 klassifizierten Patienten: Patienten,

die mit dem BVB-2000 als gebessert kategorisiert werden weisen auf allen

Therapieerfolgsmaßen im Mittel deutlich größere Prä-Post Effektstärken auf als Patienten,

die als unverändert eingeschätzt werden.

Einschränkend ist zu den hier zugrunde gelegten kritischen Veränderungswerten

anzumerken, dass zu ihrer Erarbeitung kein streng experimentelles Design realisiert wurde

(wie etwa von Krampen, 2010). Zudem sind der Überblickszeitraum der WKG und der BG

nicht identisch. Unabhängig davon kann die Verwendung kritischer Profildifferenzen

(Lienert & Raatz, 1998) insgesamt hinterfragt werden. Von Nachtigall und Suhl (2005)

werden jedoch die Vorteile kritischer Profildifferenzen (Lienert & Raatz, 1998) bzw. deren

Umformulierung als Reliable Change Index (Jacobson & Truax, 1991) gegenüber

verschiedenen Alternativvorschlägen (u.a. Steyer, Hannöver, Telser & Kriebel, 1997)

herausgearbeitet.

Die hier untersuchte Behandlungsgruppe zeichnet sich durch drei besondere

Merkmale aus: Das Vorliegen einer statistisch bedeutsamen Beeinträchtigung zu

Therapiebeginn (T-Wert des BSI GSI > 63), eine relativ hohe Anzahl an Therapiesitzungen

(M = 40.28; SD = 17.22) sowie große Behandlungseffekte (ES > .80 für 55-76% der

Stichprobe je nach Instrument). Diese Stichprobencharakteristika begrenzen die

138

Generalisierbarkeit der Studie deutlich. Neben den Einschränkungen, die hieraus und aus der

Studienanlage resultieren, besteht weiterer Forschungsbedarf vor allem in folgenden

Bereichen: Wünschenswert wäre die Einbeziehung katamnestischer Daten, um zu

überprüfen, ob die von Michalak und Kollegen (2003) berichtete besondere prognostische

Relevanz direkter Veränderungsmaße für den weiteren Behandlungsverlauf replizierbar ist.

Bezüglich der offenen Fragen zu den Urteilsprozssen, die direkten

Veränderungseinschätzungen zugrunde liegen, wären spezifische Studien, z.B. mittels

‚cognitive interviewing’ (Collins, 2003) sowie weitere Studien zum Einfluss der

Überblicksdauer bzw. der Therapiedosis sinnvoll (vgl. jedoch Stieglitz (1990), der keinen

Zusammenhang zwischen Überblicksdauer und retrospektiv eingeschätzter Symptomatik

fand). Auch die Ergebnisse von Krampen (2010), der aus einer aufwändigen experimentellen

Studie nur geringe Zusammenhänge der direkten Veränderungsmessung mit sozialer

Erwünschtheit (gemeinsame Varianz von 6-10%) und keine bedeutsamen Zusammenhänge

mit anderen Antworttendenzen (Lügen, Offenheit) berichtet, bedürfen weiterer Überprüfung.

Bei der Bewertung der Validitätsbedenken, die sich auf die Beteiligung subjektiver

Beurteilungsprozesse beziehen, ist zu berücksichtigen, dass ein Großteil dieser Probleme

ubiquitär alle Messansätze - also auch die indirekte Veränderungsmessung - betrifft (vgl.

Schwartz und Rapkin, 2004). So stellen z.B. Befunde zum sogenannten response shift (im

Überblick Güthlin, 2004) die Validität von Prä-Post Differenzwerten in Frage, da im Laufe

der Therapie Veränderungen in den Bewertungsmaßstäben des Patienten stattzufinden

scheinen.

Im klinischen Kontext sind günstige, wenig zeitintensive sowie schnell und einfach

anzuwendende psychometrische Verfahren wünschenswert (im Überblick Ogles, 2013).

Hunsley und Mash (2007) sehen solche ‚practical criteria’ explizit als psychometrische

Qualität an. Der BVB-2000 stellt sich in der vorliegenden Studie als ökonomisches, gut

139

handhabbares Verfahren mit bedeutsamen Bezügen zu Erfolgswerten verschiedener

Messansätze dar. Unter Verwendung der dargestellten kritischen Veränderungswerte kann

eine valide Abschätzung des Therapieerfolgs auch in Einzelfällen vorgenommen werden.

Der BVB-2000 kann zu Therapieende einmalig erhoben werden und bietet damit bei

begrenzten Ressourcen oder im Falle fehlender Eingangswerte Vorteile.

140

Literaturverzeichnis

Basler, H.-D., Jäkle, C. & Kröner-Herwig, B. (1997). Incorporation of cognitive-behavioral

treatment into the medical care of chronic low back patients. Patient Education and

Counseling, 31, 113-134.

Baumann, U., Sodemann, U. & Tobien, H. (1980). Direkte versus indirekte

Veränderungsdiagnostik. Zeitschrift für Differentielle und Diagnostische

Psychologie, 1, 201-216.

Becker, P. & Mohr, A. (2005). Psychometrische Argumente für die Verwendung

untransformierter Skalenwerte im Inventar zur Erfassung interpersonaler Probleme

(IIP-D). Zeitschrift für Klinische Psychologie und Psychotherapie, 34, 205-214.

Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C.W. Harris

(Ed.), Problems in measuring change (S. 3-20). Madison: University of Wisconsin

Press.

Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion. München:

Pearson.

Cohen, J. (1988). Statistical power analysis for the behavioural sciences. Hillsdale:

Erlbaum.

Collins, D. (2003). Pretesting survey instruments: an overview of cognitive methods. Quality

of Life Research, 12, 229-238.

De Los Reyes, A., Kundey, S. A. & Wang, M. (2011). The end of the primary outcome

measure: A research agenda for constructing its replacement. Clinical Psychology

Review, 31 (5), 829-838.

Derogatis, L.R. (1986). Symptom-Check-Liste (SCL-90-R). In Collegium Internationale

Psychiatrieae Scalarum (Hrsg.), Internationale Skalen für Psychiatrie (3. Aufl.).

Weinheim: Beltz.

141

Flückiger, C., Regli, D., Grawe, K. & Lutz, W. (2007). Differences and similarities between

pre-post and retrospective measurings. Psychotherapy Research, 17, 359-364.

Franke, G. H. (2000). Brief Symptom Inventory von L. R. Derogatis (Kurzform der SCL-90-

R). Göttingen: Beltz Test GmbH.

Fydrich, T. (2006). Diagnostik und Intervention in der Klinischen Psychologie. In M.

Amelang & L. Schmidt-Atzert (Hrsg.), Psychologische Diagnostik und Intervention

(S. 495–532). Heidelberg: Springer.

Grawe, K., Bernauer, F. & Donati, R. (1994). Psychotherapie im Wandel. Göttingen:

Hogrefe.

Güthlin, C. (2004). Response Shift: Alte Probleme der Veränderungsmessung, neu

angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische

Psychologie, 13, 165–174.

Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar

(BDI). Bern: Huber.

Hill, C. E. & Lambert, M. J. (2004). Methodological Issues in Studying Psychotherapy

Processes and Outcomes. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook

of Psychotherapy and Behavior Change. 5th Edition (S. 84-136). New York: Wiley.

Hiller, W., Bleichhardt, G. & Schindler, A. (2009). Evaluation von Psychotherapien aus der

Perspektive von Qualitätssicherung und Qualitätsmanagement. Zeitschrift für

Psychiatrie, Psychologie und Psychotherapie,57, 7-22.

Horowitz, L. M., Strauß, B. & Kordy, H. (2000). Inventar zur Erfassung interpersonaler

Probleme. Göttingen: Beltz.

Hunsley, J. & Mash, E. J. (2007). Evidence-based assessment. Annual Review of Clinical

Psychology, 329-351.

142

Jacobson, N. S. & Truax, P. (1991). Clinical significance. A statistical approach to defining

meaningful change in psychotherapy research. Journal of Consulting and Clinical

Psychology, 59, 12–19.

Kastner, S. & Basler, H.-D. (1997). Messen Veränderungsfragebögen wirklich

Veränderung? Schmerz, 11, 254-262.

Kendall, P. C., Holmbeck, G. & Verdun, T. (2004). Methodology, design, and evaluation in

psychotherapy research. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook

of Psychotherapy and Behavior Change. 5th Edition. (S. 16-43). New York: Wiley.

Kiresuk, T. I. & Sherman, R. E. (1968). Goal Attainment Scaling: A general method for

evaluating comprehensive community mental health programs. Community Mental

Health Journal, 4, 443-453.

Krampen, G. (2010). Experimentelle Konstruktion eines Kurzfragebogens zur direkten

Veränderungsmessung psychotherapeutischer Effekte im Befinden. Diagnostica, 54,

212-221.

Kriebel, R., Paar, G.H., Schmitz-Buhl, M. & Raatz, U. (2001). Veränderungsmessung mit

dem Veränderungsfragebogen (VEV): Entwicklung einer Kurzform und deren

Anwendung in der Psychosomatischen Rehabilitation. Praxis Klinische

Verhaltensmedizin und Rehabilitation, 53, 20-32.

Lam, T .C. M. & Bengo, P. (2003). A comparison of three retrospective self-reporting

methods of measuring change in instructional practice. American Journal of

Evaluation, 24, 65-80.

Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse. 6. Auflage. Weinheim:

Psychologie Verlags Union.

Maier-Riehle, B. & Zwingmann, C. (2000). Effektstärkenvarianten beim Eingruppen-Prä-

Post-Design: Eine kritische Betrachtung. Rehabilitation, 39, 189–199.

143

Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs –

Veränderungsmessung oder retrospektive Erfolgsbeurteilung. Zeitschrift für Klinische

Psychologie und Psychotherapie, 32, 94-103.

Moosbrugger, H. & Schermelleh-Engel, K. (2008). Exploratorische (EFA) und

Konfirmatorische Faktorenanalyse (CFA). In H. Moosbrugger und A. Kelava (Hrsg.),

Testtheorie und Fragebogenkonstruktion (S. 307-324). Berlin: Springer.

Nachtigall, C. & Suhl, U. (2005). Evaluation intraindividueller Veränderung. Ein Vergleich

verschiedener Veränderungskennwerte. Zeitschrift für Klinische Psychologie und

Psychotherapie, 34, 241–247.

Newman & Tejeda (2004). Selecting statistical procedures for progress and outcome

assessment: The analysis of group data. In M. E. Maruish (Hrsg.), The use of

psychological testing for treatment planning and outcomes assessment (S. 291-334).

Mahwah: Lawrence Erlbaum.

Ogles, B. M. (2013). Measuring Change in Psychotherapy Research. In M. J. Lambert

(Hrsg.), Bergin and Garfield’s Handbook of Psychotherapy and Behavior Change. 6th

Edition (S. 134-166). New York: Wiley.

Reinecker-Hecht, C. & Baumann, U. (2005). Klinisch-psychologische Diagnostik. In M.

Perrez & U. Baumann (Hrsg.), Lehrbuch Klinische Psychologie - Psychotherapie (S.

128-146). Bern: Huber.

Schulte, D. (1993). Wie soll Therapieerfolg gemessen werden? Zeitschrift für Klinische

Psychologie, 22, 374-393.

Schulte, D. & Meyer, F. (2002). Woran orientieren sich Therapeuten bei ihrer

Sitzungsbeurteilung und Erfolgsprognose? Zeitschrift für Klinische Psychologie und

Psychotherapie, 31, 257-265.

144

Schwartz, C. E. & Rapkin, B. D. (2004). Reconsidering the psychometrics of quality of life

assessment in light of response shift and appraisal. Health and Quality of Life

Outcomes, 2, 16.

Steyer, R., Hannöver, W., Telser, C. & Kriebel, R. (1997). Zur Evaluation intraindividueller

Veränderung. Zeitschrift für Klinische Psychologie, 26, 291–299.

Stieglitz, R.-D. (1990). Validitätsstudien zum retrospektiven Vortest in der

Therapieforschung. Zeitschrift für Klinische Psychologie, 19, 144-150.

Stieglitz, R.-D. & Baumann, U. (1994). Veränderungsmessung. In R.-D. Stieglitz & U.

Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21-36). Stuttgart:

Enke.

Stieglitz, R.-D. & Baumann, U. (2001). Veränderungsmessung. In R.-D. Stieglitz & U.

Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21-37). Stuttgart:

Enke.

Ülsmann, D. & Schulte, D. (in Druck). Ziel erreicht! Aber auch verändert? Zwei basale

Perspektiven in der Psychotherapieerfolgsbeurteilung. Zeitschrift für Klinische

Psychologie und Psychotherapie.

Veith, A. & Willutzki, U. (2000). Eine Revision des Veränderungsfragebogens des Erlebens

und Verhaltens (VEV). Vortrag auf dem Kongress für Klinische Psychologie und

Psychotherapie der Deutschen Gesellschaft für Verhaltenstherapie, Berlin.

Wittchen, H.-U. & Hoyer, J. (2006). Diagnostische Prozesse in der Klinischen Psychologie

und Psychotherapie. In H.-U. Wittchen & J. Hoyer (Hrsg.), Klinische Psychologie &

Psychotherapie (S. 349–382). Heidelberg: Springer.

Wittchen, H.U., Zaudig, M. & Fydrich, T. (1997). Strukturiertes Klinisches Interview für

DSM-IV Achse I und II. Göttingen: Hogrefe.

145

Zielke, M. (1999). Direkte und indirekte Veränderungsmessung bei Interventionsansätzen -

Methoden und Ergebnisse. Praxis klinische Verhaltensmedizin und Rehabilitation,

45, 3-13.

Zielke, M. & Kopf-Mehnert, C. (1978). Der Veränderungsfragebogen des Erlebens und

Verhaltens VEV. Weinheim: Beltz.

Zielke, M. & Kopf-Mehnert, C. (2001a). 22 Jahre wissenschaftliche Erfahrungen mit dem

Veränderungsfragebogen des Erlebens und Verhaltens VEV. Praxis klinische

Verhaltensmedizin und Rehabilitation, 53, 3-6.

Zielke, M. & Kopf-Mehnert, C. (2001b). Der VEV-R-2001: Entwicklung und

testtheoretische Reanalyse der revidierten Form des Veränderungsfragebogens des

Erlebens und Verhaltens (VEV). Praxis klinische Verhaltensmedizin und

Rehabilitation, 53, 7-19.

146

Tabe

lle 1

Boch

umer

Ver

ände

rung

sbog

en-2

000

(BVB

-200

0; W

erte

bere

ich

von

„1“-

„7“,

neu

tral

er W

ert „

4“):

Item

form

ulie

rung

en,

Erge

bnis

se d

er

Item

anal

yse

(Ken

nwer

te (M

, SD

), Ite

msc

hwie

rigk

eit (

pi),

korr

igie

rte

Tren

nsch

ärfe

(rit)

, Lad

ung

auf d

en H

aupt

fakt

or (a

)) in

der

Beha

ndlu

ngsg

rupp

e (B

G, N

= 2

05)

Im

Ver

glei

ch zu

m Z

eitp

unkt

vor

der

The

rapi

e…

Item

M

(SD

) pi

rit

a

1 …

fühl

e ic

h m

ich

gehe

tzte

r. …

wen

iger

geh

etzt

. 5.

53 (1

.48)

.7

9 .5

9 .6

2 2

…ha

be ic

h je

tzt e

her d

as G

efüh

l, in

ein

er S

ackg

asse

zu

steck

en, a

us d

er ic

h ni

cht h

erau

skom

me.

habe

ich

jetz

t wen

iger

das

Gef

ühl…

5.

94 (1

.28)

.8

4 .7

2 .7

4 3

…ha

t das

Leb

en fü

r mic

h an

Inha

lt ve

rlore

n.

…er

sche

int m

ir da

s Leb

en si

nnvo

ller.

5.78

(1.2

4)

.82

.76

.78

4 …

bin

ich

mit

mir

unzu

fried

ener

. …

zufri

eden

er.

5.59

(1.5

7)

.79

.50

.52

5 …

bin

ich

ange

sicht

s von

Sch

wie

rigke

iten

ange

span

nter

. …

gela

ssen

er.

5.53

(1.3

5)

.78

.68

.70

6 …

bin

ich

inne

rlich

unr

uhig

er g

ewor

den.

ruhi

ger g

ewor

den.

5.

62 (1

.36)

.8

0 .6

6 .6

8 7

…ha

be ic

h w

enig

er A

usda

uer.

meh

r Aus

daue

r. 5.

32 (1

.33)

.7

5 .7

7 .7

9 8

…ge

be ic

h sc

hnel

ler a

uf.

…w

enig

er sc

hnel

l auf

. 5.

43 (1

.34)

.7

7 .6

8 .7

1 9

…sc

hwan

ken

mei

ne S

timm

unge

n je

tzt s

tärk

er.

…w

enig

er.

5.41

(1.3

9)

.77

.72

.75

10

…fü

hle

ich

mic

h je

tzt u

nsic

here

r. …

siche

rer.

5.60

(1.3

0)

.80

.78

.80

11

...bi

n ic

h im

Um

gang

mit

ande

ren

Men

sche

n je

tzt a

nges

pann

ter.

…ru

hige

r. 5.

53 (1

.30)

.7

9 .7

4 .7

6 12

...

fühl

e ic

h m

ich

unru

hige

r, w

enn

ich

an d

ie Z

ukun

ft de

nke.

ruhi

ger…

5.

44 (1

.36)

.7

8 .8

0 .8

2 13

nehm

e ic

h un

erw

arte

te E

reig

niss

e w

enig

er g

elas

sen

hin.

gela

ssen

er h

in.

5.48

(1.3

4)

.78

.74

.77

14

…fü

hle

ich

mic

h stä

rker

isol

iert

als f

rühe

r. …

wen

iger

isol

iert…

5.

43 (1

.36)

.7

7 .6

5 .6

7 15

wei

ß ic

h je

tzt m

anch

mal

nic

ht m

ehr,

wie

es w

eite

rgeh

en so

ll.

…w

eiß

ich

jetz

t oft

bess

er…

5.

63 (1

.36)

.8

0 .7

1 .7

4 16

kann

ich

jetz

t wen

iger

frei

spre

chen

. …

kann

ich

jetz

t fre

ier s

prec

hen.

5.

48 (1

.35)

.7

8 .7

2 .7

5 17

fühl

e ic

h m

ich

wen

iger

frei

. …

fühl

e ic

h m

ich

freie

r. 5.

63 (1

.31)

.8

0 .7

7 .8

0 18

kann

ich

mit

Pers

onen

des

and

eren

Ges

chle

chts

schl

echt

er K

onta

kt a

ufne

hmen

.

…be

sser

Kon

takt

auf

nehm

en.

4.94

(1.4

0)

.70

.50

.53

19

…ha

ben

mei

ne S

chw

ierig

keite

n im

Um

gang

mit

ande

ren

Men

sche

n zu

geno

mm

en.

...ab

geno

mm

en

5.42

(1.2

5)

.77

.75

.77

20

…bi

n ic

h an

gesp

annt

er.

…bi

n ic

h en

tspan

nter

. 5.

74 (1

.26)

.8

1 .7

8 .8

0 21

fühl

e ic

h m

ich

wen

iger

aus

gegl

iche

n.

…fü

hle

ich

mic

h au

sgeg

liche

ner.

5.76

(1.2

0)

.82

.83

.85

22

…fü

hle

ich

mic

h im

Ges

präc

h m

it an

dere

n un

siche

rer.

…ni

cht m

ehr s

o un

siche

r. 5.

54 (1

.25)

.7

9 .7

8 .8

0 23

...

kom

me

ich

mit

mir

selb

st sc

hlec

hter

aus

. …

bess

er a

us.

5.66

(1.2

3)

.80

.80

.82

24

…ka

nn ic

h m

it de

n Sc

hwie

rigke

iten

des a

lltäg

liche

n Le

bens

schl

echt

er u

mge

hen.

bess

er u

mge

hen.

5.

67 (1

.24)

.8

1 .8

0 .8

2

147

25

…m

acht

es m

ich

jetz

t uns

iche

rer,

wen

n sic

h ei

n an

dere

r mir

gege

nübe

r sel

bstb

ewus

st gi

bt.

nich

t meh

r so

unsic

her,

wen

n…

5.44

(1.3

0)

.78

.72

.75

26

…ha

ben

mei

ne S

chw

ierig

keite

n, m

ich

mit

ande

ren

Men

sche

n zu

unt

erha

lten…

zug

enom

men

. …

abge

nom

men

. 5.

46 (1

.33)

.7

8 .6

8 .7

1

Ges

amtm

ittel

wer

t der

Ska

la

5.

54 (.

98)

Anm

erku

ng. G

rau

unte

rlegt

e Ite

ms w

urde

n in

verti

ert.

148

Tabelle 2

Kennwerte (M, SD) aller verwendeten Instrumente in der Behandlungsgruppe (BG) zu

beiden Messzeitpunkten (Prä, Post) sowie der abgeleiteten indirekten Veränderungsmaße

(Prä-Post Effektstärken)

Prä Post ES¹

N M (SD) M (SD) M (SD)

BSI 205 1.40 (.54) .57 (.48) 1.52 (1.12)

BDI 202 19.97 (9.56) 7.47 (6.83) 1.30 (1.03)

IIP 204 1.68 (.52) 1.12 (.63) 1.07 (1.01)

BVB-2000 205 - 5.54 (.98) -

Global 205 - 4.80 (.97) -

GAS Pat. 151 - 4.69 (1.06) -

GAS Th. 147 - 4.41 (1.30) -

Anmerkung. Brief Symptom Inventory (BSI), Beck-Depressions-Inventar (BDI), Inventar Interpersonaler

Probleme (IIP), Effektstärken (ES), Bochumer Veränderungsbogen-2000 (BVB-2000), Globalurteil der

Zufriedenheit mit dem Therapieergebnis (Global), Goal Attainment Scaling (GAS) von Patient (Pat.) und

Therapeut (Th.).

¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä.

149

Tabelle 3

Interkorrelation (Pearson) der Therapieerfolgsmaße in der Behandlungsgruppe (BG)

ES¹ BSI

ES¹ BDI

ES¹ IIP

Global

GAS Pat.

GAS Th.

BVB-2000

.47*** (N=205)

.38*** (N=202)

.44*** (N=204)

.73*** (N=205)

.69*** (N=151)

.39*** (N=147)

ES¹ BSI - .57***

(N=202) .49***

(N=204) .48***

(N=205) .38***

(N=151) .18*

(N=147) ES¹ BDI - .50***

(N=201) .40***

(N=202) .33***

(N=149) .21**

(N=144) ES¹ IIP - .43***

(N=204) .33***

(N=150) .18*

(N=146) Global - .75***

(N=151) .46***

(N=147) GAS Pat. - .56***

(N=131) Anmerkungen. Brief Symptom Inventory (BSI), Beck-Depressions-Inventar (BDI), Inventar Interpersonaler

Probleme (IIP), Effektstärken (ES), Bochumer Veränderungsbogen-2000 (BVB-2000), Globalurteil der

Zufriedenheit mit dem Therapieergebnis (Global), Goal Attainment Scaling (GAS) von Patient (Pat.) und

Therapeut (Th.).

¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä

*** p<.001, ** p<.01, * p<.05

150

Tabelle 4

Explorative Faktorenanalyse (Hauptkomponentenanalyse, Varimax Rotation): Ladungen der

Therapieerfolgswerte in der Behandlungsgruppe (BG) >.30

Komponente

1 2 GAS Pat. .87 Global .83 .31 BVB-2000 .79 .33 GAS Th. .74 ES BDI¹ .81 ES IIP¹ .80 ES BSI¹ .74 Varianzaufklärung Eigenwert (vor Rotation)

52.7% 3.69

17.3% 1.21

Varianzaufklärung Eigenwert (nach Rotation)

39.6% 2.77

30.4% 2.13

Anmerkungen. Brief Symptom Inventory (BSI), Beck-Depressions-Inventar (BDI), Inventar Interpersonaler

Probleme (IIP), Effektstärken (ES), Bochumer Veränderungsbogen-2000 (BVB-2000), Globalurteil der

Zufriedenheit mit dem Therapieergebnis (Global), Goal Attainment Scaling (GAS) von Patient (Pat.) und

Therapeut (Th.).

¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä

151

Tabelle 5

Zusammenhänge (Pearson) der Therapieerfolgswerte mit den Statusmessungen (Prä, Post)

der Symptomatik in der Behandlungsgruppe (BG)

BSI

Prä BDI Prä

IIP Prä

BSI Post

BDI Post

IIP Post

BVB- 2000

.01 N=205

-.02 N=203

-.08 N=205

-.59*** N=205

-.59*** N=202

-.43*** N=204

Global

.65 N=205

.02 N=203

-.05 N=205

-.53*** N=205

-.55*** N=202

-.40*** N=204

GAS Pat

-.09 N=151

-.09 N=149

-.12 N=151

-.53*** N=151

-.56*** N=149

-.36*** N=150

GAS Th

-.08 N=147

-.02 N=145

-.08 N=147

-.28*** N=147

-.30*** N=144

-.22*** N=146

ES BSI

.66*** N=205

.28*** N=203

.13 N=205

-.52*** N=205

-.43*** N=202

-.29*** N=204

ES BDI

.39*** N=202

.75*** N=202

.34*** N=202

-.28*** N=202

-.38*** N=202

-.13 N=201

ES IIP

.09 N=204

.22** N=202

.27*** N=204

-.51*** N=204

-.39*** N=201

-.60*** N=204

Anmerkungen. Statistisch bedeutsame Zusammenhänge sind hervorgehoben. Brief Symptom Inventory (BSI),

Beck-Depressions-Inventar (BDI), Inventar Interpersonaler Probleme (IIP), Effektstärken (ES), Bochumer

Veränderungsbogen-2000 (BVB-2000), Globalurteil der Zufriedenheit mit dem Therapieergebnis (Global),

Goal Attainment Scaling (GAS) von Patient (Pat.) und Therapeut (Th.).

¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä

*** p<.001, ** p<.01, * p<.05

152

Tabe

lle 6

Häu

figke

iten

(N, %

) der

auf

Bas

is d

es k

ritis

chen

Ver

ände

rung

swer

tes (

p<.0

5) d

es B

ochu

mer

Ver

ände

rung

sbog

en (B

VB-2

000)

in d

er

Beha

ndlu

ngsg

rupp

e (B

G) a

ls g

ebes

sert

und

unv

erän

dert

kla

ssifi

zier

ten

Patie

nten

mit

ihre

n je

wei

ligen

gem

ittel

ten

Ther

apie

erfo

lgsw

erte

n (M

(SD

)) so

wie

Erg

ebni

sse

der e

infa

ktor

ielle

n Va

rian

zana

lyse

der

Gru

ppen

hin

sich

tlich

ihre

r The

rapi

eerf

olgs

wer

te

Kla

ssifi

katio

n na

ch B

VB-

2000

N

(%

) G

loba

l G

AS

Pat.

GA

S Th

.

ES¹

BSI

ES¹

BDI

ES¹

IIP

BVB-

2000

ve

rbes

sert

17

6 (8

5,9%

)

5.01

(.7

9)

N=1

76

4.91

(.9

0)

N=1

32

4.58

(1

.20)

N

=126

1.65

(1

.08)

N

=176

1.42

(1

.00)

N

=174

1.19

(.9

9)

N=1

75

BVB-

2000

un

verä

nder

t 27

(1

3.2%

)

3.57

(.9

9)

N=2

7

3.26

(.9

3)

N=1

8

3.49

(1

.48)

N

=20

.72

(1.1

) N

=27

.70

(.90)

N

=26

.49

(.79)

N

=27

Ges

amt

203

(100

%)

4.82

(.9

5)

N=2

03

4.70

(1

.05)

N

=150

4.43

(1

.29)

N

=146

1.53

(1

.12)

N

=203

1.32

(1

.01)

N

=200

1.09

(.9

9)

N=2

02

V

aria

nzan

alys

F(1,

202)

=7

2.25

***

F(1,

149)

=5

2.66

***

F(1,

145)

=1

3.34

***

F(1,

202)

=1

7.67

***

F(1,

199)

=1

1.93

**

F(1,

201)

=1

2.38

**

Anm

erku

ngen

. N=2

als

vers

chle

chte

rt kl

assif

izie

rte P

erso

nen

wur

den

nich

t in

die

Ana

lyse

mit

einb

ezog

en. B

rief S

ympt

om In

vent

ory

(BSI

), Be

ck-D

epre

ssio

ns-In

vent

ar

(BD

I), In

vent

ar In

terp

erso

nale

r Pro

blem

e (II

P), E

ffekt

stärk

en (E

S), B

ochu

mer

Ver

ände

rung

sbog

en-2

000

(BV

B-20

00),

Glo

balu

rteil

der Z

ufrie

denh

eit m

it de

m

Ther

apie

erge

bnis

(Glo

bal),

Goa

l Atta

inm

ent S

calin

g (G

AS)

von

Pat

ient

(Pat

.) un

d Th

erap

eut (

Th.).

153

¹Effe

ktstä

rke

(ES)

ber

echn

et a

ls M

prä-

Mpo

st/SD

prä

²ein

fakt

orie

lle V

aria

nzan

alys

e de

r bei

den

auf B

asis

des k

ritisc

hen

Ver

ände

rung

swer

tes d

es B

VB-

2000

als

gebe

sser

t und

unv

erän

dert

klas

sifiz

ierte

n Pa

tient

engr

uppe

n

hins

icht

lich

ihre

r The

rapi

eerfo

lgsw

erte

.

*p<.

05, *

*p<.

01, *

**p<

.001

154

8. Vertiefende Diskussion von Einzelaspekten der Studien

In den folgenden Kapiteln werden zunächst diskussionswürdige Punkte der drei

Studien vertieft, die so in der Breite in den Publikationen nicht verhandelt werden konnten.

Im Anschluss wird die Bedeutung subjektiver Urteilsprozesse im Rahmen einer

messtheoretischen Konzeption vorgestellt, die in der Psychotherapieevaluation bis dato

wenig Beachtung erfuhr. Zuletzt werden die Ergebnisse der vorliegenden Studien innerhalb

dieser Theorie noch einmal reinterpretiert und ein Ausblick auf mögliche zukünftige

Forschung gegeben.

8.1 Studie 1

Die verbreitete Vermutung systematischer Verzerrungen bei der Retrospektion ist

vermutlich ein Grund für die Skepsis gegenüber retrospektiven Therapieerfolgsmaßen wie

z.B. quasi-indirekten Veränderungsmessungen in der Evaluation von Psychotherapie (im

Überblick Hill & Lambert, 2004; vgl. auch Hill & Betz, 2005). Quasi-indirekte und direkte

Veränderungsmessungen werden daher in der Psychotherapieevaluation deutlich seltener

verwendet als indirekte Veränderungsmessungen (im Überblick Stieglitz, 2001). Studie 1

untersuchte wie zuverlässig retrospektive Einschätzungen der Symptomatik im Rahmen

Psychotherapie sind. Dabei wurde geprüft, ob sie einer systematischen Verzerrung in

Abhängigkeit vom Therapieerfolg unterliegen (illusion of positive change; Safer & Keuler,

2002) und wie valide quasi-indirekte Veränderungsmessungen auf Basis der retrospektiven

Statusmessung (Retro) sind. Die Ergebnisse replizieren den Befund, dass retrospektive

Symptomerhebungen „highly reliable, though not necessarily accurate“ (Safer & Keuler,

2002, S. 173) sind (ebenso Schmidt et al., 200; Stieglitz, 1990). Eine systematische

155

Beeinflussung der retrospektiven Symptomschätzungen durch den Therapieerfolg (vgl. Safer

& Keuler, 2002) ließ sich nicht zeigen. Ebenso wenig konnte in Bezug auf die konvergente

Validität von retrospektiven Retro-Post Effektstärken (Mretro-Mpost/SDretro) und regulären

Prä-Post Effektstärken (Mprä-Mpost/SDprä) mit anderen Erfolgswerten ein bedeutsamer

Unterschied konstatiert werden. In Bezug auf die Überschätzung des Therapieerfolgs durch

quasi-indirekte Veränderungsmessungen konnte lediglich für den BSI, nicht aber für den

BDI eine höhere retrospektive Effektstärke gezeigt werden. Dies bestätigt das Resümee der

Ergebnisse von Stieglitz (1990), der in den quasi-indirekten Veränderungsmaßen ein

„sensitives Maß zur Abbildung subjektiv erlebter Veränderung“ sieht (S. 149).

Einschränkungen der Studie ergeben sich vor allem aus dem Fehlen einer unbehandelten

Kontrollgruppe und den systematischen (und nicht zufälligen) Auswahlkriterien der

Stichprobe. Insgesamt wäre es somit wünschenswert, in Folgestudien ein experimentelles

Design zu realisieren. Unter Rückgriff auf eine Kontrollgruppe könnte so auch die plausible

Annahme einer implicit theory of change (vgl. Norman, 2003) - also die mögliche Tendenz

Veränderungen (bzw. eine retrospektive Überschätzung der Prä-Werte) nur deshalb zu

konstruieren weil eine Intervention stattfand - geprüft werden. Außerdem wäre es

wünschenswert, die konvergente Validität retrospektiver quasi-indirekter

Veränderungsmessung mit Fremdurteilen oder katamnestischen Daten zu untersuchen (vgl.

Stieglitz, 1990).

Wie bereits in der Diskussion der Studie 1 dargestellt, bietet die Identifikation

möglicher anderer Faktoren, die eine retrospektive Über- oder Unterschätzungen der

Symptomatik beeinflussen könnten, ein vielversprechendes Forschungsfeld. Hierbei könnte

wie bereits erwähnt der Iteminhalt oder die Diagnose als mögliche Einflussfaktoren näher

fokussiert werden. Außerhalb der klinischen Forschung existieren zahlreiche Studien, denen

weitere wertvolle Hinweise auf mögliche Einflussfaktoren entnommen werden können (im

156

Überblick Hill & Betz, 2005; vgl. auch Levine et al., 2006; Taylor et al., 2009). Eine Reihe

von Studien mit Kontrollgruppendesigns konnte so zeigen, dass sich eine retrospektive

Überschätzung nahezu ausschließlich in den Experimentalgruppen ereignete (Lam & Bengo,

2003; Safer & Keuler, 2002; Sprangers, 1989). Diejenigen, die Veränderungen erwarteten,

rekonstruierten diese somit auch, so der Tenor der Autoren (vgl. auch Ross, 1989). Um

positiv konnotierte Veränderung wahrzunehmen, könnten Überschätzungen auch dazu

dienen, ein exaggerated improvement (Ross, 1989, vgl. auch Conway & Ross, 1984;

McFarland & Alvaro, 2000; Taylor et al., 2009) zu konstruieren. Ebenso wird auch die

Vermutung von effort justification, social desirebility oder impression management

angestellt (im Überblick Hill & Betz, 2005). Andere Autoren verweisen auf eine generelle

Tendenz von Probanden Wahrnehmungen von personal growth (Wilson & Ross, 2001) oder

sozialer Überlegenheit (Fisher & Katz, 2000; Wilson & Ross, 2001) durch retrospektive

Überschätzungen zu schaffen. Die Überschätzung von Angst kann so z.B. als nachträglicher

heroism im Sinne einer Übersteigerung eigener Copingfähigkeiten interpretiert werden

(Keuler & Safer, 1998; vgl. auch Taylor, 1991; Taylor & Brown, 1988; Safer & Keuler,

2002). In Bezug auf kognitive Ursachen der Überschätzung kann neben einfachen

Gedächtnisfehlern (im Überblick Schwartz & Rapkin, 2004) auch die Tendenz zu

holistischen Antworten als Funktion steigender kognitiver Anforderungen angeführt werden

(Lam & Bengo, 2003). Zudem könnten Ankerprozesse wie die Bevorzugung des aktuellen

Zustandes als evaluative Basis des retrospektiven Rückblicks Überschätzung provozieren

(Levine, 1997; Ross, 1989; Safer et. al, 2002; Tversky & Kahneman, 1974). Eine Reihe von

Autoren vermuten, dass affektive Zustände per se in ihrer Intensität sowohl retrospektiv als

auch prospektiv überschätzt werden (im Überblick Thomas & Diener, 1990; Wilson &

Gilbert, 2003). Studien in diese Richtung existieren zu einer ganzen Reihe verschiedener

Situationen und Affekte (vgl. u.v.a. Beese & Morley, 1993; Devito & Kubis, 1983; Karney

157

& Coombs, 2000; Keuler & Safer, 1998; Shiffman, Hufford, Hickcox, Paty, Gnys & Kassel,

1997). Die aktuelle Stimmung könnte dabei zusätzlich im Sinne eines mood congruence bias

diese Tendenz noch verstärken (Bower, 1981; Rusting, 1998). Ebenso könnten übersituativ

angelegte Persönlichkeitsvariablen die retrospektiven Einschätzungen von Emotionen

beeinflussen. So scheint Neurotizismus die Tendenz zur Überschätzung zu erhöhen

(Feldmann-Barrett, 1997; Safer und Keuler, 2002), während ego strength und hoher

Selbstwert (Pietromonaco & Feldman Barrett, 1997; Rusting, 1998; Safer & Keuler, 2002),

die Neigung zur Selbsttäuschung (Cutler, Larsen & Bunce, 1996) und Selbsterhöhung

(Paulhus, 1991) als Variablen mit einem umgekehrten Verhältnis zur Überschätzung

identifiziert werden konnten. Die Überschätzung negativer emotionaler Episoden kann

darüber hinaus insgesamt als Erhalt eines konsistenten, wenn auch negativen Selbstbildes

funktional gedeutet werden (Swann, 1990). Genauso wie umgekehrt die Unterschätzung zur

Aufrechterhaltung einer positiven Selbstillusion beitragen könnte (Taylor & Brown, 1988).

Die Konstituierung von Persönlichkeit kann schließlich als Inferenz aus der summierenden

Betrachtung eigener Gedanken und Gefühle betrachtet werden. Genauso wie die

summierende Betrachtung eigener Gedanken und Gefühle von der bereits konstituierten

Persönlichkeit beeinflusst wird (Andersen, Lazowski & Donisi, 1986; Feldman-Barrett &

Pietromonaco, 1997; Kulik & Mahler, 1986). Studien zu einem Einfluss des Iteminhalts auf

eine Überschätzung sind uneinheitlich (vgl. Schwartz & Rapkin, 2004). Hill und Betz (2005)

konnten zeigen, dass eher Items mit Inhalten überschätzt wurden, die Zielbereiche eines

Trainings adressierten. Items, die Bereiche außerhalb der gezielten Intervention berührten,

zeigten bei Hill und Betz (2005) keine bedeutsamen Fehleinschätzungen. Die Autoren

erklären dieses Phänomen damit, dass von den Probanden hier vermutlich auch keine

Änderung erwartet wurde. Viele der angeführten Studien weisen allerdings methodische

Einschränkungen auf (im Überblick Hill & Betz, 2005; Safer et. al, 2002). So wird die

158

Überschätzung oft als Differenzwert Retro-Post operationalisiert und die Untersuchung von

Zusammenhängen mit den berichteten Variablen über einfache Korrelationen bestimmt. Die

Formen des Einflusses verschiedener Faktoren und ihrer Kombination auf die Retrospektion

sind aber vermutlich komplexer interdependenter Gestalt und lassen multivariate Verfahren

in Folgestudien wünschenswert erscheinen (vgl. hierzu Safer et al., 2002).

Eine weitere Herausforderung im Zusammenhang mit dem retrospektiven Vortest

betrifft ein anderes Problem, dass bis zu einem epistemologischen Grabenkampf überspitzt

werden kann (vgl. Norman, 2003). Die Problematik kann auf die Frage verdichtet werden,

wie die Abweichung von Retro- und Prä-Werten aufzufassen ist: Überschätzung oder valide

Korrektur (vgl. Kapitel 9)? Unabhängig von dieser Frage kann aber dennoch eine

vergleichende Untersuchung der Validität von quasi-indirekten und indirekten

Veränderungsmessungen insbesondere in Bezug auf unterschiedliche Evaluationsziele

gefordert werden (vgl. Hill & Betz, 2005).

8.2 Studie 2

Die faktorenanalytischen Studien von Michalak und Kollegen (2003) sowie Flückiger

und Kollegen (2007) implizieren mit der Benennung der Faktoren, dass die Zeitperspektive

(vgl. Baumann, 1982) ein entscheidendes Unterscheidungsmerkmal verschiedener

Erfolgswerte darstellt. Erfolgswerte lassen sich demnach danach unterscheiden, ob sie

retrospektiv erhoben worden sind oder Statusmessungen zu Differenzwerten verrechnen.

Studie 2 konnte zeigen, dass die Zeitperspektive nicht das entscheidende Kriterium zur

Unterscheidung verschiedener Erfolgswerte darstellt. Zudem stellen die Ergebnisse die

Annahme in Frage, dass bei den unter retrospektive Erfolgsbeurteilungen gefassten

Verfahren (direkte Veränderungsmessungen, Zufriedenheitsurteile und

159

Zielerreichungsskalierungen) eine retrospektive Rückschau von den Patienten betrieben

wird. Die Divergenz der verschiedenen Erfolgswerte wurde zuallererst über statistische

Besonderheiten von Differenzwerten erklärt. Ergänzend dazu wurden zwei unterschiedliche

Perspektiven auf den Therapieerfolg unterschieden. Die Perspektive der Veränderung folgt

einer statistischen Logik, die den intersubjektiven Vergleich ermöglichen soll. Die

mathematische Operation der Differenzwertbildung (Prä-Post) ist als kognitive Operation

allerdings aufwändig und wird subjektiv vermutlich systematisch umgangen (vgl. Lam &

Bengo, 2003). Zudem sind in einer subjektiven Perspektive Informationen über das Ausmaß

der initialen Symptomatik und deren Veränderung wenig bedeutsam (vgl. Howard, Lueger &

Kolden, 1997). Das Ziel von Patienten ist wohl weniger die Veränderung an sich, als

vielmehr die Wiederherstellung des eigenen Wohlbefindens (vgl. Howard et al., 1997).

Einschränkungen ergeben sich bei Studie 2 vor allem aus einer insgesamt geringen Zahl an

Patienten (N = 59) und den gewählten Ein- und Ausschlusskriterien. Dies hat zum einen

Folgen für die statistische power und damit die Güte der geschätzten Faktorenstruktur, aber

auch für die Generalisierbarkeit der Ergebnisse auf andere Populationen. Die Replikation der

Ergebnisse an größeren Stichproben wäre somit insgesamt wünschenswert.

In Bezug auf die Faktorenstruktur in Studie 2 können anhand der Ergebnisse der

Studie von Flückiger und Kollegen (2007) einige kritische Fragen gestellt werden. Die

Autoren leiten in Anbetracht ihrer Ergebnisse zunächst eine ungewöhnliche

Schlussfolgerung ab: „Therapeutic outcome seems to be unidmensional, and at the same

time three strongly overlapping method factors can be differentiated” (S. 362). Die

überlappenden Methodenfaktoren werden dabei als pre-post measures (PPM), retrospective

measures global (RMglobal) mit Ladungen von Zielerreichungsskalierungen und

Zufriedenheitsurteilen im Selbst- und Fremdurteil sowie retrospective measures scales

160

(RMscale) mit Ladungen direkter Veränderungsmessungen bezeichnet. Im Anschluss

werden mögliche Ursachen der Divergenzen und Konvergenzen der Erfolgsmaße angeführt:

High overlaps exist between both RMs and factors, which are constituted through

sacles. Somewhat lower ist he correlation between the direct global assessment and

the PPMs. RMs pose their questions directly related to therapeutic changes the PPMs

in contrast, do not directly ask about the therapy. In both factors, which are built by

scales, different content specific areas are summed up. With global RMs, certain

aspects are broadly generalized and subjectively evaluated.” (S. 362)

Weiterhin wird die niedrigere Ladung der Fremdeinschätzung der Zufriedenheit mit

dem Therapieergebnis auf den Faktor RMglobal von den Autoren mit den unterschiedlichen

Evaluationen von Selbst- und Fremdeinschätzung erklärt: „The lower factor loading . . .

makes clear the differences between the evaluations of the therapists and the patients“ (S.

362). Später wird eine Abhängigkeit der Dimensionalität vom Behandlungsrational und

damit der Breite des Erfolges postuliert: „One can expect that with a broadly conceptualized

rationale there will be changes in a number of different areas. From this perspective,

unidimensional therapy outcome is a charateristic of a broad treatment success” (S. 363).

Konvergenzen und Divergenzen der Erfolgswerte können somit auf die Kombination

verschiedener Ursachen zurückgeführt werden: die Beteiligung von Retrospektion am

Urteilsprozess, das Abstraktionsniveau der befragten Inhalte (Skala versus

Globaleinschätzung), die direkte Adressierung des Therapieerfolgs, Unterschiede in den

Iteminhalten, verschiedene befragte Quellen sowie die Konzeption des Therapierationals

bzw. die Breite des Therapieerfolgs in der Stichprobe. In Bezug auf die Vermutung, dass die

Beteiligung retrospektiver Urteilsprozesse Divergenzen der Erfolgswerte provoziert, bietet

Studie 2 aufgrund des Einbezugs des retrospektiven Vortestes und der quasi-indirekten

161

Veränderungsmessungen eine zwingendere Argumentationsbasis als die Studie von

Flückiger und Kollegen (2007). Die Zeitperspektive scheint in Studie 2 eher

vernachlässigbar für die Divergenz der Erfolgswerte. Die Hypothese dass Konvergenzen und

Divergenzen vom Abstraktionsgrad der befragten Inhalte abhängen, lässt sich in Studie 2

nicht zeigen. Hier laden Maße der Zielerreichung (RMs) auf einen Faktor unabhängig vom

Abstraktionsgrad (global, scales) der in den Items befragten Inhalte. Dennoch kann vermutet

werden, dass anspruchsvolle kognitive Operationen dazu verleiten, sie mit holistischen

Globalurteilen zu umgehen. Lam und Bengo (2003) vermuten dies z.B. für den aufwändigen

Urteilsprozess, den die direkte Veränderungsmessung fordert. Allerdings sollte eine

holistische Verarbeitung eher zur Konvergenz von RMglobal und RMscales beitragen.

Betrachtet man die Faktorenstruktur von Studie 2 könnte auch geschlussfolgert werden, dass

der Faktor Zielerreichung insgesamt Erfolgswerte umfasst, die direkt für den Patienten

ersichtlich den Therapieerfolg abbilden, während der Faktor Veränderung dies nicht tut.

Warum also nicht eine Unterscheidung der Faktoren in direkte und indirekte

Erfolgsmessung? Zum einen wäre diese Bezeichnung konkurrent mit der etablierten

Bezeichnung direkte und indirekte Veränderungsmessung (Bereiter, 1963) und könnte zu

Verwechslungen führen. Schwerwiegender erscheint allerdings, dass diese Bezeichnung

nichts Konkretes über die zugrundeliegenden Mechanismen aussagt. Warum divergiert die

direkte Einschätzung des Therapieerfolgs von der indirekten Erhebung? Hat dies rein

statistische Ursachen, sind soziale Erwünschtheit oder vielleicht Rechtfertigungseffekte

beteiligt? Die Benennung der Faktoren als Veränderung und Zielerreichung führt die

Divergenz der Erfolgswerte auf die unterschiedliche mathematische oder subjektive

Referenz zurück, die zu den Post-Werten herangezogen wird und beinhaltet somit eine

mögliche Erklärung.

162

Flückiger und Kollegen (2007) nennen darüber hinaus noch inhaltliche Unterschiede

als mögliche Ursache für Konvergenzen und Divergenzen der Erfolgswerte. In der

überwiegenden Zahl der Studien lassen sich allerdings Methodenfaktoren zeigen, so dass

inhaltliche Unterschiede vernachlässigbar erscheinen (im Überblick Hill & Lambert, 2004).

Allerdings halten Schmidt und Kollegen (2003) in ihrer Studie inhaltliche Aspekte von

direkter, quasi-indirekter und indirekter Veränderungsmessung konstant, indem sie die

gleichen Iteminhalte in diesen drei Formen der Veränderungsmessung erheben und zeigen

dabei tatsächlich eine eindimensionale Struktur des Therapieerfolgs. Einschränkend ist

allerdings einzuwenden, dass keine Verfahren der Zielerreichung in der Faktorenanalyse

herangezogen wurden. Das Ergebnis von Schmidt und Kollegen (2003) erscheint somit auch

in Anbetracht der Ergebnisse der Studie 2 erwartbar, da quasi-indirekte und indirekte

Veränderungsmessungen Hauptladungen auf den Faktor Veränderung zeigen und die direkte

Veränderungsmessung ebenfalls substantielle Ladungen auf diesen Faktor aufweist.

Dennoch erscheint der Ansatz, die Konvergenz der Messansätze unter Konstanthaltung der

Inhalte zu untersuchen vielversprechend und sollte unbedingt weiter verfolgt werden. Die

Vermutung, dass verschiedene Quellen (Patient, Therapeut, Angehöriger usw.)

Methodenfaktoren provozieren, wurde bereits in der Einleitung als ein häufig replizierter

Befund dargestellt. Die Faktorenstruktur in Studie 2 bildet dies zwar so nicht ab, was aber

letztlich darauf zurückzuführen sein kann, dass lediglich eine Fremdbeurteilung in Studie 2

Verwendung fand. Wie Flückiger und Kollegen (2007) vermuten, könnte eine

unterschiedliche Gewichtung der Anzahl an Selbst- und Fremdurteilen die Faktorenstruktur

deutlich verändern. Es erscheint aber darüber hinaus interessant, die Unterschiede in der

Perspektive der Beteiligten zu ergründen, die zu der Divergenz führen könnten.

Seidenstücker und Baumann (1987) gehen davon aus, dass Fremdurteile eher die

wahrgenommene Differenz zwischen gegenwärtigem und vergangenem beobachtbaren

163

Verhalten als Bezugspunkt fokussieren, während für Patienten die zentrale Perspektive der

Unterschied von gegenwärtigem und vergangenem Erleben zu sein scheint. Die

Ausführungen in Bezug auf die basalen Perspektiven Veränderung und Zielerreichung lassen

beides allerdings eher unwahrscheinlich erscheinen. Die Veränderungsperspektive ist

vermutlich für alle Subjekte kognitiv zu aufwändig und wird systematisch umgangen (vgl.

Lam & Bengo, 2003). Denkbar ist viel eher, dass verschiedene Urteiler im Rahmen einer

dominanten Perspektive der Zielerreichung unterschiedliche Ideale bzw. Normvorstellungen

als Maßstab heranziehen, um sie mit dem gegebenen Zustand zu vergleichen. Diese Frage

lässt sich aber letztlich nur über die direkte Untersuchung der jeweiligen subjektiven

Urteilsprozesse untersuchen (vgl. Kapitel 9). Flückiger und Kollegen (2007) führen in Bezug

auf die Breite des Therapieerfolgs aus, dass bei einem breit konstruierten Therapierational

auch Veränderungen auf verschiedenen Ebenen wie individuelle Zielerreichung,

Wohlbefinden und Symptomreduktion zu erwarten wären. Sie lassen jedoch offen, wie dies

genau geschehen soll. Die Autoren führen an, dass in einer Studie von Grawe, Caspar und

Ambühl (1990) die interaktionelle Verhaltenstherapie als integratives Verfahren eine höhere

Konvergenz der Erfolgswerte aufwies als bei einer klassischen kognitiv-

verhaltenstherapeutischen oder klientenzentrierten Therapie. Es lässt sich nur mutmaßen,

dass Flückiger und Kollegen (2007) meinen, dass eine breitere Konzeption der

Therapieinhalte auch Veränderungen auf Instrumenten verschiedener Inhalte abbildet. Die

häufige Replikation von Methodenfaktoren widerspricht allerdings einer derartigen

inhaltlichen Interpretation. Die beiden basalen Perspektiven Veränderung versus

Zielerreichung zeigen ebenfalls methodische Unterschiede der Verfahren auf, die

Konvergenz der beiden Ansätze kann dabei vermutlich nur bedingt durch inhaltliche

Konzeptionen des Therapierationals beeinflusst werden. Dennoch lässt sich konstruieren,

wie das Ausmaß des Therapieerfolgs auf die Faktorenstruktur Einfluss nehmen könnte.

164

Subjektive Ziele (Wohlbefinden) können erreicht werden, ohne dass große Veränderungen

stattfanden und umgekehrt. Eine Konstellation in der die beiden Perspektiven in

Abhängigkeit vom Therapieerfolg konvergieren würden, wäre vermutlich nur über gezielte

Stichprobenselektion zu erreichen. Alle Patienten die sich nur wenig verändert haben, aber

entlang ihrer subjektiven Standards dennoch damit zufrieden wären, sowie alle Patienten die

sich stark veränderten, aber aufgrund ihrer subjektiven Standards damit unzufrieden sein

könnten, müssten systematisch aus der Stichprobe entfernt werden. Theoretisch wäre dies

am ehesten im Konzept der klinisch bedeutsamen Änderung gegeben (Jacobson et al., 1984;

Jacobson & Truax, 1991). Die Personen sollten wie dort gefordert eine statistisch

bedeutsame Veränderung erfahren und während der Therapie einen Populationswechsel von

der gestörten zur ungestörten Population durchlaufen. Dies würde zugleich hohe

Veränderungswerte und aufgrund der geringen Restsymptomatik auch eine gewisse

Wahrscheinlichkeit dafür beinhalten, dass die Patienten trotz divergierender subjektiver

Ideale dennoch relativ einhellig zufrieden sein sollten.

Insgesamt scheint die Unterscheidung der beiden Perspektiven Veränderung und

Zielerreichung kohärenter und ökonomischer als alternative Erklärungen. Zudem verweisen

die Ergebnisse aus Studie drei abermals auf diese beiden basalen Perspektiven auf den

Therapieerfolg (vgl. ähnlich Michalak et al., 2003).

8.3 Studie 3

Studie 3 stellte den Bochumer Veränderungsbogen-2000 (BVB-2000) als Instrument

zur direkten Veränderungsmessung vor. Der BVB-2000 wurde hinsichtlich seiner

inhaltlichen Struktur und Gütekriterien re-analysiert. Fokussiert wurde dabei auf Fragen der

konvergenten Validität. Auf Basis einer Wartekontrollgruppe wurde ein kritischer

165

Veränderungswert (vgl. Zielke & Kopf-Mehnert, 1978) für den BVB-2000 berechnet, der

den Therapieerfolg auch im Einzelfall bestimmbar machen sollte und den BVB-2000 für die

Verwendung in der Routineversorgung attraktiv zu machen. Adressiert wurden zudem

Fragen eines möglichen Bezugssystemfehlers sowie einer möglichen Überschätzung des

Therapieerfolgs durch die direkte Veränderungsmessung. Die Ergebnisse in punkto

Reliabilität und konvergenter Validität weisen den BVB-2000 dabei als reliables und valides

Instrument der direkten Veränderungsmessung aus. Die interne Konsistenz (Cronbachs

alpha) des BVB-2000 ist mit α > .95 (26 Items) in beiden Stichproben sehr hoch. Zufällige

Schwankungen im Erleben und Verhalten lassen sich zuverlässig von Veränderungen im

Rahmen einer Psychotherapie differenzieren. Es lassen sich statistisch bedeutsame

Zusammenhänge des BVB-2000 mit allen herangezogenen Therapieerfolgsmaßen bei

geteilten Varianzen von 14% bis 53% zeigen. Der BVB-2000 lässt sich in der EFA

(Hauptkomponentenanalyse) verschiedener Erfolgswerte eher den Maßen der Zielerreichung

zuordnen. Insgesamt bildet die Faktorenstruktur die bereits in Studie 2 gezeigte

zweifaktorielle Struktur mit den beiden basalen Perspektiven Veränderung und

Zielerreichung ab. Die ermittelten kritischen Veränderungswerte ermöglichen eine valide

Unterscheidung erfolgreicher und weniger erfolgreicher Therapien.

Einschränkungen der externen Validität der Studienergebnisse ergeben sich vor allem

aus der Stichprobenzusammensetzung. Kritisch können dabei vor allem die Ein- und

Ausschlusskriterien hinterfragt werden. In Studie 3 wurde die Empfehlung von Hiller,

Bleichhardt und Schindler (2009) aufgegriffen, die vorschlagen, in der Evaluation von

Psychotherapien unter Routinebedingungen Patienten mit einem T < 63 im Global Severity

Index (GSI) des BSI auszuschließen: „In diesen Fällen kann und sollte der GSI auch nicht

als Outcomemaß verwendet werden, da keine dazugehörige Behandlungshypothese zu

begründen ist (im Kontext von Krankenbehandlungen ist es kein Ziel, einen nicht-

166

pathologischen Merkmalsbereich zu verbessern)“ (S. 14). Ein niedriger Wert des GSI

bedeutet aber nicht zwangsläufig, dass keine Behandlungsbedürftigkeit besteht. Hiller und

Kollegen (2009) zeigen, dass vor allem bei umschriebenen Phobien oder Essstörungen ohne

weitere Komorbidität das Ausschlusskriterium (T-Wert des GSI < 63) fälschlicherweise

greife. Als Einschränkung der internen Validität muss vor allem das quasi-experimentellen

Design von Studie 3 angesehen werden. Insgesamt wäre ein experimentelles Design

wünschenswert gewesen wie es zum Beispiel Krampen (2010) realisierte. Sollen allerdings,

wie im vorliegenden Fall repräsentative Daten für die Routineversorgung generiert werden,

die einen vollen Therapiedurchlauf umfassen und soll gleichzeitig mit einer Kontrollgruppe

gearbeitet werden, erscheint das quasi-experimentelle Wartekontrollgruppendesign in Studie

3 als angemessene Kompromisslösung. Der Rückblickszeitraum der WKG von drei Monaten

entspricht dabei ungefähr den Wartezeiten die Hiller und Kollegen (2009) für eine

vergleichbare Institution berichten. Insgesamt fehlen in Studie 3 aber Hinweise auf die

diskriminante Validität des BVB-2000 vor allem in Bezug auf mögliche Antworttendenzen

(vgl. hierzu Krampen, 2010). Studien, die dezidiert subjektive Urteilsprozesse bei der

direkten Veränderungsmessung erheben, sind daher unbedingt zu fordern (vgl. Kapitel 9).

Bei der direkten Veränderungsmessung hält sich beständig die Vermutung, dass die

Beteiligung möglicherweise verzerrender subjektiver Beurteilungsprozesse ihre Validität

einschränkt. In Frage gestellt wird, ob Patienten bei der direkten Veränderungsmessung

überhaupt einen Rückblick auf den Ausgangszustand vornehmen, um eine Veränderung

(Prä-Post) abzuschätzen (vgl. Kastner & Basler, 1997). Oder aber falls sie dies tun, ob sie

sich zuverlässig an das Symptomausmaß zu Therapiebeginn erinnern können (vgl. Baumann,

et al., 1980). Zudem wird eine Überschätzung des Therapieerfolgs vermutet (vgl. Fydrich,

2006; Lam & Bengo, 2003; Reinecker-Hecht & Baumann, 2005). Die Ergebnisse von Studie

1 stellen den Verdacht einer geringen Erinnerungsfähigkeit in Frage. Die Ergebnisse von

167

Studie 3 stellen sowohl den Verdacht eines möglichen Bezugssystemfehlers (vgl. Kastner &

Basler, 1997) als auch der Überschätzung des Therapieerfolgs bei der direkten

Veränderungsmessung kritisch in Frage.

Kastner und Basler (1997) hinterfragen in Anbetracht ihrer Ergebnisse zum

„Fragebogen zur subjektiven Erfolgsbeurteilung der Therapie“ (FSET) kritisch, ob

Veränderungsfragebögen tatsächlich Veränderung messen. Die Autoren stützen diese

Schlussfolgerung auf drei Ergebnisse (a) wenige statistisch abgesicherte Übereinstimmungen

des FSET mit indirekten Veränderungsmaßen (b) wenige statistisch bedeutsame

Zusammenhänge mit den Ausgangswerten (Prä) der Symptomatik (c) nahezu durchgängig

bedeutsame Bezüge zur Restsymptomatik (Post). Studie 3 zeigt demgegenüber durchgängig

statistisch bedeutsame Bezüge des BVB-2000 zu allen herangezogenen Erfolgswerten auch

der indirekten Veränderungsmaße (ebenso Flückiger et al., 2007; Michalak et al., 2003).

Weiterhin ist diskussionswürdig, ob über die Zusammenhänge mit der Restsymptomatik auf

die kognitive Operation der Patienten rückgeschlossen werden kann. In Studie 3 zeigen

sämtliche herangezogenen Erfolgswerte (auch die indirekten Veränderungsmaße) statistisch

bedeutsame negative Bezüge zu den Postwerten. Flückiger und Kollegen (2007) betrachten

dies als Contra-Argument gegen die Argumentation von Kastner und Basler (1997). Der

Zusammenhang von Erfolgswerten mit der Restsymptomatik (Post) zeige lediglich, dass die

Therapien insgesamt erfolgreich waren. Andererseits zeigt der BVB-2000 aber auch in

anderen Studien trotz bedeutsamer Zusammenhänge mit indirekten Veränderungsmaßen

dennoch stets deutlichere Nähe zu Maßen der Zielerreichung (Flückiger et al., 2007;

Michalak et al., 2003). Zielerreichungsmaße implizieren allerdings den kognitiven Abgleich

eines Idealzustandes mit dem aktuellen Befinden (Post) anstelle eines Abgleichs von initialer

Symptomatik (Prä) und Restsymptomatik (Post). Es kann durchaus gemutmaßt werden, dass

die Nähe des BVB-2000 zu diesen Erfolgswerten auf der Ähnlichkeit der vollzogenen

168

kognitiven Operationen beruht (vgl. Studie 2), statt der rein statistischen Erklärung von

Flückiger und Kollegen (2007) zu folgen. Ob bei der direkten Veränderungsmessung aber

tatsächlich ein Bewertungsprozess von den Patienten vollzogen wird, der nicht dem

intendierten Bewertungsprozess entspricht, kann letztlich nur über eine direkte Untersuchung

des Urteilsprozesses adressiert werden. So könnte in zukünftigen Studien mittels Cognitive

Interviewing (Collins, 2003) geprüft werden, ob der intendierte Algorithmus - also die

Bildung eines subjektiven Differenzwertes Prä-Post - und der tatsächlich von den Patienten

vollzogene kognitive Algorithmus übereinstimmen (vgl. unten Kapitel 9).

Die Ergebnisse zum kritsichen Veränderungswert des BVB-2000 weisen auf dessen

Potenz hin erfolgreiche von weniger erfolgreichen zu unterscheiden. Zudem können sie den

Verdacht einer Überschätzung des Therapieerfolgs durch den BVB-2000 relativieren. Als

gebessert klassifizierte Patienten weisen in der einfaktoriellen Varianzanalyse auf allen

Therapieerfolgsmaßen statistisch bedeutsam höhere Werte als unverändert klassifizierte

Patienten auf. Hierbei kann allerdings die Verwendung der kritischen Profildifferenzen

(Lienert, 1961; Lienert & Raatz, 1998) hinterfragt werden. Nachtigall und Suhl (2005)

konnten aber auch noch kürzlich die Vorteile kritischer Profildifferenzen bzw. deren

Umformulierung als Reliable Change Index (RCI; Jacobson & Truax, 1991) gegenüber

verschiedenen Alternativvorschlägen (u.a. Steyer, Hannöver, Telser & Kriebel, 1997)

zeigen. Zu betonen ist allerdings, dass kritische Profildifferenzen (wie auch der RCI)

lediglich eine statistisch bedeutsame Veränderung auf Basis des Standardmessfehlers

definieren. Damit ist weder etwas über das absolute Ausmaß der Veränderung noch ihre

klinische Bedeutsamkeit (vgl. Jacobson & Truax, 1991) ausgesagt. Schmidt und Kollegen

(2003) schlagen daher vor, für die direkte Veränderungsmessung analog zu Prä-Post

Effektstärken (Grawe et al., 1994) ebenfalls Effektstärken anzugeben und definieren diese

als standardisierte Abweichung vom theoretischen Erwartungswert der Nicht-Veränderung:

169

!"$$% = %%+%&'(/0&')

(2)

Auf diese Weise können die Werte der direkten Veränderungsmessung (dVM) mit

den Maßen der indirekten und quasi-indirekten Veränderungsmessungen anschaulich

verglichen werden. Die Vergleichbarkeit der Werte kann aber natürlich dennoch kritisch

hinterfragt werden.

Kastner und Basler (1997) resümieren trotz der von ihnen kritisch bewerteten

Ergebnisse zur Konstruktvalidität des FSET, dass „die teststatistischen Befunde für dessen

weiteren Einsatz in der klinischen Praxis“ (S. 261) sprechen. Diese auf den ersten Blick

paradoxe Schlussfolgerung wird mit der Betonung des subjektiven Blicks auf den

Therapieerfolg und der Ökonomie der direkten Veränderungsmessung begründet, da sie „in

ökonomischer Weise, die subjektive Einschätzung des Therapieerfolgs von Patienten zu

erfassen“ (S.261) erlaubt. Studie 2 identifiziert die Perspektive der Zielerreichung und der

Veränderung als zwei basale Dimensionen des Therapieerfolgs. Patienten möchten sich

vermutlich nicht einfach nur verändern. Sie wünschen, dass es ihnen wieder gut geht. Eine

subjektiv bedeutsame Veränderung wäre demnach eine, die das Ziel Wohlbefinden erreicht.

Das Ziel subjektiven Wohlergehens kann aber mehr oder weniger unabhängig vom

gruppenstatistisch bedeutsamen Ausmaß der Veränderung sein. Direkte und indirekte

Veränderungsmessung ergänzen sich so in ihren Perspektiven auf den Therapieerfolg. Der

BVB-2000 zeigt in der vorliegenden Studie eine heterogene Ladung mit einer Hauptladung

170

auf den Faktor Zielerreichung und einer ebenfalls substantiellen (< .3) aber deutlich

geringeren Ladung auf den Faktor Veränderung. Der BVB-2000 teilt somit Varianz mit

beiden Perspektiven auf den Therapieerfolg (ebenso in Studie 2). Die könnte im Falle des

Einsatz des BVB-2000 als stand alone Lösung (z.B. bei knappen Ressourcen oder fehlenden

Prä Werten) als Vorteil verstanden werden. Andererseits kann dies auch als Verweis auf

einen möglicherweise wenig kohärenten Urteilsprozess der Patienten verstanden werden

(vgl. Kapitel 9).

9. Ausblick

Das übergreifende Anliegen der vorliegenden Arbeit war es, einen Beitrag zur

Aufklärung der Bedingungen zu leisten, die zu Unterschieden in der Darstellung des

Therapieerfolgs in Abhängigkeit von der Operationalisierung führen: „Further research

needs to clarify the various factors that inflate and deflate estimates of change” (Hill &

Lambert, 2004, S. 117). Die Ergebnisse der vorliegenden Studien lassen auf eine einfache

Heuristik schließen Konvergenzen und Divergenzen von verschiedenen Erfolgswerten zu

erklären. Zwei Perspektiven auf den Therapieerfolg - Veränderung und Zielerreichung -

können unterschieden werden, die nur schwer ineinander überführt werden können. Wenn

auch beide Perspektiven sowohl als subjektives Urteil als auch als mathematische Operation

abgebildet werden können, kann vermutet werden, dass die Perspektive der Veränderung

subjektiv eher ungewöhnlich ist. Patienten blicken auf Fragen die den Therapieerfolg direkt

adressieren, vermutlich durch eine Brille, die den Abgleich von gegenwärtigen Empfinden

mit einem Ideal ihres Gesundheitszustandes vergleicht. Verallgemeinert kann die Divergenz

von Urteilsprozessen (intersubjektiv oder intrasubjektiv in der Zeit) die Divergenzen von

bestimmtem Messwerten erklären. Ein vielversprechender messtheoretischer Ansatz aus dem

171

Bereich der Lebensqualitätsforschung integriert subjektive Urteilsprozesse explizit in seine

Überlegungen und kann so auch die Ergebnisse der vorliegenden drei Studien schlüssig

integrieren. Die Richtung zukünftiger Forschung in Bezug auf die Divergenz und

Konvergenz verschiedener Erfolgswerte erhält dadurch einen weiteren Fokus, der die

explizite Untersuchung subjektiver Urteilsprozesse zentriert.

9.1 Subjektive Urteilsprozesse

Menschliche Urteilsprozesse können stets relational zu einem gegebenen

Bezugssystem (Sarris, 1971) gesehen werden. Die Beurteilung eines Reizes ist immer auch

abhängig von gleichzeitig gegebenen Kontextreizen (Canestrari & Trombini, 1975). Norman

(2003) illustriert die Bezugssystemproblematik anhand des Dilemmas, das sich der einfachen

Frage „Wie geht es Ihnen?“ anschließt. Denn, um mit der Antwort „Gut!“ wirklich etwas

anfangen zu können, müsste man unmittelbar nachfragen: „Gut? Im Vergleich zu was?“. So

kann weiter gefragt werden, ob sich die Person bei ihrer Antwort mit einem früheren

Zustand, einem idealen Zustand oder vielleicht dem Zustand eines nahen Bekannten

vergleicht. Fraglich ist somit stets das Bezugssystem, das die Person bei derartigen

relationalen Antworten hinzuzieht, um eine Einschätzung abzugeben. Aber selbst wenn diese

Person zu verschiedenen Zeitpunkten stets dasselbe Bezugssystem - wie zum Beispiel ihre

Idealvorstellung des Gesundheitszustands heranzieht - ist das Dilemma noch nicht gelöst.

Denn Bezugssysteme können im Laufe der Zeit Neukonzeptionen unterliegen. Neben einer

uneinheitlichen Verwendung verschiedener Bezugssysteme zu verschiedenen Zeitpunkten

(idealer Gesundheitszustand, sozialer Vergleich, früherer Gesundheitszustand usw.) können

Neukonzeptionen desselben Bezugssystems im Laufe der Zeit die Vergleichbarkeit von

Aussagen einer Person zu verschiedenen Zeitpunkten oder zwischen verschiedenen Personen

172

erschweren. So kann zum Beispiel die Vorstellung eines idealen Gesundheitszustandes zu

verschiedenen Zeitpunkten unterschiedlich durch den einzelnen Patienten definiert sein. Im

englischsprachigen Raum hat sich für dieses Phänomen der Begriff response shift etabliert:

Response Shift ist das Resultat einer Veränderung des Bedeutungsgehaltes eines

zentralen internen Konzepts . . . aufgrund einer Änderung interner Standards

bezüglich des zu messenden Konzeptes (Skalen-Rekalibrierung) oder des

zugehörigen Wertesystems (etwa die Wichtigkeit einzelner Komponenten) sowie als

Ergebnis einer Neudefinition des Konzeptes des eigenen Gesundheitszustandes zu

Stande kommen kann.“ (Güthlin, 2004, S. 166)

Abbildung 3 zeigt, das Zusammenspiel verschiedener Vorbedingungen,

Katalysatoren und Mechanismen beim Zustandekommen eines response shifts (übernommen

aus Güthlin, 2004; vgl. Sprangers & Schwartz, 1999; Schwartz & Sprangers, 1999).

Abbildung 3

Einordnung von Response Shift in ein Prozessmodell der wahrgenommenen

Lebensqualität (übernommen aus Güthlin, 2004)

173

Im Rahmen der Lebenszufriedenheitsforschung (Quality of Life; QOL) werden die

Konsequenzen variabler Bewertungsmaßstäbe besonders intensiv untersucht und dabei zur

Erklärung einer ganzen Reihe von Phänomenen herangezogen (im Überblick Güthlin, 2004;

Rapkin & Schwartz, 2004; Schwartz & Rapkin, 2004):

• Patienten geben ihre Lebensqualität ähnlich hoch an wie Gesunde (Albrecht

& Devlieger, 1999; Andrykowski et al., 1993; Bach & Tilton, 1994; Breetvelt

& van Dam, 1991; Cassileth, Lusk & Tenaglia, 1982; Groenvold, Fayers,

Sprangers, Bjorner, Klee, Aaronson, Bech & Mouridsen, 1999; Stensman,

1985),

• sie schätzen ihre Lebensqualität häufig höher ein als ihre Angehörigen oder

Behandler (Kagawa-Singer, 1993; Padilla, Mishel & Grant, 1995; Wilson &

Cleary, 1995),

• es zeigen sich häufig Diskrepanzen zwischen objektiven Kriterien von

Gesundheit und subjektiv empfundener Gesundheit (Friedland, Renwick &

McColl, 1996; Slevin, Stubbs, Plant, Wilson, Gregory, Armes & Downer,

1990; Sneeuw, Aaronson, Sprangers, Detmar, Wever & Schornagel, 1997;

Sprangers & Aronson, 1992),

• Patienten halten trotz sich stetig verschlechternder (objektiver) Gesundheit

langfristig ein äquivalentes Niveau von Lebenszufriedenheit aufrecht

(Schwartz, Sprangers, Carey & Reed, 2004).

Unter der Annahme, dass sich response shifts ereignen ist allerdings der Ansatz der

Klassischen Testtheorie in der Veränderungsmessung kritisch zu hinterfragen. Schwartz und

174

Rapkin (2004) stellen dabei die Hypothese auf, dass die Anwendbarkeit der KTT zur

Beurteilung von Messwerten abhängig vom Zielkonstrukt ist. Von einem error of

measurement - also einem Messfehler im Sinne der KTT - kann sinnvoll nur gesprochen

werden, wenn das Zielkonstrukt performance based operationalisiert ist (measures

reflecting the quantity and quality of effort). Die Zeit zu messen wie lange ein Patient

braucht, um eine Treppe hochzugehen, stellt eine derartige Messung auf einer relativ stabilen

Dimensionen dar, die unter Rückgriff auf ein Messkontinuum stabiler Intervalle

vorgenommen wird. Den Patienten zu Fragen, wie oft er Treppen hinaufgeht, kann als eine

perception based measure aufgefasst werden (judgement concerning the occurrence of an

observable phenomenon). Urteile dieser Art können von subjektiven Urteilsprozessen wie

Aufmerksamkeit oder sozialer Erwünschtheit beeinflusst sein, obgleich die Subjektivität des

Urteils dem Zielkonstrukt nicht zwingend inhärent ist. Mit anderen Worten, es existiert eine

richtige Antwort anhand derer das Urteil kriterial geprüft werden könnte. Verschiedene

Beurteiler stimmen bei derartigen perception based Messungen vermutlich noch relativ hoch

überein. Divergenzen verschiedener Urteile (intraindividuell in der Zeit oder

interindividuell) können dann als Folge von response biases (Aufmerksamkeitsprozessen,

sozialer Erwünschtheit usw.) verstanden werden. Fragt man aber schließlich nach der

Schwierigkeit des Treppensteigens, ist die subjektive Perspektive inhärent und die

Richtigkeit des Urteils ist nicht mehr kriterial bestimmbar. Schwartz und Rapkin (2004)

bezeichnen derartige Messungen als evaluation based (measures rating experience as

positive or negative compared with an internal standard). Stets kann unmittelbar gefragt

werden im Vergleich zu was die Person dieses Urteil fällt (vgl. Norman, 2003). Es werden

dabei hoch subjektive Standards zur Urteilsbildung herangezogen. Die klassische Testtheorie

ist laut Autoren somit in erster Linie gültig für performance based measurements, wo die

fundamentale Beziehung von Item und Konstrukt als statisch und unverändert gedacht

175

werden kann und Abweichungen als Fehler aufgefasst werden können. In Bezug auf

evaluation based measurements gerät diese Argumentation allerdings in Schwierigkeiten.

Abbildung 4

Unterscheidung von performance-, perception- and evaluation-based measures

(übernommen aus Schwartz und Rapkin, 2004)

Im Falle von evaluation based measures - wie zum Beispiel der Frage nach der

Lebensqualität - schlagen Schwartz und Rapkin (2004) vor statt von einem invarianten

wahren Wert bei der Messung eines Konstrukts auszugehen, einen contingent true score

anzunehmen. Messungen sollten in diesem Fall stets relativ zum Bewertungsprozess

betrachtet werden, den die Person (Patient, Experte, Angehöriger usw.) zu einem gegebenen

176

Zeitpunkt im Rahmen des hoch subjektiven und komplexen kognitiven Prozesses der

Itembeantwortung vollzieht. Itemantworten werden von den Autoren dabei als kontingent

gegenüber vier Parametern gedacht (vgl. auch Jobe, 2003):

1. individual's frame of reference: {FRt}

2. their strategies for recalling and sampling specific experiences related to these

concerns: Skt

3. their reference groups and standards of comparison used to evaluate these

experiences: Rt

4. and the salience weights they associate with different experiences when arriving at an

overall rating: [Wt]

Jeder der vier Parameter unterliegt dabei Veränderungen in der Zeit t.

Veränderungen betreffen dabei nicht nur den beobachteten Wert Qt sondern den „wahren“

Wert qt selbst. Aber auch wenn alle Bewertungsparameter konstant gehalten werden

könnten, können darüber hinaus immer noch reguläre Quellen von Fehlern e angenommen

werden.

Qt = qt | {FRt},Skt ,Rt , [Wt] + e (3)

Je eher das Zielkonstrukt in den Bereich von evaluation based measurements fällt,

desto schwieriger fällt es divergente Bewertungsmaßstäbe (zwischen Personen oder in der

177

Zeit) als (Mess-)Fehler zu betrachten. Innerhalb dieses Messmodells können so auch

Gütekriterien neu formuliert werden: “In the contingent true score model, psychometric

equivalence does not mean that groups have similar distributions of QOL scores or factor

structures; rather, equivalent measures must elicit similar processes of appraisal from group

to group or time to time” (S. 5). Die Autoren unterscheiden so in Bezug auf die

Konstruktvalidität zwischen zwischen internal und external construct validity. Internal

construct validity bestimmt wie gut es gelingt den intendierten Bewertungsprozess eines

Instruments auch bei den Patienten zu induzieren. Die Bestimmung der internal construct

validity umfasst dabei die explizite Erhebung der von den Patienten herangezogenen

Urteilsprozesse und den anschließenden Vergleich mit den von der Konstruktion her

intendierten Urteilsprozessen. External construct validity bezeichnet die Konvergenz des

Zielkonstrukts mit objektiven Kriterien oder anderen Instrumenten derselben

Konstruktfamilie unter besonderer Beachtung der Konvergenz der Bewertungsprozessse. Bei

Personen, die den intendierten Urteilsprozessen folgen kann die Konvergenz mit Kriterien

oder anderen Konstrukten erwartet werden, die diesen subjektiven Urteilsprozessen

entsprechen. Folgen Personen anderen als den intendierten Urteilsprozessen kann die

Messung andererseits nur valide in Bezug auf Kriterien oder andere Konstrukte gedacht

werden, die diesen - wohlgemerkt von der Konstruktionsintention abweichenden -

Urteilsprozessen inhaltlich entsprechen. Während also bei der Untersuchung der internal

construct validity die Urteilsprozesse als abhängige Variable gedacht werden, können sie bei

der Untersuchung der external construct validity als Moderator des Zusammenhangs von

Messung und Kriterium gedacht werden. Die internal construct validity eines Instruments

kann gering sein, obgleich die external construct validity unter Berücksichtigung des

abweichenden Urteilsprozesses in Bezug auf eine urteilskongruentes Kriterium gegeben sein

kann: „Although existing QOL measures may have been written with little attention to the

178

specific appraisal processes they elicit, these measures may still demonstrate high external

construct validity once appraisal parameters are specified“ (S. 7). Die Betrachtung der

Reliabilität kann unter der expliziten Berücksichtigung subjektiver Urteilsprozesse ebenfalls

neu gefasst werden. Geringe Interrater- oder Retest-Reliabilität können in Bezug auf

evaluation based measures nur schwer als Messfehler aufgefasst werden sondern müssen

vielmehr auf die inter- bzw. intrasubjektive Divergenz der Urteilsprozesse zurückgeführt

werden. Der bedeutsame Unterschied zu anderen Messmodellen ist im Modell kontingenter

wahrer Werte somit in der Forderung zu sehen subjektive Bewertungsprozese zur

Einschätzung der Gütekriterien von evaluation based measures explizit zu berücksichtigen:

„We must establish psychometric properties that incorporate direct measures of appraisal“

(Schwartz & Rapkin, 2004, S. 5).

In Bezug auf die Veränderungsmessung der Lebensqualität haben diese

Ausführungen eine weitere Konsequenz. Eine numerische Veränderung der Lebensqualität

sagt nichts über ihr Zustandekommen aus: „Adequate QOL assessment must distinguish

patients who are feeling better from those who have changed their mind about what it means

to feel terrible” (Schwartz & Rapkin, 2004, S. 2). Im Rahmen psychischer Erkrankungen

kann die Symptomatik und das subjektive Leiden unter ihr unterschieden werden. Die

Veränderung des subjektiven Leidens unter einer gegebenen Symptomatik kann dabei eine

von der Symptomveränderung (teil-)autonome Dimension der Veränderung darstellen. Eine

Reduktion von Symptomstress - also eine kognitive Neubewertung - zieht eine Reduktion

von Leiden nach sich. Personen die zwar relativ wenig Symptomreduktion erfuhren, dafür

aber eine deutliche Reduktion in Leiden, bringen ihre Leidensverbesserung dann vermutlich

auch in Einschätzungen des Therapieerfolgs (z.B. der Zufriedenheitsurteilen) unter. Das

(implizite) Ziel Wohlbefinden wäre damit unabhängig von einer Symptomreduktion bereits

179

(teil-) realisiert. Die Erhebung von Störungsfolgen (Schulte, 1993) und ihrer Veränderung

über eine Erfassung von Symptomen hinaus erscheint somit notwendig.

Schwartz und Rapkin (2004) betonen, dass die Aufgabe der Forschung zu diesem

Zeitpunkt darin bestehe: „Empirical data must be collected to show how these processes

matter in measurable and important ways for clinical outcome research” (S. 10). Dabei sehen

die Autoren drei mögliche Ansätze für die Problematik der Beteiligung von

Urteilsprozessen:

1. design QOL measures with known appraisal parameters,

2. use appraisal measures as stratification or screening variables for certain studies or

certain analyses,

3. and include explicit assessment of appraisal constructs in studies to function as

mediators or moderators of effects of interest. (S. 11)

Die Problematik des contingent true score könne dabei laut Autoren nicht auf das

Erarbeiten besserer Items oder Instruktionen reduziert werden, da es in Bezug auf evaluation

based measures nur schwer vorstellbar ist, dass eine nomothetische Messung gegenüber

Urteilsprozessen zu allen Zeiten und gegenüber allen Personen invariant wäre. Zwar könnte

die Anwendung explizierende Methoden wie think-aloud techniques (Jobe, 2003) die

Varianz subjektiver Urteilsprozesse eindämmen, aber sicher nicht eliminieren. Schwartz und

Rapkin (2004) betonen, dass es mitunter gar nicht wünschenswert wäre, Individuen in ihren

Urteilsprozessen einheitlich auf intendierte Urteilsprozesse zu restringieren:

In sum, individual and temporal variance in QOL appraisal may be unavoidable but

not undesirable. The contingent true score theory does not imply that we need to

scrap existing instruments or re-design them from scratch. Rather, understanding how

180

these sources of variance affect existing QOL measures will help us to select

measures, compare groups, and interpret study findings” (S. 5).

9.2 Subjektive Urteilsprozesse und Psychotherapieerfolg

Betrachtet man die Items der Instrumente die häufig in der Psychotherapieevaluation

Verwendung finden, repräsentieren diese vermutlich überwiegend evaluation based

measures. Im Brief Symptom Inventory (BSI; Franke, 2000) wird in allen Items gefragt

„Wie sehr litten sie in den letzten Tagen unter (…)“. Das Beck Depressionsinventar (BDI;

Hautzinger, Bailer, Worall & Keller, 1995) fordert Einschätzungen wie „Ich bin so traurig

oder unglücklich, dass ich es kaum noch ertrage“ (Item 1), „Ich glaube, dass meine Zukunft

hoffnungslos ist und nur noch schlechter wird“ (Item 2) oder „Ich habe das Gefühl, als

Mensch ein völliger Versager zu sein“ (Item 3). Subjektive Standards sind diesen

Zielkonstrukten inhärent und Urteile diesbezüglich sind den oben geschilderten komplexen

hoch subjektiven Urteilsprozessen gegenüber kontingent. Auch im BVB-2000 stellen die

Items durchgängig evaluation based measures dar „fühle ich mich gehetzter“ (Item 1), „habe

ich jetzt eher das Gefühl, in einer Sackgasse zu stecken, aus der ich nicht herauskomme“

(Item 2) oder „hat das Leben für mich an Inhalt verloren“ (Item 3). Das Globalurteil der

Zufriedenheit mit der Therapie (Globalurteil; Meyer & Schulte, 2002) impliziert ebenfalls

einen hoch subjektiven Bewertungsmaßstab. Beim idiosynkratischen Goal Attainment

Scaling (GAS; Kiresuk & Sherman, 1968) hängt dies vermutlich von der Formulierung der

Ziele zu Therapiebeginn ab.

Aus dem oben dargestellten lässt sich vermuten, dass Divergenzen und

Konvergenzen sowohl von retrospektiven und regulären Statusmessungen aber auch von

verschiedenen Erfolgswerten aus der Divergenz der ihnen zugrundeliegenden

181

Urteilsprozesse bzw. einzelner Komponenten davon erklärt werden können. In Studie 1 zeigt

sich der retrospektive Vortest zwar als reliabel aber auch als wenig akkurat. Die deutlich

höheren retrospektiven Einschätzungen der Symptomatik lassen vermuten, dass sich - neben

der Möglichkeit von Fehlern - die Urteilsprozesse bzw. einzelne Elemente davon zu beiden

Zeitpunkten unterscheiden. Durchläuft ein Patient eine Psychotherapie und vor allem eine

Kognitive Verhaltenstherapie, sind response shifts wahrscheinlich. Die Veränderung des

Bezugssystems zur Evaluation z.B. einer gegeben Symptomatik im Sinne einer

Neubewertung ist oft ja sogar explizites therapeutisches Ziel kognitiver Verhaltenstherapie.

Die Reduktion von Symptomstress (Ellis & Hoellen, 1997) - also das eskalative

Katastrophisieren der Symptomfolgen - bietet ein anschauliches Beispiel für eine derartige

Zielsetzung. Zudem muss mit Patienten vielfach zunächst ein erweitertes

Problembewusstsein erarbeitet werden, da sie dank adaptiver Prozesse ein Arrangement mit

der Erkrankung fanden oder ich-synton das Ausmaß der Symptomatik zu Beginn der

Therapie unterschätzen (z.B. bei Persönlichkeitsstörungen). Auch subjektive

Krankheitsvorstellungen unterliegen in der kognitiven Verhaltenstherapie oft einem

expliziten Interventionsinteresse (wie z. B. im Falle von Somatisierungsstörungen; vgl.

hierzu Rief, 1998). In qualitativen Interviews kann gezeigt werden, dass eine derartige

Korrektur des Bezugssystems von den Probanden einer psychosozialen Intervention selbst

benannt und mit einer größeren Bewusstheit den befragten Inhalten gegenüber begründet

wird (Sibthorp, Paisley, Gookin & Ward, 2007). In der Sozialpsychologie werden die

Effekte sozialer Vergleichsprozesse auf interne Standards schon länger verfolgt. Schwartz

und Sprangers (1999) berichten wie Teilnehmer in Gruppentherapien explizit benennen, dass

der Vergleich mit Mitpatienten die Sicht auf ihre Krankheit verändert und dabei sowohl zu

einer Neubewertung ihrer Erkrankung als auch zu einer Neuordnung ihrer Ziele (changes in

values) und dem gesamten Konzept Gesundheit (reconceptualization) führte: „This example

182

illustrates how a psychosocial intervention might teach response shift“ (S. 1532). Derartige

Wechsel in den Bewertungsmaßstäben bedrohen allerdings die die Güte indirekter

Veränderungsmaße, da ihnen dadurch eine zentrale Voraussetzung (Bereiter, 1963;

Cronbach & Furby, 1970) entzogen wird: die gemeinsame Metrik von Prä- und Post-

Messung. Die indirekte Veränderungsmessung sollte so betrachtet zwar in Bezug auf

performance based measures valide Ergebnisse bieten können. Sobald aber Veränderungen

in der Metrik oder gar subjektive konzeptuelle Änderungen des Zielkonstrukts vermutet

werden können, sollte sie wenig valide sein. Koele und Hoogstraten (1988) empfehlen daher

sowohl Retro- als auch Prä-Werte zu erheben und bei Abweichungen beider Messungen eher

auf die quasi-indirekte Veränderungsmessung zur Darstellung der Veränderung

zurückzugreifen, da Retro- und Post-Messung zumindest dieselbe Metrik zu Grunde liege.

Baumann und Kollegen (1980) deklarierten die Frage der Konstanz des Bezugssystems bei

Patienten bereits zu Beginn der achtziger Jahre zum Hauptproblem der

Veränderungsmessung insgesamt. Sie fordern daher ebenfalls die direkte Erforschung der

zugrundeliegenden Prozesse: „In diesem Sinne müsste die Veränderungsdiagnostik das

individuelle Bezugssystem des Menschen zu Beginn und am Ende eines Zeitabschnittes

erfassen, wobei dies unter dem Aspekt der Stabilität und der Veränderung geschehen sollte“

(S. 215). Ob aber response shifts überhaupt und wenn ja wie identifiziert und von Mess- und

Urteilsfehlern (response bias) unterschieden werden können ist strittig (im Überblick

Güthlin, 2004; Hill & Betz, 2005). Im Rahmen der Lebensqualitätsforschung existiert zur

Erhebung von response shifts bereits eine ganze Reihe von Vorschlägen (im Überblick

Schwartz & Sprangers, 1999). Das etablierteste Verfahren (best established approach;

Schwartz & Sprangers, 1999) stellt dabei aber immer noch der retrospektive Vortest dar (vgl.

auch Güthlin, 2004). Letztlich ist derzeit aber noch unklar welche der beiden Messungen -

Prä oder Retro - unter welchen Bedingungen die validere darstellt (Hill & Betz, 2005). Dies

183

könnte Gegenstand zukünftiger Forschung sein. Schwartz und Rapkin (2004) empfehlen zur

Einschätzung der Güte von Messansätzen stets eine explizite Untersuchung der subjektiven

Urteilsprozesse heranzuziehen (ebenso Baumann et al., 1980). Hierzu bieten sich vor allem

qualitative Methoden wie Interviews (vgl. Sibthorp et al., 2007; Llewellyn-Thomas &

Schwartz, 2000; O´Boyle, McGee & Browne, 2000) an. Aber auch think-aloud techniques

(vgl. Jobe, 2003) oder cognitive interviewing (vgl. Collins, 2003) bieten vielversprechendes

Potential. Denkbar wäre zudem die Verwendung einer idealen Skala im Sinne der Messung

der Veränderung des Konzepts des idealen Gesundheitszustands. Oort (2005) zeigt auf wie

mittels structural equation modelling (SEM) response shifts identifiziert und dessen Einfluss

isoliert werden kann (vgl. auch Oort, Visser & Sprangers, 2005, 2009). Diese Methoden

können ohne weiteres auf die klinische Evaluationsforschung übertragen werden.

Aus der Annahme kontingenter wahrer Werte ergibt sich die Schlussfolgerung, dass

Konvergenzen zwischen Verfahren zu erwarten sind, wenn sie Überschneidungen in ihren

Urteilsprozessen aufweisen. In Studie 2 ließen sich die beiden basalen Perspektiven

Veränderung (Differenz Prä-Post) und Zielerreichung (Abgleich Post und Ideal) ableiten. Es

wurde dabei angenommen, dass die Zielerreichung die dominante subjektive Perspektive auf

den Therapieerfolg darstellt, während die Perspektive der Veränderung subjektiv eher

ungewöhnlich und vielmehr als statistische Perspektive verstanden werden kann. Die

Fruchtbarkeit dieser Unterscheidung wurde bereits ausführlich dargestellt. Im Rahmen einer

expliziten Untersuchung der Urteilsprozesse müssen diese Vermutungen allerdings noch

bestätigt werden.

In Studie 3 präsentiert sich der BVB-2000 im Lichte klassischer Gütekriterien als

reliables und valides Instrument der Psychotherapieerfolgsevaluation. Die

Korrelationsanalysen und Faktorenanalyse zeigen allerdings entgegen theoretischer

184

Erwartungen (Schulte, 1993) eine deutliche Nähe zu den Maßen der Zielerreichung (ebenso

Flückiger et al., 2007; Michalak et al., 2003). Dies kann als Hinweis auf einen

Bewertungsprozess verstanden werden, der von dem intendierten Prozess einer direkten

Veränderungsmessung abweicht (vgl. Michalak et al., 2003, anders Flückiger et al., 2007).

Nach Schwartz und Rapkin (2004) müsste bei weiteren Belegen für diese Hypothese auch

von Einschränkungen in der internal construct validity des BVB-2000 (bzw. der direkten

Veränderungsmaße insgesamt) ausgegangen werden. Die Auffassung der direkten

Veränderungsmessung als Veränderungsmaß (Schulte, 1993) trifft somit zwar in Hinblick

auf den intendierten Urteilsprozess zu, vermutlich aber nicht in Hinblick auf den tatsächlich

angewendeten. Diese mögliche Einschränkung der internal construct validity bei der direkten

Veränderungsmessung wurde in Studie 2 als beispielhaft dafür gesehen, dass die dominante

subjektive Perspektive der Zielerreichung vermutlich nur schwer für das Individuum zu

hintergehen ist. Andererseits kann auch vermutet werden, dass ein Teil der Patienten dem

intendierten Algorithmus zu folgen vermag. Wenn sich in der direkten Untersuchung des

zugrundeliegenden Urteilsprozesses des BVB-2000 bzw. der direkten Veränderungsmessung

insgesamt eine geringe internal construct validity zeigen lassen könnte, müsste dies aber

wiederum nicht zwingend eine Einschränkung der external construct validity bedeuten. Aus

den identifizierten tatsächlich vollzogenen Urteilsprozessen der Patienten heraus können ja

im Modell der contingent true scores erst Hypothesen über die Kriteriums- oder

Konstruktvalidität abgeleitet werden, die anschließend zu prüfen sind. Selbst wenn sich

herausstellen sollte, dass Patienten stark in ihren Urteilsprozessen variieren (z.B. die

überwiegende Anzahl der Patienten vollzieht einen Abgleich Ziel-Ideal während ein weiterer

Anteil einen Abgleich Prä-Post vornimmt) bedeutet dies ebenfalls keine Einschränkung per

se, sondern kann je nach Evaluationsinteresse sogar gewünscht sein: „Instruments may be

written to constrain appraisal parameters or allow them to vary, depending on the goals of

185

assessment” (Schwartz & Rapkin, 2004, S. 7). Die mehrfach gezeigten Doppelladungen des

BVB-2000 könnten so zum Beispiel die Folge heterogener Urteilsprozesse der Patienten

untereinander sein, gleichzeitig aber im Sinne einer Bandbreite (bandwith) der Messung

gewünscht sein (vgl. Schwartz & Rapkin, 2004).

In den Studien 1 und 3umfasste die Frage der Konvergenz verschiedener

Erfolgswerte auch die Frage nach einer möglichen Überschätzung des Therapieerfolgs durch

einzelne Verfahren (direkte und quasi-indirekte Veränderungsmessung). Da auf kein

absolutes Kriterium für Therapieerfolg verwiesen werden kann und bis heute kein allen

Anforderungen genügendes Veränderungsmaß existiert (vgl. De Los Reyes et al., 2011) stellt

sich bei jeder Vermutung einer Überschätzung gegenüber einem Messansatz - vor allem aber

in Bezug auf evaluation based measures - die Frage: Überschätzung im Vergleich zu was?

Häufig ist ein Sprachgebrauch zu beobachten, der andere Erfolgswerte in Hinblick auf die

indirekte Veränderungsmessungen indikatorisiert (vgl. z.B. Hill & Lambert, 2004), dabei

kann diese keineswegs per se als überlegener Messansatz definiert werden. Natürlich können

verschiedene Erfolgswerte über Transformationen numerisch vergleichbar gemacht werden.

Hier ließe sich aber immer fragen, ob die vorgenommen Transformationen tatsächlich die

Vergleichbarkeit herstellen. Die vorgeschlagenen Effektstärken für die direkte indirekte und

quasi-indirekte Veränderungsmessung bieten hierfür ein anschauliches Beispiel. Und wenn

wie in Studie 1 gezeigt werden kann, dass die Effektstärke der quasi-indirekten

Veränderungsmessung für den BSI höher ausfällt als die der indirekten Effektstärke, wie

kann - zudem bei vergleichbarer Konstruktvalidität - bestimmt werden, welche die wahre

Effektgröße darstellt? Die Frage der Überschätzung muss im Kontext der dargestellten

Überlegungen wohl umformuliert werden in eine Frage der Nützlichkeit der verschiedenen

Erfolgsmaße in Bezug auf bestimmte Evaluationsziele.

186

Michalak und Kollegen (2003) betonen: „Auch Therapieerfolg ist ein theoretisches

Konstrukt, dessen Operationalisierung durch die Zielsetzung zu rechtfertigen ist“ (S. 102). In

der Versorgungspraxis werden andere Anforderungen an Verfahren gestellt als in der

klinischen Interventionsforschung (Hunsley & Mash, 2007). Aus dem Konzept der external

construct validity (Schwartz & Rapkin, 2004) lässt sich ableiten, dass die Validität eines

Erfolgswertes (sofern daran evaluation based measures beteiligt sind) immer auch relativ zu

den angewendeten Urteilsprozessen der Patienten verstanden werden muss. Daher gilt es

zunächst, die Urteilsprozesse genauer zu kennen, die den jeweiligen Messungen (Status,

Erfolg) zu Grunde liegen und zu bestimmen, wie weit diese mit den intendierten Prozessen

übereinstimmen, wie sehr Personen zu einem Zeitpunkt in den herangezogenen Prozessen

übereinstimmen und wie stabil diese Prozesse intraindividuell in der Zeit sind. Im Anschluss

lässt sich die Kriteriums- und Konstruktvalidität der Werte genauer definieren und prüfen.

Güthlin (2004) betont, dass es sich bei subjektiven Urteilen über das eigene Befinden

um einen iterativen Prozess handelt, bei dem das Urteil zwar am Ende eines komplexen

Bewertungsprozesses steht, dieses aber seinerseits auch wieder neue

Verarbeitungsmechanismen im Sinne einer Rückkopplungsschleife in Gang setzen kann:

„Response Shift und Coping sind an dieser Stelle eng verwandte Konzepte, weil Coping im

Rahmen der Anpassung und Bewältigung zum Umbewerten einer Krankheitssituation führt“

(S. 166). Wichtig wäre somit stets auch die selbstregulative Bedeutung der Urteilsprozesse

zu klären. Diese Strategie sollte letztlich auch dazu führen, konkretere Aussagen zum best

use verschiedener Verfahren in Hinblick auf verschiedene Evaluationsziele ableiten zu

können.

Die vorliegende Arbeit differenziert Erfolgswerte in die beiden Perspektiven

Veränderung und Zielerreichung. Abbildung 5 zeigt dabei noch einmal die Vorteile der

187

beiden Perspektiven im Hinblick auf verschiedene Evaluationsziele wie sie bereits mehrfach

genannt wurden.

Abbildung 5

Zwei basale Perspektiven auf den Therapieerfolg - Veränderung und Zielerreichung -

zugeordnete Erfolgswerte sowie Empfehlungen ihrer Verwendung (best use)

Veränderung Restsymptomatik/ Zielerreichung

Indirekte Veränderungsmessung,

Quasi-indirekte Veränderungsmessung

Direkte Veränderungsmessung

Individuelle Zufriedenheit, Individuelle

Zielerreichung

best use

bei ökonomischen Einschränkungen

(nur quasi-indirekte Veränderungsmessung)

bei ökonomischen Einschränkungen

bei ökonomischen Einschränkungen

bei vergleichender Bestimmung der

Veränderung (nur indirekte

Veränderungsmessung)

stand alone zukünftige

Entwicklung der einzelnen Person

bei fehlenden Eingangswerten

(nur quasi-indirekt)

bei fehlenden

Eingangswerten

Efficacy Studien (nur indirekte

Veränderungsmessung)

Effectiveness Studien

Effectiveness Studien

Insgesamt bietet die vorliegende Arbeit einen Perspektivwechsel auf die Divergenz

und Konvergenz von Erfolgswerten. Gängige Vermutungen über die Folgen der Beteiligung

subjektiver Urteilsprozesse bei der Erfolgsmessung konnten in Frage gestellt werden. So

188

konnte gezeigt werden, dass retrospektive Symptomerhebungen und daraus abgeleitete

Veränderungswerte zuverlässiger und valider erscheinen als vielfach vermutet. Zudem

konnte gezeigt werden, dass einige als retrospektiv vermutete Verfahren wahrscheinlich

keinen Rückblick (im Sinne der Erinnerung an frühere Symptomausmaße) implizieren.

Andererseits kann vermutet werden, dass Erinnerungsinhalte (im weitesten Sinne) ubiquitär

zum Fällen eines Urteils herangezogen werden müssen. Dementsprechend scheint die

Zeitperspektive nicht das entscheidende Kriterium zur Unterscheidung verschiedener

Erfolgswerte darzustellen. Es konnte herausgearbeitet werden, dass Divergenzen und

Konvergenzen von Erfolgswerten von divergenten Perspektiven auf den Therapieerfolg her

verstanden werden können. Als basale Perspektiven auf den Therapieerfolg konnten hierzu

die Perspektive der Veränderung und der Zielerreichung herausgearbeitet werden. Diese

Unterscheidung bot in den Diskussionen der Studien eine kohärente und ökonomische

Heuristik zur Erklärung einer ganzen Reihe von Befunden der klinischen

Evaluationsforschung. Um auch in Zukunft Divergenzen und Konvergenzen von

Erfolgswerten vertiefend zu untersuchen wird vorgeschlagen die Urteilsprozesse von

Patienten in vielfältiger Form direkt zu adressieren. Es wurde darauf hingewiesen, dass im

Falle von evaluation based measures gängiges Vokabular wie Urteilsfehler oder

Überschätzung vermutlich fehl am Platz ist, die gängige Fassung von Gütekriterien

überdacht werden sollten und eine pragmatische Untersuchung des best use verschiedener

Messansätze sinnvoll erscheint.

189

10. Literaturverzeichnis

Albrecht, G. L., Devlieger, P. J. (1999). The disability paradox: high quality of life against

all odds. Social Science and Medicine, 48, 977-988.

Andersen, S. M., Lazowski, L. E. & Donisi, M. (1986). Salience and self-inference: The role

of biased recollections in self-inference process. Social Cognition, 4, 75–95.

Andrykowski, M. A., Brady, M. J. & Hunt, J. W. (1993). Positive psychosocial adjustment

in potential bone marrow transplant recipients: cancer as a psychosocial transition.

Psycho-Oncology, 2, 261-276.

Bach, J. R. & Tilton, M. C. (1994). Life satisfaction and wellbeing measures in ventilator

assisted individuals with traumatic tetraplegia. Archives of Physical Medicine and

Rehabilitation, 75, 626-632.

Baily, D. B. & Simeonson, R. J. (1988). Investigation of use of goal attainment scaling to

evaluate individual progress of clients with severe and profound mental retardation.

Mental Retardation, 26, 289-295.

Basco, M. R., Krebaum, S. R. & Rush, A .J. (1997). Outcome measures of depression. In H.

H. Strup, L. M. Horowitz & M. J. Lambert (Hrsg.), Measuring patient changes in

mood, anxiety and personality disorders: Toward a core battery (S. 191-245).

Washington: American Psychological Association.

Baumann, U. (1982). Psychodiagnostische Verfahren zur Therapieindikation und

Effektkontrolle. In R. Bastine, P. Fiedler, K. Grawe, S. Sommer & S. Schmidtchen

(Hrsg.), Grundbegriffe der Psychotherapie (S. 287-292). Weinheim: Edition

Psychologie.

Baumann, U. & Reinecker-Hecht, C. (2005). Methodik der klinisch psychologischen

Interventionsforschung. In U. Baumann & M. Perrez (Hrsg.), Lehrbuch klinische

Psychologie-Psychotherapie (S. 378-397). Bern: Huber.

190

Baumann, U., Sodemann, U. & Tobien, H. (1980). Direkte versus indirekte

Veränderungsdiagnostik. Zeitschrift für Differentielle und Diagnostische

Psychologie, 1, 201-216.

Beck A. T., Ward, C. H., Mendelson, M., Mock, J. & Erbaugh, J. (1961). An inventory for

measuring depression. Archives of General Psychiatry, 4 (6), 561–71.

Beese, A. & Morley, S. (1993). Memory for acute pain experience is specifically inaccurate

but generally reliable. Pain, 53, 183–189.

Ben-Zeev, D., Young, M. A. & Madsen, J. W. (2009). Retrospective recall of affect in

clinically depressed individuals and controls. Cognition and Emotion, 23 (5), 1021-

1040.

Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C. W.

Harris (Hrsg.), Problems in measuring change (S. 3-20). Maison: The University of

Wisconsin Press.

Beutler, L. E. & Crago, M. (1983). Self-report measures of psychotherapy outcome. In M. J.

Lambert, E. R. Christensen & S. S. de Julio (Hrsg.), The assessment of psychotherapy

outcome (S. 453-497). New York: Wiley.

Bower, G. H. (1981). Mood and memory. American Psychologist, 36, 129-148.

Braun, U. & Regli, D. (2000). Psychotherapie-Evaluation in der Praxis. In A. R. Laireiter

(Hrsg.), Diagnostik in der Psychotherapie (S. 459–475). Berlin: Springer.

Breetvelt, I. S. & van Dam, F. S. A. M. (1991). Underreporting by cancer patients: the case

of response shift. Social Science & Medicine, 32, 981-987.

Bryant, R. A. (1993). Memory for pain and affect in chronic pain patients. Pain, 54, 347–

351.

191

Canestrari, R. & Trombini, G. (1975). Psychotherapie als Umstrukturierung des Feldes. In S.

Ertel, L. Kemmler & H. Stadler (Hrsg.), Gestalttheorie in der modernen Psychologie

(S. 266-273). Darmstadt: Steinkopff.

Cassileth, B. R., Lusk, E. J. & Tenaglia, A. N. (1982). A psychological comparison of

patients with malignant melanoma and other dermatologic disorders. Journal of the

American Academy of Dermatology, 7, 742-746.

Cohen, J. (1988). Statistical power analysis for the behavioural sciences (2nd ed.). New

York: Academic Press.

Collins, D. (2003). Pretesting survey instruments: an overview of cognitive methods. Quality

of Life Research, 12 (3), 229-238.

Conway, M. & Ross, M. (1984). Getting what you want by revising what you had. Journal

of Personality and Social Psychology, 47, 738–748.

Corruble, E., Legrand, J. M., Zvenigorowsky, H., Duret, C. & Guelfi, J. D. (1999).

Concordance between self-report and clinicians´assessments of depression. Journal of

Psychiatric Research, 33, 457-465.

Cronbach, L. J. & Furby, L. (1970). How we should measure "change" -or should we?

Psychological Bulletin, 74, 68-80.

Cuipers, P., Li, J., Hofmann, S. G. & Andersson, G. (2010). Self-reported versus clinicain

rated symptoms of depression as outcome measures in psychotherapy research on

depression: A Meta-analysis. Clinical Psychology Review, 30 (6), 768-778.

Cutler, S. E., Larsen, R. J. & Bunce, S. C. (1996). Repressive coping style and the

experience and recall of emotion: A naturalistic study of daily affect. Journal of

Personality, 64, 379–405.

Cytrynbaum, S., Ginath, Y. Birdwell, T. & Brandt, L. (1979). Goal attainment scaling: A

critical review. Evaluation Quarterly, 3, 5-40.

192

De Los Reyes, A. & Kazdin, A. E. (2005). Informant discrepancies in the assessment of

childhood psychopathology: A critical review, theoretical framework, and

recommendations for further study. Psychological Bulletin, 131 (4), 483-509.

De Los Reyes, A., Kundey, S. A. & Wang, M. (2011). The end of the primary outcome

measure: A research agenda for constructing its replacement. Clinical Psychology

Review, 31 (5), 829-838.

Derogatis, L. R. (1983). SCL-90-R administration, scoring, & procedures. Manual-II.

Towson: Clinical Psychometric Research.

Derogatis, L. R., Lipman, R. S., Rickels, K., Uhlenhuth, E. H. & Covi, L. (1974). The

Hopkins Symptom Checklist (HSCL): A self-report symptom inventory. Behavioral

Science, 19, 1–15.

Devito, A. J. & Kubis, J. P. (1983). Actual and recalled test anxiety and flexibility, rigidity,

and self-control. Journal of Clinical Psychology, 39, 970–975.

Docherty, J. P., & Streeter, M. J. (1996). Measuring outcomes. In L. I. Sederer & B. Dickey

(Hrsg.), Outcomes assessment in clinical practice (S. 8–18). Baltimore: Williams &

Wilkins.

Doucette, A. & Wolf, A. (2009). Questioning the measurement precision of psychotherapy

research. Psychotherapy Research, 19, 374-389.

Ehlers, A. & Lüer, G. (1996). Pathologische Prozesse der Informationsverarbeitung.

Kognitionspsychologische Interpretation von Depressionen und Angststörungen. In

A. Ehlers & K. Hahlweg (Hrsg.), Enzyklopädie der Psychologie. Grundlagen der

Klinischen Psychologie. (Themengebiet D, Serie 2, Band 1, S. 351-403). Göttingen:

Hogrefe.

Ellis, A. & Hollen, B. (1997). Die Rational-Emotive Verhaltenstherapie. Reflexionen und

Neubestimmungen. München: J. P. Pfeiffer Verlag.

193

Farnsworth, J., Hess, J. & Lambert, M. J. (2001). A review of outcome measurement

practices in the Journal of Consulting and Clinical Psychology. Paper presented at

the annual meeting of the Rocky Mountain Psychological Association, Reno.

Feldman-Barrett, L. (1997). The relationship among momentary emotion experiences,

personality descriptions, and retrospective ratings of emotion. Personality and Social

Psychology Bulletin, 23, 1100–1110.

Feldman-Barrett, L. & Pietromonaco, P. R. (1997). Accuracy of the five-factor model in

predicting perceptions of daily social interactions. Personality and Social Psychology

Bulletin, 23, 1173–1187.

Fischer, D., Stewart, A. L., Bloch, D. A., Lorig, K., Laurent, D. & Holman, H. (1999).

Capturing the patient´s views of change as a clinical outcome measure. Journal of the

American Medical Association, 282 (12), 1157–1162.

Fisher, R. J. & Katz, J. E. (2000). Social-desirability bias and the validity of self-reported

values. Psychology & Marketing, 17 (2), 105-120.

Flückiger, C., Regli, D., Grawe, K. & Lutz, W. (2007). Differences and similarities between

pre-post and retrospective measurings. Psychotherapy Research, 17, 359-364.

Frank, J. D. (1973). Persuation and healing. Comparative study of psychotherapy.

Baltimore: The John Hopkins University Press.

Franke, G. H. (2000). Brief Symptom Inventory von L. R. Derogatis (Kurzform der SCL-90-

R). Göttingen: Beltz Test GmbH.

Friedland, J., Renwick, R. & McColl, M. (1996). Coping and social support as determinants

of quality of life in HIV/AIDS. AIDS Care, 8, 15-31.

Froyd, J. E., Lambert, M. J. & Froyd, J. D. (1996). A review of practices of psychotherapy

outcome measurement, Journal of Mental Health, 5 (1), 11-16.

194

Fydrich, T. (2006). Diagnostik und Intervention in der Klinischen Psychologie. In M.

Amelang & L. Schmidt-Atzert (Hrsg.), Psychologische Diagnostik und Intervention

(S. 495–532). Heidelberg: Springer.

Fydrich, T., Laireiter, A.-R., Saile, H. & Engberding, M. (1996). Diagnostik und Evaluation

in der Psychotherapie: Empfehlungen zur Standardisierung. Zeitschrift für klinische

Psychologie, 25, 161-168.

Grawe, K. (1998). Psychologische Therapie. Göttingen: Hogrefe.

Grawe, K., Bernauer, F. & Donati, R. (1994). Psychotherapie im Wandel. Von der

Konfession zur Profession. Göttingen: Hogrefe.

Grawe, K. & Braun, U. (1994). Qualitätskontrolle in der Psychotherapiepraxis. Zeitschrift

für Klinische Psychologie und Psychotherapie, 23, 242–267.

Grawe, K., Caspar, F. & Ambühl, H. (1990). Therapievergleich: Wirkungsvergleich und

differentielle Indikation. Zeitschrift für klinische Psychologie und Pschotherapie, 19,

338-361.

Green, B. C., Gleser, G. C., Stone, W. N. & Siefert, R. F. (1975). Relationship among

diverse measures of psychotherapy outcome. Journal of Consulting and Clinical

Psychology, 43, 689-699.

Groen, G. & Petermann, F. (2000). Kontrolle des Therapieverlaufs und -erfolgs bei

depressiven Störungen. Zeitschrift für Klinische Psychologie Psychiatrie und

Psychotherapie, 48, 185–204.

Groenvold, M., Fayers, P. M., Sprangers, M. A. G., Bjorner, J. B., Klee, M. C., Aaronson, N.

K., Bech, P. & Mouridsen, H. T. (1999). Anxiety and depression in breast cancer

patients at low risk of recurrence compared with the general population – unexpected

findings. Journal of Clinical Epidemiology, 52, 523-530.

195

Grundy, C. T., Lunnen, K. M., Lambert, M. J., Ashton, J. E. & Tovey, D. R. (1994). The

Hamilton Rating Scale for Depression: One scale or many? Clinical Psychology:

Science and Practice, 1 (2), 197-205.

Güthlin, C. (2004). Response Shift: alte Probleme der Veränderungsmessung, neu

angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische

Psychologie, 13, 165–174.

Guy, M. E. & Moore, L. S. (1982). The Goal Attainment Scale for psychiatric inpatients:

development and use of a quality assurance tool. Quality Review Bulletin, 8 (6), 19-

29.

Hahlweg, K. (2000). Qualitätsmanagement in der ambulanten Psychotherapie. In H.J.

Freyberger, G. Heuft & D. J. Ziegenhagen (Hrsg.), Ambulante Psychotherapie (S. 45-

71). Stuttgart: Schattauer.

Hall, J. N. (1979). Assessment procedures used in studies on long-stay patients: A survey of

papers published in the British Journal of Psychiatry. British Journal of Psychiatry,

135, 330-335.

Hamilton, M. (1960). A rating scale for depression. Journal of Neurology, Neurosurgery and

Psychiatry, 23, 56-62.

Hand, D. J. & Taylor, C. C. (1987). Multivariate analysis of variance and repeated

measures:a practical approach for behavioural scientists. London: Chapman & Hall.

Hartmann, A. & Herzog, T. (1995). Varianten der Effektstärkenberechnung in Meta-

Analysen: Kommt es zu variablen Ergebnissen? Zeitschrift für klinische Psychologie,

24, 337-343.

Hautzinger, M. (1994). Diagnostik in der Psychotherapie. In R.-D. Stieglitz & U. Baumann

(Hrsg.), Psychodiagnostik psychischer Störungen (S. 284-295). Stuttgart : Enke.

196

Hautzinger, M. (2007). Psychotherapieforschung. In C. Reimer, J. Eckert, M. Hautzinger &

E. Wilke (Hrsg.), Psychotherapie. Ein Lehrbuch für Ärzte und Psychologen (S. 61-

73). Berlin: Springer.

Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar

(BDI). Bern: Huber.

Hill, C. E. & Lambert, M. J. (2004). Methodological Issues in Studying Psychotherapy

Processes and Outcomes. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook

of Psychotherapy and Behavior Change (S. 84–136). New York: Wiley.

Hill, C. E., Nutt, E. A. & Jackson, S. (1994). Trends in Psychotherapy Process Research:

Samples, Measures, Researchers, and Classic Publications. Journal of Counseling

Psychology, 41 (3), 364-377.

Hill, L. G. & Betz, D.L. (2005). Revisiting the retrospective pretest. American Journal of

Evaluation, 26, 501-517.

Hiller, W., Bleichhardt, G. & Schindler, A. (2009). Evaluation von Psychotherapien aus der

Perspektive von Qualitätssicherung und Qualitätsmanagement. Zeitschrift für

Psychiatrie, Psychologie und Psychotherapie, 57, 7-22.

Hodgins, D. C., el-Guebaly, N., & Armstrong, S. (1995). Prospective and retrospective

reports of mood states before relapse to substance use. Journal of Consulting and

Clinical Psychology, 63, 400–407.

Horowitz, L. M., Strupp, H. H., Lambert, M. J. & Elkin, I. (1997). Overview and summary

of the core battery conference. In H. H. Strupp, L. M. Horowitz, & M. J. Lambert

(Hrsg.), Measuring patient changes in mood, anxiety, and personality disorders:

Toward a core battery (S. 11-54). Washington: American Psychological Association.

Howard, K. I., Lueger, R. J. & Kolden, G. G. (1997). Measuring progress and outcome in the

treatment of affective disorders. In H. H. Strupp, L. M. Horowitz & M. J. Lambert

197

(Hrsg.), Measuring patient changes in mood, anxiety, and personality disorders:

Toward a core battery (S. 191-245). Washington: American Psychological

Association.

Hunsley, J. & Mash, E. J. (2007). Evidence-based assessment. Annual Review of Clinical

Psychology, 329-351.

Jacob, G. & Bengel, J. (2000). Das Konstrukt Patientenzufriedenheit: Eine kritische

Bestandsaufnahme. Zeitschrift für Klinische Psychologie Psychiatrie und

Psychotherapie, 48, 280–301.

Jacobson, N. S., Follette, W. C. & Revenstorf, D. (1984). Toward a standard definition of

clinically significant change. Behavior Therapy, 17, 308–311.

Jacobson, N. S., Roberts, L. J., Berns, S. B. & McGlinchey, J. B. (1999). Methods for

defining and determining meaningful change in psychotherapy research. Journal of

Consulting and Clinical Psychology, 67, 300-307.

Jacobson, N. S. & Truax, P. (1991). Clinical significance. A statistical approach to defining

meaningful change in psychotherapy research. Journal of Consulting and Clinical

Psychology, 59 (1), 12–19.

Jobe, J. B. (2003). Cognitive psychology and self-reports: Models and methods. Quality of

Life Research, 12 (3), 219-227.

Kagawa-Singer, M. (1993). Redefining health: living with cancer. Social Science and

Medicine, 37, 295-304.

Karney, B. R. & Coombs, R. H. (2000). Memory bias in longterm close relationships:

Consistency or improvement? Personality and Social Psychology Bulletin, 26, 959–

970.

Kassebaum, G. G. & Baumann, B. O. (1965). Dimensions of the sick role in chronic illness.

Journal of Health and Human Behavior, 6, 16-27.

198

Kastner, S. & Basler, H.-D. (1997). Messen Veränderungsfragebögen wirklich

Veränderung? Schmerz, 11, 254-262.

Kendall, P. C, Marrs-Garcia, A., Nath, S. R. & Sheldrick, R. C. (1999). Normative

comparisons for the evaluation of clinical significance. Journal of Consulting and

Clinical Psychology, 67 (3), 285-299.

Kendall, P. E., Holmbeck, G. & Verdun, T. (2004). Methodology, design, and evaluation in

psychotherapy research. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook

of Psychotherapy and Behavior Change (S. 16-43). New York: Wiley.

Keuler, D. J. & Safer, M. A. (1998). Memory bias in the assessment and recall of pre-exam

anxiety: How anxious was I? Applied Cognitive Psychology, 12, 127–S137.

Kiresuk, T. I. & Sherman, R. E. (1968). Goal Attainment Scaling: A general method for

evaluating comprehensive community mental health programs. Community Mental

Health Journal, 4, 443-453.

Kiresuk, T. I., Smith, A. & Cardillo, J. E. (1994). Goal Attainment scaling: Applications,

theory, and measurement. Hillsdale: Erlbaum.

Koele, P. & Hoogstarten, J. (1988). A method for analysing retrospective pretest/posttest

designs: I. Theory. Bulletin of Psychonomic Society, 26, 51-54.

Kohlmann, T. & Raspe, H. (1998). Zur Messung patientennaher Erfolgskriterien in der

medizinischen Rehabilitation: Wie gut stimmen "indirekte" und "direkte" Methoden

der Veränderungsmessung überein? Rehabilitation, 37, 30-37.

Kordy, H. & Hannöver, W. (1999). Zur Evaluation psychotherapeutischer Behandlungen

anhand individueller Therapieziele. In H. Ambühl & B. Strauß (Hrsg.), Therapieziele

(S. 75-90). Göttingen: Hogrefe.

199

Kordy, H. & Hannöver, W. (2000). Die Evaluation von Psychotherapie und das Konzept der

„klinisch bedeutsamen Veränderungen“. In A. R. Laireiter (Hrsg.), Diagnostik in der

Psychotherapie (S. 477–495). Berlin: Springer.

Krampen, G. (2010). Experimentelle Konstruktion eines Kurzfragebogens zur direkten

Veränderungsmessung psychotherapeutischer Effekte im Befinden. Diagnostica, 54,

212-221.

Krampen, G. & Hank, P. (2008). Prozessdiagnostik und kontrollierte Praxis. In B. Röhrle, F.

Caspar & P. Schlottke (Hrsg.), Lehrbuch der klinisch-psychologischen Diagnostik (S.

300-329). Stuttgart: Kohlhammer.

Kulik, J. A. & Mahler, H. I. M. (1986). Self-confirmatory effects of delay on perceived

contribution to a joint activity. Personality and Social Psychology Bulletin, 12, 344–

352.

Laireiter, A.-R. (2001). Diagnostik in der Psychotherapie. Psychotherapeut, 46, 90-101.

Laireiter, A.-R. & Vogel, H. (1998). Qualitätssicherung in der Psychotherapie und

psychosozialen Versorgung. Tübingen: DGVT Verlag.

Lam, T. C. M. & Bengo, P. (2003). A comparison of three retrospective self-reporting

methods of measuring change in instructional practice. American Journal of

Evaluation, 24, 65-80.

Lambert, M. J. (1983). Introduction to assessment of psychotherapy outcome: Historical

perspective and current issues. In M.J. Lambert, E.R. Christensen & S.S. DeJulio

(Hrsg.), The assessment of psychotherapy outcome (S. 3-32). New York: Wiley.

Lambert, M. J., Bergin, A. E. & Garfield, S. L. (2004). Introduction and historical overview.

In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook of Psychotherapy and

Behavior Change (S. 3-15). New York: Wiley.

200

Lambert, M. J., Hansen, N. B. & Bauer, S. (2008). Assessing the clinical significance of

outcome results. In A.M. Nezu & C.M. Nezu (Hrsg.), Evidence based outcome

research: A practical guide to conducting randomized control trials for psychological

interventions (S. 359-378). Oxford: Oxford University Press.

Lambert, M. J. & Hawkins, E .J. (2004). Use of psychological tests for assessing treatment

outcomes. In M. E. Maruish (Hrsg.), The use of psychological testing for treatment

planning and outcomes assessment (S. 171-196). Mahwah: Lawrence Erlbaum.

Lambert, M. J. & McRoberts, C. H. (1993). Outcome measurement in JCCP 1986-1991.

Paper presented at the meeting of the western Psychological Association. Phoenix.

Lambert, M. J. & Ogles, B. M. (2004). The efficacy and effectiveness of psychotherapy. In

M. J. Lambert (Hrsg.). Bergin and Garfield’s Handbook of Psychotherapy and

Behavior Change (S. 139-193). New York: Wiley.

Levine, L. J. (1997). Reconstructing memory for emotions. Journal of Experimental

Psychology: General, 126, 165-177.

Levine, L. J., Safer, M. A. & Lench, H. C. (2006). Remembering and misremembering

emotions. In: L. J. Sanna & E. C. Chang (Hrsg.), Judgments over time: The interplay

of thoughts, feelings, and behaviors (S. 271-290). New York: Oxford University

Press.

Lienert, G. (1961). Testaufbau und Testanalyse. Weinheim: Beltz.

Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse. Weinheim: Psychologie

Verlags Union.

Llewellyn-Thomas, H. & Schwartz. C. (2000). Response shift effects on patients’

evaluations of health states: sources of artifact. In C. Schwartz & M. A. G. Sprangers

(Hrsg.), Adapting to changing health. Response shift in quality of life research.

Washington: American Psychological Association.

201

Lunnen, K. M. & Ogles, B. M. (1998). A multi-perspective, multi-variable evaluation of

reliable change. Journal of Consulting and Clinical Psychology, 66, 400-410.

Lutz, W. (2002). Patient focused psychotherapy research and individual treatment progress

as scientific groundwork for an empirical based clinical practice. Psychotherapy

Research, 12, 251-273.

Lutz, W. & Böhnke, J. R. (2010). Psychotherapieforschung: Verläufe, Prozesse, Ergebnisse

und Qualitätssicherung. In W. Lutz (Hrsg.), Lehrbuch Psychotherapie (S. 49-69).

Bern: Huber.

Maier, W., Albus, M. & Bech, P. (1990). Validitätskriterien für die Veränderungsmessung

mit Ratingskalen. In U. Baumann, E. Fähndrich, R.-D. Stieglitz & B. Woggon

(Hrsg.), Veränderungsmessung in Klinischer Psychologie und Psychiatrie (S. 286-

306). München: Profil.

Maier-Riehle, B. & Zwingmann, C. (2000). Effektstärkenvarianten beim Eingruppen-Prä-

Post-Design: Eine kritische Betrachtung. Rehabilitation, 39, 189–199.

Margraf, J. & Milenkovic, N. (2009). Klassifikation psychischer Störungen. In J. Margraf &

S. Schneider (Hrsg.). Lehrbuch der Verhaltenstherapie. Band 1: Grundlagen,

Diagnostik, Verfahren, Rahmenbedingungen (S. 181-200). Berlin: Springer.

McFarland, C. & Alvaro, C. (2000). The impact of motivation on temporal comparisons:

Coping with traumatic events by perceiving personal growth. Journal of Personality

and Social Psychology, 79, 327–343.

McLellan, A. T. & Durell, J. (1996). Outcome evaluation in psychiatric and substance abuse

treatments: Concepts, rationale, and methods. In L. Sederer & B. Dickey (Hrsg.),

Outcome assessment in clinical practice (S. 34-44). Baltimore: Williams and Wilkins.

Meyer, F. & Schulte, D. (2002). Zur Validität der Beurteilung des Therapieerfolgs durch

Therapeuten. Zeitschrift für Klinische Psychologie und Psychotherapie, 31, 53-61.

202

Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs.

Veränderungsmessung oder retrospektive Erfolgsbeurteilung. Zeitschrift für Klinische

Psychologie und Psychotherapie, 32, 94-103.

Michelson, L., Mavissakalian, M. & Marcione, K. (1985) Cognitive and behavioral

treatments of agoraphobia: Clinical, behavioral, and psychophysiological outcomes.

Journal of Consulting and Clinical Psychology, 53, 913-925.

Mintz, J. (1972). What is success in psychotherapy? Journal of Abnormal Psychology, 80,

11-19.

Mintz, J. (1977). The role of the therapist in assessing psychotherapy outcome. In A. S.

Gurman & A.M. Razin (Hrsg.), Effective Psychotherapy. London: Pergamon.

Mintz, J., Drake, R. E. & Crits-Christoph, P. (1996). Efficacy and effectiveness of

psychotherapy: Two paradigms, one science. American Psychologist, 51 (10), 1084-

1085.

Nachtigall, C. & Suhl, U. (2005). Evaluation intraindividueller Veränderung. Ein Vergleich

verschiedener Veränderungskennwerte. Zeitschrift für Klinische Psychologie und

Psychotherapie, 34, 241–247.

Newman, F. L. & Tejeda, M. J. (2004). Selecting statistical procedures for progress and

outcome assessment: The analysis of group data. In M. E. Maruish (Hrsg.), The use of

psychological testing for treatment planning and outcomes assessment (S. 291-334).

Mahwah: Lawrence Erlbaum.

Norman, G. (2003). Hi! How are you? Response shift, implicit theories and differing

epistemologies. Quality of Life Research, 12, 239-249.

O´Boyle, C. A., McGee, H. M. & Browne, J. P. (2000). Measuring response shift using the

Schedule for Evaluation of Individual Quality of Life. In: C. Schwartz & M.A.G.

203

Sprangers (Hrsg.), Adapting to changing health. Response shift in quality of life

research (S. 123-136). Washington: American Psychological Association.

Ogles, B. M. (2013). Measuring Change in Psychotherapy Research. In M. J. Lambert

(Hrsg.), Bergin and Garfield’s Handbook of Psychotherapy and Behavior Change. 6th

Edition (S. 134-166). New York: John Wiley & Sons.

Ogles, B. M., Lambert, M. J. & Masters, K. S. (1996). Assessing outcome in clinical

practice. Boston: Allyn & Bacon.

Ogles, B. M., Lambert, M. J., Weight, D. G. & Payne, I. R. (1990). Agoraphobia outcome

measurement: A review and meta-analysis. Psychological Assessment: A Journal of

Consulting and Clinical Psychology, 2, 317-325.

Ogles, B. M., Lunnen, K. M. & Bonesteel, K. (2001). Clinical Significance: History,

application, and current practice. Clinical Psychology Review, 21, 421-446.

Oort, F. J. (2005). Using structural equation modeling to detect response shifts and true

change. Quality of Life Research, 14, 587–598.

Oort, F. J., Visser, M. R. M. & Sprangers, M. A. G. (2005). An application of structural

equation modeling to detect response shifts and true change in quality of life data

from cancer patients undergoing invasive Surgery. Quality of Life Research, 14, 599–

609.

Oort, F. J., Visser, M. R. M. & Sprangers, M. A. G. (2009). Formal definitions of

measurement bias and explanation bias clarify measurement and conceptual

perspectives on response shift. Journal of Clinical Epidemiology, 62, 1126–1137.

Padilla, G. V., Mishel, M. H. & Grant, M. M. (1992). Uncertainty, appraisal and quality of

life. Quality of Life Research, 1, 155-165.

Parloff, M. B. (1967). Goals in Psychotherapy: Mediating and ultimate. In A. R. Mahrer

(Hrsg.), The goals of psychotherapy (S. 5-19). New York: Appleton-Century-Crofts.

204

Parsons, T. (1967). Definition von Gesundheit und Krankheit im Lichte der Wertbegriffe

und der sozialen Struktur Amerikas. In A. Mitscherlich, T. Brocher, O. v. Mering &

K. Horn (Hrsg.), Der Kranke in der modernen Gesellschaft (57-87). Köln:

Kiepenheuer & Witsch.

Paulhus, D. L. (2002). Socially desirable responding: The evolution of a construct. In H. I.

Braun & D. N. Jackson (Hrsg.), The role of constructs in psychological and

educational measurement (S. 49-69). Mahwah: Lawrence Erlbaum.

Pawlik, K. (1976). Modell und Praxisdimensionen psychologischer Diagnostik. Stuttgart:

Kohlhammer.

Pekarik, G. & Wolff, C. B. (1996). Relationship of satisfaction to symptom change, follow-

upadjustment, and clinical significance. Professional Psychology: Research and

Practice, 27, 202-208.

Piechotta, B. (2008). PsyQM - Qualitätsmanagement für psychotherapeutische Praxen.

Berlin: Springer.

Pietromonaco, P. R., & Feldman-Barrett, L. (1997). Working models of attachment and daily

social interactions. Journal of Personality and Social Psychology, 73, 1409–1423.

Rapkin, B. D. & Schwartz, C. E. (2004). Toward a theoretical model of quality-of-life

appraisal: Implications of findings from studies of response shift. Health and Quality

of Life Outcomes, 2, 14, 1-12.

Raspe, H., Weber, U., Voigt, S., Kosinski, A. & Petras, H. (1997). Qualitätssicherung durch

Patientenbefragung in der medizinischen Rehabilitation. Rehabilitation, 36, 31–42.

Reinecker, H. (2009). Therapieforschung. In J. Margraf & S. Schneider (Hrsg.). Lehrbuch

der Verhaltenstherapie (S. 83-99). Berlin: Springer.

205

Reinecker-Hecht, C. & Baumann, U. (2005). Klinisch-psychologische Diagnostik. In M.

Perrez & U. Baumann (Hrsg.), Lehrbuch Klinische Psychologie - Psychotherapie (S.

128-146). Bern: Huber.

Rief, W. (1998). Somatisierungsstörung und Hypochondrie. Göttingen: Hogrefe.

Riso, L. P., Thase, M. E., Howland, R. H., Friedman, E. S., Simons, A. D. & Tu, X. M.

(1997). A prospective test of criteria for response, remission, relapse, recovery, and

recurrence in depressed patients with cognitive behavior therapy. Journal of Affective

Disorders, 43, 131-142.

Rogosa, D. R. & Willett, J. B. (1985). Understanding correlates of change by modeling

individual differences in growth. Psychometrika, 50, 203-228.

Rosenthal, R., Rosnow, R. L. & Rubin, D. B. (2000). Contrast and effect sizes in behavioral

research: a correlational approach. Cambridge: Cambridge Unversity Press.

Ross, M. (1989). Relation of implicit theories to the construction of personal histories.

Psychological Review, 96 (2), 341-357.

Rost, J. (1996). Testtheorie. Testkonstruktion. Bern: Huber

Rusting, C. L. (1998). Personality, mood, and cognitive processing of emotional

information: Three conceptual frameworks. Psychological Bulletin, 124, 165–196.

Safer, M. A. & Keuler, D. J. (2002). Individual Differences in Misremembering Pre-

Psychotherapy Distress: Personality and Memory Distortion. Emotion, 2, 162–178.

Safer, M. A., Levine, L. J. & Drapalski, A. L. (2002). Distortion in memory for emotions:

The contributions of personality and post-event knowledge. Personality and Social

Psychology Bulletin, 28, 1495-1507.

Sanchez-Meca, J. Rosa-Alcazar, A. I., Marin-Martinez, F. & Gomez-Conesa, A. (2010).

Psychological treatment of panic disorder with or without agoraphobia: A Meta-

Analysis. Clinical Psychology Review, 30 (1), 37-50.

206

Sarris, V. (1971). Wahrnehmung und Urteil. Göttingen: Hogrefe.

Schmidt, J., Steffanowski, A., Nübling, R., Lichtenberg, S. & Wittmann, W. W. (2003).

EQUA-Studie. Erfassung der Ergebnisqualität stationärer psychosomatischer

Rehabilitation. Abschlussbericht eqs.-Institut Karlsruhe/Universität Mannheim.

Schmitz, N. & Davies-Osterkamp, S. (1997). Klinische und Statistische Signifikanz -

diskutiert am Beispiel der Symptom-Check-Liste (SCL-90-R). Diagnostica, 43 (1),

80-96.

Schulte, D. (1993). Wie soll Therapieerfolg gemessen werden? Zeitschrift für Klinische

Psychologie, 22, 374-393.

Schulte, D. (1995). How treatment success could be assessed. Psychotherapy research, 5,

281-296.

Schulte, D. (1996). Therapieplanung. Göttingen: Hogrefe.

Schulte, D. (1997). Dimensions of outcome measurement. In H. H. Strupp, L. M. Horowitz

& M. J. Lambert (Hrsg.), Measuring patient changes in mood, anxiety, and

personality disorders: Toward a core battery (S. 57-80). Washington: American

Psychological Association.

Schwartz, C. E. & Rapkin, B. D. (2004). Reconsidering the psychometrics of quality of life

assessment in light of response shift and appraisal. Health and Quality of Life

Outcomes, 2, 16, 1-11.

Schwartz, C. E. & Sprangers, M. A. G. (1999). Methodological approaches for assessing

response-shift in longitudinal health-related quality-of-life research. Social Science &

Medicine, 48, 1531–1548.

Schwartz, C. E., Sprangers, M. A. G., Carey, A. & Reed, G. (2004). Exploring response shift

in longitudinal data. Psychology and Health, 19, 51-69.

207

Seidenstücker, G. & Baumann, U. (1987). Multimodale Diagnostik als Standard in der

Klinischen Psychologie. Diagnostica, 33, 243-258

Seligman, M. E. P. (1995). The effectiveness of psychotherapy: The Consumer Reports

study. American Psychologist, 50, 965-974.

Seligman, M. E. P. (1996). Science as an ally of practice. American Psychologist, 51, 1072-

1079.

Senra, C. (1996). Evaluating and monitoring of symptom severity and change in depressed

outpatients. Journal of Clinical Psychology, 52, 317-324.

Shiffman, S., Hufford, M., Hickcox, M., Paty, J. A., Gnys, M., & Kassel, J. D. (1997).

Remember that? A comparison of real-time versus retrospective recall of smoking

lapses. Journal of Consulting and Clinical Psychology, 65, 292–300.

Sibthorp, J., Paisley, K., Gookin, J. & Ward, P. (2007). Addressing response-shift bias:

Retrospective pretests in recreation research and evaluation. Journal of Leisure

Research, 39, 295-315.

Slevin, M. L., Stubbs, L., Plant, H. J., Wilson. P., Gregory, W. M., Armes, P. J. & Downer,

S. M. (1990). Attitudes to chemotherapy: comparing views of patients with cancer

with those of doctors, nurses, and general public. British Medical Journal, 300, 1458-

1460.

Smith, M. L., Glass, G. V. & Miller, T. I. (1980). The benefits of psychotherapy. Baltimore:

Hopkins University Press.

Sneeuw, K. C., Aaronson, N. K., Sprangers, M. A., Detmar, S. B., Wever, L. D. &

Schornagel, J. H. (1997). Value of caregiver ratings in evaluating the quality of life

of patients with cancer. Journal of Clinical Oncology, 15, 1206-1217.

208

Spada, H. (1983). Die Analyse von Veränderungen im Rahmen unterschiedlicher

testtheoretischer Modelle. In W.-R. Minsel & R. Scheller (Hrsg.), Brennpunkte der

klinischen Psychologie. Diagnostik (S. 83-105). München: Kösel.

Speer, D. C. (1999). What is the role of two-wave designs in clinical research? Comment on

Hageman and Arrindell. Behaviour Research and Therapy, 37, 1203–1210.

Spielberger, C. D., Gorsuch, R. L., Lushene, R., Vagg, P. R., & Jacobs, G. A. (1983).

Manual for the State-Trait Anxiety Inventory. Palo Alto: Consulting Psychologists

Press.

Sprangers, M. A. G. (1989). Subject bias and the retrospective pretest in retrospect. Bulletin

of the Psychonomic Society, 27 (1), 11-14.

Sprangers, M. A. G. & Aaronson, N. K. (1992). The role of health care providers and

significant others in evaluating the quality of life of patients with chronic disease: A

review. Journal of Clinical Epidemiology, 45, 743-760.

Sprangers, M. A. G. & Schwartz, C. E. (1999). Integrating response shift into health-related

quality-of-life research: A theoretical model. Social Science and Medicine, 48, 1507-

1515.

Steketee, G. & Chambless, D. L. (1992). Methodological issues in prediction of treatment

outcome. Clinical Psychology Review, 12, 387-400.

Stelz, I. (1982). Fehler und Fallen der Statistik. Bern: Huber.

Stensman, R. (1985). Severely mobility-disabled people assess the quality of their lives.

Scandinavian Journal of Rehabilitation Medicine, 17, 87-99.

Steyer, R., Hannöver, W., Telser, C. & Kriebel, R. (1997). Zur Evaluation intraindividueller

Veränderung. Zeitschrift für Klinische Psychologie, 26, 291–299.

Stieglitz, R.-D. (1990). Validitätsstudien zum retrospektiven Vortest in der

Therapieforschung. Zeitschrift für Klinische Psychologie, 19, 144-150.

209

Stieglitz, R.-D. & Baumann, U. (1994). Veränderungsmessung. In R.-D. Stieglitz & U.

Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21-36). Stuttgart:

Enke.

Stieglitz, R.-D. & Baumann, U. (2001). Veränderungsmessung. In R.-D. Stieglitz & U.

Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21-37). Stuttgart:

Enke.

Stieglitz, R.-D., Baumann, U. Tobien, H. & Zerssen, D. v. (1980). Zur Stichproben und

Zeitinvarianz von Testkennwerten bei einer Beschwerdenliste. Zeitschrift für

experimentelle und angewandte Psychologie, 27, 631-654.

Stieglitz R.-D. & Haug, H.-J. (1995).Therapiezielbestimmung und -evaluation als Mittel zur

Qualitätssicherung. In H.-J. Haug & R.-D. Stieglitz (Hrsg.), Qualitätssicherung in der

Psychiatrie (S. 191-199). Stuttgart: Enke

Strupp, L. M., Horowitz & Lambert, M. J. (1997). Measuring patient changes in mood,

anxiety, and personality disorders: Toward a core battery. Washington: American

Psychological Association.

Swann, W. B. (1990). To be known or to be adored? The interplay of self-enhancement and

self-verification. In R. M. Sorrentino & E. T. Higgins (Hrsg.), Handbook of

motivation and cognition: Foundations of social behavior (S. 408–448). New York:

Guilford Press.

Taylor, P. J., Russ-Eft, D. F. & Taylor, H. (2009). Gilding the Outcome by Tarnishing the

Past: Inflationary Biases in Retrospective. American Journal of Evaluation, 30, 31-

43.

Taylor, S. E. (1983). Adjustment to threatening events. A theory of cognitive adaptation.

American Psychologist, 38, 1161-1173.

210

Taylor, S. E. (1991). Asymmetrical effects of positive and negative events: The

mobilization–minimization hypothesis. Psychological Bulletin, 110, 67–85.

Taylor, S. E. & Brown, J. D. (1988). Illusion and wellbeing: A social psychological

perspective on mental health. Psychological Bulletin, 103, 193–210.

Tedlow, J., Fava, M. Uebelacker, L. Nierenberg, A. A., Alpert, J. E. & Rosenbaum, J.

(1998). Outcome definitions and predictors in depression. Psychotherapy and

Psychosomatics, 67, 266-270.

Thomas, D. L. & Diener, E. (1990). Memory accuracy in the recall of emotions. Journal of

Personality and Social Psychology, 59, 291–297.

Tversky, A. & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases.

Science, 185, 1124-1131.

Veith, A. & Willutzki, U. (2000). Eine Revision des Veränderungsfragebogens des Erlebens

und Verhaltens (VEV). Vortrag auf dem Kongress für Klinische Psychologie und

Psychotherapie der Deutschen Gesellschaft für Verhaltenstherapie, Berlin.

Wells, K. B., Hawkins, J. D. & Catalano, R. F. (1988). Choosing drug measures for

treatment outcome studies: The influence of measurement approach on treatment

results. International Journal of Addictions, 23, 851-873.

Wiggins, J. S. (1973). Personality and prediction. London: Addison Wesley.

Willett, J. B., Ayoub, C. C. & Robinson, D. (1991). Using growth modeling to examine

systematic differences in growth: an example of change in the functioning of families

at risk of maladaptive parenting, child abuse, or neglect. Journal of Consulting and

Clinical Psychology, 59, 38-47.

Williams, J. M., Barnhofer, T., Crane, C., Hermans, D., Raes, F., Watkins, E. & Dalgleish,

T. (2007). Autobiographical Memory Specifity and Emotional Disorder.

Psychological Bulletin, 133 (1), 122-148.

211

Wilson, A. E. & Ross, M. (2001). From chump to champ: People’s appraisals of their earlier

and present selves. Journal of Personality & Social Psychology, 80 (4), 572-584.

Wilson, D. B. & Lipsey, M. W. (2001). The Role of method in treatment effectiveness

research: evidence from meta-analysis. Psychological Methods, 4, 413-429.

Wilson, I. B. & Cleary, P. D. (1995). Linking clinical variables with health-related quality of

life: a conceptual model of patient outcomes. Journal of the American Medical

Association, 273, 59-65.

Wilson, T. D. & Gilbert, D. T. (2003). Affective Forecasting. Advances in Experimental

Social Psychology, 35, 345-411.

Wise, E. A. (2004). Methods for analyzing psychotherapy outcomes: A review of clinical

significance, reliable change, and recommendations for future directions. Journal of

Personality Assessment, 82, 50-59.

Zerssen, D. v. (1976). Die Beschwerden-Liste - Manual. Weinheim: Beltz Test GmbH.

Zielke, M. (1979). Die Kieler Änderungs-Sensitive Symptomliste (KASSL). Weinheim: Beltz.

Zielke, M. (1999). Direkte und indirekte Veränderungsmessung bei Interventionsansätzen -

Methoden und Ergebnisse. Praxis klinische Verhaltensmedizin und Rehabilitation,

45, 3-13.

Zielke, M. & Kopf-Mehnert, C. (1978). Der Veränderungsfragebogen des Erlebens und

Verhaltens VEV. Weinheim: Beltz.

Zielke, M. & Kopf-Mehnert, C. (2001a). 22 Jahre wissenschaftliche Erfahrungen mit dem

Veränderungsfragebogen des Erlebens und Verhaltens VEV. Praxis klinische

Verhaltensmedizin und Rehabilitation, 53, 3-6.

Zielke, M. & Kopf-Mehnert, C. (2001b). Der VEV-R-2001: Entwicklung und

testtheoretische Reanalyse der revidierten Form des Veränderungsfragebogens des

212

Erlebens und Verhaltens (VEV). Praxis klinische Verhaltensmedizin und

Rehabilitation, 53, 7-19.

Zimmerman, M., & Coryell, W. (1986). Reliability of follow-up assessment of depressed

inpatients. Archives of General Psychology, 43, 468–470.

213

11. Anhang

11.1 Lebenslauf

SCHULE 1998 Abitur am Gymnasium Bad Zwischenahn/Edewecht ZIVILDIENST 09/1998-10/1999 Zivildienst am Heilpädagogischen Kindergarten und

Kindertagesstätte in Mansie STUDIUM 10/1999-01/2006 Studium der Psychologie an der Carl v. Ossietzky-Universität

Oldenburg PRAKTIKA 09/2003-10/2003 Internationale Gesellschaft für systemische Therapie (IGST)

Heidelberg (Prof. Dr. Clement) 02/2004-04/2004 Psychotherapeutische Praxisstelle der Universität Bern (Prof. Dr.

Grawe) FORT- UND WEITERBILDUNG 09/2003-10/2003 Teilnahme an Weiterbildungsangeboten der Internationalen

Gesellschaft für systemische Therapie und des Zentrums für systemische Forschung und Beratung in Heidelberg

04/2004- 01/2006 Teilnahme am Weiterbildungsangebot der Psychologischen Ambulanz für Lehre und Forschung an der Carl v. Ossietzky-Universität Oldenburg (Prof. Dr. Belschner)

04/2006-04/2009 Ausbildung zum Verhaltenstherapeuten am Weiterbildenden Studiengang Psychotherapie der Ruhr-Universität Bochum

PSYCHOTHERAPEUTISCHE TÄTIGKEIT 04/2004-01/2006 Therapeutische Tätigkeit unter Supervision an der

Hochschulambulanz der Carl v. Ossietzky-Universität Oldenburg 02/2006-04/2007 Diplom-Psychologe und Therapeut in Ausbildung an der

214

Westfälischen Klinik Warstein (Dialektisch Behaviorale Therapie der Borderline Persönlichkeitsstörung)

04/2007-04/2009 Psychologe in Ausbildung am Zentrum für Psychotherapie (ZPT) der Ruhr-Universität Bochum (Prof. Dr. Schulte)

04/2009-02/2010 Honorartherapeut am Zentrum für Psychotherapie (ZPT) der Ruhr-Universität Bochum

seit 02/2010 Honorartherapeut an der Hochschulambulanz der Freien Universität Berlin (Prof. Dr. Renneberg)

WISSENSCHAFTLICHE TÄTIGKEIT 04/2005-01/2006 Studentische Hilfskraft an der Abteilung Gesundheits- und

Klinische Psychologie der Universität Oldenburg (Prof. Dr. Belschner)

04/2007- 04/2008 Wissenschaftliche Hilfskraft an der Arbeitseinheit für Klinische Psychologie und Psychotherapie der Ruhr-Universität Bochum (Prof. Dr. Willutzki)

10/2008-02/2010

Wissenschaftlicher Mitarbeiter am Institut für Experimentelle Psychologie der Heinrich-Heine-Universität Düsseldorf (Prof. Dr. Pietrowsky)

seit 02/2010 Wissenschaftlicher Mitarbeiter am Institut für Psychologie (Psychotherapie und Somatopsychologie) der Humboldt-Universität zu Berlin (Prof. Dr. Fydrich)

UNIVERSITÄRE LEHRE SS 2005 - WS 2006 Tutor für Diagnostik und Evaluation an der Psychologischen

Ambulanz für Lehre und Forschung der Carl v. Ossietzky-Universität Oldenburg

SS 2008 Seminar „Borderline-Persönlichkeitsstörung“ an der Ruhr-Universität Bochum

WS 2008/2009 Seminar „Gesprächstechniken in der Psychotherapie“ an der Heinrich-Heine-Universität Düsseldorf

SS 2009 Seminar „Interview und Beobachtung“ an der Heinrich-Heine-Universität Düsseldorf

WS 2009/2010 Seminar „Gesprächstechniken in der Psychotherapie“ an der Heinrich-Heine-Universität Düsseldorf

SS 2010 Seminar „Gesprächsführung“ an der Humboldt-Universität zu Berlin

WS 2010/2011 Seminar „Klinisch-psychologische Diagnostik und Testkenntnis“ an der Humboldt-Universität zu Berlin

SS 2011 Seminar „Kognitive Therapie der Depression“ an der Humboldt-Universität zu Berlin

WS 2011/2012 Seminar „Praxis der kognitiven Therapie“ an der Humboldt-Universität zu Berlin

SS 2012 Seminar „Emotionsfokussierte Therapie“ an der Humboldt-Universität zu Berlin

WS 2012/2013 Seminar „Verhaltenstherapeutische Paartherapie“ an der Humboldt-Universität zu Berlin

215

SS 2013 Seminar „Verhaltensanalyse und Fallkonzeption“ an der Humboldt-Universität zu Berlin

DOZENTENTÄTIGKEIT seit 2010 Dozent in der Ausbildung zum Psychologischen Psychotherapeuten

an folgenden Instituten: Deutsche Gesellschaft für Verhaltenstherapie (DGVT) in Dortmund, Hannover und Berlin, Psychologische Hochschule Berlin (PHB), Zentrum für Psychotherapie der Humboldt-Universität zu Berlin (ZPHU), Berliner Fortbildungsakademie (BFA)

seit 2011 Dozent in der Facharztausbildung an folgenden Instituten: Medizinische Hochschule Hannover (MHH), Zentrum für Psychotherapie der Humboldt-Universität zu Berlin (ZPHU)

216

11.2 Liste aller Veröffentlichungen

Zeitschriften- und Buchbeiträge (chronologisch)

Baschin, K., Ülsmann, D., Jacobi, F. & Fydrich, T. (2012). Psychisch erkrankte Personen

mit Migrationshintergrund. Theoretisches Modell zur Inanspruchnahme von

Gesundheitsleistungen. Psychotherapeut, 57, 7-14.

Fydrich, T. & Ülsmann, D. (2011). Komorbidität chronischer somatischer Erkrankung und

psychischer Störungen. Problem in der ambulanten psychotherapeutischen

Versorgung. Bundesgesundheitsblatt, 54, 108-119.

Ülsmann, D. (2007). Metatelische Orientierungen und Emotionsvorhersagen im

Leistungsbereich. In Mees, U. und Schmitt, A. (Hrsg.). Ziele und Gründe des

Handelns. Empirische Studien zum Zweidimensionalen Modell Metatelischer

Orientierungen. Münster: LIT

Znoj, H. J., Regli, D. & Ülsmann, D. (2004). Beziehungsgestaltung als gezielte Intervention

bei narzisstischer Persönlichkeitsstörung. Psychotherapie im Dialog, 3, S. 261-266.

Stuttgart: Thieme.

Kongressbeiträge (chronologisch)

Baschin, K. & Ülsmann, D. (2012). Inanspruchnahmeverhalten psychozialer Angebote

durch MigrantInnen. Vortrag auf dem 27. DGVT-Kongress für Klinische

Psychologie, Psychotherapie und Beratung, Berlin.

217

Ülsmann, D. (2011). Psychotherapy Outcome. A comparison of usual and retrospective

effect sizes. Poster präsentiert auf dem 40ten Kongress der EABCT, Reykjavik.

Baschin, K., Ülsmann, D. & Fydrich, T. (2011). The relationship between

sociodemographic characteristics and help seeking behaviour in Turkish migrants.

Vortrag auf dem 42ten Annual Meeting der Society for Psychotherapy Research,

Bern.

Ülsmann, D., Baschin, K. & Fydrich, T. (2011). Mental health beliefs and their influence on

anticipated mental health care utilization in Turkish migrant and German non

migrant populations. Vortrag auf dem 42ten Annual Meeting der Society for

Psychotherapy Research, Bern.

Baschin, K., Ülsmann, D. & Fydrich, T. (2011). Soziodemographische Charakteristika und

Inanspruchnahmeverhalten bei türkischen Migranten. Poster präsentiert auf dem 7ten

Workshopkongress für Klinische Psychologie und Psychotherapie (DGPS), Berlin.

Ülsmann, D., Baschin, K., Inci, B. & Fydrich, T. (2011). Einfluss eines türkischen

Migrationshintergrundes auf das Erkennen einer Depression. Poster präsentiert auf

dem 7ten Workshopkongress für Klinische Psychologie und Psychotherapie (DGPS),

Berlin.

Baschin, K., Ülsmann, D. & Fydrich, T. (2010). Comparison of „Mental Health Literacy“

in Turkish migrant and German samples. Vortrag auf der International Conference of

Intercultural aspects of mental disorders, Heidelberg.

Ülsmann, D. (2010): How bad was I? The retrospective pre-test in Psychotherapy. Poster

präsentiert auf dem 40ten Kongress der EABCT, Mailand.

Ülsmann, D. (2010). Wie schlecht ging es mir eigentlich? Der retrospektive Prä-Test in der

Psychotherapie. Poster präsentiert auf dem 28ten Symposium der Fachgruppe

218

Klinische Psychologie und Psychotherapie der Deutschen Gesellschaft für

Psychologie (DGPS), Mainz.

Ülsmann, D., Willutzki, W. & Veith, A. (2009). Psychotherapieerfolgsmessung: Der

Bochumer Veränderungsfragebogen. Poster präsentiert auf dem 6.

Workshopkongress für Klinische Psychologie und Psychotherapie (DGPS), Zürich.