Upload
truonganh
View
228
Download
1
Embed Size (px)
Citation preview
Psychotherapieerfolg: eine Frage der Operationalisierung?
Konvergenzen und Divergenzen von Psychotherapieerfolgsmaßen
Inaugural-Dissertation
Zur Erlangung des Grades eines Doktors der Philosophie
in der
Fakultät für Psychologie
der
RUHR-UNIVERSITÄT BOCHUM
vorgelegt von:
Dominik Ülsmann
2
Gedruckt mit Genehmigung der Fakultät für Psychologie der
Ruhr-Universität Bochum
Referent: Prof. Dr. Dietmar Schulte
Koreferent: Prof. Dr. Thomas Fydrich
Tag der mündlichen Prüfung: 18.07.2013
3
Danksagung
Mein erster Dank gilt allen, die unmittelbar an der Betreuung der Arbeit beteiligt
waren: Thomas Fydrich, Dietmar Schulte und Ulrike Willutzki.
Ich danke allen Kollegen und Studenten der letzten Jahre für ihre vielfältige
Unterstützung sowie allen Freunden für ihren emotionalen Beistand: u.v.a. Kirsten Baschin,
Sonja Baumann, Moran Beeg, Andrea Ertle, Wolfgang Groeger, Frank Jacobi, Krishantha
Kamaladiwala, Joachim Kosfelder, Rainer Künzel, Ulrike von Lersner, Dagmar Meister,
Benjamin Melzer, Frank Meyer, Johannes Michalak, Helen Niemeyer, Mirja Petri, Reinhard
Pietrowsky, Daniel Regli, Sophie Reiske, Babette Renneberg, Mascha Roth, Margot
Schmiedel, Sabine Schulz, Teresa Smaczny, Tobias Teismann, Theresa Unger, Andreas
Veith, Silja Vocks, Matthias Ziegler, Hans-Jörg Znoj, den Teams der Abteilungen Klinische
Psychologie und Psychotherapie der Ruhr-Universität Bochum, Klinische Psychologie der
Heinrich-Heine Universität Düsseldorf, Psychotherapie und Somatopsychologie der
Humboldt-Universität zu Berlin sowie dem Zentrum für Psychotherapie der Ruhr-
Universität Bochum und der Hochschulambulanz der Freien Universität Berlin.
Besonders möchte ich allen Patienten danken, die mit ihrem Einverständnis zur
oftmals aufwändigen Evaluation ihrer Therapien am Zentrum für Psychotherapie der Ruhr-
Universität Bochum diese Arbeit erst möglich machten.
Zuletzt möchte ich meiner Familie und damit vor allem meinen Eltern danken. Ich
bin unendlich dankbar für all die liebevolle Unterstützung, die ich in meinem bisherigen
Leben von ihnen erfahren durfte.
4
Inhaltsverzeichnis
Einleitung ................................................................................................................................. 6
1. Klassifikation von Therapieerfolgsmaßen............................................................................ 7
2. Chaos in der Operationalisierung des Psychotherapieerfolgs? .......................................... 14
3. Methodische Probleme verschiedener Messansätze ........................................................... 23
3.1 Indirekte Veränderungsmessung .................................................................................. 23
3.2 Direkte Veränderungsmessung..................................................................................... 26
3.3 Statistische Definition der Veränderung ...................................................................... 27
3.4 Zufriedenheitsurteile .................................................................................................... 30
3.5 Individuelle Zielerreichung und normativer Vergleich ................................................ 31
3.6 Statistische Definition der Zielerreichung .................................................................... 32
4. Empirische Dimensionen des Therapieerfolgs ................................................................... 34
4.1 Direkte und indirekte Veränderungsmessung .............................................................. 36
4.2 Selbst- und Fremdurteil ................................................................................................ 37
4.3 Indirekte Veränderungsmessung und retrospektive Verfahren .................................... 38
5. Der retrospektive Vortest ................................................................................................... 41
6. Ableitung der Fragestellungen der Studien ........................................................................ 47
7. Publikationen ...................................................................................................................... 52
5
7.1 Publikation 1 - Es ging mir schlechter, als ich dachte! Retrospektive
Symptomeinschätzung und Psychotherapieerfolg.............................................................. 53
7.2 Publikation 2 - Ziel erreicht! Aber auch verändert? Zwei basale Perspektiven in der
Psychotherapieerfolgsbeurteilung ...................................................................................... 83
7.3 Publikation 3 - Direkte Veränderungsmessung in der Psychotherapie: Der Bochumer
Veränderungsbogen-2000 (BVB-2000) ........................................................................... 116
8. Vertiefende Diskussion von Einzelaspekten der Studien ................................................. 154
8.1 Studie 1 ....................................................................................................................... 154
8.2 Studie 2 ....................................................................................................................... 158
8.3 Studie 3 ....................................................................................................................... 164
9. Ausblick............................................................................................................................ 170
9.1 Subjektive Urteilsprozesse ......................................................................................... 171
9.2 Subjektive Urteilsprozesse und Psychotherapieerfolg ............................................... 180
10. Literaturverzeichnis ........................................................................................................ 189
11. Anhang ........................................................................................................................... 213
11.1 Lebenslauf ................................................................................................................ 213
11.2 Liste aller Veröffentlichungen .................................................................................. 216
6
Einleitung
Der Erfolg einer Intervention hängt zum großen Teil davon ab, wie er gemessen
wurde. Wilson und Lipsey (2001) konnten in einer Zusammenschau von 319 Metaanalysen
aus verschiedenen Bereichen der Evaluationsforschung den Einfluss methodischer Aspekte
auf das Studienergebnis zeigen: „Methodological choices made by the researcher have
nearly as much influence on observed effect sizes as the features of the intervention
phenomena under study” (S. 413). Die Operationalisierung der abhängigen Variable weist
dabei einen hohen Anteil an der Aufklärung des Interventionserfolgs auf. Die Größe dieses
Effekts stehe dabei laut Autoren in einem eklatanten Missverhältnis zur geringen Beachtung
von Fragen der Operationalisierung. Gleiches lässt sich im Überblick auch für die klinische
Evaluationsforschung zeigen. Obwohl die Operationalisierung der abhängigen Variable die
Darstellung des Psychotherapieerfolgs systematisch beeinflusst, kann gleichzeitig ein
Mangel an systematischer Forschung zu Fragen der Operationalisierung festgestellt werden
(vgl. im Überblick Baumann & Reinecker-Hecht, 2005; Hautzinger, 2007; Hill & Lambert,
2004; Krampen & Hank, 2008; Lutz & Böhnke, 2010; Ogles, 2013; Reinecker, 2009;
Stieglitz & Baumann, 2001). So resümieren zum Beispiel Ogles, Lambert, Weight und
Payne (1990) in ihrer Übersicht von Outcome-Studien im Bereich der Behandlung von
Agoraphobie: „The size of treatment effects and judgements of improvement are highly
dependent on which outcome measures are used in a given study“ (S. 323). Dieser Befund
konnte erst kürzlich in einer Meta-Analyse zu Outcome Studien im Bereich Agoraphobie
repliziert werden (Sanchez-Meca, Rosa-Alcazar, Marin-Martinez & Gomez-Conesa, 2010).
Die vorliegende Arbeit beschäftigt sich in Anbetracht dieser Problemlage mit spezifischen
Fragen der Operationaliserung des Psychotherapieerfolgs und hat zum Ziel einen Beitrag zu
einem Verständnis der Bedingungen zu leisten, die zu Unterschieden in der Darstellung des
Therapieerfolgs in Abhängigkeit von der Operationalisierung führen können: „It appears that
7
there are reliable differences in the picture of outcome provided by different measures and
these differences need to be explored and understood. Further research needs to clarify the
various factors that inflate and deflate estimates of change” (Hill & Lambert, 2004, S. 117).
Innerhalb dieses Vorhabens liegt der Fokus verstärkt auf zwei weniger beachteten Ansätzen
der Therpieerfolgsmessung (vgl. Stieglitz & Baumann, 2001): der direkten
Veränderungsmessung (vgl. Bereiter, 1963) und dem retrospektiven Vortest (Stieglitz,
1990). Die folgenden Kapitel beschreiben und ordnen zunächst die Bandbreite möglicher
Operationaliserungen des Therapieerfolgs. Dem folgt eine Darstellung der gängigen Praxis
in der Operationalisierung des Psychotherapieerfolgs. Im Anschluss werden die
messtheoretischen und methodischen Probleme verschiedener Operationalisierungen
erörtert. Dem folgt schließlich die Darstellung von Dimensionen des Therapieerfolgs, die
sich - über theoretische Annahmen hinaus - auch in empirischen Befunden abbilden lassen.
Vor der Ableitung der Fragestellungen der drei Studien der vorliegenden Arbeit wird zum
Ende der einleitenden Kapitel der retrospektive Vortest (Stieglitz, 1990) als eine ansonsten
in der Literatur nur wenig präsente Form der Erfolgsoperationaliserung ausführlicher
vorgestellt. Im Anschluss an die drei Publikationen folgen eine vertiefte Diskussion
ausgewählter Aspekte der drei Studien sowie eine zusammenfassende Diskussion aller
Studien und ein Ausblick auf mögliche zukünftige Forschung.
1. Klassifikation von Therapieerfolgsmaßen
Eine systematische Klassifikation von Evaluationsverfahren ist die Vorbedingung
aller Bemühungen empirisches Wissen über ihre Unterschiede zu erarbeiten (vgl. Ogles,
2013). Lambert und Hawkins (2004) betonen dabei die herausragende Bedeutung eines
konzeptuellen Schemas, das es vermag, verschiedene Varianten der Erfolgsmessung entlang
8
bedeutsamer Charakteristika zu ordnen (vgl. auch Froyd, Lambert & Froyd, 1996). Ohne ein
derartiges Ordungsraster ist eine systematische Integration verschiedener Befunde nur
schwer möglich. Versuche, die Vielfalt der verschiedenen Verfahren zu ordnen, wurden
dabei bereits mehrfach unternommen (im Überblick Hill & Lambert, 2004; Ogles, 2013; vgl.
auch Schulte 1993, 1995). In den bis dato erarbeiteten Taxonomien lässt sich zwar eine
Reihe von Überschneidungen zeigen, die relativ unverbindlichen Klassifikationskriterien
machen einen direkten Vergleich der Vorschläge dennoch mitunter schwierig. Die Vielfalt
der Ordnungssysteme spiegelt dabei zugleich ihre Unverbindlichkeit wider (Schulte, 1993).
Verschiedene Taxonomien unterscheiden sich vor allem in der Setzung der zentralen
Charakteristika, nach denen das Ordnungssytem aufgebaut werden soll. Grundforderungen
an Klassifikationssysteme (vgl. Margraf & Milenkovic, 2008) wie eine logische Ordnung,
die vollständige Verortung der betrachteten Elemente, disjunkte Klassen und einheitliche
Einteilungsprinzipien werden dabei aber meist verletzt. Die Begründungen der
verschiedenen Ordnungssysteme entbehren zudem oft einer empirischen Basis. An
prominenter Stelle, dem Handbook of Psychotherapy and Behavior Change, versuchen Hill
und Lambert (2004) verschiedene Aspekte bereits existierender Taxonomien zu integrieren
und so eine möglichst theoriefreie aber konsensuelle Heuristik zu erarbeiten. Die Autoren
unterscheiden im Überblick der gegebenen Literatur schließlich vier Dimensionen der
Operationalisierung des Therapieerfolgs:
1. Inhalt (content)
2. Temporalität (temporality)
3. Quelle (source)
4. Methode (technology)
9
In der Kategorie Inhalt (content) können Operationalisierungen nach dem jeweils
adressierten Funktionsbereich (u.a. Kognition, Emotion, Verhalten, Physiologie), nach
bestimmten Konstrukten (z.B. Persönlichkeitsstruktur) oder grob nach verschiedenen
Zielbereichen (z.B. intrapersonal, interpersonal, soziale Rolle) unterschieden werden.
Temporalität (temporality) meint die Festlegung der Erhebungszeitpunkte (u.a. Ein- oder
Mehrpunkterhebung), den in der Messung implizierten zeitlichen Fokus (u.a. Statusmessung,
retrospektive Messung, prospektive Messung) oder die Stabilität des untersuchten
Konstrukts (state vs. trait). Datenquelle (source) beschreibt den Rückgriff auf verschiedene
Informationsgeber (Patient, Therapeut, Bezugsperson, trainierte Beobachter, Institutionen,
technische Instrumente usw.). Innerhalb der Kategorie Methode (technology) können
verschiedene diagnostische Methoden (z.B. Beobachtung, Selbstbeurteilung, physiologische
Parameter) oder Strategien der Erfolgsoperationalisierung (z.B. Prä-Post Differenzwerte,
direkte Veränderungsschätzung) unterschieden werden.
Schulte (1993) erarbeitete aus Kritik an der Beliebigkeit derartiger
Einteilungskriterien einen theoretisch stringenteren Vorschlag für eine Taxonomie. Als
basale Differenzierungsmöglichkeit von Verfahren führt der Autor die Leitunterscheidung
Inhalt und Methode ein. Verfahren lassen sich danach klassifizieren was sie erfassen (Inhalt)
und wie sie dies tun (Methode). Um zu explizieren was bei der Erfassung von Therapieerfolg
inhaltlich zu messen ist, greift Schulte (1993) auf die Forderung des deutschen Gesetzgebers
zurück. Dieser definiert das Endziel (Parloff, 1967) einer Behandlung als Heilung oder
Besserung von Krankheit. Aus dem medizinischen Krankheitsbegriff expliziert Schulte
(1993) im Anschluss verschiedene Aspekte von Krankheit. Krankheit im Rahmen des
medizinischen Modells umfasst dabei, dass definierte Krankheitsursachen zu bestimmten
Krankheitsdefekten führen, die als mehr oder weniger manifestes Erscheinungsbild ein
bestimmtes Kranksein (Symptome) aufweisen und schließlich Krankheitsfolgen (Einnahme
10
der Krankenrolle, Beeinträchtigung normaler Rollenfunktionen, Demoralisierung) nach sich
ziehen können. Da keine einheitliche Nosologie psychischer Störungen existiert, sollte eine
schulenübergreifende Vereinheitlichung in der Operationaliserung der Ursachen und Defekte
kaum erreichbar sein. Therapieerfolg wäre demnach inhaltlich auf drei Ebenen zu messen:
1. Krankheitsdefekt (Kranksein)
2. Symptome und Beschwerden
3. Krankheitsfolgen
Therapieerfolg auf der Ebene des Krankseins kann so als Reduktion von Symptomen
aufgefasst werden. Zur Operationaliserung kann dabei auf eine ganze Reihe
(störungsspezifischer) Instrumente zurückgegriffen werden. Auf der Ebene der
Krankheitsfolgen sind verschiedene Operationalisierungen von Beeinträchtigungen oder
Leiden denkbar. Das Konstrukt der Beeinträchtigung lässt sich nach Schulte theoretisch in
Parsons (1967) Begriff der Krankenrolle abbilden. Krankenrolle meint sowohl (a) das
Ausmaß der Übernahme der Krankenrolle als auch (b) die Beeinträchtigung der „normalen“
Rollen. Übernahme der Krankenrolle und Beeinträchtigung normaler Rollen lassen sich
dabei jeweils auf den Ebenen (a) des beobachtbaren Verhaltens und (b) des subjektiven
Erlebens untersuchen.
Die Übernahme der Krankenrolle bildet sich im Verhalten vor allem als
Inanspruchnahme der Versorgungsstrukturen ab. Als Datenbasis bieten sich hier z.B.
institutionelle Daten an (Wiederaufnahme von Behandlung, Medikamentenkonsum usw.).
Das subjektive Erleben des Krankseins kann dabei als Reaktion auf das Kranksein aufgefasst
werden (Kassebaum & Baumann, 1965). Die Beeinträchtigung der normalen Rollen kann als
Beeinträchtigung in zentralen Lebensbereichen definiert werden. Das subjektive Erleben der
Beeinträchtigung normaler Rollen (z.B. in Form von Leiden) kann u.a. in Form von
11
Demoralisierung (Frank, 1973) gefasst werden. Taylor (1983) beschreibt in seiner Theorie
der kognitiven Anpassung an belastende Ereignisse drei bedeutsame
Bewältigungsmechanismen (a) die Suche nach Bedeutung (b) die Kontrolle über das
belastende Ereignis (Leben generell) und (c) die Verbesserung des Selbstwertes.
Neben der Frage was inhaltlich zu messen ist, steht die Frage wie dies erfolgen soll.
Die Frage nach der Methode wird von Schulte (1993) dabei in drei Aspekte weiter
differenziert:
1. Operationalisierung der Erfolgsvariablen
2. Kriterienbildung
3. Design der Datenerhebung
Die Operationalisierung der Erfolgsvariablen meint die Festlegung der konkreten
Verfahren bzw. Instrumente einschließlich der Entscheidung über die herangezogene
Datenquelle (Patient, Therapeut, Beurteiler, Bezugsperson, Instrumente, Institution). Soll auf
Selbst-oder Fremdbeurteilung, auf Verhaltensbeobachtung oder Inhaltsanalyse,
Leistungstests oder projektive Verfahren zurückgegriffen werden? Bieten sich
psychophysiologische, neuropsychologische oder biochemische Verfahren an? Oder scheint
eine soziale Beziehungsanalyse das Mittel der Wahl? Gehaltvoll werden alle diese
möglichen Messungen allerdings erst durch den Vergleich mit einem Kriterium. Die
Bestimmung des Therapieerfolgs geschieht dabei nach Schulte (1993) auf der Basis der
Messung zu Therapieende (Post). Der Autor unterscheidet zwei basale Kriterien, zu denen
die Post-Werte in Relation gesetzt werden können. Zieht man die Werte zu Therapiebeginn
(Prä) heran und betrachtet die Differenz zu den Post-Werten, so bildet dies eine Veränderung
(vgl. Abb. 1, A) ab. Andererseits kann der Post-Wert auch in Relation zu Normen oder vorab
definierten Zielen gesetzt werden und zeigt dann den Grad einer Zielerreichung an (vgl.
12
Abb. 1, B). Beide Formen von Vergleichsurteilen können dabei als subjektive Schätzung
(vgl. Abb. 1, 1) durch Bildung eines Differenzwertes (vgl. Abb. 1, 2) oder durch statistische
Definition (vgl. Abb. 1, 3) bestimmt werden. Abbildung 1 tabelliert die zwei Varianten der
Kriterienbildung und die drei Varianten der Urteilsbildung.
Abbildung 1
Unterschiedliche Kriterien zur Kennzeichnung der Effektivität psychologischer Therapie
entlang der zwei Dimensionen Messdesign (A, B) und Kriterienbildung (1, 2, 3) (modifiziert
nach Schulte, 1993)
Bezug der Post-Werte zu
Zustand vor der Behandlung Ziel, Norm
A Veränderung
B Zielerreichung
1 Subjektive Schätzung
Direkte Veränderungsmessung
Individuelle Zufriedenheit
2 Empirischer
Differenzwert
Indirekte Veränderungsmessung
Individuelle Zielerreichung,
Normativer Vergleich
3 Statistische Definition
Reliable Veränderung, Effektstärke
Klinische Bedeutsamkeit
Innerhalb dieser sechs Kategorien sollten sich die gängigsten Verfahren zur
Psychotherapieerfolgsmessung relativ erschöpfend verorten lassen. Die ersten beiden Zeilen
der Spalte Veränderung (Abb. 1, A) bilden die gängige Leitunterscheidung direkter (Abb. 1,
A1) und indirekter (Abb. 1, A2) Veränderungsmessung ab (Bereiter, 1963). Werden unter
13
indirekten Veränderungsmessungen meist mathematische Differenzwerte (Prä-Post)
verstanden, werden unter direkter Veränderungsmessung meist Verfahren gefasst, die in
Komparativform (besser, schlechter) direkt nach der stattgefundenen Veränderung fragen
(im Überblick Stieglitz & Baumann, 1994, 2001). Die dritte Variante der
Veränderungsmessung (Abb. 1, A3) zieht weitere Parameter heran, um Veränderungswerte
statistisch abzusichern. So wird zum Beispiel im Konzept des Reliable Change Index (RCI;
Jacobson, Follette & Revenstorf, 1984; Jacobson & Truax, 1991) die Prä-Post Differenz des
Einzelfalls in Relation zum Standardfehler der Differenzwerte der jeweiligen Population
gesetzt. Effektstärken wiederum gewichten die Differenz Prä-Post an Populationsparametern
wie der Standardabweichung und erlauben so standardisierte Vergleiche des Ausmaßes der
Veränderung (u.a. Grawe, Bernauer & Donati, 1994). Werden nicht die Ausgangswerte (Prä)
sondern Normen oder Zielwerte als Referenz zu den Post-Werten herangezogen, erheben die
Verfahren eine Zielerreichung (Abb. 1, B). Die subjektive Schätzung (Abb. 1, B1) der
Zielerreichung umfasst Urteile der Zufriedenheit oder verschiedene Formen der sozialen
Validierung. Das Erreichen eines definierten Zielzustandes kann aber auch als empirische
Differenz zu einem bereits zu Beginn der Behandlung gesetzten Therapieziel abgebildet
werden (Abb. 1, B2) wie dies in Zielerreichungsskalierungen (vgl. Kiresuk & Sherman,
1968) der Fall ist. Eine ganze Reihe weiterer Norm- oder Soll-Werte sind als Referenz für
einen Vergleich mit den Post-Werten denkbar (vgl. Kendall, Marrs-Garcia, Nath &
Sheldrick, 1999) und können zu komplexen statistischen Definitionen der Zielerreichung
verrechnet werden (Abb. 1, B3). Beim so genannten End State Functioning werden diverse
Zielkriterien definiert wie z.B. die Cut-off Werte gängiger (störungsspezifischer)
Instrumente. Das Ausmaß des Therapieerfolgs lässt sich dann quantitativ in der Summe der
erreichten Zielkriterien abbilden (Michelson, Mavissakalian & Marcione, 1985; vgl. im
Überblick Ogles, 2013). Derartige Vergleiche können auch weitere statistische Definitionen
14
von Normen umfassen. So wird im Konzept der Klinischen Bedeutsamkeit (Jacobson et al.,
1984; Jacobson & Truax, 1991) gefordert, dass ein Patient im Laufe der Psychotherapie
einen Populationswechsel von der dysfunktionalen in die ungestörte Population durchläuft,
um von klinisch bedeutsamer Besserung sprechen zu können.
Fragen des Designs der Datenerhebung (z.B. der zeitliche Zusammenhang zwischen
Messung und Intervention) lassen sich nach Schulte (1993) als Fragen der
Generalisierbarkeit rekonstruieren. Bei der Generalisierbarkeit lassen sich wiederum vier
Arten unterscheiden: (a) Generalisierbarkeit über die Zeit, (b) die Situation, (c) das
Verhalten und (d) die Personen. Für eine möglichst hohe Generalisierbarkeit der
nachgewiesenen Effekte braucht es in Bezug auf die Zeit wiederholte und katamnestische
Erhebungen, in Bezug auf die Situation Erhebungen in verschiedenen Settings, in Bezug auf
das Verhalten die Erhebung verschiedener Inhalte und eine Generaliserbarkeit über die
Personen erfordert schließlich Messungen aus verschiedenen Quellen. Bei der Planung des
Messdesigns sind somit Fragen der erwünschten Generalisierbarkeit zu beachten.
2. Chaos in der Operationalisierung des Psychotherapieerfolgs?
Nach Schulte (1993) sind in Bezug auf die Evaluation von Psychotherapie zunächst
zwei einfache Fragen zu stellen:
1. Was soll gemessen werden?
2. Wie soll gemessen werden?
Die Antworten auf diese Fragen sind allerdings derart zahlreich, heterogen und wenig
empirisch fundiert (im Überblick Hill & Lambert, 2004), dass eine ganze Reihe von Autoren
zu quasi-fatalistischen Superlativen wie Chaos (Froyd et al., 1996; Reinecker, 2009) oder
15
Versagen (Hill & Lambert, 2004) der klinischen Evaluationsforschung verleitet werden. Bis
dato existieren weder einheitliche Taxonomien verschiedener Evaluationsverfahren, noch
verbindliche konsensuelle oder gar empirisch basierte Empfehlungen für die
Operationalisierung von Therapieerfolg (im Überblick Ogles, 2013; Hill & Lambert, 2004).
Die Abbildung des Interventionserfolgs hängt aber andererseits zu einem großen Teil von
der Operationalisierung des Therapieerfolgs ab.
Versuche einen verbindlichen Konsens in Bezug auf die basale Frage nach der
Operationalsiserung von Psychotherapieerfolg zu etablieren, erweisen sich dabei sogar
bezüglich einzelner Störungsbilder als äußerst schwierig (vgl. Strupp, Horowitz & Lambert,
1997). Im Überblick zeigen Hill & Lambert (2004), dass aus der Flut möglicher Instrumente
uneinheitlich ausgewählt wird oder in großem Umfang auf modifizierte und eigens
konstruierte Instrumente zurückgegriffen wird. Hill, Nutt und Jackson (1994) untersuchten
297 Studien, die zwischen 1978 und 1992 im Journal of Counseling Psychology (JCP) und
Journal of Consulting and Clinical Psychology (JCCP) veröffentlicht wurden. Dabei konnten
sie insgesamt 344 verwendete Erhebungsinstrumente unterscheiden. Ein Drittel (38%; JCP)
bzw. die Hälfte (49%; JCCP) davon stellten spezifisch für eine einzelne Studie konzipierte
Instrumente dar. Lediglich sieben Instrumente wurden in mehr als zehn Studien verwendet.
Froyd und Kollegen (1996) untersuchten 348 Psychotherapieerfolgsstudien aus 21
ausgesuchten Zeitschriften eines Untersuchungszeitraumes von sechs Jahren (1983-1988).
Dabei konnten sie zeigen, dass 1430 verschiedene Messinstrumente zur Operationalisierung
des Psychotherapieerfolgs herangezogen wurden. Von diesen nahezu eineinhalbtausend
Verfahren wurden 840 nur ein einziges Mal herangezogen. Viele der verwendeten
Instrumente waren dabei zudem nicht standardisiert. Beide Studien replizieren ähnliche
Ergebnisse früherer Studien (u.a. Hall, 1979; Lambert, 1983; Wells, Hawkins & Catalano,
1988). Man könnte nun vermuten, dass die adressierten Störungsbilder in diesen
16
Publikationen vielleicht zu heterogen gewählt wurden und die Vielzahl verschiedener
Instrumente dadurch erklärlich würde. Aber auch für eine homogene Stichprobe mit Studien
zur Behandlung der Agoraphobie konnten Ogles und Kollegen (1990) entsprechende
Ergebnisse zeigen. In 106 Studien konnten die Autoren 98 verschiedene
Operationalisierungen des Psychotherapieerfolgs aufzeigen. Basco, Krebaum & Rush (1997)
trugen in ihrer Literaturübersicht zu Instrumenten im Rahmen der Depressionsbehandlung 27
verschiedene Ratingskalen und 90 verschiedene Selbstbeurteilungsfragebögen zusammen.
Insgesamt scheint es nicht nur weit verbreitet auf Eigenkonstruktionen zurückzugreifen (vgl.
Senra, 1996), sondern auch Modifikationen gängiger Instrumente vorzunehmen. Selbst bei
vordergründiger Ähnlichkeit der Instrumente ist die Vergleichbarkeit dann nicht mehr
gegeben. Grundy, Lunnen, Lambert, Ashton und Tovey (1994) fanden mehr als ein Dutzend
verschiedener Varianten der Hamilton Rating Scale for Depression (Hamilton, 1960) in ihrer
Stichprobe von Therapiestudien zur Depression vor. Ogles (2013) konnte diese Befunde in
einer erneuten Untersuchung an drei Jahrgängen des Journal of Consulting and Clinical
Psychology (JCCP) abermals untermauern und fasst im Überblick die Charakteristika der
gängigen Praxis zusammen:
1. There is great variety in outcome measurement…
2. Researchers often develop their own outcome measurement…
3. Most modern studies include more than one outcome measure in order to obtain a
multifactored view of outcome. Unfortunately, even studies with multiple measures
sometimes limit their view of outcome to a single source (e.g., self report)…
4. The use of unstandardized measures with no psychometric data has become a less
pressing problem over the years…
17
5. Increasingly, certain measures (e.g., BDI, State-Trait Anxiety Inventory) are used
more frequently across studies and provide some opportunity to aggregate and
compare across studies that did not exist earlier…
6. As studies become more and more specific, new outcome measures are developed for
assessing the outcome of a treatment for a more narrow, disorder specific population.
(Ogles, 2013, S. 144-145).
Trotz einiger der genannten erfreulichen Veränderungen verwendet aber auch Ogles
(2013) immer noch das adjektiv chaotic (S. 145) um die gängige Praxis des Feldes zu
beschreiben. Einerseits können derartige Ergebnisse natürlich als Abbild der Komplexität
des Gegenstandes verstanden werden, andererseits kann es aber auch als Hinweis auf eine
problematische Heterogenität der Psychotherapieforschung gedeutet werden. In jedem Fall
aber sind die Vergleichbarkeit von Studien und die Integration von Ergebnissen in
Metaanalysen unter dieser Sachlage erheblich erschwert. Hill und Lambert (2004) sehen
darin gar einen derart unbefriedigenden Umstand, dass sie ihn mit dem Versagen der
Psychotherapieforschung im Aufbau einer kohärenten Wissenschaft zusammenfassen. Ogles
(2013) ist seinem Urteil zum Forschungsfeld knapp zehn Jahre später zwar etwas milder,
schreibt der gängigen Evaluationspraxis aber immer noch einen lähmenden Effekt auf den
wissenschaftlichen Prozess zu: „Yet the lack of consistency, replication, and organization
that characterizes outcome measurement likely slows progress in the field“ (S. 145).
Reinecker (2009) fordert Ordnung in das Chaos der Operationalisierungen zu bringen. Die
Frage der Wahl eindeutiger und einheitlicher Kriterien für die Beurteilung von
therapeutischen Veränderungen sei dabei laut Autor eines der wichtigsten und zugleich
schwierigsten Themen der Psychotherapieforschung.
18
Trotz der großen Varianz in der Ausgestaltung der Operationalisierung des
Therapieerfolgs lässt sich empirisch bestimmen, welche Formen der Operationaliserung
häufiger gewählt werden als andere. Auch hierbei kann unterschieden werden, was (Inhalt)
und wie (Methode) gemessen wird. Historisch lässt sich insgesamt eine relativ einhellige
Entwicklung weg von globalen Einschätzungen der Veränderung (Inhalt) durch den
Therapeuten (Methode) hin zu störungs- und symptomspezifischen Einschätzungen (Inhalt)
aus verschiedenen als gleichwertig betrachteten Blickpunkten (Methode) rekonstruieren (vgl.
Hill & Lambert, 2004; Lambert, Bergin & Garfield, 2004). Eine Entwicklung, die vermutlich
insgesamt der jüngeren Entwicklung hin zu störungsspezifischen Therapieansätzen
geschuldet ist. Inhaltlich konnten Farnsworth, Hess und Lambert (2001) in ihrer
Zusammenschau von Studien der Jahre 1995 bis 2000 im Journal of Consulting and Clinical
Psychology (JCCP) dementsprechend zeigen, dass aktuell störungsspezifische und globale
Symptommaße dominieren. Die drei häufigst verwendeten Instrumente im Rahmen der
Psychotherapieevaluation stellen dabei das Beck Depression Inventory (BDI; Beck, Ward,
Mendelson, Mock & Erbaugh, 1961), das State-Trait Anxiety Inventory (STAI; Spielberger,
Gorsuch, Lushene, Vagg, & Jacobs, 1983) und die Symptom Checklist 90 Revised (SCL-90-
R; Derogatis, 1983) dar (vgl. auch Lambert & Hawkins, 2004). Diese drei Instrumente
konnten ebenfalls bereits in der Studie von Froyd und Kollegen (1996) als meist verwendete
Instrumente gezeigt werden (vgl. auch Lambert & McRoberts, 1993). Die prototypische
Operationalisierung von Psychotherapieerfolg in Bezug auf methodische Aspekte zeigen die
Autoren in ihrer Zusammenschau von 348 Evaluationsstudien auf. Die Mehrzahl der
Operationaliserungen des Therapieerfolgs zeigt dabei folgende Bestimmungsstücke: „The
typical measurement practice is a paper-and-pencil instrument on which an individual rates
his or her own behavior including feelings of being distressed (symptomatic states)” (Froyd
et al., 1996, S. 14). Farnsworth und Kollegen (2001) bestätigen in ihrer Untersuchung den
19
Patienten als die häufigst herangezogene Quelle (vgl. auch Hill et al., 1994). Dabei zeigen
die Autoren, dass sich ca. 41% der untersuchten Studien ausschließlich auf das Selbsturteil
verlassen (vgl. auch Lambert & McRoberts, 1993). Den klassischen Ansatz stellen dabei
indirekte Veränderungsmessungen dar (im Überblick Newman & Tejeda, 2004). Es
existieren eine ganze Reihe von Vorschlägen, die das Chaos in der Operationalisierung des
Therapieerfolgs über einen Konsens in Bezug auf verbindliche Standards geordnet sehen
wollen (im Überblick Ogles, 2013; vgl. auch Braun & Regli, 2000; Fydrich, Laireiter, Saile
& Engberding, 1996; Grawe & Braun, 1994; Groen & Petermann, 2000; Hautzinger, 1994;
Lairaiter & Vogel, 1998; Schulte, 1997). Die verbindliche Verwendung von weit
verbreiteteten Verfahren z.B. als sogenannte Core Batteries (im Überblick Ogles, 2013) oder
Primary Outcome (im Überblick De Los Reyes Shannon & Wang, 2011) wird dabei als ein
möglicher Ausweg aus dem Chaos der Operationaliserungen gesehen (vgl. auch Froyd et
al., 1996; Fydrich et al., 1996; Grawe & Braun, 1994; Hill & Lambert, 2004; Reinecker,
2009; Stieglitz & Baumann, 2001). Fraglich ist bei allen konkreteren Vorschlägen zu einer
Vereinheitlichung aber stets nach welchen Kriterien die Verfahren ausgesucht werden sollen
(vgl. De Los Reyes et al., 2011). Gleichzeitig herrscht relative Einigkeit darüber, dass
Therapieerfolg über multiple Kriterien, multidimensional, multimethodal und multimodal
bestimmt werden sollte (Schulte, 1993; vgl. u.a. Baumann & Reinecker-Hecht, 2005; Hill &
Lambert, 2004; Lambert & Ogles, 2004; Lutz & Böhnke, 2010; Ogles, 2013). Bis heute stellt
die Forderung nach einem methodischen Pluralismus (Reinecker, 2009) somit wohl die
gängigste Forderung dar.
It is unfortunate but true that no single measure of the outcome of therapeutic
intervention is either reliable or comprehensive enough to serve as the sole indicator
of clients´gains (or setbacks). Rather, a variety of methods, measures, data sources,
20
and sampling domains . . . is necessary to fully assess therapy outcomes.” (Kendall,
Holmbeck & Verdun, 2004, S. 24)
Diese Forderung ist vermutlich auch dem Umstand geschuldet, dass auf kein
absolutes Kriterium zur Beurteilung der Validität verwiesen werden kann. Beide
Forderungen -Vereinheitlichung und möglichst breite Operationaliserung - finden sich
dementsprechend auch in den meisten Vorschlägen zur Operationaliserung des
Psychotherapieerfolgs wieder und werden meist um weitere Forderungen ergänzt. So sollte
nach Reinecker-Hecht und Baumann (2005) anstelle eines univariaten Zugangs ein
multivariater Zugang zu wählen sein, bei dem innerhalb folgender Kategorien zu variieren
ist: (a) Datenebenen (biologoisch somatisch, psychisch psychologisch, sozial, ökologisch),
(b) Datenquellen (Selbsturteil, Fremdurteil, apparative Verfahren), (c)
Untersuchungsverfahren und (d) Konstrukte und Funktionsbereiche. McLellan und Durell
(1996) setzen demgegnüber vier Bereiche der Erfolgsmessung als zentral: (a)
Symptomreduktion, (b) Steigerung der Gesundheit, sowie psychischer und sozialer
Funktionen, (c) Behandlungskosten und (d) Reduktion der Bedrohung der allgemeinen
Gesundheit und Sicherheit. Docherty und Streeter (1996) wiederum nennen sieben
Dimensionen, die es bei der Erfolgsmessung zu beachten gilt: (a) Symptome, (b) soziale
Funktionsfähigkeit, (c) Arbeitsfähigkeit, (d) Zufriedenheit mit der Behandlung, (e)
Inanspruchnahme, (f) globaler Gesundheitsstatus und (g) Lebenszufriedenheit. Weitere
Vorschläge fordern zudem die Berücksichtigung verschiedener testtheoretischer
Anforderungen (Objektivität, Reliabilität, Validität, Normierung, Ökonomie, Transparenz,
Zumutbarkeit, Änderungssensitivität usw.). So empfehlen Horowitz, Strupp, Lambert und
Elkin (1997) bei der Auswahl von Instrumenten zur Einschätzung des Therapieerfolgs
folgende Kriterien zu beachten: Vorliegen von Normen, hinreichende Reliabilität und
Validität, einfache Anwendung, nachgewiesene Änderungssensitivität, günstige Kosten,
21
Trainierbarkeit (bei Fremdurteilen) sowie der parallele Rückgriff auf Selbst- und
Fremdbeurteilungsverfahren. Sie empfehlen zudem die kategoriale Zuordnung zu Diagnosen
mittels strukturierter Interviews, die Verwendung eines allgemeinen Angstmaßes sowie eines
allgemeinen Depressionsmaßes. Außerdem brauche es ein Maß zur Quantifizierung der
funktionalen Beeinträchtigung (Arbeit, Soziales usw.), der Selbstbewertung (z.B.
Selbstvertrauen), interpersoneller Beziehungen und der Nutzung von weiteren
Behandlungsangeboten. Stieglitz und Baumann (2001) empfehlen die Assessment Ziele
eindeutig festzulegen, eine Auswahl nicht redundanter Instrumente zu treffen, nicht-reaktive
Verfahren zu berücksichtigen, sowie eine gezielte Auswahl von Verfahren unter den
Aspekten Quelle und Technologie sowie von Vorteilen (Ökonomie, Normen usw.) und
Nachteilen (Urteilsfehler, Kosten usw.) vorzunehmen. Nach Laireiter (2001) sollten
möglichst Mehrpunkterhebungen stattfinden, da retrospektive Einpunkterhebungen keinen
Rückschluss darauf erlauben, ob die Effekte auf die Therapie zurückzuführen sind oder
nicht. Neben Prä- und Postmessungen sollten auch Verlaufsmessungen und katamnestische
Erhebungen erfolgen. Neben Selbstbeurteilungen sollten auch kriterienbezogene Messungen
und Fremdbeurteilungen herangezogen werden. Inhaltlich sollte nicht ausschließlich auf den
engen Ausschnitt störungsspezifischer Maße fokussiert werden, sondern auch das soziale
Funktionieren, die Lebensqualität, somatische Probleme usw. erhoben werden. Die
Verfahren sollten ökonomisch und zeitsparend sein, sowie objektiv ausgewertet werden
können. Sie sollten leicht verständlich und nicht belastend sein, empirischen Gütekriterien
entsprechen und änderungssensitiv sein, sowie eine breite Anwendbarkeit besitzen, sich in
der klinisichen Praxis bewährt haben und einen hohen Informationsgehalt für den
Therapeuten besitzen. Lambert und Hawkins (2004) wiederum geben den Rat:
Clearly define the construct measured . . . measure change from multiple perspectives
. . . employ different types of rating scales and methods . . . employ symptom-based
22
atheoretical measures . . . examine, to some extent, patterns of change over time (S.
173).
Insgesamt bleibt aber in Anbetracht der Vielzahl der Vorschläge abermals die Frage,
welcher denn nun am ehesten zielführend ist. Kann diese Frage empirisch beantwortet
werden?
Michalak, Kosfelder, Meyer und Schulte (2003) differenzieren die Ansprüche, die an
Evaluationsverfahren gestellt werden sollten, entlang ihres Verwertungskontextes. Sie
betonen die Bedeutung der konkreten Zielsetzung für die Operationalisierung von
Therapieerfolg (vgl. auch Hautzinger, 2007; Hill & Betz, 2005; Stieglitz & Baumann, 2001).
In der Qualitätssicherung der psychotherapeutischen Routineversorgung sind andere
Evaluationsziele von Bedeutung als in der Psychotherapieforschung (vgl. auch Hunsley &
Mash, 2007). Die Operationalisierung sollte dabei laut Michalak und Kollegen (2003) der
jeweiligen Zielsetzung genau angepasst sein: „Auch Therapieerfolg ist ein theoretisches
Konstrukt, dessen Operationalisierung durch die Zielsetzung zu rechtfertigen ist“ (S. 102).
Empirische Befunde im Bereich der Psychotherapieevaluation aus denen derartig
differenzierte Empfehlungen für die Evaluation von Psychotherapie in verschiedenen
Kontexten (u.a. Forschung, klinische Evaluation) abgeleitet werden könnten sind allerdings
rar. Hierzu bedürfte es einer differenzierten empirisch basierten Kenntnis der Charakteristika
der verschiedenen Verfahren, die Divergenzen und Konvergenzen in der Abschätzung des
Therapieerfolgs bedingen können. Diese Charakteristika müssten dann auf ihre Validität in
Bezug auf definierte Evaluationsziele hin geprüft werden, um so letztlich empirisch fundierte
best use (Hill & Betz, 2005) Empfehlungen geben zu können.
23
3. Methodische Probleme verschiedener Messansätze
Im Überblick zeigen Stieglitz und Baumann (2001) eine ganze Reihe von
spezifischen Problemen auf, die mit der jeweiligen Operationalisierung von Therapieerfolg
verbunden sind (vgl. auch Reinecker-Hecht & Baumann, 2005). Die unterschiedlichen mess-
bzw. testtheoretischen Problemlagen verschiedener Operationalisierungsstrategien bieten
erste Hinweise auf mögliche Ursachen ihrer Divergenzen in der Abbildung des
Therapieerfolgs und damit auch auf ihre Validität in Hinblick auf verschiedene
Evaluationsziele. Im Folgenden werden die spezifischen methodischen Problemlagen der
oben (vgl. Abb. 1) unterschiedenen Evaluationsverfahren resümiert.
3.1 Indirekte Veränderungsmessung
Einfache Differenzwerte zwischen Gruppen oder innerhalb einer Gruppe zu
verschiedenen Zeitpunkten (Prä-Post) stellen den klassischen und vermutlich
meistverwendeten Ansatz der Veränderungsmessung dar (Newman & Tejeda, 2004). Unter
indirekter Veränderungsmessung wird die mathematische Differenzwertbildung der
Statusmessung zu Therapiebeginn (Prä) und Therapieende (Post) verstanden (vgl. Abb. 1,
A2). Verfahren, die im Rahmen der Therapieevaluation zur Prä-Post Differenzwertbildung
verwendet werden, basieren in ihrer Entwicklung aber nahezu ausschließlich auf den
Annahmen der Klassischen Testtheorie (KTT). Allerdings lassen sich Veränderungen von
Messwerten (von Prä zu Post) nur schwer im Rahmen der KTT unterbringen. Die wahren
Merkmalswerte im Rahmen der Klassischen Testtheorie sind zeit- und bedingungsinvariant
definiert, so dass intraindividuelle Veränderungen in der Merkmalsausprägung letztlich als
Messfehler interpretiert werden müssten (vgl. Lienert & Raatz, 1998). Die stellt ein
Grunddilemma der Veränderungsmessung im Rahmen der KTT dar, dem nur schwer zu
24
entkommen ist. Werden wie bei der indirekten Veränderungsmessung dennoch Prä-Post
Differenzwerte berechnet, führt dies zu diversen Problemen wie Regressionseffekten, dem
Reliabilitäts-Validitäts-Dilemma und dem Physikalismus-Subjektivismus-Dilemma
(Bereiter, 1963; Spada, 1983). Die häufig gezeigte statistische Abhängigkeit von Prä-Post
Differenzwerten und Ausgangszustand (Prä) wird so z.B. als Regressionseffekt verstanden
(anders Rogosa & Willett, 1985; Speer, 1992). Dieses Phänomen kann zu Verzerrungen bei
der Einschätzung des Therapieeffekts führen, insbesondere dann, wenn Patienten in ihren
Eingangswerten extreme Ausprägungen aufweisen. In Bezug auf Differenzwerte wird
angenommen, dass diese aufgrund von Mesfehlerkumulation weniger reliabel sind als die
ihnen zugrundeliegenden Statusmessungen (im Überblick Stieglitz, 2001; anders Willett,
Ayoub & Robinson, 1991; Speer, 1992). Korrelationen mit Differenzwerten sollen daher
häufig zu statistischen Artefakten führen. Das Reliabiltäts-Validitätsdilemma kann als
erzwungene Entscheidung zwischen einer hohen Validität der Statusmessungen (Prä, Post)
oder einer hohen Reliabilität der Differenzwerte (Prä-Post) beschrieben werden: Je höher die
Korrelation zwischen den Statusmessungen, desto niedriger ist die Reliabilität der
Differenzwerte. Je niedriger die Korrelation zwischen den Statusmessungen, desto niedriger
ist ihre Validität. Das Physikalismus-Subjektivismus-Dilemma stellt in Frage, ob gleiche
Differenzwerte an verschiedenen Stellen des Messwertkontinuums die gleiche subjektive
Bedeutung repräsentieren. Bewertet eine Person den Verlust von 20 kg Gewicht anders,
jenachdem ob sie mit 90 kg oder mit 120 kg in die Diät gestartet ist?
Diese Grundprobleme der indirekten Veränderungsmessung lassen sich innerhalb der
KTT nur schwer lösen (Pawlik, 1976) und stellen auch an die Probabilistische Testtheorie
große Herausforderungen (vgl. Doucette & Wolf, 2009; Rost, 1996). Versuche die
Veränderungsmessung im Rahmen der KTT zu „retten“ müssen in Anbetracht ihrer
Grundannahmen auf die Stabilität der Messwerte abstellen. Stieglitz, Baumann, Tobien &
25
von Zerssen (1980) fordern so die Konstanz der Trennschärfekoeffizienten, der Reliabilität
und der Faktorenstruktur der eingesetzten Instrumente. Stieglitz und Baumann (2001) wollen
die Forderung der Konstanz der Faktorenstruktur auch auf abstraktere Konstrukte wie
Therapieerfolg insgesamt ausgeweitet sehen. Wie Zielke (1999) ausführt, verändern sich die
einzelnen Teilaspekte eines multifaktoriellen Syndroms (z.B. Depression) im Laufe der
Therapie aber vermutlich nicht homogen. Dies sollte einen Einfluss auf die faktorielle
Struktur entsprechender Instrumente (z.B. BDI) oder abstrakter Konstrukte (z.B.
Therapieerfolg) zu verschiedenen Zeitpunkten haben. Weitere Konzepte zur Rettung der
KTT in der Veränderungsmessung wie änderungssensitive Items werden als Lösungsversuch
ebenfalls kritisch betrachtet und scheinen für Mehrfachmessungen über
Zweipunkterhebungen hinaus nicht geeignet (im Überblick Maier, Albus & Bech, 1990). Die
verbreiteste Vorgehensweise besteht im nachträglichen Nachweis der Änderungssensitivität
eines Instruments über die Konvergenz (meist Korrelation) mit anderen
Veränderungsmaßen. Hierzu müsste aber wiederum die Änderungssensitivität der Kriterien
belegt sein. Den Grunddilemmata der indirekten Veränderungsmessung entkommen
derartige Lösungsvorschläge somit insgesamt nicht. Stelz (1982) argumentiert
darüberhinaus, dass Differenzwerte skalenabhängig sind und damit über Skalendefinitionen
und -transformationen manipulierbar seien. Cronbach und Furby (1970) spitzen ihr Urteil
über Differenzwerte in Anbetracht der Problemlage derart zu, dass sie von ihrer Verwendung
gänzlich abraten und vorschlagen, stattdessen between-group outcome und posttreatment
measures zu fokussieren.
26
3.2 Direkte Veränderungsmessung
Unter direkter Veränderungsmessung (vgl. Abb. 1, A1) werden Verfahren gefasst,
die in Komparativform (besser, schlechter) direkt nach der stattgefundenen Veränderung
fragen (u.a. Baumann, Sodemann & Tobien, 1980; Bereiter, 1963; Beutler & Crago, 1983;
Hill & Lambert, 2004; Michalak et. al., 2003; Stieglitz & Baumann, 1994; Zielke, 1999). In
einigen wenigen Fällen wird der Begriff direkte Veränderungsmessung aber auch als
Oberbergriff für eine Reihe von Verfahren verwendet, die direkt und somit für den Patienten
offensichtlich den Therapieerfolg adressieren statt eine Statusmessung (z. B. von
Symptomen) vorzunehmen. So verstanden werden dann z. B. auch
Zielerreichungsskalierungen oder Zufriedenheitsurteile als direkte Veränderungsmessung
aufgefasst werden (u.a. Flückiger, Regli, Grawe & Lutz, 2007; Krampen & Hank, 2008). Die
folgenden Ausführungen beziehen sich allerdings auf das ursprüngliche Verständnis der
direkten Veränderungsmessung in der Patienten in Komparativform (besser, schlechter)
direkt nach dem Ausmaß der subjektiv erlebten Veränderung gefragt werden (Bereiter,
1963). Die direkte Veränderungsmessung fordert Patienten auf, die Veränderung direkt
anzugeben und umgeht so das Reliabilitäts-Validitäts-Dilemma ebenso wie eine Regression
zur Mitte (vgl. Stieglitz & Baumann, 1994). Andererseits stellen sich in Bezug auf die
direkte Veränderungsmessung auch kritische Fragen, die Zielke (1999) zunächst auf drei
herunterbricht: (a) Sind die so gewonnenen Änderungswerte numerisch als Äquivalente zur
indirekten Veränderungsmessung anzusehen? (b) Kommt es dabei zu einer Überschätzung
der Veränderung? (c) Welchen Einfluss hat eine mögliche Änderung des Bezugssystems
(Sarris, 1971) in Verbindung mit den notwendigen Gedächtnisleistungen bei der
rückwärtsorientierten Einschätzung von Veränderungen über einen vorgegebenen Zeitraum?
In der Literatur werden dementsprechend vor allem Gedächtnis- Urteils- und
Bezugssystemfehler sowie damit verbunden eine mögliche Überschätzung des
27
Therapieerfolgs bei der direkten Veränderungsmessung diskutiert (vgl. im Überblick
Fydrich, 2006; Hill & Lambert, 2004; Reinecker-Hecht & Baumann, 2005; Stieglitz &
Baumann, 1994, 2001; vgl. auch Kastner & Basler, 1997; Lam & Bengo, 2003; Mintz 1972,
1977; Smith, Glass & Miller, 1980; Wiggins, 1973; Zielke, 1999).
Baumann und Kollegen (1980) führen geringe Korrelationen direkter und indirekter
Veränderungsmessung darauf zurück, dass Patienten schlichtweg vergessen, wie schlecht es
ihnen vor Beginn der Behandlung gegangen ist. Andererseits wird aber auch vermutet, dass
Patienten die intendierte Rückschau systematisch umgehen (Lam & Bengo, 2003) und statt
tatsächlich einen Differenzwert Prä-Post zu bilden von ihrem aktuellen Status auf eine
Veränderung schließen (Kastner & Basler, 1997; Michalak et al., 2003; anders Flückiger et
al., 2007). Die Abweichung vom intendierten Urteilsalgorithmus kann als
Bezugssystemfehler betrachtet werden. Zusätzlich zu Gedächtnis- und Bezugssystemfehlern
besteht der Verdacht, dass bei der direkten Veränderungsschätzung systematische
Antworttendenzen zum Tragen kommen könnten. Insbesondere werden Recency-Effekte,
Generalisierungseffekte, soziale Erwünschtheit oder eine systematisch erhöhte Zustimmung
bei Itemformulierungen angenommen, die in Richtung einer Verbesserung (anstatt
Verschlechterung) ausgelegt sind (vgl. Zielke, 1999; vgl. auch Smith et al., 1980; Wiggins,
1973).
3.3 Statistische Definition der Veränderung
Die Angabe einfacher Differenzwerte (Prä-Post) gibt keine Auskunft über die
statistische Bedeutsamkeit der Veränderung und bietet keine Möglichkeit, das Ausmaß der
Veränderung auf verschiedenen Instrumenten zu vergleichen. Verschiedene Erfolgswerte
wurden daher erarbeitet, um derartige Informationsdefizite des einfachen Differenzwertes zu
28
kompensieren (im Überblick Steketee & Chambless, 1992; vgl. auch Kordy & Hannöver,
2000; Newman & Tejeda, 2004; Ogles, Lambert & Masters, 1996; Zielke, 1999). So
gewichtet der Reliable Change Index (Jacobson et al., 1984; Jacobson & Truax, 1991) den
Differenzwert (Prä-Post) am Standardfehler, um die statistische Bedeutsamkeit einer
Veränderung verlässlich zu bestimmen. Effektstärken erreichen über die Standardisierung
von Differenzwerten eine Vergleichbarkeit verschiedener Veränderungswerte (vgl. Cohen,
1988). Grawe et al. (1994) schlagen zur Darstellung der indirekten Veränderungsmessung
(iVM) Prä-Post Effektstärken vor, die den einfachen Differenzwert an der
Standardabweichung der Prä Messung gewichten.
!"#$% = %()ä+%(,-./0()ä (1)
Kritisierbar bleibt bei derartigen Vorschlägen stets die Auswahl der herangezogenen
Parameter. Hartmann und Herzog (1995) zeigen in Bezug auf Effektstärken, dass
verschiedene Berechnungsformen im Großen und Ganzen zwar insgesamt vergleichbare
Effekte ausweisen, dennoch könnten auch hier systematische Verzerrungen durch die
jeweilige Methode angenommen werden (vgl. auch Maier-Riehle & Zwingmann, 2000).
Wenn zum Beispiel innerhalb von Behandlungsgruppen auf die Prä-Streuung als Maß der
Gewichtung zurückgegriffen wird, sollten aufgrund der geringeren Streuung stets höhere
Effektstärken resultieren als würde die Post-Streuung verwendet.
29
Neben Differenzwerten (d-Familie) kann aber auch auf Korrelationen
zurückgegriffen werden (r-Familie) um Veränderung zwischen zwei Messzeitpunkten
abzubilden (vgl. Lutz & Böhnke, 2010).
In general, when one is presented with measurements taken at two time points there
are several ways in which the analysis may be approached, the the most obvious are
either to work with difference scores or to use the first occasion's measurements as
covariates in analysing the second (Hand & Taylor, 1987; S. 166).
Bei der Binominal Effect Size Display (Rosenthal, Rosnow & Rubin, 2000) wird z.B.
der Interventionseffekt über die Punkt-biserielle Korrelation zwischen der dichotomisierten
Behandlungsbedingungen (Experimental vs. Behandlungsgruppe) und dem dichotomisierten
outcome (Erfolg vs. kein Efolg) bestimmt. Residual Gain Scores gewichten den
Differenzwert dagegen an der Korrelation von Prä- und Post-Messung oder an der
Korrelation von Prä-Messung und Prä-Post Differenzwert. Hierbei kann kritisch angemerkt
werden, dass die statistische Bereinigung von Differenzwerten um Unterschiede in den
Ausgangswerten im Sinne der ökologischen Validität insgesamt nicht sinnvoll erscheint.
Zudem beraubt die Adjustierung mittels einer Statusmessung den Veränderungswert um die
Eigenschaft eines reinen Prozessmaßes. Der Residual Gain Score weist dabei vermutlich
zudem kombinierte Messfehler aus Status-und Differenzwerten auf (vgl. Newman & Tejeda,
2004). Hill und Lambert (2004) empfehlen in ihrer Überblicksarbeit: “At this point in time,
the raw change score remains the metric of choice for most circumstances in which client
change is to be assessed” (S. 123). Denn auch die sophistizierten Maßformeln (Pawlik,
1976) lösen die oben geschilderten Dilemmata der indirekten Veränderungsmessung im
Rahmen der KTT nicht.
30
3.4 Zufriedenheitsurteile
Im Rahmen der Qualitätssicherung erleben Zufriedenheitsurteile (Abb. 1, B1) in
jüngerer Zeit eine Renaissance, da sie in diesem Feld als relevantes Kriterium betrachtet
werden. Dort beziehen sie sich allerdings auch auf Aspekte der Struktur- und nicht
ausschließlich der Ergebnisqualität (vgl. Piechotta, 2008). Im Bereich der
Psychotherapieevaluation standen Zufriedenheitsurteile vor allem im Zuge der
Auseinandersetzung um die Consumer Reports Study (Seligman, 1995) stark in der Kritik.
Es wurde angenommen, dass in Zufriedenheitsurteilen eher die Erfüllung globalerer
Erwartungen abgebildet wird als punktgenau Psychotherapieerfolg zu messen (vgl. Mintz,
Drake & Crits-Christoph, 1996). Methodisch erscheint es problematisch, dass es kaum nicht
zufriedene Therapiepatienten gibt, so dass die Verteilungen der erhaltenen Antworten in der
Regel extrem linksschief sind (vgl. Laireiter, 2001). Jacob und Bengel (2000) zeigen im
Überblick für die medizinische Versorgung, dass eine elaborierte Theorie der
Patientenzufriedenheit fehlt. Insgesamt resümieren die Autoren, dass das Konstrukt
Patientenzufriedenheit theoretisch und empirisch große Lücken aufweise. Großer
Forschungsbedarf bestünde dabei vor allem auch in Bezug auf das Zustandekommen der
Zufriedenheitsurteile bei Patienten. Mitunter wird Zufriedenheitsurteilen aber auch der
Status einer eigenen Dimension der Erfassung von Therapieerfolg zugesprochen. So werden
sie in Kontrast zu indirekten (Lunnen & Ogles, 1998; Pekarik & Wolf, 1996) und auch
direkten (Seligman, 1995) Veränderungsmessungen gesehen. Seligman (1996) argumentiert,
dass retrospective change scores (direkte Veränderungsmessung) und satisfaction scores nur
mit r = .27 korrelieren und somit eine andere Dimension von Psychotherapieerfolg
repräsentieren (vgl. auch Lunnen & Ogles, 1998; Pekarik & Wolf, 1996, anders u.a.
Flückiger et al., 2007; Michalak et al., 2003).
31
3.5 Individuelle Zielerreichung und normativer Vergleich
Bei der individuellen Zielerreichung (vgl. Abb. 1, B2) werden idiosynkratisch
definierte Therapieziele auf das Ausmaß ihres Erreichens hin evaluiert. Hierbei lassen sich
eine ganze Reihe von Verfahren unter das Konzept der Zielerreichungsskalierung fassen (im
Überblick Stieglitz & Haug, 1995). Zielerreichungsskalierungen bieten über den evaluativen
Verwendungszweck hinaus weitere Vorteile in Bezug auf die allseitige Transparenz und die
Stringenz der Therapieplanung (Kordy & Hannöver, 1999; Schulte, 1996). Diese Vorteile
sollen gar die Therapie insgesamt effektiver machen (Guy & Moore, 1982). Eine weit
verbreitete Variante der Zielerreichungskalierung ist das Goal Attainment Scaling (GAS;
Kiresuk & Sherman, 1968). Zu Therapiebeginn werden individuelle Ziele des Patienten
formuliert und ihr Erreichen im Therapieprozess oder zu Therapieende im Selbst- oder
Fremdurteil evaluiert. Hierbei stellen allerdings sowohl die intra- und intersubjektive
Varianz der Ziele, als auch die Verwendung verschiedenster modifizierter Varianten der
GAS die Vergleichbarkeit der Befunde über verschiedene Zeitpunkte, Individuen und
Studien hinweg in Frage (Cytrynbaum, Ginath, Birdwell & Brandt, 1979; Guy & Moore,
1982). „GAS is itself a variety of different methods“ (Hill & Lambert, 2004, S. 111). Zudem
scheinen die Auswahl und die Bestimmung des Erreichens von Therapiezielen beeinflusst
von Therapeuten und Patientencharakteristika, so dass empfohlen wird, derartige
Einschätzungen Dritten zu überlassen. Die Schwierigkeit der jeweils gesetzten Ziele variiert,
was die Vergleichbarkeit der Werte zusätzlich erschwert. Insgesamt ist auch zu bemängeln,
dass der Prozess der Zielbestimmung nicht standardisiert ist und hohe kognitive
Anforderungen stellt (vgl. Baily & Simeonson, 1988). Einzelne Ziele der GAS
interkorrelieren oft, was einerseits deren Unabhängigkeit fraglich erscheinen lässt,
andererseits aber auch als Argument für die Zulässigkeit der Verrechnung verschiedener
Ziele zu Summenwerten betrachtet werden kann (vgl. Kiresuk, Smith & Cardillo, 1994). Ein
32
Beispiel für einen normativen Vergleich der Zielerreichung stellt das sogenannte End State
Functioning dar (im Überblick Ogles et al. 1996). Hier werden für jedes verwendete Maß
zunächst Zielkriterien definiert. Das Ausmaß der Zielerreichung lässt sich anschließend
quantitativ in der Summe der erreichten Zielkriterien abbilden. Die konsensuelle Setzung
von Cut-off Werten oder die Definition von Zielkriterien können dabei aber wiederum
durchaus kritisch betrachtet werden, da dies aufgrund des Fehlens normierter Instrumente
abermals einer gewissen Willkür unterliegt. Eine größere Kontroverse innerhalb der
klinischen Evaluationsforschung betrifft die Frage, ob Verfahren bzw. Instrumente
standardisiert oder individualisiert gestaltet sein sollten. Individualisierte Messungen
könnnen direkt auf die spezifischen Problemlagen und Ziele des einzelnen Patienten
zugeschnitten werden und zeigen daher eine höhere Veränderungssensitivität (Ogles et al.,
1990). Daten standardisierter Verfahren lassen sich wiederum einfacher aggregieren und
bieten damit die Möglichkeit eines aussagekräftigen interpersonellen Vergleichs.
Individualisierte Formen der Zielerreichung erfahren insgesamt jedoch weniger Zuspruch in
Evaluationsstudien als andere Formen der Operationalisierung: „At this point however, the
individualized measures receive far less attention in the literature and could be a useful
source of future research regarding the rich and complex nature of individual client response
to intervention” (Ogles, 2013, S. 149).
3.6 Statistische Definition der Zielerreichung
Werden statistisch bedeutsame Unterschiede bei einem Vergleich von Behandlungs-
und Kontrollgruppe oder der Differenz von Statusmessungen (z.B. Prä-Post) ausgewiesen
muss dies nicht in jedem Fall eine bedeutsame klinische Relevanz aufweisen. Im Rahmen
der Diskussion um die klinische Bedeutsamkeit von Veränderungen existieren eine ganze
33
Reihe verschiedener Konzepte (im Überblick Lambert, Hansen & Bauer, 2008; vgl. auch
Jacobson, Roberts, Berns & McGlinchey, 1999; Kendall et al., 1999). Den gängigsten
Ansatz stellt vermutlich das Konzept des Clinical Significant Change dar (Jacobson et al.,
1984; Jacobson & Truax, 1991). Hier wird die statistische Signifikanz einer Prä-Post
Veränderung mit der Beurteilung der Populationszugehörigkeit des Patienten zu
Therapiebeginn und Therapieende kombiniert (im Überblick Ogles, Lunnen, & Bonesteel,
2001; vgl. auch Fydrich, 2006; Hahlweg, 2000). Idealerweise sollte ein Patient zu Beginn
der Behandlung in einer klinischen Population zu verorten sein, nach der Therapie sollten die
Testwerte allerdings in den Wertebereich einer gesunden Vergleichspopulation (bzw.
außerhalb einer klinischen Population) fallen. Klinische Signifikanz fordert demnach die
Rückkehr zum normal functioning (Jacobson et al., 1999). Leider liegen nur für äußerst
wenige klinische Verfahren tatsächlich Normwerte vor, so dass meist auf konsensuelle Cut-
off Werte zurückgegriffen wird, die die jeweilige Populationszugehörigkeit (funktional,
dysfunktional) definieren sollen. Schmitz und Davies-Osterkamp (1997) zeigen den Einfluss,
den die Anwendung verschiedener Trennpunkte auf die Abbildung der klinisch bedeutsamen
Besserung haben kann. Die klinische Signifikanz eignet sich zwar gut, bedeutsame
Verbesserungen abzubilden, nicht jedoch zur Erfassung bedeutsamer Verschlechterungen
(Ogles et al., 1996). Zudem zeigte sich die Klassifikation abhängig vom jeweils konkret
gewählten Instrument (im Überblick Lambert et al., 2008). Es bleiben eine ganze Reihe von
Fragen offen, die hier nur kurz angedeutet werden sollen: Müssen mehrere Verfahren
herangezogen werden, um klinisch signifikante Veränderungen zu definieren? Und wenn ja,
wie viele? Wie sollen Cut-off Punkte gesetzt werden? Braucht es dazu zwingend normierte
Instrumente? Braucht man normalverteilte Daten? Was ist mit Boden- und Deckeneffekten?
Sind Verfahren, die in Richtung Pathologie konstruiert wurden, überhaupt valide zur
Messung des ungestörten Zustands? Welche Referenzgruppe ist valide? Und wie ist mit
34
Patienten umzugehen, die aufgrund einer Chronifizierung den funktionalen Status nicht mehr
erreichen werden, oder die zu Beginn der Therapie (evtl. trotz Vorliegens einer gesicherten
Diagnose) symptomatisch nicht in der dysfunktionalen Population zu verorten sind (vgl. im
Überblick Kendall et al., 199; Lambert et al., 2008; Ogles, 2013; Ogles et al., 2001; Wise,
2004). Mittlerweile existiert eine ganze Reihe von Weiterentwicklungen, die vor allem
strittige Punkte in Bezug auf die Berechnung statistisch bedeutsamer Veränderung und die
Verwendung verschiedener Cut-off Werte betreffen (im Überblick Wise, 2004). Unbestritten
scheint aber, dass die klinische Siginifikanz insgesamt ein eher konservatives Maß für den
Psychotherapieerfolg darstellt (Wise, 2004). Einer ähnlichen Logik wie die klinisch
bedeutsame Veränderung folgen auch Ansätze, die erwünschte oder normative
Verlaufsparameter definieren und den Verlauf von einzelnen Patienten mit diesen Werten
vergleichen. Je nach Ergebnis dieses Vergleichsurteils können so Response, Remission,
Rückfall, Genesung oder Rezidive identifiziert werden (vgl. Riso, Thase, Howland,
Friedman, Simons & Tu, 1997). Wachstumsanalysen (Lutz, 2002) ziehen als
Vergleichswerte für die Werte einer einzelnen Therapie die Verlaufsparameter sogenannter
ähnlicher Patienten heran. Die Figurationsanalyse (vgl. Grawe, 1998) bewertet die
Ergebnis- und Verlausparameter eines einzelnen Patienten vor dem Hintergrund einer
Referenzpopulation. Kritisch bleibt aber auch hier stets die konsensuelle Setzung von
Trennpunkten oder anderen Vergleichsparametern (vgl. Tedlow, Fava, Uebelacker,
Nierenberg, Alpert & Rosenbaum, 1998).
4. Empirische Dimensionen des Therapieerfolgs
Insgesamt kann festgestellt werden, dass sämtliche Verfahren der
Psychotherapieevaluation methodische Einschränkungen aufweisen. Derartige
35
Einschränkungen können auch als Ursache von Divergenzen verschiedener Verfahren in der
Abbildung des Therapieerfolgs in Betracht gezogen werden. Faktorenanalytische
Untersuchungen bieten die Möglichkeit eine größere Zahl verschiedener
Therapieerfolgswerte auf wenige Dimensionen des Therapieerfolgs herunterzubrechen. Hill
und Lambert (2004) sehen im Überblick der Ergebnisse der klinischen Evaluationsforschung
in der Unterscheidung direkter und indirekter Veränderungsmessung eine broad dimension
(S. 114) der Therapieerfolgsoperationalisierung. Ogles (2013) betont in seinem Überblick
zur klinischen Evaluationsforschung die Quelle (Selbst vs. Fremdbeurteilung) als große
Ursache von Divergenzen zwischen Erfolgswerten. Diese beiden großen Dimensionen der
Psychotherapieevaluation konnten in verschiedenen faktorenanalytischen Untersuchungen
wiederholt als sogenannte Methodenfaktoren repliziert werden (im Überblick Hill &
Lambert, 2004; Ogles, 2013). Erstaunlich ist bei derartigen Befunden, dass inhaltliche
Unterschiede der Verfahren meist keinen systematischen Einfluss auf die Gruppierung der
Faktoren zeigen. Zwei neuere faktorenanalytische Studien betonen die Unterscheidung von
Veränderungsmaßen (indirekte Veränderungsmaße) und retrospektiven Erfolgsbeurteilungen
(Michalak et al., 2003; Flückiger et al., 2007) und fokussieren damit die Zeitperspektive (vgl.
Baumann, 1982) als bedeutsames Unterscheidungsmerkmal verschiedener Verfahren.
Im Folgenden werden diese drei Dimensionen - direkte und indirekte
Veränderungsmessung, Fremd- und Selbsturteil sowie indirekte Veränderungsmaße und
retrospektive Verfahren - als empirisch belegte Taxonomien von Evaluationsverfahren
ausführlicher dargestellt.
36
4.1 Direkte und indirekte Veränderungsmessung
Stieglitz und Baumann (2001) nenen als zentrale Unterschiede der direkten (Abb. 1,
A1) und indirekten (Abb. 1, A2) Veränderungsmessung folgende Punkte: (a) die Anzahl der
notwendigen Messzeitpunkte (Ein- vs. Zweipunkterhebungen), (b) die Generierung der
Messwerte (abgeleitet vs. direkt) und (c) die Art des Messvorgangs (Status vs.
Retrospektion). Diese beiden unterschiedlichen Herangehensweisen bringen jeweils
spezifische Problemlagen mit sich, die oben ausführlicher erörtert wurden. Es erscheint
somit wenig verwunderlich, dass direkte und indirekte Veränderungsmessungen in einer
Vielzahl von Studien lediglich moderate Zusammenhänge aufweisen (im Überblick Stieglitz
& Baumann, 1994, 2001; vgl. auch Baumann et al., 1980; Fischer, Stewart, Bloch, Lorig,
Laurent & Holman, 1999; Kastner & Basler, 1997; Kohlmann & Raspe, 1998; Raspe,
Weber, Voigt, Kosinski & Petras, 1997; Zielke, 1999). Derartige Ergebnisse werden
überwiegend dahingehend interpretiert, dass direkte und indirekte Veränderungsmessungen
eigenständige Dimensionen des Therapieerfolgs darstellen und daher in einem
Ergänzungsverhältnis gesehen werden müssen (im Überblick Hill & Lambert, 2004; Stieglitz
& Baumann, 1994, 2001; Zielke, 1999 vgl. auch Flückiger et al., 2007; Krampen, 2010;
Michalak et al., 2003). Green, Glaser & Stone (1975) vermuten, dass bei Prä-Post
Differenzwerten Messfehler aus beiden Messungen kumulieren, was Konvergenzen mit
anderen Verfahren verdecken könnte (vgl. auch Stelz, 1982). In Bezug auf die direkte
Veränderungsmessung werden sowohl das Vergessen des Ausgangszustandes (Baumann et
al., 1980) oder aber das systematische Umgehen der Retrospektive (Kastner & Basler, 1997;
Michalak et al., 2003; anders Flückiger et al., 2007) für Divergenzen mit anderen Verfahren
verantwortlich gezeichnet. Kohlmann und Raspe (1998) vermuten eine generelle Tendenz
der direkten Veränderungsmessung zur Bildung eines eigenständigen Faktors. Während also
bei der indirekten Veränderungsmessung die mathematische Operation der
37
Differenzwertbildung und die damit einhergehenden statistischen Effekte Divergenzen mit
der direkten Veränderungsmessung provozieren könnte (Green et al., 1975), werden auf
Seiten der direkten Veränderungsmessung Gedächtnis- (Baumann et al., 1980) oder
Bezugssystemfehler (Kastner & Basler, 1997) des Beantwortenden als Verantwortliche
Mechanismen vermutet.
4.2 Selbst- und Fremdurteil
Selbst- und Fremdbeurteilungen divergieren in der Darstellung des Therapieerfolgs
häufig (im Überblick Lambert & Hawkins, 2004; Ogles, 2013). In einer umfassenden Meta-
Analyse von outcome Studien im Bereich der Depressionsbehandlung konnten Cuipers, Li,
Hofmann und Andersson (2010) zeigen, dass Urteile von Klinikern bedeutsam höhere
Therapieeffekte ausweisen als Selbsturteile. Für Depressionsmaße konnten Corruble,
Legrand, Zvenigorowsky, Duret und Guelfi (1999) im Literaturüberblick eine weite Range
der Korrelationen zwischen den Werten aus verschiedenen Quellen zeigen die von r = .2 bis
r = .8 reicht. Geringe Übereinstimmungen seien dabei laut Autoren nicht nur auf
Messungenauigkeiten zurückzuführen. Fremd- und Selbsturteile basierten auf völlig
unterschiedlichen sich ergänzenden Perspektiven. Für die Kinder- und
Jugendpsychotherapie, in der Einschätzungen von (nahen) Bezugspersonen große Bedeutung
beigemessen wird, berichten De Los Reyes und Kazdin (2005) in ihrer Metaanalyse ähnliche
Ergebnisse: „Different informants´(e.g. parents, teachers, children) ratings of social,
emotional, or behavior problems in children are discrepant (e.g., r s often in the .20)“ (S.
483). Nach Reinecker-Hecht und Baumann (2005) kann die Fremdbeurteilung keineswegs
als objektiver bezeichnet werden, vielmehr müsse beiden Zugangsweisen die gleiche
wissenschaftliche Dignität zugestanden werden. Hill und Lambert (2004) fassen hierzu
38
zusammen: „Observational data can be just as vulnerable to distortion as self-report
measures . . . none of these viewpoints is „objective“ or most authoritative“ (S. 106).
Seidenstücker und Baumann (1987) gehen davon aus, dass sich Divergenzen verschiedener
Urteiler auf unterschiedliche Bezugssysteme zurückführen lassen. Sie postulieren, dass
Fremdurteile per se eher die wahrgenommene Differenz zwischen gegenwärtigem und
vergangenem beobachtbaren Verhalten als Bezugspunkt fokussieren, während für Patienten
die zentrale Perspektive der Unterschied von gegenwärtigem und vergangenem Erleben zu
sein scheint. Die zentrale Annahme für Divergenzen verschiedener Quellen wird hier somit
in den unterschiedlichen Bezugssystemen (Sarris, 1971) der jeweiligen Beurteiler gesehen.
4.3 Indirekte Veränderungsmessung und retrospektive Verfahren
Zwei jüngere faktorenanalytische Studien (Flückiger et al., 2007; Michalak et al.,
2003) mit hoher Relevanz für die ambulante psychotherapeutische Versorgung zeigen in
Zusammenschau verschiedener Evaluationsverfahren (vgl. Abb. 1) ebenfalls
Methodenfaktoren auf. Beide Autorengruppen unterscheiden hierbei Prä-Post Differenzwerte
von sogenannten retrospektiven Verfahren.
Michalak und Kollegen (2003) grenzen in ihrer Studie Veränderungsmaße und
retrospektive Erfolgsbeurteilungen voneinander ab. Auf den Faktor Veränderungsmaße
laden dabei vor allem indirekte Veränderungsmessungen berechnet als Prä-Post Effektstärke
(Mprä-Mpost/SDprä; Grawe et al., 1994). Der Faktor retrospektive Erfolgsbeurteilung
umfasst vor allem Ladungen globaler Zufriedenheitsurteile (Abb. 1, B1) und
Zielerreichungsskalierungen (Abb. 1, B2). Die direkte Veränderungsmessung (Abb. 1, A1)
zeigt eine heterogene Ladung auf beide Faktoren. Für retrospektive Erfolgsbeurteilungen
zeigen die Autoren eine prognostische Bedeutung in Bezug auf Medikamenteneinnahme und
39
erneute Behandlungsaufnahme zum Katamnesezeitpunkt auf, die sich für Veränderungsmaße
nur sehr eingeschränkt zeigen lässt. Die Autoren gestehen in ihren Schlussfolgerungen
beiden Dimensionen den Status eigenständiger valider Evaluationsstrategien zu. Bei der
Erklärung der Divergenz beider Dimensionen in der Abbildung des Therapieerfolgs stellen
die Autoren auf zweierlei ab:
Neben diesen methodischen Unterschieden (indirekteVeränderungsmessung auf der
Grundlage einer zweifachen Statusdiagnostik vs. retrospektive Einschätzung)
unterscheiden sich die Verfahren des Faktors retrospektive Erfolgsbeurteilung von
denen des Faktors Veränderungsmaß außerdem hinsichtlich des zur Beurteilung des
Erfolgs gewählten Kriteriums. Die Erfolgswerte des ersten Faktors erfassen das
(berechnete) Ausmaß der erzielten Veränderung (Postwert im Vergleich zum
Präwert), die des zweiten Faktors hingegen das (subjektive) Ausmaß der
Zielerreichung (Postwert im Vergleich zum Ziel) (Michalak et al., 2003, S. 101).
Bedeutsame Zusammenhänge der retrospektiven Erfolgsbeurteilungen mit der
Restsymptomatik (Post-Werte) und geringe Zusammenhänge mit dem Ausgangszustand
(Prä-Werte) werden von den Autoren als Hinweis auf ein Bezugssystem der Beantwortenden
gedeutet, das vor allem auf den aktuellen Zustand in Relation zu den subjektiven Zielen
rekurriert (vgl. auch Kastner & Basler, 1997). Die Divergenz von Veränderung und
Zielerreichung wird von den Autoren dabei anschaulich so gefasst: „Umfangreiche
Symptomreduktion bedeutet nicht notwendigerweise eine relativ zufriedenstellende
Lebenssituation oder eine klinisch relevante Heilung oder Besserung, denn der erreichte
Zustand kann immer noch unbefriedigend sein. Umgekehrt stellt sich ein befriedigender
Lebenszustand eventuell schon nach einer geringen Symptomreduktion ein“ (S. 102).
40
Flückiger und Kollegen (2007) unterscheiden in ihrer Untersuchung zunächst
theoretisch retrospective measures unter die sie Zufriedenheitsurteile (Abb. 1, B1),
Zielerreichungsskalierungen (Abb. 1, B2) und direkte Veränderungsmessungen (Abb. 1, A2)
fassen von indirekten Veränderungsmaßen (Abb. 1, A1) die sie als pre-post measures
bezeichnen. In einer Hauptkomponentenanalyse aller dieser Erfolgsmaße zeigen die Autoren
zunächst eine einfaktorielle Struktur des Psychotherapieerfolgs. Eine konfirmatorische
Faktorenanalyse verweist dabei auf drei überlappende Methodenfaktoren, die pre-post
measures (Abb. 1, A1) von retrospective measures global mit Ladungen von Zielerreichung
(Abb. 1, B2) und Zufriedenheitsurteilen (Abb. 1, B1), sowie von retrospective measures
scales mit Ladungen direkter Veränderungsmessungen (Abb. 1, A2) abgrenzt. Die Autoren
betonen: „Therapeutic outcome seems to be unidimensional, and at the same time three
strongly overlapping method factors can be differentiated” (S. 363). Als mögliche Erklärung
für die Faktorenstruktur stellen die Autoren verschiedene Hypothesen auf, die die
Beteiligung von Retrospektion am Urteilsprozess umfassen, aber auch andere Möglichkeiten
benennen wie das Abstraktionsniveau der befragten Inhalte, die direkte Adressierung des
Therapieerfolgs, Unterschiede in den Iteminhalten, verschiedene Quellen und die
Konzeption des Therapierationals.
Obwohl somit in beiden Studien zugleich verschiedene Ursachen für die Divergenz
der Erfolgsmaße angenommen werden, betonen beide Studien in der Bezeichnung der
Faktoren die Zeitperspektive (Baumann, 1982) bzw. die Bedeutung der Temporalität (vgl.
Hill & Lambert, 2004) in Bezug auf die Divergenz der Verfahren: retrospektive Verfahren
(Rückschau in Einpunktmessung) werden von indirekten Veränderungsmaßen
(Differenzwert aus Statusmessungen) abgegrenzt.
41
5. Der retrospektive Vortest
Urteile in Selbstbeurteilungsfragebögen erfordern komplexe kognitive Operationen,
die meist auch retrospektive Informationen beinhalten. Offensichtlich ist dies, wenn wie zum
Beispiel im Brief Symptom Inventory (BSI; Franke, 2002) nach dem Leiden unter einem
Symptom innerhalb der letzten sieben Tage gefragt wird. Ein Bewertungshintergrund muss
konstruiert werden, autobiographische Erinnerungen müssen generiert und zusammengefasst
werden, ein Vergleichsmaßstab muss gesetzt werden und nach einem bestimmten
Algorithmus müssen die Elemente hierarchisiert und kombiniert werden (vgl. Collins, 2003).
Dennoch wird mitunter bezweifelt, dass retrospektive Urteile über Symptome - hiermit sind
meist Urteile über größere Zeiträume hinweg gemeint - valide sind. So vermuten Baumann
und Kollegen (1980), dass Divergenzen von direkter und indirekter Veränderungsmessung
darauf zurückzuführen sein könnten, dass die direkte Veränderungsmessung aufgrund der
mangelnden Erinnerbarkeit der früheren Symptome verzerrt ist. Implizit steckt in der
Benennung der Faktoren retrospektive Erfolgsbeurteilung bei Michalak und Kollegen (2003)
oder retrospective measures bei Flückiger und Kollegen (2007) die Interpretation, die
Retrospektive sei das gemeinsame Charakteristikum dieser Verfahren und erkläre die
Divergenz zu den Veränderungsmaßen bzw. pre-post measures. Bis dato existieren
allerdings nur wenige Studien die die Güte retrospektiver Symptomeinschätzungen an
klinischen Stichproben untersuchten (im Überblick Safer & Keuler, 2002; vgl. auch Schmidt,
Steffanowski, Nübling, Lichtenberg & Wittmann, 2003; Stieglitz, 1990).
Der retrospektive Vortest (Stieglitz, 1990) fordert Patienten explizit auf, das Erleben
und Verhalten eines früheren Zeitpunktes (zum Beispiel des Therapiebeginns) zu
rekonstruieren. Vor allem außerhalb der klinisch psychologischen Forschung existiert ein
reger Diskurs in Bezug auf die Validität derartiger retrospektiver Erhebungen und aus ihnen
42
abgeleiteter Erfolgswerte. Die dortigen Befunde bieten eine große Zahl von
Anküpfungspunkten für die Untersuchung retrospektiver Erfolgswerte im Rahmen der
Psychotherapie. Es existiert zwar eine Reihe von Studien die unter Rückgriff auf klinische
beeinträchtigte Populationen die retrospektive Einschätzung von Affekten untersuchen.
Häufig werden hierbei allerdings unstandardisierte Instrumente verwendet (u.a. Ben-Zeev,
Young & Madsen, 2009; Bryant, 1993; Hodgins, el-Guebaly & Armstrong, 1995;
Zimmerman & Coryell, 1986) oder die Studien sind eher in der Gedächtnisforschung zu
verorten (im Überblick Ehlers & Lüer, 1996; Williams, Barnhofer, Crane, Hermans, Raes,
Watkins & Dalgleish, 2007). Studien allerdings, die die die initiale Symptomausprägung
mittels retrospektiven Vortest adressieren, sind rar (im Überblick Safer & Keuler, 2002; vgl.
auch Stieglitz, 1990). Ein prominentes Beispiel für die Verwendung des retrospektiven
Vortests stellt die Consumer Reports Study (Seligman, 1995) dar. Ehemalige
Psychotherapiepatienten sollten zur Einschätzung des Therapieerfolgs (0-3 Jahre nach
Therapieende) vor allem Fragen zu Zufriedenheit, Zielerreichung und subjektiv
eingeschätzter Veränderung (direkte Veränderungsmessung) beantworten. Zudem wurden
die ehemaligen Patienten retrospektiv nach ihrem Befinden zu Therapiebeginn und
Therapieende befragt. Einer der vielen Kritikpunkte gegenüber der Consumer Reports Study
betraf diese retrospektiven Erhebungen. So wurde vor allem die Fähigkeit bezweifelt, sich
reliabel an früheres Erleben und Verhalten zu erinnern (Mintz et al., 1996). Abbildung 2
zeigt die idealtypische Darstellung von Ergebnissen, die den retrospektiven Vortest in Bezug
auf psychopathologische Symptome im Rahmen der Psychotherapie verwenden (im
Überblick Safer & Keuler, 2002; vgl. auch Schmidt et al., 2003; Stieglitz, 1990). Der
retrospektive Vortest erhebt die Prä-Werte (Prä) retrospektiv (Retro) am Ende (Post) der
Therapie. Wenn ebenfalls eine reguläre Prä-Messung vorliegt, können verschiedene
Differenzwerte berechnet werden, die eine vertiefte Untersuchung des retrospektiven
43
Vortests und daraus abgeleiteter Veränderungsmaße erlauben. Der Differenzwert Prä-Post
beschreibt die indirekte Veränderungsmessung (Abb. 2, A). Als Äquivalent zur indirekten
Veränderungsmessung kann der Differenzwert Retro-Post als alternatives Veränderungsmaß
berechnet werden. Schmidt und Kollegen (2003) bezeichnen dieses aus dem retrospektiven
Vortest abgeleitete indirekte Veränderungsmaß als quasi-indirekte Veränderungsmessung
(Abb. 2, B). Der Differenzwert Retro-Prä kann als Maß für die Abweichung retrospektiver
und regulärer Prä-Werte betrachtet werden (Abb. 2, C). Die reguläre Prä-Messung (Prä)
bildet die Baseline der Symptomerhebung. Im Zuge einer erfolgreichen Therapie liegen die
Werte (z.B. eines Symptommaßes) zu Therapieende (Post) unter den Prä-Werten (Prä).
Zumeist zeigen die retrospektiv zu Therapieende erhobenen retrospektiven Prä-Messungen
(Retro) deutlich höhere Werte als die regulär zu Therapiebeginn (Prä) erhobenen
Messungen. Quasi-indirekte Veränderungsmaße weisen in diesem Fall meist einen größeren
Therapieerfolg aus als indirekte Veränderungsmessungen. Außerhalb der klinischen
Forschung existiert ein elaboriert geführter Diskurs über die verantwortlichen Prozesse der
Abweichung von Retro- und Prä-Messungen (Abb. 2, C). Kritiker sehen dabei in der
Differenz Prä-Post den wahren Wert der Veränderung und vermuten eine systematische
Überschätzung des Interventionserfolgs durch quasi-indirekte Veränderungswerte. Sie sehen
den retrospektiven Vortest dabei mit einer ganzen Reihe von Urteilsfehlern konfundiert (im
Überblick Hill & Betz, 2005; Levine, Safer & Lench, 2006; Norman, 2003; Safer & Keuler,
2002; Taylor, Russ-Eft & Taylor, 2009).
44
Abbildung 2
Graphische Darstellung indirekter und quasi-indirekter Veränderungsmessung sowie der
Differenz Retro-Prä
Bei den wenigen vorhandenen Studien stellt die geringe Vergleichbarkeit der
Befunde aufgrund unterschiedlicher Zielvariablen, verschiedener überblickter Zeiträume,
heterogener Stichproben und verschiedener methodischer Designs ein Problem dar. Dies
zeigt die Darstellung von drei relevanten Studien zum retrospektiven Vortest.
Stieglitz (1990) konnte keine statistisch bedeutsamen Unterschiede zwischen
retrospektiven und regulären Prä-Werten auf der Beschwerdeliste (BL; von Zerssen, 1976)
zeigen. Zwischen Retro- und Prä-Messung bestand dabei ein statistisch bedeutsamer
Zusammenhang von r = .55. Quasi-indirekte Veränderungsmessungen (Retro-Prä
45
Differenzwert) der BL zeigten tendentiell höhere Zusammenhänge mit der Beurteilung der
globalen Zustandsänderung im Fremdurteil als die reguläre indirekte Veränderungsmessung
(Prä-Post Differenzwert). Alter, Geschlecht und Aufenthaltsdauer zeigten dabei keinen
Zusammenhang mit der Überschätzung der initialen Symptomatik. Quasi-indirekte
Veränderungswerte unter Verwendung retrospektiver Prä-Werte der Subskala
Verstimmungsstörungen (Ve) der Kieler Änderungssensitive Symptomliste (KASSL; Zielke,
1979) zeigten statistisch bedeutsame Bezüge zu direkten und indirekten
Veränderungsmessungen mit ca. 40-70% gemeinsamer Varianz. Quasi-indirekte
Veränderungswerte korrelierten dabei tendentiell höher mit direkten Veränderungswerten
und Fremdeinschätzungen der Veränderung als indirekte Veränderungsmaße. Quasi-
indirekte Veränderungsmessungen werden von Stieglitz (1990) daher resümierend als
„sensitives Maß zur Abbildung subjektiv erlebter Veränderung“ (S. 149) bezeichnet.
Safer und Keuler (2002) untersuchen die Validität des retrospektiven Prä-Tests in
Beratung und Psychotherapie. Neben statistisch bedeutsamen retrospektiven
Überschätzungen der Prä-Werte durch die Retro-Werte, zeigten reguläre und retrospektive
Prä-Werte in zwei der dargestellten Studien bedeutsame Zusammenhänge (r = .83 - .84; p <
.01). Safer und Keuler (2002) beschreiben den retrospektiven Vortest schlussfolgernd daher
als „highly reliable, though not necessarily accurate“ (S. 173). In Studie 1 zeigen die
Autoren, dass vor allem Personen die Prä-Werte überschätzen, die auf indirekten
Veränderungsmessungen operationalisiert nicht von der Therapie profitierten. Es zeigten
sich allerdings keine Zusammenhänge der Überschätzung mit der subjektiv
wahrgenommenen Hilfe und Veränderung oder einer direkten Veränderungsmessung im
Fremdurteil. Die Autoren zeigen in Studie 2 einen bedeutsamen negativen Zusammenhang
der gezeigten Überschätzung (Retro-Post Differenzwert) mit dem Prä-Post Differenzwert (r
= .44; p < .01) und einen bedeutsam positiven Zusammenhang mit den Post-Werten (r = .43;
46
p < 0.1) auf der Hopkins Symptom Checklist(desselben Instruments (HSCL; Derogatis,
Lipman, Rickels, Uhlenhuth & Covi; 1974). Die höheren retrospektiven Werte für die
Symptomatik könnten somit laut Autoren dadurch motiviert sein, eine Veränderung
wahrzunehmen, die objektiv nicht stattgefunden hat. Die Darstellung des Therapieerfolgs
durch die quasi-indirekte Veränderungsmessung weist in Studie 2 höhere Therapieeffekte
aus als indirekte Veränderungswerte. Safer und Keuler (2002) zeigen darüber hinaus einen
positiven Zusammenhang (Korrelation) der Überschätzung (Retro-Post Differenzwert) mit
Neurotizismus, Angst und Depression (r = .31 - 34; p < .01), sowie einen negativen
Zusammenhang mit Ich-Stärke (r = .39; p < .01), Selbsttäuschung (r= .26; p < .05) und
Lügen (r = .24; p < .05). In einer dritten Studie zeigen die Autoren keine Überschätzung in
einer studentischen Kontrollgruppe. Resümierend konstatieren die Autoren eine reliable aber
nicht akkurate retrospektive Messbarkeit der initialen Belastung. Überschätzungen
repräsentierten dabei eine positive illusion of change.
Schmidt und Kollegen (2003) untersuchen verschiedene Erfolgskriterien im Rahmen
der Rehabilitation. Für die retrospektive Einschätzung der Symptomatik auf einem selbst
entworfenen Instrument konnten sie statistisch bedeutsam höhere retrospektive Werte sowie
einen deutlichen Zusammenhang von Retro- und Prä-Messungen (r = .64; p < .01) zeigen.
Die Zusammenhänge indirekter und quasi-indirekter Veränderungsmaße zu diversen anderen
Psychotherapieerfolgsmaßen in Form von verschiedenen Selbst- und Fremdurteilen zeigen
dabei keine bedeutsamen Unterschiede. Für die indirekte Veränderungsmessung lassen sich
bedeutsame Zusammenhänge mit den Ausgangswerten zeigen, nicht allerdings für die quasi-
indirekte Veränderungsmessung. Mittels linearer Regression konnte aus
soziodemographischen Daten (Geschlecht, Alter, Schulbildung) kein bedeutsamer Prädiktor
isoliert werden, um direkte, indirekte und quasi-indirekte Veränderungsmessungen
vorherzusagen. Die Autoren halten in Anbetracht ihrer Ergebnisse die Annahme einer
47
grundsätzlichen Überlegenheit der indirekten Veränderungsmessung gegenüber der quasi-
indirekten Veränderungsmessung für unangemessen.
6. Ableitung der Fragestellungen der Studien
Das übergeordnete Ziel der vorliegenden Arbeit ist es, einen Beitrag zur Klärung der
Faktoren zu leisten, die zu Unterschieden in der Darstellung des Therapieerfolgs in
Abhängigkeit von der Operationalisierung führen können (Hill & Lambert, 2004). In der
Hoffnung, so auch neue Erkenntnisse über die Bedingungen von Divergenzen verschiedener
Erfolgswerte zu erhalten, werden in den drei geplanten Studien auch die weniger genutzten
Ansätze des retrospektiven Vortests und der direkten Veränderungsmessung fokussiert.
Die erste Studie widmet sich dem gängigen Vorwurf an retrospektive Verfahren
Urteils- Gedächtnis- und Bezugsystemfehler zu beinhalten und so letztlich zu einer
Überschätzung des Therapieerfolgs zu führen (im Überblick Hill & Betz, 2005). Die
Untersuchung soll mittels retrospektiven Vortest (Stieglitz, 1990) die Reliabilität und
Validität retrospektiver Symptomeinschätzungen im Rahmen der Psychotherapie
untersuchen. Zudem soll die Annahme eines systematischen Urteilsfehlers im Sinne eines
Rechtfertigungseffekts (illusion of positive change; Safer & Keuler, 2002) sowie eine
mögliche Überschätzung des Therapieerfolgs durch retrospektive Veränderungsmaße geprüft
werden. Limitationen vorheriger Studien (im Überblick Safer & Keuler, 2002; vgl. auch
Stieglitz, 1990; Schmidt et al., 2003) sollen dabei möglichst umgangen werden. So sollen für
den retrospektiven Vortest mit BDI und BSI zwei der am häufigsten verwendeten
Instrumente der Therapieevaluation (Farnsworth et al., 2001; Froyd et al., 1996)
herangezogen werden, um eine möglichst hohe Repräsentativität der Ergebnisse zu
gewährleisten. Safer und Keuler (2002) berechneten zum Beleg ihrer Vermutung einer
48
illusion of positive change die Korrelation des Differenzwertes Retro-Post als Maß für eine
Fehleinschätzung mit einem Prä-Post Differenzwert als Maß für den Therapieerfolg. Dabei
ist kritisch zu bemerken, dass Korrelationen mit Differenzwerten im Verdacht stehen
statistische Artefakte zu provozieren (vgl. Steketee & Chambless, 1992). Der Einfluss des
Therapieerfolgs auf die retrospektiven Einschätzungen (Retro) soll in Anbetracht dieser
Problematik daher in linearen Regressionen berechnet werden. Zudem sollen über indirekte
Veränderungsmaße hinaus auch weitere Evaluationsverfahren wie direkte
Veränderungsmaße und Maße der Zielerreichung in ihren Bezügen zu einer möglichen
Überschätzung untersucht werden, um von einem systematischen Einfluss des
Therapieerfolgs auf die retrospektive Einschätzung sprechen zu können. Die retrospektiven
Prä-Werte (Retro) von BSI bzw. BDI sollen dabei jeweilsals abhängige Variablen und die
zugehörigen regulären Prä-Werte (Prä) des jeweiligen Instruments sowie verschiedene
Veränderungs- und Zielerreichungsmaße als unabhängige Variablen herangezogen werden.
Als indirekte Erfolgsmaße sollen statt einfacher Prä-Post Differenzwerte Residual Gain
Scores für BSI und BDI verwendet, um die Gefahr statistischer Artefakte im Vergleich zur
Verwendung von einfachen Differenzwerten zu minimieren (vgl. Steketee & Chambless,
1992). Die regulären Prä-Werte sollen zusammen mit den verschiedenen
Therapieerfolgsmaßen in Blöcken in die Regressionsgleichung einbezogen werden. So
können die Anteile der einzelnen Therapieerfolgsmaße an der Varianzaufklärung über den
Erklärungswert der regulären Prä-Werte hinaus auch quantitativ bestimmt werden. Um die
Überschätzung des Therapieerfolgs unter Verwendung retrospektiver Werte zu prüfen, wird
eine Effektstärkenmetrik berechnet, die den direkten Vergleich indirekter und quasi-
indirekter Veränderungsmaße ermöglichen soll (vgl. Schmidt et al., 2003). Die
Konstruktvalidität beider Effektstärkevarianten - indirekter und quasi-indirekter - soll über
49
Zusammenhänge mit den anderen herangezogenen Therapieerfolgsmaßen vergleichend
untersucht werden.
Die zweite Studie hat die Untersuchung empirischer Dimensionen des
Therapieerfolgs mittels explorativer Faktorenanalyse zum Gegenstand. Im Fokus der Studie
steht die Forderung von Hill und Lambert (2004), die Bedingungen weiter aufzuklären, die
zu Unterschieden in der Abschätzung des Therapieerfolgs durch verschiedene
Evaluationsverfahren führen. Ausgangspunkt für Studie 2 stellen die beiden oben
dargestellten Studien dar, die Veränderungsmaße faktorenanalytisch in Kontrast zu
sogenannten retrospektiven Erfolgsbeurteilungen setzen (Michalak et al., 2003; vgl. auch
Flückiger et al., 2007). Fraglich ist, ob die in beiden Studien unter retrospektiv gefassten
Verfahren tatsächlich einen retrospektiven Rückblick implizieren. In Bezug auf die
Taxonomie von Schulte (vgl. Abb. 1) sollten bei Zufriedenheitsurteilen und
Zielerreichungsskalierungen ein Abgleich von einem Ziel (Ideal) mit dem aktuellen Zustand
vorgenommen werden, anstatt eine retrospektive Rückschau auf den Ausgangszustand
vorzunehmen. In Bezug auf die direkte Veränderungsmessung betonen Michalak und
Kollegen (2003) selbst, dass Patienten vermutlich vielmehr vom aktuellen Zustand auf die
Veränderung (vgl. auch Kastner & Basler, 1997) schließen als tatsächlich einen Rückblick
auf den Ausgangszustand vorzunehmen und einen Differenzwert Prä-Post zu berechnen. Im
eigentlichen Sinne retrospektiv können vermutlich lediglich Verfahren betrachtet werden,
die direkt zur Rekonstruktion eines früheren Zustandes auffordern (vgl. Baumann, 1982).
Ein derartiges Verfahren findet allerdings in keiner der beiden Studien eine
Berücksichtigung. Es bleibt somit fraglich, ob die unterschiedliche Zeitperspektive
(Baumann, 1982) der Verfahren (Differenzwerte aus Statusmessungen vs. retrospektive
Messungen) die gezeigte Divergenz erklären kann. In einer faktorenanalytischen
Zusammenschau verschiedener Verfahren der Therapieerfolgsmessung soll geprüft werden,
50
ob sich abermals Methodenfaktoren zeigen lassen, die die Zeitperspektive als
Unterscheidungsmerkmal der Verfahren abbilden. Über vorhandene Studien hinaus werden
dabei quasi-indirekte Veränderungswerte (Schmidt et. al, 2003) auf Basis des retrospektiven
Vortests (Stieglitz, 1990) mit in die Faktorenanalyse einbezogen und die Verortung dieses
explizit retrospektiven und zugleich indirekten Veränderungsmaßes untersucht. Zum anderen
sollen über Zusammenhänge aller herangezogenen Erfolgswerte mit der retrospektiven
Rekonstruktion des Ausgangszustandes (retrospektiver Vortest) Rückschlusse auf ihren
möglichen retrospektiven Charakter ermöglicht werden.
Die dritte Studie soll den Bochumer Veränderungsbogen-2000 (BVB-2000) als
Instrument zur direkten Veränderungsmessung reanalysieren. Der BVB-2000 stellt eine
Revison des weit verbreiteten (im Überblick Zielke & Kopf-Mehnert, 2001a)
Veränderungsfragebogens des Erlebens und Verhaltens (VEV) von Zielke und Kopf-
Mehnert (1978) dar. Mitte der neunziger Jahre wurde der VEV aufgrund einer als schwer
verständlich einzustufenden Skalenkonstruktion (vgl. auch Zielke & Kopf-Mehnert, 2001b)
von Veith und Willutzki in Bochum überarbeitet (Veith & Willutzki, 2000). Der BVB-2000
soll hinsichtlich seiner Struktur und Gütekriterien reanalysiert werden. Dabei sollen vor
allem Fragen der konvergenten Validität fokussiert werden. Auf Basis einer
Wartekontrollgruppe soll ein kritischer Veränderungswert (vgl. Zielke & Kopf-Mehnert,
1978) für den BVB-2000 berechnet werden. Dieser soll es ermöglichen, den Therapieerfolg
auch im Einzelfall zu bestimmen, sowie den Verdacht einer möglichen Überschätzung des
Therapieerfolgs durch direkte Veränderungsmessungen zu untersuchen. Letzteres soll auch
darüber erreicht werden, dass die ermittelten kritischen Veränderungswerte auf die
Behandlungsgruppe angewendet werden und die Anzahl (N, %) gebesserter bzw.
verschlechterter Patienten bestimmt werden soll. Diese Erfolgsgruppen sollen dann
hinsichtlich ihres weiteren Therapieoutcomes (indirekte Veränderungsmessung, Maße der
51
Zielerreichung) deskriptiv verglichen und Unterschiede im Therapieeerfolg zwischen den
Gruppen inferenzstatistisch auf Bedeutsamkeit getestet werden. Über den Vergleich der
Zusammenhänge der verschiedenen Erfolgswerte mit den Statusmessungen (Prä, Post) der
Symptomatik soll zudem der Verdacht eines Bezugssystemfehlers (Kastner & Basler, 1997)
bei der direkten Veränderungsmessung untersucht werden.
53
7.1 Publikation 1 - Es ging mir schlechter, als ich dachte! Retrospektive
Symptomeinschätzung und Psychotherapieerfolg
Ülsmann, D. & Fydrich, T. (in Druck). Es ging mir schlechter, als ich dachte!
Retrospektive Symptomeinschätzung und Psychotherapieerfolg. Zeitschrift für klinische
Psychologie und Psychotherapie.
54
Kolumnentitel: RETROSPEKTIVE SYMPTOMEINSCHÄTZUNG
Es ging mir schlechter, als ich dachte!
Retrospektive Symptomeinschätzung und Psychotherapieerfolg
Dominik Ülsmann und Thomas Fydrich
Humboldt-Universität zu Berlin
55
Zusammenfassung
Theoretischer Hintergrund: Bei retrospektiven Einschätzungen des Erlebens und Verhaltens
werden meist Gedächtnis- und Urteilsfehler vermutet. Fragestellung: Wie zuverlässig sind
retrospektive Symptomeinschätzungen in der Psychotherapie? Wie valide sind
Therapieerfolgsmaße auf Basis retrospektiver Symptomeinschätzungen? Methode:
Psychotherapiepatienten (N = 83) rekonstruieren zu Therapieende ihre Symptomausprägung
vom Beginn der Therapie auf dem Brief Symptom Inventory (BSI) und dem Beck
Depressions Inventar (BDI). Ergebnisse: Neben einer bedeutsamen retrospektiven
Überschätzung zeigen retrospektive und reguläre Prä-Messungen bedeutsame
Zusammenhänge. Das Ausmaß der retrospektiven Symptomeinschätzungen ist vom
Therapieerfolg weitgehend unabhängig. Prä-Post Effektstärken auf Basis der retrospektiven
Prä-Messungen zeigen vergleichbare Zusammenhänge mit anderen Therapieerfolgsmaßen
wie reguläre Prä-Post Effektstärken. Schlussfolgerungen: Retrospektive
Symptomeinschätzungen sind zuverlässig aber nicht akkurat. Pauschale Annahmen über
Urteilsfehler und eine wenig valide Darstellung des Therapieerfolgs bei retrospektiver
Erfassung von Symptomen müssen zurückgewiesen werden.
Schlagwörter: Retrospektiver Vortest - Evaluation - Therapieerfolg - Behandlungserfolg -
retrospektive Erfolgsbeurteilung
56
Abstract
Background: Retrospective assessments of experiences and behaviour are often accused of
systematic biases. Objective: How accurate are retrospective estimates of symptom severity
in psychotherapy? How valid are treatment success measures based on retrospective
assessments? Method: Outpatients (N = 83) retrospectively reconstruct their initial symptom
severity at the end of therapy on the Brief Symptom Inventory (BSI) and the Beck
Depression Inventory (BDI). Results: The retrospective estimates show higher mean values.
Regular and retrospective estimates correlate substantially. Relations between the
retrospective estimates and psychotherapy outcome are not consistent. Retrospective and
regular effect sizes show similar correlations with different other measures of psychotherapy
outcome. Conclusions: Retrospective assessments of symptom severity are highly reliable,
though not necessarily accurate. General assumptions about biases and an invalid display of
treatment success in retrospective measurements must be rejected.
Key words: retrospective pretest - evaluation - psychotherapy outcome - treatment success -
retrospective measurement
57
„Retrospective reports of emotional states will always be with us.”
(Seligman, 1995)
Einleitung
Eine große deutsche Testzeitschrift präsentiert im Herbst 2011 die Ergebnisse ihrer
Konsumentenumfrage: „Therapie hat vielen geholfen“ (Stiftung Warentest, 2011).
Teilnehmer, die psychotherapeutische Behandlung in Anspruch genommen hatten, schätzten
dazu ihr seelisches Leiden zum Teil weit nach Therapieende noch einmal ein. „So fanden 77
Prozent der Teilnehmer vor Beginn der Behandlung ihr seelisches Leiden „sehr groß“ oder
„groß“. Nach dem Ende der Therapie lag dieser Anteil nur noch bei 13 Prozent.“ (Stiftung
Warentest, 2011). Wie bereits in der Diskussion um die Consumer Reports Study (Seligman,
1995) stellt sich auch in Bezug auf diese Konsumentenstudie umgehend die Frage, ob
Patienten so etwas wie ihr psychisches Befinden zu verschiedenen Zeitpunkten in der
Vergangenheit überhaupt zuverlässig retrospektiv einschätzen können. Auf der Suche nach
empirischen Befunden zur Beantwortung dieser Frage muss allerdings festgestellt werden,
dass nur wenigen Studien die Güte retrospektiver Symptomeinschätzungen an klinischen
Stichproben direkt prüfen (im Überblick Safer & Keuler, 2002). Vor dem Hintergrund, dass
der klinische Alltag von Professionellen und Betroffenen sehr oft mit derartigen
Einschätzungen zu tun hat, ist dies ein eher verwunderlicher Umstand. Fundierte Aussagen
zur Güte retrospektiver Symptomeinschätzungen hätten sicherlich eine große Tragweite.
Werden doch auf Basis retrospektiver Aussagen zu Symptomen Diagnosen gestellt,
Interventionen abgeleitet oder der Therapieerfolg bestimmt. Das Spektrum retrospektiver
Einschätzungen im psychotherapeutischen Setting reicht von der einfache Frage „Wie ist es
Ihnen seit unserer letzten Sitzung ergangen?“ bis hin zur systematischen Erhebung von
Symptomen in Selbstbeurteilungsinstrumenten oder klinischen Interviews. Oder wie
58
Seligman (1995) es ausdrückt: „Retrospective reports of emotional states will always be with
us“ (S. 973).
Eine verbreitete Methode der retrospektiven Einschätzung früheren Erlebens und
Verhaltens ist der retrospektive Vortest (Stieglitz, 1990; vgl. im Überblick Hill & Betz,
2005). Dabei werden auf der Basis von Testverfahren die Prä-Werte retrospektiv (im
Folgenden Retro genannt) am Ende (Post) eines Interventionszeitraumes erhoben und
können so mit einer entsprechenden regulären Messung, die zu Therapiebeginn
stattgefunden hat (Prä), verglichen werden. Studien, die den retrospektiven Vortest zur
Einschätzung früherer psychischer Symptome verwenden, zeigen dabei überwiegend eine
retrospektive (Retro) Überschätzung der initialen Symptomatik (Prä) bei gleichzeitig
bestehenden bedeutsamen Zusammenhängen zwischen Retro- und Prä-Messung (im
Überblick Safer & Keuler, 2002; vgl. auch Schmidt, Steffanowski, Nübling, Lichtenberg &
Wittmann, 2003; Stieglitz, 1990). Insgesamt könne die Erinnerung an die frühere
Symptomatik bzw. deren systematische retrospektive Erfassung somit als „highly reliable,
though not necessarily accurate“ (Safer & Keuler, 2002, S. 173) bezeichnet werden.
Bei der Frage nach der Validität derartiger retrospektiver Einschätzungen wird meist
auf die Problematik systematischer Verzerrungstendenzen verwiesen (Hill & Betz, 2005).
Der vorliegenden Literatur können dabei eine ganze Reihe von möglichen Faktoren
entnommen werden, die die retrospektive Einschätzung früheren Erlebens und Verhaltens
beeinflussen oder zumindest beeinflussen könnten (im Überblick Hill & Betz, 2005; vgl.
auch Levine, Safer & Lench, 2006; Taylor, Russ-Eft & Taylor, 2009). Für die retrospektive
Einschätzung von Symptomen im Rahmen der Psychotherapie existieren dazu allerdings nur
wenige Befunde (im Überblick Safer & Keuler, 2002). Soziodemographische Variablen (u.a.
Alter, Geschlecht) zeigen kein Potential zur Erklärung der erhöhten retrospektiven
59
Symptomschätzungen (Schmidt et al., 2003; Stieglitz, 1990). Ein Zusammenhang mit der
Dauer des überblickten Zeitraums konnte ebenfalls nicht gezeigt werden (Stieglitz, 1990).
Safer und Keuler (2002) konnten allerdings einen Einfluss von Neurotizismus, Angst und
Depression, sowie von Ich-Stärke, Selbsttäuschung und Lügen belegen. Besondere Brisanz
für den Bereich der Psychotherapieevaluation weist dabei ein Befund auf, der eine
systematische retrospektive Überschätzung in Abhängigkeit vom Therapieerfolg nahelegt.
Patienten, die nicht von der Therapie profitierten oder deren Befinden sich gar
verschlechterte, wiesen in der Studie von Safer und Keuler (2002) statistisch bedeutsam
höhere Fehleinschätzungen (Differenzwert Retro-Prä) der initialen Symptomatik auf als
Patienten, bei denen sich im Prä-Post Vergleich Verbesserungen der Problematik zeigten.
Zudem konnte in dieser Studie ein bedeutsamer negativer Zusammenhang der gezeigten
Überschätzung (Retro-Prä Differenzwert) mit dem Prä-Post Differenzwert desselben
Instruments (HSCL, Hopkins Symptom Checklist; Derogatis, Lipman, Rickels, Uhlenhuth &
Covi; 1974) gezeigt werden, auf dem auch der retrospektive Vortest vorgenommen wurde.
Safer und Keuler (2002) vermuten hinter den retrospektiven Überschätzungen somit eine
illusion of positive change. Die höheren retrospektiven Werte für die Symptomatik könnten
dadurch motiviert sein, eine Veränderung wahrzunehmen, die objektiv nicht stattgefunden
hat.
Die verbreitete Vermutung systematischer Verzerrungen bei der Rekonstruktion
früheren Erlebens und Verhaltens ist vermutlich auch der Grund dafür, dass retrospektive
Therapieerfolgsmaße (z.B. Retro-Post Differenzwerte) in der Evaluation von Psychotherapie
deutlich seltener verwendet werden als Prä-Post Differenzwerte (im Überblick Hill &
Lambert, 2004; vgl. auch Hill & Betz, 2005). Mit der Annahme systematischer Verzerrungen
bei der Retrospektion geht auch der Verdacht einer Überschätzung des Interventionserfolgs
einher (vgl. Hill & Betz, 2005). Als ein retrospektives indirektes Veränderungsmaß
60
(Bereiter, 1963) können analog zu Prä-Post Differenzwerten auch Retro-Post Differenzwerte
berechnet werden. Retro-Post Veränderungswerte, die retrospektive Werte (Mittelwert,
Standardabweichung) zur ihrer Berechnung heranziehen, weisen dabei höhere Effekte für die
psychotherapeutische Behandlungen aus als reguläre Prä-Post Veränderungswerte (Schmidt
et al., 2003; Stieglitz, 1990). Gleichwohl können im Vergleich von Retro-Post und Prä-Post
Veränderungsmaßen aber auch vergleichbar hohe und zum Teil sogar erhöhte korrelative
Bezüge der Retro-Post Veränderungswerte mit anderen Veränderungsmaßen sowohl im
Selbst- als auch im Fremdurteil gezeigt werden (Schmidt et al., 2003; Seligman, 1995;
Stieglitz, 1990).
Fragestellung
Mit der vorliegenden Studie sollen drei Fragen fokussiert untersucht werden: Wie
zuverlässig sind retrospektive Einschätzungen der Symptomatik im Rahmen ambulanter
kognitiv-verhaltenstherapeutischer Psychotherapie? Lässt sich die Annahme einer illusion of
positive change (Safer & Keuler, 2002) weiter belegen? Wie valide sind indirekte
Veränderungswerte auf Basis retrospektiver Werte?
Die vorliegende Untersuchung erweitert das methodische Vorgehen von vorhandenen
Studien zu diesen Fragestellungen, indem zwei der am häufigsten verwendeten (Hill &
Lambert, 2004) Instrumente der Psychotherapieevaluation, das Brief Symptom Inventory
(BSI; Franke, 2000) und das Beck Depressionsinventar (BDI; Hautzinger, Bailer, Worall &
Keller, 1995) für den retrospektiven Vortest herangezogen werden und die Ergebnisse für
beide Instrumente vergleichend gegenüberstellt werden können. Zudem soll methodischer
Kritik an der Studie von Safer und Keuler (2002) begegnet werden (vgl. Safer, Levine &
Drapalski, 2002). Die Autoren griffen zum Beleg einer illusion of positive change auf
Korrelationsberechnungen mit Differenzwerten zurück (als Erfolgsmaß Prä-Post
61
Differenzwerte und als Maß der Überschätzung Retro-Post Differenzwerte). Zudem konnten
sie den Nachweis eines Zusammenhangs zwischen Therapieerfolg (Prä-Post Differenzwert)
und Überschätzung (Retro-Prä Differenzwert) nur für das Instrument aufzeigen, auf dem
auch der retrospektive Vortest vorgenommen wurde (HSCL, Hopkins Symptom Checklist;
Derogatis et al., 1974). In der vorliegenden Studie soll dieser Problematik begegnet werden,
indem bei der Datenauswertung zu dieser Frage ein multivariates Verfahren eingesetzt wird
(lineare Regression) und zur indirekten Therapieerfolgsmessung (Prä-Post) für die
Regressionsberechnungen auf messfehlerkorrigierte Differenzwerte von zwei inhaltlich
verschiedenen Instrumenten zurückgegriffen wird (vgl. hierzu Steketee & Chambless, 1992).
In Bezug auf die Validität indirekter Veränderungswerte auf Basis retrospektiver Werte
bietet die vorliegende Studie den Vorteil, dies unter Rückgriff auf zwei etablierte und
normierte Instrumente vergleichend untersuchen zu können.
Es wird erwartet, dass sich neben bedeutsam höheren retrospektiven Werten (Retro)
gleichzeitig ein hoher Zusammenhang retrospektiver (Retro) und regulärer (Prä) Messungen
zeigen lässt (vgl. Safer & Keuler, 2002; Schmidt et al., 2003; Stieglitz, 1990). Zudem sollte
sich eine Abhängigkeit der retrospektiven Einschätzung vom Therapieerfolg derart zeigen
lassen, dass zwischen Therapieerfolg und retrospektiver Symptomeinschätzung ein inverses
Verhältnis besteht (Safer & Keuler, 2002). Therapieerfolgswerte, die mit retrospektiven
Werten (M; SD) berechnet werden (Retro-Post Effektstärke), sollten einen höheren
Therapieerfolg ausweisen als reguläre Prä-Post Erfolgswerte (vgl. hierzu Schmidt et al.,
2003). Dennoch sollten Retro-Post Erfolgswerte vergleichbar hohe Zusammenhänge mit
anderen Psychotherapieerfolgsmaßen zeigen wie Prä-Post Erfolgswerte (Schmidt et al.,
2003; Stieglitz, 1990).
62
Methode
Stichprobe
Die Erhebungen wurden mit N = 83 Patienten durchgeführt, die zwischen 2007 und
2009 am Zentrum für Psychotherapie (ZPT) der Ruhr Universität Bochum kognitiv-
verhaltenstherapeutisch behandelt wurden und deren Therapien im Mittel nach 37.5
Therapiestunden (SD = 15.01) regulär beendet wurden. Das Durchschnittsalter der Patienten
beträgt 37.3 Jahre (SD = 12.43) und 55.4% (N = 46) sind weiblichen Geschlechts.
Diagnostiziert wurden mittels Strukturiertem Klinischen Interview für DSM-IV (SKID;
Wittchen, Zaudig & Fydrich, 1997) überwiegend Angststörungen (N = 30; 36.1%) und
affektive Störungen (N = 16; 19.3%), sowie Essstörungen (N = 11; 13.3%),
Zwangsstörungen (N = 8; 9.6%) und sonstige Störungen (N = 18; 21.3%).
Ausschlusskriterium war ein vorzeitiger Abbruch der Therapie, so dass nur abgeschlossene
Therapien einbezogen wurden. Um die Belastung für die Patienten gering zu halten, galt als
weiteres Ausschlusskriterium die Teilnahme der Patienten an anderen aufwändigen
Forschungsprojekten der Ambulanz.
Prozedur
Die Erhebungen fanden in Form von zwei Messungen zu Therapiebeginn (Prä) und
Therapieende (Post) statt. Die Prä-Messung umfasste neben dem Strukturiertem Klinischen
Interview für DSM-IV (SKID; Wittchen et. al., 1997), das Brief Symptom Inventory (BSI;
Franke, 2000) und das Beck Depressionsinventar (BDI; Hautzinger et al., 1995). Die
Messung zu Therapieende (Post) umfasste folgende Psychotherapieerfolgsmaße:
Veränderungsfragebogen des Erlebens und Verhaltens in einer revidierten Form (VEV-VW;
Veith & Willutzki, 2000), Globalurteil der Zufriedenheit mit der Therapie (Globalurteil;
Meyer & Schulte, 2002) und eine Zielerreichungsskalierung (GAS; Kiresuk & Shermann,
63
1968; Schulte, 1996). Zudem wurden abermals BSI und BDI (Post) erhoben und mit beiden
Instrumenten der retrospektive Vortest (Retro) vorgenommen. Der Zeitraum, den die
Patienten für den retrospektiven Vortest zu überblicken hatten, betrug im Mittel 462 Tage
(SD = 208; min = 83, max = 1023). Für den retrospektiven Vortest wurden die
Standardinstruktionen von BSI und BDI um folgende Einleitung ergänzt: „Wir möchten Sie
für diese Befragung bitten, sich noch einmal an den Zeitpunkt ihres Therapiebeginns zurück
zu erinnern. Führen Sie sich bitte vor Augen, wie es Ihnen damals ging und beantworten Sie
die folgenden Fragen so, wie Sie sich damals fühlten.“
Material
Das Brief Symptom Inventory (BSI; Franke, 2000) erfasst die subjektiv empfundene
Beeinträchtigung durch körperliche und psychische Symptome in 9 Subskalen. Der
Gesamtwert des BSI (Global Severity Index; GSI) stellt ein reliables Maß für die
Symptombelastung dar (GSI; Franke, 2000; α > .92). Das Beck Depressions Inventar (BDI;
Hautzinger et al., 1995; α = .88) erfasst in 21 Items den Schweregrad einer depressiven
Symptomatik. Der Veränderungsfragebogen des Erlebens und Verhaltens VW (VEV-VW;
Veith & Willutzki, 2000) stellt eine Überarbeitung des Veränderungsfragebogens des
Erlebens und Verhaltens nach Zielke (VEV; Zielke, 1978) dar und fordert Patienten auf, ihre
Veränderungen im Zuge der Psychotherapie direkt anzugeben (VEV-VW; Veith &
Willutzki, 2000; Ülsmann, Willutzki & Veith, 2009; α = .96). Die Antwortmöglichkeiten der
26 Items des VEV-VW sind als Polaritätsprofile mit einer sieben-stufigen Skala gestaltet (1
bis 7). Der neutrale Skalenmittelpunkt 4 verweist auf keine Veränderung, höhere Werte
verweisen aufsteigend auf eine positive Veränderung, niedrigere Werte absteigend auf eine
negative Veränderung. Das Globalurteil der Zufriedenheit (Globalurteil; Meyer & Schulte,
2002) erfasst in zwei Items (6 stufige Likert Skala von 1 bis 6) die Zufriedenheit des
64
Patienten mit der Therapie. Höhere Werte verweisen hierbei auf höhere Zufriedenheit. Die
Zielerreichungsskalierung (vgl. Schulte, 1996) erfragt zu Therapieende den Grad der
Zielerreichung idiosynkratisch für die zu Therapiebeginn operationalisierten Therapieziele (6
stufige Likert Skala von 0 „nichts erreicht“ bis 5 „voll erreicht“) in Anlehnung an das Goal
Attainment Scaling (GAS; Kiresuk & Shermann, 1968).
Statistische Analysen
Retrospektiver Vortest (Retro) und reguläre Prä-Messung (Prä) von BSI und BDI
werden mittels t-Test (für abhängige Stichproben) auf Mittelwertsunterschiede geprüft und
ihr Zusammenhang mittels Korrelation (Pearson) untersucht. Um den Einfluss des
Therapieerfolgs auf die retrospektiven Einschätzungen (Retro) zu untersuchen, werden
lineare Regressionen berechnet. Die retrospektiven Prä-Werte (Retro) von BSI bzw. BDI
werden in den Regressionsberechnungen jeweils als abhängige Variable und die zugehörigen
regulären Prä-Werte (Prä) des jeweiligen Instruments sowie die Therapieerfolgsmaße
(indirekte Erfolgsmaße von BSI und BDI, VEV, Global, GAS) als unabhängige Variablen
herangezogen. Als indirekte Erfolgsmaße werden in den Regressionsberechnungen statt
einfacher Prä-Post Differenzwerten residual gain scores (RGS; (Z1-Z2) x r12) für BSI und
BDI verwendet. Dies geschieht in der Annahme, dadurch die Gefahr statistischer Artefakte
im Vergleich zur Verwendung von einfachen Differenzwerten zu minimieren (vgl. Steketee
& Chambless, 1992). Die regulären Prä-Werte werden jeweils in einem ersten Block in die
Regressionsgleichung eingegeben und die Therapieerfolgsmaße (RGS von BSI und BDI,
VEV, Global, GAS) schrittweise innerhalb eines zweiten Blocks einbezogen. So können die
Anteile der einzelnen Therapieerfolgsmaße an der Varianzaufklärung über den
Erklärungswert der regulären Prä-Werte hinaus quantitativ bestimmt werden. Um die
Überschätzung des Therapieerfolgs unter Verwendung retrospektiver Werte zu prüfen,
65
werden Prä-Post Effektstärken von BSI und BDI unter Verwendung regulärer (Mprä-
Mpost/SDprä; Grawe, Bernauer & Donati, 1994) und retrospektiver Werte (Mretro-
Mpost/SDretro; vgl. Schmidt et al., 2003) berechnet und deskriptiv auf Unterschiede
untersucht. Zusammenhänge (Pearson) beider Effektstärkevarianten (Prä-Post, Retro-Post)
untereinander und jeweils mit anderen Therapieerfolgsmaßen (VEV, Global, GAS) werden
mittels Korrelation (Pearson) untersucht.
Ergebnisse
Retrospektive Einschätzung der Symptomatik
Tabelle 1 zeigt die deskriptiven Statistiken aller herangezogenen Maße. Die
retrospektiven Einschätzungen (Retro) von BSI und BDI für die Symptomatik zu
Therapiebeginn zeigen erwartungskonform höhere Mittelwerte als die regulären Messungen
zu Therapiebeginn (Prä). Die Standardabweichungen der retrospektiven Werte (Retro) sind
bei beiden Instrumente (BSI, BDI) augenscheinlich höher als die der regulären Prä-Werte
(Prä). Deskriptiv verweisen die Differenzwerte Retro-Prä im Mittel auf eine Überschätzung
der Symptomatik auf beiden Instrumenten (BSI, BDI). Die Betrachtung der
Standardabweichung der Differenzwerte Retro-Prä zeigt aber auch, dass Abweichungen von
Retro- und Prä- Messung für beide Instrumente (BSI, BDI) in positive und negative
Richtung vorliegen (ebenso Safer & Keuler, 2002, Schmidt et al., 2003).
>> Tabelle 1 bitte hier einfügen <<
So zeigen beim BSI 24.1% (N = 20) und beim BDI 37.2% (N = 29) der Patienten
numerisch eine Unterschätzung (Retro < Prä). Eine Überschätzung (Retro > Prä) kann für
den BSI bei 75.9% (N = 63) und für den BDI bei 57.7% (N = 45) der Patienten gezeigt
werden. Keine numerische Abweichung lag für den BDI in 5.1% (N = 4) der Fälle vor, für
66
den BSI in keinem Fall. Im t-Test (für abhängige Stichproben) zeigt sich, dass Patienten ihre
initiale Symptomatik (Prä) sowohl für den BSI als auch für den BDI retrospektiv im Mittel
statistisch bedeutsam höher (Retro > Prä) einschätzen (BSI p < .01, T = 5.82, df = 82; BDI p
< .01, T = 2.99, d f = 77). Retrospektive und reguläre Prä-Messungen beider Instrumente
korrelieren (Pearson) dabei deutlich (BSI r = .63, p < .01, N = 83; BDI r = .77, p < .01, N =
78).
Zusammenhang zwischen retrospektiver Symptomerhebung und Psychotherapieerfolg
Die Tabellen 2 und 3 zeigen die Ergebnisse der linearen Regressionen mit den
retrospektiven Prä-Werten von BSI und BDI als jeweiliger abhängiger Variable und den
regulären Prä-Werte des jeweiligen Instruments sowie den Therapieerfolgsmaßen (RGS von
BSI und BDI, VEV, Global, GAS) als unabhängige Variablen.
>> Tabelle 2 bitte hier einfügen <<
Für die retrospektive Messung des BSI (Retro) zeigt das Modell 1 unter
Berücksichtigung der regulären Prä-Werte (Prä) eine Varianzaufklärung von ca. 51% (vgl.
Tabelle 2). Das Modell 2 weist unter zusätzlicher schrittweiser Berücksichtigung der
Therapieerfolgsmaße einen statistisch bedeutsamen Zugewinn an Varianzaufklärung von ca.
5% auf. Hierbei zeigt lediglich die direkte Veränderungsmessung mittels VEV-VW ein
statistisch bedeutsames positives Beta Gewicht. Im Modell 3 zeigt sich zudem ein
bedeutsames und erwartungsgemäß negatives Beta Gewicht für den RGS des BSI (GSI).
Dieses Modell weist einen statistisch bedeutsamen Zugewinn an Varianzaufklärung von 3%
auf. Der RGS des BDI wird erwartungswidrig nicht in die Regressionsgleichung
aufgenommen.
>> Tabelle 3 bitte hier einfügen <<
67
Für die retrospektiven Werte des BDI (Retro) zeigt das Modell 1 unter
Berücksichtigung der regulären Prä-Werte (Prä) eine Varianzaufklärung von ca. 55% (vgl.
Tabelle 3). Die weiteren Modelle 2 und 3 weisen unter zusätzlicher schrittweiser
Berücksichtigung der Therapieerfolgsmaße einen statistisch bedeutsamen Zugewinn an
Varianzaufklärung von jeweils ca. 4% auf. Hierbei zeigt sich im Modell 2 zunächst für die
direkte Veränderungsmessung mittels VEV-VW ein statistisch bedeutsames positives Beta
Gewicht. Im nächsten Schritt wird zusätzlich der RGS des BDI mit einem erwartungsgemäß
negativen Beta Gewicht in die Gleichung aufgenommen. Der RGS des BSI wird
erwartungswidrig nicht in der Regressionsgleichung berücksichtigt.
Validität retrospektiver indirekter Veränderungswerte (Retro-Post Effektstärken)
Tabelle 1 zeigt die Werte für die regulären Prä-Post Effektstärken (Mprä-
Mpost/SDprä) und die retrospektiven Retro-Post Effektstärken (Mretro-Mpost/SDprä). Die
regulären Prä-Post Effektstärken weisen einen mittleren Effekt für den BSI und einen großen
Effekt für den BDI aus (vgl. Cohen, 1988). Die Verwendung retrospektiver Prä-Werte
(Retro-Post Effektstärken) weist demgegenüber für beide Instrumente einen großen Effekt
der Behandlung aus. Tabelle 4 zeigt die Interkorrelationen der Therapieerfolgsmaße.
Reguläre Prä-Post Effektstärken (Mprä-Mpost/SDprä) und retrospektive Retro-Post
Effektstärken (Mretro-Mpost/SDretro) von BSI und BDI weisen statistisch bedeutsame
Zusammenhänge auf. Hierbei zeigen die beiden Effektstärkevarianten untereinander für den
BSI 20% geteilte Varianz und für den BDI nahezu 50% gemeinsame Varianz.
>> Tabelle 4 bitte hier einfügen <<
Erwartungsgemäß zeigen sowohl die regulären Prä-Post Effektstärken (Mprä-
Mpost/SDprä) als auch die retrospektiven Retro-Post Effektstärken (Mretro-Mpost/SDretro)
bedeutsame Bezüge zu den anderen Therapieerfolgsmaßen (vgl. Tabelle 4). Die
68
Zusammenhänge der retrospektiven Retro-Post Effektstärken mit den anderen
Therapieerfolgsmaßen sind dabei in Richtung und Ausmaß (8-23% geteilte Varianz)
weitestgehend vergleichbar mit denen der regulären Prä-Post Effektstärken (6-15% geteilte
Varianz).
Diskussion
Retrospektive Symptomeinschätzungen (Retro) weisen wie erwartet im Mittel
bedeutsam höhere Werte der Ausgangssymptomatik auf als regulär erhobene Prä-Werte
(Prä). Ebenso erwartungskonform zeigen retrospektive (Retro) und reguläre (Prä)
Messungen bedeutsame Zusammenhänge (ebenso Safer & Keuler, 2002; Schmidt et al.,
2003; Stieglitz, 1990). Die Regressionsanalysen zeigen, dass mehr als 50% der Varianz der
retrospektiven Werte (Retro) beider Instrumente durch die jeweiligen regulären Prä-Werte
(Prä) erklärt werden können. Die Ergebnisse unterstützen somit insgesamt den Befund, dass
Patienten vergangene Symptome „highly reliable, though not necessarily accurate“ (Safer &
Keuler, 2002, S. 173) erinnern (ebenso Schmidt et al., 2003; Stieglitz, 1990). Der Verdacht,
dass das Ausmaß des Therapieerfolgs die retrospektive Rekonstruktion der Symptomatik
systematisch beeinflussen könnte, bildet sich in den vorliegenden Ergebnissen
erwartungswidrig nicht ab. Therapieerfolgsmaße leisten zur Aufklärung der retrospektiven
Einschätzungen insgesamt lediglich einen vergleichsweise geringen Beitrag
(Varianzaufklärung ca. 8-9%). Zudem ist die Richtung der Zusammenhänge verschiedener
Therapieerfolgsmaße mit den retrospektiven Einschätzungen (Retro) nicht einhellig. Die
erwarteten negativen Zusammenhänge von indirekter Veränderungsmessung (RGS) und
retrospektiver Symptomeinschätzung (Retro) lassen sich darüber hinaus jeweils nur für das
Instrument zeigen, auf dem auch der retrospektive Vortest vorgenommen wurde. Der
Verdacht einer illusion of positive change bei der retrospektiven Symptomeinschätzung
69
erscheint somit insgesamt eher unbegründet (anders Safer & Keuler, 2002). Weiterhin lässt
sich entgegen der Erwartung keine Überschätzung des Therapieerfolgs per se durch
retrospektive Retro-Post Effektstärken (Mretro-Mpost/SDretro) im Vergleich zu regulären
Prä-Post Effektstärken (Mprä-Mpost/SDprä) zeigen. Lediglich für den BSI, nicht aber für
den BDI kann eine höhere retrospektive Effektstärke belegt werden. Hierbei ist allerdings zu
beachten, dass das Ausmaß der Effektgröße abhängig von der jeweiligen
Standardabweichung der Messungen ist (Mprä-Mpost/SDprä bzw. Mretro-Mpost/SDretro).
Trotz Überschätzung der Prä-Werte durch den retrospektiven Vortest (Retro), weist die
retrospektive Retro-Post Effektstärke des BDI somit aufgrund der erhöhten
Standardabweichung einen vergleichbar großen Effekt aus wie die reguläre Prä-Post
Effektstärke. Die Zusammenhänge der Retro-Post Effektstärken mit anderen
Psychotherapieerfolgsmaßen entsprechen wie erwartet in Richtung und Ausmaß denen der
regulären Prä-Post Effektstärken. In punkto Konstruktvalidität kann somit für keine der
beiden Effektstärkevarianten eine Überlegenheit konstatiert werden (ebenso Schmidt et al.,
2003). Diese Ergebnisse bestätigen insgesamt den Befund von Stieglitz (1990), der in
retrospektiven indirekten Veränderungsmaßen ein „sensitives Maß zur Abbildung subjektiv
erlebter Veränderung“ (S. 149) sieht (vgl. auch Seligman, 1995).
Diese Interpretation der Ergebnisse unterliegt allerdings einigen Einschränkungen.
Das Fehlen einer Kontrollgruppe erscheint vor allen Dingen deshalb als Einschränkung, da
insgesamt von einer implicit theory of change bei der Teilnahme an Interventionen
ausgegangen werden kann, die systematisch Überschätzungen in der retrospektiven
Symptomschätzung provozieren könnte (vgl. Norman, 2003). Die vorliegende Studie konnte
diese sehr plausible Annahme ohne Kontrollgruppe nicht adressieren. Zudem unterliegt die
Stichprobe systematischen (und nicht zufälligen) Auswahlkriterien, da sie sich ausschließlich
aus Patienten rekrutiert, die nicht an weiteren aufwändigen Projekten der
70
Hochschulambulanz im zudem von vorneherein begrenzten Zeitraum der Untersuchung
teilnahmen. Als weitere Einschränkung kann das Fehlen von Fremdurteilen zur Abschätzung
des Therapieerfolgs gesehen werden (vgl. hierzu Schmidt et al., 2003; Stieglitz, 1990). Auch
katamnestische Daten zum Vergleich der Konstruktvalidität der retrospektiven Retro-Post
Effektstärken mit regulären Prä-Post Effektstärken wären wünschenswert gewesen.
Trotz dieser Einschränkungen verweist die vorliegende Studie mit ihren Ergebnissen
insgesamt auf die Notwendigkeit einer differenzierteren Betrachtung bei der Einschätzung
der Zuverlässigkeit und Validität retrospektiver Symptomeinschätzungen und davon
abgeleiteter Therapieerfolgswerte. In Anbetracht der Literatur und in Bezug auf die
vorliegenden Ergebnisse scheinen dabei vor allem zwei Forschungsstränge Potential für
weitere interessante Befunde zu bieten:
1. Die Identifikation möglicher anderer Faktoren, die eine retrospektive Über- oder
Unterschätzungen der Symptomatik beeinflussen könnten (im Überblick Hill & Betz,
2005).
2. Die systematische vergleichende Untersuchung der Validität von regulären Prä-Post
Veränderungswerten und retrospektiven Verfahren in der Abschätzung des
Psychotherapieerfolgs (vgl. Flückiger, Regli, Grawe & Lutz, 2007; Michalak,
Kosfelder, Meyer & Schulte, 2003; Schmidt et al., 2003) insbesondere in Bezug auf
unterschiedliche Evaluationsziele (vgl. Hill & Betz, 2005).
Für die Identifikation anderer möglicher Einflussfaktoren auf die retrospektive
Symptomschätzung bieten die vorliegenden Ergebnisse zunächst Anlass zu der Vermutung,
dass der befragte Inhalt eine Rolle bei der Retrospektion spielen könnte. So überschätzen
75.9% (N = 63) der Patienten die Ausgangswerte des BSI retrospektiv (Retro < Prä), beim
BDI lässt sich dies demgegenüber nur für 57.7% (N = 45) der Patienten zeigen. Hill & Betz
71
(2005) konnten für den Bereich der Erwachsenenbildung zeigen, dass Items, deren Inhalte
eher die Zielbereiche einer Intervention betreffen oder sozial erwünschtes Verhalten
repräsentieren, deutlichere Überschätzungen aufweisen. Schwartz & Rapkin (2004)
vermuten, dass retrospektive Erhebungen von verhaltensnah gefassten Items im Vergleich zu
Items mit eher emotionalem Gehalt zu geringeren Abweichungen von den regulären Prä-
Werten führen (im Überblick vgl. auch Safer & Keuler, 2002). Die Frage nach der
Zuverlässigkeit retrospektiver Symptomeinschätzungen könnte somit in Folgestudien
gezielter den abgebildeten Inhalt der Items (bzw. Instrumente) fokussieren, um die
Bedingungen von Über- oder Unterschätzungen weiter aufzuklären. Der Literatur lassen sich
darüber hinaus aber eine Fülle weiterer möglicher kognitiver, emotionaler, motivationaler
und differentieller Einflussfaktoren entnehmen, die auf die retrospektive Einschätzung von
Symptomen im Rahmen der Psychotherapieevaluation gewinnbringend übertragen werden
könnten (im Überblick Hill & Betz, 2005; vgl. auch Levine, Safer & Lench, 2006; Taylor et
al., 2009). Die Diagnose stellt für den Bereich Psychotherapieevaluation dabei zunächst
sicherlich einen äußerst plausiblen möglichen Einflussfaktor dar. In der
Grundlagenforschung konnte bereits eine ganze Reihe von Befunden zu
störungsspezifischen Einflüssen auf die Gedächtnisleistungen insbesondere für affektive
Störungen zusammengetragen werden (Ehlers & Lüer, 1996; Williams, Barnhofer, Crane,
Hermans, Raes, Watkins & Dalgleish, 2007). Dabei zeigen eine größere Zahl von Befunde
allerdings, dass das Vorliegen einer Depression mit einer akkurateren retrospektiven
Einschätzung zumindest für negativ valentes oder störungsspezifisches Material einhergeht
(im Überblick MacLeod, Tata, Kentish & Jacobsen, 1997). Safer & Keuler (2002) konnten
demgegenüber in ihrer Studie einen positiven Zusammenhang zwischen Depressionsausmaß
zu Therapieende und der Überschätzung der initialen Symptomatik zeigen. Die Formen des
Einflusses verschiedener Faktoren und ihrer Kombination auf die Retrospektion sind
72
insgesamt vermutlich komplexer Gestalt und lassen pfadanalytische Verfahren in
Folgestudien wünschenswert erscheinen (vgl. hierzu Safer et al., 2002). Darüber hinaus ist
zu betonen, dass die mögliche Identifikation systematischer Einflussfaktoren auf den
Retrospektionsprozess nicht per se als Urteilsfehler betrachtet werden muss. So vermutet
Levine (1997) eine herausragende Funktion von aktuellen Zielen und Bewertungen bei der
Erinnerung an früheres Erleben und Verhalten (vgl. auch Levine, Lench & Safer, 2009).
Über- und Unterschätzungen könnten dabei jeweils funktional im Sinne verschiedener
Selbstregulationsstrategien betrachtet werden. Sie können für die Aufrechterhaltung einer
kohärenten Selbstbeschreibung dienlich sein und Persönlichkeit so gleichermaßen
konstituieren, wie Persönlichkeit umgekehrt Über- und Unterschätzungen erst provozieren
könnte (Safer & Keuler, 2002; Safer et al., 2002). Auch die Auswahl von Art und Ausmaß
weiteren Copingverhaltens nach einer Intervention kann durch die jeweilige Rekonstruktion
einer vergangenen Episode bestimmt sein (Levine et al., 2009). Über- und Unterschätzungen
sind von (mehr oder weniger adaptiven) Strategien der Selbstregulation dann aber nur noch
schwer zu trennen (vgl. Levine et al., 2009; Güthlin, 2004). Die Abweichung retrospektiver
von regulär erhobenen Messungen wäre unter diesen Bedingungen kein rationales Kriterium
mehr für die Zuverlässigkeit oder Validität der retrospektiven Messung. Gütekriterien zur
Beurteilung retrospektiver Verfahren sollten bei Erhärtung derartiger Annahmen
messtheoretisch sogar neu gefasst werden (vgl. hierzu Schwartz und Rapkin, 2004).
Eine derartige funktionale Interpretation retrospektiver Symptomeinschätzungen
hätte dann wohl auch weitreichende Folgen für die Beurteilung der Validität retrospektiver
Therapieerfolgswerte, da sie den Blick auf ihre Validität von der Konvergenz mit Prä-Post
Differenzwerten (Effektstärken, RGS usw.) entkoppeln würde. Einige Studien belegen
bereits einen genuinen Beitrag zur Beschreibung des Psychotherapieerfolgs durch
retrospektive Erfolgswerte (u.a. Michalak et al., 2003; Flückiger et al, 2007), der mitunter
73
gar eine höhere prädiktive Potenz retrospektiver Erfolgswerte (u.a. für die Wiederaufnahme
von Psychotherapie) im Vergleich zu Prä-Post Veränderungswerten einschließt (Michalak et
al., 2003). Trotz derartiger Befunde werden immer noch vielfach (wenn auch meist implizit)
Prä-Post Differenzwerte (bzw. Effektstärken) in ihrer Bedeutung herausgehoben und die
Validität retrospektiver Verfahren in der Konvergenz mit ihnen beurteilt (vgl. Hill
&Lambert, 2004). Dabei ist andererseits davon auszugehen, dass auch „zeitnahe“
Einschätzungen von Symptomen (zum Beispiel repräsentiert in regulären Prä-Messungen)
Urteilsfehlern unterliegen. So fassen Hill und Betz (2005) die Befunde zum retrospektiven
Vortest im Rahmen der Programmevaluation folgendermaßen zusammen: „Given that both
prospective and retrospective pretests are biased, and that our knowledge of how and when
these biases operate is currently far from comprehensive, how are program evaluators and
providers to determine which type of pretest to use“ (Hill & Betz, 2005, S. 514). Aufgrund
der jeweiligen spezifischen Beschränkungen jedes der bekannten Evaluationsverfahren kann
auf keinen absoluten Referenzpunkt der wahren Veränderung mehr gedeutet werden, von
dem aus die Validität eines anderen Verfahrens beurteilt werden könnte (Kendall, Holmbeck
& Verdun, 2004). Hill und Betz (2005) fordern daher die Erarbeitung differenzierter
empirisch basierter Empfehlungen eines best use einzelner Therapieerfolgswerte in Hinblick
auf verschiedene mögliche Evaluationsziele.
Die vorliegende Studie unterstützt die Feststellung, dass die Vernachlässigung
retrospektiver Verfahren in der Evaluation von Psychotherapie empirisch derzeit nicht
elaboriert begründbar ist (im Überblick Hill & Lambert, 2004; vgl. auch Flückiger et al.,
2007; Michalak et al., 2003) und einen ungerechtfertigten Verzicht auf ein ökonomisches
(Ein-Punkt-Messung) und zudem valides Vorgehen der Psychotherapieerfolgsmessung
bedeuten könnte.
74
Literaturverzeichnis
Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C.W. Harris
(Hrsg.), Problems in measuring change (S. 3-20). Maison: The University of
Wisconsin Press.
Cohen, J. (1988). Statistical power analysis for the behavioural sciences. Hillsdale, NJ:
Erlbaum.
Derogatis, L. R., Lipman, R. S., Rickels, K., Uhlenhuth, E. H. & Covi, L. (1974). The
Hopkins Symptom Checklist (HSCL): A self-report symptom inventory. Behavioral
Science, 19, 1–15.
Ehlers, A. & Lüer, G. (1996). Pathologische Prozesse der Informationsverarbeitung.
Kognitionspsychologische Interpretation von Depressionen und Angststörungen. In
A. Ehlers & K. Hahlweg (Hrsg.), Enzyklopädie der Psychologie. Grundlagen der
Klinischen Psychologie (Themengebiet D, Serie 2, Band 1, S. 351-403). Göttingen:
Hogrefe.
Flückiger, C., Regli, D., Grawe, K. & Lutz, W. (2007). Differencies and similarities between
pre-post and retrospective measurements of outcome. Psychotherapy Research, 17
(3), 359-364.
Franke, G. H. (2000). Brief Symptom Inventory von L. R. Derogatis (Kurzform der SCL-90
R). Göttingen: Beltz Test.
Grawe, K., Bernauer, F. & Donati, R. (1994). Psychotherapie im Wandel. Von der
Konfession zur Profession. Göttingen: Hogrefe.
Güthlin, C. (2004). Response Shift: alte Probleme der Veränderungsmessung, neu
angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische
Psychologie, 13, 165–174.
75
Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar
(BDI). (2. überarbeitete Auflage). Bern: Hans Huber.
Hill, L. G. & Betz, D. L. (2005). Revisiting the retrospective pretest. American Journal of
Evaluation, 26, 501-517.
Hill, C. E. & Lambert, M. J. (2004). Methodological Issues in Studying Psychotherapy
Processes and Outcomes. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook
of Psychotherapy and Behavior Change (S. 84–136). New York: Wiley.
Kendall, P. E., Holmbeck, G. & Verdun, T. (2004). Methodology, design, and evaluation in
psychotherapy research. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook
of Psychotherapy and Behavior Change (S. 16-43). New York: Wiley.
Kiresuk, T. I. & Sherman, R. E. (1968). Goal Attainment Scaling: A general method for
evaluating comprehensive community mental health programs. Community Mental
Health Journal, 4, 443-453.
Levine, L. J. (1997). Reconstructing memory for emotions. Journal of Experimental
Psychology: General, 126, 165-177.
Levine, L. J., Lench, H. C. & Safer, M. A. (2009). Functions of Remembering and
Misremembering Emotion. Applied Cognitive Psychology, 23, 1059-1075.
Levine, L. J., Safer, M. A. & Lench, H. C. (2006). Remembering and misremembering
emotions. In: L. J. Sanna & E. C. Chang (Hrsg.), Judgments over time: The interplay
of thoughts, feelings, and behaviors (S. 271-290). New York: Oxford University
Press.
MacLeod, A. K., Tata, P., Kentish, J. & Jacobsen, H. (1997). Retrospective and prospective
cognitions in anxiety and depression. Cognition and Emotion, 11, 467–479.
Meyer, F. & Schulte, D. (2002). Zur Validität der Beurteilung des Therapieerfolgs durch
Therapeuten. Zeitschrift für Klinische Psychologie und Psychotherapie, 31, 53-61.
76
Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs.
Veränderungsmessung oder retrospektive Erfolgsbeurteilung. Zeitschrift für Klinische
Psychologie und Psychotherapie, 32, 94-103.
Norman, G. (2003). Hi! How are you? Response shift, implicit theories and differing
epistemologies. Quality of Life Research, 12, 239-249.
Safer, M. A. & Keuler, D. J. (2002). Individual Differences in Misremembering Pre -
Psychotherapy Distress: Personality and Memory Distortion. Emotion, 2, 162–178
Safer, M. A., Levine, L. J. & Drapalski, A. L. (2002). Distortion in memory for emotions:
The contributions of personality and post-event knowledge. Personality and Social
Psychology Bulletin, 28, 1495-1507.
Schmidt, J., Steffanowski, A., Nübling, R., Lichtenberg, S. & Wittmann, W. W. (2003).
Ergebnisqualität stationärer psychosomatischer Rehabilitation: Vergleich
unterschiedlicher Evaluationsstrategien. Regensburg: Roderer.
Schulte, D. (1996). Therapieplanung. Göttingen: Hogrefe.
Schwartz, C. E. & Rapkin, B. D. (2004). Reconsidering the psychometrics of quality of life
assessment in light of response shift and appraisal. Health and Quality of Life
Outcomes, 2, 16.
Seligman, M. E. P. (1995). The effectiveness of psychotherapy: The Consumer Reports
study. American Psychologist, 50, 965-974.
Steketee, G. & Chambless, D. L. (1992). Methodological issues in prediction of treatment
outcome. Clinical Psychology Review, 12, 387-400.
Stieglitz, R. D. (1990). Validitätsstudien zum retrospektiven Vortest in der
Therapieforschung. Zeitschrift für Klinische Psychologie, 19, 144-150.
Stiftung Warentest (2011). Ergebnisse der Umfrage Psychotherapie: Therapie hat vielen
geholfen. Zugriff am 17.11.2011. Verfügbar unter
77
http://www.test.de/themen/gesundheit-kosmetik/meldung/Ergebnisse-der-Umfrage-
Psychotherapie-Therapie-hat-vielen-geholfen-4288428-4288430#
Taylor, P. J., Russ-Eft, D. F. & Taylor, H. (2009). Gilding the Outcome by Tarnishing the
Past: Inflationary Biases in Retrospective. American Journal of Evaluation, 30, 31-
43.
Ülsmann, D., Willutzki, W. & Veith, A. (2009). Psychotherapieerfolgsmessung: Der
Bochumer Veränderungsfragebogen. Poster präsentiert auf dem 6.
Workshopkongress für Klinische Psychologie und Psychotherapie, Zürich.
Veith, A. & Willutzki, U. (2000). Eine Revision des Veränderungsfragebogens des Erlebens
und Verhaltens (VEV). Vortrag auf dem Kongress für Klinische Psychologie und
Psychotherapie der Deutschen Gesellschaft für Verhaltenstherapie, Berlin.
Williams, J. M., Barnhofer, T., Crane, C., Hermans, D., Raes, F., Watkins, E., Dalgleish, T.
(2007). Autobiographical Memory Specifity and Emotional Disorder. Psychological
Bulletin, 133 (1), 122-148.
Wittchen, H. U., Zaudig, M. & Fydrich, T. (1997). Strukturiertes Klinisches Interview für
DSM-IV Achse I und II. Göttingen: Hogrefe.
Zielke, M. & Kopf-Mehnert, C. (1978). Der Veränderungsfragebogen des Erlebens und
Verhaltens VEV. Weinheim: Beltz.
78
Tabelle 1
Deskriptive Statistiken
N M (SD)
BSI Prä 83 .85 (.53)
BSI Retro 83 1.21 (.73)
BSI Retro-Prä 83 .36 (.57)
BSI Post 82 .51 (.49)
BDI Prä 79 16.43 (9.67)
BDI Retro 82 18.77 (13.00)
BDI Retro-Prä 78 2.80 (8.28)
BDI Post 83 6.07 (7.66)
VEV-VW Post 83 5.43 (.97)
GAS Post 65 4.62 (1.11)
Global Post 81 4.90 (1.09)
ES BSI¹ 82 .64 (.87)
ES BSI Retro¹ 82 .97 (.83)
ES BDI¹ 79 1.05 (.86)
ES BDI Retro¹ 82 1.00 (.88)
Anmerkungen. Brief Symptom Inventory (BSI), Beck Depressions Inventar (BDI), Veränderungsfragebogen
des Erlebens und Verhaltens VW (VEV-VW), Zielerreichungsskalierung (GAS), Globalurteil (Global),
Effektstärke (ES). Die Kürzel Prä und Post verweisen auf den Zeitpunkt der jeweiligen Messung, Retro
verweist auf eine retrospektive Messung. Durch minus Zeichen getrennte Kürzel (Retro, Prä, Post) zeigen
Differenzwerte an.
¹Effektstärke berechnet als Mprä-Mpost/SDprä bzw. Mretro-Mpost/SDretro
79
Tabelle 2
Lineare Regression mit der retrospektiven Messung (Retro) des Brief Symptom Inventory
(BSI) als abhängiger Variable und der regulären Prä-Messung des BSI (BSI Prä; Block 1,
Einschluss) sowie Therapieerfolgsverfahren¹ (Block 2, schrittweise) als unabhängige
Variablen²
Modell
korrigiertes R² Variable
B
SE Beta
T P VIF
1 .51** BSI Prä .89 .11 .72 7.86 .01 1.00
2 .56* BSI Prä .92 .11 .75 8.50 .01 1.01
VEV-VW .17 .07 .23 2.64 .05 1.01
3 .59* BSI Prä .94 .10 .77 9.03 .01 1.02
VEV-VW .26 .07 .35 3.59 .01 1.38
RGS BSI -.22 .09 -.23 -2.38 .05 1.36
Anmerkungen.
¹ herangezogene Therapieerfolgsverfahren: Residual Gain Score (RGS) von BSI (RGS BSI) und BDI (RGS
BDI), Zielerreichungsskalierung (GAS), Globalurteil (Global) und Veränderungsfragebogen des Erlebens und
Verhaltens VW (VEV-VW)
² lediglich statistisch bedeutsame Prädiktoren werden aufgeführt (Aufnahme p<.05, Ausschluss p<.10)
**(p<.01) bzw. *(p<.05) Signifikanzniveau von F (Änderung in R²)
80
Tabelle 3
Lineare Regression mit der retrospektiven Messung (Retro) des Beck Depressions Inventar
(BDI) als abhängiger Variable und der Prä-Messung des BDI (BDI Prä; Block 1,
Einschluss) sowie Therapieerfolgsverfahren¹ (Block 2, schrittweise) als unabhängige
Variablen²
Modell
korrigiertes R² Variable
B
SE Beta
T p VIF
1 .55** BDI Prä .91 .11 .75 8.54 .01 1.00
2 .59* BDI Prä .94 .10 .77 9.07 .01 1.01
VEV-VW 2.52 1.08 .20 2.34 .05 1.01
3 .63* BDI Prä 1.00 .10 .82 9.90 .01 1.07
VEV-VW 4.92 1.37 .39 3.60 .01 1.80
RGS BDI -4.12 1.56 -.29 -2.65 .05 1.80
Anmerkungen.
¹ herangezogene Therapieerfolgsverfahren: Residual Gain Score (RGS) von BSI (RGS BSI) und BDI (RGS
BDI), Zielerreichungsskalierung (GAS), Globalurteil (Global) und Veränderungsfragebogen des Erlebens und
Verhaltens VW (VEV-VW)
² lediglich statistisch bedeutsame Prädiktoren werden aufgeführt (Aufnahme p<.05, Ausschluss p<.10)
**(p<.01) bzw. *(p<.05) Signifikanzniveau von F (Änderung in R²)
81
Tabelle 4
Interkorrelationen (Pearson) der Psychotherapieerfolgsmaße
ES BSI
Retro¹
ES BDI¹
ES BDI
Retro¹
VEV-VW GAS Global
ES BSI¹ .45** (N=82)
.31** (N=78)
.23** (N=81)
.34** (N=82)
.35** (N=64)
.38** (N=80)
ES BSI Retro¹ - .59** (N=78)
.77** (N=81)
.48** (N=82)
.38** (N=64)
.48** (N=80)
ES BDI¹ - - .70** (N=78)
.39** (N=79)
.24 (N=61)
.34** (N=77)
ES BDI Retro¹ - - - .45** (N=82)
.28* (N=65)
.41** (N=80)
Anmerkungen.
Effektstärke (ES), Brief Symptom Inventory (BSI), Beck Depressions Inventar (BDI),
Veränderungsfragebogen des Erlebens und Verhaltens VW (VEV-VW), Zielerreichungsskalierung (GAS),
Globalurteil (Global)
Die Kürzel Prä und Post verweisen auf den Zeitpunkt der jeweiligen Messung, Retro verweist auf eine
retrospektive Messung
¹Effektstärke berechnet als Mprä-Mpost/SDprä bzw. Mretro-Mpost/SDretro
82
Autorenhinweis
Dominik Ülsmann, Humboldt-Universität zu Berlin; Thomas Fydrich, Humboldt-Universität
zu Berlin
Dominik Ülsmann
Humboldt-Universität zu Berlin
Institut für Psychologie
Psychotherapie und Somatopsychologie
Rudower Chaussee 18
12489 Berlin
83
7.2 Publikation 2 - Ziel erreicht! Aber auch verändert? Zwei basale Perspektiven in der
Psychotherapieerfolgsbeurteilung
Ülsmann, D. & Schulte, D. (in Druck). Ziel erreicht! Aber auch verändert? Zwei
basale Perspektiven in der Psychotherapieerfolgsbeurteilung. Zeitschrift für Klinische
Psychologie und Psychotherapie.
84
Kolumnentitel: ZIEL ERREICHT! ABER AUCH VERÄNDERT?
Ziel erreicht! Aber auch verändert?
Zwei basale Perspektiven in der Psychotherapieerfolgsbeurteilung.
Dominik Ülsmann
Humboldt-Universität zu Berlin
Dietmar Schulte
Ruhr-Universität Bochum
85
Zusammenfassung
Theoretischer Hintergrund: In faktorenanalytischen Untersuchungen verschiedener
Psychotherapieerfolgswerte resultieren meist sogenannte Methodenfaktoren. Hierbei lassen
sich Zwei-Punkt-Messungen (Prä-Post) von Ein-Punkt-Messungen zu Therapieende (Post)
trennen. Einige Studien betrachten diese Divergenz der Erfolgswerte als Ergebnis einer
unterschiedlichen Zeitperspektive (Veränderungsmaße versus retrospektive
Erfolgsbeurteilungen). Fragestellung: Ist die unterschiedliche Zeitperspektive tatsächlich für
die Divergenz der Erfolgswerte verantwortlich? Methode: Über vorhandene Studien
hinausgehend werden Patienten (N=59) aufgefordert ihre Prä-Werte zu Therapieende
abermals retrospektiv zu schätzen (Retro). Retro-Post Differenzwerte werden als
retrospektives Maß der Veränderung zusätzlich in eine Faktorenanalyse verschiedener
Erfolgswerte einbezogen. Ergebnisse: Es lässt sich eine zweifaktorielle Struktur mit den
Komponenten „Veränderung“ und „Restsymptomatik/Zielerreichung“ zeigen. Verschiedene
retrospektive Strategien müssen unterschiedlichen Faktoren zugeordnet werden.
Schlussfolgerungen: Differenzwerte (Prä-Post, Retro-Post) lassen sich komplementär von
einer subjektiven Heuristik der Erfolgsbeurteilung abgrenzen, die einen Abgleich von
aktuellem Befinden und Zielvorstellungen vornimmt. Hierbei spielt die Retrospektivität der
Erhebung – also die Zeitperspektive – nur eine untergeordnete Rolle.
Schlagwörter: Psychotherapieerfolg - Therapieerfolgskontrolle – retrospektive
Erfolgsbeurteilung - Veränderungsmessung - Evaluation
86
Abstract
Background: Most factor-analytic studies on the dimensionality of psychotherapy outcome
show so-called method factors. Some studies contrast two-point measurements (pre-post)
and single-point measurements (post). This is interpreted as a result of a different time
perspective (pre-post versus retrospective measures). Objective: Is a different time
perspective of the outcome measures an appropriate explanation for the divergence? Method:
An exploratory factor analysis of various evaluation instruments including different types of
retrospective approaches is conducted. Results: A two-factor structure with the components
"change" and "end state functioning/goal attainment" can be shown. Different types of
retrospective approaches can be assigned to different factors. Conclusions: Statistical
characteristics of difference scores are in contrast with a subjective heuristic for therapy
outcome that focuses goal attainment. Retrospective measures cannot be seen as a coherent
class of evaluation strategies.
Key words: psychotherapy outcome - treatment effectiveness - retrospective measures -
measurement of change - evaluation
87
How we should measure "change" - or should we?
(Cronbach & Furby, 1970)
Why we should measure “change” –and, can we?
(Willett, 1988)
Einleitung
Eine auf den ersten Blick schlichte, aber dennoch zentrale Frage der Evaluation von
Psychotherapie lautet bis heute: „Wie sollte Psychotherapieerfolg gemessen werden?“
(Schulte, 1993). Antworten auf diese Frage existieren zwar reichlich (im Überblick Schulte,
1993; Hill & Lambert, 2004), die Forderung nach einheitlichen Regeln für die
Operationalisierung von Psychotherapieerfolg blieb bis dato allerdings unerfüllt. In diesem
Umstand sehen Hill und Lambert (2004) gar das Versagen der klinischen
Evaluationsforschung eine kohärente Wissenschaft aufzubauen. Der größte Konsens besteht
derzeit darin, verschiedene Strategien der Psychotherapieevaluation in einem
Ergänzungsverhältnis zu sehen und Psychotherapieerfolg möglichst breit zu
operationalisieren (Hill & Lambert, 2004). Dieser Vorschlag erscheint auf den zweiten Blick
allerdings wie eine Kapitulation vor der Frage nach den genauen Bedingungen von
Konvergenzen und Divergenzen verschiedener Strategien in der Abbildung des
Psychotherapieerfolgs. Aus einer ökonomischen Perspektive, die oft begrenzten Ressourcen
in Forschung und Praxis geschuldet ist, wären gezielte Empfehlungen eines best use (Hill &
Betz, 2005) einzelner Operationalisierungsstrategien im Hinblick auf bestimmte
Evaluationsvorhaben wünschenswert. Um derartig differenzierte Empfehlungen geben zu
können, bedarf es allerdings einer breiten Kenntnis der Faktoren, die Divergenzen und
88
Konvergenzen verschiedener Erfolgswerte in der Abschätzung des Therapieerfolgs bedingen
können.
Bereits mehrfach wurden Systematisierungs- und Konzeptualisierungsversuche
unternommen, um die Vielfalt der verfügbaren Evaluationsstrategien theoretisch zu ordnen
(im Überblick Schulte, 1993; Hill & Lambert, 2004). Nach Schulte (1993) lassen sich
Verfahren danach unterscheiden, was sie erfassen (Inhalt) und wie sie dies tun (Methode). In
Bezug auf den Inhalt lassen sich die Messung des Krankheitsdefekts (Ursachen) von der
Messung des Krankseins bzw. der Krankheit (Symptome, Defekt; primary outcome) und der
Krankheitsfolgen (secondary outcome) unterscheiden. In Bezug auf die Methode lassen sich
verschiedene Strategien der Erfolgsoperationalisierung differenzieren. Schulte (1993)
fokussiert dabei den Vergleich mit verschiedenen Kriterien, die jeweils zur Bewertung der
Testwerte zu Therapieende (Post) herangezogen werden (vgl. Abb. 1). Um Veränderung
abzubilden kann eine Differenz von Post-Werten und Ausgangszustand (Prä) bestimmt
werden (Abb. 1, A Veränderung). Alternativ können die Werte zu Therapieende auch in
Hinblick auf eine Norm oder ein (subjektives) Ziel bewertet werden und bilden damit das
Erreichen eines Ideals ab (Abb.1, B Zielerreichung). Vergleichsurteile, wie die von Post in
Bezug zu Prä (Abb.1, A Veränderung) oder von Post in Bezug zu einem Ideal (Abb. 1, B
Zielerreichung), können dabei in dreierlei Form gefällt werden: als subjektive Schätzung
(Abb. 1, 1), als empirischer Differenzwert (Abb. 1, 2) oder über weitergehende statistische
Definitionen (Abb. 1, 3).
>> Abbildung 1 bitte hier einfügen <<
Abbildung 1 zeigt, wie sich unter rein methodischen Aspekten die gängigsten
Strategien der Psychotherapieevaluation in dieser Heuristik unterbringen lassen.
Veränderung (Abb. 1, A) kann indirekt über die Berechnung von Prä-Post Differenzwerten
89
(empirischer Differenzwert) bestimmt werden (Abb. 1, A2), oder der Patient wird direkt in
Komparativform (besser/schlechter) nach der erlebten Veränderung (subjektive Schätzung)
befragt (Abb. 1, A1). Aus der Perspektive der Zielerreichung können subjektive Schätzungen
wie die Zufriedenheit mit der Therapie (Abb. 1, B1) von empirischen Differenzwerten wie
bei der individuellen Zielerreichung oder normativen Vergleichen (Abb. 1, B2)
unterschieden werden. Weitergehende statistische Definitionen von Veränderung oder
Zielerreichung (Abb. 1, 3) zum Beispiel in Form von reliabler Veränderung (vgl. Jacobson
& Truax, 1991), Effektstärken (vgl. Grawe, Bernauer & Donati, 1994) oder der klinischen
Bedeutsamkeit (vgl. Jacobson & Truax, 1991) ziehen zusätzliche Variablen heran, um die
Erfolgswerte statistisch breiter abzusichern. Für alle genannten Strategien (vgl. Abb. 1)
lassen sich jeweils spezifische messtheoretische Probleme formulieren (im Überblick Hill &
Lambert, 2004; Stieglitz & Baumann, 2001). Insgesamt kann festgestellt werden, dass die
verschiedenen Erfolgswerte in der Abschätzung des Therapieerfolgs mehr oder weniger stark
divergieren, ohne dass die sichere Überlegenheit einer der Operationalisierungsstrategien
gezeigt werden kann (im Überblick Hill & Lambert, 2004; Stieglitz & Baumann, 2001).
Faktorenanalysen bieten die Möglichkeit, die theoretischen Annahmen zu Kategorien
von Evaluationsstrategien empirisch zu untermauern. Derartige Untersuchungen zeigen
meist Komponenten auf, die sich entlang der Methode - also entlang verschiedener
Operationalisierungsstrategien (vgl. Abb. 1) oder der herangezogenen Quelle (u.a. Fremd-
vs. Selbst) - entfalten (im Überblick Hill & Lambert, 2004; vgl. auch Flückiger, Regli,
Grawe & Lutz, 2007; Michalak, Kosfelder, Meyer& Schulte, 2003). Diese
Methodenfaktoren können als empirischer Beleg für eine Taxonomie verschiedener
Erfolgswerte nach ihrer Operationalisierungsstrategie betrachtet werden. Inhaltliche Aspekte
scheinen bei der Gruppierung in Faktorenanalysen nur eine untergeordnete Rolle zu spielen
(im Überblick Hill & Lambert, 2004).
90
Zwei faktorenanalytische Studien mit hoher ökologischer Validität in Bezug auf die
ambulante psychotherapeutische Versorgung extrahieren ebenfalls derartige
Methodenfaktoren. Michalak und Kollegen (2003) grenzen unter Rückgriff auf eine große
Zahl inhaltlich und methodisch verschiedener Verfahren die beiden Methodenfaktoren
Veränderungsmaße und retrospektive Erfolgsbeurteilungen voneinander ab. Inhaltliche
Aspekte zeigen auch in dieser Studie keinen Einfluss auf die Gruppierung der Erfolgswerte.
Auf den Faktor Veränderungsmaße laden vor allem indirekte Veränderungsmessungen (Abb.
1, A2) in Form von Prä-Post Effektstärken (Mprä-Mpost/SDprä; Grawe et al., 1994). Der
Faktor retrospektive Erfolgsbeurteilung umfasst vor allem Ladungen von
Zufriedenheitsurteilen (Abb. 1, B1) und Zielerreichungsskalierungen (Abb.1, B2). Die
direkte Veränderungsmessung (Abb. 1, A1) zeigt eine heterogene Ladung auf beide
Faktoren.
Flückiger und Kollegen (2007) unterscheiden theoretisch retrospective measures,
unter die sie ebenfalls Zufriedenheitsurteile (Abb. 1, B1), Zielerreichungsskalierungen
(Abb.1, B2) und direkte Veränderungsmessungen (Abb. 1, A1) fassen, von pre-post
measures (Abb. 1, A2). In einer Hauptkomponentenanalyse der Erfolgsmaße zeigen die
Autoren zunächst eine einfaktorielle Struktur des Psychotherapieerfolgs. Eine anschließende
konfirmatorische Faktorenanalyse verweist auf drei überlappende Methodenfaktoren. Pre-
post measures (Abb. 1, A2) mit Ladungen von Prä-Post Effektstärken können so von
retrospective measures global mit Ladungen von Zielerreichungsskalierungen (Abb. 1, B2)
und Zufriedenheitsurteilen (Abb. 1, B1), sowie von retrospective measures scales mit
Ladungen direkter Veränderungsmessungen (Abb. 1, A1) abgegrenzt werden. Die direkte
Veränderungsmessung wird bei Flückiger und Kollegen (2007) somit einem eigenen dritten
Faktor retrospective measures scales zugeordnet, wobei die Überlappung mit dem Faktor
retrospective measures global von den Autoren betont wird. Sowohl die Studie von Michalak
91
und Kollegen (2003) als auch die von Flückiger und Kollegen (2007) verweisen auf einen
möglichen zentralen Unterschied zwischen den Erfolgswerte: die Zeitperspektive (vgl.
Baumann, 1982, Stieglitz & Baumann, 2001). Beide Studien unterscheiden retrospektive
Beurteilungen des Therapieerfolgs zu Therapieende (Post) von Strategien, die
Statusmessungen (Prä, Post) zu Prä-Post Differenzwerten verrechnen (vgl. auch Jensen,
Mortensen & Lotz, 2008). Allerdings ist fraglich, ob die Zeitperspektive das zentrale
Unterscheidungsmerkmal der verschiedenen Erfolgswerte darstellt. In Anbetracht der bei
Michalak und Kollegen (2003) und Flückiger und Kollegen (2007) unter retrospektive
Erfolgsbeurteilungen bzw. restrospective measures gefassten Verfahren kann kritisch gefragt
werden, ob sie tatsächlich als retrospektive Erfolgswerte aufzufassen sind. Die Form der
Aussagen, die in Zufriedenheitsurteilen und Zielerreichungsskalierungen zu treffen sind
(Wie zufrieden sind sie mit der Behandlung? Wie nah sind sie ihrem Ziel gekommen?)
lassen sich nur schwer unter retrospektive Aussagen fassen (vgl. Baumann, 1982). Nach
Schulte (1993) implizieren diese Operationalisierungsstrategien statt eines retrospektiven
Rückblicks auf den Ausgangszustand vielmehr einen Abgleich der aktuell gegebenen
Restsymptomatik mit (subjektiven) Zielkriterien. In Bezug auf die direkte
Veränderungsmessung wird vermutet, dass Patienten vom gegenwärtigen Befinden auf eine
Veränderung schließen statt retrospektiv eine Differenz Prä-Post zu bilden (Kastner &
Basler, 1997; Lam & Bengo, 2003; Michalak et al., 2003; anders Flückiger et al., 2007).
Fragestellung
Es wird überprüft, ob sich in faktorenanalytischer Gesamtschau verschiedener
Evaluationsstrategien (Abb. 1, A1, A2, B1, B2) Methodenfaktoren zeigen lassen, die die
Zeitperspektive als zentrales Unterscheidungsmerkmal abbilden. Über vorhandene Studien
hinausgehend werden zusätzlich retrospektive Prä-Werte (im Überblick Hill & Betz, 2005)
92
mit in die Analysen einbezogen. Die Eingangsmessung (Prä) wird zu Therapieendende
(Post) erneut, diesmal also retrospektiv (Retro) vorgenommen. Zum einen werden die
retrospektiven Prä-Werte zu Retro-Post Differenzwerten analog zu Prä-Post Differenzwerten
verrechnet (vgl. Hill & Betz, 2005; Stieglitz, 1990) und die Verortung dieses explizit
retrospektiven Erfolgswertes in einer explorativen Faktorenanalyse untersucht. Zum anderen
sollen über Zusammenhänge der verschiedenen Erfolgswerte mit der retrospektiven
Rekonstruktion des Ausgangszustandes (Retro) Rückschlusse auf ihren retrospektiven
Charakter ermöglicht werden. Zusammenhänge mit dem Ausgangszustand (Prä) bzw. der
retrospektiven Rekonstruktion des Ausgangszustandes (Retro) können dabei als Hinweis auf
eine Retrospektion gelten, während Zusammenhänge mit den Post Werten als Hinweise für
eine Referenz auf den aktuellen anstelle eines vergangenen Zustands verstanden werden
können (Kastner & Basler, 1997; Michalak et al., 2003).
Methode
Stichprobe
Die Untersuchung wurde an 59 Patienten durchgeführt, die zwischen 2007 und 2009
am Zentrum für Psychotherapie (ZPT) der Ruhr Universität Bochum kognitiv-
verhaltenstherapeutisch behandelt wurden und ihre Therapien zwischen 05/2008 und
11/2009 im Mittel in 36.7 Therapiestunden (SD = 14.31) regulär beendeten. Das
Durchschnittsalter der Patienten beträgt 37.6 Jahre (SD = 12.63) und 50.8% (N = 30) sind
weiblichen Geschlechts. Diagnostiziert wurden mittels Strukturiertem Klinischen Interview
für DSM-IV (SKID; Wittchen, Zaudig & Fydrich, 1997) überwiegend Angststörungen (N =
26; 44,1%) und affektive Störungen (N = 15; 25,4%), sowie Essstörungen (N = 5; 8,5%),
Zwangsstörungen (N = 3; 5,1%) und sonstige Störungen (N = 10; 16,9%).
Ausschlusskriterium war ein vorzeitiger Abbruch der Therapie, so dass nur abgeschlossene
93
Therapien einbezogen wurden. Um die Belastung der Patienten gering zu halten, galt als
weiteres Ausschlusskriterium die Teilnahme an anderen aufwändigen Forschungsprojekten
der Ambulanz. Größere Projekte zum Zeitpunkt der Erhebung betrafen vor allem Patienten
mit sozialer Phobie und affektiven Störungen. Es wurden lediglich vollständige Datensätze
in die Analyse aufgenommen.
Prozedur
Die Erhebungen fanden in zwei Messungen zu Therapiebeginn (Prä) und
Therapieende (Post) statt. Die Messung zu Therapiebeginn umfasste neben dem
Strukturierten Klinischen Interview für DSM-IV (SKID; Wittchen et al., 1997), das Brief
Symptom Inventory (BSI; Franke, 2000) und das Beck-Depressions-Inventar (BDI;
Hautzinger, Bailer, Worall & Keller, 1995). Die Messung zu Therapieende (Post) umfasste
eine Reihe von Psychotherapieerfolgsmaßen: Veränderungsfragebogen des Erlebens und
Verhaltens in einer revidierten Form (VEV; Veith & Willutzki, 2000), Globalurteil der
Zufriedenheit mit der Therapie (Global; Meyer & Schulte, 2002) sowie eine
Zielerreichungsskalierung im Sinne des Goal Attainment Scaling (GAS; Kiresuk &
Shermann, 1968). Ebenfalls zu Therapieende wurden die Post-Statusmessungen von BSI und
BDI erhoben sowie der retrospektive Prä-Test (im Überblick Hill & Betz, 2005; vgl.
Stieglitz, 1990) für BSI und BDI (Retro) vorgenommen. Für den retrospektiven Prä-Test
wurden die Standardinstruktionen von BSI und BDI um folgende Einleitung ergänzt: „Wir
möchten Sie für diese Befragung bitten, sich noch einmal an den Zeitpunkt Ihres
Therapiebeginns zurück zu erinnern. Führen Sie sich bitte vor Augen, wie es Ihnen damals
ging und beantworten Sie die folgenden Fragen so, wie Sie sich damals fühlten.“
94
Material
Das Brief Symptom Inventory (BSI; Franke, 2000) erfasst in 53 Items die subjektiv
empfundene Beeinträchtigung durch körperliche und psychische Symptome. Der Global
Severity Index (GSI; Franke, 2000; α > .92) findet als globales störungsübergreifendes Maß
der subjektiv wahrgenommenen Beeinträchtigung weite Verbreitung in
Psychotherapiestudien (Hill & Lambert, 2004). Das Beck-Depressions-Inventar (BDI;
Hautzinger et al., 1995; α = .88) erfasst in 21 Items den Schweregrad einer depressiven
Symptomatik. Der verwendete Veränderungsfragebogen des Erlebens und Verhaltens (VEV)
stellt eine Überarbeitung des Veränderungsfragebogens des Erlebens und Verhaltens von
Zielke und Kopf-Mehnert (1978) dar (Veith & Willutzki, 2000; α = .96). Die überarbeitete
Variante des VEV fordert Patienten im Sinne einer direkten Veränderungsmessung in 26
Items auf, ihre Veränderungen im Zuge der Psychotherapie einzuschätzen. Die Items sind
als Polaritätsprofile mit einer sieben-stufigen Skala gestaltet (1 bis 7, der neutrale
Skalenmittelpunkt 4 verweist auf keine Veränderung, höhere Werte verweisen auf eine
positive Veränderung, niedrigere Werte auf eine negative Veränderung). Das Globalurteil
der Zufriedenheit mit der Therapie (Global; Meyer & Schulte, 2002) erfasst in zwei Items
die globale Zufriedenheit des Patienten mit der Therapie (6-stufige Likert Skala von 1 bis 6,
höhere Werte verweisen auf höhere Zufriedenheit). Das Goal Attainment Scaling (GAS;
Kiresuk & Shermann, 1968) erfasst den Grad der Zielerreichung zu Therapieende von
individuell zu Therapiebeginn operationalisierten Therapiezielen (6-stufige Likert Skala von
1 bis 6, höhere Werte verweisen auf größere Zielerreichung).
Statistische Analysen
Es werden Prä-Post und Retro-Post Effektstärken von BSI und BDI berechnet. Prä-
Post Effektstärken werden als Prä-Post Differenzwerte berechnet, die an der
95
Standardabweichung zu Prä gewichtet werden (Mprä-Mpost/SDprä; Grawe et al., 1994; vgl.
Michalak et al., 2003). Bei den Retro-Post Effektstärken werden retrospektive Prä-Werte
(Retro) und deren Standardabweichung herangezogen (Mretro-Mpost/SDretro). Um die
Frage nach der Dimensionalität von Therapieerfolg zu beantworten, wird eine explorative
Faktorenanalyse (Hauptkomponentenanalyse mit Varimax Rotation) aller
Psychotherapieerfolgsmaße berechnet. Im Anschluss werden Korrelationen aller
herangezogenen Erfolgsmaße mit den Ausgangswerten der Psychopathologie (Prä), der
Restsymptomatik (Post-Werte) und den retrospektiven Ausgangswerten (Retro) von BSI und
BDI berechnet.
Ergebnisse
Deskriptive Statistiken
Tabelle 1 zeigt die deskriptiven Statistiken sämtlicher herangezogener
Psychotherapieerfolgsmaße, sowie der Statusmessungen (Prä, Post) und retrospektiven
Statusmessungen (Retro) von BSI und BDI.
>> Tabelle 1 bitte hier einfügen <<
Die Prä-Post Effektstärken von BSI und BDI weisen mittlere (BSI) bis große Effekte
(BDI) der psychotherapeutischen Behandlung aus.
Faktorenanalyse der Erfolgsmaße
Die Faktorenanalyse umfasst sämtliche Erfolgswerte. Neben den Prä-Post und Retro-
Post Effektstärken (ES) von BSI und BDI wird die direkte Veränderungsmessung (VEV),
das Globalurteil der Zufriedenheit (Global), sowie das Goal Attainment Scaling (GAS) in die
Hauptkomponentenanalyse (Varimax Rotation) einbezogen. Tabelle 2 zeigt die
Faktorladungen der verschiedenen Strategien sowie Eigenwerte und Varianzaufklärung der
96
Faktoren. Nach dem Kaiser-Kriterium ergibt sich eine zweifaktorielle Struktur des
Psychotherapieerfolgs. Beide Faktoren zeigen nach der Rotation nahezu identische Anteile
an Varianzaufklärung. Auf den ersten Faktor laden sowohl Retro-Post als auch Prä-Post
Effektstärken von BSI und BDI. Der zweite Faktor zeigt substantielle Ladungen des Goal
Attainment Scaling (GAS), des Globalurteils der Zufriedenheit mit der Therapie (Global)
sowie der direkten Veränderungsmessung (VEV). Die direkte Veränderungsmessung (VEV)
und die Effektstärke, basierend auf dem retrospektiven Prä-Test des BSI (ES BSI Retro),
zeigen zudem auch Ladungen auf dem jeweils anderen Faktor, wenn auch deutlich
schwächer.
>> Tabelle 2 bitte hier einfügen <<
Korrelation von Therapieerfolgsmaßen und Statusmessungen (Prä, Retro, Post)
Tabelle 3 zeigt die Korrelationen (Pearson) aller herangezogenen Erfolgswerte mit
den Statusmessungen (Prä, Retro, Post) von BSI und BDI.
>> Tabelle 3 bitte hier einfügen <<
Es lässt sich ein statistisch bedeutsamer Zusammenhang aller
Operationalisierungsstrategien des ersten Faktors (Prä-Post und Retro-Post Effektstärken
von BSI und BDI) mit den Ausgangswerten (Prä) und den retrospektiven Ausgangswerten
(Retro) von BSI und BDI zeigen und nahezu kein bedeutsamer Zusammenhang mit den
Post-Werten (mit Ausnahme eines statistisch bedeutsamen Zusammenhangs der Effektstärke
des BDI und der BDI Restsymptomatik). Die Zusammenhänge der Erfolgswerte des zweiten
Faktors (GAS, Global, VEV) mit den Statusmessungen stellen sich umgekehrt dar. Während
bedeutsame Zusammenhänge aller drei Verfahren mit der Restsymptomatik (Post) von BSI
und BDI gezeigt werden können, bestehen nahezu keine bedeutsamen Zusammenhänge mit
97
dem Ausgangszustand (Prä) und den retrospektiven (Retro) Ausgangswerten (mit Ausnahme
eines statistisch bedeutsamen Zusammenhangs von GAS und den Ausgangswerten des BDI).
Diskussion
Die Faktorenanalyse verweist auf zwei separate Methodenfaktoren (vgl. Michalak et
al., 2003). Der erste Faktor umfasst vor allem Ladungen der Differenzwerte (Prä-Post;
Retro-Post) vergleichbar mit den Faktoren Veränderungsmaße bei Michalak und Kollegen
(2003) und pre-post measures bei Flückiger und Kollegen (2007). Bedeutsame Ladungen
auf den zweiten Faktor zeigen demgegenüber nahezu ausschließlich Erfolgswerte, die
einmalig zu Therapieende (Post) erhoben werden: Goal Attainment Scaling (GAS),
Zufriedenheitsurteil (Global) und direkte Veränderungsmessung (VEV). Diese Ladungen
entsprechen insgesamt denen auf dem Faktor retrospektive Erfolgsbeurteilungen bei
Michalak und Kollegen (2003) sowie denen auf den stark überlappenden Faktoren
retrospective measures global und retrospective measures scales bei Flückiger und
Kollegen (2003). Die Bezeichnung dieses Faktors als retrospektiv wäre hier allerdings aus
zwei Gründen irreführend. Erstens zeigen die explizit retrospektiven Retro-Post
Effektstärken nahezu keine bedeutsamen Ladungen auf diesen Faktor. Zweitens zeigen
sämtliche Erfolgswerte des zweiten Faktors nahezu ausschließlich bedeutsame
Zusammenhänge mit der Restsymptomatik (Post) und nahezu keine bedeutsamen
Zusammenhänge mit dem (retrospektiven) Ausgangszustand (Prä, Retro). Die Bedeutung der
Zeitperspektive für die Interpretation der Faktorenstruktur scheint somit insgesamt
vernachlässigbar. Zudem ist fraglich, ob im Fall von direkten Veränderungsmessungen,
Zufriedenheitsurteilen und Zielerreichungsskalierungen überhaupt von retrospektiven
Strategien gesprochen werden kann, wenn keine bedeutsamen Bezüge zur retrospektiven
Rekonstruktion des Ausgangszustands bestehen. Zur weiteren Interpretation der
98
Faktorenstruktur bieten sich vor allem zwei Foki an. Statt die Zeitperspektive zu fokussieren
kann die Divergenz zuallererst über statistische Besonderheiten von Differenzwerten erklärt
werden. Ergänzend dazu kann die jeweilige mathematische und/oder subjektive Referenz
(Ausgangszustand vs. Ziel/Norm) fokussiert werden, die zur Beurteilung der Post-Werte bei
den einzelnen Strategien herangezogen wird (vgl. Schulte, 1993).
Eine Besonderheit von Prä-Post Differenzwerten (und ebenso von Retro-Post
Differenzwerten) stellt der Informationsverlust in Bezug auf den Schweregrad der
(retrospektiven) initialen Symptomatik (Prä, Retro) und der Restsymptomatik (Post) dar. Die
gleiche Differenz kann weitestgehend unabhängig davon resultieren, ob anfangs - und
folglich auch noch immer am Ende - eine sehr schwere oder eine sehr leichte Störung vorlag
(bzw. rekonstruiert wird). Die nahezu fehlenden bedeutsamen Zusammenhänge beider
Effektstärkevarianten (Prä-Post, Retro-Post) mit der Restsymptomatik (Post) unterstreichen
dies. Allerdings lassen sich statistisch bedeutsame Zusammenhänge beider
Effektstärkevarianten (Prä-Post, Retro-Post) mit den (retrospektiven) Ausgangswerten
(Retro, Prä) zeigen (vgl. Flückiger et al., 2007). Diese statistische Abhängigkeit von Prä-Post
Differenzwerten und dem Ausgangszustand stellt ein nahezu ubiquitäres Phänomen dar und
wird häufig auf Regressionseffekte zurückgeführt (im Überblick Weeks, 2007). Willett und
Kollegen (1991) betonen ebenfalls diese „intime“ (S 39) Beziehung von Veränderung und
Ausgangszustand und zeigen gleichzeitig auf, dass dies nicht zwangsläufig eine Bedrohung
der Validität von Prä-Post Differenzwerten darstellen muss (vgl. auch Rogosa & Willett,
1985).
Die Erfolgsoperationalisierungen des zweiten Faktors zeigen demgegenüber ein
völlig anderes Muster der Zusammenhänge mit den Statusmessungen. Es bestehen nahezu
ausschließlich bedeutsame Bezüge zur Restsymptomatik (Post) und nahezu keine mit dem
99
(retrospektiven) Ausgangszustand (Prä, Retro). Der zentrale geteilte Aspekt der Erfolgswerte
des zweiten Faktors scheint somit der durchgängige Bezug zu den Post-Werten zu sein (vgl.
Michalak et al., 2003, anders Flückiger et al., 2007), so dass dieser Faktor in erster
Annäherung als Schweregrad der Restsymptomatik aufgefasst werden kann. Der erste Faktor
kann demgegenüber in Anlehnung an die Interpretation der Faktoren bei Michalak und
Kollegen (2003) als Faktor Veränderung interpretiert werden. Unter diesen vermutlich
zentralen divergenten Aspekt der Erfolgswerte - Veränderung versus Schweregrad der
Restsymptomatik - kann ein weiterer subsumiert werden.
In Anlehnung an Schulte (1993) könnten Unterschiede in der (mathematischen oder
subjektiven) Referenz auch Unterschiede in den Ladungen der Erfolgswerte erklären. Wird
eine Referenz auf die Prä-Werte forciert (Veränderung) oder eher der Bezug zu Zielen oder
einer Norm (Zielerreichung)? Die Erfolgswerte des Faktors Veränderung folgen einer
statistischen Logik: Prä-Post Differenzwerte (bzw. Retro-Post Differenzwerte) sollen den
intersubjektiven Vergleich der erzielten Veränderung ermöglichen. Die mathematische
Referenz zur Beurteilung der Post-Werte stellen dabei die Prä-Werte dar. Die subjektive
Heuristik für die Beurteilung des Therapieerfolgs ist davon deutlich zu unterscheiden. Die
mathematische Operation der Differenzwertbildung (Prä-Post) ist als kognitive Operation
sehr aufwändig und wird von Probanden daher vermutlich systematisch umgangen (Lam &
Bengo, 2003). Darüber hinaus sind Informationen über das Ausmaß der initialen
Symptomatik und deren Veränderung für den Einzelnen wohl wenig bedeutsam (vgl.
Howard, Lueger & Kolden, 1997). Die dominante subjektive Heuristik zur Einschätzung des
Therapieerfolgs fokussiert wahrscheinlich vielmehr das aktuell gegebene Erleben
(Restsymptomatik) und verfolgt einen Abgleich mit den erwünschten Zielzuständen (vgl.
Schulte, 1993; Kastner & Basler, 1997; Michalak et al. 2003). Die Zielvorgabe von Patienten
ist dabei vermutlich die Wiederherstellung des eigenen Wohlbefindens (vgl. Howard et al.,
100
1997): „Es soll mir wieder gut gehen!“ (Schulte, 2008). Wird die mathematische und/oder
subjektive Referenz fokussiert die zu den Post-Werten herangezogen wird (vgl. Schulte,
1993) kann der erste Faktor somit als Veränderung (mathematische Referenz Prä-Werte)
und der zweite Faktor als Zielerreichung (subjektive Referenz Ziel) verstanden werden.
Die unterschiedlichen Ladungen der retrospektiven Effektstärken und der direkten
Veränderungsmessung können beide bisher angeführten Interpretationen der Faktoren
integrierend veranschaulichen. Beide Verfahren stimmen in dem von der Konstruktion her
angestrebten Algorithmus überein: Ziel ist es eine Veränderung analog zu Prä-Post
Differenzwerten abzubilden. Bei den Retro-Post Effektstärken ist es den Patienten gelungen,
den Ausgangszustand reliabel (Safer & Keuler, 2002) zu erinnern, wie Zusammenhänge
(Pearson) der zu Therapiebeginn erhobenen (Prä) und der retrospektiven (Retro)
Ausgangswerte zeigen (BSI r = .72, p < .01; BDI r = .75, p < .01). Die
Differenzwertbildung Retro-Post wird anschließend (extern) mathematisch vorgenommen,
so dass die resultierenden Effektstärken gemeinsame bedeutsame Ladungen mit den Prä-Post
Effektstärken auf den ersten Faktor zeigen und ausschließlich bedeutsame Zusammenhänge
mit dem (retrospektiven) Ausgangszustand (Prä, Post) und keine mit der Restsymptomatik
(Post) aufweisen. Die direkte Veränderungsmessung ist demgegenüber trotz der intendierten
Perspektive der Veränderung dem zweiten Faktor zuzuordnen. Entgegen der intendierten
Differenzwertbildung wird vermutlich unter Rückgriff auf die oben beschriebene dominante
subjektive Heuristik - Abgleich von Restsymptomatik (Post) und Zielkriterium - auf eine
Veränderung geschlossen. Die bedeutsamen Zusammenhänge mit der Restsymptomatik
(Post) sowie die weitestgehend fehlenden Zusammenhänge mit dem Ausgangszustand
(ebenso Baumann, Sodemann & Tobien, 1980; Kastner & Basler, 1997, Michalak et al,
2003; anders Flückiger et al., 2007) und dem retrospektiv rekonstruierten Ausgangszustand
(Retro) können als deutlicher Hinweis hierauf betrachtet werden. Zusammengenommen lässt
101
sich somit eine Interpretation der Faktoren als Veränderung (Faktor 1) und
Restsymptomatik/Zielerreichung (Faktor 2) rechtfertigen. Im Rahmen dieser Interpretation
lassen sich auch die (geringeren) Ladungen der direkten Veränderungsmessung und des
Retro-Post Differenzwertes des BSI auf den jeweils anderen Faktor verstehen. Levine (1997)
vermutet - analog zu der hier vorgeschlagenen dominanten subjektiven Heuristik zur
Einschätzung des Therapieerfolgs - eine herausragende Funktion von aktuellen Zielen und
Bewertungen bei der Erinnerung emotionaler Episoden (vgl. auch Levine, Lench & Safer,
2009; Safer & Keuler, 2002). Die (geringe) Ladung des Retro-Post Differenzwertes des BSI
auf den Faktor Restsymptomatik/Zielerreichung könnte somit derart erklärt werden, dass die
Retrospektion beim retrospektiven Prä-Test durch diese dominante Heuristik „korrumpiert“
wird. Zudem kann die (geringe) Ladung der direkten Veränderung auf den Faktor
Veränderung so interpretiert werden, dass es zumindest partiell gelungen ist die subjektiv
ungewöhnliche mathematische Prä-Post Differenzwertbildung (Veränderung) als kognitive
Operation zu induzieren.
Die beiden Perspektiven Veränderung und Restsymptomatik/Zielerreichung bieten
ein anschauliches Verständnis der Divergenz der verschiedenen Erfolgswerte. Einerseits
können Effektstärken eine statistisch bedeutsame Veränderung widerspiegeln, während der
Patient zugleich aufgrund einer (subjektiv unbefriedigend) hohen Restsymptomatik angibt,
mit der Behandlung relativ unzufrieden zu sein, sein Ziel (noch) nicht erreicht zu haben und
von daher auch (noch) keine große Veränderung erfahren zu haben. Andererseits kann ein
Patient am Ende seiner Therapie aufgrund einer (subjektiv befriedigend) geringen
Restsymptomatik mit dem Ergebnis hoch zufrieden sein, angeben seine Ziele erreicht zu
haben und subjektiv eine bedeutsame Veränderung wahrnehmen, ohne dass eine statistische
bedeutsame Veränderung (z. B. aufgrund geringer Prä-Werte) nachweisbar sein muss: Ziel
erreicht aber nicht verändert.
102
Der Abgleich der theoretisch intendierten Algorithmen zur Einschätzung des
Therapieerfolgs mit den subjektiven Heuristiken (wie oben am Beispiel dargestellt), aber
auch die intrapersonale (über die Zeit) und interpersonale Konstanz (zwischen Individuen)
subjektiver Heuristiken untereinander bietet großes Potential zur Erklärung von Divergenzen
verschiedener Erfolgswerte in der Abschätzung des Therapieerfolgs (vgl. Schwartz &
Rapkin, 2004; vgl. auch Kupper & Tschacher, 2008). Eine Reihe von methodischen
Vorschlägen diese Divergenzen vertiefend zu untersuchen wurden bereits für den Bereich
der Lebenszufriedenheit zusammengetragen (im Überblick Güthlin, 2004; Schwartz &
Sprangers, 1999). Unter anderem könnten die komplexen Urteilsprozesse bei der
Itembeantwortung mittels cognitive interviewing (vgl. Collins, 2003) begleitet werden, um
Rückschlüsse auf die Art der kognitiven Operationen bzw. Heuristiken zu erhalten: Welcher
Bewertungshintergrund wird herangezogen, wie werden autobiographische Erinnerungen
generiert und zusammengefasst, welche Vergleichsmaßstäbe werden gesetzt, was für ein
Algorithmus liegt hinter der Hierarchisierung und Kombination der einzelnen Elemente
usw.?
Im Zuge weiterer Forschung zu den Ursachen von Konvergenzen und Divergenzen
verschiedener Operationalisierungsstrategien könnten differenziertere Empfehlungen ihrer
Verwendung erarbeitet werden, die einer ökonomischeren Gestaltung von Evaluation zu
Gute kämen. Die vorliegende Studie bietet dazu bereits einige Hinweise. Die Erfolgswerte
des Faktors Restsymptomatik/Zielerreichung haben zu allererst ökonomische Vorteile (Ein-
Punkt-Messung). Michalak und Kollegen (2003) konnten zudem eine größere prospektive
Potenz von Zufriedenheitsurteilen, Zielerreichungsskalierung und eingeschränkt auch der
direkten Veränderungsmessung im Vergleich zur indirekten Veränderungsmessung zeigen
(erneute Medikamenteneinnahme zum Katamnesezeitpunkt und die Wiederaufnahme von
Psychotherapie). Diese erhöhte prospektive Potenz kann ebenfalls mit der dominanten
103
subjektiven Heuristik auf den Therapieerfolg erklärt werden, da sie als Referenz die eigenen
Zielzustände (Bedürfnissen) im Abgleich mit der Restsymptomatik (Post) fokussiert. Im
Falle eines Evaluationsinteresses, das näher an der (zukünftigen) Entwicklung der einzelnen
Person orientiert ist, sind diese Strategien somit insgesamt empfehlenswert. Zudem bieten
Verfahren des Faktors Restsymptomatik/Zielerreichung bei Patienten mit niedrigen
Eingangswerten den Vorteil Therapieerfolg auch ohne statistisch bedeutsame Veränderungen
abzubilden. Prä-Post Differenzwerte adressieren demgegenüber den intersubjektiven
Vergleich und stellen Informationen zu einer vergleichenden Bestimmung der Veränderung
bereit, wie sie vor allem in kontrollierten experimentellen Studien von hohem Interesse sind.
Retro-Post Effektstärken scheinen für den Fall, dass Veränderung erfasst werden sollen, aber
nur eine Messung zum Postzeitpunkt durchzuführen ist, eine ökonomische Alternative zu
Prä-Post Differenzwerten zu bieten. Studien zur Reliabilität und Validität des retrospektiven
Prä-Tests und der Retro-Post Effektstärken im Rahmen der klinischen Evaluationsforschung
sind allerdings noch rar (vgl. Safer & Keuler, 2002). Stieglitz (1990) konnte zeigen, dass
Veränderungswerte basierend auf retrospektiven Prä-Werten höher mit anderen
Veränderungswerten und Fremdeinschätzungen korrelieren als reguläre Prä-Post
Differenzwerte. Ein Vorteil der direkten Veränderungsmessung könnte die geteilte Varianz
mit Strategien beider Faktoren (vgl. auch Michalak et al., 2003) darstellen. Diese
Zwischenposition könnte sich als vorteilhaft erweisen, wenn unter knappen Ressourcen
und/oder fehlenden Prä-Werten auf die direkte Veränderungsmessung als stand alone
Lösung zurückgegriffen werden soll. Allerdings sollte zukünftige Forschung die unklare
Form der Urteilsbildung weiter erhellen. Die Kombination der beiden Perspektiven
Veränderung und Restsymptomatik/Zielerreichung kann auch als großer Vorteil des
Konzepts der klinisch bedeutsamen Veränderung (Jacobson & Truax, 1991) gesehen werden.
Dort wird zusätzlich zur statistisch bedeutsamen Veränderung ein normatives Zielkriterium
104
zum Abgleich mit der Restsymptomatik herangezogen (Fallstatus): Der Patient soll zu
Therapieende innerhalb einer ungestörten Vergleichspopulation verortet werden können. Die
Dominanz von Prä-Post Differenzwerten in der Psychotherapieevaluation gegenüber
retrospektiven Strategien (wie Retro-Post Differenzwerten) und/oder Maßen der
Zielerreichung ist vor dem Hintergrund der vorliegenden Ergebnisse und in Zusammenschau
der Befunde der klinischen Evaluationsforschung (im Überblick Hill & Lambert, 2004) nur
schwer zu begründen. Insgesamt ist eine differenziertere Perspektive auf die Unterschiede
von Erfolgswerten von Nöten. Dabei ist die gezielte Untersuchung der jeweiligen Vor- und
Nachteile einzelner Operationalisierungsstrategien in Bezug auf unterschiedliche
Evaluationsvorhaben wünschenswert (vgl. Hill & Betz, 2005; Michalak et al., 2003).
Die Ergebnisse der vorliegenden Studie unterliegen vor allem in Bezug auf die
gewählte Population möglichen Einschränkungen. Eine insgesamt geringe Zahl an Patienten
(N = 59) und die gewählten Ein- und Ausschlusskriterien schränken die Repräsentativität der
Ergebnisse ein. Es wurden lediglich Patienten berücksichtigt, die im betreffenden Zeitraum
ihre Therapien regulär abschlossen und nicht in andere Projekte der Ambulanz involviert
waren. Es lassen sich so auch Unterschiede der Studienpopulation zur Gesamtpopulation des
Zentrums für Psychotherapie (ZPT) im fraglichen Zeitraum in Bezug auf die Verteilung des
Alters (Gesamtpopulation: M = 41.63 mit SD = 16.04) und des Geschlechts
(Gesamtpopulation 60,7% weiblich) zeigen. Die geringe Probandenzahl schränkt zudem die
statistische Power ein und könnte damit auch Auswirkungen auf die Güte der geschätzten
Faktorenstruktur haben. Abbrecher wurden aufgrund fehlender Post-Werte nicht mit in die
Analyse aufgenommen. Allerdings wäre es hoch interessant, Konvergenzen und
Divergenzen verschiedener Operationalisierungsstrategien gerade auch bei Abbrechern
genauer zu untersuchen. So vermuten Flückiger und Kollegen (2007) eine erhöhte
Konvergenz der Messmittel bei Vorliegen eines „broad treatment success“ (S. 363).
105
Abbrecher könnten somit insgesamt eine geringere Konvergenz der verschiedenen
Evaluationsstrategien aufweisen.
106
Literaturverzeichnis
Baumann, U. (1982). Psychodiagnostische Verfahren zur Therapieindikation und
Effektkontrolle. In R. Bastine, P. Fiedler, K. Grawe, S. Sommer & S. Schmidtchen
(Hrsg.), Grundbegriffe der Psychotherapie (S. 287-292). Weinheim: Edition
Psychologie.
Baumann, U., Sodemann, U. & Tobien, H. (1980). Direkte versus indirekte
Veränderungsdiagnostik. Zeitschrift für Differentielle und Diagnostische
Psychologie, 1, 201-216.
Collins, D. (2003). Pretesting survey instruments: an overview of cognitive methods. Quality
of Life Research, 12 (3), 229-238.
Cronbach, L. J. & Furby, L. (1970). How we should measure "change" -or should we?
Psychological Bulletin, 74, 68-80.
Flückiger, C., Regli, D., Grawe, K. & Lutz, W. (2007). Differencies and similarities between
pre-post and retrospective measurements of outcome. Psychotherapy Research, 17
(3), 359-364.
Franke, G. H. (2000). Brief Symptom Inventory von L. R. Derogatis (Kurzform der SCL-90-
R). Göttingen: Beltz Test GmbH.
Grawe, K., Bernauer, F. & Donati, R. (1994). Psychotherapie im Wandel. Von der
Konfession zur Profession. Göttingen: Hogrefe.
Güthlin, C. (2004). Response Shift: alte Probleme der Veränderungsmessung, neu
angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische
Psychologie, 13, 165–174.
Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar
(BDI). (2. überarbeitete Auflage). Bern: Hans Huber.
107
Hill, C. E. & Lambert, M. J. (2004). Methodological Issues in Studying Psychotherapy
Processes and Outcomes. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook
of Psychotherapy and Behavior Change (S. 84–136). New York: Wiley.
Hill, L. G. & Betz, D. L. (2005). Revisiting the retrospective pretest. American Journal of
Evaluation, 26, 501-517.
Howard, K. I., Lueger, R. J. & Kolden, G. G. (1997). Measuring progress and outcome in the
treatment of affective disorders. In H. H. Strupp, L. M. Horowitz & M. J. Lambert
(Hrsg.), Measuring patient changes in mood, anxiety, and personality disorders:
Toward a core battery (S. 191-245). Washington: American Psychological
Association.
Jacobson, N. S. & Truax, P. (1991). Clinical significance: a statistical approach to defining
meaningful change in psychotherapy-research. Journal of Consulting and Clinical
Psychology, 59, 12-19.
Jensen, H. H., Mortensen, E. L. & Lotz, M. (2008). The association between retrospective
outcome evaluations and pre-post-treatment changes in psychodynamic group-
psychotherapy. Scandinavian Journal of Psychology, 49, 339–343.
Kastner, S. & Basler, H.-D. (1997). Messen Veränderungsfragebögen wirklich
Veränderung? Schmerz, 11, 254-262.
Kiresuk, T. J. & Lund, S. H. (1978). Goal Attainment Scaling. In C. C. Attkisson, W. A.
Hargreaves, M. J. Horowitz & J. E. Sorensen (Hrsg.), Evaluation of human service
programs (S. 341-370). New York: Academic Press.
Kiresuk, T .I. & Sherman, R. E. (1968). Goal Attainment Scaling: A general method for
evaluating comprehensive community mental health programs. Community Mental
Health Journal, 4, 443-453.
108
Kupper, Z. & Tschacher, W. (2008). Lack of concordance between subjective improvement
and symptom change in psychotic episodes. British Journal of Clinical Psychology,
47, 75–93.
Lam, T .C. M. & Bengo, P. (2003). A comparison of three retrospective self-reporting
methods of measuring change in instructional practice. American Journal of
Evaluation, 24, 65-80.
Levine, L. J. (1997). Reconstructing memory for emotions. Journal ofExperimental
Psychology: General, 126, 165-177.
Levine, L. J., Lench, H. C. & Safer, M. A. (2009). Functions of Remembering and
Misremembering Emotion. Applied Cognitive Psychology, 23, 1059-1075.
Meyer, F. & Schulte, D. (2002). Zur Validität der Beurteilung des Therapieerfolgs durch
Therapeuten. Zeitschrift für Klinische Psychologie und Psychotherapie, 31, 53-61.
Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs.
Veränderungsmessung oder retrospektive Erfolgsbeurteilung. Zeitschrift für Klinische
Psychologie und Psychotherapie, 32, 94-103.
Rogosa, D. R. & Willett, J. B. (1985). Understanding correlates of change by modeling
individual differences in growth. Psychometrika, 50, 203-228.
Safer, M. A. & Keuler, D. J. (2002). Individual Differences in Misremembering Pre-
Psychotherapy Distress: Personality and Memory Distortion. Emotion, 2, 162–178
Schulte, D. (1993). Wie soll Therapieerfolg gemessen werden? Zeitschrift für Klinische
Psychologie, 22, 374-393.
Schulte, D. (2008). Auch für die Verhaltenstherapie ist die therapeutische Beziehung wichtig
-wirklich? Vortrag auf dem 25. Kongress der Deutschen Gesellschaft für
Verhaltenstherapie, Berlin.
109
Schwartz, C. E. & Rapkin, B. D. (2004). Reconsidering the psychometrics of quality of life
assessment in light of response shift and appraisal. Health and Quality of Life
Outcomes, 2, 16.
Schwartz, C. E. & Sprangers, M. A. G. (1999). Methodological approaches for assessing
response-shift in longitudinal health-related quality-of-life research. Social Science &
Medicine, 48, 1531–1548.
Stieglitz, R.-D. (1990). Validitätsstudien zum retrospektiven Vortest in der
Therapieforschung. Zeitschrift für Klinische Psychologie, 19, 144-150.
Stieglitz, R.-D., & Baumann, U. (2001). Veränderungsmessung. In R.-D. Stieglitz & U.
Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21 – 37). Stuttgart:
Enke.
Veith, A. & Willutzki, U. (2000). Eine Revision des Veränderungsfragebogens des Erlebens
und Verhaltens (VEV). Vortrag auf dem Kongress für Klinische Psychologie und
Psychotherapie der Deutschen Gesellschaft für Verhaltenstherapie, Berlin.
Weeks, D. L. (2007). The regression effect as a neglected source of bias in nonrandomized
intervention trials and systematic reviews of observational studies. Evaluation & the
Health Professions, 30, 254-265.
Willett, J. B. (1988). Questions and answers in the measurement of change. In E. Z.
Rothkopf (Hrsg.), Review of research in education (S 345-422). Washington:
American Educational Research Association.
Willett, J. B., Ayoub, C. C. & Robinson, D. (1991). Using growth modeling to examine
systematic differences in growth: an example of change in the functioning of families
at risk of maladaptive parenting, child abuse, or neglect. Journal of Consulting and
Clinical Psychology, 59, 38-47.
110
Wittchen, H. U., Zaudig, M. & Fydrich, T. (1997). Strukturiertes Klinisches Interview für
DSM-IV Achse I und II. Göttingen: Hogrefe.
Zielke, M. & Kopf-Mehnert, C. (1978). Der Veränderungsfragebogen des Erlebens und
Verhaltens VEV. Weinheim: Beltz.
111
Abbildung 1
Unterschiedliche Kriterien zur Kennzeichnung der Effektivität psychologischer Therapie
entlang der zwei Dimensionen Messdesign (A, B) und Kriterienbildung (1, 2, 3) (modifiziert
nach Schulte, 1993)
Bezug der Post-Werte zu
Zustand vor der Behandlung
Ziel/Norm
A Veränderung
B Zielerreichung
1 Subjektive Schätzung
Direkte Veränderungsmessung
Individuelle Zufriedenheit
2 Empirischer
Differenzwert
Indirekte Veränderungsmessung
Individuelle Zielerreichung,
Normativer Vergleich
3 Statistische Definition
Reliable Veränderung, Effektstärke
Klinische Bedeutsamkeit
112
Tabelle 1
Deskriptive Statistiken
M (SD)
BSI Prä .89 (.55)
BSI Retro 1.16 (.68)
BSI Post .48 (.45)
BDI Prä 16.00 (9.5)
BDI Retro 18.07 (11.56)
BDI Post 5.90 (7.07)
ES BSI ¹ .77 (.82)
ES BSI Retro ² .94 (.82)
ES BDI ¹ 1.04 (.88)
ES BDI Retro ² .94 (.84)
VEV 5.37 (.91)
GAS 4.60 (1.15)
Global 4.91 (1.05)
Anmerkungen. Brief Symptom Inventory (BSI), Beck Depressions Inventar (BDI), Effektstärke (ES),
Veränderungsfragebogen des Erlebens und Verhaltens revidiert (VEV), Goal Attainment Scaling (GAS),
Globalurteil der Zufriedenheit (Global). Die Kürzel Prä und Post verweisen auf den Zeitpunkt der jeweiligen
Messung, Retro verweist auf eine retrospektive Messung. Wertebereiche: VEV 1-7, GAS 1-6, Global 1-6.
¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä.
²Effektstärke (ES) berechnet als Mretro-Mpost/SDretro.
113
Tabelle 2
Hauptkomponentenanalyse (Varimax Rotation) der Therapieerfolgsmaße (Zuordnungen der
Erfolgswerte zu den Faktoren sind hervorgehoben)
Erfolgsmaß Faktorladungen
Faktor 1 2
Veränderung ES BDI Retro² .869
ES BDI¹ .845
ES BSI Retro² .814 .343
ES BSI¹ .713
Restsymptomatik GAS .918
Zielerreichung Global .885
VEV .339 .818
vor Rotation
Eigenwert
Varianzaufklärung
4.07
58.10
1.31
18.72
nach Rotation Eigenwert
Varianzaufklärung
2.84
40.50
2.54
36.32
Anmerkungen: Effektstärke (ES), Brief Symptom Inventory (BSI), Beck-Depressions-Inventar (BDI), Goal
Attainment Scaling (GAS), Globalurteil der Zufriedenheit (Global), Veränderungsfragebogen des Erlebens und
Verhaltens revidiert (VEV). Retro zeigt die Verwendung retrospektiver Prä-Werte an.
Ladungen <.30 wurden weggelassen.
¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä.
²Effektstärke (ES) berechnet als Mretro-Mpost/SDretro.
114
Tabelle 3
Korrelationen (Pearson) der Therapieerfolgsmaße mit den Statusmessungen (Prä, Post) und
retrospektiven Statusmessungen (Retro) von BSI und BDI (statistisch bedeutsame
Korrelationen sind hervorgehoben)
ES BSI¹ ES BSI
Retro² ES BDI¹
ES BDI
Retro² GAS Global VEV
BSI Prä .60** .33** .43** .41** -.15 -.08 -.11
BSI Retro .39** .76** .52** .71** .03 .10 .15
BDI Prä .35** .34** .70** .47** -.28* -.14 -.11
BDI Retro .39** .61** .50** .80** -.09 .07 .11
BSI Post -.23 -.19 .040 .011 -.51** -.50** -.47**
BDI Post -.14 -.22 -.27* -.222 -.66** -.54** -.63**
Anmerkungen: Effektstärke (ES), Brief Symptom Inventory (BSI) und Beck-Depressions-
Inventar (BDI), Goal Attainment Scaling (GAS), Globalurteil der Zufriedenheit (Global),
Veränderungsfragebogen des Erlebens und Verhaltens revidiert (VEV). Die Kürzel Prä und
Post verweisen auf den Zeitpunkt der jeweiligen Messung, Retro verweist auf eine
retrospektive Messung.
¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä.
²Effektstärke (ES) berechnet als Mretro-Mpost/SDretro.
*(p<.05)
**(p<.01)
115
Autorenhinweis
Dominik Ülsmann, Humboldt-Universität zu Berlin; Dietmar Schulte, Ruhr-Universität
Bochum
Dominik Ülsmann
Humboldt-Universität zu Berlin
Institut für Psychologie
Psychotherapie und Somatopsychologie
Rudower Chaussee 18
12489 Berlin
116
7.3 Publikation 3 - Direkte Veränderungsmessung in der Psychotherapie: Der
Bochumer Veränderungsbogen-2000 (BVB-2000)
Willutzki, U., Ülsmann, D., Veith, A. & Schulte, D. (in Druck). Direkte
Veränderungsmessung in der Psychotherapie: Der Bochumer Veränderungsbogen-2000
(BVB-2000). Zeitschrift für klinische Psychologie und Psychotherapie.
117
Kolumnentitel: DIREKTE VERÄNDERUNGSMESSUNG BVB-2000
Direkte Veränderungsmessung in der Psychotherapie:
Der Bochumer Veränderungsbogen-2000 (BVB-2000)
Ulrike Willutzki
Ruhr-Universität Bochum
Dominik Ülsmann
Humboldt-Universität zu Berlin
Andreas Veith
Zentrum für Psychotherapie Dortmund
Dietmar Schulte
Ruhr-Universität Bochum
118
Zusammenfassung
Theoretischer Hintergrund: Verfahren zur direkten Veränderungsmessung bestimmen den
Psychotherapieerfolg in ökonomischer Ein-Punkt-Messung. Hierzu wurde der Bochumer
Veränderungsbogen-2000 (BVB-2000) als überarbeitete und gekürzte Variante des
Veränderungsfragebogens des Erlebens und Verhaltens (VEV; Zielke & Kopf-Mehnert,
1978) entwickelt. Fragestellung: Der BVB-2000 soll einer testtheoretischen Reanalyse mit
Fokus auf die konvergente Validität unterzogen werden. Kritische Veränderungswerte auf
Basis der Werte einer klinischen Wartekontrollgruppe sollen die Möglichkeit bieten den
Therapieerfolg auch in Einzelfällen zu bestimmen. Methode: Die Psychotherapie von N =
205 Patienten wird mit verschiedenen Instrumenten zur Therapieerfolgsmessung inklusive
des BVB-2000 begleitet. Auf Basis einer Wartekontrollgruppe (N = 88) werden kritische
Veränderungswerte für den BVB-2000 berechnet. Ergebnisse: Der BVB-2000 weist eine
hohe interne Konsistenz auf (α = .96; 26 Items) und zeigt durchgängig statistisch bedeutsame
Zusammenhänge mit anderen Therapieerfolgsmaßen vor allem der Zielerreichung. Kritische
Veränderungswerte ermöglichen die Einschätzung des Therapieerfolgs im Einzelfall.
Schlussfolgerungen: Der BVB-2000 ist ein verständliches, ökonomisches, reliables und
valides Instrument zur Psychotherapieerfolgsmessung.
Schlagwörter: direkte Veränderungsmessung – Psychotherapieerfolg – Evaluation -
Psychologische Diagnostik - Qualitätssicherung
119
Abstract
Background: Direct psychotherapy measures evaluate treatment outcome in an economic
single point measurement. The Bochum Change Questionnaire 2000 (BCQ-2000) is
developed for this purpose as a revised and shortened form of the Questionnaire to Assess
Changes in Experiencing and Behavior (QCEB; Zielke & Kopf-Mehnert, 1978). Objective:
The BVB-2000 is subjected to a test-theoretical re-analysis with focus on criterion validity
and including the definition of critical change values on the basis of a clinical wait-control
group. Method: Psychotherapy outcome for n = 205 outpatients is assessed by various
instruments to determine treatment success. Based on a wait control group (n = 88) critical
change values are calculated. Results: The BCQ-2000 shows a high internal consistency (α =
.96; 26 items) and meaningful correlations with other psychotherapy outcome measures
especially with measures of goal attainment. Critical change values allow the evaluation of
therapy outcome in single cases. Conclusion: The BCQ-2000 is an understandable,
economic, reliable and valid instrument for the direct measurement of psychotherapy
outcome.
Key words: direct measurement of change - psychotherapy outcome - evaluation -
psychological assessment - quality assessment
120
Einführung
Der Erfolg von Psychotherapie sollte wegen der Vielgestaltigkeit möglicher
Veränderungen breit operationalisiert werden (Hill & Lambert, 2004). Neben dem
klassischen Ansatz der indirekten Veränderungsmessung (Newman & Tejeda, 2004) gehören
Verfahren der direkten Veränderungsmessung inzwischen zu den etablierten Methoden der
Therapieerfolgsmessung (z.B. Fydrich, 2006; Schulte, 1993; Wittchen & Hoyer, 2006). Die
zentralen Unterschiede zwischen direkter und indirekter Veränderungsmessung liegen in (1)
der Anzahl der notwendigen Messzeitpunkte (Einpunkterhebung bei direkter vs.
Zweipunkterhebung bei indirekter Veränderungsmessung), (2) der Generierung der
Messwerte (direkte Einschätzung vs. aus Differenz der Erhebungen abgeleitet) sowie (3) der
Art des Messvorgangs (Retrospektion vs. Einschätzung des je aktuellen Status; Stieglitz &
Baumann, 2001). Die Vorteile der direkten Veränderungsmessung liegen in ihrer Ökonomie
und damit einfachen Durchführung.
Ausgangspunkt für die Entwicklung direkter Veränderungsmaße waren die von
Bereiter (1963) herausgearbeiteten Dilemmata der Veränderungsmessung, die daraus
erwachsen, dass die Verfahren zur indirekten Veränderungsmessung in der Klassischen
Testtheorie verwurzelt sind (vgl. auch Stieglitz & Baumann, 2001, 1994). In der Klassischen
Testtheorie sind wahre Merkmalswerte zeit- und bedingungsinvariant definiert, so dass
intraindividuelle Veränderungen in der Merkmalsausprägung letztlich als Messfehler – und
nicht als Indikator „wahrer“ Veränderung – interpretiert werden müssten. Diesem
Grunddilemma können weitere Probleme zugeordnet werden (vgl. insgesamt hierzu Bereiter,
1963): Das Reliabiltäts-Validitätsdilemma beschreibt die erzwungene Wahl zwischen einer
hohen Validität der Statusmessungen (Prä, Post) und einer hohen Reliabilität der
Differenzwerte (Prä-Post): Je höher die Korrelation zwischen den Statusmessungen, desto
121
niedriger ist die Reliabilität der Differenzwerte. Je niedriger die Korrelation zwischen den
Statusmessungen, desto niedriger ist ihre Validität. Beim Physikalismus-Subjektivismus-
Dilemma geht es darum, dass „physikalisch“ gleiche Differenzwerte an verschiedenen
Stellen des Messwertkontinuums eine unterschiedliche „subjektive“ Bedeutung haben. Der
sogenannte Regressionseffekt beschreibt die statistische Abhängigkeit der Prä-Post
Differenzwerte vom Ausgangszustand (Prä): Insbesondere bei Patienten mit extremen
Eingangswerten kommt es zur Regression zur Mitte.
Direkte Veränderungsmessung umgeht diese Dilemmata mit der komparativen
subjektiven Einschätzung der Veränderung („schlechter“/“besser“) durch die Probanden.
Durch Einbeziehung von Wartegruppen kann zudem das Physikalismus-Subjektivismus-
Problem reduziert werden: Vergleichswerte nicht behandelter Patienten erlauben die
Abschätzung kritischer Veränderungswerte, mittels derer „zufällige“ von „echten“
Veränderungen zumindest pragmatisch abgegrenzt werden.
Indem die Veränderungseinschätzung den Probanden selbst überlassen wird, liefern
sich jedoch Verfahren der direkten Veränderungsmessung möglichen Urteilsfehlern der
Person aus. Hierbei spielt vor allem der Verdacht auf Gedächtnis-, Urteils- und
Bezugssystemfehler (im Überblick Stieglitz & Baumann, 2001, 1994; Zielke, 1999; vgl.
auch Kastner & Basler, 1997) und damit verbunden einer Überschätzung des
Interventionserfolgs (im Überblick Fydrich, 2006; Reinecker-Hecht & Baumann, 2005; vgl.
auch Lam & Bengo, 2003) eine besondere Rolle. So wird vermutet, dass Patienten sich
entweder nicht mehr korrekt an den Ausgangszustand erinnern können (Baumann,
Sodemann & Tobien, 1980) oder die intendierte Rückschau bei der direkten
Veränderungsmessung systematisch umgehen und statt einen Differenzwert Prä-Post zu
bilden vom aktuellen Status auf Veränderung schließen. So berichten Kastner und Basler
122
(1997) nur geringe Zusammenhänge eines von ihnen entwickelten Instruments der direkten
Veränderungsmessung mit indirekten Veränderungsmessungen sowie deutliche
Zusammenhänge mit den Statusmessungen der Symptomatik zu Therapieende (Post),
während erwartungskonträr keine Zusammenhänge mit der Symptomatik zu Therapiebeginn
(Prä) gefunden wurden. Zusätzlich werden systematische Antworttendenzen wie Recency-
Effekte, Generalisierungseffekte oder soziale Erwünschtheit bei der direkten
Veränderungsmessung diskutiert (vgl. Zielke, 1999).
Direkte und indirekte Veränderungsmessung leisten empirisch unterscheidbare
Beiträge zur Beschreibung des Therapieerfolgs. So zeigen jüngere faktorenanalytische
Studien, dass sich direkte und indirekte Veränderungsmessung trotz deutlicher
Zusammenhänge faktorenanalytisch separieren lassen (Flückiger, Regli, Grawe & Lutz,
2007; Michalak, Kosfelder, Meyer & Schulte, 2003; Ülsmann & Schulte, in Druck). Direkte
Veränderungsmaße werden dabei eher als Indikatoren der Zielerreichung und Zufriedenheit
der Patienten interpretiert, während indirekte Veränderungsmessungen deutlicher von
letzteren abgegrenzt werden können (Michalak et al., 2003; Ülsmann & Schulte, in Druck;
vgl. ähnlich Flückiger et al., 2007). In der Studie von Michalak et al. (2003) erwiesen sich
die direkten Veränderungsmaße zu Therapieende systematisch als prognostisch relevant für
die Wiedererkrankung zum Katamnesezeitpunkt, während dies für die indirekten
Veränderungsmaße nur vereinzelt galt.
Insgesamt kann festgestellt werden, dass es bis heute kein allen Anforderungen
genügendes Veränderungsmaß gibt (De Los Reyes, Kundey & Wang, 2011). Direkte und
indirekte Veränderungsmessung werden vielmehr in einem Ergänzungsverhältnis zur
Abschätzung des Therapieerfolgs gesehen (im Überblick Hill & Lambert, 2004; Kendall,
Holmbeck & Verdun, 2004; Ogles, 2013; Stieglitz & Baumann, 2001; vgl. auch Flückiger et
123
al., 2007, Krampen, 2010; Michalak et al., 2003). Gleichwohl liegen bis heute
vergleichsweise wenige Studien zur direkten Veränderungsmessung vor.
Im deutschsprachigen Raum wird zur direkten Veränderungsmessung vielfach der
Veränderungsfragebogen des Erlebens und Verhaltens (VEV; Zielke & Kopf-Mehnert,
1978) eingesetzt (im Überblick Zielke & Kopf-Mehnert, 2001a). Am Zentrum für
Psychotherapie der Ruhr-Universität Bochum kam es bei der Verwendung des VEV immer
wieder zu Verständnisproblemen: Die Items des Fragebogen explizieren inhaltlich jeweils
nur einen Veränderungspol (z.B. „ich fühle mich weniger gehetzt“), der hinsichtlich der
Veränderung seit Therapiebeginn auf einer 7-stufigen Skala mit den Polen „in gleicher
Richtung“ bis hin zu „in entgegen gesetzter Richtung“ eingeschätzt wird. Die
Skalenkonstruktion wurde von Patienten - neben Items mit doppelter Verneinung -
insgesamt als schwer verständlich eingeschätzt (vgl. auch Zielke & Kopf-Mehnert, 2001b)
und der Fragebogen daher häufig inkonsistent oder unvollständig beantwortet. Um derartige
Probleme zu umgehen wurde der VEV Mitte der neunziger Jahre von Veith und Willutzki
überarbeitet (Veith & Willutzki, 2000). In Anlehnung an die inhaltlichen Dimensionen des
VEV wurden die Items als Polaritätsprofile formuliert: Hierbei werden die beiden
Veränderungspole (Verbesserung und Verschlechterung) explizit als Anker genannt, so dass
der Patient direkt die von ihm wahrgenommene Veränderung bestimmen kann (vgl. Tabelle
1). Das Skalenformat wurde als 7-stufige Likert-Skala gefasst, wobei „1“ bzw. „7“ die volle
Zustimmung zu jeweils einem Pol und der Wert „4“als neutraler Skalenmittelpunkt das
Fehlen subjektiv wahrgenommener Veränderung beschreibt. Auf Basis erster Analysen
konnte die Itemanzahl ohne Reliabilitätseinbußen auf 26 verringert werden (a.a.O.). Von
diesen 26 Items wird die Verbesserung bei 12 Items rechtspolig (stärkste Verbesserung „7“)
und bei 14 Items linkspolig (stärkste Verbesserung „1“) repräsentiert (letztere sind für die
Auswertung zu invertieren; vgl. Tabelle 1).
124
Veith und Willutzki (2000) konnten für verschiedene Messzeitpunkte innerhalb des
Therapieverlaufs eine dreifaktorielle Struktur des Instruments zeigen. Die ersten beiden
Faktoren separierten sich vor allem entlang der Polung der Items, während sich der dritte
Faktor inhaltlich auf Veränderungen sozialer Interaktionen bezog. Über die verschiedenen
Messzeitpunkte hinweg berichten die Autoren interne Konsistenzen (Cronbachs alpha) für
die drei Faktoren (Subskalen) von α = .87 bis α =.95. Für alle Messzeitpunkte konnten
darüber hinaus durchgängig hochsignifikante und substantielle Zusammenhänge (Pearson)
von r = .40 bis r = .72 (p < .01) mit anderen Psychotherapieerfolgsmaßen gezeigt werden.
Unter Berücksichtigung der Vorarbeiten von Veith und Willutzki (2000) stellten
Zielke und Kopf-Mehnert (2001b) ebenfalls eine Überarbeitung des VEV unter Verwendung
von Polaritätsprofilen vor (VEV-R-2001 mit 42 Items; Zielke & Kopf Mehnert, 2001b), die
die Vorteile des neuen Itemformats gegenüber der ursprünglichen Skalenkonstruktion
bestätigte. Kriebel, Paar, Schmitz-Buhl und Raatz (2001) legten eine Kurzfassung des VEV
mit 25 Items (VEV-K) vor, der jedoch noch das ursprüngliche problematische Skalenformat
des VEV zugrunde liegt (Zielke & Kopf-Mehnert, 1978); hinsichtlich der Iteminhalte
bestehen bei etwa der Hälfte der Items (14 Items) Ähnlichkeiten zu der Version von Veith
und Willutzki (2000).
Die von Veith und Willutzki (2000) überarbeitete Variante des VEV wird im
Folgenden als Bochumer Veränderungsbogen-2000 (BVB-2000) bezeichnet. Der BVB-2000
vereint die Vorteile der oben genannten anderen Varianten des VEV: 1. Die Antwortskala
wurde im Unterschied zur ursprünglichen Version des VEV (Zielke & Kopf-Mehnert, 1978)
bzw. der gekürzten Version (VEV-K; Kriebel et al., 2001) in Form von Polaritätsprofilen
gefasst, die Patienten eine intuitive Einschätzung von Verschlechterung bzw. Verbesserung
erlauben. 2. Im Vergleich zum VEV-R-2001 (Zielke & Kopf-Mehnert, 2001b), der ebenfalls
125
Polaritätsprofile (42 Items) als Antwortformat vorsieht, stellt der BVB-2000 mit 26 Items ein
ökonomischeres Instrument dar. Inhaltlich bestehen Überlappungen zum VEV in seinen
verschiedenen Varianten.
Ziel dieser Studie ist die Reanalyse des BVB-2000 hinsichtlich der inhaltlichen
Struktur und der Gütekriterien unter Einbezug einer Wartekontrollgruppe. Weiterhin wird
die konvergente Validität des Fragebogens über die Bezüge zu anderen
Therapieerfolgsmaßen betrachtet: Der BVB-2000 sollte insgesamt statistisch bedeutsame
Zusammenhänge mit Therapieerfolgswerten verschiedener Messansätze zeigen und sich
trotz statistisch bedeutsamer Zusammenhänge mit indirekten Veränderungsmessungen
zugleich von ihnen als eigenständige Form der Veränderungsmessung separieren lassen
(Flückiger et al., 2007; Michalak et al., 2003; Ülsmann & Schulte, in Druck). Der Verdacht,
dass Patienten bei der direkten Veränderungsmessung vom aktuellen Status auf eine
Veränderung schließen statt einen Differenzwert Prä-Post zu bilden, soll über den Vergleich
der Zusammenhänge des BVB-2000 und der verschiedenen Erfolgswerte mit den
Statusmessungen (Prä, Post) der Symptomatik untersucht werden (ebenso Kastner & Basler,
1997). Weiterhin werden kritische Veränderungswerte auf Basis einer Wartekontrollgruppe
berechnet (vgl. Zielke & Kopf-Mehnert, 1978), um den Therapieerfolg auch in Einzelfällen
abschätzen zu können und die Frage einer möglichen Überschätzung des Therapieerfolgs
durch den BVB-2000 zu adressieren.
Methode
Stichprobe
Die Behandlungsgruppe (BG) bilden N = 205 Psychotherapiepatienten (Geschlecht:
57.6% weiblich; Alter: M = 39.12 Jahre mit SD = 12.33), die eine kognitiv-
verhaltenstherapeutische Psychotherapie zwischen Ende 2003 und Anfang 2008 am Zentrum
126
für Psychotherapie (ZPT) der Ruhr-Universität Bochum regulär beendeten (mittlere
Sitzungszahl: 40.28; SD = 17.22; Median = 37). Diagnostiziert wurden mit dem
Strukturiertem Klinischen Interview für DSM-IV (SKID; Wittchen, Zaudig & Fydrich,
1997) als Primärdiagnosen vorwiegend Angststörungen (47.3%) und affektive Störungen
(35.6%) sowie 17.1% sonstige Störungen. Einschlusskriterien waren entsprechend der
Empfehlung von Hiller, Bleichhardt und Schindler (2009) neben einer klinischen Diagnose
ein T-Wert im Global Severity Index (GSI) des Brief Symptom Inventory (BSI; Franke,
2000) von T > 63. Die Wartekontrollgruppe (WKG) bilden N = 88 Psychotherapiepatienten
(Geschlecht: 47.7% weiblich; Alter: M = 38.26 Jahre, SD = 11.31). Als Primärdiagnosen
wurden in der WKG mittels SKID vorwiegend affektive Störungen (52.3%) und
Angststörungen (23.9%) sowie 23.8% sonstige Störungen diagnostiziert. Zwischen beiden
Stichproben bestehen keine statistisch bedeutsamen Unterschiede bzgl. des Alters (t=.55; df
= 291; n.s.; d = .86) oder der Geschlechterverteilung (12 = 2.40; df = 1; n.s.), wohl aber
hinsichtlich der Verteilung der Diagnosen (12= 14.10; df = 2; p < .001): Die BG
unterscheidet sich von der WKG durch einen höheren Anteil von Angststörungen und einen
geringeren Anteil affektiver Störungen.
Design
Die Ersttestung der BG (N = 205) fand zu Therapiebeginn (Prä) mit den Instrumenten
zur späteren indirekten Veränderungsmessung statt. Die Re-Testung mit diesen Instrumenten
erfolgte bei Abschluss der psychotherapeutischen Behandlung (Post). Zu Therapieende
wurde zudem der BVB-2000 sowie drei Maße zur Bestimmung der Zielerreichung (Schulte,
1993) erhoben. Die WKG (N = 88) bearbeitete den BVB-2000 rückblickend für die letzten
drei Monate ihrer Wartezeit.
127
Operationalisierung des Therapieerfolgs
Zur indirekten Veränderungsmessung werden das Brief Symptom Inventory (BSI;
Franke, 2000), das Beck-Depressions-Inventar (BDI; Hautzinger, Bailer, Worall & Keller,
1995) sowie das Inventar Interpersonaler Probleme (IIP; Horowitz, Strauß & Kordy, 2000)
verwendet. Zur Bestimmung der Zielerreichung (Schulte, 1993) werden das Globalurteil der
Zufriedenheit mit dem Therapieergebnis (Schulte & Meyer, 2002) sowie ein Goal
Attainment Scaling (GAS; Kiresuk & Sherman, 1968) im Selbst- (GAS Patient) und
Fremdurteil (GAS Therapeut) einbezogen. Im Einzelnen werden die folgenden Instrumente
genutzt:
• Das Brief Symptom Inventory (BSI; Franke, 2000) stellt die Kurzform der Symptom
Check Liste (SCL-90-R; Derogatis, 1986) dar. Der Global Severity Index (GSI; α =
.92 bis α = .96) als Gesamtwert des BSI ist ein globales störungsübergreifendes Maß
des Schweregrades der subjektiv wahrgenommenen Symptombelastung.
• Das Beck-Depressions-Inventar (BDI; Hautzinger et al., 1995; α = .88) erfasst mit 21
Items affektive Verstimmungen bis hin zur depressiven Symptomatik.
• Das Inventar Interpersoneller Probleme (IIP; Horowitz et al., 2000) dient der
Selbstbeschreibung interaktioneller Probleme. Da die Gesamtskala des IIP mit 64
Items in untransformierter Form höhere interne Konsistenzen aufweist als ipsatierte
Werte, wird in der vorliegenden Studie auf untransformierte Werte zurückgegriffen:
Becker und Mohr (2005) berichten für untransformierte Werte eine interne
Konsistenz von α = .75.
• Das Globalurteil der Zufriedenheit mit dem Therapieergebnis (Schulte & Meyer,
2002) erfasst in zwei Items die globale Zufriedenheit des Patienten mit der Therapie
128
(6-stufige Likert Skala von 1 bis 6, höhere Werte verweisen auf höhere
Zufriedenheit).
• Die Zielerreichungsskalierung erfragt in Anlehnung an das Goal Attainment Scaling
(GAS; Kiresuk & Sherman, 1968) den Grad der Zielerreichung zu Therapieende
hinsichtlich idiosynkratisch zu Therapiebeginn operationalisierter Therapieziele (6-
stufige Likert Skala von 1 bis 6, höhere Werte verweisen auf größere Zielerreichung).
Statistische Analysen
Die Überprüfung der von Veith und Willutzki (2000) angenommenen
Faktorenstruktur des BVB-2000 erfolgt mittels konfirmatorischer Faktorenanalyse (CFA) in
der BG. Die Itemanalyse umfasst deskriptive Statistiken, Schwierigkeiten sowie korrigierte
Trennschärfen. Zur Abschätzung der Reliabilität des BVB-2000 wird die interne Konsistenz
(Cronbachs alpha) in der BG und der WKG berechnet. Zur Prüfung möglicher Unterschiede
zwischen kürzeren und längeren Therapien wird die BG am Median der Sitzungsanzahl
(Median=37) in kürzere und längere Therapien unterteilt und die interne Konsistenz in
beiden Substichproben untersucht. Um zu überprüfen, ob zufällige Schwankungen des
Befindens von Veränderungen im Rahmen von Psychotherapie mit dem BVB-2000 zu
separieren sind, werden BG und WKG hinsichtlich der BVB-2000 Gesamtwerte mittels t-
Test für unabhängige Stichproben auf bedeutsame Mittelwertsunterschiede verglichen und
die Abweichung des Mittelwertes vom neutralen Skalenmittelpunkt im BVB-2000 geprüft
(t-Test). Die am Median der Sitzungsanzahl in kürzere und längere Therapien unterteilten
Substichproben der BG werden ebenfalls mittels t-Test auf Unterschiede im BVB-2000 hin
untersucht. Zur Analyse der konvergenten Validität werden Korrelationen (Pearson) des
BVB-2000 mit den Maßen der Zielerreichung (Schulte, 1993) und den indirekten
Veränderungsmessungen berechnet. Als indirekte Veränderungsmessung werden Prä-Post
129
Effektstärken in der u.a. von Grawe, Bernauer und Donati (1994) in ihrer Metaanalyse
verwendeten Form berechnet (Mprä-Mpost/SDprä; vgl. Maier-Riehle & Zwingmann, 2000).
Zudem werden Zusammenhänge des BVB-2000 mit den Statusmessungen (Prä, Post) der
Symptomatik (BSI, BDI, IIP) in der BG berechnet. Um den BVB-2000 in der Gesamtschau
aller Erfolgswerte zu verorten wird eine exploratorische Faktorenanalyse (EFA) 2. Ordnung
berechnet. Zur Abschätzung der Bedeutung einzelner Testergebnisse in der klinischen
Anwendung des BVB-2000 wird analog zum Vorgehen bei Zielke und Kopf-Mehnert (1978)
die kritische Profildifferenz (Lienert & Raatz, 1998) auf Basis der folgenden Formel
berechnet:
345#6 = 78 ± :; ∙ "3 ∙ =2(1 −"66)
Da davon ausgegangen wird, dass therapiebedingte Veränderungen über
Veränderungen in einer unbehandelten Vergleichsgruppe hinausgehen, wird die kritische
Profildifferenz aus den BVB-2000 Werten der WKG berechnet. Über den
Standardmessfehler wird das Vertrauensintervall des Testwertes definiert; als Streuungsmaß
wird die Standardabweichung (SD) und als Reliabilitätsmaß ("66) die interne Konsistenz
(Cronbachs alpha) des BVB-2000 in der WKG verwendet (ebenso Zielke & Kopf-Mehnert,
1978; Krampen, 2010). Für die Berechnung der kritischen Profildifferenz wird ein
Signifikanzniveau von p < .05 (z = 1.96) gewählt. Patienten mit Werten außerhalb der
berechneten Intervallgrenzen werden als gebessert bzw. verschlechtert kategorisiert.
Anschließend wird der kritische Veränderungswert des BVB auf die BG angewendet und die
Anzahl (N, %) gebesserter, unveränderter und verschlechterter Patienten bestimmt (ebenso
Krampen, 2010, Zielke & Kopf-Mehnert, 1978). Diese BVB-2000 Erfolgsgruppen werden
130
hinsichtlich der anderen Therapieerfolgswerte mittels einfaktorieller Varianzanalyse auf
Unterschiede geprüft.
Ergebnisse
Faktorenstruktur des BVB-2000 in der Behandlungsgruppe
Auf Basis der CFA (ML-Schätzmethode) muss die von Veith und Willutzki (2000)
berichtete dreifaktorielle Struktur zurückgewiesen werden (χ2 = 832.329 (df = 296; p <
.001); SRMS = 0.057; CFI = 0.88; RMSEA = 0.094). Um die Struktur des Instruments in der
vorliegenden Stichprobe nach Ablehnung dieser Strukturannahme weiter explorativ zu
untersuchen, wurde anschließend eine EFA (Hauptkomponentenanalyse) des Itemsatzes
berechnet. Unter dem Kaiser-Guttman-Kriterium resultiert erneut eine dreifaktorielle
Struktur. Der Eigenwertverlauf verweist allerdings auf einen dominanten Hauptfaktor mit
einem Eigenwert von 14.45 und etwa 55.58% Varianzaufklärung (Faktor 2: Eigenwert 1.7,
6.53% Varianzaufklärung; Faktor 3: Eigenwert 1.14, 4.38% Varianzaufklärung). Im Scree-
Plot zeichnet sich eine asymptotische Annäherung an die X-Achse mit dem zweiten
Eigenwert (Knie) ab. Da das Kaiser-Kriterium nach Moosbrugger und Schermelleh-Engel
(2008) bzw. Bühner (2011) oft zu einer Überschätzung der Faktorenanzahl führt und die
konfirmatorische Faktorenanalyse die dreifaktorielle Struktur zurückweist, wird der Scree-
Test zur Entscheidungsfindung herangezogen. Dieser wird von Moosbrugger und
Schermelleh-Engel (2008, S. 312) als „einfaches und in den meisten Fällen zuverlässiges
Kriterium“ charakterisiert. Dementsprechend wird von einem dominanten Hauptfaktor des
BVB-2000 ausgegangen und zur weiteren Analyse der Gesamtmittelwert herangezogen (vgl.
entsprechend Kriebel et al., 2001; Zielke & Kopf-Mehnert, 1978; Zielke & Kopf-Mehnert,
2001b).
131
Itemanalyse und Reliabilität
Tabelle 1 zeigt die Ergebnisse der Itemanalyse für den BVB-2000 in der BG sowie
Faktorladungen der Items auf dem oben gezeigten Hauptfaktor der EFA. Die
durchschnittliche Schwierigkeit der Items beträgt pi = .79 (min = .70, max = .84). Die
Trennschärfen sind insgesamt hoch (rit > .59; Konfidenzintervalle: 5%-Niveau (zweiseitig)
= .33, 1%-Niveau = .43). Es bestehen durchgängig substantielle Faktorladungen der Items
auf den Hauptfaktor von im Mittel a = .74 (min = .52, max = .85). Dementsprechend weist
der BVB-2000 mit einem Cronbachs alpha von α = .96 (26 Items) in der BG eine hohe
interne Konsistenz auf. Die Reliabilität des BVB-2000 für Therapien geringerer Sitzungszahl
liegt bei α = .97; für Therapien mit höherer Sitzungszahl liegt sie bei α = .96. In der WKG (N
= 88) liegt die interne Konsistenz bei α = .95 (26 Items).
>> Tabelle 1 hier einfügen <<
Vergleich der Stichproben bezüglich der BVB-2000 Werte
In der BG liegt der Gesamtwert des BVB-2000 im Mittel bei M = 5.54 (SD = .98)
und verweist damit auf eine subjektiv erlebte Befindensverbesserung (max = 7.00; min =
2.81). Der Mittelwert der WKG (N = 88) liegt mit M = 3.88 (SD = .83, min = 1.35, max =
5.81) nahe dem neutralen Skalenmittelpunkt („keine Veränderung“) mit dem Wert 4. Die BG
weist einen statistisch bedeutsam höheren Mittelwert im BVB-2000 auf als die WKG (t =
14.84; df = 191.92; p < .001; d = 1.66). Die WKG zeigt im t-Test keine signifikante
Differenz zum neutralen Skalenmittelpunkt (t = -1.39; df = 87; n.s.; d = -.12), während die
BG statistisch bedeutsam in Richtung einer Befindensverbesserung von ihm abweicht (t =
22.52; df = 204; p < .001; d = 1.54). Therapien mit geringerer Sitzungszahl (Mittlere
Sitzungszahl = 26.07; SD = 6.09) unterscheiden sich von Therapien höherer Sitzungsanzahl
(mittlere Sitzungszahl = 54.13; SD = 12.58) im BVB-2000 nicht signifikant voneinander
132
(BVB-2000 bei geringerer Sitzungsanzahl M = 5.57 (SD = 1.04) vs. bei größerer
Sitzungsanzahl M = 5.50 (SD = .92); t = .50, df = 200; n.s.).
Konstruktvalidität
Tabelle 2 gibt die Kennwerte (M, SD) aller verwendeten Instrumente in der BG zu
beiden Messzeitpunkten (Prä, Post) sowie der abgeleiteten indirekten Veränderungsmaße
(Prä-Post Effektstärken) wieder. Die Prä-Post Effektstärken (ES) von BSI, BDI und IIP
bilden im Mittel einen großen Effekt (vgl. Cohen, 1988) der psychotherapeutischen
Behandlung ab.
>> Tabelle 2 hier einfügen <<
Tabelle 3 zeigt die Interkorrelationen aller Therapieerfolgsmaße in der BG. Es
bestehen statistisch bedeutsame Bezüge des BVB-2000 zu allen herangezogenen
Erfolgsmaßen. Die Zusammenhänge des BVB-2000 mit den indirekten
Veränderungsmessungen (Prä-Post Effektstärken) von BSI, BDI und IIP sind insgesamt
geringer (14-22% geteilte Varianz) als die Zusammenhänge der indirekten
Veränderungsmaße (Prä-Post Effektstärken) untereinander (24-32% geteilte Varianz). Die
geteilte Varianz des BVB-2000 mit den beiden Maßen zur Zielerreichung (Schulte, 1993) im
Selbsturteil (Global, GAS Patient) ist deutlich höher (48% und 53%) als die der indirekten
Veränderungsmaße mit diesen Erfolgswerten (11-23%). Dies gilt ebenso für das Fremdurteil
der Zielerreichung (GAS Therapeut), das 15% geteilte Varianz mit dem BVB-2000 und
lediglich 3-4% geteilte Varianz mit den indirekten Veränderungsmaßen (Effektstärken)
aufweist.
>> Tabelle 3 hier einfügen <<
133
Tabelle 4 zeigt die Ergebnisse der explorativen Faktorenanalyse 2. Ordnung
(Hauptkomponentenanalyse, Varimax Rotation) aller Erfolgswerte. Nach dem Kaiser-
Guttman-Kriterium resultieren zwei Komponenten, die nach Rotation ein vergleichbares
Ausmaß an Varianzaufklärung aufweisen. Wie erwartet lädt der BVB-2000 auf einem
gemeinsamen Faktor (Komponente 1) mit den Maßen der Zielerreichung (Schulte, 1993).
Die indirekten Veränderungsmaße bilden gemeinsam einen zweiten Faktor (Komponente 2),
wobei der BVB-2000 hier eine substantielle (< .30), jedoch niedrigere Ladung aufweist.
>> Tabelle 4 hier einfügen <<
Tabelle 5 zeigt die Korrelationen aller Therapieerfolgswerte mit den
Statusmessungen (Prä, Post) der Symptomatik (BSI, BDI, IIP). Die Prä-Werte der
Statusmessungen korrelieren nicht substantiell mit denMaßen der Zielerreichung und dem
BVB-2000 , während sie fast durchgängig (bei geteilten Varianzen von 4-56%) substantiell
mit den Effektstärken der indirekten Veränderungsmaße korrelieren. Sämtliche
Psychotherapieerfolgswerte weisen einen hohen negativen Zusammenhang mit den Post-
Werten der Statusmessungen auf: Je erfolgreicher die Therapien - unabhängig vom
jeweiligen Verfahren - eingeschätzt werden, desto geringer die Symptombelastung zu
Therapieende.
>> Tabelle 5 hier einfügen <<
Kritische Veränderungswerte des BVB-2000
Zur Abschätzung der Bedeutung einzelner Testergebnisse des BVB-2000 wird die
kritische Profildifferenz (Lienert & Raatz, 1998) aus den Werten der WKG berechnet. Bei
einem Signifikanzniveau von p<.05 werden Patienten mit einem Wert größer 4.40 als
gebessert und kleiner 3.36 als verschlechtert klassifiziert; Patienten mit Werten innerhalb
134
dieses Intervalls werden als unverändert klassifiziert. In der BG werden so 85.9% (N = 176)
der Patienten als gebessert, 13.2% (N = 27) als unverändert und 1% (N = 2) als
verschlechtert kategorisiert. In der WKG werden 17% (N = 17) als verbessert, 59.1% (N =
52) als unverändert und 21.6% (N = 19) als verschlechtert klassifiziert.
>> Tabelle 6 hier einfügen <<
Tabelle 6 vergleicht die in der BG auf Basis der kritischen Veränderungswerte im
BVB-2000 als unverändert und gebessert klassifizierten Patienten bezüglich aller
Therapieerfolgswerte: Die als gebessert klassifizierte Patientengruppe weist auf allen
Instrumenten statistisch bedeutsam höhere Erfolgswerte auf als die als unverändert
klassifizierte Gruppe.
Diskussion
Der BVB-2000 erweist sich in der vorliegenden Studie als reliables Instrument der
direkten Veränderungsmessung. Die von Veith und Willutzki (2000) berichtete
dreifaktorielle Struktur konnte mittels CFA nicht repliziert werden; die Ergebnisse der
anschließenden explorativen Faktorenanalyse (Hauptkomponentenanalyse) verweisen unter
Einbezug des Scree-Kriteriums auf einen dominanten Hauptfaktor. Die interne Konsistenz
(Cronbachs alpha) des BVB-2000 ist mit α = .97 für Therapien geringerer Sitzungszahl und
α = .96 (26 Items) für Therapien höherer Sitzungszahl in der BG (N = 205) und α = .95 in
der WKG (N = 88) bei jeweils 26 Items sehr hoch. Der Vergleich von BG und WKG zeigt,
dass sich mit dem BVB-2000 zufällige Schwankungen im Erleben und Verhalten von
Veränderungen im Rahmen einer Psychotherapie differenzieren lassen - zumindest bezogen
auf die hier berücksichtigte Wartekontrollzeit von drei Monaten. Veränderungen im BVB-
2000 sind zudem nicht abhängig von der Therapiedosis: Therapien geringerer und höherer
Sitzungsanzahl unterscheiden sich im BVB nicht deutlich voneinander.
135
Hinsichtlich der Konstruktvalidität weist der BVB-2000 statistisch bedeutsame
Zusammenhänge mit allen herangezogenen Therapieerfolgsmaßen auf, wobei die
Größenordnung der Zusammenhänge mit geteilten Varianzen von 14% bis 53% insgesamt
mit denen anderer Überarbeitungen des VEV (Kriebel et al., 2001; Zielke & Kopf-Mehnert,
2001b) wie auch anderen Instrumenten zur direkten Veränderungsmessung (z.B. Krampen,
2010) vergleichbar ist (anders Kastner & Basler, 1997). Trotz bedeutsamer Zusammenhänge
mit den indirekten Veränderungsmaßen lässt sich der BVB-2000 in der explorativen
Faktorenanalyse 2. Ordnung (Hauptkomponentenanalyse) von den indirekten
Veränderungsmaßen (Prä-Post Effektstärken) separieren und lädt deutlich gemeinsam mit
anderen Zielerreichungsmaßen (Schulte, 1993). Dementsprechend lässt sich die erste
Dimension als Zielerreichungsfaktor auffassen, während die zweite Dimension eher die
Symptomveränderungen repräsentiert (vgl. ähnlich Ülsmann & Schulte, in Druck). Die
Ergebnisse zur konvergenten Validität verweisen so erneut darauf, dass der Beitrag der
direkten Veränderungsmessung zur Erfolgsbeurteilung über eine statistisch bedeutsame
Konvergenz mit der indirekten Veränderungsmessung (Prä-Post Effektstärken) hinausgeht
(vgl. Flückiger et al., 2007; Michalak et al., 2003; Ülsmann & Schulte, in Druck).
Der BVB-2000 weist durchgängig statistisch bedeutsame Bezüge zu allen
herangezogenen Erfolgswerten - auch den indirekten Veränderungsmaßen auf (ebenso
Flückiger et al., 2007; Michalak et al., 2003; Ülsmann & Schulte, in Druck). Zudem
korrelieren sämtliche herangezogenen Erfolgswerte (auch die indirekten Veränderungsmaße)
statistisch bedeutsam negativmit den Postwerten. Das Ergebnismuster dieser Studie
unterscheidet sich damit - ebenso wie bei Flückiger und Kollegen (2007) - von den
Ergebnissen von Kastner und Basler (1997): Sie finden mit ihrem „Fragebogen zur
subjektiven Erfolgsbeurteilung der Therapie“ (FSET) in einer Stichprobe chronischer
Schmerzpatienten kaum Zusammenhänge dieses direkten Veränderungsmaßes zu indirekten
136
Veränderungsmaßen, wohl aber deutliche Zusammenhänge zur Restsymptomatik zu
Therapieende. Es bleibt offen, ob diese Diskrepanzen auf Unterschiede zwischen den
Instrumenten oder aber den hohen Chronifizierungsgrad der Patienten bei Kastner und
Basler (a.a.O.) zurückgehen: Die Effektstärken (rekonstruiert aus den Kennwerten der
indirekten Veränderungsmaße) in der zugrundeliegenden Therapievergleichsstudie liegen
mehrheitlich unter .50 (Basler, Jäkle & Kröner-Herwig, 1997). Wie auch Flückiger und
Kollegen (2007) herausarbeiten, spricht ein Zusammenhang zwischen direkten
Veränderungsmaßen und der Restsymptomatik zu Therapieende nicht prinzipiell gegen die
Validität direkter Veränderungsmaße: Bei Veränderungen in der Psychotherapie ist eine
Reduktion der Restsymptomatik und damit die Annäherung an die unbelastete
Normalpopulation zu erwarten. Der BVB-2000 weist in dieser, wie auch in anderen Studien
bei bedeutsamen Zusammenhängen mit indirekten Veränderungsmaßen gleichzeitig eine
deutlichere Nähe zu Maßen der Zielerreichung auf (Flückiger et al., 2007; Michalak et al.,
2003; Ülsmann & Schulte, in Druck). Der BVB-2000 teilt somit Varianz mit beiden
Dimensionen des Therapieerfolgs. Diese „Doppelstellung“ könnte im Falle des Einsatz des
BVB-2000 als ‚stand alone’ Lösung (z.B. bei knappen Ressourcen und/oder fehlenden Prä
Werten) durchaus Vorteile bieten (vgl. auch Ülsmann & Schulte, in Druck).
Zielerreichungsmaße implizieren den kognitiven Abgleich eines Idealzustandes mit dem
aktuellen Befinden (Post) im Unterschied zum Abgleich zwischen initialer Symptomatik und
Restsymptomatik (Schulte, 1993), was wiederum den Urteilsprozess bei der direkten
Veränderungsmessung fraglich erscheinen lässt.
Der Frage einer möglichen Überschätzung des Interventionserfolgs durch den BVB-
2000 (im Überblick Fydrich, 2006; Reinecker-Hecht & Baumann, 2005; vgl. auch Lam &
Bengo, 2003) wurde in der vorliegenden Studie mittels kritischer Profildifferenzen
nachgegangen. Der Prozentsatz der mittels kritischem Veränderungswert des BVB-2000 als
137
verbessert klassifizierter Patienten ist mit 85.9% direkt mit den von Zielke und Kopf-
Mehnert (1978) für den VEV berichteten 85% vergleichbar. Von Zielke und Kopf-Mehnert
(2001b) bzw. Kriebel et al. (2001) werden mit 74.4% und 61.1% geringere Prozentsätze
verbesserter Patienten berichtet, was vermutlich auf Unterschiede im Behandlungssetting
(ambulant vs. stationär) zurückgeht. Gegen eine Überschätzung des Therapieerfolgs durch
den BVB-2000 in Vergleich zu anderen Therapieerfolgsmaßen sprechen auch die Ergebnisse
der varianzanalytischen Vergleiche der im BVB-2000 klassifizierten Patienten: Patienten,
die mit dem BVB-2000 als gebessert kategorisiert werden weisen auf allen
Therapieerfolgsmaßen im Mittel deutlich größere Prä-Post Effektstärken auf als Patienten,
die als unverändert eingeschätzt werden.
Einschränkend ist zu den hier zugrunde gelegten kritischen Veränderungswerten
anzumerken, dass zu ihrer Erarbeitung kein streng experimentelles Design realisiert wurde
(wie etwa von Krampen, 2010). Zudem sind der Überblickszeitraum der WKG und der BG
nicht identisch. Unabhängig davon kann die Verwendung kritischer Profildifferenzen
(Lienert & Raatz, 1998) insgesamt hinterfragt werden. Von Nachtigall und Suhl (2005)
werden jedoch die Vorteile kritischer Profildifferenzen (Lienert & Raatz, 1998) bzw. deren
Umformulierung als Reliable Change Index (Jacobson & Truax, 1991) gegenüber
verschiedenen Alternativvorschlägen (u.a. Steyer, Hannöver, Telser & Kriebel, 1997)
herausgearbeitet.
Die hier untersuchte Behandlungsgruppe zeichnet sich durch drei besondere
Merkmale aus: Das Vorliegen einer statistisch bedeutsamen Beeinträchtigung zu
Therapiebeginn (T-Wert des BSI GSI > 63), eine relativ hohe Anzahl an Therapiesitzungen
(M = 40.28; SD = 17.22) sowie große Behandlungseffekte (ES > .80 für 55-76% der
Stichprobe je nach Instrument). Diese Stichprobencharakteristika begrenzen die
138
Generalisierbarkeit der Studie deutlich. Neben den Einschränkungen, die hieraus und aus der
Studienanlage resultieren, besteht weiterer Forschungsbedarf vor allem in folgenden
Bereichen: Wünschenswert wäre die Einbeziehung katamnestischer Daten, um zu
überprüfen, ob die von Michalak und Kollegen (2003) berichtete besondere prognostische
Relevanz direkter Veränderungsmaße für den weiteren Behandlungsverlauf replizierbar ist.
Bezüglich der offenen Fragen zu den Urteilsprozssen, die direkten
Veränderungseinschätzungen zugrunde liegen, wären spezifische Studien, z.B. mittels
‚cognitive interviewing’ (Collins, 2003) sowie weitere Studien zum Einfluss der
Überblicksdauer bzw. der Therapiedosis sinnvoll (vgl. jedoch Stieglitz (1990), der keinen
Zusammenhang zwischen Überblicksdauer und retrospektiv eingeschätzter Symptomatik
fand). Auch die Ergebnisse von Krampen (2010), der aus einer aufwändigen experimentellen
Studie nur geringe Zusammenhänge der direkten Veränderungsmessung mit sozialer
Erwünschtheit (gemeinsame Varianz von 6-10%) und keine bedeutsamen Zusammenhänge
mit anderen Antworttendenzen (Lügen, Offenheit) berichtet, bedürfen weiterer Überprüfung.
Bei der Bewertung der Validitätsbedenken, die sich auf die Beteiligung subjektiver
Beurteilungsprozesse beziehen, ist zu berücksichtigen, dass ein Großteil dieser Probleme
ubiquitär alle Messansätze - also auch die indirekte Veränderungsmessung - betrifft (vgl.
Schwartz und Rapkin, 2004). So stellen z.B. Befunde zum sogenannten response shift (im
Überblick Güthlin, 2004) die Validität von Prä-Post Differenzwerten in Frage, da im Laufe
der Therapie Veränderungen in den Bewertungsmaßstäben des Patienten stattzufinden
scheinen.
Im klinischen Kontext sind günstige, wenig zeitintensive sowie schnell und einfach
anzuwendende psychometrische Verfahren wünschenswert (im Überblick Ogles, 2013).
Hunsley und Mash (2007) sehen solche ‚practical criteria’ explizit als psychometrische
Qualität an. Der BVB-2000 stellt sich in der vorliegenden Studie als ökonomisches, gut
139
handhabbares Verfahren mit bedeutsamen Bezügen zu Erfolgswerten verschiedener
Messansätze dar. Unter Verwendung der dargestellten kritischen Veränderungswerte kann
eine valide Abschätzung des Therapieerfolgs auch in Einzelfällen vorgenommen werden.
Der BVB-2000 kann zu Therapieende einmalig erhoben werden und bietet damit bei
begrenzten Ressourcen oder im Falle fehlender Eingangswerte Vorteile.
140
Literaturverzeichnis
Basler, H.-D., Jäkle, C. & Kröner-Herwig, B. (1997). Incorporation of cognitive-behavioral
treatment into the medical care of chronic low back patients. Patient Education and
Counseling, 31, 113-134.
Baumann, U., Sodemann, U. & Tobien, H. (1980). Direkte versus indirekte
Veränderungsdiagnostik. Zeitschrift für Differentielle und Diagnostische
Psychologie, 1, 201-216.
Becker, P. & Mohr, A. (2005). Psychometrische Argumente für die Verwendung
untransformierter Skalenwerte im Inventar zur Erfassung interpersonaler Probleme
(IIP-D). Zeitschrift für Klinische Psychologie und Psychotherapie, 34, 205-214.
Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C.W. Harris
(Ed.), Problems in measuring change (S. 3-20). Madison: University of Wisconsin
Press.
Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion. München:
Pearson.
Cohen, J. (1988). Statistical power analysis for the behavioural sciences. Hillsdale:
Erlbaum.
Collins, D. (2003). Pretesting survey instruments: an overview of cognitive methods. Quality
of Life Research, 12, 229-238.
De Los Reyes, A., Kundey, S. A. & Wang, M. (2011). The end of the primary outcome
measure: A research agenda for constructing its replacement. Clinical Psychology
Review, 31 (5), 829-838.
Derogatis, L.R. (1986). Symptom-Check-Liste (SCL-90-R). In Collegium Internationale
Psychiatrieae Scalarum (Hrsg.), Internationale Skalen für Psychiatrie (3. Aufl.).
Weinheim: Beltz.
141
Flückiger, C., Regli, D., Grawe, K. & Lutz, W. (2007). Differences and similarities between
pre-post and retrospective measurings. Psychotherapy Research, 17, 359-364.
Franke, G. H. (2000). Brief Symptom Inventory von L. R. Derogatis (Kurzform der SCL-90-
R). Göttingen: Beltz Test GmbH.
Fydrich, T. (2006). Diagnostik und Intervention in der Klinischen Psychologie. In M.
Amelang & L. Schmidt-Atzert (Hrsg.), Psychologische Diagnostik und Intervention
(S. 495–532). Heidelberg: Springer.
Grawe, K., Bernauer, F. & Donati, R. (1994). Psychotherapie im Wandel. Göttingen:
Hogrefe.
Güthlin, C. (2004). Response Shift: Alte Probleme der Veränderungsmessung, neu
angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische
Psychologie, 13, 165–174.
Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar
(BDI). Bern: Huber.
Hill, C. E. & Lambert, M. J. (2004). Methodological Issues in Studying Psychotherapy
Processes and Outcomes. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook
of Psychotherapy and Behavior Change. 5th Edition (S. 84-136). New York: Wiley.
Hiller, W., Bleichhardt, G. & Schindler, A. (2009). Evaluation von Psychotherapien aus der
Perspektive von Qualitätssicherung und Qualitätsmanagement. Zeitschrift für
Psychiatrie, Psychologie und Psychotherapie,57, 7-22.
Horowitz, L. M., Strauß, B. & Kordy, H. (2000). Inventar zur Erfassung interpersonaler
Probleme. Göttingen: Beltz.
Hunsley, J. & Mash, E. J. (2007). Evidence-based assessment. Annual Review of Clinical
Psychology, 329-351.
142
Jacobson, N. S. & Truax, P. (1991). Clinical significance. A statistical approach to defining
meaningful change in psychotherapy research. Journal of Consulting and Clinical
Psychology, 59, 12–19.
Kastner, S. & Basler, H.-D. (1997). Messen Veränderungsfragebögen wirklich
Veränderung? Schmerz, 11, 254-262.
Kendall, P. C., Holmbeck, G. & Verdun, T. (2004). Methodology, design, and evaluation in
psychotherapy research. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook
of Psychotherapy and Behavior Change. 5th Edition. (S. 16-43). New York: Wiley.
Kiresuk, T. I. & Sherman, R. E. (1968). Goal Attainment Scaling: A general method for
evaluating comprehensive community mental health programs. Community Mental
Health Journal, 4, 443-453.
Krampen, G. (2010). Experimentelle Konstruktion eines Kurzfragebogens zur direkten
Veränderungsmessung psychotherapeutischer Effekte im Befinden. Diagnostica, 54,
212-221.
Kriebel, R., Paar, G.H., Schmitz-Buhl, M. & Raatz, U. (2001). Veränderungsmessung mit
dem Veränderungsfragebogen (VEV): Entwicklung einer Kurzform und deren
Anwendung in der Psychosomatischen Rehabilitation. Praxis Klinische
Verhaltensmedizin und Rehabilitation, 53, 20-32.
Lam, T .C. M. & Bengo, P. (2003). A comparison of three retrospective self-reporting
methods of measuring change in instructional practice. American Journal of
Evaluation, 24, 65-80.
Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse. 6. Auflage. Weinheim:
Psychologie Verlags Union.
Maier-Riehle, B. & Zwingmann, C. (2000). Effektstärkenvarianten beim Eingruppen-Prä-
Post-Design: Eine kritische Betrachtung. Rehabilitation, 39, 189–199.
143
Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs –
Veränderungsmessung oder retrospektive Erfolgsbeurteilung. Zeitschrift für Klinische
Psychologie und Psychotherapie, 32, 94-103.
Moosbrugger, H. & Schermelleh-Engel, K. (2008). Exploratorische (EFA) und
Konfirmatorische Faktorenanalyse (CFA). In H. Moosbrugger und A. Kelava (Hrsg.),
Testtheorie und Fragebogenkonstruktion (S. 307-324). Berlin: Springer.
Nachtigall, C. & Suhl, U. (2005). Evaluation intraindividueller Veränderung. Ein Vergleich
verschiedener Veränderungskennwerte. Zeitschrift für Klinische Psychologie und
Psychotherapie, 34, 241–247.
Newman & Tejeda (2004). Selecting statistical procedures for progress and outcome
assessment: The analysis of group data. In M. E. Maruish (Hrsg.), The use of
psychological testing for treatment planning and outcomes assessment (S. 291-334).
Mahwah: Lawrence Erlbaum.
Ogles, B. M. (2013). Measuring Change in Psychotherapy Research. In M. J. Lambert
(Hrsg.), Bergin and Garfield’s Handbook of Psychotherapy and Behavior Change. 6th
Edition (S. 134-166). New York: Wiley.
Reinecker-Hecht, C. & Baumann, U. (2005). Klinisch-psychologische Diagnostik. In M.
Perrez & U. Baumann (Hrsg.), Lehrbuch Klinische Psychologie - Psychotherapie (S.
128-146). Bern: Huber.
Schulte, D. (1993). Wie soll Therapieerfolg gemessen werden? Zeitschrift für Klinische
Psychologie, 22, 374-393.
Schulte, D. & Meyer, F. (2002). Woran orientieren sich Therapeuten bei ihrer
Sitzungsbeurteilung und Erfolgsprognose? Zeitschrift für Klinische Psychologie und
Psychotherapie, 31, 257-265.
144
Schwartz, C. E. & Rapkin, B. D. (2004). Reconsidering the psychometrics of quality of life
assessment in light of response shift and appraisal. Health and Quality of Life
Outcomes, 2, 16.
Steyer, R., Hannöver, W., Telser, C. & Kriebel, R. (1997). Zur Evaluation intraindividueller
Veränderung. Zeitschrift für Klinische Psychologie, 26, 291–299.
Stieglitz, R.-D. (1990). Validitätsstudien zum retrospektiven Vortest in der
Therapieforschung. Zeitschrift für Klinische Psychologie, 19, 144-150.
Stieglitz, R.-D. & Baumann, U. (1994). Veränderungsmessung. In R.-D. Stieglitz & U.
Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21-36). Stuttgart:
Enke.
Stieglitz, R.-D. & Baumann, U. (2001). Veränderungsmessung. In R.-D. Stieglitz & U.
Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21-37). Stuttgart:
Enke.
Ülsmann, D. & Schulte, D. (in Druck). Ziel erreicht! Aber auch verändert? Zwei basale
Perspektiven in der Psychotherapieerfolgsbeurteilung. Zeitschrift für Klinische
Psychologie und Psychotherapie.
Veith, A. & Willutzki, U. (2000). Eine Revision des Veränderungsfragebogens des Erlebens
und Verhaltens (VEV). Vortrag auf dem Kongress für Klinische Psychologie und
Psychotherapie der Deutschen Gesellschaft für Verhaltenstherapie, Berlin.
Wittchen, H.-U. & Hoyer, J. (2006). Diagnostische Prozesse in der Klinischen Psychologie
und Psychotherapie. In H.-U. Wittchen & J. Hoyer (Hrsg.), Klinische Psychologie &
Psychotherapie (S. 349–382). Heidelberg: Springer.
Wittchen, H.U., Zaudig, M. & Fydrich, T. (1997). Strukturiertes Klinisches Interview für
DSM-IV Achse I und II. Göttingen: Hogrefe.
145
Zielke, M. (1999). Direkte und indirekte Veränderungsmessung bei Interventionsansätzen -
Methoden und Ergebnisse. Praxis klinische Verhaltensmedizin und Rehabilitation,
45, 3-13.
Zielke, M. & Kopf-Mehnert, C. (1978). Der Veränderungsfragebogen des Erlebens und
Verhaltens VEV. Weinheim: Beltz.
Zielke, M. & Kopf-Mehnert, C. (2001a). 22 Jahre wissenschaftliche Erfahrungen mit dem
Veränderungsfragebogen des Erlebens und Verhaltens VEV. Praxis klinische
Verhaltensmedizin und Rehabilitation, 53, 3-6.
Zielke, M. & Kopf-Mehnert, C. (2001b). Der VEV-R-2001: Entwicklung und
testtheoretische Reanalyse der revidierten Form des Veränderungsfragebogens des
Erlebens und Verhaltens (VEV). Praxis klinische Verhaltensmedizin und
Rehabilitation, 53, 7-19.
146
Tabe
lle 1
Boch
umer
Ver
ände
rung
sbog
en-2
000
(BVB
-200
0; W
erte
bere
ich
von
„1“-
„7“,
neu
tral
er W
ert „
4“):
Item
form
ulie
rung
en,
Erge
bnis
se d
er
Item
anal
yse
(Ken
nwer
te (M
, SD
), Ite
msc
hwie
rigk
eit (
pi),
korr
igie
rte
Tren
nsch
ärfe
(rit)
, Lad
ung
auf d
en H
aupt
fakt
or (a
)) in
der
Beha
ndlu
ngsg
rupp
e (B
G, N
= 2
05)
Im
Ver
glei
ch zu
m Z
eitp
unkt
vor
der
The
rapi
e…
Item
M
(SD
) pi
rit
a
1 …
fühl
e ic
h m
ich
gehe
tzte
r. …
wen
iger
geh
etzt
. 5.
53 (1
.48)
.7
9 .5
9 .6
2 2
…ha
be ic
h je
tzt e
her d
as G
efüh
l, in
ein
er S
ackg
asse
zu
steck
en, a
us d
er ic
h ni
cht h
erau
skom
me.
…
habe
ich
jetz
t wen
iger
das
Gef
ühl…
5.
94 (1
.28)
.8
4 .7
2 .7
4 3
…ha
t das
Leb
en fü
r mic
h an
Inha
lt ve
rlore
n.
…er
sche
int m
ir da
s Leb
en si
nnvo
ller.
5.78
(1.2
4)
.82
.76
.78
4 …
bin
ich
mit
mir
unzu
fried
ener
. …
zufri
eden
er.
5.59
(1.5
7)
.79
.50
.52
5 …
bin
ich
ange
sicht
s von
Sch
wie
rigke
iten
ange
span
nter
. …
gela
ssen
er.
5.53
(1.3
5)
.78
.68
.70
6 …
bin
ich
inne
rlich
unr
uhig
er g
ewor
den.
…
ruhi
ger g
ewor
den.
5.
62 (1
.36)
.8
0 .6
6 .6
8 7
…ha
be ic
h w
enig
er A
usda
uer.
…
meh
r Aus
daue
r. 5.
32 (1
.33)
.7
5 .7
7 .7
9 8
…ge
be ic
h sc
hnel
ler a
uf.
…w
enig
er sc
hnel
l auf
. 5.
43 (1
.34)
.7
7 .6
8 .7
1 9
…sc
hwan
ken
mei
ne S
timm
unge
n je
tzt s
tärk
er.
…w
enig
er.
5.41
(1.3
9)
.77
.72
.75
10
…fü
hle
ich
mic
h je
tzt u
nsic
here
r. …
siche
rer.
5.60
(1.3
0)
.80
.78
.80
11
...bi
n ic
h im
Um
gang
mit
ande
ren
Men
sche
n je
tzt a
nges
pann
ter.
…ru
hige
r. 5.
53 (1
.30)
.7
9 .7
4 .7
6 12
...
fühl
e ic
h m
ich
unru
hige
r, w
enn
ich
an d
ie Z
ukun
ft de
nke.
…
ruhi
ger…
5.
44 (1
.36)
.7
8 .8
0 .8
2 13
…
nehm
e ic
h un
erw
arte
te E
reig
niss
e w
enig
er g
elas
sen
hin.
…
gela
ssen
er h
in.
5.48
(1.3
4)
.78
.74
.77
14
…fü
hle
ich
mic
h stä
rker
isol
iert
als f
rühe
r. …
wen
iger
isol
iert…
5.
43 (1
.36)
.7
7 .6
5 .6
7 15
…
wei
ß ic
h je
tzt m
anch
mal
nic
ht m
ehr,
wie
es w
eite
rgeh
en so
ll.
…w
eiß
ich
jetz
t oft
bess
er…
5.
63 (1
.36)
.8
0 .7
1 .7
4 16
…
kann
ich
jetz
t wen
iger
frei
spre
chen
. …
kann
ich
jetz
t fre
ier s
prec
hen.
5.
48 (1
.35)
.7
8 .7
2 .7
5 17
…
fühl
e ic
h m
ich
wen
iger
frei
. …
fühl
e ic
h m
ich
freie
r. 5.
63 (1
.31)
.8
0 .7
7 .8
0 18
…
kann
ich
mit
Pers
onen
des
and
eren
Ges
chle
chts
schl
echt
er K
onta
kt a
ufne
hmen
.
…be
sser
Kon
takt
auf
nehm
en.
4.94
(1.4
0)
.70
.50
.53
19
…ha
ben
mei
ne S
chw
ierig
keite
n im
Um
gang
mit
ande
ren
Men
sche
n zu
geno
mm
en.
...ab
geno
mm
en
5.42
(1.2
5)
.77
.75
.77
20
…bi
n ic
h an
gesp
annt
er.
…bi
n ic
h en
tspan
nter
. 5.
74 (1
.26)
.8
1 .7
8 .8
0 21
…
fühl
e ic
h m
ich
wen
iger
aus
gegl
iche
n.
…fü
hle
ich
mic
h au
sgeg
liche
ner.
5.76
(1.2
0)
.82
.83
.85
22
…fü
hle
ich
mic
h im
Ges
präc
h m
it an
dere
n un
siche
rer.
…ni
cht m
ehr s
o un
siche
r. 5.
54 (1
.25)
.7
9 .7
8 .8
0 23
...
kom
me
ich
mit
mir
selb
st sc
hlec
hter
aus
. …
bess
er a
us.
5.66
(1.2
3)
.80
.80
.82
24
…ka
nn ic
h m
it de
n Sc
hwie
rigke
iten
des a
lltäg
liche
n Le
bens
schl
echt
er u
mge
hen.
…
bess
er u
mge
hen.
5.
67 (1
.24)
.8
1 .8
0 .8
2
147
25
…m
acht
es m
ich
jetz
t uns
iche
rer,
wen
n sic
h ei
n an
dere
r mir
gege
nübe
r sel
bstb
ewus
st gi
bt.
…
nich
t meh
r so
unsic
her,
wen
n…
5.44
(1.3
0)
.78
.72
.75
26
…ha
ben
mei
ne S
chw
ierig
keite
n, m
ich
mit
ande
ren
Men
sche
n zu
unt
erha
lten…
zug
enom
men
. …
abge
nom
men
. 5.
46 (1
.33)
.7
8 .6
8 .7
1
Ges
amtm
ittel
wer
t der
Ska
la
5.
54 (.
98)
Anm
erku
ng. G
rau
unte
rlegt
e Ite
ms w
urde
n in
verti
ert.
148
Tabelle 2
Kennwerte (M, SD) aller verwendeten Instrumente in der Behandlungsgruppe (BG) zu
beiden Messzeitpunkten (Prä, Post) sowie der abgeleiteten indirekten Veränderungsmaße
(Prä-Post Effektstärken)
Prä Post ES¹
N M (SD) M (SD) M (SD)
BSI 205 1.40 (.54) .57 (.48) 1.52 (1.12)
BDI 202 19.97 (9.56) 7.47 (6.83) 1.30 (1.03)
IIP 204 1.68 (.52) 1.12 (.63) 1.07 (1.01)
BVB-2000 205 - 5.54 (.98) -
Global 205 - 4.80 (.97) -
GAS Pat. 151 - 4.69 (1.06) -
GAS Th. 147 - 4.41 (1.30) -
Anmerkung. Brief Symptom Inventory (BSI), Beck-Depressions-Inventar (BDI), Inventar Interpersonaler
Probleme (IIP), Effektstärken (ES), Bochumer Veränderungsbogen-2000 (BVB-2000), Globalurteil der
Zufriedenheit mit dem Therapieergebnis (Global), Goal Attainment Scaling (GAS) von Patient (Pat.) und
Therapeut (Th.).
¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä.
149
Tabelle 3
Interkorrelation (Pearson) der Therapieerfolgsmaße in der Behandlungsgruppe (BG)
ES¹ BSI
ES¹ BDI
ES¹ IIP
Global
GAS Pat.
GAS Th.
BVB-2000
.47*** (N=205)
.38*** (N=202)
.44*** (N=204)
.73*** (N=205)
.69*** (N=151)
.39*** (N=147)
ES¹ BSI - .57***
(N=202) .49***
(N=204) .48***
(N=205) .38***
(N=151) .18*
(N=147) ES¹ BDI - .50***
(N=201) .40***
(N=202) .33***
(N=149) .21**
(N=144) ES¹ IIP - .43***
(N=204) .33***
(N=150) .18*
(N=146) Global - .75***
(N=151) .46***
(N=147) GAS Pat. - .56***
(N=131) Anmerkungen. Brief Symptom Inventory (BSI), Beck-Depressions-Inventar (BDI), Inventar Interpersonaler
Probleme (IIP), Effektstärken (ES), Bochumer Veränderungsbogen-2000 (BVB-2000), Globalurteil der
Zufriedenheit mit dem Therapieergebnis (Global), Goal Attainment Scaling (GAS) von Patient (Pat.) und
Therapeut (Th.).
¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä
*** p<.001, ** p<.01, * p<.05
150
Tabelle 4
Explorative Faktorenanalyse (Hauptkomponentenanalyse, Varimax Rotation): Ladungen der
Therapieerfolgswerte in der Behandlungsgruppe (BG) >.30
Komponente
1 2 GAS Pat. .87 Global .83 .31 BVB-2000 .79 .33 GAS Th. .74 ES BDI¹ .81 ES IIP¹ .80 ES BSI¹ .74 Varianzaufklärung Eigenwert (vor Rotation)
52.7% 3.69
17.3% 1.21
Varianzaufklärung Eigenwert (nach Rotation)
39.6% 2.77
30.4% 2.13
Anmerkungen. Brief Symptom Inventory (BSI), Beck-Depressions-Inventar (BDI), Inventar Interpersonaler
Probleme (IIP), Effektstärken (ES), Bochumer Veränderungsbogen-2000 (BVB-2000), Globalurteil der
Zufriedenheit mit dem Therapieergebnis (Global), Goal Attainment Scaling (GAS) von Patient (Pat.) und
Therapeut (Th.).
¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä
151
Tabelle 5
Zusammenhänge (Pearson) der Therapieerfolgswerte mit den Statusmessungen (Prä, Post)
der Symptomatik in der Behandlungsgruppe (BG)
BSI
Prä BDI Prä
IIP Prä
BSI Post
BDI Post
IIP Post
BVB- 2000
.01 N=205
-.02 N=203
-.08 N=205
-.59*** N=205
-.59*** N=202
-.43*** N=204
Global
.65 N=205
.02 N=203
-.05 N=205
-.53*** N=205
-.55*** N=202
-.40*** N=204
GAS Pat
-.09 N=151
-.09 N=149
-.12 N=151
-.53*** N=151
-.56*** N=149
-.36*** N=150
GAS Th
-.08 N=147
-.02 N=145
-.08 N=147
-.28*** N=147
-.30*** N=144
-.22*** N=146
ES BSI
.66*** N=205
.28*** N=203
.13 N=205
-.52*** N=205
-.43*** N=202
-.29*** N=204
ES BDI
.39*** N=202
.75*** N=202
.34*** N=202
-.28*** N=202
-.38*** N=202
-.13 N=201
ES IIP
.09 N=204
.22** N=202
.27*** N=204
-.51*** N=204
-.39*** N=201
-.60*** N=204
Anmerkungen. Statistisch bedeutsame Zusammenhänge sind hervorgehoben. Brief Symptom Inventory (BSI),
Beck-Depressions-Inventar (BDI), Inventar Interpersonaler Probleme (IIP), Effektstärken (ES), Bochumer
Veränderungsbogen-2000 (BVB-2000), Globalurteil der Zufriedenheit mit dem Therapieergebnis (Global),
Goal Attainment Scaling (GAS) von Patient (Pat.) und Therapeut (Th.).
¹Effektstärke (ES) berechnet als Mprä-Mpost/SDprä
*** p<.001, ** p<.01, * p<.05
152
Tabe
lle 6
Häu
figke
iten
(N, %
) der
auf
Bas
is d
es k
ritis
chen
Ver
ände
rung
swer
tes (
p<.0
5) d
es B
ochu
mer
Ver
ände
rung
sbog
en (B
VB-2
000)
in d
er
Beha
ndlu
ngsg
rupp
e (B
G) a
ls g
ebes
sert
und
unv
erän
dert
kla
ssifi
zier
ten
Patie
nten
mit
ihre
n je
wei
ligen
gem
ittel
ten
Ther
apie
erfo
lgsw
erte
n (M
(SD
)) so
wie
Erg
ebni
sse
der e
infa
ktor
ielle
n Va
rian
zana
lyse
der
Gru
ppen
hin
sich
tlich
ihre
r The
rapi
eerf
olgs
wer
te
Kla
ssifi
katio
n na
ch B
VB-
2000
N
(%
) G
loba
l G
AS
Pat.
GA
S Th
.
ES¹
BSI
ES¹
BDI
ES¹
IIP
BVB-
2000
ve
rbes
sert
17
6 (8
5,9%
)
5.01
(.7
9)
N=1
76
4.91
(.9
0)
N=1
32
4.58
(1
.20)
N
=126
1.65
(1
.08)
N
=176
1.42
(1
.00)
N
=174
1.19
(.9
9)
N=1
75
BVB-
2000
un
verä
nder
t 27
(1
3.2%
)
3.57
(.9
9)
N=2
7
3.26
(.9
3)
N=1
8
3.49
(1
.48)
N
=20
.72
(1.1
) N
=27
.70
(.90)
N
=26
.49
(.79)
N
=27
Ges
amt
203
(100
%)
4.82
(.9
5)
N=2
03
4.70
(1
.05)
N
=150
4.43
(1
.29)
N
=146
1.53
(1
.12)
N
=203
1.32
(1
.01)
N
=200
1.09
(.9
9)
N=2
02
V
aria
nzan
alys
e²
F(1,
202)
=7
2.25
***
F(1,
149)
=5
2.66
***
F(1,
145)
=1
3.34
***
F(1,
202)
=1
7.67
***
F(1,
199)
=1
1.93
**
F(1,
201)
=1
2.38
**
Anm
erku
ngen
. N=2
als
vers
chle
chte
rt kl
assif
izie
rte P
erso
nen
wur
den
nich
t in
die
Ana
lyse
mit
einb
ezog
en. B
rief S
ympt
om In
vent
ory
(BSI
), Be
ck-D
epre
ssio
ns-In
vent
ar
(BD
I), In
vent
ar In
terp
erso
nale
r Pro
blem
e (II
P), E
ffekt
stärk
en (E
S), B
ochu
mer
Ver
ände
rung
sbog
en-2
000
(BV
B-20
00),
Glo
balu
rteil
der Z
ufrie
denh
eit m
it de
m
Ther
apie
erge
bnis
(Glo
bal),
Goa
l Atta
inm
ent S
calin
g (G
AS)
von
Pat
ient
(Pat
.) un
d Th
erap
eut (
Th.).
153
¹Effe
ktstä
rke
(ES)
ber
echn
et a
ls M
prä-
Mpo
st/SD
prä
²ein
fakt
orie
lle V
aria
nzan
alys
e de
r bei
den
auf B
asis
des k
ritisc
hen
Ver
ände
rung
swer
tes d
es B
VB-
2000
als
gebe
sser
t und
unv
erän
dert
klas
sifiz
ierte
n Pa
tient
engr
uppe
n
hins
icht
lich
ihre
r The
rapi
eerfo
lgsw
erte
.
*p<.
05, *
*p<.
01, *
**p<
.001
154
8. Vertiefende Diskussion von Einzelaspekten der Studien
In den folgenden Kapiteln werden zunächst diskussionswürdige Punkte der drei
Studien vertieft, die so in der Breite in den Publikationen nicht verhandelt werden konnten.
Im Anschluss wird die Bedeutung subjektiver Urteilsprozesse im Rahmen einer
messtheoretischen Konzeption vorgestellt, die in der Psychotherapieevaluation bis dato
wenig Beachtung erfuhr. Zuletzt werden die Ergebnisse der vorliegenden Studien innerhalb
dieser Theorie noch einmal reinterpretiert und ein Ausblick auf mögliche zukünftige
Forschung gegeben.
8.1 Studie 1
Die verbreitete Vermutung systematischer Verzerrungen bei der Retrospektion ist
vermutlich ein Grund für die Skepsis gegenüber retrospektiven Therapieerfolgsmaßen wie
z.B. quasi-indirekten Veränderungsmessungen in der Evaluation von Psychotherapie (im
Überblick Hill & Lambert, 2004; vgl. auch Hill & Betz, 2005). Quasi-indirekte und direkte
Veränderungsmessungen werden daher in der Psychotherapieevaluation deutlich seltener
verwendet als indirekte Veränderungsmessungen (im Überblick Stieglitz, 2001). Studie 1
untersuchte wie zuverlässig retrospektive Einschätzungen der Symptomatik im Rahmen
Psychotherapie sind. Dabei wurde geprüft, ob sie einer systematischen Verzerrung in
Abhängigkeit vom Therapieerfolg unterliegen (illusion of positive change; Safer & Keuler,
2002) und wie valide quasi-indirekte Veränderungsmessungen auf Basis der retrospektiven
Statusmessung (Retro) sind. Die Ergebnisse replizieren den Befund, dass retrospektive
Symptomerhebungen „highly reliable, though not necessarily accurate“ (Safer & Keuler,
2002, S. 173) sind (ebenso Schmidt et al., 200; Stieglitz, 1990). Eine systematische
155
Beeinflussung der retrospektiven Symptomschätzungen durch den Therapieerfolg (vgl. Safer
& Keuler, 2002) ließ sich nicht zeigen. Ebenso wenig konnte in Bezug auf die konvergente
Validität von retrospektiven Retro-Post Effektstärken (Mretro-Mpost/SDretro) und regulären
Prä-Post Effektstärken (Mprä-Mpost/SDprä) mit anderen Erfolgswerten ein bedeutsamer
Unterschied konstatiert werden. In Bezug auf die Überschätzung des Therapieerfolgs durch
quasi-indirekte Veränderungsmessungen konnte lediglich für den BSI, nicht aber für den
BDI eine höhere retrospektive Effektstärke gezeigt werden. Dies bestätigt das Resümee der
Ergebnisse von Stieglitz (1990), der in den quasi-indirekten Veränderungsmaßen ein
„sensitives Maß zur Abbildung subjektiv erlebter Veränderung“ sieht (S. 149).
Einschränkungen der Studie ergeben sich vor allem aus dem Fehlen einer unbehandelten
Kontrollgruppe und den systematischen (und nicht zufälligen) Auswahlkriterien der
Stichprobe. Insgesamt wäre es somit wünschenswert, in Folgestudien ein experimentelles
Design zu realisieren. Unter Rückgriff auf eine Kontrollgruppe könnte so auch die plausible
Annahme einer implicit theory of change (vgl. Norman, 2003) - also die mögliche Tendenz
Veränderungen (bzw. eine retrospektive Überschätzung der Prä-Werte) nur deshalb zu
konstruieren weil eine Intervention stattfand - geprüft werden. Außerdem wäre es
wünschenswert, die konvergente Validität retrospektiver quasi-indirekter
Veränderungsmessung mit Fremdurteilen oder katamnestischen Daten zu untersuchen (vgl.
Stieglitz, 1990).
Wie bereits in der Diskussion der Studie 1 dargestellt, bietet die Identifikation
möglicher anderer Faktoren, die eine retrospektive Über- oder Unterschätzungen der
Symptomatik beeinflussen könnten, ein vielversprechendes Forschungsfeld. Hierbei könnte
wie bereits erwähnt der Iteminhalt oder die Diagnose als mögliche Einflussfaktoren näher
fokussiert werden. Außerhalb der klinischen Forschung existieren zahlreiche Studien, denen
weitere wertvolle Hinweise auf mögliche Einflussfaktoren entnommen werden können (im
156
Überblick Hill & Betz, 2005; vgl. auch Levine et al., 2006; Taylor et al., 2009). Eine Reihe
von Studien mit Kontrollgruppendesigns konnte so zeigen, dass sich eine retrospektive
Überschätzung nahezu ausschließlich in den Experimentalgruppen ereignete (Lam & Bengo,
2003; Safer & Keuler, 2002; Sprangers, 1989). Diejenigen, die Veränderungen erwarteten,
rekonstruierten diese somit auch, so der Tenor der Autoren (vgl. auch Ross, 1989). Um
positiv konnotierte Veränderung wahrzunehmen, könnten Überschätzungen auch dazu
dienen, ein exaggerated improvement (Ross, 1989, vgl. auch Conway & Ross, 1984;
McFarland & Alvaro, 2000; Taylor et al., 2009) zu konstruieren. Ebenso wird auch die
Vermutung von effort justification, social desirebility oder impression management
angestellt (im Überblick Hill & Betz, 2005). Andere Autoren verweisen auf eine generelle
Tendenz von Probanden Wahrnehmungen von personal growth (Wilson & Ross, 2001) oder
sozialer Überlegenheit (Fisher & Katz, 2000; Wilson & Ross, 2001) durch retrospektive
Überschätzungen zu schaffen. Die Überschätzung von Angst kann so z.B. als nachträglicher
heroism im Sinne einer Übersteigerung eigener Copingfähigkeiten interpretiert werden
(Keuler & Safer, 1998; vgl. auch Taylor, 1991; Taylor & Brown, 1988; Safer & Keuler,
2002). In Bezug auf kognitive Ursachen der Überschätzung kann neben einfachen
Gedächtnisfehlern (im Überblick Schwartz & Rapkin, 2004) auch die Tendenz zu
holistischen Antworten als Funktion steigender kognitiver Anforderungen angeführt werden
(Lam & Bengo, 2003). Zudem könnten Ankerprozesse wie die Bevorzugung des aktuellen
Zustandes als evaluative Basis des retrospektiven Rückblicks Überschätzung provozieren
(Levine, 1997; Ross, 1989; Safer et. al, 2002; Tversky & Kahneman, 1974). Eine Reihe von
Autoren vermuten, dass affektive Zustände per se in ihrer Intensität sowohl retrospektiv als
auch prospektiv überschätzt werden (im Überblick Thomas & Diener, 1990; Wilson &
Gilbert, 2003). Studien in diese Richtung existieren zu einer ganzen Reihe verschiedener
Situationen und Affekte (vgl. u.v.a. Beese & Morley, 1993; Devito & Kubis, 1983; Karney
157
& Coombs, 2000; Keuler & Safer, 1998; Shiffman, Hufford, Hickcox, Paty, Gnys & Kassel,
1997). Die aktuelle Stimmung könnte dabei zusätzlich im Sinne eines mood congruence bias
diese Tendenz noch verstärken (Bower, 1981; Rusting, 1998). Ebenso könnten übersituativ
angelegte Persönlichkeitsvariablen die retrospektiven Einschätzungen von Emotionen
beeinflussen. So scheint Neurotizismus die Tendenz zur Überschätzung zu erhöhen
(Feldmann-Barrett, 1997; Safer und Keuler, 2002), während ego strength und hoher
Selbstwert (Pietromonaco & Feldman Barrett, 1997; Rusting, 1998; Safer & Keuler, 2002),
die Neigung zur Selbsttäuschung (Cutler, Larsen & Bunce, 1996) und Selbsterhöhung
(Paulhus, 1991) als Variablen mit einem umgekehrten Verhältnis zur Überschätzung
identifiziert werden konnten. Die Überschätzung negativer emotionaler Episoden kann
darüber hinaus insgesamt als Erhalt eines konsistenten, wenn auch negativen Selbstbildes
funktional gedeutet werden (Swann, 1990). Genauso wie umgekehrt die Unterschätzung zur
Aufrechterhaltung einer positiven Selbstillusion beitragen könnte (Taylor & Brown, 1988).
Die Konstituierung von Persönlichkeit kann schließlich als Inferenz aus der summierenden
Betrachtung eigener Gedanken und Gefühle betrachtet werden. Genauso wie die
summierende Betrachtung eigener Gedanken und Gefühle von der bereits konstituierten
Persönlichkeit beeinflusst wird (Andersen, Lazowski & Donisi, 1986; Feldman-Barrett &
Pietromonaco, 1997; Kulik & Mahler, 1986). Studien zu einem Einfluss des Iteminhalts auf
eine Überschätzung sind uneinheitlich (vgl. Schwartz & Rapkin, 2004). Hill und Betz (2005)
konnten zeigen, dass eher Items mit Inhalten überschätzt wurden, die Zielbereiche eines
Trainings adressierten. Items, die Bereiche außerhalb der gezielten Intervention berührten,
zeigten bei Hill und Betz (2005) keine bedeutsamen Fehleinschätzungen. Die Autoren
erklären dieses Phänomen damit, dass von den Probanden hier vermutlich auch keine
Änderung erwartet wurde. Viele der angeführten Studien weisen allerdings methodische
Einschränkungen auf (im Überblick Hill & Betz, 2005; Safer et. al, 2002). So wird die
158
Überschätzung oft als Differenzwert Retro-Post operationalisiert und die Untersuchung von
Zusammenhängen mit den berichteten Variablen über einfache Korrelationen bestimmt. Die
Formen des Einflusses verschiedener Faktoren und ihrer Kombination auf die Retrospektion
sind aber vermutlich komplexer interdependenter Gestalt und lassen multivariate Verfahren
in Folgestudien wünschenswert erscheinen (vgl. hierzu Safer et al., 2002).
Eine weitere Herausforderung im Zusammenhang mit dem retrospektiven Vortest
betrifft ein anderes Problem, dass bis zu einem epistemologischen Grabenkampf überspitzt
werden kann (vgl. Norman, 2003). Die Problematik kann auf die Frage verdichtet werden,
wie die Abweichung von Retro- und Prä-Werten aufzufassen ist: Überschätzung oder valide
Korrektur (vgl. Kapitel 9)? Unabhängig von dieser Frage kann aber dennoch eine
vergleichende Untersuchung der Validität von quasi-indirekten und indirekten
Veränderungsmessungen insbesondere in Bezug auf unterschiedliche Evaluationsziele
gefordert werden (vgl. Hill & Betz, 2005).
8.2 Studie 2
Die faktorenanalytischen Studien von Michalak und Kollegen (2003) sowie Flückiger
und Kollegen (2007) implizieren mit der Benennung der Faktoren, dass die Zeitperspektive
(vgl. Baumann, 1982) ein entscheidendes Unterscheidungsmerkmal verschiedener
Erfolgswerte darstellt. Erfolgswerte lassen sich demnach danach unterscheiden, ob sie
retrospektiv erhoben worden sind oder Statusmessungen zu Differenzwerten verrechnen.
Studie 2 konnte zeigen, dass die Zeitperspektive nicht das entscheidende Kriterium zur
Unterscheidung verschiedener Erfolgswerte darstellt. Zudem stellen die Ergebnisse die
Annahme in Frage, dass bei den unter retrospektive Erfolgsbeurteilungen gefassten
Verfahren (direkte Veränderungsmessungen, Zufriedenheitsurteile und
159
Zielerreichungsskalierungen) eine retrospektive Rückschau von den Patienten betrieben
wird. Die Divergenz der verschiedenen Erfolgswerte wurde zuallererst über statistische
Besonderheiten von Differenzwerten erklärt. Ergänzend dazu wurden zwei unterschiedliche
Perspektiven auf den Therapieerfolg unterschieden. Die Perspektive der Veränderung folgt
einer statistischen Logik, die den intersubjektiven Vergleich ermöglichen soll. Die
mathematische Operation der Differenzwertbildung (Prä-Post) ist als kognitive Operation
allerdings aufwändig und wird subjektiv vermutlich systematisch umgangen (vgl. Lam &
Bengo, 2003). Zudem sind in einer subjektiven Perspektive Informationen über das Ausmaß
der initialen Symptomatik und deren Veränderung wenig bedeutsam (vgl. Howard, Lueger &
Kolden, 1997). Das Ziel von Patienten ist wohl weniger die Veränderung an sich, als
vielmehr die Wiederherstellung des eigenen Wohlbefindens (vgl. Howard et al., 1997).
Einschränkungen ergeben sich bei Studie 2 vor allem aus einer insgesamt geringen Zahl an
Patienten (N = 59) und den gewählten Ein- und Ausschlusskriterien. Dies hat zum einen
Folgen für die statistische power und damit die Güte der geschätzten Faktorenstruktur, aber
auch für die Generalisierbarkeit der Ergebnisse auf andere Populationen. Die Replikation der
Ergebnisse an größeren Stichproben wäre somit insgesamt wünschenswert.
In Bezug auf die Faktorenstruktur in Studie 2 können anhand der Ergebnisse der
Studie von Flückiger und Kollegen (2007) einige kritische Fragen gestellt werden. Die
Autoren leiten in Anbetracht ihrer Ergebnisse zunächst eine ungewöhnliche
Schlussfolgerung ab: „Therapeutic outcome seems to be unidmensional, and at the same
time three strongly overlapping method factors can be differentiated” (S. 362). Die
überlappenden Methodenfaktoren werden dabei als pre-post measures (PPM), retrospective
measures global (RMglobal) mit Ladungen von Zielerreichungsskalierungen und
Zufriedenheitsurteilen im Selbst- und Fremdurteil sowie retrospective measures scales
160
(RMscale) mit Ladungen direkter Veränderungsmessungen bezeichnet. Im Anschluss
werden mögliche Ursachen der Divergenzen und Konvergenzen der Erfolgsmaße angeführt:
High overlaps exist between both RMs and factors, which are constituted through
sacles. Somewhat lower ist he correlation between the direct global assessment and
the PPMs. RMs pose their questions directly related to therapeutic changes the PPMs
in contrast, do not directly ask about the therapy. In both factors, which are built by
scales, different content specific areas are summed up. With global RMs, certain
aspects are broadly generalized and subjectively evaluated.” (S. 362)
Weiterhin wird die niedrigere Ladung der Fremdeinschätzung der Zufriedenheit mit
dem Therapieergebnis auf den Faktor RMglobal von den Autoren mit den unterschiedlichen
Evaluationen von Selbst- und Fremdeinschätzung erklärt: „The lower factor loading . . .
makes clear the differences between the evaluations of the therapists and the patients“ (S.
362). Später wird eine Abhängigkeit der Dimensionalität vom Behandlungsrational und
damit der Breite des Erfolges postuliert: „One can expect that with a broadly conceptualized
rationale there will be changes in a number of different areas. From this perspective,
unidimensional therapy outcome is a charateristic of a broad treatment success” (S. 363).
Konvergenzen und Divergenzen der Erfolgswerte können somit auf die Kombination
verschiedener Ursachen zurückgeführt werden: die Beteiligung von Retrospektion am
Urteilsprozess, das Abstraktionsniveau der befragten Inhalte (Skala versus
Globaleinschätzung), die direkte Adressierung des Therapieerfolgs, Unterschiede in den
Iteminhalten, verschiedene befragte Quellen sowie die Konzeption des Therapierationals
bzw. die Breite des Therapieerfolgs in der Stichprobe. In Bezug auf die Vermutung, dass die
Beteiligung retrospektiver Urteilsprozesse Divergenzen der Erfolgswerte provoziert, bietet
Studie 2 aufgrund des Einbezugs des retrospektiven Vortestes und der quasi-indirekten
161
Veränderungsmessungen eine zwingendere Argumentationsbasis als die Studie von
Flückiger und Kollegen (2007). Die Zeitperspektive scheint in Studie 2 eher
vernachlässigbar für die Divergenz der Erfolgswerte. Die Hypothese dass Konvergenzen und
Divergenzen vom Abstraktionsgrad der befragten Inhalte abhängen, lässt sich in Studie 2
nicht zeigen. Hier laden Maße der Zielerreichung (RMs) auf einen Faktor unabhängig vom
Abstraktionsgrad (global, scales) der in den Items befragten Inhalte. Dennoch kann vermutet
werden, dass anspruchsvolle kognitive Operationen dazu verleiten, sie mit holistischen
Globalurteilen zu umgehen. Lam und Bengo (2003) vermuten dies z.B. für den aufwändigen
Urteilsprozess, den die direkte Veränderungsmessung fordert. Allerdings sollte eine
holistische Verarbeitung eher zur Konvergenz von RMglobal und RMscales beitragen.
Betrachtet man die Faktorenstruktur von Studie 2 könnte auch geschlussfolgert werden, dass
der Faktor Zielerreichung insgesamt Erfolgswerte umfasst, die direkt für den Patienten
ersichtlich den Therapieerfolg abbilden, während der Faktor Veränderung dies nicht tut.
Warum also nicht eine Unterscheidung der Faktoren in direkte und indirekte
Erfolgsmessung? Zum einen wäre diese Bezeichnung konkurrent mit der etablierten
Bezeichnung direkte und indirekte Veränderungsmessung (Bereiter, 1963) und könnte zu
Verwechslungen führen. Schwerwiegender erscheint allerdings, dass diese Bezeichnung
nichts Konkretes über die zugrundeliegenden Mechanismen aussagt. Warum divergiert die
direkte Einschätzung des Therapieerfolgs von der indirekten Erhebung? Hat dies rein
statistische Ursachen, sind soziale Erwünschtheit oder vielleicht Rechtfertigungseffekte
beteiligt? Die Benennung der Faktoren als Veränderung und Zielerreichung führt die
Divergenz der Erfolgswerte auf die unterschiedliche mathematische oder subjektive
Referenz zurück, die zu den Post-Werten herangezogen wird und beinhaltet somit eine
mögliche Erklärung.
162
Flückiger und Kollegen (2007) nennen darüber hinaus noch inhaltliche Unterschiede
als mögliche Ursache für Konvergenzen und Divergenzen der Erfolgswerte. In der
überwiegenden Zahl der Studien lassen sich allerdings Methodenfaktoren zeigen, so dass
inhaltliche Unterschiede vernachlässigbar erscheinen (im Überblick Hill & Lambert, 2004).
Allerdings halten Schmidt und Kollegen (2003) in ihrer Studie inhaltliche Aspekte von
direkter, quasi-indirekter und indirekter Veränderungsmessung konstant, indem sie die
gleichen Iteminhalte in diesen drei Formen der Veränderungsmessung erheben und zeigen
dabei tatsächlich eine eindimensionale Struktur des Therapieerfolgs. Einschränkend ist
allerdings einzuwenden, dass keine Verfahren der Zielerreichung in der Faktorenanalyse
herangezogen wurden. Das Ergebnis von Schmidt und Kollegen (2003) erscheint somit auch
in Anbetracht der Ergebnisse der Studie 2 erwartbar, da quasi-indirekte und indirekte
Veränderungsmessungen Hauptladungen auf den Faktor Veränderung zeigen und die direkte
Veränderungsmessung ebenfalls substantielle Ladungen auf diesen Faktor aufweist.
Dennoch erscheint der Ansatz, die Konvergenz der Messansätze unter Konstanthaltung der
Inhalte zu untersuchen vielversprechend und sollte unbedingt weiter verfolgt werden. Die
Vermutung, dass verschiedene Quellen (Patient, Therapeut, Angehöriger usw.)
Methodenfaktoren provozieren, wurde bereits in der Einleitung als ein häufig replizierter
Befund dargestellt. Die Faktorenstruktur in Studie 2 bildet dies zwar so nicht ab, was aber
letztlich darauf zurückzuführen sein kann, dass lediglich eine Fremdbeurteilung in Studie 2
Verwendung fand. Wie Flückiger und Kollegen (2007) vermuten, könnte eine
unterschiedliche Gewichtung der Anzahl an Selbst- und Fremdurteilen die Faktorenstruktur
deutlich verändern. Es erscheint aber darüber hinaus interessant, die Unterschiede in der
Perspektive der Beteiligten zu ergründen, die zu der Divergenz führen könnten.
Seidenstücker und Baumann (1987) gehen davon aus, dass Fremdurteile eher die
wahrgenommene Differenz zwischen gegenwärtigem und vergangenem beobachtbaren
163
Verhalten als Bezugspunkt fokussieren, während für Patienten die zentrale Perspektive der
Unterschied von gegenwärtigem und vergangenem Erleben zu sein scheint. Die
Ausführungen in Bezug auf die basalen Perspektiven Veränderung und Zielerreichung lassen
beides allerdings eher unwahrscheinlich erscheinen. Die Veränderungsperspektive ist
vermutlich für alle Subjekte kognitiv zu aufwändig und wird systematisch umgangen (vgl.
Lam & Bengo, 2003). Denkbar ist viel eher, dass verschiedene Urteiler im Rahmen einer
dominanten Perspektive der Zielerreichung unterschiedliche Ideale bzw. Normvorstellungen
als Maßstab heranziehen, um sie mit dem gegebenen Zustand zu vergleichen. Diese Frage
lässt sich aber letztlich nur über die direkte Untersuchung der jeweiligen subjektiven
Urteilsprozesse untersuchen (vgl. Kapitel 9). Flückiger und Kollegen (2007) führen in Bezug
auf die Breite des Therapieerfolgs aus, dass bei einem breit konstruierten Therapierational
auch Veränderungen auf verschiedenen Ebenen wie individuelle Zielerreichung,
Wohlbefinden und Symptomreduktion zu erwarten wären. Sie lassen jedoch offen, wie dies
genau geschehen soll. Die Autoren führen an, dass in einer Studie von Grawe, Caspar und
Ambühl (1990) die interaktionelle Verhaltenstherapie als integratives Verfahren eine höhere
Konvergenz der Erfolgswerte aufwies als bei einer klassischen kognitiv-
verhaltenstherapeutischen oder klientenzentrierten Therapie. Es lässt sich nur mutmaßen,
dass Flückiger und Kollegen (2007) meinen, dass eine breitere Konzeption der
Therapieinhalte auch Veränderungen auf Instrumenten verschiedener Inhalte abbildet. Die
häufige Replikation von Methodenfaktoren widerspricht allerdings einer derartigen
inhaltlichen Interpretation. Die beiden basalen Perspektiven Veränderung versus
Zielerreichung zeigen ebenfalls methodische Unterschiede der Verfahren auf, die
Konvergenz der beiden Ansätze kann dabei vermutlich nur bedingt durch inhaltliche
Konzeptionen des Therapierationals beeinflusst werden. Dennoch lässt sich konstruieren,
wie das Ausmaß des Therapieerfolgs auf die Faktorenstruktur Einfluss nehmen könnte.
164
Subjektive Ziele (Wohlbefinden) können erreicht werden, ohne dass große Veränderungen
stattfanden und umgekehrt. Eine Konstellation in der die beiden Perspektiven in
Abhängigkeit vom Therapieerfolg konvergieren würden, wäre vermutlich nur über gezielte
Stichprobenselektion zu erreichen. Alle Patienten die sich nur wenig verändert haben, aber
entlang ihrer subjektiven Standards dennoch damit zufrieden wären, sowie alle Patienten die
sich stark veränderten, aber aufgrund ihrer subjektiven Standards damit unzufrieden sein
könnten, müssten systematisch aus der Stichprobe entfernt werden. Theoretisch wäre dies
am ehesten im Konzept der klinisch bedeutsamen Änderung gegeben (Jacobson et al., 1984;
Jacobson & Truax, 1991). Die Personen sollten wie dort gefordert eine statistisch
bedeutsame Veränderung erfahren und während der Therapie einen Populationswechsel von
der gestörten zur ungestörten Population durchlaufen. Dies würde zugleich hohe
Veränderungswerte und aufgrund der geringen Restsymptomatik auch eine gewisse
Wahrscheinlichkeit dafür beinhalten, dass die Patienten trotz divergierender subjektiver
Ideale dennoch relativ einhellig zufrieden sein sollten.
Insgesamt scheint die Unterscheidung der beiden Perspektiven Veränderung und
Zielerreichung kohärenter und ökonomischer als alternative Erklärungen. Zudem verweisen
die Ergebnisse aus Studie drei abermals auf diese beiden basalen Perspektiven auf den
Therapieerfolg (vgl. ähnlich Michalak et al., 2003).
8.3 Studie 3
Studie 3 stellte den Bochumer Veränderungsbogen-2000 (BVB-2000) als Instrument
zur direkten Veränderungsmessung vor. Der BVB-2000 wurde hinsichtlich seiner
inhaltlichen Struktur und Gütekriterien re-analysiert. Fokussiert wurde dabei auf Fragen der
konvergenten Validität. Auf Basis einer Wartekontrollgruppe wurde ein kritischer
165
Veränderungswert (vgl. Zielke & Kopf-Mehnert, 1978) für den BVB-2000 berechnet, der
den Therapieerfolg auch im Einzelfall bestimmbar machen sollte und den BVB-2000 für die
Verwendung in der Routineversorgung attraktiv zu machen. Adressiert wurden zudem
Fragen eines möglichen Bezugssystemfehlers sowie einer möglichen Überschätzung des
Therapieerfolgs durch die direkte Veränderungsmessung. Die Ergebnisse in punkto
Reliabilität und konvergenter Validität weisen den BVB-2000 dabei als reliables und valides
Instrument der direkten Veränderungsmessung aus. Die interne Konsistenz (Cronbachs
alpha) des BVB-2000 ist mit α > .95 (26 Items) in beiden Stichproben sehr hoch. Zufällige
Schwankungen im Erleben und Verhalten lassen sich zuverlässig von Veränderungen im
Rahmen einer Psychotherapie differenzieren. Es lassen sich statistisch bedeutsame
Zusammenhänge des BVB-2000 mit allen herangezogenen Therapieerfolgsmaßen bei
geteilten Varianzen von 14% bis 53% zeigen. Der BVB-2000 lässt sich in der EFA
(Hauptkomponentenanalyse) verschiedener Erfolgswerte eher den Maßen der Zielerreichung
zuordnen. Insgesamt bildet die Faktorenstruktur die bereits in Studie 2 gezeigte
zweifaktorielle Struktur mit den beiden basalen Perspektiven Veränderung und
Zielerreichung ab. Die ermittelten kritischen Veränderungswerte ermöglichen eine valide
Unterscheidung erfolgreicher und weniger erfolgreicher Therapien.
Einschränkungen der externen Validität der Studienergebnisse ergeben sich vor allem
aus der Stichprobenzusammensetzung. Kritisch können dabei vor allem die Ein- und
Ausschlusskriterien hinterfragt werden. In Studie 3 wurde die Empfehlung von Hiller,
Bleichhardt und Schindler (2009) aufgegriffen, die vorschlagen, in der Evaluation von
Psychotherapien unter Routinebedingungen Patienten mit einem T < 63 im Global Severity
Index (GSI) des BSI auszuschließen: „In diesen Fällen kann und sollte der GSI auch nicht
als Outcomemaß verwendet werden, da keine dazugehörige Behandlungshypothese zu
begründen ist (im Kontext von Krankenbehandlungen ist es kein Ziel, einen nicht-
166
pathologischen Merkmalsbereich zu verbessern)“ (S. 14). Ein niedriger Wert des GSI
bedeutet aber nicht zwangsläufig, dass keine Behandlungsbedürftigkeit besteht. Hiller und
Kollegen (2009) zeigen, dass vor allem bei umschriebenen Phobien oder Essstörungen ohne
weitere Komorbidität das Ausschlusskriterium (T-Wert des GSI < 63) fälschlicherweise
greife. Als Einschränkung der internen Validität muss vor allem das quasi-experimentellen
Design von Studie 3 angesehen werden. Insgesamt wäre ein experimentelles Design
wünschenswert gewesen wie es zum Beispiel Krampen (2010) realisierte. Sollen allerdings,
wie im vorliegenden Fall repräsentative Daten für die Routineversorgung generiert werden,
die einen vollen Therapiedurchlauf umfassen und soll gleichzeitig mit einer Kontrollgruppe
gearbeitet werden, erscheint das quasi-experimentelle Wartekontrollgruppendesign in Studie
3 als angemessene Kompromisslösung. Der Rückblickszeitraum der WKG von drei Monaten
entspricht dabei ungefähr den Wartezeiten die Hiller und Kollegen (2009) für eine
vergleichbare Institution berichten. Insgesamt fehlen in Studie 3 aber Hinweise auf die
diskriminante Validität des BVB-2000 vor allem in Bezug auf mögliche Antworttendenzen
(vgl. hierzu Krampen, 2010). Studien, die dezidiert subjektive Urteilsprozesse bei der
direkten Veränderungsmessung erheben, sind daher unbedingt zu fordern (vgl. Kapitel 9).
Bei der direkten Veränderungsmessung hält sich beständig die Vermutung, dass die
Beteiligung möglicherweise verzerrender subjektiver Beurteilungsprozesse ihre Validität
einschränkt. In Frage gestellt wird, ob Patienten bei der direkten Veränderungsmessung
überhaupt einen Rückblick auf den Ausgangszustand vornehmen, um eine Veränderung
(Prä-Post) abzuschätzen (vgl. Kastner & Basler, 1997). Oder aber falls sie dies tun, ob sie
sich zuverlässig an das Symptomausmaß zu Therapiebeginn erinnern können (vgl. Baumann,
et al., 1980). Zudem wird eine Überschätzung des Therapieerfolgs vermutet (vgl. Fydrich,
2006; Lam & Bengo, 2003; Reinecker-Hecht & Baumann, 2005). Die Ergebnisse von Studie
1 stellen den Verdacht einer geringen Erinnerungsfähigkeit in Frage. Die Ergebnisse von
167
Studie 3 stellen sowohl den Verdacht eines möglichen Bezugssystemfehlers (vgl. Kastner &
Basler, 1997) als auch der Überschätzung des Therapieerfolgs bei der direkten
Veränderungsmessung kritisch in Frage.
Kastner und Basler (1997) hinterfragen in Anbetracht ihrer Ergebnisse zum
„Fragebogen zur subjektiven Erfolgsbeurteilung der Therapie“ (FSET) kritisch, ob
Veränderungsfragebögen tatsächlich Veränderung messen. Die Autoren stützen diese
Schlussfolgerung auf drei Ergebnisse (a) wenige statistisch abgesicherte Übereinstimmungen
des FSET mit indirekten Veränderungsmaßen (b) wenige statistisch bedeutsame
Zusammenhänge mit den Ausgangswerten (Prä) der Symptomatik (c) nahezu durchgängig
bedeutsame Bezüge zur Restsymptomatik (Post). Studie 3 zeigt demgegenüber durchgängig
statistisch bedeutsame Bezüge des BVB-2000 zu allen herangezogenen Erfolgswerten auch
der indirekten Veränderungsmaße (ebenso Flückiger et al., 2007; Michalak et al., 2003).
Weiterhin ist diskussionswürdig, ob über die Zusammenhänge mit der Restsymptomatik auf
die kognitive Operation der Patienten rückgeschlossen werden kann. In Studie 3 zeigen
sämtliche herangezogenen Erfolgswerte (auch die indirekten Veränderungsmaße) statistisch
bedeutsame negative Bezüge zu den Postwerten. Flückiger und Kollegen (2007) betrachten
dies als Contra-Argument gegen die Argumentation von Kastner und Basler (1997). Der
Zusammenhang von Erfolgswerten mit der Restsymptomatik (Post) zeige lediglich, dass die
Therapien insgesamt erfolgreich waren. Andererseits zeigt der BVB-2000 aber auch in
anderen Studien trotz bedeutsamer Zusammenhänge mit indirekten Veränderungsmaßen
dennoch stets deutlichere Nähe zu Maßen der Zielerreichung (Flückiger et al., 2007;
Michalak et al., 2003). Zielerreichungsmaße implizieren allerdings den kognitiven Abgleich
eines Idealzustandes mit dem aktuellen Befinden (Post) anstelle eines Abgleichs von initialer
Symptomatik (Prä) und Restsymptomatik (Post). Es kann durchaus gemutmaßt werden, dass
die Nähe des BVB-2000 zu diesen Erfolgswerten auf der Ähnlichkeit der vollzogenen
168
kognitiven Operationen beruht (vgl. Studie 2), statt der rein statistischen Erklärung von
Flückiger und Kollegen (2007) zu folgen. Ob bei der direkten Veränderungsmessung aber
tatsächlich ein Bewertungsprozess von den Patienten vollzogen wird, der nicht dem
intendierten Bewertungsprozess entspricht, kann letztlich nur über eine direkte Untersuchung
des Urteilsprozesses adressiert werden. So könnte in zukünftigen Studien mittels Cognitive
Interviewing (Collins, 2003) geprüft werden, ob der intendierte Algorithmus - also die
Bildung eines subjektiven Differenzwertes Prä-Post - und der tatsächlich von den Patienten
vollzogene kognitive Algorithmus übereinstimmen (vgl. unten Kapitel 9).
Die Ergebnisse zum kritsichen Veränderungswert des BVB-2000 weisen auf dessen
Potenz hin erfolgreiche von weniger erfolgreichen zu unterscheiden. Zudem können sie den
Verdacht einer Überschätzung des Therapieerfolgs durch den BVB-2000 relativieren. Als
gebessert klassifizierte Patienten weisen in der einfaktoriellen Varianzanalyse auf allen
Therapieerfolgsmaßen statistisch bedeutsam höhere Werte als unverändert klassifizierte
Patienten auf. Hierbei kann allerdings die Verwendung der kritischen Profildifferenzen
(Lienert, 1961; Lienert & Raatz, 1998) hinterfragt werden. Nachtigall und Suhl (2005)
konnten aber auch noch kürzlich die Vorteile kritischer Profildifferenzen bzw. deren
Umformulierung als Reliable Change Index (RCI; Jacobson & Truax, 1991) gegenüber
verschiedenen Alternativvorschlägen (u.a. Steyer, Hannöver, Telser & Kriebel, 1997)
zeigen. Zu betonen ist allerdings, dass kritische Profildifferenzen (wie auch der RCI)
lediglich eine statistisch bedeutsame Veränderung auf Basis des Standardmessfehlers
definieren. Damit ist weder etwas über das absolute Ausmaß der Veränderung noch ihre
klinische Bedeutsamkeit (vgl. Jacobson & Truax, 1991) ausgesagt. Schmidt und Kollegen
(2003) schlagen daher vor, für die direkte Veränderungsmessung analog zu Prä-Post
Effektstärken (Grawe et al., 1994) ebenfalls Effektstärken anzugeben und definieren diese
als standardisierte Abweichung vom theoretischen Erwartungswert der Nicht-Veränderung:
169
!"$$% = %%+%&'(/0&')
(2)
Auf diese Weise können die Werte der direkten Veränderungsmessung (dVM) mit
den Maßen der indirekten und quasi-indirekten Veränderungsmessungen anschaulich
verglichen werden. Die Vergleichbarkeit der Werte kann aber natürlich dennoch kritisch
hinterfragt werden.
Kastner und Basler (1997) resümieren trotz der von ihnen kritisch bewerteten
Ergebnisse zur Konstruktvalidität des FSET, dass „die teststatistischen Befunde für dessen
weiteren Einsatz in der klinischen Praxis“ (S. 261) sprechen. Diese auf den ersten Blick
paradoxe Schlussfolgerung wird mit der Betonung des subjektiven Blicks auf den
Therapieerfolg und der Ökonomie der direkten Veränderungsmessung begründet, da sie „in
ökonomischer Weise, die subjektive Einschätzung des Therapieerfolgs von Patienten zu
erfassen“ (S.261) erlaubt. Studie 2 identifiziert die Perspektive der Zielerreichung und der
Veränderung als zwei basale Dimensionen des Therapieerfolgs. Patienten möchten sich
vermutlich nicht einfach nur verändern. Sie wünschen, dass es ihnen wieder gut geht. Eine
subjektiv bedeutsame Veränderung wäre demnach eine, die das Ziel Wohlbefinden erreicht.
Das Ziel subjektiven Wohlergehens kann aber mehr oder weniger unabhängig vom
gruppenstatistisch bedeutsamen Ausmaß der Veränderung sein. Direkte und indirekte
Veränderungsmessung ergänzen sich so in ihren Perspektiven auf den Therapieerfolg. Der
BVB-2000 zeigt in der vorliegenden Studie eine heterogene Ladung mit einer Hauptladung
170
auf den Faktor Zielerreichung und einer ebenfalls substantiellen (< .3) aber deutlich
geringeren Ladung auf den Faktor Veränderung. Der BVB-2000 teilt somit Varianz mit
beiden Perspektiven auf den Therapieerfolg (ebenso in Studie 2). Die könnte im Falle des
Einsatz des BVB-2000 als stand alone Lösung (z.B. bei knappen Ressourcen oder fehlenden
Prä Werten) als Vorteil verstanden werden. Andererseits kann dies auch als Verweis auf
einen möglicherweise wenig kohärenten Urteilsprozess der Patienten verstanden werden
(vgl. Kapitel 9).
9. Ausblick
Das übergreifende Anliegen der vorliegenden Arbeit war es, einen Beitrag zur
Aufklärung der Bedingungen zu leisten, die zu Unterschieden in der Darstellung des
Therapieerfolgs in Abhängigkeit von der Operationalisierung führen: „Further research
needs to clarify the various factors that inflate and deflate estimates of change” (Hill &
Lambert, 2004, S. 117). Die Ergebnisse der vorliegenden Studien lassen auf eine einfache
Heuristik schließen Konvergenzen und Divergenzen von verschiedenen Erfolgswerten zu
erklären. Zwei Perspektiven auf den Therapieerfolg - Veränderung und Zielerreichung -
können unterschieden werden, die nur schwer ineinander überführt werden können. Wenn
auch beide Perspektiven sowohl als subjektives Urteil als auch als mathematische Operation
abgebildet werden können, kann vermutet werden, dass die Perspektive der Veränderung
subjektiv eher ungewöhnlich ist. Patienten blicken auf Fragen die den Therapieerfolg direkt
adressieren, vermutlich durch eine Brille, die den Abgleich von gegenwärtigen Empfinden
mit einem Ideal ihres Gesundheitszustandes vergleicht. Verallgemeinert kann die Divergenz
von Urteilsprozessen (intersubjektiv oder intrasubjektiv in der Zeit) die Divergenzen von
bestimmtem Messwerten erklären. Ein vielversprechender messtheoretischer Ansatz aus dem
171
Bereich der Lebensqualitätsforschung integriert subjektive Urteilsprozesse explizit in seine
Überlegungen und kann so auch die Ergebnisse der vorliegenden drei Studien schlüssig
integrieren. Die Richtung zukünftiger Forschung in Bezug auf die Divergenz und
Konvergenz verschiedener Erfolgswerte erhält dadurch einen weiteren Fokus, der die
explizite Untersuchung subjektiver Urteilsprozesse zentriert.
9.1 Subjektive Urteilsprozesse
Menschliche Urteilsprozesse können stets relational zu einem gegebenen
Bezugssystem (Sarris, 1971) gesehen werden. Die Beurteilung eines Reizes ist immer auch
abhängig von gleichzeitig gegebenen Kontextreizen (Canestrari & Trombini, 1975). Norman
(2003) illustriert die Bezugssystemproblematik anhand des Dilemmas, das sich der einfachen
Frage „Wie geht es Ihnen?“ anschließt. Denn, um mit der Antwort „Gut!“ wirklich etwas
anfangen zu können, müsste man unmittelbar nachfragen: „Gut? Im Vergleich zu was?“. So
kann weiter gefragt werden, ob sich die Person bei ihrer Antwort mit einem früheren
Zustand, einem idealen Zustand oder vielleicht dem Zustand eines nahen Bekannten
vergleicht. Fraglich ist somit stets das Bezugssystem, das die Person bei derartigen
relationalen Antworten hinzuzieht, um eine Einschätzung abzugeben. Aber selbst wenn diese
Person zu verschiedenen Zeitpunkten stets dasselbe Bezugssystem - wie zum Beispiel ihre
Idealvorstellung des Gesundheitszustands heranzieht - ist das Dilemma noch nicht gelöst.
Denn Bezugssysteme können im Laufe der Zeit Neukonzeptionen unterliegen. Neben einer
uneinheitlichen Verwendung verschiedener Bezugssysteme zu verschiedenen Zeitpunkten
(idealer Gesundheitszustand, sozialer Vergleich, früherer Gesundheitszustand usw.) können
Neukonzeptionen desselben Bezugssystems im Laufe der Zeit die Vergleichbarkeit von
Aussagen einer Person zu verschiedenen Zeitpunkten oder zwischen verschiedenen Personen
172
erschweren. So kann zum Beispiel die Vorstellung eines idealen Gesundheitszustandes zu
verschiedenen Zeitpunkten unterschiedlich durch den einzelnen Patienten definiert sein. Im
englischsprachigen Raum hat sich für dieses Phänomen der Begriff response shift etabliert:
Response Shift ist das Resultat einer Veränderung des Bedeutungsgehaltes eines
zentralen internen Konzepts . . . aufgrund einer Änderung interner Standards
bezüglich des zu messenden Konzeptes (Skalen-Rekalibrierung) oder des
zugehörigen Wertesystems (etwa die Wichtigkeit einzelner Komponenten) sowie als
Ergebnis einer Neudefinition des Konzeptes des eigenen Gesundheitszustandes zu
Stande kommen kann.“ (Güthlin, 2004, S. 166)
Abbildung 3 zeigt, das Zusammenspiel verschiedener Vorbedingungen,
Katalysatoren und Mechanismen beim Zustandekommen eines response shifts (übernommen
aus Güthlin, 2004; vgl. Sprangers & Schwartz, 1999; Schwartz & Sprangers, 1999).
Abbildung 3
Einordnung von Response Shift in ein Prozessmodell der wahrgenommenen
Lebensqualität (übernommen aus Güthlin, 2004)
173
Im Rahmen der Lebenszufriedenheitsforschung (Quality of Life; QOL) werden die
Konsequenzen variabler Bewertungsmaßstäbe besonders intensiv untersucht und dabei zur
Erklärung einer ganzen Reihe von Phänomenen herangezogen (im Überblick Güthlin, 2004;
Rapkin & Schwartz, 2004; Schwartz & Rapkin, 2004):
• Patienten geben ihre Lebensqualität ähnlich hoch an wie Gesunde (Albrecht
& Devlieger, 1999; Andrykowski et al., 1993; Bach & Tilton, 1994; Breetvelt
& van Dam, 1991; Cassileth, Lusk & Tenaglia, 1982; Groenvold, Fayers,
Sprangers, Bjorner, Klee, Aaronson, Bech & Mouridsen, 1999; Stensman,
1985),
• sie schätzen ihre Lebensqualität häufig höher ein als ihre Angehörigen oder
Behandler (Kagawa-Singer, 1993; Padilla, Mishel & Grant, 1995; Wilson &
Cleary, 1995),
• es zeigen sich häufig Diskrepanzen zwischen objektiven Kriterien von
Gesundheit und subjektiv empfundener Gesundheit (Friedland, Renwick &
McColl, 1996; Slevin, Stubbs, Plant, Wilson, Gregory, Armes & Downer,
1990; Sneeuw, Aaronson, Sprangers, Detmar, Wever & Schornagel, 1997;
Sprangers & Aronson, 1992),
• Patienten halten trotz sich stetig verschlechternder (objektiver) Gesundheit
langfristig ein äquivalentes Niveau von Lebenszufriedenheit aufrecht
(Schwartz, Sprangers, Carey & Reed, 2004).
Unter der Annahme, dass sich response shifts ereignen ist allerdings der Ansatz der
Klassischen Testtheorie in der Veränderungsmessung kritisch zu hinterfragen. Schwartz und
174
Rapkin (2004) stellen dabei die Hypothese auf, dass die Anwendbarkeit der KTT zur
Beurteilung von Messwerten abhängig vom Zielkonstrukt ist. Von einem error of
measurement - also einem Messfehler im Sinne der KTT - kann sinnvoll nur gesprochen
werden, wenn das Zielkonstrukt performance based operationalisiert ist (measures
reflecting the quantity and quality of effort). Die Zeit zu messen wie lange ein Patient
braucht, um eine Treppe hochzugehen, stellt eine derartige Messung auf einer relativ stabilen
Dimensionen dar, die unter Rückgriff auf ein Messkontinuum stabiler Intervalle
vorgenommen wird. Den Patienten zu Fragen, wie oft er Treppen hinaufgeht, kann als eine
perception based measure aufgefasst werden (judgement concerning the occurrence of an
observable phenomenon). Urteile dieser Art können von subjektiven Urteilsprozessen wie
Aufmerksamkeit oder sozialer Erwünschtheit beeinflusst sein, obgleich die Subjektivität des
Urteils dem Zielkonstrukt nicht zwingend inhärent ist. Mit anderen Worten, es existiert eine
richtige Antwort anhand derer das Urteil kriterial geprüft werden könnte. Verschiedene
Beurteiler stimmen bei derartigen perception based Messungen vermutlich noch relativ hoch
überein. Divergenzen verschiedener Urteile (intraindividuell in der Zeit oder
interindividuell) können dann als Folge von response biases (Aufmerksamkeitsprozessen,
sozialer Erwünschtheit usw.) verstanden werden. Fragt man aber schließlich nach der
Schwierigkeit des Treppensteigens, ist die subjektive Perspektive inhärent und die
Richtigkeit des Urteils ist nicht mehr kriterial bestimmbar. Schwartz und Rapkin (2004)
bezeichnen derartige Messungen als evaluation based (measures rating experience as
positive or negative compared with an internal standard). Stets kann unmittelbar gefragt
werden im Vergleich zu was die Person dieses Urteil fällt (vgl. Norman, 2003). Es werden
dabei hoch subjektive Standards zur Urteilsbildung herangezogen. Die klassische Testtheorie
ist laut Autoren somit in erster Linie gültig für performance based measurements, wo die
fundamentale Beziehung von Item und Konstrukt als statisch und unverändert gedacht
175
werden kann und Abweichungen als Fehler aufgefasst werden können. In Bezug auf
evaluation based measurements gerät diese Argumentation allerdings in Schwierigkeiten.
Abbildung 4
Unterscheidung von performance-, perception- and evaluation-based measures
(übernommen aus Schwartz und Rapkin, 2004)
Im Falle von evaluation based measures - wie zum Beispiel der Frage nach der
Lebensqualität - schlagen Schwartz und Rapkin (2004) vor statt von einem invarianten
wahren Wert bei der Messung eines Konstrukts auszugehen, einen contingent true score
anzunehmen. Messungen sollten in diesem Fall stets relativ zum Bewertungsprozess
betrachtet werden, den die Person (Patient, Experte, Angehöriger usw.) zu einem gegebenen
176
Zeitpunkt im Rahmen des hoch subjektiven und komplexen kognitiven Prozesses der
Itembeantwortung vollzieht. Itemantworten werden von den Autoren dabei als kontingent
gegenüber vier Parametern gedacht (vgl. auch Jobe, 2003):
1. individual's frame of reference: {FRt}
2. their strategies for recalling and sampling specific experiences related to these
concerns: Skt
3. their reference groups and standards of comparison used to evaluate these
experiences: Rt
4. and the salience weights they associate with different experiences when arriving at an
overall rating: [Wt]
Jeder der vier Parameter unterliegt dabei Veränderungen in der Zeit t.
Veränderungen betreffen dabei nicht nur den beobachteten Wert Qt sondern den „wahren“
Wert qt selbst. Aber auch wenn alle Bewertungsparameter konstant gehalten werden
könnten, können darüber hinaus immer noch reguläre Quellen von Fehlern e angenommen
werden.
Qt = qt | {FRt},Skt ,Rt , [Wt] + e (3)
Je eher das Zielkonstrukt in den Bereich von evaluation based measurements fällt,
desto schwieriger fällt es divergente Bewertungsmaßstäbe (zwischen Personen oder in der
177
Zeit) als (Mess-)Fehler zu betrachten. Innerhalb dieses Messmodells können so auch
Gütekriterien neu formuliert werden: “In the contingent true score model, psychometric
equivalence does not mean that groups have similar distributions of QOL scores or factor
structures; rather, equivalent measures must elicit similar processes of appraisal from group
to group or time to time” (S. 5). Die Autoren unterscheiden so in Bezug auf die
Konstruktvalidität zwischen zwischen internal und external construct validity. Internal
construct validity bestimmt wie gut es gelingt den intendierten Bewertungsprozess eines
Instruments auch bei den Patienten zu induzieren. Die Bestimmung der internal construct
validity umfasst dabei die explizite Erhebung der von den Patienten herangezogenen
Urteilsprozesse und den anschließenden Vergleich mit den von der Konstruktion her
intendierten Urteilsprozessen. External construct validity bezeichnet die Konvergenz des
Zielkonstrukts mit objektiven Kriterien oder anderen Instrumenten derselben
Konstruktfamilie unter besonderer Beachtung der Konvergenz der Bewertungsprozessse. Bei
Personen, die den intendierten Urteilsprozessen folgen kann die Konvergenz mit Kriterien
oder anderen Konstrukten erwartet werden, die diesen subjektiven Urteilsprozessen
entsprechen. Folgen Personen anderen als den intendierten Urteilsprozessen kann die
Messung andererseits nur valide in Bezug auf Kriterien oder andere Konstrukte gedacht
werden, die diesen - wohlgemerkt von der Konstruktionsintention abweichenden -
Urteilsprozessen inhaltlich entsprechen. Während also bei der Untersuchung der internal
construct validity die Urteilsprozesse als abhängige Variable gedacht werden, können sie bei
der Untersuchung der external construct validity als Moderator des Zusammenhangs von
Messung und Kriterium gedacht werden. Die internal construct validity eines Instruments
kann gering sein, obgleich die external construct validity unter Berücksichtigung des
abweichenden Urteilsprozesses in Bezug auf eine urteilskongruentes Kriterium gegeben sein
kann: „Although existing QOL measures may have been written with little attention to the
178
specific appraisal processes they elicit, these measures may still demonstrate high external
construct validity once appraisal parameters are specified“ (S. 7). Die Betrachtung der
Reliabilität kann unter der expliziten Berücksichtigung subjektiver Urteilsprozesse ebenfalls
neu gefasst werden. Geringe Interrater- oder Retest-Reliabilität können in Bezug auf
evaluation based measures nur schwer als Messfehler aufgefasst werden sondern müssen
vielmehr auf die inter- bzw. intrasubjektive Divergenz der Urteilsprozesse zurückgeführt
werden. Der bedeutsame Unterschied zu anderen Messmodellen ist im Modell kontingenter
wahrer Werte somit in der Forderung zu sehen subjektive Bewertungsprozese zur
Einschätzung der Gütekriterien von evaluation based measures explizit zu berücksichtigen:
„We must establish psychometric properties that incorporate direct measures of appraisal“
(Schwartz & Rapkin, 2004, S. 5).
In Bezug auf die Veränderungsmessung der Lebensqualität haben diese
Ausführungen eine weitere Konsequenz. Eine numerische Veränderung der Lebensqualität
sagt nichts über ihr Zustandekommen aus: „Adequate QOL assessment must distinguish
patients who are feeling better from those who have changed their mind about what it means
to feel terrible” (Schwartz & Rapkin, 2004, S. 2). Im Rahmen psychischer Erkrankungen
kann die Symptomatik und das subjektive Leiden unter ihr unterschieden werden. Die
Veränderung des subjektiven Leidens unter einer gegebenen Symptomatik kann dabei eine
von der Symptomveränderung (teil-)autonome Dimension der Veränderung darstellen. Eine
Reduktion von Symptomstress - also eine kognitive Neubewertung - zieht eine Reduktion
von Leiden nach sich. Personen die zwar relativ wenig Symptomreduktion erfuhren, dafür
aber eine deutliche Reduktion in Leiden, bringen ihre Leidensverbesserung dann vermutlich
auch in Einschätzungen des Therapieerfolgs (z.B. der Zufriedenheitsurteilen) unter. Das
(implizite) Ziel Wohlbefinden wäre damit unabhängig von einer Symptomreduktion bereits
179
(teil-) realisiert. Die Erhebung von Störungsfolgen (Schulte, 1993) und ihrer Veränderung
über eine Erfassung von Symptomen hinaus erscheint somit notwendig.
Schwartz und Rapkin (2004) betonen, dass die Aufgabe der Forschung zu diesem
Zeitpunkt darin bestehe: „Empirical data must be collected to show how these processes
matter in measurable and important ways for clinical outcome research” (S. 10). Dabei sehen
die Autoren drei mögliche Ansätze für die Problematik der Beteiligung von
Urteilsprozessen:
1. design QOL measures with known appraisal parameters,
2. use appraisal measures as stratification or screening variables for certain studies or
certain analyses,
3. and include explicit assessment of appraisal constructs in studies to function as
mediators or moderators of effects of interest. (S. 11)
Die Problematik des contingent true score könne dabei laut Autoren nicht auf das
Erarbeiten besserer Items oder Instruktionen reduziert werden, da es in Bezug auf evaluation
based measures nur schwer vorstellbar ist, dass eine nomothetische Messung gegenüber
Urteilsprozessen zu allen Zeiten und gegenüber allen Personen invariant wäre. Zwar könnte
die Anwendung explizierende Methoden wie think-aloud techniques (Jobe, 2003) die
Varianz subjektiver Urteilsprozesse eindämmen, aber sicher nicht eliminieren. Schwartz und
Rapkin (2004) betonen, dass es mitunter gar nicht wünschenswert wäre, Individuen in ihren
Urteilsprozessen einheitlich auf intendierte Urteilsprozesse zu restringieren:
In sum, individual and temporal variance in QOL appraisal may be unavoidable but
not undesirable. The contingent true score theory does not imply that we need to
scrap existing instruments or re-design them from scratch. Rather, understanding how
180
these sources of variance affect existing QOL measures will help us to select
measures, compare groups, and interpret study findings” (S. 5).
9.2 Subjektive Urteilsprozesse und Psychotherapieerfolg
Betrachtet man die Items der Instrumente die häufig in der Psychotherapieevaluation
Verwendung finden, repräsentieren diese vermutlich überwiegend evaluation based
measures. Im Brief Symptom Inventory (BSI; Franke, 2000) wird in allen Items gefragt
„Wie sehr litten sie in den letzten Tagen unter (…)“. Das Beck Depressionsinventar (BDI;
Hautzinger, Bailer, Worall & Keller, 1995) fordert Einschätzungen wie „Ich bin so traurig
oder unglücklich, dass ich es kaum noch ertrage“ (Item 1), „Ich glaube, dass meine Zukunft
hoffnungslos ist und nur noch schlechter wird“ (Item 2) oder „Ich habe das Gefühl, als
Mensch ein völliger Versager zu sein“ (Item 3). Subjektive Standards sind diesen
Zielkonstrukten inhärent und Urteile diesbezüglich sind den oben geschilderten komplexen
hoch subjektiven Urteilsprozessen gegenüber kontingent. Auch im BVB-2000 stellen die
Items durchgängig evaluation based measures dar „fühle ich mich gehetzter“ (Item 1), „habe
ich jetzt eher das Gefühl, in einer Sackgasse zu stecken, aus der ich nicht herauskomme“
(Item 2) oder „hat das Leben für mich an Inhalt verloren“ (Item 3). Das Globalurteil der
Zufriedenheit mit der Therapie (Globalurteil; Meyer & Schulte, 2002) impliziert ebenfalls
einen hoch subjektiven Bewertungsmaßstab. Beim idiosynkratischen Goal Attainment
Scaling (GAS; Kiresuk & Sherman, 1968) hängt dies vermutlich von der Formulierung der
Ziele zu Therapiebeginn ab.
Aus dem oben dargestellten lässt sich vermuten, dass Divergenzen und
Konvergenzen sowohl von retrospektiven und regulären Statusmessungen aber auch von
verschiedenen Erfolgswerten aus der Divergenz der ihnen zugrundeliegenden
181
Urteilsprozesse bzw. einzelner Komponenten davon erklärt werden können. In Studie 1 zeigt
sich der retrospektive Vortest zwar als reliabel aber auch als wenig akkurat. Die deutlich
höheren retrospektiven Einschätzungen der Symptomatik lassen vermuten, dass sich - neben
der Möglichkeit von Fehlern - die Urteilsprozesse bzw. einzelne Elemente davon zu beiden
Zeitpunkten unterscheiden. Durchläuft ein Patient eine Psychotherapie und vor allem eine
Kognitive Verhaltenstherapie, sind response shifts wahrscheinlich. Die Veränderung des
Bezugssystems zur Evaluation z.B. einer gegeben Symptomatik im Sinne einer
Neubewertung ist oft ja sogar explizites therapeutisches Ziel kognitiver Verhaltenstherapie.
Die Reduktion von Symptomstress (Ellis & Hoellen, 1997) - also das eskalative
Katastrophisieren der Symptomfolgen - bietet ein anschauliches Beispiel für eine derartige
Zielsetzung. Zudem muss mit Patienten vielfach zunächst ein erweitertes
Problembewusstsein erarbeitet werden, da sie dank adaptiver Prozesse ein Arrangement mit
der Erkrankung fanden oder ich-synton das Ausmaß der Symptomatik zu Beginn der
Therapie unterschätzen (z.B. bei Persönlichkeitsstörungen). Auch subjektive
Krankheitsvorstellungen unterliegen in der kognitiven Verhaltenstherapie oft einem
expliziten Interventionsinteresse (wie z. B. im Falle von Somatisierungsstörungen; vgl.
hierzu Rief, 1998). In qualitativen Interviews kann gezeigt werden, dass eine derartige
Korrektur des Bezugssystems von den Probanden einer psychosozialen Intervention selbst
benannt und mit einer größeren Bewusstheit den befragten Inhalten gegenüber begründet
wird (Sibthorp, Paisley, Gookin & Ward, 2007). In der Sozialpsychologie werden die
Effekte sozialer Vergleichsprozesse auf interne Standards schon länger verfolgt. Schwartz
und Sprangers (1999) berichten wie Teilnehmer in Gruppentherapien explizit benennen, dass
der Vergleich mit Mitpatienten die Sicht auf ihre Krankheit verändert und dabei sowohl zu
einer Neubewertung ihrer Erkrankung als auch zu einer Neuordnung ihrer Ziele (changes in
values) und dem gesamten Konzept Gesundheit (reconceptualization) führte: „This example
182
illustrates how a psychosocial intervention might teach response shift“ (S. 1532). Derartige
Wechsel in den Bewertungsmaßstäben bedrohen allerdings die die Güte indirekter
Veränderungsmaße, da ihnen dadurch eine zentrale Voraussetzung (Bereiter, 1963;
Cronbach & Furby, 1970) entzogen wird: die gemeinsame Metrik von Prä- und Post-
Messung. Die indirekte Veränderungsmessung sollte so betrachtet zwar in Bezug auf
performance based measures valide Ergebnisse bieten können. Sobald aber Veränderungen
in der Metrik oder gar subjektive konzeptuelle Änderungen des Zielkonstrukts vermutet
werden können, sollte sie wenig valide sein. Koele und Hoogstraten (1988) empfehlen daher
sowohl Retro- als auch Prä-Werte zu erheben und bei Abweichungen beider Messungen eher
auf die quasi-indirekte Veränderungsmessung zur Darstellung der Veränderung
zurückzugreifen, da Retro- und Post-Messung zumindest dieselbe Metrik zu Grunde liege.
Baumann und Kollegen (1980) deklarierten die Frage der Konstanz des Bezugssystems bei
Patienten bereits zu Beginn der achtziger Jahre zum Hauptproblem der
Veränderungsmessung insgesamt. Sie fordern daher ebenfalls die direkte Erforschung der
zugrundeliegenden Prozesse: „In diesem Sinne müsste die Veränderungsdiagnostik das
individuelle Bezugssystem des Menschen zu Beginn und am Ende eines Zeitabschnittes
erfassen, wobei dies unter dem Aspekt der Stabilität und der Veränderung geschehen sollte“
(S. 215). Ob aber response shifts überhaupt und wenn ja wie identifiziert und von Mess- und
Urteilsfehlern (response bias) unterschieden werden können ist strittig (im Überblick
Güthlin, 2004; Hill & Betz, 2005). Im Rahmen der Lebensqualitätsforschung existiert zur
Erhebung von response shifts bereits eine ganze Reihe von Vorschlägen (im Überblick
Schwartz & Sprangers, 1999). Das etablierteste Verfahren (best established approach;
Schwartz & Sprangers, 1999) stellt dabei aber immer noch der retrospektive Vortest dar (vgl.
auch Güthlin, 2004). Letztlich ist derzeit aber noch unklar welche der beiden Messungen -
Prä oder Retro - unter welchen Bedingungen die validere darstellt (Hill & Betz, 2005). Dies
183
könnte Gegenstand zukünftiger Forschung sein. Schwartz und Rapkin (2004) empfehlen zur
Einschätzung der Güte von Messansätzen stets eine explizite Untersuchung der subjektiven
Urteilsprozesse heranzuziehen (ebenso Baumann et al., 1980). Hierzu bieten sich vor allem
qualitative Methoden wie Interviews (vgl. Sibthorp et al., 2007; Llewellyn-Thomas &
Schwartz, 2000; O´Boyle, McGee & Browne, 2000) an. Aber auch think-aloud techniques
(vgl. Jobe, 2003) oder cognitive interviewing (vgl. Collins, 2003) bieten vielversprechendes
Potential. Denkbar wäre zudem die Verwendung einer idealen Skala im Sinne der Messung
der Veränderung des Konzepts des idealen Gesundheitszustands. Oort (2005) zeigt auf wie
mittels structural equation modelling (SEM) response shifts identifiziert und dessen Einfluss
isoliert werden kann (vgl. auch Oort, Visser & Sprangers, 2005, 2009). Diese Methoden
können ohne weiteres auf die klinische Evaluationsforschung übertragen werden.
Aus der Annahme kontingenter wahrer Werte ergibt sich die Schlussfolgerung, dass
Konvergenzen zwischen Verfahren zu erwarten sind, wenn sie Überschneidungen in ihren
Urteilsprozessen aufweisen. In Studie 2 ließen sich die beiden basalen Perspektiven
Veränderung (Differenz Prä-Post) und Zielerreichung (Abgleich Post und Ideal) ableiten. Es
wurde dabei angenommen, dass die Zielerreichung die dominante subjektive Perspektive auf
den Therapieerfolg darstellt, während die Perspektive der Veränderung subjektiv eher
ungewöhnlich und vielmehr als statistische Perspektive verstanden werden kann. Die
Fruchtbarkeit dieser Unterscheidung wurde bereits ausführlich dargestellt. Im Rahmen einer
expliziten Untersuchung der Urteilsprozesse müssen diese Vermutungen allerdings noch
bestätigt werden.
In Studie 3 präsentiert sich der BVB-2000 im Lichte klassischer Gütekriterien als
reliables und valides Instrument der Psychotherapieerfolgsevaluation. Die
Korrelationsanalysen und Faktorenanalyse zeigen allerdings entgegen theoretischer
184
Erwartungen (Schulte, 1993) eine deutliche Nähe zu den Maßen der Zielerreichung (ebenso
Flückiger et al., 2007; Michalak et al., 2003). Dies kann als Hinweis auf einen
Bewertungsprozess verstanden werden, der von dem intendierten Prozess einer direkten
Veränderungsmessung abweicht (vgl. Michalak et al., 2003, anders Flückiger et al., 2007).
Nach Schwartz und Rapkin (2004) müsste bei weiteren Belegen für diese Hypothese auch
von Einschränkungen in der internal construct validity des BVB-2000 (bzw. der direkten
Veränderungsmaße insgesamt) ausgegangen werden. Die Auffassung der direkten
Veränderungsmessung als Veränderungsmaß (Schulte, 1993) trifft somit zwar in Hinblick
auf den intendierten Urteilsprozess zu, vermutlich aber nicht in Hinblick auf den tatsächlich
angewendeten. Diese mögliche Einschränkung der internal construct validity bei der direkten
Veränderungsmessung wurde in Studie 2 als beispielhaft dafür gesehen, dass die dominante
subjektive Perspektive der Zielerreichung vermutlich nur schwer für das Individuum zu
hintergehen ist. Andererseits kann auch vermutet werden, dass ein Teil der Patienten dem
intendierten Algorithmus zu folgen vermag. Wenn sich in der direkten Untersuchung des
zugrundeliegenden Urteilsprozesses des BVB-2000 bzw. der direkten Veränderungsmessung
insgesamt eine geringe internal construct validity zeigen lassen könnte, müsste dies aber
wiederum nicht zwingend eine Einschränkung der external construct validity bedeuten. Aus
den identifizierten tatsächlich vollzogenen Urteilsprozessen der Patienten heraus können ja
im Modell der contingent true scores erst Hypothesen über die Kriteriums- oder
Konstruktvalidität abgeleitet werden, die anschließend zu prüfen sind. Selbst wenn sich
herausstellen sollte, dass Patienten stark in ihren Urteilsprozessen variieren (z.B. die
überwiegende Anzahl der Patienten vollzieht einen Abgleich Ziel-Ideal während ein weiterer
Anteil einen Abgleich Prä-Post vornimmt) bedeutet dies ebenfalls keine Einschränkung per
se, sondern kann je nach Evaluationsinteresse sogar gewünscht sein: „Instruments may be
written to constrain appraisal parameters or allow them to vary, depending on the goals of
185
assessment” (Schwartz & Rapkin, 2004, S. 7). Die mehrfach gezeigten Doppelladungen des
BVB-2000 könnten so zum Beispiel die Folge heterogener Urteilsprozesse der Patienten
untereinander sein, gleichzeitig aber im Sinne einer Bandbreite (bandwith) der Messung
gewünscht sein (vgl. Schwartz & Rapkin, 2004).
In den Studien 1 und 3umfasste die Frage der Konvergenz verschiedener
Erfolgswerte auch die Frage nach einer möglichen Überschätzung des Therapieerfolgs durch
einzelne Verfahren (direkte und quasi-indirekte Veränderungsmessung). Da auf kein
absolutes Kriterium für Therapieerfolg verwiesen werden kann und bis heute kein allen
Anforderungen genügendes Veränderungsmaß existiert (vgl. De Los Reyes et al., 2011) stellt
sich bei jeder Vermutung einer Überschätzung gegenüber einem Messansatz - vor allem aber
in Bezug auf evaluation based measures - die Frage: Überschätzung im Vergleich zu was?
Häufig ist ein Sprachgebrauch zu beobachten, der andere Erfolgswerte in Hinblick auf die
indirekte Veränderungsmessungen indikatorisiert (vgl. z.B. Hill & Lambert, 2004), dabei
kann diese keineswegs per se als überlegener Messansatz definiert werden. Natürlich können
verschiedene Erfolgswerte über Transformationen numerisch vergleichbar gemacht werden.
Hier ließe sich aber immer fragen, ob die vorgenommen Transformationen tatsächlich die
Vergleichbarkeit herstellen. Die vorgeschlagenen Effektstärken für die direkte indirekte und
quasi-indirekte Veränderungsmessung bieten hierfür ein anschauliches Beispiel. Und wenn
wie in Studie 1 gezeigt werden kann, dass die Effektstärke der quasi-indirekten
Veränderungsmessung für den BSI höher ausfällt als die der indirekten Effektstärke, wie
kann - zudem bei vergleichbarer Konstruktvalidität - bestimmt werden, welche die wahre
Effektgröße darstellt? Die Frage der Überschätzung muss im Kontext der dargestellten
Überlegungen wohl umformuliert werden in eine Frage der Nützlichkeit der verschiedenen
Erfolgsmaße in Bezug auf bestimmte Evaluationsziele.
186
Michalak und Kollegen (2003) betonen: „Auch Therapieerfolg ist ein theoretisches
Konstrukt, dessen Operationalisierung durch die Zielsetzung zu rechtfertigen ist“ (S. 102). In
der Versorgungspraxis werden andere Anforderungen an Verfahren gestellt als in der
klinischen Interventionsforschung (Hunsley & Mash, 2007). Aus dem Konzept der external
construct validity (Schwartz & Rapkin, 2004) lässt sich ableiten, dass die Validität eines
Erfolgswertes (sofern daran evaluation based measures beteiligt sind) immer auch relativ zu
den angewendeten Urteilsprozessen der Patienten verstanden werden muss. Daher gilt es
zunächst, die Urteilsprozesse genauer zu kennen, die den jeweiligen Messungen (Status,
Erfolg) zu Grunde liegen und zu bestimmen, wie weit diese mit den intendierten Prozessen
übereinstimmen, wie sehr Personen zu einem Zeitpunkt in den herangezogenen Prozessen
übereinstimmen und wie stabil diese Prozesse intraindividuell in der Zeit sind. Im Anschluss
lässt sich die Kriteriums- und Konstruktvalidität der Werte genauer definieren und prüfen.
Güthlin (2004) betont, dass es sich bei subjektiven Urteilen über das eigene Befinden
um einen iterativen Prozess handelt, bei dem das Urteil zwar am Ende eines komplexen
Bewertungsprozesses steht, dieses aber seinerseits auch wieder neue
Verarbeitungsmechanismen im Sinne einer Rückkopplungsschleife in Gang setzen kann:
„Response Shift und Coping sind an dieser Stelle eng verwandte Konzepte, weil Coping im
Rahmen der Anpassung und Bewältigung zum Umbewerten einer Krankheitssituation führt“
(S. 166). Wichtig wäre somit stets auch die selbstregulative Bedeutung der Urteilsprozesse
zu klären. Diese Strategie sollte letztlich auch dazu führen, konkretere Aussagen zum best
use verschiedener Verfahren in Hinblick auf verschiedene Evaluationsziele ableiten zu
können.
Die vorliegende Arbeit differenziert Erfolgswerte in die beiden Perspektiven
Veränderung und Zielerreichung. Abbildung 5 zeigt dabei noch einmal die Vorteile der
187
beiden Perspektiven im Hinblick auf verschiedene Evaluationsziele wie sie bereits mehrfach
genannt wurden.
Abbildung 5
Zwei basale Perspektiven auf den Therapieerfolg - Veränderung und Zielerreichung -
zugeordnete Erfolgswerte sowie Empfehlungen ihrer Verwendung (best use)
Veränderung Restsymptomatik/ Zielerreichung
Indirekte Veränderungsmessung,
Quasi-indirekte Veränderungsmessung
Direkte Veränderungsmessung
Individuelle Zufriedenheit, Individuelle
Zielerreichung
best use
bei ökonomischen Einschränkungen
(nur quasi-indirekte Veränderungsmessung)
bei ökonomischen Einschränkungen
bei ökonomischen Einschränkungen
bei vergleichender Bestimmung der
Veränderung (nur indirekte
Veränderungsmessung)
stand alone zukünftige
Entwicklung der einzelnen Person
bei fehlenden Eingangswerten
(nur quasi-indirekt)
bei fehlenden
Eingangswerten
Efficacy Studien (nur indirekte
Veränderungsmessung)
Effectiveness Studien
Effectiveness Studien
Insgesamt bietet die vorliegende Arbeit einen Perspektivwechsel auf die Divergenz
und Konvergenz von Erfolgswerten. Gängige Vermutungen über die Folgen der Beteiligung
subjektiver Urteilsprozesse bei der Erfolgsmessung konnten in Frage gestellt werden. So
188
konnte gezeigt werden, dass retrospektive Symptomerhebungen und daraus abgeleitete
Veränderungswerte zuverlässiger und valider erscheinen als vielfach vermutet. Zudem
konnte gezeigt werden, dass einige als retrospektiv vermutete Verfahren wahrscheinlich
keinen Rückblick (im Sinne der Erinnerung an frühere Symptomausmaße) implizieren.
Andererseits kann vermutet werden, dass Erinnerungsinhalte (im weitesten Sinne) ubiquitär
zum Fällen eines Urteils herangezogen werden müssen. Dementsprechend scheint die
Zeitperspektive nicht das entscheidende Kriterium zur Unterscheidung verschiedener
Erfolgswerte darzustellen. Es konnte herausgearbeitet werden, dass Divergenzen und
Konvergenzen von Erfolgswerten von divergenten Perspektiven auf den Therapieerfolg her
verstanden werden können. Als basale Perspektiven auf den Therapieerfolg konnten hierzu
die Perspektive der Veränderung und der Zielerreichung herausgearbeitet werden. Diese
Unterscheidung bot in den Diskussionen der Studien eine kohärente und ökonomische
Heuristik zur Erklärung einer ganzen Reihe von Befunden der klinischen
Evaluationsforschung. Um auch in Zukunft Divergenzen und Konvergenzen von
Erfolgswerten vertiefend zu untersuchen wird vorgeschlagen die Urteilsprozesse von
Patienten in vielfältiger Form direkt zu adressieren. Es wurde darauf hingewiesen, dass im
Falle von evaluation based measures gängiges Vokabular wie Urteilsfehler oder
Überschätzung vermutlich fehl am Platz ist, die gängige Fassung von Gütekriterien
überdacht werden sollten und eine pragmatische Untersuchung des best use verschiedener
Messansätze sinnvoll erscheint.
189
10. Literaturverzeichnis
Albrecht, G. L., Devlieger, P. J. (1999). The disability paradox: high quality of life against
all odds. Social Science and Medicine, 48, 977-988.
Andersen, S. M., Lazowski, L. E. & Donisi, M. (1986). Salience and self-inference: The role
of biased recollections in self-inference process. Social Cognition, 4, 75–95.
Andrykowski, M. A., Brady, M. J. & Hunt, J. W. (1993). Positive psychosocial adjustment
in potential bone marrow transplant recipients: cancer as a psychosocial transition.
Psycho-Oncology, 2, 261-276.
Bach, J. R. & Tilton, M. C. (1994). Life satisfaction and wellbeing measures in ventilator
assisted individuals with traumatic tetraplegia. Archives of Physical Medicine and
Rehabilitation, 75, 626-632.
Baily, D. B. & Simeonson, R. J. (1988). Investigation of use of goal attainment scaling to
evaluate individual progress of clients with severe and profound mental retardation.
Mental Retardation, 26, 289-295.
Basco, M. R., Krebaum, S. R. & Rush, A .J. (1997). Outcome measures of depression. In H.
H. Strup, L. M. Horowitz & M. J. Lambert (Hrsg.), Measuring patient changes in
mood, anxiety and personality disorders: Toward a core battery (S. 191-245).
Washington: American Psychological Association.
Baumann, U. (1982). Psychodiagnostische Verfahren zur Therapieindikation und
Effektkontrolle. In R. Bastine, P. Fiedler, K. Grawe, S. Sommer & S. Schmidtchen
(Hrsg.), Grundbegriffe der Psychotherapie (S. 287-292). Weinheim: Edition
Psychologie.
Baumann, U. & Reinecker-Hecht, C. (2005). Methodik der klinisch psychologischen
Interventionsforschung. In U. Baumann & M. Perrez (Hrsg.), Lehrbuch klinische
Psychologie-Psychotherapie (S. 378-397). Bern: Huber.
190
Baumann, U., Sodemann, U. & Tobien, H. (1980). Direkte versus indirekte
Veränderungsdiagnostik. Zeitschrift für Differentielle und Diagnostische
Psychologie, 1, 201-216.
Beck A. T., Ward, C. H., Mendelson, M., Mock, J. & Erbaugh, J. (1961). An inventory for
measuring depression. Archives of General Psychiatry, 4 (6), 561–71.
Beese, A. & Morley, S. (1993). Memory for acute pain experience is specifically inaccurate
but generally reliable. Pain, 53, 183–189.
Ben-Zeev, D., Young, M. A. & Madsen, J. W. (2009). Retrospective recall of affect in
clinically depressed individuals and controls. Cognition and Emotion, 23 (5), 1021-
1040.
Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. In C. W.
Harris (Hrsg.), Problems in measuring change (S. 3-20). Maison: The University of
Wisconsin Press.
Beutler, L. E. & Crago, M. (1983). Self-report measures of psychotherapy outcome. In M. J.
Lambert, E. R. Christensen & S. S. de Julio (Hrsg.), The assessment of psychotherapy
outcome (S. 453-497). New York: Wiley.
Bower, G. H. (1981). Mood and memory. American Psychologist, 36, 129-148.
Braun, U. & Regli, D. (2000). Psychotherapie-Evaluation in der Praxis. In A. R. Laireiter
(Hrsg.), Diagnostik in der Psychotherapie (S. 459–475). Berlin: Springer.
Breetvelt, I. S. & van Dam, F. S. A. M. (1991). Underreporting by cancer patients: the case
of response shift. Social Science & Medicine, 32, 981-987.
Bryant, R. A. (1993). Memory for pain and affect in chronic pain patients. Pain, 54, 347–
351.
191
Canestrari, R. & Trombini, G. (1975). Psychotherapie als Umstrukturierung des Feldes. In S.
Ertel, L. Kemmler & H. Stadler (Hrsg.), Gestalttheorie in der modernen Psychologie
(S. 266-273). Darmstadt: Steinkopff.
Cassileth, B. R., Lusk, E. J. & Tenaglia, A. N. (1982). A psychological comparison of
patients with malignant melanoma and other dermatologic disorders. Journal of the
American Academy of Dermatology, 7, 742-746.
Cohen, J. (1988). Statistical power analysis for the behavioural sciences (2nd ed.). New
York: Academic Press.
Collins, D. (2003). Pretesting survey instruments: an overview of cognitive methods. Quality
of Life Research, 12 (3), 229-238.
Conway, M. & Ross, M. (1984). Getting what you want by revising what you had. Journal
of Personality and Social Psychology, 47, 738–748.
Corruble, E., Legrand, J. M., Zvenigorowsky, H., Duret, C. & Guelfi, J. D. (1999).
Concordance between self-report and clinicians´assessments of depression. Journal of
Psychiatric Research, 33, 457-465.
Cronbach, L. J. & Furby, L. (1970). How we should measure "change" -or should we?
Psychological Bulletin, 74, 68-80.
Cuipers, P., Li, J., Hofmann, S. G. & Andersson, G. (2010). Self-reported versus clinicain
rated symptoms of depression as outcome measures in psychotherapy research on
depression: A Meta-analysis. Clinical Psychology Review, 30 (6), 768-778.
Cutler, S. E., Larsen, R. J. & Bunce, S. C. (1996). Repressive coping style and the
experience and recall of emotion: A naturalistic study of daily affect. Journal of
Personality, 64, 379–405.
Cytrynbaum, S., Ginath, Y. Birdwell, T. & Brandt, L. (1979). Goal attainment scaling: A
critical review. Evaluation Quarterly, 3, 5-40.
192
De Los Reyes, A. & Kazdin, A. E. (2005). Informant discrepancies in the assessment of
childhood psychopathology: A critical review, theoretical framework, and
recommendations for further study. Psychological Bulletin, 131 (4), 483-509.
De Los Reyes, A., Kundey, S. A. & Wang, M. (2011). The end of the primary outcome
measure: A research agenda for constructing its replacement. Clinical Psychology
Review, 31 (5), 829-838.
Derogatis, L. R. (1983). SCL-90-R administration, scoring, & procedures. Manual-II.
Towson: Clinical Psychometric Research.
Derogatis, L. R., Lipman, R. S., Rickels, K., Uhlenhuth, E. H. & Covi, L. (1974). The
Hopkins Symptom Checklist (HSCL): A self-report symptom inventory. Behavioral
Science, 19, 1–15.
Devito, A. J. & Kubis, J. P. (1983). Actual and recalled test anxiety and flexibility, rigidity,
and self-control. Journal of Clinical Psychology, 39, 970–975.
Docherty, J. P., & Streeter, M. J. (1996). Measuring outcomes. In L. I. Sederer & B. Dickey
(Hrsg.), Outcomes assessment in clinical practice (S. 8–18). Baltimore: Williams &
Wilkins.
Doucette, A. & Wolf, A. (2009). Questioning the measurement precision of psychotherapy
research. Psychotherapy Research, 19, 374-389.
Ehlers, A. & Lüer, G. (1996). Pathologische Prozesse der Informationsverarbeitung.
Kognitionspsychologische Interpretation von Depressionen und Angststörungen. In
A. Ehlers & K. Hahlweg (Hrsg.), Enzyklopädie der Psychologie. Grundlagen der
Klinischen Psychologie. (Themengebiet D, Serie 2, Band 1, S. 351-403). Göttingen:
Hogrefe.
Ellis, A. & Hollen, B. (1997). Die Rational-Emotive Verhaltenstherapie. Reflexionen und
Neubestimmungen. München: J. P. Pfeiffer Verlag.
193
Farnsworth, J., Hess, J. & Lambert, M. J. (2001). A review of outcome measurement
practices in the Journal of Consulting and Clinical Psychology. Paper presented at
the annual meeting of the Rocky Mountain Psychological Association, Reno.
Feldman-Barrett, L. (1997). The relationship among momentary emotion experiences,
personality descriptions, and retrospective ratings of emotion. Personality and Social
Psychology Bulletin, 23, 1100–1110.
Feldman-Barrett, L. & Pietromonaco, P. R. (1997). Accuracy of the five-factor model in
predicting perceptions of daily social interactions. Personality and Social Psychology
Bulletin, 23, 1173–1187.
Fischer, D., Stewart, A. L., Bloch, D. A., Lorig, K., Laurent, D. & Holman, H. (1999).
Capturing the patient´s views of change as a clinical outcome measure. Journal of the
American Medical Association, 282 (12), 1157–1162.
Fisher, R. J. & Katz, J. E. (2000). Social-desirability bias and the validity of self-reported
values. Psychology & Marketing, 17 (2), 105-120.
Flückiger, C., Regli, D., Grawe, K. & Lutz, W. (2007). Differences and similarities between
pre-post and retrospective measurings. Psychotherapy Research, 17, 359-364.
Frank, J. D. (1973). Persuation and healing. Comparative study of psychotherapy.
Baltimore: The John Hopkins University Press.
Franke, G. H. (2000). Brief Symptom Inventory von L. R. Derogatis (Kurzform der SCL-90-
R). Göttingen: Beltz Test GmbH.
Friedland, J., Renwick, R. & McColl, M. (1996). Coping and social support as determinants
of quality of life in HIV/AIDS. AIDS Care, 8, 15-31.
Froyd, J. E., Lambert, M. J. & Froyd, J. D. (1996). A review of practices of psychotherapy
outcome measurement, Journal of Mental Health, 5 (1), 11-16.
194
Fydrich, T. (2006). Diagnostik und Intervention in der Klinischen Psychologie. In M.
Amelang & L. Schmidt-Atzert (Hrsg.), Psychologische Diagnostik und Intervention
(S. 495–532). Heidelberg: Springer.
Fydrich, T., Laireiter, A.-R., Saile, H. & Engberding, M. (1996). Diagnostik und Evaluation
in der Psychotherapie: Empfehlungen zur Standardisierung. Zeitschrift für klinische
Psychologie, 25, 161-168.
Grawe, K. (1998). Psychologische Therapie. Göttingen: Hogrefe.
Grawe, K., Bernauer, F. & Donati, R. (1994). Psychotherapie im Wandel. Von der
Konfession zur Profession. Göttingen: Hogrefe.
Grawe, K. & Braun, U. (1994). Qualitätskontrolle in der Psychotherapiepraxis. Zeitschrift
für Klinische Psychologie und Psychotherapie, 23, 242–267.
Grawe, K., Caspar, F. & Ambühl, H. (1990). Therapievergleich: Wirkungsvergleich und
differentielle Indikation. Zeitschrift für klinische Psychologie und Pschotherapie, 19,
338-361.
Green, B. C., Gleser, G. C., Stone, W. N. & Siefert, R. F. (1975). Relationship among
diverse measures of psychotherapy outcome. Journal of Consulting and Clinical
Psychology, 43, 689-699.
Groen, G. & Petermann, F. (2000). Kontrolle des Therapieverlaufs und -erfolgs bei
depressiven Störungen. Zeitschrift für Klinische Psychologie Psychiatrie und
Psychotherapie, 48, 185–204.
Groenvold, M., Fayers, P. M., Sprangers, M. A. G., Bjorner, J. B., Klee, M. C., Aaronson, N.
K., Bech, P. & Mouridsen, H. T. (1999). Anxiety and depression in breast cancer
patients at low risk of recurrence compared with the general population – unexpected
findings. Journal of Clinical Epidemiology, 52, 523-530.
195
Grundy, C. T., Lunnen, K. M., Lambert, M. J., Ashton, J. E. & Tovey, D. R. (1994). The
Hamilton Rating Scale for Depression: One scale or many? Clinical Psychology:
Science and Practice, 1 (2), 197-205.
Güthlin, C. (2004). Response Shift: alte Probleme der Veränderungsmessung, neu
angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für Medizinische
Psychologie, 13, 165–174.
Guy, M. E. & Moore, L. S. (1982). The Goal Attainment Scale for psychiatric inpatients:
development and use of a quality assurance tool. Quality Review Bulletin, 8 (6), 19-
29.
Hahlweg, K. (2000). Qualitätsmanagement in der ambulanten Psychotherapie. In H.J.
Freyberger, G. Heuft & D. J. Ziegenhagen (Hrsg.), Ambulante Psychotherapie (S. 45-
71). Stuttgart: Schattauer.
Hall, J. N. (1979). Assessment procedures used in studies on long-stay patients: A survey of
papers published in the British Journal of Psychiatry. British Journal of Psychiatry,
135, 330-335.
Hamilton, M. (1960). A rating scale for depression. Journal of Neurology, Neurosurgery and
Psychiatry, 23, 56-62.
Hand, D. J. & Taylor, C. C. (1987). Multivariate analysis of variance and repeated
measures:a practical approach for behavioural scientists. London: Chapman & Hall.
Hartmann, A. & Herzog, T. (1995). Varianten der Effektstärkenberechnung in Meta-
Analysen: Kommt es zu variablen Ergebnissen? Zeitschrift für klinische Psychologie,
24, 337-343.
Hautzinger, M. (1994). Diagnostik in der Psychotherapie. In R.-D. Stieglitz & U. Baumann
(Hrsg.), Psychodiagnostik psychischer Störungen (S. 284-295). Stuttgart : Enke.
196
Hautzinger, M. (2007). Psychotherapieforschung. In C. Reimer, J. Eckert, M. Hautzinger &
E. Wilke (Hrsg.), Psychotherapie. Ein Lehrbuch für Ärzte und Psychologen (S. 61-
73). Berlin: Springer.
Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar
(BDI). Bern: Huber.
Hill, C. E. & Lambert, M. J. (2004). Methodological Issues in Studying Psychotherapy
Processes and Outcomes. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook
of Psychotherapy and Behavior Change (S. 84–136). New York: Wiley.
Hill, C. E., Nutt, E. A. & Jackson, S. (1994). Trends in Psychotherapy Process Research:
Samples, Measures, Researchers, and Classic Publications. Journal of Counseling
Psychology, 41 (3), 364-377.
Hill, L. G. & Betz, D.L. (2005). Revisiting the retrospective pretest. American Journal of
Evaluation, 26, 501-517.
Hiller, W., Bleichhardt, G. & Schindler, A. (2009). Evaluation von Psychotherapien aus der
Perspektive von Qualitätssicherung und Qualitätsmanagement. Zeitschrift für
Psychiatrie, Psychologie und Psychotherapie, 57, 7-22.
Hodgins, D. C., el-Guebaly, N., & Armstrong, S. (1995). Prospective and retrospective
reports of mood states before relapse to substance use. Journal of Consulting and
Clinical Psychology, 63, 400–407.
Horowitz, L. M., Strupp, H. H., Lambert, M. J. & Elkin, I. (1997). Overview and summary
of the core battery conference. In H. H. Strupp, L. M. Horowitz, & M. J. Lambert
(Hrsg.), Measuring patient changes in mood, anxiety, and personality disorders:
Toward a core battery (S. 11-54). Washington: American Psychological Association.
Howard, K. I., Lueger, R. J. & Kolden, G. G. (1997). Measuring progress and outcome in the
treatment of affective disorders. In H. H. Strupp, L. M. Horowitz & M. J. Lambert
197
(Hrsg.), Measuring patient changes in mood, anxiety, and personality disorders:
Toward a core battery (S. 191-245). Washington: American Psychological
Association.
Hunsley, J. & Mash, E. J. (2007). Evidence-based assessment. Annual Review of Clinical
Psychology, 329-351.
Jacob, G. & Bengel, J. (2000). Das Konstrukt Patientenzufriedenheit: Eine kritische
Bestandsaufnahme. Zeitschrift für Klinische Psychologie Psychiatrie und
Psychotherapie, 48, 280–301.
Jacobson, N. S., Follette, W. C. & Revenstorf, D. (1984). Toward a standard definition of
clinically significant change. Behavior Therapy, 17, 308–311.
Jacobson, N. S., Roberts, L. J., Berns, S. B. & McGlinchey, J. B. (1999). Methods for
defining and determining meaningful change in psychotherapy research. Journal of
Consulting and Clinical Psychology, 67, 300-307.
Jacobson, N. S. & Truax, P. (1991). Clinical significance. A statistical approach to defining
meaningful change in psychotherapy research. Journal of Consulting and Clinical
Psychology, 59 (1), 12–19.
Jobe, J. B. (2003). Cognitive psychology and self-reports: Models and methods. Quality of
Life Research, 12 (3), 219-227.
Kagawa-Singer, M. (1993). Redefining health: living with cancer. Social Science and
Medicine, 37, 295-304.
Karney, B. R. & Coombs, R. H. (2000). Memory bias in longterm close relationships:
Consistency or improvement? Personality and Social Psychology Bulletin, 26, 959–
970.
Kassebaum, G. G. & Baumann, B. O. (1965). Dimensions of the sick role in chronic illness.
Journal of Health and Human Behavior, 6, 16-27.
198
Kastner, S. & Basler, H.-D. (1997). Messen Veränderungsfragebögen wirklich
Veränderung? Schmerz, 11, 254-262.
Kendall, P. C, Marrs-Garcia, A., Nath, S. R. & Sheldrick, R. C. (1999). Normative
comparisons for the evaluation of clinical significance. Journal of Consulting and
Clinical Psychology, 67 (3), 285-299.
Kendall, P. E., Holmbeck, G. & Verdun, T. (2004). Methodology, design, and evaluation in
psychotherapy research. In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook
of Psychotherapy and Behavior Change (S. 16-43). New York: Wiley.
Keuler, D. J. & Safer, M. A. (1998). Memory bias in the assessment and recall of pre-exam
anxiety: How anxious was I? Applied Cognitive Psychology, 12, 127–S137.
Kiresuk, T. I. & Sherman, R. E. (1968). Goal Attainment Scaling: A general method for
evaluating comprehensive community mental health programs. Community Mental
Health Journal, 4, 443-453.
Kiresuk, T. I., Smith, A. & Cardillo, J. E. (1994). Goal Attainment scaling: Applications,
theory, and measurement. Hillsdale: Erlbaum.
Koele, P. & Hoogstarten, J. (1988). A method for analysing retrospective pretest/posttest
designs: I. Theory. Bulletin of Psychonomic Society, 26, 51-54.
Kohlmann, T. & Raspe, H. (1998). Zur Messung patientennaher Erfolgskriterien in der
medizinischen Rehabilitation: Wie gut stimmen "indirekte" und "direkte" Methoden
der Veränderungsmessung überein? Rehabilitation, 37, 30-37.
Kordy, H. & Hannöver, W. (1999). Zur Evaluation psychotherapeutischer Behandlungen
anhand individueller Therapieziele. In H. Ambühl & B. Strauß (Hrsg.), Therapieziele
(S. 75-90). Göttingen: Hogrefe.
199
Kordy, H. & Hannöver, W. (2000). Die Evaluation von Psychotherapie und das Konzept der
„klinisch bedeutsamen Veränderungen“. In A. R. Laireiter (Hrsg.), Diagnostik in der
Psychotherapie (S. 477–495). Berlin: Springer.
Krampen, G. (2010). Experimentelle Konstruktion eines Kurzfragebogens zur direkten
Veränderungsmessung psychotherapeutischer Effekte im Befinden. Diagnostica, 54,
212-221.
Krampen, G. & Hank, P. (2008). Prozessdiagnostik und kontrollierte Praxis. In B. Röhrle, F.
Caspar & P. Schlottke (Hrsg.), Lehrbuch der klinisch-psychologischen Diagnostik (S.
300-329). Stuttgart: Kohlhammer.
Kulik, J. A. & Mahler, H. I. M. (1986). Self-confirmatory effects of delay on perceived
contribution to a joint activity. Personality and Social Psychology Bulletin, 12, 344–
352.
Laireiter, A.-R. (2001). Diagnostik in der Psychotherapie. Psychotherapeut, 46, 90-101.
Laireiter, A.-R. & Vogel, H. (1998). Qualitätssicherung in der Psychotherapie und
psychosozialen Versorgung. Tübingen: DGVT Verlag.
Lam, T. C. M. & Bengo, P. (2003). A comparison of three retrospective self-reporting
methods of measuring change in instructional practice. American Journal of
Evaluation, 24, 65-80.
Lambert, M. J. (1983). Introduction to assessment of psychotherapy outcome: Historical
perspective and current issues. In M.J. Lambert, E.R. Christensen & S.S. DeJulio
(Hrsg.), The assessment of psychotherapy outcome (S. 3-32). New York: Wiley.
Lambert, M. J., Bergin, A. E. & Garfield, S. L. (2004). Introduction and historical overview.
In M. J. Lambert (Hrsg.), Bergin and Garfield’s Handbook of Psychotherapy and
Behavior Change (S. 3-15). New York: Wiley.
200
Lambert, M. J., Hansen, N. B. & Bauer, S. (2008). Assessing the clinical significance of
outcome results. In A.M. Nezu & C.M. Nezu (Hrsg.), Evidence based outcome
research: A practical guide to conducting randomized control trials for psychological
interventions (S. 359-378). Oxford: Oxford University Press.
Lambert, M. J. & Hawkins, E .J. (2004). Use of psychological tests for assessing treatment
outcomes. In M. E. Maruish (Hrsg.), The use of psychological testing for treatment
planning and outcomes assessment (S. 171-196). Mahwah: Lawrence Erlbaum.
Lambert, M. J. & McRoberts, C. H. (1993). Outcome measurement in JCCP 1986-1991.
Paper presented at the meeting of the western Psychological Association. Phoenix.
Lambert, M. J. & Ogles, B. M. (2004). The efficacy and effectiveness of psychotherapy. In
M. J. Lambert (Hrsg.). Bergin and Garfield’s Handbook of Psychotherapy and
Behavior Change (S. 139-193). New York: Wiley.
Levine, L. J. (1997). Reconstructing memory for emotions. Journal of Experimental
Psychology: General, 126, 165-177.
Levine, L. J., Safer, M. A. & Lench, H. C. (2006). Remembering and misremembering
emotions. In: L. J. Sanna & E. C. Chang (Hrsg.), Judgments over time: The interplay
of thoughts, feelings, and behaviors (S. 271-290). New York: Oxford University
Press.
Lienert, G. (1961). Testaufbau und Testanalyse. Weinheim: Beltz.
Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse. Weinheim: Psychologie
Verlags Union.
Llewellyn-Thomas, H. & Schwartz. C. (2000). Response shift effects on patients’
evaluations of health states: sources of artifact. In C. Schwartz & M. A. G. Sprangers
(Hrsg.), Adapting to changing health. Response shift in quality of life research.
Washington: American Psychological Association.
201
Lunnen, K. M. & Ogles, B. M. (1998). A multi-perspective, multi-variable evaluation of
reliable change. Journal of Consulting and Clinical Psychology, 66, 400-410.
Lutz, W. (2002). Patient focused psychotherapy research and individual treatment progress
as scientific groundwork for an empirical based clinical practice. Psychotherapy
Research, 12, 251-273.
Lutz, W. & Böhnke, J. R. (2010). Psychotherapieforschung: Verläufe, Prozesse, Ergebnisse
und Qualitätssicherung. In W. Lutz (Hrsg.), Lehrbuch Psychotherapie (S. 49-69).
Bern: Huber.
Maier, W., Albus, M. & Bech, P. (1990). Validitätskriterien für die Veränderungsmessung
mit Ratingskalen. In U. Baumann, E. Fähndrich, R.-D. Stieglitz & B. Woggon
(Hrsg.), Veränderungsmessung in Klinischer Psychologie und Psychiatrie (S. 286-
306). München: Profil.
Maier-Riehle, B. & Zwingmann, C. (2000). Effektstärkenvarianten beim Eingruppen-Prä-
Post-Design: Eine kritische Betrachtung. Rehabilitation, 39, 189–199.
Margraf, J. & Milenkovic, N. (2009). Klassifikation psychischer Störungen. In J. Margraf &
S. Schneider (Hrsg.). Lehrbuch der Verhaltenstherapie. Band 1: Grundlagen,
Diagnostik, Verfahren, Rahmenbedingungen (S. 181-200). Berlin: Springer.
McFarland, C. & Alvaro, C. (2000). The impact of motivation on temporal comparisons:
Coping with traumatic events by perceiving personal growth. Journal of Personality
and Social Psychology, 79, 327–343.
McLellan, A. T. & Durell, J. (1996). Outcome evaluation in psychiatric and substance abuse
treatments: Concepts, rationale, and methods. In L. Sederer & B. Dickey (Hrsg.),
Outcome assessment in clinical practice (S. 34-44). Baltimore: Williams and Wilkins.
Meyer, F. & Schulte, D. (2002). Zur Validität der Beurteilung des Therapieerfolgs durch
Therapeuten. Zeitschrift für Klinische Psychologie und Psychotherapie, 31, 53-61.
202
Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs.
Veränderungsmessung oder retrospektive Erfolgsbeurteilung. Zeitschrift für Klinische
Psychologie und Psychotherapie, 32, 94-103.
Michelson, L., Mavissakalian, M. & Marcione, K. (1985) Cognitive and behavioral
treatments of agoraphobia: Clinical, behavioral, and psychophysiological outcomes.
Journal of Consulting and Clinical Psychology, 53, 913-925.
Mintz, J. (1972). What is success in psychotherapy? Journal of Abnormal Psychology, 80,
11-19.
Mintz, J. (1977). The role of the therapist in assessing psychotherapy outcome. In A. S.
Gurman & A.M. Razin (Hrsg.), Effective Psychotherapy. London: Pergamon.
Mintz, J., Drake, R. E. & Crits-Christoph, P. (1996). Efficacy and effectiveness of
psychotherapy: Two paradigms, one science. American Psychologist, 51 (10), 1084-
1085.
Nachtigall, C. & Suhl, U. (2005). Evaluation intraindividueller Veränderung. Ein Vergleich
verschiedener Veränderungskennwerte. Zeitschrift für Klinische Psychologie und
Psychotherapie, 34, 241–247.
Newman, F. L. & Tejeda, M. J. (2004). Selecting statistical procedures for progress and
outcome assessment: The analysis of group data. In M. E. Maruish (Hrsg.), The use of
psychological testing for treatment planning and outcomes assessment (S. 291-334).
Mahwah: Lawrence Erlbaum.
Norman, G. (2003). Hi! How are you? Response shift, implicit theories and differing
epistemologies. Quality of Life Research, 12, 239-249.
O´Boyle, C. A., McGee, H. M. & Browne, J. P. (2000). Measuring response shift using the
Schedule for Evaluation of Individual Quality of Life. In: C. Schwartz & M.A.G.
203
Sprangers (Hrsg.), Adapting to changing health. Response shift in quality of life
research (S. 123-136). Washington: American Psychological Association.
Ogles, B. M. (2013). Measuring Change in Psychotherapy Research. In M. J. Lambert
(Hrsg.), Bergin and Garfield’s Handbook of Psychotherapy and Behavior Change. 6th
Edition (S. 134-166). New York: John Wiley & Sons.
Ogles, B. M., Lambert, M. J. & Masters, K. S. (1996). Assessing outcome in clinical
practice. Boston: Allyn & Bacon.
Ogles, B. M., Lambert, M. J., Weight, D. G. & Payne, I. R. (1990). Agoraphobia outcome
measurement: A review and meta-analysis. Psychological Assessment: A Journal of
Consulting and Clinical Psychology, 2, 317-325.
Ogles, B. M., Lunnen, K. M. & Bonesteel, K. (2001). Clinical Significance: History,
application, and current practice. Clinical Psychology Review, 21, 421-446.
Oort, F. J. (2005). Using structural equation modeling to detect response shifts and true
change. Quality of Life Research, 14, 587–598.
Oort, F. J., Visser, M. R. M. & Sprangers, M. A. G. (2005). An application of structural
equation modeling to detect response shifts and true change in quality of life data
from cancer patients undergoing invasive Surgery. Quality of Life Research, 14, 599–
609.
Oort, F. J., Visser, M. R. M. & Sprangers, M. A. G. (2009). Formal definitions of
measurement bias and explanation bias clarify measurement and conceptual
perspectives on response shift. Journal of Clinical Epidemiology, 62, 1126–1137.
Padilla, G. V., Mishel, M. H. & Grant, M. M. (1992). Uncertainty, appraisal and quality of
life. Quality of Life Research, 1, 155-165.
Parloff, M. B. (1967). Goals in Psychotherapy: Mediating and ultimate. In A. R. Mahrer
(Hrsg.), The goals of psychotherapy (S. 5-19). New York: Appleton-Century-Crofts.
204
Parsons, T. (1967). Definition von Gesundheit und Krankheit im Lichte der Wertbegriffe
und der sozialen Struktur Amerikas. In A. Mitscherlich, T. Brocher, O. v. Mering &
K. Horn (Hrsg.), Der Kranke in der modernen Gesellschaft (57-87). Köln:
Kiepenheuer & Witsch.
Paulhus, D. L. (2002). Socially desirable responding: The evolution of a construct. In H. I.
Braun & D. N. Jackson (Hrsg.), The role of constructs in psychological and
educational measurement (S. 49-69). Mahwah: Lawrence Erlbaum.
Pawlik, K. (1976). Modell und Praxisdimensionen psychologischer Diagnostik. Stuttgart:
Kohlhammer.
Pekarik, G. & Wolff, C. B. (1996). Relationship of satisfaction to symptom change, follow-
upadjustment, and clinical significance. Professional Psychology: Research and
Practice, 27, 202-208.
Piechotta, B. (2008). PsyQM - Qualitätsmanagement für psychotherapeutische Praxen.
Berlin: Springer.
Pietromonaco, P. R., & Feldman-Barrett, L. (1997). Working models of attachment and daily
social interactions. Journal of Personality and Social Psychology, 73, 1409–1423.
Rapkin, B. D. & Schwartz, C. E. (2004). Toward a theoretical model of quality-of-life
appraisal: Implications of findings from studies of response shift. Health and Quality
of Life Outcomes, 2, 14, 1-12.
Raspe, H., Weber, U., Voigt, S., Kosinski, A. & Petras, H. (1997). Qualitätssicherung durch
Patientenbefragung in der medizinischen Rehabilitation. Rehabilitation, 36, 31–42.
Reinecker, H. (2009). Therapieforschung. In J. Margraf & S. Schneider (Hrsg.). Lehrbuch
der Verhaltenstherapie (S. 83-99). Berlin: Springer.
205
Reinecker-Hecht, C. & Baumann, U. (2005). Klinisch-psychologische Diagnostik. In M.
Perrez & U. Baumann (Hrsg.), Lehrbuch Klinische Psychologie - Psychotherapie (S.
128-146). Bern: Huber.
Rief, W. (1998). Somatisierungsstörung und Hypochondrie. Göttingen: Hogrefe.
Riso, L. P., Thase, M. E., Howland, R. H., Friedman, E. S., Simons, A. D. & Tu, X. M.
(1997). A prospective test of criteria for response, remission, relapse, recovery, and
recurrence in depressed patients with cognitive behavior therapy. Journal of Affective
Disorders, 43, 131-142.
Rogosa, D. R. & Willett, J. B. (1985). Understanding correlates of change by modeling
individual differences in growth. Psychometrika, 50, 203-228.
Rosenthal, R., Rosnow, R. L. & Rubin, D. B. (2000). Contrast and effect sizes in behavioral
research: a correlational approach. Cambridge: Cambridge Unversity Press.
Ross, M. (1989). Relation of implicit theories to the construction of personal histories.
Psychological Review, 96 (2), 341-357.
Rost, J. (1996). Testtheorie. Testkonstruktion. Bern: Huber
Rusting, C. L. (1998). Personality, mood, and cognitive processing of emotional
information: Three conceptual frameworks. Psychological Bulletin, 124, 165–196.
Safer, M. A. & Keuler, D. J. (2002). Individual Differences in Misremembering Pre-
Psychotherapy Distress: Personality and Memory Distortion. Emotion, 2, 162–178.
Safer, M. A., Levine, L. J. & Drapalski, A. L. (2002). Distortion in memory for emotions:
The contributions of personality and post-event knowledge. Personality and Social
Psychology Bulletin, 28, 1495-1507.
Sanchez-Meca, J. Rosa-Alcazar, A. I., Marin-Martinez, F. & Gomez-Conesa, A. (2010).
Psychological treatment of panic disorder with or without agoraphobia: A Meta-
Analysis. Clinical Psychology Review, 30 (1), 37-50.
206
Sarris, V. (1971). Wahrnehmung und Urteil. Göttingen: Hogrefe.
Schmidt, J., Steffanowski, A., Nübling, R., Lichtenberg, S. & Wittmann, W. W. (2003).
EQUA-Studie. Erfassung der Ergebnisqualität stationärer psychosomatischer
Rehabilitation. Abschlussbericht eqs.-Institut Karlsruhe/Universität Mannheim.
Schmitz, N. & Davies-Osterkamp, S. (1997). Klinische und Statistische Signifikanz -
diskutiert am Beispiel der Symptom-Check-Liste (SCL-90-R). Diagnostica, 43 (1),
80-96.
Schulte, D. (1993). Wie soll Therapieerfolg gemessen werden? Zeitschrift für Klinische
Psychologie, 22, 374-393.
Schulte, D. (1995). How treatment success could be assessed. Psychotherapy research, 5,
281-296.
Schulte, D. (1996). Therapieplanung. Göttingen: Hogrefe.
Schulte, D. (1997). Dimensions of outcome measurement. In H. H. Strupp, L. M. Horowitz
& M. J. Lambert (Hrsg.), Measuring patient changes in mood, anxiety, and
personality disorders: Toward a core battery (S. 57-80). Washington: American
Psychological Association.
Schwartz, C. E. & Rapkin, B. D. (2004). Reconsidering the psychometrics of quality of life
assessment in light of response shift and appraisal. Health and Quality of Life
Outcomes, 2, 16, 1-11.
Schwartz, C. E. & Sprangers, M. A. G. (1999). Methodological approaches for assessing
response-shift in longitudinal health-related quality-of-life research. Social Science &
Medicine, 48, 1531–1548.
Schwartz, C. E., Sprangers, M. A. G., Carey, A. & Reed, G. (2004). Exploring response shift
in longitudinal data. Psychology and Health, 19, 51-69.
207
Seidenstücker, G. & Baumann, U. (1987). Multimodale Diagnostik als Standard in der
Klinischen Psychologie. Diagnostica, 33, 243-258
Seligman, M. E. P. (1995). The effectiveness of psychotherapy: The Consumer Reports
study. American Psychologist, 50, 965-974.
Seligman, M. E. P. (1996). Science as an ally of practice. American Psychologist, 51, 1072-
1079.
Senra, C. (1996). Evaluating and monitoring of symptom severity and change in depressed
outpatients. Journal of Clinical Psychology, 52, 317-324.
Shiffman, S., Hufford, M., Hickcox, M., Paty, J. A., Gnys, M., & Kassel, J. D. (1997).
Remember that? A comparison of real-time versus retrospective recall of smoking
lapses. Journal of Consulting and Clinical Psychology, 65, 292–300.
Sibthorp, J., Paisley, K., Gookin, J. & Ward, P. (2007). Addressing response-shift bias:
Retrospective pretests in recreation research and evaluation. Journal of Leisure
Research, 39, 295-315.
Slevin, M. L., Stubbs, L., Plant, H. J., Wilson. P., Gregory, W. M., Armes, P. J. & Downer,
S. M. (1990). Attitudes to chemotherapy: comparing views of patients with cancer
with those of doctors, nurses, and general public. British Medical Journal, 300, 1458-
1460.
Smith, M. L., Glass, G. V. & Miller, T. I. (1980). The benefits of psychotherapy. Baltimore:
Hopkins University Press.
Sneeuw, K. C., Aaronson, N. K., Sprangers, M. A., Detmar, S. B., Wever, L. D. &
Schornagel, J. H. (1997). Value of caregiver ratings in evaluating the quality of life
of patients with cancer. Journal of Clinical Oncology, 15, 1206-1217.
208
Spada, H. (1983). Die Analyse von Veränderungen im Rahmen unterschiedlicher
testtheoretischer Modelle. In W.-R. Minsel & R. Scheller (Hrsg.), Brennpunkte der
klinischen Psychologie. Diagnostik (S. 83-105). München: Kösel.
Speer, D. C. (1999). What is the role of two-wave designs in clinical research? Comment on
Hageman and Arrindell. Behaviour Research and Therapy, 37, 1203–1210.
Spielberger, C. D., Gorsuch, R. L., Lushene, R., Vagg, P. R., & Jacobs, G. A. (1983).
Manual for the State-Trait Anxiety Inventory. Palo Alto: Consulting Psychologists
Press.
Sprangers, M. A. G. (1989). Subject bias and the retrospective pretest in retrospect. Bulletin
of the Psychonomic Society, 27 (1), 11-14.
Sprangers, M. A. G. & Aaronson, N. K. (1992). The role of health care providers and
significant others in evaluating the quality of life of patients with chronic disease: A
review. Journal of Clinical Epidemiology, 45, 743-760.
Sprangers, M. A. G. & Schwartz, C. E. (1999). Integrating response shift into health-related
quality-of-life research: A theoretical model. Social Science and Medicine, 48, 1507-
1515.
Steketee, G. & Chambless, D. L. (1992). Methodological issues in prediction of treatment
outcome. Clinical Psychology Review, 12, 387-400.
Stelz, I. (1982). Fehler und Fallen der Statistik. Bern: Huber.
Stensman, R. (1985). Severely mobility-disabled people assess the quality of their lives.
Scandinavian Journal of Rehabilitation Medicine, 17, 87-99.
Steyer, R., Hannöver, W., Telser, C. & Kriebel, R. (1997). Zur Evaluation intraindividueller
Veränderung. Zeitschrift für Klinische Psychologie, 26, 291–299.
Stieglitz, R.-D. (1990). Validitätsstudien zum retrospektiven Vortest in der
Therapieforschung. Zeitschrift für Klinische Psychologie, 19, 144-150.
209
Stieglitz, R.-D. & Baumann, U. (1994). Veränderungsmessung. In R.-D. Stieglitz & U.
Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21-36). Stuttgart:
Enke.
Stieglitz, R.-D. & Baumann, U. (2001). Veränderungsmessung. In R.-D. Stieglitz & U.
Baumann (Hrsg.), Psychodiagnostik psychischer Störungen (S. 21-37). Stuttgart:
Enke.
Stieglitz, R.-D., Baumann, U. Tobien, H. & Zerssen, D. v. (1980). Zur Stichproben und
Zeitinvarianz von Testkennwerten bei einer Beschwerdenliste. Zeitschrift für
experimentelle und angewandte Psychologie, 27, 631-654.
Stieglitz R.-D. & Haug, H.-J. (1995).Therapiezielbestimmung und -evaluation als Mittel zur
Qualitätssicherung. In H.-J. Haug & R.-D. Stieglitz (Hrsg.), Qualitätssicherung in der
Psychiatrie (S. 191-199). Stuttgart: Enke
Strupp, L. M., Horowitz & Lambert, M. J. (1997). Measuring patient changes in mood,
anxiety, and personality disorders: Toward a core battery. Washington: American
Psychological Association.
Swann, W. B. (1990). To be known or to be adored? The interplay of self-enhancement and
self-verification. In R. M. Sorrentino & E. T. Higgins (Hrsg.), Handbook of
motivation and cognition: Foundations of social behavior (S. 408–448). New York:
Guilford Press.
Taylor, P. J., Russ-Eft, D. F. & Taylor, H. (2009). Gilding the Outcome by Tarnishing the
Past: Inflationary Biases in Retrospective. American Journal of Evaluation, 30, 31-
43.
Taylor, S. E. (1983). Adjustment to threatening events. A theory of cognitive adaptation.
American Psychologist, 38, 1161-1173.
210
Taylor, S. E. (1991). Asymmetrical effects of positive and negative events: The
mobilization–minimization hypothesis. Psychological Bulletin, 110, 67–85.
Taylor, S. E. & Brown, J. D. (1988). Illusion and wellbeing: A social psychological
perspective on mental health. Psychological Bulletin, 103, 193–210.
Tedlow, J., Fava, M. Uebelacker, L. Nierenberg, A. A., Alpert, J. E. & Rosenbaum, J.
(1998). Outcome definitions and predictors in depression. Psychotherapy and
Psychosomatics, 67, 266-270.
Thomas, D. L. & Diener, E. (1990). Memory accuracy in the recall of emotions. Journal of
Personality and Social Psychology, 59, 291–297.
Tversky, A. & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases.
Science, 185, 1124-1131.
Veith, A. & Willutzki, U. (2000). Eine Revision des Veränderungsfragebogens des Erlebens
und Verhaltens (VEV). Vortrag auf dem Kongress für Klinische Psychologie und
Psychotherapie der Deutschen Gesellschaft für Verhaltenstherapie, Berlin.
Wells, K. B., Hawkins, J. D. & Catalano, R. F. (1988). Choosing drug measures for
treatment outcome studies: The influence of measurement approach on treatment
results. International Journal of Addictions, 23, 851-873.
Wiggins, J. S. (1973). Personality and prediction. London: Addison Wesley.
Willett, J. B., Ayoub, C. C. & Robinson, D. (1991). Using growth modeling to examine
systematic differences in growth: an example of change in the functioning of families
at risk of maladaptive parenting, child abuse, or neglect. Journal of Consulting and
Clinical Psychology, 59, 38-47.
Williams, J. M., Barnhofer, T., Crane, C., Hermans, D., Raes, F., Watkins, E. & Dalgleish,
T. (2007). Autobiographical Memory Specifity and Emotional Disorder.
Psychological Bulletin, 133 (1), 122-148.
211
Wilson, A. E. & Ross, M. (2001). From chump to champ: People’s appraisals of their earlier
and present selves. Journal of Personality & Social Psychology, 80 (4), 572-584.
Wilson, D. B. & Lipsey, M. W. (2001). The Role of method in treatment effectiveness
research: evidence from meta-analysis. Psychological Methods, 4, 413-429.
Wilson, I. B. & Cleary, P. D. (1995). Linking clinical variables with health-related quality of
life: a conceptual model of patient outcomes. Journal of the American Medical
Association, 273, 59-65.
Wilson, T. D. & Gilbert, D. T. (2003). Affective Forecasting. Advances in Experimental
Social Psychology, 35, 345-411.
Wise, E. A. (2004). Methods for analyzing psychotherapy outcomes: A review of clinical
significance, reliable change, and recommendations for future directions. Journal of
Personality Assessment, 82, 50-59.
Zerssen, D. v. (1976). Die Beschwerden-Liste - Manual. Weinheim: Beltz Test GmbH.
Zielke, M. (1979). Die Kieler Änderungs-Sensitive Symptomliste (KASSL). Weinheim: Beltz.
Zielke, M. (1999). Direkte und indirekte Veränderungsmessung bei Interventionsansätzen -
Methoden und Ergebnisse. Praxis klinische Verhaltensmedizin und Rehabilitation,
45, 3-13.
Zielke, M. & Kopf-Mehnert, C. (1978). Der Veränderungsfragebogen des Erlebens und
Verhaltens VEV. Weinheim: Beltz.
Zielke, M. & Kopf-Mehnert, C. (2001a). 22 Jahre wissenschaftliche Erfahrungen mit dem
Veränderungsfragebogen des Erlebens und Verhaltens VEV. Praxis klinische
Verhaltensmedizin und Rehabilitation, 53, 3-6.
Zielke, M. & Kopf-Mehnert, C. (2001b). Der VEV-R-2001: Entwicklung und
testtheoretische Reanalyse der revidierten Form des Veränderungsfragebogens des
212
Erlebens und Verhaltens (VEV). Praxis klinische Verhaltensmedizin und
Rehabilitation, 53, 7-19.
Zimmerman, M., & Coryell, W. (1986). Reliability of follow-up assessment of depressed
inpatients. Archives of General Psychology, 43, 468–470.
213
11. Anhang
11.1 Lebenslauf
SCHULE 1998 Abitur am Gymnasium Bad Zwischenahn/Edewecht ZIVILDIENST 09/1998-10/1999 Zivildienst am Heilpädagogischen Kindergarten und
Kindertagesstätte in Mansie STUDIUM 10/1999-01/2006 Studium der Psychologie an der Carl v. Ossietzky-Universität
Oldenburg PRAKTIKA 09/2003-10/2003 Internationale Gesellschaft für systemische Therapie (IGST)
Heidelberg (Prof. Dr. Clement) 02/2004-04/2004 Psychotherapeutische Praxisstelle der Universität Bern (Prof. Dr.
Grawe) FORT- UND WEITERBILDUNG 09/2003-10/2003 Teilnahme an Weiterbildungsangeboten der Internationalen
Gesellschaft für systemische Therapie und des Zentrums für systemische Forschung und Beratung in Heidelberg
04/2004- 01/2006 Teilnahme am Weiterbildungsangebot der Psychologischen Ambulanz für Lehre und Forschung an der Carl v. Ossietzky-Universität Oldenburg (Prof. Dr. Belschner)
04/2006-04/2009 Ausbildung zum Verhaltenstherapeuten am Weiterbildenden Studiengang Psychotherapie der Ruhr-Universität Bochum
PSYCHOTHERAPEUTISCHE TÄTIGKEIT 04/2004-01/2006 Therapeutische Tätigkeit unter Supervision an der
Hochschulambulanz der Carl v. Ossietzky-Universität Oldenburg 02/2006-04/2007 Diplom-Psychologe und Therapeut in Ausbildung an der
214
Westfälischen Klinik Warstein (Dialektisch Behaviorale Therapie der Borderline Persönlichkeitsstörung)
04/2007-04/2009 Psychologe in Ausbildung am Zentrum für Psychotherapie (ZPT) der Ruhr-Universität Bochum (Prof. Dr. Schulte)
04/2009-02/2010 Honorartherapeut am Zentrum für Psychotherapie (ZPT) der Ruhr-Universität Bochum
seit 02/2010 Honorartherapeut an der Hochschulambulanz der Freien Universität Berlin (Prof. Dr. Renneberg)
WISSENSCHAFTLICHE TÄTIGKEIT 04/2005-01/2006 Studentische Hilfskraft an der Abteilung Gesundheits- und
Klinische Psychologie der Universität Oldenburg (Prof. Dr. Belschner)
04/2007- 04/2008 Wissenschaftliche Hilfskraft an der Arbeitseinheit für Klinische Psychologie und Psychotherapie der Ruhr-Universität Bochum (Prof. Dr. Willutzki)
10/2008-02/2010
Wissenschaftlicher Mitarbeiter am Institut für Experimentelle Psychologie der Heinrich-Heine-Universität Düsseldorf (Prof. Dr. Pietrowsky)
seit 02/2010 Wissenschaftlicher Mitarbeiter am Institut für Psychologie (Psychotherapie und Somatopsychologie) der Humboldt-Universität zu Berlin (Prof. Dr. Fydrich)
UNIVERSITÄRE LEHRE SS 2005 - WS 2006 Tutor für Diagnostik und Evaluation an der Psychologischen
Ambulanz für Lehre und Forschung der Carl v. Ossietzky-Universität Oldenburg
SS 2008 Seminar „Borderline-Persönlichkeitsstörung“ an der Ruhr-Universität Bochum
WS 2008/2009 Seminar „Gesprächstechniken in der Psychotherapie“ an der Heinrich-Heine-Universität Düsseldorf
SS 2009 Seminar „Interview und Beobachtung“ an der Heinrich-Heine-Universität Düsseldorf
WS 2009/2010 Seminar „Gesprächstechniken in der Psychotherapie“ an der Heinrich-Heine-Universität Düsseldorf
SS 2010 Seminar „Gesprächsführung“ an der Humboldt-Universität zu Berlin
WS 2010/2011 Seminar „Klinisch-psychologische Diagnostik und Testkenntnis“ an der Humboldt-Universität zu Berlin
SS 2011 Seminar „Kognitive Therapie der Depression“ an der Humboldt-Universität zu Berlin
WS 2011/2012 Seminar „Praxis der kognitiven Therapie“ an der Humboldt-Universität zu Berlin
SS 2012 Seminar „Emotionsfokussierte Therapie“ an der Humboldt-Universität zu Berlin
WS 2012/2013 Seminar „Verhaltenstherapeutische Paartherapie“ an der Humboldt-Universität zu Berlin
215
SS 2013 Seminar „Verhaltensanalyse und Fallkonzeption“ an der Humboldt-Universität zu Berlin
DOZENTENTÄTIGKEIT seit 2010 Dozent in der Ausbildung zum Psychologischen Psychotherapeuten
an folgenden Instituten: Deutsche Gesellschaft für Verhaltenstherapie (DGVT) in Dortmund, Hannover und Berlin, Psychologische Hochschule Berlin (PHB), Zentrum für Psychotherapie der Humboldt-Universität zu Berlin (ZPHU), Berliner Fortbildungsakademie (BFA)
seit 2011 Dozent in der Facharztausbildung an folgenden Instituten: Medizinische Hochschule Hannover (MHH), Zentrum für Psychotherapie der Humboldt-Universität zu Berlin (ZPHU)
216
11.2 Liste aller Veröffentlichungen
Zeitschriften- und Buchbeiträge (chronologisch)
Baschin, K., Ülsmann, D., Jacobi, F. & Fydrich, T. (2012). Psychisch erkrankte Personen
mit Migrationshintergrund. Theoretisches Modell zur Inanspruchnahme von
Gesundheitsleistungen. Psychotherapeut, 57, 7-14.
Fydrich, T. & Ülsmann, D. (2011). Komorbidität chronischer somatischer Erkrankung und
psychischer Störungen. Problem in der ambulanten psychotherapeutischen
Versorgung. Bundesgesundheitsblatt, 54, 108-119.
Ülsmann, D. (2007). Metatelische Orientierungen und Emotionsvorhersagen im
Leistungsbereich. In Mees, U. und Schmitt, A. (Hrsg.). Ziele und Gründe des
Handelns. Empirische Studien zum Zweidimensionalen Modell Metatelischer
Orientierungen. Münster: LIT
Znoj, H. J., Regli, D. & Ülsmann, D. (2004). Beziehungsgestaltung als gezielte Intervention
bei narzisstischer Persönlichkeitsstörung. Psychotherapie im Dialog, 3, S. 261-266.
Stuttgart: Thieme.
Kongressbeiträge (chronologisch)
Baschin, K. & Ülsmann, D. (2012). Inanspruchnahmeverhalten psychozialer Angebote
durch MigrantInnen. Vortrag auf dem 27. DGVT-Kongress für Klinische
Psychologie, Psychotherapie und Beratung, Berlin.
217
Ülsmann, D. (2011). Psychotherapy Outcome. A comparison of usual and retrospective
effect sizes. Poster präsentiert auf dem 40ten Kongress der EABCT, Reykjavik.
Baschin, K., Ülsmann, D. & Fydrich, T. (2011). The relationship between
sociodemographic characteristics and help seeking behaviour in Turkish migrants.
Vortrag auf dem 42ten Annual Meeting der Society for Psychotherapy Research,
Bern.
Ülsmann, D., Baschin, K. & Fydrich, T. (2011). Mental health beliefs and their influence on
anticipated mental health care utilization in Turkish migrant and German non
migrant populations. Vortrag auf dem 42ten Annual Meeting der Society for
Psychotherapy Research, Bern.
Baschin, K., Ülsmann, D. & Fydrich, T. (2011). Soziodemographische Charakteristika und
Inanspruchnahmeverhalten bei türkischen Migranten. Poster präsentiert auf dem 7ten
Workshopkongress für Klinische Psychologie und Psychotherapie (DGPS), Berlin.
Ülsmann, D., Baschin, K., Inci, B. & Fydrich, T. (2011). Einfluss eines türkischen
Migrationshintergrundes auf das Erkennen einer Depression. Poster präsentiert auf
dem 7ten Workshopkongress für Klinische Psychologie und Psychotherapie (DGPS),
Berlin.
Baschin, K., Ülsmann, D. & Fydrich, T. (2010). Comparison of „Mental Health Literacy“
in Turkish migrant and German samples. Vortrag auf der International Conference of
Intercultural aspects of mental disorders, Heidelberg.
Ülsmann, D. (2010): How bad was I? The retrospective pre-test in Psychotherapy. Poster
präsentiert auf dem 40ten Kongress der EABCT, Mailand.
Ülsmann, D. (2010). Wie schlecht ging es mir eigentlich? Der retrospektive Prä-Test in der
Psychotherapie. Poster präsentiert auf dem 28ten Symposium der Fachgruppe
218
Klinische Psychologie und Psychotherapie der Deutschen Gesellschaft für
Psychologie (DGPS), Mainz.
Ülsmann, D., Willutzki, W. & Veith, A. (2009). Psychotherapieerfolgsmessung: Der
Bochumer Veränderungsfragebogen. Poster präsentiert auf dem 6.
Workshopkongress für Klinische Psychologie und Psychotherapie (DGPS), Zürich.