Qualität diagnostischer Genauigkeitsstudien: QUADAS (Quality Assessment of Diagnostic Accuracy Studies included in Systematic Reviews)

G. M. Schuetz; R. Tackmann; B. Hamm; M. Dewey

doi:10.1055/s-0029-1245723

Subscribe to RSS

Please copy the URL and add it into your RSS Feed Reader.

https://www.thieme-connect.de/rss/thieme/en/10.1055-s-00000066.xml

Share / Bookmark

Facebook X Linkedin Weibo

Download PDF

Rofo 2010; 182(11): 939-942
DOI: 10.1055/s-0029-1245723

Editorial

Qualität diagnostischer Genauigkeitsstudien: QUADAS (Quality Assessment of Diagnostic Accuracy Studies included in Systematic Reviews)

Quality of Diagnostic Accuracy Studies: QUADAS (Quality Assessment of Diagnostic Accuracy Studies included in Systematic Reviews)G. M. Schuetz¹ , R. Tackmann¹ , B. Hamm¹ , M. Dewey¹

¹Institut für Radiologie, Charité Humboldt-Universität zu Berlin

Further Information

Publication History

eingereicht: 25.8.2010

angenommen: 30.8.2010

Publication Date:
04 October 2010 (online)

Also available at

Abstract
Full Text
References

Permissions and Reprints

Die Prinzipien der evidenzbasierten Medizin (EbM) tragen nunmehr seit über 15 Jahren mit ihren Maximen der Zweckmäßigkeit und der Nützlichkeit zur Verbesserung der klinischen Patientenversorgung bei. Dies gilt zuallererst für die therapeutischen Fächer, aber auch zunehmend für den Bereich der Diagnostik und somit auch der Radiologie [1]. Aufgrund ihres hohen Evidenzgrads kommen dabei systematischen Übersichtsarbeiten (synonym: systematische Reviews) und Metaanalysen, die ergänzend eine statistische Zusammenfassung der Daten beinhalten, eine besondere Bedeutung zu. Durch spezielle metaanalytische Verfahren lassen sich die Ergebnisse (Schätzer der diagnostischen Genauigkeit) der verfügbaren Einzelstudien zu einem bestimmten diagnostischen Test statistisch zusammenfassen und somit der Test auf objektivere Art und Weise hinsichtlich seiner klinischen Wertigkeit einschätzen.

Grundlage für die Beurteilung neuer diagnostischer Testverfahren bilden hierbei diagnostische Studien, in denen die diagnostische Genauigkeit des zu prüfenden Testverfahrens (Indextest) im Vergleich mit einem Referenzstandard („Goldstandard”) ermittelt wird [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20]. In diesem Zusammenhang haben wir schon in einem vorangegangenen Editorial [21] die Bedeutung der Berichtsqualität diagnostischer Studien dargelegt und hierfür die STARD-Checkliste [22] als Richtlinie bei der Manuskripterstellung vorgestellt. Dieses Editorial widmet sich der Qualität des Designs und der Methodik diagnostischer Studien.

Die methodische Qualität diagnostischer Studien zeigt erhebliche Unterschiede – die Ergebnisse einer Einzelstudie können durch Verzerrungen (Bias) [23] [24] [25] beeinflusst sein, die sich wiederum beim metaanalytischen Zusammenfassen (Poolen) verfälschend niederschlagen können. Weiterhin stellen Unterschiede in der Qualität einen Hauptfaktor für die statistische Heterogenität zwischen den Primärstudien dar. Hierdurch kann die Analyse in ihrer Aussagekraft erheblich eingeschränkt oder sogar unmöglich werden. Die Beurteilung der Qualität jeder Einzelstudie ist somit ein obligater Bestandteil eines jeden systematischen Reviews. Sie ermöglicht, in einem weiteren Schritt, die statistische Untersuchung des Einflusses einzelner Qualitätsaspekte auf die gepoolten Schätzer der diagnostischen Genauigkeit sowie eventuell vorhandene Heterogenität zwischen den Studien [26] [27].

Um diese Qualitätsbeurteilung zu erleichtern, veröffentlichten Whiting und Kollegen 2003 das QUADAS-Werkzeug (Quality Assessment of Diagnostic Accuracy Studies included in Systematic Reviews) [28]. Es besteht aus einem Katalog mit 14 Fragen, anhand derer Autoren von systematischen Reviews wichtige qualitative Aspekte der einzelnen Studien bewerten können. Jede Frage sollte mit Ja, Nein oder Unklar beantwortet werden.

Entworfen wurde QUADAS von einer internationalen Gruppe von 9 Experten auf dem Gebiet der diagnostischen Forschung. Mithilfe mehrerer systematischer Reviews wurde eine ursprüngliche Liste mit 28 wichtigen Punkten zur Qualitätsbeurteilung erstellt. Nachfolgend wurde in einem Delphi-Verfahren (formelles Konsensusverfahren mit mehrrundiger Expertenbefragung) eine kürzere Liste von nur noch 14 Fragen gebildet, die in die finale Fassung von QUADAS eingeflossen ist [28]. Eine deutsche Übersetzung der 14 Fragen mit kurzen Erläuterungen findet sich in [Tab. 1]. Die meisten der 14 Fragen – insgesamt 9 (Fragen 3-7, 10 – 12 und 14) – beziehen sich auf Studienmerkmale mit möglicher systematischer Verzerrung (Bias) der Studienergebnisse und somit auf die methodische Qualität. Diese Merkmale bestimmen die interne Validität (Glaubwürdigkeit) der Studienergebnisse, die umso höher ist, je weniger Bias vorhanden ist. Ein Beispiel für eine solche Verzerrung ist der „disease progression bias” (Frage 4 des QUADAS-Werkzeuges, [Tab. 1]). Dieser liegt vor, wenn das Zeitintervall zwischen dem Indextest und dem Referenzstandard zu lang ist, sodass sich der Krankheitszustand der Patienten ändern kann. Idealerweise würden die Daten eines Studienteilnehmers durch beide Testverfahren gleichzeitig erhoben werden. Da dies in der Praxis meist unmöglich ist, sollte das Zeitintervall zwischen den Untersuchungen entweder so kurz wie möglich gewählt werden oder zumindest adäquat an den Krankheitszustand angepasst werden. So ist ein Zeitintervall von mehreren Tagen oder sogar Wochen zwischen den Tests bei chronischen Erkrankungen sicher akzeptabel, bei akuten Zuständen mit schnellerem klinischem Verlauf jedoch nicht. Fragen 1 und 2 des QUADAS-Werkzeugs beziehen sich auf die Anwendbarkeit der Ergebnisse auf Patienten im klinischen Alltag (externe Validität), Fragen 8, 9 und 13 beziehen sich auf die Berichterstattung ([Tab. 1]) und weisen somit eine gewisse Überlappung mit der STARD-Checkliste auf [21].

Tab. 1 QUADAS-Werkzeug zur Beurteilung der Qualität von diagnostischen Genauigkeitsstudien (jede Frage ist zu beantworten mit Ja, Nein oder Unklar). Frage Bemerkung 1 War das Patientenkollektiv repräsentativ für die Patienten, die den Test in der Praxis erhalten? Die Frage bezieht sich auf verschiedene Ausprägungen der Zielerkrankung, aber auch auf demografische Aspekte (z. B. Geschlecht und Alter) und Komorbiditäten.Ist das Patientenspektrum nicht repräsentativ, so ist die klinische Generalisierbarkeit der diagnostischen Genauigkeitswerte eingeschränkt.Stichwort: klinische Anwendbarkeit 2 Wurden die Ein-/Ausschlusskriterien ausreichend beschrieben? Eine adäquate Beschreibung und klare Definition, wie und welche Patienten für die Studie ausgewählt wurden, ist essenziell. Hier sollten vom Autor Minimalanforderungen an die Studien definiert werden.Stichwort: klinische Anwendbarkeit 3 Ist der Referenzstandard geeignet, um die Zielgröße zu bestimmen? Handelt es sich beim gewählten Referenzstandard um den „Goldstandard”? Ein nicht adäquat ausgewählter Referenzstandard macht die Studienergebnisse unbrauchbar.Stichwort: „reference standard bias” 4 Ist die Zeitspanne zwischen Referenztest und Indextest kurz genug, um sicher zu gehen, dass sich die Zielgröße nicht zwischen den beiden Tests verändert hat? Idealerweise ist dieser Zeitraum möglichst kurz, richtet sich aber auch nach dem zeitlichen Verlauf der jeweiligen Erkrankung (chronisch, akut).Stichwort: „disease progression bias” 5 Durchliefen die Patienten, alle oder eine zufällige Stichprobe, den Referenzstandard? Dieser Bias kann nur in Studien auftreten, bei denen der Indextest vor dem Referenzstandard durchgeführt werden muss und sein Ergebnis das weitere Procedere bestimmt (z. B. wenn nur als positiv beurteilte Patienten dem Referenzstandard zugeführt werden). Stichwort: „partial verification bias” ( = „work-up bias”) 6 Erhielten alle Patienten den gleichen Referenzstandard unabhängig vom Ergebnis des Indextests? Dieser Bias tritt vor allem auf, wenn Patienten mit positivem Testergebnis im Indextest einen genaueren, häufig invasiven (z. B. Probeentnahme mit histopathologischem Befund), Referenzstandard erhalten als Patienten mit einem negativen Indextestergebnis. Stichwort: „differential verification bias” 7 War der Referenzstandard unabhängig vom Indextest (d. h. der Indextest war nicht Teil des Referenzstandards)? Dieser Bias tritt auf, wenn die Ergebnisse des Indextests in die Diagnosefindung der Patienten miteinfließen – dies ist nur möglich, wenn sich der Referenzstandard aus mehreren Testverfahren zusammensetzt und keine eindeutige Trennung zwischen Referenzstandard und Indextest definiert wurde. Besteht der Referenzstandard nur aus einem Testverfahren, kann diese Frage aus dem Katalog entfernt werden. Stichwort: „incorporation bias” 8 Wurde die Durchführung des Indextests ausreichend genau beschrieben, um den Test wiederholen zu können? Eine ausreichende Beschreibung verhindert die Beeinflussung der diagnostischen Genauigkeit durch verschieden durchgeführte Tests und ermöglicht die Wiederholung unter anderen Rahmenbedingungen.Hier sollten wiederum Minimalanforderungen von den Autoren definiert werden.Stichwort: Berichterstattung 9 Wurde die Durchführung des Referenzstandards ausreichend genau beschrieben, um ihn wiederholen zu können? 10 Wurde der Indextest ohne Kenntnis des Ergebnisses des Referenzstandards ausgewertet? Wurde verblindet ausgewertet? Weiß ein Radiologe im Voraus z. B. von einem pathologischen Befund im Referenzstandard, so wird er bei der Befundung des Indextests davon beeinflusst werden und die errechneten diagnostischen Genauigkeitswerte sind hinfällig, da fälschlich stark erhöht.Stichworte: „test review bias” und „reference standard review bias” 11 Wurde der Referenzstandard ohne Kenntnis des Ergebnisses des Indextests ausgewertet? 12 Standen bei der Auswertung der Tests die gleichen klinischen Informationen zur Verfügung wie bei der Anwendung des Testes in der Praxis? Die Verfügbarkeit klinischer Daten bei der Interpretation von Testergebnissen kann einen Einfluss auf die Testgenauigkeit haben. Mit klinischen Daten sind in diesem Zusammenhang auch schon Informationen über den Patienten gemeint, die durch bloße Beobachtung gesammelt werden können, also z. B. Geschlecht, Alter und Symptome.Werden klinische Daten in der Praxis zur Verfügung stehen, so sollten sie dies auch bei der Evaluierung des Testes tun (es sei denn, man möchte wirklich den reinen Effekt des diagnostischen Testes messen).Stichwort: „clinical review bias” 13 Wurden nicht auswertbare oder uneindeutige Ergebnisse berichtet? Häufig werden in diagnostischen Genauigkeitsstudien nicht beurteilbare Ergebnisse nicht angeführt und einfach aus der Analyse herausgenommen. Dies verhindert jedoch, dass der Einfluss dieser Ergebnisse auf die Testgenauigkeit abgeschätzt werden kann.Stichwort: Berichterstattung 14 Wurde das Ausscheiden von Patienten aus der Studie erklärt? Ist nachvollziehbar, was mit allen Patienten, die an der Studie teilgenommen haben, geschehen ist? (Dies sollte am besten anhand eines Flussdiagramms dargestellt werden.)Stichwort: „withdrawal bias”

In einer weiteren Publikation zeigten Whiting und Kollegen, dass anhand des QUADAS-Werkzeugs keine zusammenfassenden Qualitätsscores gebildet werden sollten [29], denn je nach Gewichtung der einzelnen Qualitätsaspekte erreichen dieselben diagnostischen Studien verschiedene Gesamtqualitätsniveaus. Vielmehr sollen individuelle prägnante Qualitätsmerkmale herausgegriffen, das Abschneiden der Studien hinsichtlich dieser differenziert diskutiert und eventuell ihr Einfluss statistisch untersucht werden. 2006 veröffentlichten Whiting und Kollegen eine Evaluation von QUADAS [30], die nachwies, das QUADAS gut umzusetzen und die Beurteilungsübereinstimmung zwischen verschiedenen Prüfern hoch ist. Jedoch betonen die Autoren in derselben Arbeit ebenfalls, dass die einzelnen Punkte des Werkzeugs an die Bedürfnisse einer jeden systematischen Übersichtsarbeit individuell angepasst werden und Autoren eindeutige Kriterien zur Beantwortung der einzelnen Fragen definieren müssen.

Das QUADAS-Werkzeug gibt den Autoren von systematischen Reviews und Metaanalysen somit ein evidenzbasiertes und validiertes Instrument an die Hand, dessen genormte Form der Qualitätsbeurteilung wiederum hilft, neue diagnostische Methoden und Tests für den klinischen Alltag auf eine evidenzbasierte Grundlage zu stellen. Sein Einsatz wird von der Arbeitsgruppe für diagnostische Testgenauigkeit der Cochrane-Organisation (www.cochrane.org), die seit 2008 ebenfalls systematische Reviews zur diagnostischen Genauigkeit aufnimmt, als alleiniges Werkzeug zur Qualitätsbeurteilung diagnostischer Studien empfohlen [31].

Literatur

1 Puig S, Felder-Puig R. Evidenzbasierte Radiologie: Ein neuer Ansatz zur Bewertung von klinisch angewandter radiologischer Diagnostik und Therapie. Fortschr Röntgenstr. 2006; 178 671-679

Google Scholar
2 Moritz J D, Hoffmann B, Meuser S H et al. Ist die Sonografie der Röntgendiagnostik in der pädiatrischen Frakturdiagnostik gleichwertig?. Fortschr Röntgenstr. 2010; 182 706-714

Google Scholar
3 Lemburg S, Atta A, Peters S et al. Lagebeurteilung transpedikulärer Schrauben nach dorsaler Spondylodese mittels konventioneller Röntgenaufnahmen: ein Vergleich zur Mehrzeilen-Computertomografie. Fortschr Röntgenstr. 2010; 182 327-333

Google Scholar
4 Hoffstetter P, Schreyer A G, Schreyer C I et al. Mehrzeilen-CT zur Evaluation bei fraglich offenen Augenverletzungen. Fortschr Röntgenstr. 2010; 182 151-154

Google Scholar
5 Heusner T A, Hamami M E, Ertle J et al. Stellenwert der Rotationsangiographie für die Detektion extrahepatischer Shunts vor Radioembolisation. Fortschr Röntgenstr. 2010; 182 603-608

Google Scholar
6 Neumann-Silkow H, Gorg C. Dignitätsbeurteilung von abdominellen Lymphadenopathien in der Powerdoppler-Sonografie. Fortschr Röntgenstr. 2010; 182 229-234

Google Scholar
7 Zangos S, Muller C, Mayer F et al. Retrospektive Analyse der 5-Jahres-Ergebnisse von MRT-gesteuerten Biopsien im Niederfeldsystem. Fortschr Röntgenstr. 2009; 181 658-663

Google Scholar
8 Yamamura J, Wildberger J E, Nagel H D et al. High-Resolution-MSCT-Thoraxuntersuchungen zur Infiltratsuche: Untersuchung einer Dosisreduktion bei immunsupprimierten Patienten. Fortschr Röntgenstr. 2009; 181 549-555

Google Scholar
9 Voit H, Krauss B, Heinrich M C et al. Dual-Source-CT: In-vitro-Charakterisierung von Gallensteinen mittels Dual-Energy-Analyse. Fortschr Röntgenstr. 2009; 181 367-373

Google Scholar
10 Baltzer P A, Dietzel M, Vag T et al. Können farbkodierte parametrische Karten die Analyse dynamischer Anreicherungsmuster in der MR-Mammografie verbessern?. Fortschr Röntgenstr. 2009; DOI: 10.1055 /s-0028-1109 843

Google Scholar
11 Hahn S, Heusner T, Zhou X et al. Automatische Erkennung und Auswertung von malignen Leber- und Lungenläsionen in der PET/CT: erste Ergebnisse. Fortschr Röntgenstr. 2009; 182 243-247

Google Scholar
12 Juchems M S, Ernst A S, Sheafor D H et al. CT-Kolografie: Vergleich zweier Visualisierungsalgorithmen an einem Screeningkollektiv. Fortschr Röntgenstr. 2009; 181 573-578

Google Scholar
13 Renz D M, Baltzer P A, Kullnig P E et al. Klinische Wertigkeit computergestützter Analysen in der MR-Mammografie. Ein Vergleich zwischen zwei Systemen und drei Untersuchern mit unterschiedlicher Erfahrung. Fortschr Röntgenstr. 2008; 180 968-976

Google Scholar
14 Honnef D, Behrendt F F, Bakai A et al. Computerassistierte Detektion (CAD) von kleinen pulmonalen Rundherden in der Mehrdetektor-Spiral-Computertomografie (MDCT) bei Kindern. Fortschr Röntgenstr. 2008; 180 540-546

Google Scholar
15 Heilmaier C, Sutter R, Lutz A M et al. Dynamische MRT der Leber mit paralleler Akquisitionstechnik: Charakterisierung fokaler Leberläsionen und Analyse des Gefäßstatus in einem Untersuchungsgang. Fortschr Röntgenstr. 2008; 180 440-448

Google Scholar
16 Vogt F M, Herborn C U, Parsons E C et al. Diagnostische Wertigkeit der kontrastverstärkten Magnetresonanzangiografie der Beckenstrombahn mit dem intravaskulären Kontrastmittel Vasovist: Erste klinische Erfahrungen im Vergleich zur i. a. DSA. Fortschr Röntgenstr. 2007; 179 412-420

Google Scholar
17 Seeger A, Doesch C, Klumpp B et al. MR-Stressperfusion zur Vorhersage flusslimitierender Stenosen bei symptomatischen Patienten mit bekannter KHK nach Stentimplantation. Fortschr Röntgenstr. 2007; 179 1068-1073

Google Scholar
18 Fenchel M, Jost D, Kramer U et al. Kardiovaskuläre MR-Ganzkörperbildgebung bei Patienten mit symptomatischer Atherosklerose der peripheren Gefäße. Fortschr Röntgenstr. 2006; 178 491-499

Google Scholar
19 Jung G, Poll L, Cohnen M et al. Dignitätsbeurteilung fokaler Leberläsionen mit der kontrastverstärkten MRT mit SHU 555 A im Vergleich zur nativen MRT und zur Mehrzeilen-Detektor-Spiral-CT. Fortschr Röntgenstr. 2005; 177 1571-1577

Google Scholar
20 Schroder R J, Boack D H, Nekwasil S J et al. Diagnostische Wertigkeit der MR-tomographischen Knorpelläsionsdarstellung im Vergleich mit der intraoperativen Arthroskopie bei Calcaneusfrakturen. Fortschr Röntgenstr. 2005; 177 367-374

Google Scholar
21 Tackmann R, Schuetz G, Hamm B et al. Berichtsqualität diagnostischer klinischer Studien: STARD (Standards for the Reporting of Diagnostic accuracy studies). Fortschr Röntgenstr. 2010; 182 655-659

Google Scholar
22 Bossuyt P M, Reitsma J B, Bruns D E et al. Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative. Am J Roentgenol. 2003; 181 51-55

Google Scholar
23 Lijmer J G, Mol B W, Heisterkamp S et al. Empirical evidence of design-related bias in studies of diagnostic tests. Jama. 1999; 282 1061-1066

Google Scholar
24 Whiting P, Rutjes A W, Reitsma J B et al. Sources of variation and bias in studies of diagnostic accuracy: a systematic review. Ann Intern Med. 2004; 140 189-202

Google Scholar
25 Rutjes A W, Reitsma J B, Di Nisio M et al. Evidence of bias and variation in diagnostic accuracy studies. Cmaj. 2006; 174 469-476

Google Scholar
26 Westwood M E, Whiting P F, Kleijnen J. How does study quality affect the results of a diagnostic meta-analysis?. BMC Med Res Methodol. 2005; 5 20

Google Scholar
27 Leeflang M, Reitsma J, Scholten R et al. Impact of adjustment for quality on results of metaanalyses of diagnostic accuracy. Clin Chem. 2007; 53 164-172

Google Scholar
28 Whiting P, Rutjes A W, Reitsma J B et al. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Med Res Methodol. 2003; 3 25

Google Scholar
29 Whiting P, Harbord R, Kleijnen J. No role for quality scores in systematic reviews of diagnostic accuracy studies. BMC Med Res Methodol. 2005; 5 19

Google Scholar
30 Whiting P F, Weswood M E, Rutjes A W et al. Evaluation of QUADAS, a tool for the quality assessment of diagnostic accuracy studies. BMC Med Res Methodol. 2006; 6 9

Google Scholar
31 Leeflang M M, Deeks J J, Gatsonis C et al. Systematic reviews of diagnostic test accuracy. Ann Intern Med. 2008; 149 889-897

Google Scholar
32 Bossuyt P M, Reitsma J B, Bruns D E et al. The STARD statement for reporting studies of diagnostic accuracy: explanation and elaboration. The Standards for Reporting of Diagnostic Accuracy Group. Croat Med J. 2003; 44 639-650

Google Scholar
33 Schuetz G M, Zacharopoulou N M, Schlattmann P et al. Meta-analysis: noninvasive coronary angiography using computed tomography versus magnetic resonance imaging. Ann Intern Med. 2010; 152 167-177

Google Scholar
34 Dewey M, Zimmermann E, Deissenrieder F et al. Noninvasive coronary angiography by 320-row computed tomography with lower radiation exposure and maintained diagnostic accuracy: comparison of results with cardiac catheterization in a head-to-head pilot investigation. Circulation. 2009; 120 867-875

Google Scholar

PD Dr. Marc Dewey

Institut für Radiologie, Charité Humboldt-Universität und Freie Universität zu Berlin

Charitéplatz 1

10117 Berlin

Phone: ++ 49/3 04 05 52 72 96

Fax: ++ 49/30/4 05 52 79 96

Email: dewey@charite.de

>