Skip to main content

Methoden klinischer Prüfung in der Onkologie

Verfasst von: Christian Dittrich, Lutz Edler und Herbert Sindermann
Fortschritt auf dem Gebiet der medizinischen Onkologie ist von Art und Sorgfalt der Integration neuer Erkenntnisse in das bestehende Wissen abhängig. Dieser Prozess wird durch die Anwendung adäquater Methoden klinischer Prüfung gewährleistet. In der Onkologie hat sich eine phasenabhängige Vorgangsweise, die sich aus der Gegebenheit der Entwicklung von Zytotoxika als ersten Onkologika ergeben hat, etabliert sowie bewährt und wurde unter Hereinnahme von Erfahrungen mit neuen Substanzen dieser Klasse immer wieder angepasst. Mit der Entwicklung der gegen molekulare Zielstrukturen gerichteten Wirkstoffe und dem Wiedererstarken moderner Immuntherapien wurden grundlegende Veränderungen in der Methodik der klinischen Prüfung notwendig und auch bereits vollzogen. Unter den basalsten methodischen Änderungen in der Entwicklung von Onkologika ist die der Studienendpunkte anzuführen. All diesen Entwicklungen wird im vorliegenden Beitrag in dem in diesem Werk möglichen Umfang Rechnung getragen.

Einleitung

Therapie und Forschung stehen in der internistischen/medizinischen Onkologie in einem besonders engen Zusammenhang. Methodisches Grundwissen, Kenntnis der aktuellen Literatur und nach Möglichkeit eigene Studienerfahrung sind daher notwendig, um Publikationen von klinischen Prüfungen sowie die Wertigkeit von Therapieempfehlungen kritisch einschätzen und im Sinne einer evidenzbasierten Medizin (EBM) sachgerecht in individuelle Therapieentscheidungen umsetzen zu können. Wenn auch präklinische Testsysteme die klinische Aktivität, d. h. Wirkung und Nebenwirkung, von neuen Wirkstoffen vorauszusagen imstande sind, bleibt es der klinischen Prüfung am Menschen vorbehalten, den Beweis der Richtigkeit wissenschaftlicher Annahmen bzw. deren Falsifizierung zu liefern. Verbesserung von Therapien, insbesondere durch Entwicklung neuer Wirkstoffe oder Therapieregime, steht im Vordergrund der klinischen Studientätigkeit, jedoch umfasst diese auch die Verbesserung von supportiven und nicht zuletzt von präventiven Maßnahmen in Bezug auf die Entwicklung von Malignomen.

Definition und Ziele klinischer Prüfungen

Allgemein wird als klinische Prüfung die in einem Prüfplan beschriebene wiederholte Anwendung einer diagnostischen, therapeutischen, präventiven oder nachsorgenden Maßnahme bezeichnet, die das Ziel hat, mindestens eine Prüfhypothese der Studienfragestellung zu bestätigen oder zu verwerfen.
Für an einer klinischen Prüfung teilnehmende Patienten steht das individuelle Behandlungsziel im Vordergrund. Interessanterweise konnte gezeigt werden, dass allein die Teilnahme an klinischen Prüfungen zu besseren (Überlebens-)Ergebnissen dieser Patienten geführt hat (Davis et al. 1985; Stiller 1989; Braunholtz et al. 2001; Unger et al. 2014; Merkhofer et al. 2019).
Das Wissen in der Onkologie mit ihren tiefen, sich rasch ausweitenden Einblicken in biologische bzw. pathophysiologische Abläufe und somit zunehmenden Kenntnissen von molekular-genetischen Veränderungen (Genomik) sowie solchen auf den Gebieten der verschiedenen weiteren „OMICS“, wie Transkriptomik, Proteomik oder Metabolomik, unterliegt – bedingt durch enorme technologische Fortschritte – einer sehr kurzen Gültigkeitsdauer. Dieser Umstand hat konsequenterweise Einfluss auf die Entwicklung von neuen Therapien, insbesondere auf die von neuen Arzneimitteln gegen Malignome, genommen.
Erst nach erfolgreichem Abschluss entsprechender klinischer Untersuchungen werden neue Wirkstoffe durch positive Entscheidung der Zulassungsbehörden zur therapeutischen Anwendung zugelassen. Die Durchführung derartiger Untersuchungen unterliegt genauen gesetzlichen Regelungen, unter Umständen verbunden mit Auflagen zur Durchführung weiterer Untersuchungen nach der Zulassung. Bisher konnten die Ausdrücke klinische Prüfung und klinische Studie stellvertretend füreinander eingesetzt werden. In diesem Kapitel wird die klinische Prüfung abgehandelt, die solche Arzneimittelstudien umfasst, auf die das in der Verordnung der Europäischen Union (EU) 536/2014 vom 16. April 2014 beschriebene Regelwerk anzuwenden ist, die jedoch auch für spezielle Vorgangsweisen Gültigkeit hat, wie z. B. Studien außerhalb zugelassener Anwendungsgebiete oder landesübliche Anwendungsweisen eines Arzneimittels (EU-Verordnung 536/2014 2014). Die klinische Studie, auf die in diesem Kapitel nicht detailliert eingegangen wird, ist gemäß dieser EU-Verordnung ein weiter gefasstes Konzept, zu der auch die klinische Prüfung gehört. Bis zur Implementierung der EU-Verordnung 536/2014 ist die EU-Richtlinie 2001/20/EG in Kraft (EU-Richtlinie 2001) (Abschn. 13.2).
Die Entwicklung von Arzneimitteln für die Krebstherapie (nachfolgend auch Onkologika bezeichnet) geht von verschiedenen therapeutischen Konzepten aus. Diese basieren auf der unterschiedlichen Charakterisierung der Malignität bzw. des Unterschieds zwischen entarteten (malignen) und nicht entarteten (benignen) Zellen. Unabhängig davon ist die Entwicklung von immunstimulierenden Arzneimitteln zu sehen, auf deren Wirkmechanismus getrennt eingegangen wird (Kap. „Prinzipien der medikamentösen Immuntherapie“). Am Anfang unseres molekularen Verständnisses von Malignität war diese durch gesteigerte DNA-Synthese und konsekutiv gesteigerte Aktivität von Reparaturenzymen, wie z. B. von Topoisomerasen, charakterisiert. Die logische pharmakotherapeutische Konsequenz war die Entwicklung von Wirkstoffen, die mit dem Prozess der DNA-Synthese interferieren, den Zytostatika bzw. Zytotoxika einerseits, und solchen, die die entsprechenden Reparaturenzyme hemmen, wie z. B. den Topoisomerase-Hemmern andererseits. Damit stand in den ersten Jahrzehnten der Entwicklung von Onkologika das Prinzip der Zytotoxizität im Vordergrund. Die neuere Sicht charakterisiert Malignität
  • als durch genetische Aberrationen bedingt,
  • mit Funktionsgewinn von Onkogenen (durch Mutation, Amplifikation oder Überexpression) oder
  • mit Funktionsverlust von Suppressorgenen (durch Mutation, Deletion oder epigenetische Abschaltung („silencing“))
als Verursacherprinzipien (Hanahan und Weinberg 2000, 2011). Die pharmakotherapeutische Antwort darauf war die Entwicklung von Wirkstoffen, die mit den Genprodukten bzw. mit den von diesen gesteuerten, deregulierten Signalwegen („pathways“) interferieren, d. h. von gegen molekulare Zielstrukturen gerichteten Wirkstoffen (MTA, „molecularly targeted agents“). Heutzutage kommen beide therapeutische Vorgehensweisen, auch in Kombination, zum Einsatz. Basierend auf dem ursprünglich zytotoxischen Wirkprinzip hat sich eine phasenweise Entwicklung von Onkologika etabliert (Tab. 1).
Tab. 1
Klassische Ziele der klinischen Prüfung von neuen Wirkstoffen/Therapien
Phase
Zielsetzung
1
Erfassung der Sicherheit und Verträglichkeit der höchsten Dosis, die für die weitere Entwicklung empfohlen wird
2
Erfassung der Aktivität und des Nebenwirkungsspektrums (Toxizität) für die in der Phase 1 eruierte Dosis und empfohlene Verabreichungsweise bei einer definierten Gruppe von Patienten
3
Nachweis der Überlegenheit/Nicht-Unterlegenheit der in der Phase 2 als entwicklungswürdig eingestuften Dosis und Verabreichungsweise im Verhältnis zum etablierten Standardvorgehen

Allgemeine Kenntnisse zur Durchführung von klinischen Prüfungen

Endpunkte der klinischen Prüfung

In Abhängigkeit vom Wirkprinzip der unterschiedlichen Arten von Onkologika haben sich teilweise unterschiedliche Endpunkte der Entwicklung als sinnhaft und damit als anzustreben herauskristallisiert (Tab. 2). Definitionen zeitbezogener Endpunkte sind in Tab. 3 angeführt.
Tab. 2
Endpunkte der Entwicklung von Onkologika und Biomarkern
Phase
Zytotoxika/Zytostatika
Gegen molekulare Zielstrukturen gerichtete Wirkstoffe (MTA)
Monoklonale Antikörper
Biomarker (BM)
0
• Zielstrukturmodulation
• Funktionale und metabolische Informationen über Effekte von Substanzen auf Zielstruktur(en) durch Bildgebungsstudien mit Radionukliden
• BM und qualifizierte Bestimmungsmethoden (Assays) für humanes Gewebe vor Studienbeginn
• BM-Assays in Humangeweben
1
• DLT
• MTD
• RP2D
• PK
• Zielstrukturmodulation
• Maximal erreichbare Zielstrukturinhibition
• Minimal effektive Dosis
• Biologisch effektive Dosis
• DLT
• MTD
• RP2D
• PK
• Identifikation von BM als explorative Endpunkte
• Sicherheit
• Verträglichkeit
• Toxizität
• Dosisabhängigkeit von Immunparametern
• ORR, PFS, OS in Expansionskohorten bei einzelnen Tumorentitäten
• (MTD)*
• BM-Charakterisierung
• Optimierung von BM-Assays in Humangeweben
• Diskriminanten/Cut-off Werte
2
• Toxizität
• Screening nach Evidenz auf biologische Aktivität bei multiplen Tumorarten
• ORR
• % Anteil Patienten progressionsfrei zu einem bestimmten Zeitpunkt
• PFS
• TTP
• TTF
• (BM-Reduktion)
• (CTC experimentell)
• (cfDNA experimentell)
Nicht randomisierte Studien
• PFS bei Randomisierung
• Toxizität
• ORR
• % Anteil Patienten progressionsfrei zu einem bestimmten Zeitpunkt
• PFS
• TTP
• TTF
• (BM-Reduktion)
• (CTC experimentell)
• (cfDNA experimentell)
in Verbindung mit Zielstrukturmodulation
Randomisierte Studien
• ORR, PFS, OS in Expansionskohorten bei einzelnen Tumorentitäten
• BM-Optimierung von Anreicherungs-BM
• Abhängigkeit der klinischen Aktivität von BM-basierter Patientenselektion
• Entscheidung über BM-basierte Wirkstoffentwicklung
3
• OS
• DFS/RFS
• PFS
• QoL
• ORR
• TFI (TFIp, TFInp, TFIb)
• (Q-TWiST)
• (MFS)
• (IBF)
• OS
• DFS/RFS
• PFS
• QoL
• ORR
• TFI (TFIp, TFInp, TFIb)
• (Q-TWiST)
in Verbindung mit Zielstrukturmodulation
• OS
• DFS/RFS
• PFS
• QoL
• ORR
• TFI (TFIp, TFInp, TFIb)
• (Q-TWiST)
in Verbindung mit Zielstrukturmodulation
• Überlegenheit der experimentellen Therapie mit BM-basierter Patientenselektion (klinische Validierung)
• Benefit mit BM-basierter Patientenselektion (klinischer Nutzen)
*Die Bestimmung von MTD ist bei der Entwicklung von monoklonalen Antikörpern nicht anzustreben
BM, Biomarker; cfDNA, zellfreie DNA; CTC, zirkulierende Tumorzellen; DFS/RFS, krankheits-/rezidivfreies Überleben; DLT, dosislimitierende Toxizität(en); IBF, Intervall bis zum biochemischen Versagen; MFS, metastasenfreies Intervall; MTA, molecularly targeted agent; MTD, maximal tolerable Dosis; ORR, objektive Ansprechrate; OS, Gesamtüberleben; PFS, progressionsfreies Überleben; PK, Pharmakokinetik; QoL, Lebensqualität; Q-TWiST, Quality-Adjusted Time Without Symptoms of disease and Toxicity of treatment; RP2D, für die Phase 2 empfohlene Dosis; TFI, therapiefreies Intervall; TFIb, therapiefreies Intervall nach biologischem Wirkstoff; TFInp, therapiefreies Intervall nach Nicht-Platin; TFIp, therapiefreies Intervall nach Platin; TTF, Zeit bis zum Therapieversagen; TTP, Zeit bis zur Krankheitsprogression
Tab. 3
Zeitbezogene Endpunkte klinischer Prüfungen im Rahmen der Entwicklung von Onkologika
Endpunkt
Definition*
Dauer des objektiven Ansprechens (OR)
Intervall von der erstmaligen Dokumentation eines kompletten oder partiellen Ansprechens (welches auch immer zuerst festgestellt wird) bis zum Zeitpunkt der ersten Feststellung eines Rezidivs oder von Progression; als Referenzwert für die Feststellung von Progression dient die geringste während der klinischen Prüfung gemessene Tumorausdehnung
Dauer des kompletten Ansprechens (CR)
Intervall von der erstmaligen Dokumentation eines erst zu erreichenden kompletten Ansprechens bis zum Zeitpunkt der ersten objektiven Feststellung des Wiedererkrankens
Zeit bis zur Krankheitsprogression (TTP)
Intervall von der Dokumentation der Ausgangssituation** bis zur erstmaligen Feststellung von Progression
Progressionsfreies Überleben (PFS)
Intervall von der Dokumentation der Ausgangssituation** bis zur erstmaligen Feststellung von Progression oder dem Eintreten des Todes unabhängig von dessen Ursache
Zeit bis zum Versagen der Behandlung (TTF)
Intervall von der Dokumentation der Ausgangssituation** bis zur erstmaligen Feststellung von Progression oder Tod (auch ohne Progression) oder vorzeitiger Abbruch der (länger geplanten) Therapie aufgrund von Toxizität, Wunsch des Patienten oder Einschätzung des Arztes
Krankheits-/rezidivfreies Überleben (DFS/RFS)
Intervall von der Dokumentation des bereits erreichten Zustands der Krankheitsfreiheit** bis zur erneuten Erkrankung (Rezidiv, Metastasierung, Zweitprimärtumor im selben Organ) oder bis zum Eintreten des Todes unabhängig von dessen Ursache
Gesamtüberleben (OS)
Intervall von der Dokumentation der Ausgangssituation** bis zum Tod oder dem festgelegten Ende der klinischen Prüfung; für Patienten, die zu diesem Zeitpunkt noch nicht verstorben sind, geht die OS-Dauer als zensiert in die Überlebenszeitberechnung ein
*In der statistischen Auswertung dieser Endpunkte ist zusätzlich ein mögliches Auftreten zensierter Daten zu berücksichtigen, falls der Endpunkt unvollständig beobachtet wurde
**Im jeweiligen Prüfprotokoll ist festzuhalten, ob die Ausgangssituation mit dem Zeitpunkt der Randomisierung, dem Therapiebeginn oder mit einem anderen Zeitpunkt festgelegt ist

Beurteilungskriterien für Nebenwirkungen/Toxizitäten

Die Erfassung und damit die Beurteilung von Nebenwirkungen/Toxizitäten von Prüfsubstanzen (IMP, „investigational medicinal product“), die in die Angabe
  • dosislimitierender Toxizitäten (DLT, „dose limiting toxicities“),
  • maximal tolerabler Dosis (MTD, „maximum tolerated dose“) und
  • die für die Phase 2 empfohlene Dosis (RP2D, „recommended phase 2 dose“)
eingehen, sind essenzielle Aufgabe und Inhalt des ersten Prüfschritts, nämlich der Phase 1. Nachdem über Jahrzehnte der klinischen Prüfung die unterschiedlichsten Beurteilungssysteme in Gebrauch waren, werden inzwischen weltweit die sogenannten allgemeinen Terminologiekriterien für unerwünschte Ereignisse (CTCAE, Common Terminology Criteria for Adverse Events) des National Cancer Institute (NCI) des National Institute of Health (NIH) der Vereinigten Staaten von Nordamerika (U.S.) eingesetzt, welche die Nebenwirkungsspektren auch moderner Wirkstoffklassen in einer einheitlichen Skala abbilden (Kap. „Bewertung unerwünschter Ereignisse und Therapienebenwirkungen“). Abgesehen von der Beurteilung des Schweregrads (G, „grade“) eines unerwünschten Ereignisses (AE, „adverse event“) ist die Abschätzung wichtig, ob dieses kausal von der Prüfsubstanz ausgelöst wurde oder von dieser unabhängig, z. B. krankheitsbedingt, auftrat (Kap. „Bewertung unerwünschter Ereignisse und Therapienebenwirkungen“). Von der Validität der Dokumentation der AE hängt viel für die Einschätzung der Verträglichkeit einer Prüfsubstanz ab (Maillet et al. 2016; Vera-Badillo et al. 2016; Tsimberidou et al. 2019; Mileham et al. 2019).

Beurteilungskriterien für Wirksamkeit

Allgemeine Betrachtung

Nachvollziehbare Ergebnisse der klinischen Prüfung setzen objektiv erfassbare Messgrößen sowie definierte Beurteilungskriterien voraus. Die Auswahl der Kriterien hat sowohl Besonderheiten der Erkrankung und die Art des zu dokumentierenden Ansprechens als auch die Priorität des jeweiligen Endpunkts in der Studienfragestellung zu berücksichtigen. So ist zu unterscheiden zwischen
  • Studien mit zytotoxischen Wirkstoffen, bei denen die Rückbildung bestehender Läsionen als Indikator für Tumoransprechen und als Entscheidungshilfe für eine weitere klinische Entwicklung im Vordergrund steht, und
  • Studien mit molekulare Zielstrukturen angreifenden Wirkstoffen, die eher eine Verlangsamung oder einen Stopp der Krankheitsprogression erwarten lassen.
lm ersten Fall ist der primäre Studienendpunkt meist die erzielte objektive Ansprechrate (ORR, „objective response rate“), dem Anteil der Patienten mit Tumorrückbildung entsprechend, im zweiten Fall die Dauer bis zum Nachweis der Progression oder die gezielte Beeinflussung eines anderen Krankheitsindikators. Speziell bei sogenannten Immuncheckpoint-inhibierenden monoklonalen Antikörpern wurde neben konventionellem Ansprechverhalten sogenannte Pseudoprogression – eine vorübergehende Vergrößerung der vermessenen Läsionen durch Immunzellen – beobachtet, die mit Verlängerung des Überlebens einhergehen kann. Als negativer Auswuchs von Immuntherapie wurde sogenannte Hyperprogression – eine über das erwartete Ausmaß an Progression extrem hinausgehende Vergrößerung der vermessenen Läsionen bzw. Auftreten neuer Läsionen – beschrieben.
Für Studien zur Bewertung des Stellenwerts einer neuen Therapie stehen Endpunkte wie
  • Gesamtüberleben (OS, „overall survival“),
  • Lebensqualität (QoL, „quality of life“) und mittlerweile auch
  • progressionsfreies Überleben (PFS, „progression free survival“)
im Vordergrund.

Studienendpunkt Ansprechen

Als Standard für die Beurteilung des Ansprechens solider Tumoren werden die sogenannten RECIST (Response Evaluation Criteria in Solid Tumors) angesehen (Therasse et al. 2000), die mittlerweile aktualisiert wurden (RECIST 1.1; Eisenhauer et al. 2009). RECIST fordern eine eindimensionale Vermessbarkeit von Indikator-(Target-)Läsionen. RECIST 1.1 definiert je nach Messverfahren Mindestgrößen für die längste Achse von Target-Läsionen (z. B. 20 mm bei konventionellem Lungenröntgen und 10 mm bei Computertomografie (CT)). Neu bei RECIST 1.1 ist die Aufnahme von pathologischen Lymphknoten mit kurzer Achse von ≥15 mm Durchmesser unter die messbaren Läsionen, und es wurde die maximale Anzahl der Target-Läsionen gegenüber der ersten RECIST-Version von 5 auf 2 pro Organ und von 10 auf 5 insgesamt reduziert. Weitere Läsionen, die durchaus vermessbar sein können, sind als Non-Target-Läsionen zu dokumentieren und werden in die Gesamtbewertung einbezogen. Als grundsätzlich nicht messbar gelten
  • osteoplastische Knochenmetastasen,
  • leptomeningealer Befall,
  • Pleura- oder Perikarderguss,
  • inflammatorische Brustveränderungen,
  • kutane oder pulmonale Lymphangiosis,
  • abdominale Raumforderungen, die nicht durch bildgebende Verfahren dokumentiert sind, sowie
  • zystische Veränderungen.
Als bedingt messbar werden zystische Knochenmetastasen bzw. andere zystische Läsionen eingestuft.
Gemäß RECIST 1.1 werden die maximalen Durchmesser von bis zu 5 Target-Läsionen bei maximal 2 Läsionen je betroffenem Organ addiert. Diese Summe dient als Bezugsgröße für Folgeuntersuchungen, bei denen auf eine unveränderte Messmethodik und die Erfassung sämtlicher Target-Läsionen zu achten ist.
Sind in 2 Messungen im Abstand von mindestens 4 Wochen keine Target-Läsionen mehr nachweisbar (und auch keine Non-Target-Läsionen), gilt dies als komplettes Ansprechen (CR, „complete response“). Ein Rückgang in der Summe der Target-Läsionsdurchmesser um mindestens 30 % wird als partielles Ansprechen (PR, „partial response“) bezeichnet. Eine Abnahme um weniger als 30 % oder eine Zunahme um weniger als 20 % wird als Stabilität der Erkrankung (SD, „stable disease“) gewertet, während eine stärkere Größenzunahme bereits vorhandener Target-Läsionen oder der Nachweis neuer Läsionen eine Tumorprogression (PD, „progressive disease“) markieren.
Auch wird im Detail beschrieben, wie Veränderungen von Target-Läsionen und Non-Target-Läsionen und/oder das Auftreten von neuen Läsionen in die Bewertung des Gesamtansprechens (OR, „overall response“) einbezogen werden.
Neu bei RECIST 1.1 ist auch eine sogenannte zweifelsfreie („unequivocal“) Progression von Non-Target-Läsionen, d. h. Progression „ … ausreichend, um einen Wechsel der Therapie erforderlich zu machen“, die allenfalls in die Beurteilung von OR einfließt. Laut RECIST 1.1 ist die Bestätigung von CR oder PR (nach ≥4 Wochen) im Gegensatz zur ersten RECIST-Version lediglich in nicht-randomisierten klinischen Prüfungen erforderlich, in denen Ansprechen den primären Endpunkt darstellt. Nicht zuletzt wurde diese Bestätigung auch beibehalten, um derartige Prüfergebnisse mit historischen Daten, die auf der Basis von RECIST-Bestätigungsmessungen beruhen, besser vergleichbar zu machen.
Ansprechen zu einem bestimmten Zeitpunkt bei Patienten mit ausschließlich Non-Target-Läsionen kann in Phase-1-, aber auch in Phase-3-Prüfungen Anwendung finden, nicht aber in der Phase 2, in der die Erfassung des Ansprechens einen Hauptinhalt darstellt.
Der Begriff bestes Gesamtansprechen („best overall response“) definiert das beste Ansprechen von Beginn bis zum Ende einer Behandlung (Eisenhauer et al. 2009).
Auch wenn RECIST ursprünglich für die Beurteilung des Ansprechens auf zytostatische/zytotoxische Chemotherapie entwickelt wurde, konnte mittels retrospektiver Analyse einer Datenbasis von 50 klinischen Prüfungen mit zumindest einem MTA gezeigt werden, dass RECIST 1.1 zuverlässig auch bei derartigen Wirkstoffen eingesetzt werden kann (Litière et al. 2019).
Technologische Fortschritte der Bildgebung haben mittlerweile dazu geführt, dass nuklearmedizinische Ergebnisse auf der Basis der Positronenemissionstomografie (PET) für den Einsatz in der klinischen Prüfung bereits durch RECIST 1.1 berücksichtigt und mittels PERCIST (Positron Emission Tomography Response Criteria in Solid Tumors) erfasst werden können (Wahl et al. 2009). Darüber hinaus ist es für manche Tumorentitäten zur Entwicklung von modifizierten RECIST („modified (m)RECIST“) gekommen, wie z. B. für das hepatozelluläre Karzinom (Bruix und Sherman 2005) oder das maligne pleurale Mesotheliom (Byrne und Nowak 2004). Für andere Tumorentitäten wurden separate Beurteilungskriterien entwickelt:
  • für gastrointestinale Stromatumoren (GIST) von Choi et al. (2007),
  • für das Prostatakarzinom von der Prostate Cancer Clinical Trials Working Group (PCWG 3) (Scher et al. 2016) oder
  • für hochgradig maligne Gliome von Macdonald et al. (1990) und Wen et al. (2010) und
  • für niedriggradig maligne Gliome die „Response Assessment in Neuro-Oncology“-(RANO-)Kriterien von van den Bent et al. (2011).
  • Für Lymphome wurde von der International Working Group ein Konsens über neue Ansprechkriterien (RECIL, Response Evaluation Criteria in Lymphoma) erarbeitet (Younes et al. 2017).
Die unter Immuntherapie mittels Checkpoint-Inhibitoren erstmals identifizierten Phänomene Pseudoprogression und Hyperprogression haben erst teilweise Eingang in konsentierte Beurteilungskriterien gefunden. Der erste Entwurf von zweidimensionalen sogenannten immunbezogenen RECIST („immune-related (ir)RECIST“) wurde bereits 2009 von Wolchok et al. publiziert, eine vereinfachte Version von Nishino et al. (2013). Schließlich veröffentlichte die RECIST-Working Group eigene sogenannte Immun-(i)RECIST, um die Erfolgsbeurteilung in klinischen Prüfungen der Immuntherapie zu vereinheitlichen (Seymour et al. 2017). Unabhängig davon publizierten Hodi et al. (2018) eine neue Version von sogenannten immunmodifizierten RECIST („immune-modified (im)RECIST“).
Zumal keines der neuen Evaluierungssysteme bisher validiert wurde, sind RECIST 1.1 nach wie vor als primäre Ansprechkriterien in der fortgeschrittenen Situation der klinischen Prüfung, Phase 3, zu verwenden und dienen auch den Zulassungsbehörden als Standard (Litière et al. 2017; Smoragiewicz et al. 2018; Borcoman et al. 2019). Dadurch wird auch der Problematik ausgewichen, verschiedene Kriterien in einer Studie oder die für Immuntherapien entwickelten auf Standardchemotherapie-Vergleichsarme anzuwenden. In Zukunft wird auch dem Umstand Rechnung zu tragen sein, dass Immuntherapie häufig in Kombination mit Chemotherapie angewendet wird. Für die intratumorale Immuntherapie wurden separate Ansprechkriterien („intratumoral (it)RECIST“) entwickelt (Goldmacher et al. 2020).

Studienendpunkt Wirkdauer

Der zeitliche Verlauf einer Beeinflussung des Tumorwachstums wird vorwiegend über
  • das krankheitsfreie Überleben (DFS, „disease free survival“),
  • das rezidivfreie Überleben (RFS, „relapse free survival“),
  • die Zeit bis zur Progression (TTP, „time to progression“),
  • das progressionsfreie Überleben (PFS, „progression free survival“) und
  • das Gesamtüberleben (OS, „overall survival“)
erfasst und charakterisiert (Tab. 3).
OS ist der härteste Erfolgsparameter, da er bei einfachster Beobachtungsmethodik sicher bestimmt werden kann; abhängig von Art und Stadium der Erkrankung kann aber eine lange Nachbeobachtung bis zum Erreichen einer statistisch auswertbaren Anzahl von Ereignissen (Todesfällen) erforderlich sein. Es mag daher einfacher erscheinen, eine kürzere Dauer, z. B. bis zum Rezidiv oder zur Krankheitsprogression, als relevanten Endpunkt zu wählen. Dabei wird leicht übersehen, dass das umfassende Staging von Patienten bei Studieneingang periodisch im Studienverlauf wiederholt werden muss und der Abstand zwischen den Folgeuntersuchungen die maximal erreichbare zeitliche Auflösung dieses Endpunkts bestimmt. Vor allem ist zu beachten, dass eine versäumte Untersuchung oder ein unvollständiges oder fehlerhaftes Re-Staging zur verspäteten Entdeckung einer neuen Läsion, also zu einem fälschlich verlängerten DFS-/RFS-/TTP-/PFS-Wert führen kann. Noch fehleranfälliger sind Angaben über die Zeit bis zum Therapieversagen (TTF, „time to treatment failure“), wenn in klinischen Prüfungen ohne Kontrollgruppe oder Verblindung sowohl Einstufung von Toxizität als auch subjektive Faktoren der klinischen Verlaufsbeurteilung („observer bias“) in die Bestimmung des Endpunkts eingehen.
Es ist die Forderung zu erheben, bei jeder Tumorentität genaue Definitionen der Endpunkte für die jeweiligen Behandlungssituationen, adjuvant oder palliativ, vorzunehmen und zu berichten, um eine bessere Vergleichbarkeit der Ergebnisse zwischen verschiedenen Studien zu gewährleisten (Saad und Katz 2009). Dies gilt in besonderer Weise für die Endpunkte DFS und RFS und für die adjuvante Therapie (Robinson et al. 2014a).
Auf weitere Endpunkte wird nicht im Detail eingegangen. So findet die „Quality-Adjusted Time Without Symptoms of disease and Toxicity of treatment“-(Q-TWiST-)Methode offenbar wegen ihrer Komplexität und dem Fehlen von Information zu einem bestimmten Zeitpunkt eher seltener Anwendung (Goldhirsch et al. 1989; Tabernero et al. 2017; Matulonis et al. 2019; Cabarrou et al. 2020). Andere Endpunkte sind rezent für eine bestimmte Behandlungssituation bei einer bestimmten Tumorentität, und zwar beim vorbehandelten Ovarialkarzinom, etabliert worden (Wilson et al. 2017). Die historische Definition des platinfreien Intervalls (PFI, „platinum free interval“) wurde durch das therapiefreie Intervall (TFI, „therapy free interval“) ersetzt und in TFIp (PFI), TFInp (non-PFI) und TFIb („biological agent free interval“) unterteilt. Andere neue Endpunkte, wie metastasenfreies Überleben (MFS, „metastases free survival“) bei nicht-metastasiertem, kastrationsresistentem Prostatakarzinom oder das Intervall bis zum biochemischen, d. h. PSA-(Prostata-spezifisches Antigen-)Wiederanstieg (IBF, „interval to biochemical failure“), haben noch keine endgültige Positionierung erfahren (Xie et al. 2017; Parikh und Prasad 2018; Dignam et al. 2019; Brave et al. 2020).

Präklinische Untersuchungen zur Bestimmung einer Startdosis für die klinische Prüfung eines Wirkstoffs und zur Vorhersage von Toxizitäten

Die Festlegung der Startdosis eines Wirkstoffs zur klinischen Prüfung in der Phase 1, insbesondere wenn es sich um eine Erstanwendung am Menschen („first-in-human; first-in-man“) handelt, erfolgt auf der Basis von tiertoxikologischen Untersuchungen. Ein Zehntel der „lethal dose10“ (LD10) bei Mäusen – jene Dosis, bei der 10 % der Mäuse versterben – hat sich als sichere Einstiegsdosis bewährt, wenn die Dosis auf der Basis von Körperoberfläche (in mg pro m2) angegeben ist (Freireich et al. 1966).
Newell et al. (1999, 2004) konnten zeigen, dass mit der Toxizitätserfassung ausschließlich an Nagetieren (Mäusen, Ratten) eine sichere Einstiegsdosierung für klinische Prüfungen der Phase 1 bestimmt werden kann. Durch die Verwendung einer zweiten Tierspezies – zusätzlich zu Nagern – konnten auch seltene (7 %) Fälle verhindert werden, in denen die Startdosis über der MTD gelegen war (Tomaszewski 2004; EMA/CPMP/ICH/286/1995 2009; FDA Guidance for Industry 2005; Tam 2013).
Deshalb bestehen die Zulassungsbehörden darauf, dass Prüfsubstanzen mit neuem Wirkmechanismus jeweils sowohl in einer Nagetier- als auch in einer Nicht-Nagetierspezies getestet werden. In den ICH-S9-(International Conference on Harmonisation-Safety-)Leitlinien wurde die ursprüngliche Startdosis bei Patienten von einem Zehntel der LD10 von Mäusen auf ein Zehntel der stark toxischen Dosis in 10 % von Nagern (STD10, „severely toxic dose 10“) herabgesetzt (EMA/CHMP/ICH/646107/2008 2010). Falls eine Nicht-Nagetierspezies als geeigneter zur Toxizitätserfassung eingestuft wird, wird ein Sechstel der höchsten nicht stark toxischen Dosis (HNSTD, „highest non-severely toxic dose“) als geeignete Startdosis angesehen. HNSTD ist die höchste Dosisstufe, die nicht zu Tod, lebensbedrohenden Toxizitäten oder irreversiblen Schädigungen führt. Allerdings wird die Einschränkung angebracht, dass die gewählte Startdosis von einer üblicherweise empfindlicheren Nicht-Nagetierspezies, wie z.  B. Hunden, toleriert werden muss. Während die Prädiktion von Hämatotoxizität sowie gastrointestinaler, Nephro- und Hepatotoxizität als zufriedenstellend einzustufen ist, sind Dermato-, Kardio- und Neurotoxizität ungenügend genau voraussagbar (Carter 1977).
Die Wahl der Testtierspezies erscheint für die Erfassung bestimmter Toxizitäten entscheidend. Aufgrund von sogenannten Off-Target-Effekten von Wirkstoffen, die gegen molekulare Zielstrukturen gerichtet sind, sind solche Toxizitätsprofile weniger auf pharmakologischer Basis vorhersagbar (Le Tourneau et al. 2010; Hansen et al. 2015; Suh et al. 2016). Gemäß der European Medicines (Evaluation) Agency (EM(E)A) wird im Falle der Testung an Probanden – wie dies bei MTA, nicht aber bei Zytotoxika zulässig ist – die Extrapolation von der Exposition vom höchsten „no observed adverse event level“ (NOAEL) in der relevantesten Tierspezies für die Einschätzung äquivalenter Exposition beim Menschen herangezogen (EMA/CPMP/ICH/286/1995 2009; EMEA/CHMP/SWP/28367/07Rev.1 2017). Die Einschätzung erfolgt auf der Basis von State-of-the-Art-Modellierung (z. B. Pharmakokinetik/Pharmakodynamik (PK/PD); PBPK („physiologically based PK“)) und/oder auf jener von allometrischen Faktoren (Agoram 2009).
„Minimal anticipated biological effect level“ (MABEL) wird sowohl für die Phase-1-Testung an gesunden Probanden als auch an Patienten zur Entwicklung von Biologika eingesetzt. Um MABEL beim Menschen zu bestimmen, wird zunächst die Exposition von präferenziell humanem Gewebe im Rahmen präklinisch-pharmakologischer Studien (inklusive Ex-vivo- und In-vitro-Studien) in Bezug auf PD-Effekte untersucht. Von MABEL wird auf die pharmakologisch aktive Dosis (PAD) und/oder die antizipierte therapeutische Dosis (ATD) extrapoliert (EMA/CHMP/205/95Rev. 5 2017).

Klinische Prüfung der Phase 0

Die etablierte 3-Phasen-Entwicklung von Onkologika führte in ungenügendem Ausmaß zum Erfolg. So wurden nach Kola und Landis (2004) und Thomas et al. (2016) lediglich 5 %, nach Hay et al. (2014) 6,7 %, nach Walker und Newell (2009) 18 % und nach DiMasi et al. (2003) 26 % der Wirkstoffe, die einer klinischen Phase-1-Prüfung unterworfen wurden, schließlich als Arzneimittel zugelassen. Deshalb wurde nach Effizienzsteigerung gesucht und eine solche in sogenannten „Exploratory IND-(Investigational New Drug)“-Studien, auch als Phase-0-Studien bezeichnet, in der frühen Entwicklungsphase gefunden (Kummar et al. 2007; Marchetti und Schellens 2007; LoRusso 2009; Takimoto 2009).
Ziel dieser Phase-0-Prüfungen ist es, zur Verbesserung des Entscheidungsprozesses über die Weiterentwicklung einer Leitsubstanz beizutragen.
Auf der Basis von ersten Bioassays mit humanem Gewebe sollen anstelle von nicht immer konsistenten Daten von Tiergewebe erste humane PK-Daten unter sogenannter Mikrodosierung erfasst werden, um PD-Daten zu generieren (Tab. 2). Insbesondere wenn es darum geht, den angenommenen Wirkmechanismus nachzuweisen bzw. zu falsifizieren, muss eine pharmakologisch relevante Dosierung eingesetzt werden, allerdings ohne dass die MTD angestrebt wird (Rubinstein et al. 2010).
Da in der Phase 0
  • einer sehr begrenzten Anzahl an Patienten oder Probanden
  • eine Prüfsubstanz in geringer Dosierung (Mikrodosen),
  • in begrenzter Häufigkeit (von einmal bis mehrmals) und
  • über einen begrenzten Zeitraum (z. B. von maximal 7 Tagen)
appliziert wird, sind weniger umfangreiche präklinische Toxizitätsstudien und weniger aufwendige Produktionsmaßnahmen erforderlich. Da dieser Vorgangsweise jedoch weder ein diagnostisches noch therapeutisches Ziel zugrunde liegt, stellt sie gleichzeitig eine besondere ethische Herausforderung dar. Dieser Umstand, die Notwendigkeit einer Ausrüstung mit hoch sensitiven bioanalytischen Geräten und erforderliche Kenntnisse in der Entwicklung von Assays für Biomarker haben die Etablierung von solchen Testeinrichtungen der Phase 0 auf wenige hoch spezialisierte Zentren beschränkt.

Klinische Prüfung der Phase 1

Primäre Zielsetzung der Phase 1 ist bei Zytotoxika die Festlegung der (höchsten) Dosis der Prüfsubstanz für die weitere Entwicklung, und zwar unabhängig von der Tumorentität.
Beurteilungsgrundlage einer solchen Dosisfindungsstudie ist der Zusammenhang zwischen Dosis und Verabreichungsform (z. B. Bolus, Infusion, peroral) einerseits und den erwünschten und unerwünschten Wirkungen der Prüfsubstanz andererseits (Tab. 1).
Bei einem zytotoxischen Wirkstoff sind primäre Endpunkte der Phase 1 (Tab. 2)
  • die Bestimmung der maximal verträglichen Dosis (MTD, „maximum tolerated dose“) auf der Basis von nach Art und Schweregrad definierten dosislimitierenden Toxizitäten (DLT, „dose limiting toxicities“) sowie
  • die Empfehlung einer Dosis für die weitere Untersuchung, in der Regel in einer Phase-2-Prüfung (RP2D, „recommended phase 2 dose“).
Die Bestimmung von MTD und RP2D erfolgt unter begleitender ausführlicher Beschreibung der PK der Prüfsubstanz in der gewählten Verabreichungsform. Nachgeordnet erfolgt die Erfassung aller Nebenwirkungen bzw. der Toxizität als Teil der Berichterstattung über unerwünschte Ereignisse (AE, „adverse events“) sowie die Erfassung antitumoraler Aktivität in Form von Ansprechen.
Bei MTA werden im Allgemeinen die aus der Entwicklung von Zytotoxika bekannten Endpunkte beibehalten, jedoch um die Komponente der Modulation, meist Hemmung, der Zielstruktur ergänzt. Primäre Endpunkte können dabei
  • die Bestimmung der maximalen Modulation der relevanten Zielstruktur oder
  • die der minimal effektiven Dosis oder, weniger präzise,
  • die einer biologisch effektiven Dosis
sein (Tab. 2). Das häufig zitierte Postulat der Bestimmung einer biologisch optimalen Dosis ist zwar prinzipiell gut untermauert, erscheint jedoch kaum zu einem so frühen Entwicklungszeitpunkt verwirklichbar (Gruber et al. 1995). Zu viele Faktoren wie Patientencharakteristika, genetische Faktoren, Lebensstil, Organfunktionen, Begleiterkrankungen, Ko-Medikationen, Körperzusammensetzung oder krankheitsbedingte Faktoren können die systemische Exposition einer Substanz und damit die Optimierung einer solchen Exposition beeinflussen (Adjei 2006; Mathijssen et al. 2014).

Grundsätzliche Voraussetzungen für klinische Prüfungen der Phase 1

Sowohl für die Entwicklung eines zytotoxischen Wirkstoffs als auch eines MTA sind aus Sicht der Methodik der Phase 1 folgende Vorbedingungen zu erfüllen:
  • Die Festlegung einer sicheren Startdosis, die in der Regel, so noch keine humanen Daten vorliegen, von präklinischen Daten, z. B. aus Tierexperimenten, anhand entsprechender Fragestellungen zu Wirkung und Toxizität abgeleitet wird (Abschn. 4)
  • Die prospektive Festlegung eines Designs, d. h. des Schemas für Dosissteigerungen (Dosiseskalation) zur Erstellung des Dosis-Wirkungsprofils
  • Die eindeutige Festlegung von DLT zur Bestimmung der MTD als Schwellenwert, der eine weitere Dosissteigerung verbietet
  • Die prospektive Festlegung eines Verfahrens zur Bestimmung von MTD und RP2D und damit auch einer Regel zur Beendigung der Studie

Startdosis und Dosiseskalation

Die Bestimmung einer geeigneten Startdosis ist primär vom Wunsch getragen, eine für die Anwendung sichere Dosis zu wählen (Abschn. 4), während die Eskalation möglichst wenige Patienten auf einer unwirksamen Dosisstufe belassen bzw. ermöglichen soll, Patienten möglichst rasch auf einer Dosisstufe mit antitumoraler Wirkung zu testen (Abschn. 6.3 – „Dosiseskalation“).

DLT, MTD und RP2D

Toxizitäten werden weltweit übereinkunftsgemäß nach den U.S.-NCI-NIH Common Terminology Criteria for Adverse Events (CTCAE; bisher Version 4.03, aktuell Version 5.0) angegeben (Kap. „Bewertung unerwünschter Ereignisse und Therapienebenwirkungen“).
Die Festlegung, welche Toxizitäten welchen Schweregrads (G, „grade“; von G1 bis G5) als DLT einzustufen sind, erfolgt im Allgemeinen prüfsubstanz- und protokollspezifisch. Häufig werden nicht- hämatologische Toxizitäten G3/G4 und hämatologische Toxizitäten G4 als DLT definiert. DLT beziehen sich üblicherweise auf den Beurteilungszeitraum der ersten Behandlungsperioden bzw. Zyklen, oft nur auf wenige Wochen bzw. nur auf den ersten Zyklus. Abhängig vom Stoffwechselweg und Toxizitätsspektrum der Prüfsubstanz sind für Untergruppen von Patienten mit bereits bestehenden Organschädigungen (z. B. Leber oder Niere) spezifische Untersuchungen erforderlich, um allenfalls im fortgeschrittenen Stadium der Phase 1 adaptierte MTD- und RP2D-Werte bestimmen zu können.
Die Ermittlung von MTD erfolgt auf der Basis von im Voraus festgelegten DLT, d. h. festgelegten Häufigkeiten bestimmter Toxizitäten von spezifiziertem Grad im vorgesehenen Beurteilungszeitraum. Oft benutzte Standardwerte für die Schwellen der Häufigkeit und der Schwere der Toxizität sind 30 % und ≥G3. Das Verfahren zur Bestimmung von MTD ist protokollspezifisch ebenfalls im Voraus festzulegen, üblicherweise durch Angabe der niedrigsten untersuchten Dosierung der Prüfsubstanz, bei der die Häufigkeit von DLT bei/über einem festgelegten Prozentsatz liegt. Feste Algorithmen oder statistische Testverfahren zur Bestimmung von MTD sind in dieser frühen Phase der Entwicklung eher weniger ausgeprägt.
Das gilt auch für den weiteren Endpunkt RP2D, die für Phase-2-Prüfungen empfohlene Dosis, die vereinbarungsgemäß unter der MTD liegt; üblicherweise die nächst niedrigere geprüfte Dosis. Im angelsächsischen Raum wird RP2D auch als MTD bezeichnet; die gültige Definition ist stets dem jeweiligen klinischen Prüfprotokoll zu entnehmen.
Die Analyse klinischer Prüfungen von MTA hat ergeben, dass mehr als die Hälfte der schwerwiegenden Toxizitäten (G3/G4) erst nach dem ersten Zyklus oder noch später auftreten und damit nach der üblichen DLT-Periode für Zytotoxika. Während das Beurteilungsintervall für die Dosiseskalation bei lediglich einem Zyklus belassen wurde, fließen in die Bestimmung von MTD auch die Toxizitätsbeurteilungen bzw. DLT-Erfassungen jenseits des Zyklus 1 ein, insbesondere wenn diese mit einer Reduktion der relativen Dosisintensität auf unter 75 % verbunden sind (Postel-Vinay et al. 2014).

Spezielle Voraussetzungen für klinische Prüfungen der Phase 1

Die Wahl des geeigneten Verabreichungsschemas („schedule“) hängt von wissenschaftlichen, aber auch pragmatischen und merkantilen Überlegungen ab, wie
  • pharmazeutischen Eigenschaften, insbesondere Galenik der Prüfsubstanz,
  • vermutetem Wirkmechanismus,
  • Abhängigkeit vom zeitlichen Verabreichungsablauf („schedule dependency“) in Tierversuchen,
  • präklinischen und klinischen pharmakologischen Daten,
  • Praktikabilität für Patienten,
  • Zieltumor(en) und
  • der Strategie der Arzneimittelentwicklung,
  • der beabsichtigten Indikation, für die die Zulassung angestrebt wird, oder
  • nationalen Kostenerstattungssystemen.
Adäquate Ein- und Ausschlusskriterien stellen eine weitere wichtige Voraussetzung für eine erfolgreiche frühe klinische Prüfung dar. Das Fehlen wirksamer Therapiealternativen in Form von Systemtherapie, Operation oder Strahlentherapie stellt unverändert eine ethische Grundbedingung für die Teilnahme an einer „First-in-man“-Studie und an Phase-1-Prüfungen generell dar, wobei für frühe Phase-1-Prüfungen, insbesondere „First-in-man“-Studien, nach wie vor die Forderung nach normalen Organfunktionen aufrecht zu erhalten ist. Später ist das Vorwissen über mögliche oder zu erwartende unerwünschte Arzneimittelwirkungen, z. B. aus Prüferinformationsschriften (IB, „investigator’s brochure“) zu berücksichtigen. Die Vermessbarkeit von Tumorläsionen muss jedoch nicht gegeben sein, wenn nicht auch eine Beurteilung des Ansprechens gefordert wird.

Designs der klinischen Prüfung in der Phase 1

Ein wesentlicher Baustein einer Phase-1-Prüfung ist das Design, d. h. das Schema der Dosissteigerung und die Verteilung der Studienteilnehmer auf die vorgesehenen Dosisstufen.
Im ethischen Dilemma zwischen der Gabe einer potenziell toxischen Prüfsubstanz in einer unwirksamen Dosierung und einer potenziell wirksamen Prüfsubstanz in einer zu toxischen Dosierung werden bei einem Zytotoxikum bei der Dosissteigerung ab Start im Bereich der kleinen Dosen zunächst große Dosissprünge (z. B. Verdoppelung oder das 1,5-Fache in einer multiplikativen Skala) zugelassen, die dann rasch sukzessive verringert werden, sodass bei weiteren Schritten nur noch eine konstant geringe Menge an Prüfsubstanz zur vorangegangenen Dosis addiert wird (arithmetische/lineare Skala). Grundsätzlich kann unterschieden werden zwischen
  • einem geschlossenen Dosierungsschema, bei dem einschließlich der Startdosis die vorgesehenen weiteren Dosisstufen genau festgelegt sind, und
  • einem offenen Dosierungsschema, bei dem nach festgelegter Startdosis die folgenden Dosisstufen nicht vorgegeben sind und ein bestimmter Algorithmus, der in der Regel jedoch auf ein pharmakologisch sinnvolles Raster unterschiedlicher Dosen eingeschränkt ist und die jeweils nächste Dosis bestimmt.
Eine Zwischenlösung, bei der nur einige wenige Dosen nach der Startdosis festgelegt werden und dann mit einem offenen Dosierungsschema fortgefahren wird, ist eher selten.
Die Festlegung der Anzahl der zu prüfenden Dosisstufen und der Patienten, die auf jeder Dosisstufe behandelt werden sollen, bestimmt die Gesamtzahl der erforderlichen Patienten. Im Gegensatz zur biometrischen Planung der Phase 2/3 ist das Phase-1-Design nicht von Prüfhypothesen geleitet, sondern vom Ziel, sichere Dosen für diese Folgeprüfphasen zu bestimmen.
Aus statistischer Sicht sollte unter den oben formulierten Rahmenbedingungen das Design eine ausreichend genaue statistische Schätzung für höchstmöglichen Erkenntnisgewinn zur Toxizität bei höchstmöglicher Sicherheit der Patienten liefern. Üblicherweise werden dazu je Dosisstufe 1–6 Patienten behandelt, und die Gesamtzahl der Patienten liegt dann meist zwischen 20 und 40.

Dosiseskalation

Zur Gewährleistung der Patientensicherheit wird in der Phase-1-Prüfung eines Zytotoxikums der Ablauf der Gabe der verschiedenen Dosen in einem Dosiseskalationsschema so geregelt, dass, mit der Startdosis beginnend, zunächst schrittweise aufsteigend die Dosisstufen des Schemas bis zum Auftreten von DLT geprüft und anschließend die MTD bestimmt wird. Ein Absteigen zu einer niedrigeren, im Allgemeinen beim Aufsteigen schon geprüften Dosis ist möglich bzw. kann notwendig sein und dient der Bestimmung von RP2D. Die dazu mögliche Aufstockung der Fallzahl im Bereich der MTD bzw. RP2D sollte getrennt von der Planung der Fallzahl des Dosiseskalationsschemas erfolgen. Grundsätzlich sollte die Bestimmung von MTD und RP2D zusammen mit Angaben zur geplanten minimalen und maximalen Fallzahl Teil des Prüfplans sein.
Dosiseskalationsschritte können deterministisch oder probabilistisch erfolgen. Im ersten Fall folgt man einem deterministischen Algorithmus, der jeweils nach einer kleinen Zahl von Patienten auf einer Dosisstufe regelt, ob und wie eskaliert werden kann. Der probabilistische Ansatz ist meist ein Bayes-Verfahren, bei dem für eine anstehende Dosiserhöhung auf der Basis der bis dahin gewonnenen Dosis-Toxizitäts-Information für bestimmte Dosen Toxizitätswahrscheinlichkeiten berechnet werden, auf deren Grundlage eine modellbasierte Entscheidungsregel die nächste Dosis vorschlägt.
Wegen der oft konservativen Wahl einer eher zu kleinen Startdosis bei Zytotoxika sollten Dosissteigerungen im unteren Dosisbereich bis zum ersten Auftreten von mutmaßlich prüfsubstanzbedingten AE größere Zuwächse (Sprünge) zulassen. Dieses Prinzip wurde im modifizierten Fibonacci-Schema realisiert (Goldsmith et al. 1975), bei dem zunächst die Startdosis verdoppelt wird und sich die Zuwächse danach in relativ wenigen Schritten bei 33 % der jeweils vorangehenden Dosis stabilisieren (Edler 1990) (Tab. 4).
Tab. 4
Die ersten Stufen des modifizierten Fibonacci-Dosierungsschemas* mit kumulativen Fallzahlen bei Dosissteigerung gemäß 3+3-Regel (Adaptiert nach Edler 1990)
Dosisstufe
Dosis (D)
Zuwachs
(%)
Kumulative Fallzahl gemäß 3+3-Regel
1
1 × D
3–6
2
2 × D
100
6–12
3
3,3 × D
67
9–18
4
5 × D
50
12–24
5
7 × D
40
15–30
6
9,3 × D
33
18–36
7
12 × D
33
21–42
8
16 × D
33
24–48
9
21 × D
33
27–54
10
28 × D
33
30–60
*Mit den Multiplikationsfaktoren (gerundet) der Startdosis (D) und den jeweiligen prozentualen Zuwächsen, bezogen auf die vorangegangene Dosis
Regeln der Dosiseskalation
Modifiziertes Fibonacci-Schema
Das klassische modifizierte Fibonacci-Dosierungsschema wurde bereits sehr früh mit der ebenfalls klassischen 3+3-Regel der Dosiseskalation – ein deterministischer Algorithmus, oft unpassend als 3+3-Design bezeichnet – kombiniert, wobei jeweils Kohorten von 3 Patienten parallel geprüft werden, maximal jedoch 6 Patienten auf der gleichen Dosisstufe mit der Option, bei 0/3 bzw. 1/6 DLT zur nächsten Dosis zu eskalieren und bei 2/3 bzw. 2–4/6 die Dosiseskalation zu beenden und MTD sowie RP2D zu bestimmen. Zur Abgrenzung von ähnlichen, aber nicht identischen 3+3-Regeln wurde dieses Schema auch als „strict traditional escalation rule“ (STER) bezeichnet (Edler und Burkholder 2006).
Die 3+3-Regel wurde mit einer Tolerierung von maximal 33 % DLT bei der so bestimmten MTD in Verbindung gebracht. Offensichtlich führt die Regel zu einer Ablehnung einer Dosis bei 2/3 (66 %) bzw. bei 2–4/6 (33–66 %). Storer (2012) weist darauf hin, dass die Regel auf eine Toxizitätsrate zwischen 17 % und 33 % abzielt; passend dazu, dass bei bis zu 33 % Toxizität die Wahrscheinlichkeit, diesen Umfang an Toxizität bei 6 Patienten zu übersehen, unter 10 % liegt. Wenn MTD und RP2D daher unterhalb der Dosis des Stopps gewählt werden, ist die zu erwartende Toxizität bei Anwendung der 3+3-Regel bei RP2D unter 33 %. Eine systematische statistische Charakterisierung des Zielintervalls der Toxizität dieser oder ähnlicher pragmatischer Regeln fehlt.
„Best-of-5“-Regel
Eine Variante für eine höhere Zieltoxizität von 40 % wurde von Storer (2012) als sogenannte „Best-of-5“-Regel vorgeschlagen. Beide Dosiseskalationen, 3+3- und „Best-of-5“-Regel, sind auf offene und geschlossene Dosierungsschemata anwendbar.
Für geschlossene Dosierungsschemata, vor allem solche mit nur wenigen Dosen d1<d2< … <dK mit einem K<10, wurden zumindest in der statistischen Literatur sogenannte „Up and down“-Designs vorgeschlagen, bei denen nach einer bestimmten Regel Dosen aus d1<d2< … <dK ausgewählt werden (Edler und Burkholder 2006). Die Studie „wandert“ quasi auf der Dosisfolge nach einer deterministischen oder stochastischen Regel, weswegen derartige Designs auch „Random walk“-Designs genannt werden. Aus praktischer und ethischer Sicht sind solche Designs für die Prüfung von Zytotoxika in der Phase 1 nicht zu empfehlen. Eine weitgehend unvorhersehbare Dosissteigerung nach der Behandlung von jeweils nur einem Patienten ist, insbesondere bei multizentrischen Phase-1-Prüfungen, fehleranfällig und logistisch schwierig zu implementieren. Ethisch bedenklich ist, dass diese Eskalation relativ rasch zur Überdosierung führen kann. Als Gegenmaßnahme hat Storer (1989) diese Designs modifiziert und mehrere Varianten vorgeschlagen, die mit kleinen Dosen starten und Kohortengrößen von 2–3 Patienten pro Dosis einsetzen. Eine solche Variante sieht ein 2-Stufen-Design vor, dem zunächst ein „Up and down“-Design zugrunde liegt, um rasch von den kleinen Dosen zu solchen mit DLT zu gelangen, und bei dem anschließend in einer zweiten Stufe Kohorten von 3 Patienten behandelt werden (Storer 2012). Letztlich nähern sich diese Designs der 3+3-Regel an, und die Zunahme an Komplexität rechtfertigt kaum den geringen Zugewinn an statistischer Qualität der Schätzung von MTD, wie in Simulationsstudien gezeigt wurde.
Zur Reduktion der Anzahl von Patienten auf den unteren Dosisstufen, bei denen geringe Toxizität und keine Wirksamkeit erwartet wird, haben Simon et al. (1997) die 3+3-Regel zum sogenannten „Accelerated titration“-Design modifiziert, bei dem bis zum Erreichen der ersten DLT oder bis zu einer Dosis, bei der in mindestens 2 Patienten im Vergleich zur DLT eine Toxizität geringeren Grads beobachtet wurde, nur ein Patient pro Dosisstufe behandelt wird. Nach dieser Eingangsstufe wird zur 3+3-Regel übergegangen. Außerdem wird in einer weiteren Modifikation intraindividuelle Dosiseskalation zugelassen.
Das modifizierte Fibonacci-Schema wird problematisch, wenn die MTD z. B. mehr als um den Faktor 100 über der Startdosis liegt und die erforderliche Gesamtfallzahl wegen der dann benötigten Vielzahl von Stufen mit nur 33 % Steigerung sehr groß wird. Tab. 4 zeigt diese relativ langsame Steigerung über 10 Stufen bis zum Faktor 60; der Faktor 100 wird erst bei 15 Stufen erreicht. Abgesehen davon, dass damit die Phase-1-Prüfung an finanzielle Grenzen stößt, entsteht auch eine ethische Problematik, wenn viele Patienten mit einer zu niedrigen und nicht wirksamen Dosis behandelt werden.
Continual-Reassessment-Methode (CRM)
Die Vermeidung von DLT in der Patientenpopulation und die gleichzeitige Behandlung von möglichst vielen Patienten mit einer potenziell wirksamen Dosis einerseits und eine möglichst genaue Schätzung der MTD, gekoppelt mit einer definierten Zieltoxizität, andererseits führten zur Entwicklung der sogenannten CRM durch O’Quigley et al. (1990), gefolgt von einer Vielzahl von Modifikationen (Garrett-Mayer 2006; O’Quigley und Iasonos 2012). Statistisch gesehen gehört CRM zur Klasse der Bayes-Verfahren, ist aber im Gegensatz zu den oft recht allgemeinen Bayes-Methoden auf die Phase-1-Prüfung zugeschnitten (Gatsonis und Greenhouse 1992; Lee und Chu 2012).
Das Verfahren erlaubt die konkrete Festlegung einer Zieltoxizität (z. B. 30 % oder 40 %) und die statistische Schätzung der zugehörigen MTD auf der Basis einer definierten Dosis-Toxizitäts-Kurve.
MTD kann somit statistisch genauer als mit der 3+3-Regel geschätzt werden, d. h. mit einer Familie von monoton mit der Dosis steigenden Kurven, die mit 1–2 Modellparametern beschrieben werden. Die rechnerische Bestimmung der Kurve führt direkt zur Schätzung der MTD. Die Anzahl von DLT wird kontrolliert, und mehr Patienten werden in der Nähe der geschätzten MTD behandelt.
Als Bayes-Verfahren startet CRM mit einer bestimmten Dosis-Toxizitäts-Kurve, der a-priori-Dosis-Toxizitäts-Kurve, und berechnet daraus eine a-posteriori-Kurve mittels der beobachteten Toxizitätsinformation der nacheinander rekrutierten Patienten mit ihren jeweils zugewiesenen Dosen.
CRM von O’Quigley et al. (1990) prüft jeweils nur einen Patienten pro Dosis. Die erste Dosis kann so gewählt werden, dass sie der MTD der a-priori-Kurve entspricht. Sinnvollerweise wählt man die a-priori-Kurve so, dass diese Dosis nahe, aber unterhalb der MTD liegt. Im Gegensatz zur 3+3-Regel startet CRM mit Dosen, die 2- bis 3-mal höher als die übliche Startdosis liegen, und nutzt aus, dass das Verfahren auf- und absteigen kann. Nach Behandlung des ersten Patienten wird dessen Toxizitätsinformation mit der ersten a-priori-Dosis-Toxizitäts-Kurve kombiniert und eine neue Kurve, die a-posteriori-Dosis-Toxizitätskurve, berechnet, die dann zur a-priori-Kurve für den nächsten Patienten wird.
Bei einem offenen Dosierungsschema, in dem ab einer Startdosis ein Kontinuum von Dosierungen zulässig ist, kann dessen Dosis so gewählt werden, dass sie der MTD der a-posteriori-Kurve entspricht. Bei einem diskreten Dosisschema, wie dem Fibonacci-Schema, wird als nächste Dosis diejenige, die der geschätzten MTD am nächsten liegt, gewählt. Für alle weiteren Patienten folgt CRM diesem Schema: Aus der vorigen a-posteriori-Kurve wird die sozusagen bis dahin beste MTD berechnet und mit den Toxizitätsdaten des neuen Patienten eine neue a-posteriori-Kurve bestimmt.
CRM stoppt, wenn die MTD mit im Voraus festgelegter ausreichender Genauigkeit (z. B. Standardfehler oder Breite des Konfidenzintervalls) geschätzt werden kann oder wenn eine im Voraus festgelegte Maximalzahl von Patienten erreicht ist. Denkbar ist auch ein Stopp, wenn CRM mehrfach die gleiche Dosis als beste MTD vorschlägt.
Als Bayes-Verfahren muss CRM nicht notwendigerweise mit diskreten Dosierungsschemata durchgeführt werden, da nach seinem Konstruktionsprinzip die Folge der MTD-Schätzungen auf einem Kontinuum liegt. Aus praktischen Gründen wird aber eine diskrete Folge möglicher Dosen bevorzugt.
Seit seiner ersten Beschreibung und Anwendung Mitte der 1990er-Jahre wurden verschiedene Varianten der CRM in einer Vielzahl an Publikationen vorgeschlagen und in Simulationsstudien miteinander verglichen (O’Quigley und Iasonos 2012; Jaki et al. 2013). Dabei wurde auch versucht, die Rolle des mathematischen Dosis-Toxizitäts-Modells für die Bestimmung der nächsten Dosis einzuschränken und eine hohe Variation zwischen aufeinanderfolgenden Dosen zu vermeiden, z. B. dadurch, dass eine nächste Dosis maximal nur die Folgedosis im Schema sein kann, die Kohortengröße von einem einzelnen Patienten auf 2–3 Patienten erhöht und die kleinste Dosis als Startdosis gefordert wurde. Diese Methodenforschung ist auch vor dem Hintergrund der Anforderungen der Präzisionsmedizin weiterhin sehr aktiv und sollte bei jeder konkreten Planung einer Phase-1-Prüfung durch eine ausreichende Literatursuche berücksichtigt werden. Dazu gehören auch Bayes-Verfahren, die das Prinzip der Design-Anpassung („Bayesian adaptive designs“) für die Phase 1 nutzen (Tighiouart et al. 2018; Giovagnoli 2021).
Eine weitergehende Modifikation der CRM ist das „Escalation with overdose control“-Design von Babb et al. (1998) und Tighiouart et al. (2005), bei dem die MTD als zufälliger Endpunkt mit einer statistischen Verteilung modelliert wird. Die Dosis jedes Patienten wird so bestimmt, dass die a-posteriori-Wahrscheinlichkeit, die MTD zu übersteigen, gleich einem festen Wert von z. B. 25 % gesetzt wird. Die endgültige Schätzung der MTD erfolgt mit einer Bayes-Entscheidungsregel.
Obgleich alle bisher beschriebenen Designs statistisch unabhängig davon sind, wie groß der Beobachtungszeitraum für die Bestimmung der DLT ist, werden sie bei Zytotoxika im Allgemeinen nur so eingesetzt, dass sich das Auftreten relevanter Toxizität auf wenige Wochen oder üblicherweise auf Zyklus 1 beschränkt, da sich andernfalls eine Phase-1-Prüfung zu lange hinziehen und sich der Entwicklungsprozess einer Prüfsubstanz teuer verlängern würde. Für den Fall einer längeren Beobachtungsdauer wurde CRM zur „Time to event“-CRM erweitert, die Patienten, die bis zum Ende der Beobachtungsperiode ohne DLT waren, nicht voll, sondern nur mit einer reduzierten Gewichtung berücksichtigt (Braun 2006).

Design von Studien zur Entwicklung von gegen molekulare Zielstrukturen gerichteten Wirkstoffen (MTA)

Fallzahlen zur Bestimmung von MTD und RP2D können, wie oben beschrieben, bei Phase-1-Prüfungen zur Entwicklung von MTA nur hilfsweise eingesetzt werden, wenn ein relevanter Parameter für unerwünschte Wirkungen definiert werden kann. Auf ausreichend validierte biometrische Designs für die Phase-1-Prüfung von Modulation oder Hemmung der relevanten Zielstruktur und die Bestimmung einer minimal effektiven oder gar optimalen biologischen Dosis kann derzeit noch nicht verwiesen werden. Im Gegensatz zur Bestimmung von MTD ist bei den für die Prüfung von MTA gewählten Endpunkten eine gerichtete Dosiseskalation, ausgehend von einer konservativ bestimmten kleinen Startdosis, nicht unbedingt erforderlich, zumindest wenn die „First-in-man“-Prüfung, die üblicherweise wie bei der von Zytotoxika abläuft, positiv abgeschlossen ist und eine klinisch relevante Gefährdung durch die Prüfsubstanz ausgeräumt ist.
Erste Wahl wäre ein geschlossenes Dosierungsschema d1<d2< … <dK, das im erwarteten, therapeutisch angestrebten Bereich liegt. In diesem Fall könnten „Random walk“-Designs eingesetzt werden, die von einer Startdosis, z. B. von der Mitte des Dosierungsschemas ausgehend, nach einer Regel z. B. mit Patientenkohorten der Größe 2–3 auf- oder absteigen. Falls größere Patientenpopulationen von 30–100 vorgesehen sind, können biometrische Methoden für Dosisfindungsstudien eingesetzt werden, wie sie z. B. für die Prüfung von nicht-onkologischen Wirkstoffen entwickelt wurden, die aber dann als randomisierte Studien zum Vergleich der gewählten Dosierungen zu planen wären, wobei meist nicht mehr als 5 Dosisgruppen betrachtet werden.
Als interessante Variante sei der rezente erneute Einsatz der früher geübten Methode der PK-geleiteten Dosiseskalation angeführt, die aus verschiedenen inherenten Gründen, d. h. teils substanzbedingt, teils methodenbedingt, keine Aufnahme in die Routinevorgehensweise der Entwicklung neuer Onkologika erfuhr (Collins et al. 1990). Der aktuelle Einsatz einer „Real-time“-PK-geleiteten intraindividuellen Dosiseskalation erfolgte bei Patienten mit Resistenzmutationen gegenüber Tyrosinkinaseinhibitor-(TKI-)Vortherapie, und zwar bis zum Erreichen einer für die Tyrosinkinase-Absättigung erforderlichen Konzentration, sodass ein erneutes Ansprechen auf den gegen dieselbe Zielstruktur entwickelten Wirkstoff erreicht werden konnte (Drilon et al. 2017).
Expansionskohorten
Um eine Absicherung der auf sehr wenigen Daten basierenden RP2D zu gewährleisten, wurden in den letzten Jahren sogenannte Expansionskohorten eingeführt. Mit den Daten dieser Kohorten kann die Bestimmung von RP2D/MTD verbessert werden (Iasonos und O’Quigley 2016).
Bereits im Rahmen der 3+3-Regel gab es Überlegungen, die Fallzahl der Kohorte auf der MTD-Stufe oder der geplanten RP2D-Stufe nach Bestimmung derselben über die üblichen 6 Patienten zu erhöhen, um genauere Informationen zur erwarteten Toxizität in den Folgestudien der Phase 2/3 zu erhalten. Dazu wurde meist ohne weitere statistische Überlegungen die Fallzahl von 3–6 um wenige Patienten erhöht (EORTC New Drug Development Committee 1985). Auf der Basis von Wahrscheinlichkeiten für akzeptable und unakzeptable Toxizität können Fallzahlen im Bereich von 6–12 begründet werden (Edler 1990), aber der Informationsgewinn ist selbst bei einer Verdoppelung von 6 auf 12 Patienten gering: Das 95 %-Konfidenzintervall einer Toxizität von 33 % geht dabei von 4–78 % lediglich auf 10–65 % zurück.
Ursprünglich wurde die Fallzahl weit unter der von Phase-2-Prüfungen gehalten, und es sollten lediglich mehr Sicherheitsdaten generiert werden. Mittlerweile wurde insbesondere bei MTA die Fallzahl derart erweitert, dass nicht mehr nur Sicherheitsdaten, sondern auch Aktivitätsdaten in so großem Umfang in einzelnen Studien generiert wurden, dass dieselben sogar zu vorläufiger Zulassung herangezogen werden konnten (Kwak et al. 2010; Manji et al. 2013; Shaw et al. 2014).
Besonders krass zeigte sich diese Vorgangsweise bei der Entwicklung neuer Immuntherapeutika in Form von Checkpoint-Inhibitoren, wie z. B. mit 1137 Patienten für Pembrolizumab (Postel-Vinay und Soria 2015). In jüngerer Zeit beobachtete hohe Fallzahlen der Expansionskohorten zur weiteren Abklärung von Sicherheit und Wirksamkeit der Prüfsubstanz bedürfen deswegen einer auf die jeweilige Fragestellung bezogenen biometrischen Fallzahlberechnung.

Immuntherapeutika in der klinischen Prüfung der Phase 1

Die Besonderheiten der Phase-1-Testung von immunstimulierenden monoklonalen Antikörpern vom Typus antizytotoxischer T-Lymphozyten-Antigen-4-(CTLA-4-)Antikörper oder „Anti-programmed death-1“-(PD-1-)Rezeptor/Ligand-(PD-L1-)Antikörper wurden in einem Review von Postel-Vinay et al. (2016) zusammengefasst. Diese bestehen in folgenden Erfahrungen/Erkenntnissen:
  • Es ist überwiegend keine MTD bestimmbar.
  • RP2D basiert üblicherweise auf maximal angewandter Dosis (MAD).
  • G3/G4-Toxizitäten sind selten, ebenso kumulative Toxizität.
  • Das Auftreten von irAE ist auch nach Zyklus 1 möglich.
  • irAE>G2 sollte als DLT eingestuft werden.
  • Es besteht keine klare Dosis-Toxizitäts-Wirkungsbeziehung.
  • Die optimale Form der Applikation ist bisher ungeklärt: kontinuierlich (unlimitiert?) versus diskontinuierlich.
  • Die Integration umfassender Expansionskohorten direkt im Anschluss an die Phase 1 mit mehreren Dosierungen und Tumorarten parallel hat sich bewährt; speziell dieser Ansatz wird mittlerweile in sogenannten agnostischen, d. h. histologieunabhängigen, Studien mit Immuncheckpoint-Inhibitoren umgesetzt.
  • Es wird die Forderung nach einer Begründung von Größe sowie primärem Studienziel der Expansionskohorte der Phase-1-Population erhoben.
  • Such muss die Forderung nach Regeln für die Studienbeendigung, falls die Expansionskohorte für den Aktivitätsnachweis eingesetzt wird, erhoben werden.
  • Es sind lediglich dynamische Biomarker im Gewebe ohne klinische Validierung verfügbar (Konklusivität eingeschränkt).
  • Die bisher eingesetzten blutbasierten Biomarker sind ohne Prädiktivität in Bezug auf antitumorale Aktivität.
  • Es sind weniger eng gefasste Einschlusskriterien als für Zytotoxika üblich und zumindest für die Expansionskohorten gerechtfertigt; somit sind solche Ergebnisse für die sogenannte reale Welt repräsentativer.
Fehlende Validierung als Biomarker in Geweben gilt auch für die Bestimmung der Tumormutationslast (TMB, „tumor mutation burden“), zu der sehr unterschiedliche Beurteilungen vorliegen (Chan et al. 2019; Prasad und Addeo 2020; Subbiah et al. 2020).
Weiterführende allgemeine kritische Überlegungen zur noch in einem frühen Entwicklungsstadium befindlichen Immunonkologie werden in einem Review von Ochoa de Olza et al. (2018) angestellt.
Als Musterbeispiel für diese Art von Entwicklung kann die des PD-1-Immuncheckpoint-Inhibitors Pembrolizumab angeführt werden. Die sogenannte nahtlose („seamless“) Entwicklung von Wirkstoffen beginnt in der Phase 1 mit der klinischen Erstanwendung einer neuen Prüfsubstanz und wird unmittelbar um die Testung in verschiedenen Dosisstufen und unterschiedlichen Tumorentitäten erweitert bzw. im positiven Fall auf der Basis der daraus gewonnenen Ergebnisse einem beschleunigten Beurteilungsprozess für eine vorläufige Arzneimittelzulassung zugeführt (Prowell et al. 2016; Blumenthal et al. 2017; Lemery et al. 2017).
Wegen des Umfangs positiver Auswirkungen von modernen Immuntherapien auf das (progressionsfreie) Langzeitüberleben, wie ein solches unter Chemotherapie oder Therapie mit MTA bisher kaum beschrieben wurde, hat sich die Analyse des (progressionsfreien) Überlebens in Form von Landmark-Analysen bewährt (Ascierto und Long 2016). Diese gibt die entsprechenden Prozentsätze nach 1, 2 oder 3 Jahren an, ein Einblick, der der üblichen Präsentation in Form von medianem (progressionsfreiem) Überleben entgeht. Auch wird für die spezifische Beurteilung des Behandlungseffekts von Immuntherapien das sogenannte behandlungsfreie Überleben (TFS, „treatment free survival“) als möglicher neuer Endpunkt diskutiert (Regan et al. 2019). Die nahtlose Wirkstoffentwicklung, beginnend mit der Phase 1, birgt zahlreiche immanente Probleme, die noch nicht einheitlich gelöst sind (Hutchinson et al. 2020).
Bezüglich der besonderen Anforderungen für die Durchführung von klinischen Phase-1-Prüfungen von Kombinationen verschiedener Wirkstoffe bzw. Wirkstoffklassen sei lediglich auf weiterführende Literatur verwiesen (Hamberg et al. 2010; Humphrey et al. 2011; LoRusso et al. 2012; Mandrekar 2014; Riviere et al. 2014; Yap und Rodon 2017; Simmet et al. 2019).

Position der Phase-1-Prüfung in der Onkologie: Experiment oder auch Therapie?

Prinzipiell stellt sich die Frage nach der Erwartung bzw. Nutzen-Risiko-Bewertung für die Teilnahme an klinischen Prüfungen der Phase 1. Insgesamt sind Phase-1-Prüfungen als äußerst sicher einzustufen, wahrscheinlich als ebenso sicher wie Behandlungen außerhalb von Studien in vergleichbarer Situation (Weber et al. 2014). Es ist klinischen Phase-1-Prüfungen immanent, die primär die Bedingungen, unter denen ein Wirkstoff in positivem Fall zur weiteren Entwicklung und Anwendung kommen wird, erst klären sollen, dass diese nicht schon eine optimale Behandlung darstellen dürften; zumindest nicht für die Gesamtheit der Studienpopulation. Hingegen ist es bei der Entwicklung von MTA sogar zu extrem hohen Ansprechraten bereits in der Phase 1 gekommen, wie das Beispiel von Imatinib mit 70 % Ansprechen bei einer ansonsten refraktären Patientenpopulation zeigt (Druker et al. 2001). Bei der klinischen Phase-1-Prüfung von TKI und Immuncheckpoint-inhibierenden monoklonalen Antikörpern wurden eindrucksvolle Ansprechraten dokumentiert. Somit ist eine klinische Phase-1-Prüfung sowohl Experiment als auch therapeutisches Angebot, ohne damit notwendigerweise einen Widerspruch darzustellen (Kimmelman 2016).
Um allfällige durch eine Prüfsubstanz verursachte Effekte besser einschätzen zu können, haben sich mehrere Arbeitsgruppen bemüht, prognostische Faktoren für eine geeignete Patientenselektion in Phase-1-Prüfungen zu identifizieren. Der sogenannte Royal Marsden Score erkannte
  • erniedrigten Serumalbumin-Gehalt (<35 g/l),
  • mehr als 2 metastatische Organlokalisationen und
  • eine Erhöhung des LDH-Werts über den Normalwert
als negative prognostische Faktoren (Arkenau et al. 2008). Die Verwendung dieses und ähnlicher Scores erwies sich einerseits als hilfreich, die nicht durch die Prüfsubstanz bedingte 90-Tage Mortalität um die Hälfte zu reduzieren (Olmos et al. 2012). Andererseits gibt es genügend Daten, um manche der Einschränkungen in den Ein- und Ausschlusskriterien von Patienten mit Organeinschränkungen zurückzunehmen. Dies sollte für Patienten mit geringgradigen Organfunktionsstörungen zu einer verbesserten Zugänglichkeit insbesondere zu MTA führen und auch die Durchführung von Studien mit teilweise seltenen molekularen Aberrationen nicht unnötig verzögern (Hollebecque et al. 2013).

Klinische Prüfung der Phase 2

Zusammen mit der Phase 1 bildet die Phase-2-Prüfung den exploratorischen Teil der Arzneimittelentwicklung, dem erst der konfirmatorische in Form der Phase 3 und später das Postmarketing-Segment der Phase 4 folgt.
Die Hauptentscheidung über eine Weiterentwicklung einer Prüfsubstanz erfolgt üblicherweise in der Phase 2 (Seymour et al. 2010). Im Unterschied zur Entwicklung von Arzneimitteln für andere Erkrankungsfelder steht im Bereich der Onkologie am Ende der Phase 2 die Frage bzw. Entscheidung über Fortsetzung oder Einstellung an.
Die Phase 2 ist die passende Entwicklungsphase, um die Subpopulation an Patienten mit der größten Erfolgsaussicht für die noch experimentelle Prüfsubstanz zu identifizieren, da die antitumorale Aktivität am besten an einer möglichst einheitlichen Population erfasst werden kann (Tab. 1).
Bei der antitumoralen Aktivität handelt es sich um eine biologische Größe, die nicht mit klinischem Benefit für Patienten gleichgesetzt werden darf. Eine allein messtechnisch erfasste Tumorrückbildung ist nur selten mit Endpunkten von Benefit für Patienten wie OS oder QoL korreliert. In diesem Zusammenhang ist auch die vielfach angewandte sogenannte Rate an klinischem Benefit, CR plus PR plus SD, kritisch zu hinterfragen, es sei denn, es wird eine klinisch relevante Dauer der SD von z. B. mindestens 6 Monaten verlangt. Die Zweifelhaftigkeit von SD als Endpunkt liegt darin begründet, dass die Tumorverdoppelungszeit in soliden Tumoren häufig 2–3 Monate ausmacht und Tumoren, die langsam wachsen, die formalen Kriterien von SD auch ohne therapeutischen Effekt erfüllen (Le Tourneau et al. 2014a). Zur Erfassung der Wirksamkeit einer Prüfsubstanz bei SD eignet sich z. B. das randomisierte Diskontinuitätsdesign (Ratain et al. 2006).
Im Wechselspiel mit der ebenso wichtigen Erfassung der Toxizität (Nebenwirkungen) an der gewählten Patientenpopulation erfolgt im Rahmen der Phase-2-Prüfung die Optimierung der Dosis und des Verabreichungsschemas („schedule“).
Neben den Endpunkten antitumorale Aktivität/Tumorrückbildung und Toxizität kommen auch zahlreiche weitere Endpunkte zum Einsatz, wobei diese Charakterisierung nur dann gerechtfertigt ist, wenn die gewählte Messgröße für den jeweiligen Zweck validiert wurde (Tab. 2). So gibt es zwar zahlreiche Hinweise, dass manche Toxizitäten, wie z. B. Blutdruckanstieg bei antiangiogenen Substanzen oder Intensität der Hauteffloreszenzen bei der Anwendung von gegen epidermalen Wachstumsfaktor-Rezeptor (EGFR, „epidermal growth factor receptor“) gerichteten monoklonalen Antikörpern, mit stärkerer Wirksamkeit der jeweiligen Prüfsubstanzen verknüpft sein dürfte, doch wurde dieser Zusammenhang zwischen Ausmaß an Toxizität und klinischem Endpunkt (z. B. OS) für keine der Substanzgruppen und Toxizitäten validiert (Eisenhauer 1998; Motzer et al. 2007; Dienstmann et al. 2011; Van Cutsem et al. 2012; Abola et al. 2014).
Um die vielfältigen Endpunkte zu erreichen, decken Phase-2-Prüfungen eine große Bandbreite ab und können in frühe und späte unterteilt werden bzw. in solche, die die Aktivität und folglich die auf Ansprechen basierten Endpunkte einerseits und andererseits die Machbarkeit einer Therapie, PFS und PRO („patient-reported outcomes“) in den Vordergrund rücken; dabei weisen die frühen mehr Screening-Charakter auf, während die späten der Entscheidungsfindung dienen, ob die Entwicklung fortgeführt werden soll (Dittrich 2008; Seymour et al. 2010) (Tab. 5).
Tab. 5
Unterteilung und Charakterisierung von klinischen Prüfungen der Phase 2. (Adaptiert nach Dittrich 2008)
 
Frühe Phase-2-Prüfungen
Späte Phase-2-Prüfungen
Allgemein
Erfassung der antitumoralen Aktivität
Erfassung des therapeutischen Effekts
- Zielstruktur (Target) – Modulation
- Klinische Wirksamkeit
- Substanzorientiert
- Erkrankungsorientiert
- Monotherapiestudien
- Machbarkeitsstudien
- Screening bei Signaltumoren
- Selektionierte Erkrankungssituationen
Einschlusskriterien
Einschluss: allgemein
Einschluss: spezifiziert
- Keine Strata
- Strata
- Vorbehandlung eingeschränkt
- Vorbehandlung enger definiert
- Keine Organfunktionsstörungen akzeptiert
- Definierte Organfunktionsstörungen akzeptiert
Dosis/Verabreichungsschema
Dosis aus Phase-1-Studie übernommen
Dosismodifikation möglich
Verabreichungsschema definiert
Dosisvergleiche zur Optimierung
 
Supportivmaßnahmen (Optimierung)
Erfassung der Toxizität
Akut
Kumulativ
Bei bestimmten Organfunktionseinschränkungen
für Kombinationstherapien
Erfassung der Pharmakokinetik
Umfassende Pharmakokinetik
Populationspharmakokinetik
Erfassung der Pharmakodynamik
Pharmakokinetik-Pharmakodynamik Interaktionen im Detail
Pharmakokinetik-Pharmakodynamik Interaktionen optional
Biostatistik
Einarmiges Design
Explorativer Charakter
Randomisiertes, mehrarmiges Design mit konfirmatorischen Elementen
Minimierung der Patientenanzahl
Größere Patientenanzahl
Aussage ungenau/orientierend
Aussage genauer/robuster
Entdeckung von Wirkung(en) der Prüfsubstanz
Kontrolle einer falsch negativen Folgerung/Aussage
Minimierung des Fehlers 2. Art („beta-Fehler“) bzw. Maximierung der „power“
Entdeckung einer wirksamen Prüfsubstanz
Kontrolle einer falsch positiven Folgerung/Aussage
Kontrolle des Fehlers 1. Art („alpha-Fehler“)
Die Erfassung der Machbarkeit bezieht sich auch auf die von Kombinationen mit anderen Wirkstoffen, Therapien und Therapiemodalitäten (The Protocol Review Committee, the Data Center, the Research and Treatment Division, and the New Drug Development Office – European Organization for Research and Treatment of Cancer 1997). Die Wahl des Endpunkts hängt auch vom Wirkmechanismus der Prüfsubstanz ab (Wason et al. 2015). Zytotoxika führen zur Tumorschrumpfung und können daher auch in einarmigen Studien mit ORR als Endpunkt adäquat getestet werden. Dagegen lassen MTA in der Regel keine Tumorrückbildung erwarten und sollten sich daher über die PD-Rate charakterisieren lassen, da diese besser als ORR mit dem medianen OS korreliert ist (Eisenhauer 1998; Sekine et al. 1999). Außerdem hat die PD-Rate auch den methodischen Vorteil, dass ihre Bestimmung ohnehin mit der beobachteten TTP und somit mit der Ereigniszeit PFS verbunden ist. Infolgedessen hat sich in der Praxis die Bestimmung von PFS in randomisierten Phase-2-Prüfungen durchgesetzt (Seymour et al. 2010). OS-Dauer ist wegen der potenziellen Beeinflussung des Ergebnisses durch spätere Therapien sowie dem oftmals späten Eintreten kein effizienter Endpunkt für die Phase 2. Es besteht Einigkeit, dass die Kombination von Wirkstoffen in einem mehrarmigen randomisierten Design zu testen ist, um ausreichende Rückschlüsse zu erlauben.

Designs der klinischen Prüfung in der Phase 2

Nicht nur der richtige Endpunkt, sondern auch das Design muss zur Natur der Prüfsubstanz passen (Chabner 2007). Die Wahl des Designs steht ihrerseits unter vielen Einflussgrößen wie
  • Studienziel,
  • Endpunkt und
  • Machbarkeit.
Historisch begann die Phase-2-Testung von Zytotoxika als folgerichtiger zweiter Schritt nach Bestimmung von DLT, MTD und RP2D in der Phase 1 mit einarmigen Designs. Wenn Tumorregression erwartbar ist und, um Tumorrückbildung als erstes Zeichen der biologischen Aktivität einer Prüfsubstanz zu demonstrieren, ist dies nach wie vor indiziert, und ORR ist dann primärer Endpunkt einer frühen Phase 2. Doch auch MTA können in einarmigen Studien getestet werden,
  • wenn das bei einer Tumorentität erfolgt, für die es geeignete Information aus historischen Kontrollen gibt, und
  • wenn es primär darum geht, den Effekt auf die Zielstruktur nachzuweisen, oder
  • bei fortgeschrittener Erkrankungssituation, für die es keine Standardbehandlung gibt, und
  • bei Wirkstoffen, von denen Ansprechen erwartet werden kann (Booth et al. 2008).

Einarmige Studiendesigns

Als Zwischenschritt zwischen Phase 1 und Phase 3 der Entwicklung einer Prüfsubstanz sollte die Wahl eines statistischen Designs der Phase 2 grundsätzlich, soweit klinisch vertretbar, einfach gehalten werden.
Für eine effiziente Phase-2-Prüfung ist deswegen eine einarmige Studie mit ORR als primärem dichotomem Endpunkt das Design erster Wahl. Die ORR wird bevorzugt innerhalb weniger Wochen bzw. nach 2–3 Zyklen beurteilt.
Statistische Grundlage sind 2 einfache Hypothesen:
  • Bezeichnet p den Endpunkt ORR, so entspricht die Nullhypothese H0: p = p0 dem bisherigen Stand der Behandlungsoptionen (Standardbehandlung), der mit der Prüfsubstanz klinisch relevant verbessert werden soll.
  • Die Alternativhypothese H1: p = p1 spezifiziert diese Verbesserung, und die Rate p1 wird als erreichbares Ziel der Prüfsubstanz und ihrer Wirksamkeit definiert.
Die Beibehaltung der Nullhypothese ist damit gleichbedeutend mit Unwirksamkeit und die Annahme der Alternative signalisiert Wirksamkeit. Die Differenz p1 – p0 ist somit der klinische Nutzen in Form von Ansprechen, und die Änderung im ORR sollte so groß sein, dass eine Weiterentwicklung in der Phase 3 angezeigt ist, falls die Studie erfolgreich beendet und die Alternativhypothese H1 angenommen wird. Die Formulierung des Designs als statistisches Testproblem mit den beiden Optionen, sich für Unwirksamkeit oder Wirksamkeit entscheiden zu können, führt statistisch konsequent zur Quantifizierung der Wahrscheinlichkeiten von Fehlentscheidungen:
  • der Wahrscheinlichkeit α, fälschlicherweise eine unwirksame Prüfsubstanz anzunehmen (Fehler 1. Art bzw. Ablehnung von H0, wenn H0 richtig ist) und
  • der Wahrscheinlichkeit β, fälschlicherweise eine wirksame Substanz abzulehnen (Fehler 2. Art bzw. Annahme von H0, wenn H1 richtig ist).
Zusätzlich zu den beiden Eckpunkten p0 und p1 des Ansprechens sind auch diese beiden Fehlerwahrscheinlichkeiten α und β festzulegen, sodass zu den gegebenen Designparametern (p0, p1, α, β) die erforderliche Fallzahl statistisch berechnet werden kann.
Die Dichotomie des Endpunkts ORR erfordert für die statistische Auswertung für jeden aufgenommenen Patienten eine eindeutige Unterscheidung zwischen Ansprechen (Responder) und Nicht-Ansprechen (Non-Responder).
Sind unter n beurteilbaren Studienteilnehmern Responder r, wird die Ansprechrate der Prüfsubstanz p als Quotient r/n geschätzt.
Methoden für Binomialtests können für das formale statistische Testen und zur Berechnung von Konfidenzintervallen der Ansprechrate angewendet werden (Weiß 2019).
Für die Berechnung von Fallzahlen für die Phase 2 muss diese allgemeine Methodik der Binomialtests und der beiden einfachen Hypothesen H0 und H1 an die Gegebenheiten der Prüfung angepasst werden. 2 Gründe sind entscheidend:
  • Eine direkte Fallzahlberechnung auf der Grundlage von Binomialtests berücksichtigt nicht die praktischen Einschränkungen der Patientenrekrutierung in der frühen Phase der Arzneimittelentwicklung, bei der für die Phase 2 bei bestimmten Indikationen oft nicht mehr als 50 Studienteilnehmer, maximal meist weniger als 100, zur Verfügung stehen. Außerdem ist die Studiendauer für die Phase 2 sehr eingeschränkt.
  • Insbesondere bei Zytotoxika ist wegen der Wahl der Dosis im Bereich der MTD mit erheblicher Toxizität zu rechnen, so dass die Anzahl der Patienten unter einer neuen Therapie, deren Wirksamkeit noch nicht geklärt ist, soweit wie möglich beschränkt werden muss; auch vor dem Hintergrund retrospektiver Untersuchungen, die zeigten, dass sich weniger als 10–20 % aller Prüfsubstanzen letztlich als wirksam erwiesen haben.
Gehan-Design (14-Patienten-Regel)
Deswegen wurden schon sehr früh sequenzielle Designs mit der Option eines frühen Abbruchs diskutiert und eingesetzt. Das bekannteste, allerdings nicht mehr empfohlene, ist das Gehan-Design, auch bekannt als 14-Patienten-Regel aus der Ära des Beginns der Zytotoxika-Prüfungen, das aber aufgrund seiner Einfachheit gut in die Problematik der Fallzahlbestimmung der Phase 2 einführt (Gehan 1961). Es ist ein 2-Stufen-Plan, bei dem nach 14 beurteilbaren Patienten geprüft wird,
  • ob deren Ansprechrate r1/n1 ausreicht, die Prüfung auf einer zweiten Stufe fortzusetzen, oder
  • ob diese zu gering ist und bereits eine Zurückweisung der Prüfsubstanz rechtfertigt.
Der Prüfplan ist statistisch so angelegt, dass eine fälschliche Zurückweisung einer wirksamen Prüfsubstanz maximal mit der Wahrscheinlichkeit β = 5 % auftreten kann. Darüber hinaus hat der Prüfplan keine weiteren statistischen Güteeigenschaften und kontrolliert nicht die Fehlerwahrscheinlichkeit α einer ungerechtfertigten Annahme der Nullhypothese (Edler 1993).
Optimales 2-Stufen-Design
Diese Lücken wurden in dem immer noch am meisten benutzten Optimalen 2-Stufen-Design geschlossen, das von Richard Simon (1989) am NCI entwickelt wurde und beide Fehlerwahrscheinlichkeiten kontrolliert. Nach einer eindeutigen Regel werden in der ersten Stufe n1 Patienten geprüft:
  • Ist die Anzahl der Responder r1 nicht größer als der Schwellenwert r1*, wird die Studie gestoppt und die Prüfsubstanz zurückgewiesen.
  • Ist r1 > r1*, wird die Studie mit n2 Patienten auf der zweiten Stufe fortgesetzt und die Anzahl der Responder bestimmt.
Angenommen, r2 Patienten sprechen auf der Stufe 2 an, kann nach Beurteilung aller n = n1 + n2 Patienten zwischen Zurückweisung und Annahme der Prüfsubstanz auf der Grundlage der Gesamtzahl der Responder r = r1 + r2 und des Gesamtschwellenwertes r* entschieden werden; bei r ≤ r* für Zurückweisung und bei r > r* für Annahme.
Für die im Voraus bestimmten Designparameter (p0, p1, α, β) werden in einem Optimierungsverfahren die operativen Fallzahlen (n1, n2) und die Schwellenwerte (r1*, r*) berechnet. Ein bekanntes Beispiel ist die 16+16-Regel für p0 = 5 %, p1 = 20 %, α = 20 %, β = 5 % mit n1 = n2 = 16 und den Schwellenwerten r1* = 0, r* = 2 (Edler 1993).
Das Design wird als optimal bezeichnet, da es für den Fall, dass die tatsächliche Ansprechrate p der Prüfsubstanz nicht besser als der Standard p0 ist, die Gesamtzahl n der in die Studie aufgenommenen Patienten im Durchschnitt minimal hält, also die kleinstmögliche Anzahl von Patienten mit einer derart unwirksamen Substanz exponiert.
MIN-MAX-Version
Eine Variante des Designs, die sogenannte MIN-MAX-Version, minimiert nicht den Durchschnitt, sondern die maximale Fallzahl und führt zu anderen, aber meist ähnlichen operativen Fallzahlen und Schwellenwerten. Das Verfahren unterscheidet sich aber grundsätzlich von sequenziellen Binomialtests, bei denen auf jeder Stufe gestoppt und unter Benutzung entsprechender Schwellenwerte (rZ*, rA*) sowohl für Zurückweisung als auch für Annahme entschieden wird (Kepner und Chang 2004). Ein Design mit den 3 Optionen Zurückweisung, Annahme und Nicht-Entscheidung wurde von Storer (1992) vorgeschlagen, bei dem neben der Hypothese H0 = p0 eine weitere Hypothese HA = pA unter der Voraussetzung p0 < pA getestet wird.
Simon-Design
Im Gegensatz zu solchen Ansätzen ist das Simon-Design unsymmetrisch und kann bei einem Stopp auf der ersten Stufe nur für Zurückweisung entscheiden. Eine Schwachstelle der praktischen Anwendung entsteht, wenn die operativen Fallzahlen n1 und n nicht genau eingehalten werden und, was häufig ist, übertroffen werden. Modifikationen und approximative Lösungen dazu sind
  • bei Green (2012) zu finden, wo auch Erweiterungen auf dreiwertige Endpunkte (Ansprechen, SD, PD) bzw. (CR, PR, PD) beschrieben sind, sowie
  • stratifizierte Phase-2-Designs,
  • mehrarmige Designs,
  • Designs mit mehr als einem Endpunkt (z. B. Ansprechen und Toxizität) und
  • Bayes-Designs.

Zweiarmige Studiendesigns

Zweiarmige randomisierte Phase-2-Prüfungen wurden insbesondere im Zusammenhang mit Erweiterungen auf Ereigniszeiten, in erster Linie für PFS, aber auch für OS, als Endpunkte diskutiert, wobei eine Randomisierung sowohl wegen erwarteter größerer Heterogenität als auch wegen nur eingeschränkter Information zu historischen Kontrollen angezeigt erschien (Tangen und Crowley 2012).
Randomisierung ist immer dann notwendig,
  • wenn es um die Erfassung von Dosis-Wirkungs-Beziehungen und Dosis-Toxizitäts-Beziehungen geht, um die Größe der in späteren Phase-3-Prüfungen zu erwartenden Wirkung besser abschätzen zu können, und
  • wenn es um die Identifizierung alternativer Endpunkte für die Phase 3 geht (Ratain und Sargent 2009).
Randomisierung gewährleistet die Gültigkeit der Daten bei sich rasch ändernden Standards in Diagnostik, bei supportiven Maßnahmen sowie bei Patientenselektion und -therapie. Um das Fehlen von historischen Kontrolldaten für biomarkerselektionierte Untergruppen auszugleichen und nicht zuletzt um bei Kombination von Wirkstoffen den relativen Anteil der Prüfsubstanz am Gesamtergebnis erfassen zu können, ist Randomisierung indiziert (Booth et al. 2008). Doch auch Phase-2-Prüfungen mit vergleichendem randomisiertem Design sind primär als hypothesengenerierend einzustufen und bedürfen der Bestätigung in Phase-3-Prüfungen. Das ist dadurch bedingt, dass die im Allgemeinen gewählten kleinen Fallzahlen zu hohen Typ I-Fehlerwahrscheinlichkeiten von 10–20 % führen und die genaue Einschätzung des Ausmaßes eines Effekts wegen weiter Konfidenzintervalle schwierig ist (Cannistra 2009).
Eine besondere Form der Randomisierung stellt das randomisierte Diskontinuitätsdesign dar.
Es erlaubt, bei Patienten mit stabiler Erkrankungssituation (SD) unter einer experimentellen Therapie (Verum) zwischen therapiebedingten Effekten und dem tumorintrinsischen Wachstumsverhalten zu unterscheiden (Ratain et al. 2006).
Dieses Design ist besonders hilfreich für die Testung von Wirkstoffen, für die keine Zielstruktur für die Patientenselektion bekannt ist. Da nur Patienten mit SD unter Verum randomisiert und verblindet mit Verum oder Placebo weiterbehandelt werden – Patienten mit Ansprechen werden mit Verum weiter behandelt –, ist im Vergleich zu konventioneller Randomisierung nur ein kleinerer Teil der Patienten placeboexponiert, und die Gesamtzahl der mit Verum behandelten Patienten ist erhöht. Da alle Patienten initial Verum erhalten und allfällige Nebenwirkungen entwickeln können, erwarten diese Patienten dieselben Nebenwirkungen auch in der Phase der Randomisierung. Bei Nicht-Auftreten derselben geht folglich der Doppelblindcharakter verloren. Dies kann zu vermehrten Therapieabbrüchen führen, da den betroffenen Patienten bewusst wird, dass sie dem Placebo-Arm zugeteilt wurden.
Ein ganz anderer Grund für randomisierte Phase-2-Prüfungen tat sich auf, als die sogenannten „Seamless phase 2/3“-Designs als effiziente, zeit- und kostensparende Alternativen im Vergleich zu separaten Phase-2- und Phase-3-Prüfungen neuer Wirkstoffe vorgeschlagen wurden und intensive Methodenforschung veranlassten (Hunsberger 2012).
Besondere Erwähnung verdienen die „Window-of-opportunity“-Studien bzw. die Testung neuer Wirkstoffe im präoperativen/neoadjuvanten Setting (Glimelius und Lahn 2011; Schmitz et al. 2018). Sie sind in der Lage, früh in der Entwicklung, d. h. am besten nach den „First-in-man“-Erfahrungen, die Aktivität einzelner (wirkmechanistisch charakterisierter) Prüfsubstanzen bei genau selektionierten Patienten zu erfassen. Sie können jedoch nachfolgende randomisierte Phase-3-Prüfungen nicht ersetzen.

Biomarker in den frühen Phasen der klinischen Prüfung

Biomarker sind gemäß einer international anerkannten Definition biologische Marker, die als Indikatoren für normale biologische Prozesse, pathologische Prozesse oder pharmakologische Antworten auf eine therapeutische Intervention objektiv erfasst und gemessen werden können (Biomarkers Definitions Working Group 2001).
Biomarker können mittels verschiedener Systeme klassifiziert werden, wie z. B.
  • nach der Methode ihrer Bestimmung oder
  • nach ihrer Art, wie z. B. genomisch oder proteomisch (Pao und Ladanyi 2007; Alymani et al. 2010).
  • Auch werden verschiedene Arten von Biomarkern nach ihrer Anwendung bzw. dem damit verbundenen Zweck unterschieden.
In der frühen klinischen Testung sind dies oft Marker einer pharmakodynamischen Wirkung. In der Phase 3 kommen zusätzlich zu prädiktiven Biomarkern auch Surrogatbiomarker zur Anwendung oder Marker, die eine spezielle Wirkung im Verlauf kennzeichnen, sogenannte Intermediär-Endpunktbiomarker (Sarker und Workman 2007).
Die Arbeitsgruppe des Royal Marsden Hospital in London hat den Begriff der Anreicherungs-(„Enrichment“-)Biomarker geprägt und für jene Biomarker vorgesehen, für die zwar ein wissenschaftliches Rationale und starke präklinische Hinweise für antitumorale Aktivität vorliegen, die aber klinisch noch nicht qualifiziert sind und somit lediglich korrelative Endpunkte darstellen (McShane et al. 2009; Yap et al. 2010).
Obwohl dazu kein wissenschaftlicher Konsens vorliegt, empfehlen Yap et al. (2010) den Terminus prädiktive Biomarker für solche vorzubehalten, die wissenschaftlich schlüssig sind und für die die Methodologie präklinisch validiert wurde und die klinisch in randomisierten Studien qualifiziert wurden, in dem sie bei entsprechend selektionierten Patienten störungsunanfällig („robust“) und reproduzierbar antitumorales Ansprechen vorhersagen konnten.
Als pharmakodynamische Biomarker werden solche eingesetzt, die den theoretisch angenommenen Wirkmechanismus nachweisen, z. B. in Form der Modulation der Phosphorylierung von Targetproteinen, oder indem sie Wirkung in Form von Tumorrückbildung (OR) oder wirkstoffbedingter Toxizität als Off-Target-Effekte erkennen lassen. Auch werden sie bei der Bestimmung der pharmakokinetisch/pharmakodynamisch notwendigen Dosierung eingesetzt. Bei der Festlegung der RP2D, einem der primären Ziele der Phase 1, war der Einsatz von Biomarkern jedoch von untergeordneter Bedeutung bzw. wurden Biomarker dafür nur eingeschränkt in Anspruch genommen (Goulart et al. 2007).
Für die frühe Entwicklung von MTA ist der richtige Zeitpunkt der Selektion von Patienten mit Tumoren mit individuell nachgewiesener spezifischer Zielstruktur entscheidend:
  • Für eine Patientenselektion möglichst früh in der Wirkstoffentwicklung spricht, dass durch eine solche erst Phänomene mit geringer Prävalenz entdeckbar werden und damit eine falsch negative Einstufung vermieden werden kann sowie allfällige Nebenwirkungen auf jene Patienten beschränkt bleiben, bei denen zumindest theoretisch der zu erwartende therapeutische Effekt eintreten kann. Im Gegensatz zu Phase-1-Prüfungen mit Zytotoxika, die oft Patienten in fortgeschrittenem Krankheitsstadium und mit zahlreichen Vortherapien einschließen, ist die Phase 1 mit MTA und bei Erkrankungen mit weniger aggressiver Progression auch für den frühen Einsatz („window-of-opportunity“) im Krankheitsverlauf, sogar als Erst- und Zweitlinienbehandlung, geeignet.
  • Gegen eine Patientenselektion möglichst früh in der Wirkstoffentwicklung spricht, dass damit auch eine negative Kontrollgruppe (zu) früh wegfällt und insbesondere nach positiven Anfangserfolgen im weiteren Verlauf der Arzneimittelentwicklung nur schwer wieder eingeführt werden kann, um die Prädiktivität des Biomarkers zu validieren.
Der Nutzen des Einsatzes von Biomarkern in der frühen Arzneimittelentwicklung wurde in der Vergangenheit kontrovers diskutiert (Glassman und Ratain 2009). Sie sind in der Entwicklungsphase entweder ausschließlich von explorativem Charakter oder haben eine Funktion für die Studienführung. Sogenannte integrale Biomarker z. B. können zur Entscheidung über die weitere Dosiseskalation in der Phase-1-Prüfung herangezogen werden (Dancey et al. 2010). Mittlerweile bedient sich eine Mehrheit von Studien mit MTA dieser Vorgangsweise. Dies ist eine Bestätigung einer frühen Forderung der Arbeitsgruppe von Paul Workman, dass, wann immer Biomarker erfassbar sind, dieselben so früh wie möglich in den Entwicklungsprozess im Rahmen des sogenannten „pharmacologic audit trail“ aufgenommen werden sollten (Carden et al. 2010; Yap et al. 2010). So zeigten frühe Ergebnisse einer monozentrischen, retrospektiven Analyse des MD Anderson Cancer Center, dass Patienten, die eine molekulare Aberration hatten und die mit passenden gegen diese Zielstrukturen gerichteten Wirkstoffen behandelt wurden, besseres Ansprechen, längere TTF und längeres OS aufwiesen als solche, die konventionell behandelt wurden (Tsimberidou et al. 2012). In diesem Fall handelte es sich um eine retrospektive Auswertung nicht-randomisierter Daten. Eine Metaanalyse solcher Daten von 346 derartiger Studien ergab eine Assoziation mit signifikant besseren Ergebnissen für ORR und PFS bei biomarkerbasierter Patientenselektion. Hingegen wiesen Studien mit MTA, ohne dass Biomarker zum Einsatz kamen, lediglich vernachlässigbare ORR auf (Schwaederle et al. 2016). Dieses Ergebnis muss kritisch relativiert werden, zumal auch diese Analyse nicht von einer randomisierten Untersuchung herrührt.
Idealerweise sollte die Entwicklung von neuen Wirkstoffen und die von Biomarkern parallel erfolgen (Phillips et al. 2006; Yap et al. 2010) (Tab. 2):
  • Dieser Prozess beginnt bereits präklinisch (McShane et al. 2009). Auf dieser frühen Stufe steht die Entwicklung eines analytisch validierten Assays für Biomarker im Vordergrund. Dieser Ansatz findet in der sogenannten Phase 0 – so eine solche eingeschoben wird – unter erstmaliger Verwendung humanen Materials seine Fortsetzung.
  • In der Phase 1 werden Biomarker besser charakterisiert und in Bezug auf ihren Einsatz bei Humangewebe optimiert. Das hat jedoch zur Folge, dass in den frühen Phasen der Arzneimittelentwicklung noch keine validierten Biomarker zur Verfügung stehen, sondern lediglich explorative; es liegen auch noch keine optimierten Anwendungsbedingungen vor (Dancey et al. 2010).
  • In der Phase 2 kann die Frage nach einer Assoziation zwischen der Änderung des Biomarkers und dem klinischen Ergebnis gestellt werden. Dazu müssen genügend Patienten die von Biomarkern zu fordernden Qualifikationskriterien aufweisen. Seymour et al. (2010) nehmen in ihren Konsensus-Empfehlungen der Clinical Design Task Force des US-NCI-Investigational Drug Steering Committee zu Biomarkern in der Phase 2 explizit Stellung, indem sie sich – da Biomarker in dieser Phase meistens noch nicht validiert sind – gegen deren Einsatz zur Patientenselektion mit der Ausnahme bei Verwendung eines adaptiven Designs, jedoch für deren prospektiven Einschluss aussprechen, um deren Eignung als prädiktive Marker orientierend zu evaluieren.
  • Jedenfalls erscheint es unwahrscheinlich, in Phase-2-Prüfungen feststellen zu können, ob ein Biomarker-Effekt mit einem klinischen Benefit assoziiert ist oder diesen vorhersagen kann (prädiktiver Biomarker). Dies findet eher erst in der Phase-3-Prüfung statt, wenn im randomisierten Vergleich Kontrollen zur Verfügung stehen (Dancey et al. 2010). Die klinische Validierung von Biomarkern als Surrogatendpunkt für Wirksamkeit oder als Prädiktor des klinischen Ergebnisses erfolgt üblicherweise erst in der Phase 3 (Duffy et al. 2015).
Neuere Untersuchungen – ohne dass eine solche Validierung vorgenommen worden wäre – bestätigen bessere Ergebnisse unter Patientenselektion auf molekularer Basis, insbesondere verbessertes Ansprechen, längeres PFS und OS sowie eine Verminderung an Todesfällen (Schwaederle et al. 2015) (Kap. „Klinische Studien auf der Basis molekularer Charakterisierung von Tumoren“).
Die Entwicklung von Biomarkern in der klinischen Prüfung der Phase 3 ist unter Designs zur Prüfung von gegen molekulare Zielstrukturen gerichteten Wirkstoffen (MTA) mit Biomarkern abgehandelt (Abschn. 11.1.2).

Komplexe Studiendesigns für die Prüfung von gegen molekulare Zielstrukturen gerichteten Wirkstoffen (MTA) nach molekularer Charakterisierung von Patienten

Nicht zuletzt war es die Forderung nach mehr Effizienz in der Entwicklung von neuen Onkologika, die zur Etablierung von biomarkerassoziierten und/oder -basierten Master-Protokollen geführt hat (Woodcock und LaVange 2017; Park et al. 2019).
Beim Einsatz derselben handelt es sich um eine Vorgehensweise, die im Rahmen eines einzigen Protokolls Antworten auf mehrere Fragen zu geben versucht.
Basket-Studien
In Basket-Studien werden Patienten mit unterschiedlichen Tumorarten, die die gleichen molekularen Aberrationen aufweisen, mit demselben gegen diese Zielstruktur(en) gerichteten Wirkstoff getestet (Renfro und Sargent 2017; Cunanan et al. 2017; Dittrich 2020).
Umbrella-Studien
In Umbrella-Studien hingegen liegt eine einzige Tumorart vor, die durch unterschiedliche molekulare Aberrationen charakterisiert ist. In Abhängigkeit von diesen Zielstrukturen werden experimentelle, gegen dieselben gerichtete Wirkstoffe üblicherweise gegen einen bisherigen Standard prospektiv randomisiert in Form multipler Phase-2-Prüfungen getestet (Le Tourneau et al. 2014b; Renfro und Sargent 2017). Grundlage solcher biologiebasierten Phase-2-Prüfungen sind Wirksamkeitsvoraussagen auf der Basis des Nachweises molekularer Veränderungen in präklinischen Xenograftmodellen (Andre et al. 2011).
Plattform-Studien
Plattformstudien untersuchen verschiedene MTA bei einer Tumorentität, und zwar in kontinuierlicher sequenzieller Abfolge so, dass nach Abschluss der Prüfung eines Wirkstoffs die Prüfung des nächsten Wirkstoffs unter Beibehaltung der gleichen Kontrollgruppe erfolgen kann (Woodcock und LaVange 2017).
Überschneidungen von Basket- und Umbrella-Studien sind möglich (Renfro und Sargent 2017). Auch ist die Definition derselben uneinheitlich bis widersprüchlich (Berry 2015; Woodcock und LaVange 2017; Renfro et al. 2017; Dittrich 2020). Jedenfalls ist klar geworden, dass Basket-Studien nicht lediglich eine Anhäufung unabhängiger einarmiger Phase-2-Prüfungen darstellen, sondern einen neuen komplexen Ansatz zur Prüfung von MTA nach molekularer Charakterisierung von Patienten (Cunanan et al. 2017).
Obwohl schon erste Studienergebnisse von derartigen Initiativen präsentiert wurden, ist die genaue Positionierung dieser Studienformen in der klinischen Forschung noch zu bestimmen, und ihre Optimierung steht derzeit noch aus (Mansinho et al. 2019) (Kap. „Kapitel Klinische Studien auf der Basis molekularer Charakterisierung von Tumoren“).

Abfolge der klinischen Prüfung: Phase 1 – Phase 2 – Phase 3

Zahlreiche Entwicklungen, welche die Phase 2 überspringen wollten, sind gescheitert; unter ihnen solche von Metalloproteinase-Inhibitoren, von Farnesyltransferase-Inhibitoren, aber auch die eines TKI oder von Antisensoligonukleotiden (Coussens et al. 2002; Roberts et al. 2003; Morgan et al. 2003; Van Cutsem et al. 2004; Paz-Ares et al. 2006). Nur wenn aussagekräftige präklinische Daten über eine Substanz, ergänzt und bestätigt durch Phase-1-Daten über die Target-Inhibition, sowie Daten über biologische Effekte/Toxizität vorliegen – wie von wirksamen Dosen zu erwarten –, kann ein direkter Übergang von Phase 1 zu Phase 3 angedacht werden. Jedenfalls handelt es sich dabei um eine überaus riskante Vorgehensweise.
Es liegen widersprüchliche Daten dazu vor, inwieweit Phase-2-Ergebnisse für den Erfolg von Phase-3-Prüfungen prädiktiv sind. Booth et al. (2003) konnten diesen Zusammenhang nicht bestätigen. El-Maraghi und Eisenhauer (2008) erkannten ORR als prädiktiv für die Zulassung von MTA. Entgegen der zuvor genannten Befürwortung randomisierter Phase-2-Prüfungen fanden Monzon et al. (2015), dass einarmige Phase-2-Prüfungen in Bezug auf die Voraussagerichtigkeit des Erfolgs von Phase-3-Prüfungen nicht unterlegen waren.
Während in anderen medizinischen Bereichen die Phase-3-Prüfung oft nur die Bestätigung von Phase-2-Ergebnissen darstellt, trifft dies für die Onkologie nicht zu (Ratain 2005). Das mag zwar einerseits durch die Natur von Malignomen und die von Onkologika bedingt sein, andererseits möglicherweise designbedingt. Das Verwerfen der Nullhypothese, also der Nachweis eines Effekts in den verschiedenen Phase-2-Designs, ist nicht gleichbedeutend damit, dass eine Prüfsubstanz als gut wirksam angesehen werden kann. Positive Ergebnisse nicht kontrollierter Phase-2-Prüfungen, die allein noch nicht für eine Arzneimittelzulassung ausreichen, verfügen über einen niedrigen positiven prädiktiven Wert. Dies ist nicht zuletzt der Notwendigkeit geschuldet, dass in der Phase-2-Prüfung nur ein Teil der für die Wirksamkeit relevanten Zielparameter geprüft werden kann; meist nur die früh beobachtbaren Parameter, wie ORR, und selten die für OS relevanten. Ungeachtet dessen haben randomisierte Phase-2-Prüfungen einen hohen positiven prädiktiven Wert im Hinblick auf eine erfolgreiche Entwicklung (Ratain et al. 1993).

Klinische Prüfung der Phase 3

Die Phase 3 stellt die konfirmatorische Phase im Prämarketing-Segment der Arzneimittelentwicklung dar.
Sie dient der Etablierung von neuen Therapiestandards und stellt die häufigste Grundlage für die behördliche Arzneimittelzulassung und anschließende therapeutische Anwendung dar.
Das Ausmaß der Wirksamkeit einer Prüfsubstanz, wie sie in einer randomisierten Phase-3-Prüfung gemessen wird, sollte den Benefit für Patienten in Form von längerem OS und auch in Form von verbesserter QoL während des Überlebens widerspiegeln (Tab. 2). Unter besonderen Umständen kann PFS als primärer Endpunkt eingesetzt werden. Das ist zulässig, z. B.
  • wenn PFS als Surrogat für OS validiert wurde,
  • wenn insbesondere bei placebokontrollierten Studien wegen Crossover zu späteren Therapien die Beurteilung von OS eingeschränkt/verunmöglicht wird oder
  • wenn die absehbare Durchführung mehrerer nachfolgender Therapien die Erfassung eines Unterschieds im OS bei Indikationen mit langer Überlebenserwartung einschränken (Ocana und Tannock 2011) (Abschn. 12).
Um in höherem Umfang, als dies bisher der Fall war, zu gewährleisten, dass positive Phase-3-Prüfungen auch tatsächlich Benefit für Patienten bedeuten, hat die Arbeitsgruppe um Ian Tannock die Forderung erhoben, dass der klinisch relevante Unterschied (Delta [Δ] der Hypothesenbildung bei der Studienplanung) im primären Endpunkt zugunsten des Experimentalarms nicht nur die nach Prüfplan angestrebte statistische Signifikanz erreicht, sondern auch eine für jedes Protokoll bzw. den jeweils gewählten Endpunkt zu fordernde Mindestgröße hat (Sloan 2005; Ocana und Tannock 2011). Unter Bezugnahme auf Überlegungen von Sobrero und Bruzzi (2009) fordern Ocana und Tannock (2011) ein Δ von zumindest 3 Monaten im medianen OS oder von 4–6 Monaten im medianen PFS – einem Hazard Ratio von 0,75 für OS und 0,5 für PFS entsprechend –, um als klinisch relevant eingestuft werden zu können.
In den 1980er-Jahren wurden randomisierte, kontrollierte Studien (RCT, „randomized controlled trials“) in der klinischen Epidemiologie und Arzneimittelforschung zum Goldstandard des medizinischen Erkenntnisgewinns (Jones und Podolsky 2015; Bothwell et al. 2016). Naturgemäß haben auch RCT – wie alle methodischen Systeme – Schwachstellen. Eine davon ist die immanent relativ späte Antwort auf eine gestellte Frage infolge der Dauer einer Phase-3-Prüfung, insbesondere dann, wenn mehr als eine RCT gefordert wird. Das kann in krassen Fällen dazu führen, dass der Kontrollarm bei Studienende nicht mehr dem medizinischen Standard entspricht. So mag zwar die interne Validität der Ergebnisse gegeben sein, jedoch wird die externe verloren, wenn die Ergebnisse nicht mehr sogenannten „real-world data“ entsprechen. Um extern valide Ergebnisse zu gewährleisten, werden große Anstrengungen unternommen, Einschlussfaktoren für Patienten in klinische Prüfungen weniger restriktiv zu halten bzw. an die Situation außerhalb von klinischen Prüfungen anzupassen. Dies ist nicht auf die Phase 3 beschränkt (Vassal et al. 2013; Le Saux et al. 2016; Tannock et al. 2016; American Society of Clinical Oncology 2017).
Nicht nur, aber auch dem Umstand Rechnung tragend, dass auch Phase-3-Prüfungen mit positivem Ausgang eher publiziert werden als negative Studien („publication bias“), wurde die Registrierung aller Studien (via EudraCT und/oder ClinicalTrials.gov) zur Pflicht für klinische Prüfungen der guten klinischen Praxis (Abschn. 13.2).
Das ursprüngliche Ziel von RCT, nämlich systematische Fehler („bias“) zu reduzieren, ist erreicht worden (Doll 1998; Tannock et al. 2016). Dagegen stellt die Frage der Anwendbarkeit von Daten aus RCT auf Individuen oder kleinste Patientengruppen, die im Zentrum von personalisierter Medizin stehen, eine noch zu bewältigende, neue Herausforderung für Phase-3-Prüfungen dar (Bothwell et al. 2016). RCT weisen im Allgemeinen die Tendenz auf, den teilnehmenden Patienten zu nützen und nicht zu schaden (Braunholtz et al. 2001). Diese Evidenz stammt primär von onkologischen Studien. Die Erarbeitung dieser Evidenz unterliegt immanenten Schwierigkeiten, zumal Studienergebnisse von RCT ihrerseits unter einem sogenannten Studien-/Prüfungseffekt zustande kommen, der wiederum auf verschiedene Effekte, nämlich
  • Behandlungseffekt,
  • Protokolleffekt,
  • Pflegeeffekt,
  • Verhaltensänderungs-(„Hawthorne“-)Effekt oder
  • Placeboeffekt, oder
  • auf eine Kombination aus denselben
zurückzuführen sein mag (Braunholtz et al. 2001). Diese Erfahrungen werden durch eine neuere multivariate Analyse unterstützt, die 21 von 102 SWOG-(„South West Oncology Group“-)Phase-3-Prüfungen im Zeitraum 1987–2007 mit rund 5200 Patienten untersuchte (Unger et al. 2014). Die Autoren kamen zum Schluss, dass zwar für die Gesamtheit aller Studienteilnehmer OS nicht verlängert war, jedoch war die OS-Rate nach einem Jahr – auch bei schlechter Prognose – im Vergleich zu nicht an Studien teilnehmenden Patienten sehr wohl erhöht. Darüber hinaus wies die Untergruppe der Patienten mit schlechter Prognose verlängertes OS auf.
Des Weiteren werden durch Randomisierung, d. h. Zuordnung von Patienten zu Behandlungsarmen nach dem Zufallsprinzip, nicht nur die Grundlagen für einen statistischen Kausalzusammenhang zwischen Endpunkt und Therapieform geschaffen, sondern es werden so Zufallsergebnisse eliminiert oder zumindest reduziert, und zwar umso besser, je größer die Studien sind (Peto und Baigent 1998). Dies ist umso bedeutsamer, als insbesondere in der Vergangenheit der Umfang an Unterschieden in den Ergebnissen von Behandlungen meist gering war (Joffe et al. 2004). Auch haben RCT durch ihre häufig negativen Ergebnisse selbst den besten Beweis für die Notwendigkeit ihrer Durchführung geliefert (Meropol 2007; Miller und Joffe 2011).
Rechtfertigendes zentrales Element für die Durchführung der Randomisierung ist das Prinzip von „equipoise“, das nach Freedman (1987) als „fehlender Konsens über die Vergleichbarkeit der Ergebnisse der zur Testung anstehenden Behandlungsalternativen“ eingestuft wurde. Andere Autoren bezeichneten „equipoise“ auch als „berechtigte Unsicherheit über das Ergebnis einer Studie“ (Meropol 2007) oder als „professionelle Unsicherheit“. Letzteres, auch Unsicherheitsprinzip genannt, besagt:
„Ein Patient darf in eine klinische Prüfung eingebracht werden, und nur dann, wenn der verantwortliche Kliniker substanziell unsicher ist, welche der Behandlungen der klinischen Prüfung für den speziellen Patienten am passendsten ist“ (gekürzt nach Peto und Baigent 1998).
Auf die Problematik der Ungenauigkeit von „equipoise“ wird von Miller und Joffe (2011) hingewiesen, auch unter welchen Bedingungen auf die klinische Prüfung in Form von RCT verzichtet werden kann. Wird eine Prüfsubstanz z. B. auf der Basis einer einarmigen Phase-2-Prüfung zugelassen, wird in Kauf genommen, dass diese Therapie zum neuen Vergleichsstandard für künftige klinische Prüfungen wird und später entwickelte Wirkstoffe nicht mehr mit einer unbehandelten Kontrolle verglichen werden können.

Designs der klinischen Prüfung in der Phase 3

Die zentrale Rolle der Phase-3-Prüfung zum Nachweis der Wirksamkeit einer Prüfsubstanz stellt hohe Anforderungen an die Planung und Erstellung des Prüfplans bzw. Designs. Vielfältigkeit von Tumorerkrankungen und von deren unterschiedlichen behandlungspflichtigen Stadien, Verschiedenartigkeit der Behandlungsmöglichkeiten, aber auch praktische und strategische Überlegungen zur Patientenrekrutierung führten zu verschiedenen Designs, unter denen ein für die jeweilige Fragestellung geeignetes auszuwählen ist. Infolgedessen haben die Begründung und Formulierung der Ziele und konkreten Fragestellungen für die Phase-3-Prüfung höchste Priorität und entscheiden über Ergebnis und Nutzen, aber auch ethische Vertretbarkeit des Vorhabens.

Prüfung auf Wirksamkeit – Zweiarmige Überlegenheitsstudie

Die zweiarmige randomisierte kontrollierte Studie (RCT) vergleicht eine neue Prüfsubstanz E (experimenteller Arm) mit einer Standardtherapie C (Kontroll- oder Standardarm).
Sie ist weiterhin das am häufigsten gewählte Design für Phase-3-Prüfungen. Hinsichtlich Vorbereitung, Begründung und Durchführung relativ einfach liefert es im Vergleich zu komplexeren (z. B. mehrarmigen oder mehrstufigen) Designs in kürzester Zeit interpretierbare Ergebnisse und zwar mit minimal benötigten Patientenzahlen. In seiner einfachsten Version hat es einen einzigen primären Endpunkt, oft OS, und es klassifiziert weitere durchaus auch klinisch relevante Endpunkte als sekundäre Endpunkte und stuft die Ergebnisse von Auswertungen von Untergruppen ebenfalls als sekundär ein.
Überlegenheitsstudien
In Überlegenheitsstudien („superiority trial“) werden aus biostatistischer Sicht 2 Hypothesen aufgestellt:
  • die Nullhypothese H0: „E und C sind gleich wirksam“ gegen
  • die Alternativhypothese H1: „E ist wirksamer als C“.
Auf der Datenbasis von insgesamt n = nE + nC (n Patienten; nE Patienten in Arm E, nC in Arm C meist, aber nicht zwingend zu gleichen Anteilen randomisiert) wird entschieden, ob E wirksamer als C ist; in biostatistischer Sichtweise, ob H0 abgelehnt und H1 angenommen wird. Im alternativen Fall wird H0 nicht abgelehnt, sondern beibehalten; damit kann nicht auf H1 geschlossen werden, und es bleibt bei „E und C sind gleich wirksam“. In dieser Entscheidungssituation sind 2 mögliche Fehlentscheidungen zu bedenken:
  • Erstens kann die Entscheidung für die Ablehnung von H0 und Proklamation von Wirksamkeit von E falsch sein, wenn selbige nicht vorliegt und E nicht wirksamer als C ist (Fehler 1. Art für eine falsch positive Aussage).
  • Und zweitens kann die Entscheidung für die Beibehaltung von H0 falsch sein, wenn eine wirksame Prüfsubstanz fälschlicherweise nicht angenommen wird (Fehler 2. Art für eine falsch negative Aussage).
Konventionell wird der Fehler 1. Art mit einer maximalen Fehlerwahrscheinlichkeit von α = 5 % kontrolliert, der Fehler 2. Art mit einer maximalen Fehlerwahrscheinlichkeit von β = 10–20 %. Das Komplement der Wahrscheinlichkeit β, nämlich die Wahrscheinlichkeit 1–β von 90–80 %, den Fehler 2. Art nicht zu machen, ist die Wahrscheinlichkeit, eine wirksame Prüfsubstanz in der klinischen Prüfung zu entdecken, und wird als „power“ (Güte oder Macht des statistischen Tests) bezeichnet. Abweichungen von diesen Werten der Fehlerwahrscheinlichkeiten sind grundsätzlich nicht ausgeschlossen, vor allem nicht aus statistischen Überlegungen, sollten aber im Einzelfall begründet werden. Es ist offensichtlich, dass geringere Fehlerwahrscheinlichkeiten, ob für α oder β alleine oder für beide, zu höheren Fallzahlen führen; im umgekehrten Fall zur Reduktion.
Vor allem die Zulassungsbehörden haben darauf gedrängt, dass für den Fall der zweiseitigen Nullhypothese H0: „E und C sind gleich wirksam“ gegen die Alternativhypothese H1: „E ist wirksamer als C“ bereits α = 2,5 % benutzt wird.
So wird die zweiseitige Alternative H1: „E und C sind nicht gleich wirksam“ für die beiden möglichen einseitigen Teilhypothesen H1L: „E ist wirksamer als C“ und H1R: „C ist wirksamer als E“ gemeinsam auf dem Niveau von α = 5 % statistisch kontrolliert, was natürlich die Fallzahl erhöht und bis zu einem gewissen Grad hilft, zu kleine klinische Prüfungen zu vermeiden. Vor dem Hintergrund einer höchst aktiven Studienszene in der Onkologie mit Hunderten von parallel laufenden klinischen Prüfungen bedeutet α = 5 % (oder 2,5 %), dass bis zu 5 % (oder 2,5 %) der klinischen Prüfungen aus rein statistischen Gründen (wegen der zufallsbedingten Variabilität der Reaktion der rekrutierten Patienten) fälschlicherweise Wirksamkeit proklamieren, gleichzeitig wird aber in β % (z. B. 10–20 %) der klinischen Prüfungen eine wirksame Prüfsubstanz nicht entdeckt. Daraus kann aber nicht geschlossen werden, dass ein bestimmter Prozentsatz von verabreichten Therapien (5 % oder mehr) unwirksam ist. Diese Fehlerwahrscheinlichkeiten sind Teil der Methodik der wissenschaftlichen Prüfung neuer Therapien und können nicht direkt in epidemiologische oder versorgungsrelevante Gesundheitsforschung übertragen werden.
Delta (Δ)
Entscheidend für die konkrete Berechnung ist eine weitere Spezifizierung der Alternative H1: „E ist wirksamer als C“ durch die Angabe, um wie viel wirksamer E im Vergleich zu C sein soll, damit E als klinisch wirksamer angesehen werden kann. Für die klinische Prüfung in der Phase 3 wurde dafür der Begriff „klinisch relevanter Unterschied“ (zwischen E und C) mit der Bezeichnung Delta (Δ) gewählt. Erst wenn H1 als „E ist um Δ wirksamer als C“ getestet wird, kann die Fallzahl für eine Studie mit festgelegtem Δ bestimmt werden.
Δ definiert damit die Effektgröße im Verhältnis zum Standard.
Die Wahl von Δ hat einen weitaus stärkeren Einfluss auf die Fallzahl als jede der beiden Fehlerwahrscheinlichkeiten. Ein großer Unterschied, so er existiert, kann mit einer relativ kleinen Fallzahl statistisch signifikant auf dem Niveau α entdeckt werden. Ist dieser erwartete bzw. bei der Planung geforderte Unterschied Δ klinisch unrealistisch und zu groß gewählt, kann er bei kleiner Fallzahl kaum entdeckt werden, und die klinische Prüfung endet mit hoher Wahrscheinlichkeit nicht signifikant; typischerweise mit hoher Variabilität des primären Endpunkts in beiden Armen. Ein kleines Δ erfordert hohe Fallzahlen, die im Bereich von mehr als 1000 Studienteilnehmern liegen kann. Es sollte stets, abgesehen von Machbarkeit und Kosten, auf klinische Relevanz geprüft werden, die umso fragwürdiger wird, je mehr sich der nachzuweisende Unterschied der Variabilität des primären Endpunkts in der Patientenpopulation nähert.
Mit der Festlegung der Prüfhypothesen und Fehlerwahrscheinlichkeiten müssen für einen vollständigen Prüfplan der primäre Endpunkt und dessen Δ spezifiziert werden. In der Phase 3 ist dafür an erster Stelle OS anzusehen, gefolgt von anderen Wirkdauern, für die mehrere Varianten, wie DFS, PFS, Zeit des Überlebens nach Progredienz (PPS) oder Zeit bis zur Tumorprogression (TTP) bzw. Zeit bis zum Therapieversagen (TTF) vorliegen. Je nach Typ und Stadium der Tumorerkrankung und Wirkmechanismus der Prüfsubstanz kommen letztere vor allem als sekundäre (in manchen Fällen auch als primäre) Endpunkte in Betracht. Zu beachten ist, dass in der Methodik klinischer Prüfungen die Begriffe Zielgröße, Zielparameter und Endpunkt („endpoint“) gleiche Bedeutung aufweisen.
Fallzahl
Grundsätzlich bestimmt der primäre Endpunkt – in komplexeren Designs auch mehrere primäre Endpunkte – die Fallzahl. Das schließt eine prospektive Fallzahlüberlegung zu sekundären Endpunkten aber nicht aus. Dabei wird jedoch keine weitere Fallzahl, sondern die „power“ des jeweiligen sekundären Endpunkts berechnet, mit welcher der jeweilige sekundäre Endpunkt einen ihm zugesprochenen relevanten Unterschied als statistisch signifikant entdecken lässt.
OS und andere Wirkdauern haben als kontinuierlich beobachtbare Ereigniszeiten grundsätzlich eine höhere statistische Effizienz als qualitative Endpunkte, wie z. B. eine Überlebens- oder Ansprechrate, die lediglich angeben, ob das Zielereignis irgendwann in der klinischen Prüfung eintrat. Ansonsten gelten die nachfolgenden methodischen Überlegungen zum OS mit Modifikationen auch für die anderen Wirkdauern. Im Gegensatz zum OS, das ausschließlich über das Ereignis Tod definiert ist, sind diese komplexer definiert, und der Anteil an nicht auswertbaren Studienteilnehmern ist meist höher als bei OS.
In besonderen Fällen sind ORR und QoL die relevanten primären Endpunkte. ORR weist als primärer Endpunkt Nachtteile auf: Die Fallzahl hängt stark von der Lage der ORR der Standardtherapie ab. Während ein Unterschied von 10 % zwischen E und C bei ORR von 20 % für C bei α = 5 % und „power“ 80–90 % 249–338 Patienten erfordert, sind es bei ORR von 40 % 321–445 Patienten. Neben Unsicherheiten und Ungenauigkeiten der Beurteilung ist dies ein Grund, ORR in der Phase 3 lediglich als sekundären Endpunkt auszuwerten. Bezüglich QoL sei vor allem darauf hingewiesen, dass neben ihrer Komplexität als longitudinale, mehrfach gemessene Größe, die zur Auswertung eine statistische Modellbildung erfordert, auch zu beachten ist, dass sie als subjektiver primärer Endpunkt für eine definitive Beurteilung nur in einer Blind-/Doppelblindstudie ausreichend Validität besitzt.
Test auf Überlegenheit der Prüfsubstanz – Rolle der Hazardfunktion
Die fulminante Methodenentwicklung für die Analyse von Überlebenszeiten (Kaplan und Meier 1958; Cox 1972; Peto et al. 1976; Prentice 1978) und ihre Verbreitung (Kalbfleisch und Prentice 1980; Marubini und Valsecchi 1994) sowie ihre rasche Übernahme als Methode der Wahl in der klinischen Forschung führten schon früh zum nicht-parametrischen Vergleich von Überlebenskurven dergestalt, dass die oben allgemein formulierten Nullhypothesen und Alternativhypothesen zum Vergleich der Wirksamkeit in Bezug auf OS Anlass waren, die Überlebensfunktionen SE(t) und SC(t) zu vergleichen.
Die Überlebensfunktion S(t) ist die Wahrscheinlichkeit, den Zeitpunkt t, gemessen ab Therapiebeginn oder Randomisierung, zu überleben.
Dies führt zu
  • H0: „SE(t) = SC(t) für alle Zeiten t“ gegen
  • die Alternativhypothese H1: „SE(t)≥SC(t) für mindestens einen Zeitpunkt t“.
Infolgedessen vergleicht der Logrank-Test als Methode der Wahl für den Vergleich von 2 Überlebenszeitverteilungen nicht irgendeine abgeleitete Maßzahl der beiden Verteilungen SE(t) und SC(t) (wie z. B. den Mittelwert oder den Median), sondern die beobachteten Überlebenszeiten selbst. Dabei ist zu berücksichtigen, ob die Zeit bis zum Tod beobachtet werden konnte oder ob Patienten zu einem bestimmten Zeitpunkt ausgeschieden sind oder bis zum Stichtag der Auswertung noch am Leben waren (Peto et al. 1976). In den letzteren Fällen werden die Daten als zensiert bezeichnet, entsprechend auch für andere Wirkdauern, wie z. B. Zeiten bis zum Eintritt einer Progression oder zu einem anderen negativen Ereignis („time to event“).
Derartige zensierte Ereigniszeiten werden mit einer einheitlichen Methodik analysiert (Schumacher und Schulgen 2007). Die Methodik der Analyse von Ereigniszeiten – auch als Ausfallzeiten („failure times“) bezeichnet – hat sich von Beginn an weniger auf die Überlebensfunktion S(t) konzentriert, die mit dem Kaplan-Meier-Schätzer optimal empirisch beschrieben ist, sondern auf die statistisch äquivalente Hazardfunktion h(t), die Inzidenzfunktion der Ereignisse (Kaplan und Meier 1958). Bei OS ist der Tod eines Patienten das Ereignis, und h(t) ist dann ein momentanes Sterberisiko.
Mathematisch ist h(t) ein Grenzwert der bedingten Wahrscheinlichkeit, das Ereignis unmittelbar nach der Zeit t zu erfahren, wenn es bis zu dieser Zeit noch nicht eingetreten ist.
Auf dieser Grundidee basieren
  • die Kaplan-Meier-Kurven als statistische Schätzung der Überlebensfunktion S(t) und
  • der Logrank-Test, aber auch
  • das Cox-Modell, das als Regressionsmodell sowohl eine Anpassung („adjustment“) des Vergleichs von SE(t) mit SC(t) bezüglich prognostischer Faktoren gestattet als auch für die Identifikation von Prognosefaktoren ganz allgemein eingesetzt werden kann (Cox 1972; Prentice 1978).
Im letzteren Fall können Therapien (Vortherapien zusammen mit einer oder mehreren Prüftherapien) als Faktoren (in statistischer Sprechweise als Kovariable) im Verbund mit anderen Faktoren auf ihren Einfluss auf OS analysiert werden. Der Einfluss selbst wird durch die Größe der den Faktoren zugeordneten statistischen Regressionsparameter einschließlich ihrer statistischen Signifikanz bzw. ihrer 95 % Konfidenzintervalle ausgedrückt (Schumacher und Schulgen 2007; Anderson et al. 2012; Harrel 2015).
Ein Vergleich der 2 Überlebenskurven SE(t) und SC(t) kann durch das Verhältnis ihrer beiden Hazardfunktionen hE(t) und hC(t) mittels einer einzigen Funktion beschrieben werden, dem Hazardquotienten (Hazard Ratio)
$$ \mathrm{HR}\left(\mathrm{t}\right)={\mathrm{h}}_{\mathrm{E}}\left(\mathrm{t}\right)/{\mathrm{h}}_{\mathrm{C}}\left(\mathrm{t}\right), $$
der im Laufe der Anwendung der statistischen Theorie in der klinischen Forschung zum zentralen Parameter des Therapievergleichs wurde und inzwischen in allen Ergebnissen von Therapiestudien berichtet wird. Zu beachten ist, dass in der Literatur die Hazardfunktion oft auch Hazardrate genannt wird und nicht mit dem englischen Begriff „hazard ratio“ verwechselt werden darf.
Mittels Hazardquotienten können die Null- und Alternativhypothesen für den Test auf Überlegenheit umformuliert werden als H0: „HR(t) = 1 für alle Zeiten t“ gegen die Alternativhypothese H1: „HR(t)<1 für mindestens einen Zeitpunkt t“. Als Quotient
$$ {\mathrm{h}}_{\mathrm{E}}\left(\mathrm{t}\right)/{\mathrm{h}}_{\mathrm{C}}\left(\mathrm{t}\right)<1 $$
zeigt er an, dass das Ereignisrisiko im Arm E geringer ist als im Kontrollarm C und somit die Prüfsubstanz E wirksamer als die Kontrolle C.
Ist die Wirkung der Prüfsubstanz besser als die von C, kann Konstanz, d. h. HR(t) = HR*, des im Allgemeinen von der Zeit ab Therapiebeginn abhängigen HR(t) angenommen werden, und die Konstante HR* beschreibt den Unterschied zwischen E und C. Man spricht dann von proportionalen Hazards, d. h. hE(t) ist proportional zu hC(t) mit der Proportionalitätskonstanten HR*; es gilt:
$$ {\mathrm{h}}_{\mathrm{E}}\left(\mathrm{t}\right)={\mathrm{HR}}^{\ast }{\mathrm{h}}_{\mathrm{C}}\left(\mathrm{t}\right). $$
Dies ist die grundlegende Voraussetzung zur Berechnung der Fallzahlen aller Studien mit Ereigniszeiten als primärem Endpunkt. In der praktischen Anwendung werden dazu Werte zwischen relativ hoher Wirksamkeit im Bereich von 0,5–0,6 und relativ geringer Wirksamkeit im Bereich von 0,8–0,9 unterschieden; mit der entsprechenden Konsequenz für die Fallzahlen. Wird zum Beispiel eine Phase-3-Prüfung für α = 5 % (zweiseitig) und „power“ 90 % mit Rekrutierungs- und Nachbeobachtungszeit von jeweils einem Jahr (also Gesamtdauer 2 Jahre) bei 10 % Ausfall geplant, so werden nach Lakatos (2002) lediglich 144 auswertbare Studienteilnehmer (72 pro Arm) benötigt, wenn der Hazardquotient von E über C als HR* = 0,5 angenommen wird. Muss der Unterschied zwischen E und C als geringer angenommen werden, steigt die Fallzahl rasch an: für HR* = 0,66 (2/3) müssen 371, für HR* = 0,75 (also 3/4) 748 und ab ca. HR* = 0,8 (4/5) mehr als tausend Studienteilnehmer, berechnet mit Pass 11 (Hintze 2011), rekrutiert werden.
Im Cox-Modell wird die Hazardfunktion in einem Regressionsmodell funktional mit der Behandlung (E oder C) als Einflussfaktor für Überleben in Verbindung gebracht und sein Regressionsparameter b ist gleich dem Logarithmus des Hazardquotienten HR*, also log(HR*) = b. Obgleich das Modell proportionale Hazards annimmt – und deswegen oft auch proportionales Hazardmodell genannt wird –, hat es sich als sehr robust gegen Abweichungen von dieser Annahme erwiesen und zum Standardmodell für die Modellierung von zensierten Überlebenszeiten entwickelt.
In den Vorbereitungen zur Studienplanung, vor allem bei OS, sind Überlegungen zur medianen Überlebenszeit und zu Überlebenswahrscheinlichkeiten nach bestimmten Zeiträumen, wie den 1-Jahres-, 3-Jahres- oder 5-Jahres-Überlebensraten, oft von Vorteil, da diese Parameter aus der Literatur bekannt sind und eine sehr anschauliche Interpretation haben. Im Vergleich zum Hazardquotienten HR (konstant über die Zeit) haben diese eher punktuellen statistischen Parameter den Nachteil, dass sie nicht den ganzen Zeitraum ab Randomisierung abgreifen. Aussagen über mediane Überlebenszeiten oder Überlebensraten können unter bestimmten Annahmen bezüglich Verteilung der Ereigniszeiten in Aussagen über den Hazardquotienten umgerechnet werden. Derartige Überlegungen sollten als Teil der Studienplanung und Fallzahlberechnung zwischen dem Sponsor und den an der klinischen Prüfung beteiligten klinischen Forschern zusammen mit den für die klinische Prüfung verantwortlichen Biostatistikern und Datenmanagern besprochen werden. Dazu gehört auch die Auswahl geeigneter Fallzahlprogramme, für die es Expertise z. B. in klinischen Koordinationszentren gibt.
Test auf Nicht-Unterlegenheit der Prüfsubstanz
Kann bei einem Test auf Überlegenheit die Nullhypothese H0: „E und C sind gleich wirksam“ nicht abgelehnt werden, verwehrt die Theorie des statistischen Testens die Aussage „E und C sind gleich wirksam“, da sie nicht in gleicher Weise wie die Alternative H1: „E ist wirksamer als C“ abgesichert ist; offensichtlich deswegen, weil der Fehler 2. Art, oft zwischen 20 % und 10 %, bei einer „power“ von 80–90 % deutlich höher als der Fehler 1. Art, angenommen als 2,5 %, ist. Ein weiterer Grund liegt in der Asymmetrie zwischen H0 und H1 des statistischen Testens selbst.
Um dennoch Aussagen über Äquivalenz von 2 Therapien zu erlauben, wurden sogenannte Äquivalenztests eingeführt, bei denen „E und C sind gleich wirksam“ die zu testende Alternativhypothese und als Konsequenz deren Verneinung „E und C sind nicht gleich wirksam“ die Nullhypothese werden. Wiederum sind in der Entwicklung von Onkologika die einseitigen Hypothesen von größerer Bedeutung als die zweiseitigen. In einem Test auf Nicht-Unterlegenheit von E im Vergleich zu C wird
  • die Nullhypothese H0: „E ist C unterlegen“ gegen
  • die Alternativhypothese H1: „E ist C nicht unterlegen
geprüft.
Für die praktische Durchführung muss festgelegt werden, um wie viel die Wirkung von E unter derjenigen von C liegen darf, damit immer noch von Äquivalenz oder Nicht-Unterlegenheit von E im Vergleich zu C ausgegangen werden kann. Es geht somit um die Festlegung einer Unterlegenheitsschwelle ΔNU. Ist OS der primäre Endpunkt, wird in einem Test auf Nicht-Unterlegenheit von E im Vergleich mit C
  • die Nullhypothese H0: HR > ΔNU gegen
  • die Alternativhypothese H1: HR ≤ ΔNU
geprüft, wobei ΔNU ein Wert größer als 1 ist, z. B. 1,1 oder 1,3. Die Wahl einer Unterlegenheitsschwelle ΔNU ist extrem kritisch und bedarf einer intensiven Diskussion aller an der klinischen Prüfung Beteiligten, an dessen Ende eine klinische und ethische Rechtfertigung stehen sollte (Kopecky und Green 2012). Die erforderlichen Fallzahlen steigen mit fallenden Werten von ΔNU rasant an z. B. von ca. 500 für ΔNU = 1,3 auf ca. 5000 für ΔNU = 1,2 bei üblichen Fehlerwahrscheinlichkeiten (α = 2,5–5 % und β = 10–20 %).

Zwischenauswertungen und gruppensequenzielle Designs

Dauer, Kosten und die möglichen therapeutischen Konsequenzen einer Phase-3-Prüfung erfordern eine regelmäßige Kontrolle des Studienverlaufs, die
  • das Monitoring der Rekrutierung sowie
  • die Maßnahmen zur Patientensicherheit umfassen, wie
  • die Erfassung von Toxizität sowie
  • die Auswertung und Bewertung von AE (Kap. „Bewertung unerwünschter Ereignisse und Therapienebenwirkungen“).
Derartige Zwischenauswertungen sind aus biostatistischer Sicht von beschreibender Natur und werden daher unabhängig von den Auswertungen der primären Endpunkte als administrative (Zwischen-)Auswertungen zur Gewährleistung der internen Validität einer klinischen Prüfung angesehen. Dazu gehört auch die Beurteilung der bei Studienbeginn getroffenen Annahmen, z. B. bei den Ein-/Ausschlusskriterien und den primären und sekundären Endpunkten (siehe „Adaptive Designs“).
Verschieden von administrativen (Zwischen-)Auswertungen sind Zwischenauswertungen zu primären und allenfalls auch ausgewählten sekundären Endpunkten zur Wirksamkeit oder zur Beurteilung bzw. Revision des Nutzen-Risiko-Verhältnisses der klinischen Prüfung. Solche Auswertungen haben hohe methodische Relevanz, wenn ihre Ergebnisse Konsequenzen für die Fortsetzung der klinischen Prüfung und/oder für Empfehlungen studienbegleitender Data Safety Monitoring Boards (DSMB) haben; oft auch als Data Monitoring Committee (DMC) bezeichnet. Deswegen wurden Zwischenauswertungen der primären Endpunkte und die Beurteilung von frühen Therapieunterschieden ein fester Bestandteil in der Planung klinischer Phase-3-Prüfungen (Armitage et al. 1969; Pocock 1977; Köpcke 1984).
Vorzeitige Beendigung
Es ist unwidersprochen, dass ein frühzeitiger Stopp einer Phase-3-Prüfung aus ethischen Gründen angezeigt ist, wenn die klinische Prüfung bereits zu einem frühen Zeitpunkt der Rekrutierung oder des Verlaufs zu keinem statistisch signifikant positiven Ergebnis mehr führen kann, d. h. aus Gründen der Aussichtslosigkeit („futility“). Als diskussionswürdig bis problematisch ist ein Stopp einer klinischen Prüfung bereits zum Zeitpunkt einer Zwischenauswertung anzusehen, wenn sich eine Überlegenheit für die Prüfsubstanz zeigt und diese daher den Patienten der Kontrollgruppe nicht vorenthalten werden soll. Eine umgekehrte Problematik entsteht, wenn überzeugend deutlich wird, dass der Prüfarm oder das Studienkonzept nachteilig für Patienten wird, sich also das Nutzen-Risiko-Verhältnis im Verlauf der klinischen Prüfung relevant verschlechtert. Für solche Entscheidungen zum Fortgang der klinischen Prüfung ist ein statistisch robustes Ergebnis erforderlich. Dabei muss die statistische Qualität der geplanten Endauswertung erhalten bleiben, da bei Beginn der Zwischenauswertung nicht sicher ist, ob und wie die klinische Prüfung nach Analyse des Zwischenergebnisses bis zum geplanten Studienende fortgesetzt wird.
Durchführung
Eine oder wiederholte Zwischenauswertungen sind so durchzuführen, dass der geplante Hypothesentest zur Wirksamkeit zumindest den Fehler 1. Art, α, einhält. Es ist die statistische Problematik des multiplen Testens, die bei einer oder mehreren Zwischenauswertungen die Gültigkeit des Fehlers 1. Art beeinträchtigt. Nach wiederholten Tests kann der Gesamt-α-Fehler deutlich größer sein, als er bei der Planung gewählt wurde. Die Fragen der Notwendigkeit und Zweckmäßigkeit von verblindeten Zwischenauswertungen einschließlich der Beurteilung von Therapieeffekten mittels Konfidenzintervallen wurden in der biostatistischen Literatur zwar intensiv, oft aber ohne direkten Verweis auf die Prüfung von Onkologika und selten spezifisch für Ereigniszeiten diskutiert (Xie et al. 2012; Posch et al. 2018).
Gruppensequenzielle Versuchspläne
Schon früh wurden für Zwischenauswertungen gruppensequenzielle Versuchspläne entwickelt, die auf einem relativ einfachen Prinzip beruhen, das später als α-spending zum Standardverfahren wurde (Jennison und Turnbull 2000). Am bekanntesten und häufig benutzt ist das Verfahren von O’Brien und Fleming (1979), bei dem der Fehler 1. Art, z. B. von 5 %, auf die Zwischen- und Endauswertung so aufgeteilt wird, dass der größte Anteil des zu Beginn festgelegten α auf die Endauswertung und ein deutlich geringerer Anteil auf die frühen Auswertungen fallen. Wenn z. B. zwei Zwischenauswertungen vor einer Endauswertung geplant sind, wird bei der ersten Zwischenauswertung auf dem Niveau von α1 = 0,06 % und bei der zweiten auf dem Niveau von α2 = 1,51 % getestet. Es bleibt dann auf der Basis eines statistischen Rechenverfahrens für die Endauswertung ein α3 = 4,72 %.
Adaptive Designs
Adaptive Designs wurden entwickelt, um in einer laufenden klinischen Prüfung unter Berücksichtigung neuer studieninterner oder -externer Informationen den Prüfplan ändern zu können, ohne den konfirmatorischen Charakter zu beschädigen und den Fehler einer falsch positiven Schlussfolgerung (Fehler 1. Art) zu erhöhen.
Sie setzten damit die frühere Entwicklung von gruppensequenziellen Verfahren der flexiblen Patientenrekrutierung mit der Möglichkeit eines vorzeitigen Stopps der klinischen Prüfung fort. Während man sich zu Beginn auf Fallzahlneuberechnungen nach Zwischenauswertungen und Verfahren zur Auswahl von Therapiearmen beschränkte, wurden später auch gravierendere Änderungen im Prüfplan, wie z. B. ungeplante Zwischenauswertungen, Änderungen der Studienhypothesen und adaptive Auswahl primärer Untergruppen, einbezogen; letzteres auch unter dem Eindruck von Forderungen der Präzisionsmedizin (Yates et al. 2018). Umfassende Übersichten sind z. B. bei Chow und Chang (2007); Pong und Chow (2011) sowie Bauer et al. (2016) zu finden. Die anfängliche methodische Konkurrenz zwischen adaptiven und gruppensequenziellen Designs konnte in der statistischen Methodenforschung insofern geklärt werden, als inzwischen die statistische Theorie der adaptiven Designs soweit verallgemeinert werden konnte, dass sie die gruppensequenziellen Designs als Spezialfall umfasst.
Es wurden in den letzten Jahren auch verschiedene Bayes’sche adaptive Designs für die Phase 3 entwickelt, zum Teil gekoppelt mit dem besonderen Verfahren der „response-adaptiven“ Randomisierung auch für Überlebenszeiten (Berry et al. 2010; Wason und Trippa 2014; Moatti et al. 2016). Vor einem Routineeinsatz in Phase-3-Prüfungen oder randomisierten Phase-2-Prüfungen sollten jedoch erst noch praktische Erfahrungen abgewartet werden.
Adaptive Designs bei Studien mit Ereigniszeiten als Endpunkten sind wegen der zensierten Daten weitaus schwieriger anzuwenden als bei Studien mit Endpunkten, die vollständig beobachtet werden und für die im Fall kontinuierlicher Daten oft eine Gauß’sche Normalverteilung angenommen werden kann. Letzteres wäre eine Option bei der Auswertung von Daten zur QoL. Einfacher sind adaptive Designs auch für Studien mit Ansprechraten als Endpunkten. Bei Ereigniszeiten liegt die Situation vor, dass sich zum Zeitpunkt der Adaption des Designs einschließlich einer geplanten Fallzahlneubewertung („sample size reassessment“) die Information bis zur Adaption nur unvollständig von der erwarteten Information danach trennen lässt, da zum Zeitpunkt der Adaption im Rahmen einer Zwischenauswertung eine größere Zahl von Patienten noch nicht vollständig beobachtet ist, bei der Endauswertung aber sein wird. Dieses Dilemma lässt sich methodisch nicht vollständig überwinden. 2 Ansätze erlauben aber gute approximative Lösungen:
  • Der eine, basierend auf dem gruppensequenziellen Vorgehen, arbeitet mit unabhängigen Zuwächsen an Information („independent increments“) beim Aufbau der statistischen Tests.
  • Der andere versucht, die Patientenpopulation zum Zeitpunkt der adaptiven Zwischenanalyse zu separieren (Wassmer 2006; Jahn-Eimermacher und Ingel 2009).
Dabei wird die Zeit unter Studienbedingungen bei zensierten Fällen aufgeteilt: Entweder werden Daten weggelassen, oder das statistische Verfahren wird so angepasst, dass auf jeden Fall der Fehler 1. Art gesichert ist (Jenkins et al. 2011; Irle und Schäfer 2012; Magirr et al. 2016).
Die Entwicklung adaptiver Designs wurde von den Zulassungsbehörden hinsichtlich der Integrität von Studien kritisch verfolgt, und es wurde darauf geachtet, dass Modifikationen einfach gehalten bleiben und die Studienabläufe weder verkompliziert noch intransparent werden (EMEA/CHMP/EWP/2459/02 2007; Elsäßer et al. 2014; FDA Guidance for Industry 2019). Mögliche Unterschiede zwischen verschiedenen Varianten adaptiver Designs und die maximale Verletzung des Fehlers 1. Art sind selbst bei mehr als 2 Armen eher gering (Graf et al. 2014).
Die in der klinischen Forschung zunächst mit Zurückhaltung aufgenommene Möglichkeit einer statistisch kontrollierten Änderung des Studienprotokolls einer laufenden Studie ist inzwischen Teil moderner Studienplanung geworden (Burnett et al. 2020).
Designs zur Prüfung von gegen molekulare Zielstrukturen gerichteten Wirkstoffen (MTA) mit Biomarkern
Für die Prüfung von MTA wurden verschiedene Designs vorgeschlagen, die die vorhandene Information zu einem oder mehreren Biomarkern (BM) unterschiedlich einsetzen. Grundsätzlich sollte ein BM ausreichend als therapeutisch relevant für die jeweilige Tumorerkrankung identifiziert und beschrieben sein, bevor er als therapieführender Parameter in einer Phase-3-Prüfung eingesetzt wird. In den meisten Designs wird auch vorausgesetzt, dass ein BM so dichotomisiert ist, dass jeder Patient, der alle weiteren Ein-/Ausschlusskriterien erfüllt, eindeutig entweder als Biomarker-positiv (BM+) oder als Biomarker-negativ (BM-) eingestuft werden kann, wobei positiv in der Regel so verstanden wird, dass diese Information des BM entweder prognostisch relevant für den Krankheitsverlauf oder prädiktiv für eine (experimentelle) Therapie ist (Mandrekar und Sargent 2009; Hoering et al. 2015).
Randomize all-Design (RAD)
Das einfachste Design ist RAD, da es die BM-Information lediglich bei der Auswertung nutzt, allerdings in zwei Varianten:
a.
Die beiden Teilpopulationen BM+ und BM- unterteilen die Patientenpopulation der Studie in 2 prognostisch möglicherweise unterschiedliche Teilpopulationen von Patienten, Strata, in denen separat zwischen experimenteller Therapie (E) und Kontroll-(Standard-)Therapie (C) randomisiert wird, und diese prospektive Unterteilung wird bei der Auswertung berücksichtigt.
 
b.
Das Vorliegen des BM wird lediglich vor Randomisierung verlangt, und die Gesamtpopulation wird zwischen E und C randomisiert.
 
Während im Fall a die Auswertung primär in den beiden Gruppen BM+ und BM- getrennt durchgeführt wird, konzentriert sich die Auswertung im Fall b primär auf die Gesamtpopulation, die nach BM post-stratifiziert durchgeführt werden kann. Im Fall b ist eine unterschiedliche Balance zwischen BM+ und BM- nicht ausgeschlossen, wenngleich sie wegen Randomisierung und bei ausreichend hoher Fallzahl unwahrscheinlich ist (Abschn. 11.2).
Weitere Varianten, bei denen der Markerstatus teilweise erst nach der Randomisierung bestimmt oder die Markerbestimmung später infrage gestellt wird, sollten vermieden werden, denn eine dadurch entstandene Teilpopulation von Patienten, die ebenfalls zwischen E und C randomisiert werden, ist schwer zu beurteilen und unterscheidet sich höchstwahrscheinlich auch in anderen prognostischen Faktoren von der Patientengruppe mit eindeutiger Markerbestimmung.
Bei der Planung von RAD werden für den primären Endpunkt zwei Auswertungen für den Vergleich auf Überlegenheit von E über C vorgesehen:
  • in der Gesamtpopulation und
  • in der Teilpopulation BM+, in der ein größerer Unterschied erwartet wird.
Wegen des zweifachen Testens muss das globale Signifikanzniveau α nach den Regeln des multiplen Testens angepasst werden. Dazu gibt es den Vorschlag, zunächst in der Gesamtpopulation Überlegenheit auf dem Signifikanzniveau von 4 % zu testen. Ist der Test signifikant, wäre die überlegene Wirksamkeit von E statistisch gesichert. Falls nicht, wird in der Untergruppe BM+ auf dem niedrigeren Signifikanzniveau von 1 % auf Überlegenheit von E getestet (Hoering et al. 2015). Bei der Fallzahlberechnung können demnach unterschiedliche zu erreichende HR-Werte für die Populationen vorgesehen werden, und in der Regel wird die „power“ in den beiden Tests auch unterschiedlich sein. Auch wenn der Anteil der BM+ Patienten an der Gesamtpopulation schwer vorhersehbar ist, sollte er auf Basis aller verfügbaren Vorinformation abgeschätzt werden, und beide Fehlerwahrscheinlichkeiten müssen für beide Tests prospektiv festgelegt werden. Deswegen sollte bei der Wahl eines RAD die Anwendung eines adaptiven Designs mit einer Fallzahlneubewertung stets eine Option sein, allenfalls auch in einer Variante, die erlaubt, die Überlegenheitshypothesen zu modifizieren, was nach dem allgemein formulierten Prinzip von Müller und Schäfer (2001) möglich ist.
Targeted Design (TD)
Anders als bei RAD werden bei TD – auch als Marker-positives Design bezeichnet – nur BM+ Patienten in die klinische Prüfung aufgenommen. Wegen der Reduktion der Fallzahl und somit auch der Studienkosten wird es als effizienteres Design angesehen. TD hat aber eine andere Ausgangssituation, die bei der Planung nicht außer Acht gelassen werden sollte: Studienleitung und Prüfärzte müssen sich bei TD stärker als bei RAD der abgesicherten Bedeutung der BM+ Eigenschaft bewusst sein, wenn diese Einschlusskriterium für den Vergleich von E mit C ist.
Es gibt auch eine Variante von TD, bei der die Gruppe von Patienten, die beim Screening BM- sind und das Einschlusskriterium nicht erfüllen, parallel in einer Beobachtungsstudie mit C behandelt werden. Für den Therapievergleich ist diese Gruppe aber nicht geeignet, und sie sollte ihre eigene Begründung und Fragestellung haben. Entscheidend für die Wahl von TD und gegen eine Wahl von RAD ist die Frage, ob ein Nutzen der Prüfsubstanz für BM- Patienten ausgeschlossen werden kann, eine Frage, die bei einem späteren Antrag auf Arzneimittelzulassung zusätzlich an Bedeutung gewinnen und gegebenenfalls weitere Prüfungen erforderlich machen kann.
Strategy Design (SD)
Während RAD und TD keinen direkten Anspruch erheben, zur Präzisionsmedizin beizutragen, hat SD diesen Anspruch, da BM die Therapieauswahl mitbestimmt. Wie bei TD und meist auch bei RAD müssen die Biomarker vor Randomisierung bestimmt und die beiden Teilpopulationen BM+ und BM- definiert sein. Randomisiert werden aber alle Patienten, unabhängig von ihrer Zugehörigkeit zu BM+ oder BM-, und zwar zwischen einer markerbasierten Therapie (MBT) und einer nicht markerbasierten Vergleichstherapie (NON-MBT). Patienten im MBT-Arm werden in den beiden Untergruppen BM+ und BM- unterschiedlich behandelt: BM+ Patienten erhalten die Prüfsubstanz E-BM+ und BM- Patienten eine andere, im Allgemeinen die übliche Vergleichstherapie C-BM-. Die Überlegenheit des MBT-Arms gegenüber dem NON-MBT-Arm der klinischen Prüfung wird methodisch wie im Fall des Vergleichs von Zytotoxika geprüft.
Die von Sargent und Allegra (2002) als „augmented strategy design“ (ASD) in die Diskussion gebrachte Erweiterung von SD betrifft den NON-MBT-Arm, in dem ein weiteres Mal zwischen 2 Therapien randomisiert wird. Anspruchsvoll und schwierig ist bei dieser Erweiterung bereits die Hypothesenbildung, da sich der Vergleich MBT versus NON-MBT bei einem Unterschied zwischen den Therapien im NON-MBT-Arm eventuell aufspaltet, und zwar in 2 Vergleiche von MBT gegen 2 Therapien NON-MBT-E und NON-MBT-C, einen etwaigen Standardarm. Vergleiche zwischen den 4 Teilpopulationen (E-BM+, E-BM-, NON-MBT-E, NON-MBT-C) sind wegen möglicherweise komplexen Wechselwirkungen zwischen den qualitativ unterschiedlichen Randomisierungen schwierig, und die Fallzahlplanung ist entsprechend komplex.
Für das Konzept des Masterprotokolls und für die Planung von Basket-, Umbrella- und Plattformstudien wurden effiziente biostatistische Designs und Auswerteverfahren entwickelt (Renfro und Mandrekar 2018; Park et al. 2019; Yee et al. 2019).

Auswertung von klinischen Prüfungen der Phase 1–3

Prüfungen der Phase 1 bis 3 sind prospektive klinische Prüfungen, die nach einem bestimmten Design durchgeführt werden, das vor einem dokumentierten Studienbeginn festgelegt und von unabhängigen Körperschaften, wie Zulassungsbehörden und Ethikkommissionen, geprüft wird. Dementsprechend müssen auch die Datenerhebung und -dokumentation sowie die Datenauswertung prospektiv geplant, entsprechende Pläne erstellt und hinterlegt werden. Im Prüfplan müssen die für die Auswertung erforderlichen statistischen Verfahren und die Auswertungsstrategie zumindest so detailliert und zielgerichtet dargestellt werden, dass erkennbar ist, wie die Fragestellungen der klinischen Prüfung evaluiert werden sollen, und zwar ausführlich in Bezug auf die primären Ziele und Endpunkte, in Grundzügen aber auch bezüglich aller weiteren Fragestellungen und Teilstudien sowie weiterer (z. B. sekundärer) Endpunkte (Abschn. 13.2 – „Prüfplan“).
Die erforderlichen statistischen Verfahren sind für die 3 Phasen der klinischen Prüfung sehr unterschiedlich und müssen in enger Zusammenarbeit mit dem verantwortlichen Studienstatistiker oder einem methodischen/biostatistischen Zentrum erarbeitet und beschrieben werden:
  • Während dies im Fall der Phase 1, abgesehen von der Auswertung von Daten zur PK, überwiegend beschreibende (deskriptive) statistische Verfahren sind,
  • werden in der Phase 3 überwiegend Verfahren der konfirmatorischen Statistik angewendet (EMEA/CPMP/ICH/363/96 1998).
  • In der Phase 2 haben sowohl deskriptive und als auch konfirmatorische Verfahren relevante Funktionen.
Statistischer Auswerteplan
Auf keinen Fall reicht es, die verwendete Statistik-Software zu benennen oder auf Lehrbuchwissen zu verweisen. Umfang und erforderliche Details der statistischen Auswertung sind insbesondere in der Phase-3-Prüfung oft von einer solchen Größenordnung, dass diese selbst als Appendix nicht im Prüfplan darstellbar sind. Oftmals sind auch bei der Erstellung des Prüfplans noch nicht alle Auswerteverfahren ausformuliert. Es empfiehlt sich dann, einen separaten statistischen Auswerteplan (SAP, „statistical analysis plan“) zu erstellen, der vor Beginn der Studienauswertung vorliegen und alle Auswertungen berücksichtigen muss, vorzugsweise also vor der ersten Zwischenauswertung. Der SAP regelt auch Verfahren zur Berechnung von Konfidenzintervallen, zur Behandlung von multiplen Vergleichen und fehlenden Daten und zur Berücksichtigung von Prognosefaktoren.
Auswertung von Prognosefaktoren
Bei den Prognosefaktoren unterscheidet man 2 Arten der Auswertung:
  • Faktoren, die bereits bei der Randomisierung berücksichtigt wurden und die die Studienpopulation in verschiedene Gruppen, sogenannte Strata, unterteilen, in denen jeweils getrennt randomisiert wird
  • Faktoren, die erst vor oder noch während der Auswertung in einer sogenannten Post-Stratifizierung festgelegt werden.
Im ersten Fall ist eine nach diesen Faktoren stratifizierte Analyse gleichbedeutend mit einer Adjustierung des Therapieeffekts bezüglich dieser (Prognose-)Faktoren und meist Teil der primären Auswertung. Im zweiten Fall ist die stratifizierte Auswertung oft als sekundär anzusehen, da nicht ausgeschlossen werden kann, dass die Wahl der Faktoren selbst vom Studienausgang abhängt. In beiden Fällen werden Verfahren der Varianzanalyse und/oder Regressionsverfahren angewendet (Schumacher und Schulgen 2007; Schumacher et al. 2012).
Auswertung von unerwünschten Ereignissen
Verfahren zur Auswertung von unerwünschten Ereignissen (AE), aber auch Vorgehensweisen bei unvorhergesehenen Ereignissen im Verlauf der Studie, wie z. B. Therapieabbruch oder -wechsel, werden in einem Zusatzdokument der EMA angesprochen (EMA/CHMP/ICH/436221/2017 2020).
Datensätze
Die Komplexität einer Phase-3-Prüfung erfordert eine sorgfältige Zusammenstellung der Datensätze für die Auswertung („analysis sets“) zur Beantwortung der vielfältigen primären und sekundären Fragestellungen. Abgesehen von Daten für die Auswertung von Teilstudien – z. B. zur Exploration von hochdimensionalen Daten zur Genexpression sowie zur Definition von prognostisch unterschiedlichen Untergruppen und Biomarkern – sind 3 Datensätze zu Patientenkohorten hervorzuheben, welche
  • die „Intent-to-treat“-Population,
  • die „Per protocol“-Population und
  • die „Safety“-Population
beschreiben (EMEA/CPMP/ICH/363/96 1998).
Das Prinzip der Auswertung nach „intent-to-treat“ (ITT) verlangt von einer randomisierten klinischen Prüfung unabhängig vom individuellen Studienverlauf und der tatsächlichen Behandlung die Berücksichtigung aller jemals randomisierten Patienten unter der ihnen randomisiert zugewiesenen Behandlung („as randomised“). Da die praktische Umsetzung zu absurden Situationen führen kann, z. B. Einschluss von Patienten, die vor Behandlung die Therapie ablehnen, oder von Patienten ohne gültige Datendokumentation, wurde diese Population in der ICH-E9-(Efficacy-)Leitlinie durch das sogenannte „full analysis set“ ersetzt, das erlaubt, nach studienspezifischen Kriterien eine ITT-nahe-Population für die primäre Auswertung der randomisierten klinischen Prüfung zu definieren, um sowohl eine Verzerrung („bias“) als auch eine Verletzung des Fehlers 1. Art zu vermeiden (EMEA/CPMP/ICH/363/96 1998). Das prospektiv im Prüfplan definierte „full analysis set“ ist somit die für das Studienergebnis und dessen Interpretation einzige relevante Informationsquelle.
Im Gegensatz zum „full analysis set“, das über die Wirksamkeit entscheidet, informiert die sekundäre Datei der „per protocol“-Population über die Wirkung der Prüfsubstanz in jenen Patienten, die ausreichend sowohl mit der Prüfsubstanz als auch mit der Kontrolle exponiert waren. Diese Population ist im Allgemeinen kleiner als das „full analysis set“ und schließt z. B. schwerwiegende Abweichungen vom Prüfplan („protocol violations“) aus. Die statistischen Auswerteverfahren sind für die „full analysis set“- und „per protocol“-Populationen oftmals dieselben.
Der dritte relevante Datensatz betrifft die „safety“-Population. Diese Auswertung auf Arzneimittelsicherheit zielt auf die Erfassung der Verträglichkeit bzw. Charakterisierung der Toxizität und das Auftreten von AE ab und enthält in ihrem Experimentalarm alle Patienten, die jemals während der klinischen Prüfung die Prüfsubstanz erhielten. Diese Population kann lediglich deskriptiv statistisch ausgewertet werden, da sie in ihrem Arm E Patienten enthalten könnte, die in den Kontrollarm randomisiert wurden, und ein breites Spektrum unterschiedlicher AE das Problem multipler Testung mit sich brächte. Dies schließt einen beschreibenden Vergleich mit der Kontrollgruppe nicht aus, und es können auch Auswertungen zu dosis- und effektspezifischen Fragen betrachtet werden.

Diskussion zu den Endpunkten klinischer Prüfung

Die Festlegung des primären Endpunkts zur Prüfung eines Wirkstoffs ist besonders für die Phase 3, aber auch für die Phase 2 weder trivial noch unumstritten (Tab. 2 und 3). Es bedarf der detaillierten Kenntnis des Behandlungsszenarios, um die richtige Wahl treffen zu können. Nicht zuletzt hängt die Wahl auch davon ab, ob der Hintergrund für eine Entwicklung ein akademischer ist, der ausschließlich der Verbesserung einer therapeutischen Situation dienen soll, oder ob im Hinblick auf eine geplante Arzneimittelzulassung regulatorische Aspekte stärker zu berücksichtigen sind. Schließlich wird auch die Meinungsvielfalt innerhalb der wissenschaftlichen Gemeinschaft dabei offenkundig.
Die Wahl des geeigneten Endpunkts stellt den wichtigsten Akt im Rahmen der Konzeption einer klinischen Prüfung dar und ist in einem erheblichen Ausmaß für das Gelingen oder auch Scheitern einer Entwicklung entscheidend. Wenngleich es keine festen Regeln gibt, steht diese Entscheidung
  • einerseits auf dem Boden der bisherigen Erkenntnisse über die Art der zu entwickelnden Wirkstoffe, nämlich von Zytotoxika, von MTA und von Immuntherapeutika,
  • andererseits hängt die Wahl vom zu erreichenden Ziel ab, und dieses kann primär eine Sicht betroffener Patienten, der klinisch forschenden Wissenschaftler, die der pharmazeutischen Industrie oder einer Zulassungsbehörde sein.
Naturgemäß handelt es sich bei allen auch differenziellen Sichtweisen immer um den Anspruch, zu einer Verbesserung der Situation von an einem Malignom erkrankten Patienten beizutragen.
Im Folgenden soll auf die Argumente für oder gegen die Wahl eines Endpunkts eingegangen werden, wobei sich diese in Abhängigkeit von der Gesamtentwicklung der therapeutischen Forschung, z. B. vom Ausmaß zur Verfügung stehender etablierter Therapien, ändern können.

Gesamtüberleben (OS)

Unwidersprochen ist OS aus Sicht der Zulassungsbehörden, aber auch aus klinischer Sicht bei fortgeschrittenen metastasierten Tumoren, wie z. B. Pankreas-, nicht-kleinzelligem Lungen- (NSCLC), Mamma- oder Kolonkarzinom, der favorisierte primäre Endpunkt (Ellis et al. 2014) (Tab. 2 und 3). Die Feststellung des Todesdatums hängt nicht – wie die von sogenannten Surrogatendpunkten wie PFS – von zahlreichen möglichen Messfehlern („bias“) ab. Die für die Beobachtung von OS oftmals notwendige lange Studiendauer und damit verbundene Zusatzkosten, aber auch Schwierigkeiten im Auffinden aller Todesdaten führten zum Vorschlag, OS durch einen früher auswertbaren Surrogatendpunkt zu „ersetzen“. Allgemein wird gefordert, dass ein Surrogat die sogenannten Prentice-Kriterien erfüllen muss, um als durch Metaanalyse validiertes Surrogat anerkannt zu werden (Prentice 1989; Heller 2015):
  • Die Behandlung hat einen Effekt auf OS.
  • Die Behandlung hat einen Effekt auf das Surrogat.
  • Das Surrogat ist assoziiert mit OS.
  • Der Behandlungseffekt auf OS wird durch das Surrogat erfasst.
Will man einen anderen Endpunkt, der, wie z. B. PFS, früher erfassbar ist, als Surrogat für OS einsetzen, reicht es also nicht, dass das Surrogat mit OS statistisch korreliert, sondern Patienten mit längerem PFS müssen auch individuell längeres OS zeigen (Fleming und DeMets 1996).
Zum Argument, dass insbesondere bei älteren Patienten OS wegen kompetitiver Risiken, an anderen Ursachen als an der Grunderkrankung zu versterben, verfälscht („confounded“) werden kann, sowie zur neuen Situation, dass es bei mehreren Tumorentitäten mittlerweile wirksame Folgetherapien (Salvagetherapien) gibt, die Einfluss auf die Prognose sowohl nach Experimentaltherapie als auch nach Kontrollbehandlung nehmen können (Buyse et al. 2011; Saad und Buyse 2016), halten Korn et al. (2011) fest, dass kein Benefit einer experimentellen Erstlinientherapie gegeben ist, wenn dieser durch Folgetherapien quasi ausgeschwemmt wird. Laut diesen Autoren muss es das Ziel klinischer Forschung sein, Therapien zu entwickeln, die Patienten-Benefit im Kontext mit bestehenden Therapien bieten und nicht nur in einer imaginären Welt, in der vorhandene Therapien ausgeblendet sind. Korn et al. (2011) warnen davor, auf weniger stringente Endpunkte, wie z. B. PFS, auszuweichen, nur weil es schwieriger bzw. mühsamer, weil länger dauernd, ist, den Effekt auf OS bei mehreren Folge-/Zwischentherapien festzustellen. Laut diesen Autoren darf PFS lediglich dann als Surrogat für die Prädiktion von OS herangezogen werden, wenn diese Vorhersage alle aktuell verfügbaren etablierten Folge-/Zwischentherapien berücksichtigt. Intermediäre Endpunkte wie PFS dürfen nur dann stellvertretend für OS verwendet werden, wenn es um die Erfassung der Aktivität einer Prüfsubstanz geht, nicht aber um die des Benefits für Patienten.
Wenn keine Folgetherapien verfügbar sind oder ein Überwechseln („cross-over“) von Patienten vom Kontrollarm auf die Therapie des Prüfarms nicht erlaubt wird, soll laut Saad und Buyse (2016) OS als Endpunkt genommen werden. Gegen das Argument, dass „cross-over“ das OS als primären Endpunkt verunmöglicht, wurde angeführt, dass eine Prüfsubstanz auch dann als überzeugend einzustufen sei, wenn sie erst nach „cross-over“ zur (verbesserten) Symptomkontrolle führt (Booth und Eisenhauer 2012). Abgesehen davon, dass ein Verbot von Therapiewechseln ethische Fragen aufwirft, teilen diese Autoren nicht den Eindruck, dass es für die meisten Tumoren Folgetherapien mit wesentlichem Einfluss auf die Überlebenszeit gibt.
Laut Cuzick (2008) soll OS nicht bei Indikationen mit sehr guter Prognose verwendet werden, da dann der Behandlungseffekt durch Tod aus anderen Ursachen stark verdünnt werden kann. Sargent und Hayes (2008) sehen sowohl wegen „cross-over“ als auch wegen mehrerer Folgetherapien den allfälligen Behandlungsvorteil durch die Experimentaltherapie erst spät und häufig zu schwach nachweisbar, was unter dem heutigen Druck, Arzneimittel rascher und kosteneffektiver zu entwickeln, gegen eine Wahl von OS als Endpunkt spricht. Um den Effekt einer Behandlungssequenz zu erfassen, ist OS weiterhin der ideale Endpunkt (Saad und Buyse 2016).

Krankheitsfreies Überleben (DFS)/Rezidivfreies Überleben (RFS)

DFS/RFS wird im Allgemeinen als Intervall vom Erreichen der Krankheitsfreiheit bis zur Wiedererkrankung oder bis zum Eintreten des Todes unabhängig von dessen Ursache definiert (Tab. 2 und 3).
Nach radikaler Tumoroperation ist für DFS z. B. beim Kolonkarzinom im Stadium III formal Surrogatcharakter erwiesen, im Stadium II lediglich grenzwertig, nicht aber beim Mammakarzinom oder NSCLC (Gill und Sargent 2006; Sargent et al. 2011). Die Zulassungsbehörden haben DFS unabhängig von seinem formal nicht validierten Status beim Mammakarzinom als eigenständigen Endpunkt gewertet und registrierten auf dieser Basis z. B. Aromatase-Inhibitoren (Robinson et al. 2014a). Diese Einschätzung erscheint insbesondere dann gerechtfertigt, wenn eine Verlängerung von DFS zu einer Verlängerung der Zeit ohne Erkrankung und krankheitsbedingte Therapie führt (Robinson et al. 2014a). Der Surrogatcharakter muss jedenfalls für genau definierte Therapiesituationen (z. B. adjuvant für DFS oder palliativ für PFS) und Behandlungsarten (z. B. Chemotherapie oder gegen molekulare Zielstrukturen gerichtete Therapien) separat untersucht und validiert werden.
Für die Validierung von DFS als Surrogatendpunkt ist es notwendig, die Art der Wiedererkrankung („recurrent disease“) genau zu definieren, z. B. als Lokalrezidiv, Fernmetastasierung oder Auftreten eines neuen Primärtumors im selben Organ. Dies ist für das Mammakarzinom (Hudis et al. 2007) und auch für das kolorektale Karzinom (Punt et al. 2007) erfolgt, nicht aber für zahlreiche andere Tumorentitäten. Darüber hinaus ist die Erfassung von DFS von den eingesetzten Detektionsmethoden abhängig: biochemisch (Tumormarker), durch Bildgebung, klinisch im Rahmen physikalischer Untersuchung oder symptomatisch, d. h. durch Anamnese.

Progressionsfreies Überleben (PFS)

Üblicherweise wird PFS als der Zeitraum von Therapiebeginn bis zur Progression oder Tod, aus welchem Grund auch immer, definiert unter Zensierung jener Patienten, die nicht weiter beobachtet werden können (Tab. 2 und 3).
Laut Saad und Buyse (2016) sollte PFS immer dann primärer Endpunkt sein,
  • wenn effektive Folgetherapien nach der experimentellen Therapie verfügbar sind,
  • wenn langes Überleben nach Krankheitsprogredienz erwartet wird und
  • wenn „cross-over“ erlaubt ist.
Der Status von PFS als Surrogat für OS konnte unter anderem für das fortgeschrittene Kolorektalkarzinom durch Metaanalyse von individuellen Patientendaten für die Fluorouracil-basierte Erstlinientherapie belegt werden (Buyse et al. 2007). Metaanalytisch auf der Basis von gepoolten Analysen publizierter Daten konnten Sidhu et al. (2013) den Surrogatcharakter von PFS für OS bei Patienten mit metastasiertem Kolorektalkarzinom nicht nur unter Chemotherapie bestätigen, sondern auch für MTA, notabene antiangiogene und gegen EGFR gerichtete monoklonale Antikörper. Auch für das fortgeschrittene Ovarialkarzinom konnte der Surrogatstatus etabliert werden (Booth und Eisenhauer 2012). Ungeachtet des formalen Status wird PFS für das metastasierte Pankreas-, Lungen-, Mamma- und Kolonkarzinom als Surrogat zumindest akzeptiert, wenn auch nicht favorisiert, wenngleich es von den angeführten Tumorentitäten, abgesehen vom Kolonkarzinom, die Erfordernisse als Surrogat formal nicht erfüllt (Burzykowski et al. 2008; Miksad et al. 2008; Soria et al. 2010; Ellis et al. 2014).
Für die Zulassung von MTA wird heutzutage PFS als Surrogatendpunkt und inzwischen auch als definitiver Endpunkt eingesetzt (Robinson et al. 2014b). Die FDA erkannte PFS auch unabhängig von seinem Surrogatstatus für OS als eigenständigen primären Endpunkt für die Zulassung von neuen Wirkstoffen beim metastasierten Kolorektalkarzinom an (Sargent und Hayes 2008).
Ein Grund, warum Verlängerung von PFS nicht zwingend zu einer von OS führt, mag darin liegen, dass bei kleinvolumiger Erkrankung das Eintreten von PD keinen wesentlichen Einfluss auf OS hat. Darüber hinaus besteht eine starke Abhängigkeit zwischen der Erfassung von PD, und damit von PFS, und der Variabilität („bias“) des Messzeitpunkts aufgrund unterschiedlicher Zykluslänge, aber auch vom „bias“ durch symptomatische Progression oder fehlende Daten (Bhattacharya et al. 2009; Booth und Eisenhauer 2012).
Ocaña et al. (2011) erachten PFS nicht als konsistentes Surrogat für einen Benefit von Patienten. Sie sehen in der asymptomatischen Befundverschlechterung in der Bildgebung, die zur Beurteilung von PD führt, keinen zwingenden Einfluss auf klinisch relevante Parameter wie OS und QoL. In jedem Fall sollten klinische Prüfungen mit PFS als primärem Endpunkt so angelegt (gepowert) werden, dass sie einen allfälligen OS-Benefit zusätzlich zutage fördern können.
Insgesamt wird PFS lediglich als suboptimales Surrogat für OS bei klinischen Prüfungen von Patienten mit metastasierten soliden Tumoren eingestuft (Pasalic et al. 2020).

Zeit bis zur Tumorprogression (TTP) und Zeit bis zum Therapieversagen (TTF)

Üblicherweise wird TTP als der Zeitraum von Therapiebeginn bis zur Progression definiert unter Zensierung jener Patienten, die nicht weiter beobachtet werden können, und TTF als der Zeitraum von Therapiebeginn bis zum Therapieabbruch, aus welchem Grund auch immer, und zwar wegen Progression der Erkrankung, Toxizität der Behandlung, auf Wunsch des Patienten bzw. aufgrund der Einschätzung des Arztes und wegen Todes (Tab. 2 und 3).
TTF berücksichtigt als einzige zeitabhängige Messgröße in besonderer Weise auch die Toxizität einer Therapie und wird aufgrund des Charakters, 2 Qualitäten, nämlich therapeutische Effektivität und Toxizität, in einer Messgröße zu erfassen, als zusammengesetzter Endpunkt von den Zulassungsbehörden als nicht zulassungsrelevant angesehen und daher nicht berücksichtigt (Johnson et al. 2003; Pazdur 2008).

Zeit des Überlebens nach Progredienz (PPS)

„Post progression survival“ als weiterer möglicher Endpunkt wurde gut mit OS und besser mit PFS assoziiert gefunden, jedoch liegt keine Metaanalyse vor, und somit kann PPS für keine Indikation als validiert eingestuft werden (Petrelli und Barni 2013). Außerdem ist bei einer Auswertung die Abhängigkeit von PPS von der vorangegangenen Zeit, nämlich von PFS, zu beachten, deren Zensierung gleichzeitig die Population der für PPS auswertbaren Patienten reduziert und bei einem Therapievergleich die Möglichkeit von „bias“ nicht ausschließt.

Objektive Ansprechrate (ORR)

Die Erfassung des Ansprechens und dessen Dauer ist in der frühen klinischen Prüfung (insbesondere in der Phase 2) ein wesentlicher Endpunkt, der der Erfassung der Aktivität neuer Wirkstoffe dient (Tab. 2 und 3).
RECIST ist für diese Konstellation geschaffen worden, nicht jedoch für die Erfassung von Wirksamkeit. RECIST stellt ein künstliches System dar, dem primär keine biologische Relevanz zugrunde liegt. Im Einzelfall gilt es dies, sofern das Ansprechen als Surrogat für OS verwendet werden soll, für eine bestimmte Situation einer definierten Erkrankungsform zu untersuchen und nachzuweisen.
Während Ansprechen als Surrogat für OS für die 5-Fluorouracil-basierte Erstlinientherapie des Kolorektalkarzinoms metaanalytisch erkannt wurde, beschrieben Grothey et al. (2008) für dieselbe Therapie und Indikation einen von Ansprechen unabhängigen Überlebensvorteil (Buyse et al. 2000). Beim metastasierten Mammakarzinom konnte kein Ersatzstatus von Ansprechen für OS gezeigt werden (Bruzzi et al. 2005; Burzykowski et al. 2008). In der Vergangenheit wurde sogar PR in der Therapie des metastasierten Mammakarzinoms für die Zulassung von Hormontherapie ohne Verlängerung des Überlebens wegen der verhältnismäßig geringen Toxizität herangezogen (Pazdur 2000). Voraussetzung dafür war, dass keine Patienten mit stabiler Erkrankungssituation in die klinischen Prüfungen eingebracht wurden.
In der Hämatologie diente das Erreichen von CR traditionellerweise für die Arzneimittelzulassung, z. B. von Cladribin oder Pentostatin für die Haarzellleukämie, oder die von Arsentrioxid und Tretinoin für die Zweitlinientherapie der akuten Promyelozytenleukämie (Johnson et al. 2003).
Eine rezente Metaanalyse publizierter Daten ergab, dass ORR weder für PFS noch für OS einen Surrogatendpunkt bei der Behandlung mit Immuncheckpoint-Inhibitoren darstellt (Roviello et al. 2017). Zu ähnlichen Ergebnissen kamen Mushti et al. (2018) in ihrer Metaanalyse in Bezug auf den fehlenden Surrogatstatus von ORR und PFS für OS.
Eine Sonderform des Ansprechens stellen die histopathologisch definierten Ansprechkriterien dar. Das pathologisch komplette Ansprechen (pCR, „pathological complete response“) konnte metaanalytisch nicht als Surrogat für OS in der präoperativen Therapie des operablen Mammakarzinoms nachgewiesen werden (Cortazar et al. 2014; Pusztai et al. 2017). Weder ypT, ypN, T-Downstaging, Tumorregressionsgrad (TRG, „tumor regression grade“) noch zirkumferenzieller Resektionsrand (CRM, „circumferential resection margin“) stellen Surrogate für OS oder Lokalkontrolle im präoperativen Therapiesetting beim Rektumkarzinom dar (Methy et al. 2010). Das histologische Ansprechen bei Osteosarkomen erwies sich nicht als Surrogat für OS (Lewis et al. 2007). Auch müssen die Vorschläge zusätzlicher Ansprechqualitäten, wie
  • Zeit bis zum maximalen Ansprechen bzw.
  • Zeit bis zum Tumorwachstum (TTG, „time to tumor growth“) oder
  • Tiefe des Ansprechens („depth of response“) oder
  • frühe Tumorrückbildung („early tumor shrinkage“),
als noch nicht validiert angesehen werden (Venook und Tabernero 2015; Heinemann et al. 2015).

Biomarker als Surrogatendpunkte

Während sich Biomarker als überaus bedeutsam für die Patientenselektion erwiesen haben, gibt es derzeit keinen Biomarker, der metaanalytisch als Surrogat für OS validiert werden konnte (Biomarkers Definitions Working Group 2001; Sargent und Hayes 2008; Ellis et al. 2014) (Tab. 2). Biomarker-Endpunkte, die formal nicht den Kriterien eines Surrogats entsprechen und sich dennoch als klinisch nützlich erweisen, werden als korrelative Endpunkte bezeichnet (McShane et al. 2009).
Stellvertretend sei PSA angeführt, ein Biomarker, der beim Prostatakarzinom in der klinischen Routine durchaus therapiemitbestimmend ist, für den jedoch metaanalytisch keine Ersatzkraft („surrogacy“) für OS gefunden wurde – lediglich eine Assoziation zwischen PSA und OS – und der damit als nicht validiert einzustufen ist (Collette et al. 2005). Das gilt auch für
  • zirkulierende Tumorzellen (CTC, „circulating tumor cells“),
  • zellfreie DNA (cfDNA, „cell free DNA“) und
  • Exosomen sowie für
  • funktionales Imaging (Saad und Buyse 2016; Heller et al. 2018).

Lebensqualität (QoL), gesundheitsbezogene Lebensqualität (HRQoL) und Patient-Reported Outcomes (PRO)

QoL
Prinzipiell stellt QoL neben OS den zweiten eigenständigen, nicht-surrogatartigen, zulassungsrelevanten Endpunkt dar (Tab. 2). Obwohl QoL bzw. deren Verbesserung seit Anbeginn zu den Schlüsselendpunkten onkologischer klinischer Prüfungen mit Relevanz für die Zulassung gezählt haben, ist auffällig, dass QoL nie als alleiniger oder primärer Endpunkt in zulassungsrelevanten Studien angewendet wurde. Die Erfassung von QoL, die mittels validierter und indikationsspezifischer Module erfolgt (z. B. EORTC QLQ-C30), ist jedoch keineswegs trivial und auswertungsanfälliger als bildgebende Tumorvermessungen. Deswegen stellt QoL auch in RCT einen seltenen Endpunkt dar (Tannock et al. 1996; Burris et al. 1997; Joly et al. 2007). Für die Korrelation von QoL-Verbesserung und PFS-Verlängerung liegen nur wenige Daten vor (Siena et al. 2007). QoL ist nicht als Surrogat validiert (Booth und Eisenhauer 2012). Anders verhält es sich naturgemäß bei Zulassungsstudien zu supportiven Arzneimitteln (Kluetz et al. 2016). Während die ersten Messinstrumente von QoL in der Ära von ausschließlicher Chemotherapie entwickelt und etabliert wurden, gibt es aktuell intensive Bemühungen zur Entwicklung von Instrumenten, die der Erfassung von Wirkungen neuartiger Prüfsubstanzen, wie jene von MTA, sowie der Erfassung der Multidimensionalität des Patientendaseins in der klinischen Prüfung besser Rechnung tragen.
HRQoL
Zu diesen Instrumenten zählt insbesondere die Erfassung von „gesundheitsbezogener“ Lebensqualität (HRQoL; health related quality of life). HRQoL stellt ein mehrdimensionales Konzept dar, das die Wahrnehmung der eigenen Erkrankung und Behandlung durch jeden einzelnen Patienten sowie jene von physischen, psychologischen und sozialen Aspekten des Lebens umfasst (FDA Guidance for Industry 2009). Die Tatsache, dass zahlreiche nicht arzneimittelbezogene Inhalte in HRQoL miterfasst werden, macht diese als Endpunkt für eine Arzneimittelentwicklung unattraktiv, da sie für Einflüsse von anderen Quellen anfällig ist.
PRO
Eine weitere Facette ist die Erfassung von Aspekten der QoL durch die betroffenen Patienten selbst in Form der sogenannten Patient-reported Outcomes.
Derzeit besteht die Diskussion, wie solche Beurteilungssysteme optimal an neue Wirkstoffe und Behandlungssituationen angepasst werden können. Die FDA favorisiert die Kombination aus PRO-CTCAE für die Erfassung von symptomatischen AE und PROMIS (Patient-Reported Outcomes Measurement Information System) für die von physischer Funktion und sieht das bisherige HRQoL-System als zu unflexibel an (Basch et al. 2014; Jensen et al. 2015) (Kap. „Bewertung unerwünschter Ereignisse und Therapienebenwirkungen“). Die EORTC QoL Group sieht in der Kombination ihres Core-QLQ-C30-Fragebogens mit den Inhalten einer umfassenden Sammlung von indikationsspezifischen Modulen den Vorteil – im Gegensatz zur FDA – bereits international validiertes Material einzusetzen (Aaronson et al. 1993; Reeve et al. 2014; EMA/CHMP/292464/2014 2016; Bottomley et al. 2019). Allein diese Diskussion zeigt, dass sich QoL-Beurteilungen nicht als primäre Endpunkte für klinische Prüfungen eignen, zumal keine weltweit einheitliche Akzeptanz der Beurteilungssysteme vorliegt.
In einem systematischen Review von Haslam et al. (2019) wurde auf der Basis von Metaanalysen des höchsten Evidenzgrads festgestellt, dass die meisten Surrogate lediglich schwache oder mäßige Korrelation zu OS aufweisen und daher Schlussfolgerungen aus denselben nur beschränkt gemacht werden mögen.

Durchführung klinischer Prüfungen

Bei klinischen Prüfungen ist ein komplexes Regelwerk zu beachten, in dem die sogenannte Gute Klinische Praxis (GCP, Good Clinical Practice) eine zentrale Rolle einnimmt:
„Die gute klinische Praxis umfasst einen Katalog international anerkannter ethischer und wissenschaftlicher Qualitätsanforderungen, die bei der Planung, Durchführung, Monitoring, Auditing, Dokumentation, Auswertung klinischer Prüfungen an Menschen sowie der Berichterstattung über diese Prüfungen eingehalten werden müssen. Die Einhaltung dieser Praxis gewährleistet, dass die Rechte, die Sicherheit und das Wohlergehen der Teilnehmer an klinischen Prüfungen geschützt werden und dass die Ergebnisse der klinischen Prüfungen glaubwürdig sind“ (EU-Richtlinie 2001/20/EG 2001; Artikel 1 Abs. 2).

Regulatorische Aspekte

Für die Forderung nach Schutz der Studienteilnehmer und Glaubwürdigkeit der Ergebnisse ist es unerheblich, ob eine Prüfung von einem kommerziellen Sponsor (z. B. einem Pharmaunternehmen) mit dem Ziel einer Arzneimittelzulassung oder von einem nicht-kommerziellen Sponsor (z. B. einer onkologischen Arbeitsgruppe) zur Weiterentwicklung und Qualitätssicherung von Therapieempfehlungen durchgeführt wird. Da letztere Prüfungen in der Regel mit bereits zugelassenen Arzneimitteln und bekanntem Risikoprofil durchgeführt werden, haben die Aufsichtsbehörden, z. B. in Deutschland, für sogenannte nicht-kommerzielle Studien Erleichterungen in einigen Anforderungen vorgesehen. Dies betrifft z. B.
  • Kennzeichnung/Etikettierung von Prüfsubstanzen,
  • Umfang von Antragsunterlagen und Monitoring,
  • Verwendung der Fachinformation (SmPC, „summary of product characteristics“) bei zugelassenen Arzneimitteln sowie
  • gegebenenfalls Gebührenbefreiung, um die Durchführung nicht-kommerzieller Prüfungen zu erleichtern.
Genehmigungsverfahren
Für eine klinische Prüfung sind die für das jeweilige Prüfzentrum geltenden nationalen arzneimittelrechtlichen Rechts- und Verwaltungsvorschriften zu befolgen. Trotz Angleichung der Rechts- und Verwaltungsvorschriften für klinische Prüfungen gemäß EU-Richtlinie 2001/20/EG sind daher bei multinationalen Prüfungen selbst innerhalb der Europäischen Union (EU) noch länderspezifische Genehmigungsanträge zu stellen und allenfalls unterschiedlich definierte Berichtspflichten zu erfüllen. Demgegenüber beschreibt die EU-Verordnung 536/2014 vom 16. April 2014 ein EU-weit verbindliches Regelwerk, das z. B. für multinationale Prüfungen konzertierte Genehmigungsverfahren vorsieht und separate Meldeverpflichtungen gegenüber nationalen Aufsichtsbehörden erübrigt. Die Umsetzung der Verordnung erfordert aber ein EU-Portal, über das – voraussichtlich erst Ende 2021 – alle für eine klinische Prüfung relevanten Daten in einer zentralen Datenbank einmalig erfasst und den jeweiligen Parteien zugänglich gemacht werden können.
One-time consent
Bezüglich der neu geschaffenen Möglichkeit, dass Patienten künftig einen „one-time consent“, d. h. eine einmalige widerrufbare Zustimmung zur Verwendung ihrer persönlichen (Studien-)Daten sowie zur Verwendung ihrer biologischen Proben über den unmittelbar in einem bereits genehmigten Studienprotokoll festgelegten Rahmen geben können, wird trotz der EU-weiten Regelungen nicht immer einheitlich vorgegangen (Casali und Vyas 2021). Während die EU-Verordnung 536/2014 erst mit dem Erlangen ihrer vollen Funktionalität in Kraft treten kann, ist die Datenschutzgrundverordnung (GDPR, „general data protection regulation“) bereits seit 25. Mai 2018 rechtsverbindlich (EU-Verordnung 2016/679 2016).
Leitlinien
Ergänzt werden die gesetzlichen Bestimmungen durch ein umfangreiches System von Leitlinien („guidelines“), die z. B. im Internationalen Rat für die Harmonisierung der technischen Anforderungen zur Registrierung von Humanarzneimitteln (ICH, „International Conference on Harmonisation of Technical Requirements for Registration of Pharmaceuticals for Human Use“) zwischen Arzneimittelzulassungsbehörden abgestimmt werden. Für klinische Prüfungen, deren Ergebnisse für die Arzneimittelzulassung verwendet werden sollen, wird die Beachtung der ICH-Leitlinien erwartet (ICH-Efficacy-[ICH-E-]Guidelines). Zu diesen gehören z. B. die Leitlinien
  • ICH-E3 (Klinische Studienberichte; „structure and content of clinical study reports“),
  • ICH-E6 (GCP; Gute Klinische Praxis; „guideline for good clinical practice“ – seit Juni 2017 in ergänzter Fassung ICH-E6[R2]),
  • ICH-E9 (Statistische Prinzipien; „statistical principles for clinical trials“),
  • ICH-E10 (Wahl der Kontrollgruppe in klinischen Studien; „choice of control group and related issues in clinical trials“) und
  • ICH-E17 (Multiregionale klinische Studien; „general principles for planning and design of multi-regional clinical trials“).
Für die Entwicklung von Onkologika in der EU gilt die „Guideline on the evaluation of anticancer medicinal products in man“ (EMA/CHMP/205/95Rev. 5 2017), deren 6. Fassung seit November 2020 als Entwurf vorliegt (EMA/CHMP/205/95Rev. 6 2019). Darüber hinaus bietet die Europäische Arzneimittelagentur (EMA, European Medicines Agency) die Möglichkeit einer sogenannten „scientific advice procedure“, allenfalls sogar „protocol assistance“, wenn sich Fragen zum Design zulassungsrelevanter Prüfungen nicht hinreichend aus verfügbaren Leitlinien oder Empfehlungen beantworten lassen (EMA/4260/2001Rev. 10 2020).
Es sollte nicht unerwähnt bleiben, dass bei klinischen Prüfungen, in denen Studienteilnehmer oder Studientherapien auf Basis nachgewiesener Biomarker bzw. molekularer Zielstrukturen selektiert werden sollen, auch die zum Nachweis verwendeten Testverfahren eine besondere Aufmerksamkeit erfordern, da sie am Ende einer erfolgreichen Arzneimittelentwicklung in gleicher Weise einer Zulassungspflicht als Medizinprodukte unterliegen. Auf entsprechende Leitlinienentwürfe zu den Besonderheiten einer konzertierten Entwicklung von Arzneimitteln und darauf abgestimmten Diagnostika („companion diagnostics“) kann an dieser Stelle nur hingewiesen werden (FDA Guidance for Industry and FDA Staff 2014a; FDA Draft Guidance for Industry and FDA Staff 2016; EU-Verordnung 2017/746 2017; EMA/CHMP/718998/2016 2018).

Gute Klinische Praxis (GCP, „Good Clinical Practice“)

Details der bereits angesprochenen GCP-Anforderungen beschreibt die ICH-Leitlinie Good Clinical Practice E6, die seit Juni 2017 in ergänzter Fassung wirksam ist (ICH-E6[R2]). In separaten Abschnitten werden
  • die GCP-spezifischen Aufgaben und Verantwortlichkeiten für Ethikkommission, Prüfer und Sponsor beschrieben,
  • gefolgt von detaillierten Anforderungen an Prüfplan („protocol“) und Prüferinformation (IB, „investigator’s brochure“) sowie
  • einer Auflistung der sogenannten essenziellen Dokumente („essential documents“), die in den Akten (TMF, „trial master files“) von Sponsor und/oder Prüfer erwartet werden.
Nachfolgend werden einzelne ausgewählte Aspekte dargestellt:
Prüfer
Der Prüfer muss neben seiner wissenschaftlichen Qualifikation die Eignung der Prüfeinrichtung (einschließlich der erforderlichen Personalkapazität) sowie durch retrospektive Daten eine ausreichende Zahl studiengeeigneter Patienten nachweisen und sich zu einer Studiendurchführung unter GCP-Bedingungen verpflichten.
  • Auf Basis einer detaillierten Kenntnis der Prüfsubstanz (siehe unten „Prüferinformation (IB, ‚investigator’s brochure‘)“ muss der Prüfer für die angemessene Aufklärung der Studienteilnehmer sorgen.
  • Er ist verantwortlich für die Qualifikation und Überwachung von Mitarbeitern bei Delegation von Teilaufgaben, z. B. Verwaltung der Prüfsubstanzen, Durchführung von Untersuchungen und Dokumentation von Studienbefunden.
  • Durch Unterschrift/Freigabe von Prüfbögen (CRF, „case report forms“) und Studienbericht ist er letztlich verantwortlich für die Korrektheit und den korrekten Umgang mit den dokumentierten Daten sowie die daraus abgeleiteten Schlussfolgerungen.
  • Auch ist er zum Vorhalten adäquater Quelldokumente und Studienaufzeichnungen, einschließlich der Nachvollziehbarkeit etwaiger Änderungen verpflichtet.
Sponsor
Der Sponsor ist definiert als eine Person, Firma, Institution oder Organisation, welche die Verantwortung für Initiierung, Management und/oder Finanzierung einer klinischen Prüfung trägt, z. B. für:
  • Implementierung eines den gesamten Studienprozess umfassenden Qualitätsmanagementsystems mit risikoadaptiertem Ansatz, d. h. mit Fokus auf Aktivitäten, die für den Schutz der Studienteilnehmer und die Belastbarkeit der Ergebnisse relevant sind
  • Praktikabilität der Studie, d. h. Vermeidung unnötiger Komplexität, Prozeduren und Datenerhebungen; Prüfplan, Dokumentationsbögen und andere operative Dokumente sollen klar, prägnant und konsistent (!) sein
  • Monitoring-Plan, d. h. studienspezifische, risikoadaptierte Monitoring-Strategie mit Definition der Verantwortlichkeiten, Prozeduren und deren Rationale; Hervorhebung des Monitoring von kritischen Daten und Prozessen sowie besondere Aufmerksamkeit für Nicht-Standard-Prozeduren, die allenfalls zusätzliche Schulung erfordern
  • Monitoring: Überprüfung der GCP- und prüfplangemäßen Studiendurchführung vor Ort (Einwilligung der Studienteilnehmer, Verbleib der Prüfsubstanzen, vollständige und korrekte Dokumentation von Studienbefunden); zentralisierte, allenfalls computergestützte Monitoring-Prozesse und fortlaufende Datenvalidierung sind explizit zugelassen, um potenziell nicht belastbare Daten zu identifizieren sowie den Umfang und die Häufigkeit des Vor-Ort-Monitoring zu reduzieren
  • Auswahl geeigneter Prüfzentren und fachlich qualifizierter Prüfer
  • Information der Prüfer über pharmakologisch-toxikologische Eigenschaften und bisherige klinische Erfahrungen (meist in der IB) sowie über aktuelle Risikoerkenntnisse aus der Anwendung der Prüfsubstanz (z. B. von „serious unexpected suspected adverse reactions“-(SUSAR-)Meldungen)
  • Qualitätssicherung (Auditierung): Überprüfung der Nachvollziehbarkeit und des korrekten Umgangs mit Studiendaten und Dokumenten durch Personen, die nicht an der Studiendurchführung beteiligt sind oder waren
Prüfplan („protocol“)
Der Prüfplan ist das zentrale Referenzdokument für jede Studie:
  • für die Antragstellung und Genehmigung der Studie durch Ethikkommission und Aufsichtsbehörden,
  • für die Entscheidung über die Machbarkeit in den teilnehmenden Prüfzentren,
  • als Leitfaden und Instruktion für Prüfer und Studienpersonal sowie
  • als Vorlage für Studienregistereinträge und für die statistische Auswertung und Publikation der Ergebnisse.
Der Prüfplan muss
  • die Beweggründe zur Durchführung der Studie,
  • die Studienziele/Prüfhypothesen,
  • das Studiendesign und Endpunkte,
  • die Auswahlkriterien sowie
  • das für jeden Studienteilnehmer vorgesehene Studienprozedere
beschreiben. Die Prüfhypothese und die daraus abgeleitete Fallzahlplanung müssen ebenso im Prüfplan festgeschrieben werden wie die Bewertungskriterien und die geplante Auswertungsmethodik. Schließlich sind auch Kriterien für eine vorzeitige Beendigung der Studie und geplante Abweichungen vom standardisierten Studienprozedere, z. B. für Therapieverschiebung oder Dosisreduktion bei unerwünschten Ereignissen oder Toxizität, zu definieren.
Detaillierte Beschreibungen studienspezifischer Methoden werden vorzugsweise in Anhänge zum Prüfplan ausgegliedert oder in speziellen/separaten Standardarbeitsanweisungen umgesetzt, um die Lesbarkeit des Prüfplans nicht zu beeinträchtigen. Auf den Prüfplan exakt abgestimmte Prüfbögen (CRF) sind rechtzeitig zum Studienbeginn erforderlich, um sicherzustellen, dass alle gemäß Prüfplan vorgesehenen Studiendaten zeitnah, vollständig und unter Berücksichtigung von Datenschutzaspekten erfasst werden können. Insbesondere müssen als notwendig erkannte systematische Abweichungen vom Prüfplan im Verlauf einer Prüfung durch Prüfplanänderungen beschrieben werden, die vor Implementierung Genehmigungen durch Behörde(n) und Ethikkommission(en) erfordern.
Detailliertere Anforderungen zu Prüfplaninhalten sind im Anhang der EU-Verordnung über klinische Prüfungen (EU-Verordnung 536/2014 2014) beschrieben. Checklisten und Mustertexte für die jeweiligen Prüfplanpassagen finden sich auf den Websites von SPIRIT (Standard Protocol Items: Recommendations for Interventional Trials) (Chan et al. 2013a, b) sowie CTEP (Cancer Therapy Evaluation Program).
Prüferinformation (IB, „investigator’s brochure“)
Die Zusammenstellung der für die klinische Prüfung am Menschen relevanten klinischen und nicht- klinischen Daten zur Prüfsubstanz soll helfen, das Rationale vieler wichtiger Punkte des Prüfplans wie
  • Dosis,
  • Dosierungsfrequenz/-abstände,
  • Art der Anwendung sowie
  • Maßnahmen zur Überwachung der Sicherheit
zu verstehen und einzuhalten. Die IB soll mindestens einmal jährlich überprüft und allenfalls aktualisiert werden. Sicherheitsdaten, die für die klinische Anwendung als bekannt angesehen werden, sind als „Reference Safety Information“ (RSI) besonders hervorzuheben, da sie über die Notwendigkeit unverzüglicher Meldungen an Behörden und Ethikkommission für eine erstmalig beobachtete schwerwiegende Nebenwirkung (SUSAR, „serious unexpected suspected adverse reaction“) entscheidet. Entsprechend ist eine aktualisierte IB, ebenso wie eine substanzielle Änderung des Prüfplans, vor ihrer Implementierung der Ethikkommission und Zulassungsbehörde zur Überprüfung der Nutzen-/Risiko-Bewertung und Genehmigung vorzulegen.
Essenzielle Dokumente („essential documents“)
Die GCP-Leitlinie schließt mit einer Liste von Dokumenten, die einzeln und in ihrer Gesamtheit eine Bewertung der Durchführung der klinischen Prüfung sowie der Qualität der erhobenen Daten ermöglichen. Sie gibt an, welche in sponsor- und/oder prüferspezifischen Akten (TMF, „trial master files“) abzulegen und zu archivieren sind, um für Audits/Inspektionen zur Verfügung zu stehen und die Prüfplan- und GCP-konforme Durchführung der Studie zu belegen.

Publikation von Studienergebnissen und Therapieleitlinien: Evidenzbasierte Medizin

Klinische Studien zielen auf einen über die Einzelbeobachtung hinausgehenden Erkenntnisgewinn ab, der eine obligate Publikation der Ergebnisse, unabhängig vom Studienausgang, erfordert.
Studienbericht
Jede Publikation von Studienergebnissen sollte auf Basis einer statistischen Auswertung erfolgen, die in Grundzügen im entsprechenden Abschnitt des Prüfplans, allenfalls zusätzlich in einem detaillierten statistischen Analyseplan (SAP) festgeschrieben sein sollte (Raghav et al. 2015). Von den prospektiv festgelegten Auswertungen der primären und sekundären Endpunkte zu unterscheiden sind weitere Auswertungen zu Fragestellungen, die im Verlauf der Studie oder in Kenntnis der Datenlage bei der Endauswertung formuliert wurden. Diese, im Grunde retrospektiven, Studienergebnisse sind klar als Ergebnisse nicht geplanter, exploratorischer Analysen kenntlich zu machen, da sie erfahrungsgemäß ein deutlich höheres Risiko von Zufallsbefunden bergen. Die Qualität derartiger Ergebnisse kann verbessert werden, wenn diese oft auch als „data mining“ oder als tertiär bezeichneten Auswertungen bereits im Studienprotokoll oder in Amendments vorgesehen und dort skizziert werden. Für Arzneimittelprüfungen, deren Ergebnisse im Rahmen einer Arzneimittelzulassung genutzt werden sollen, wird ein Studienbericht gemäß den Vorgaben der entsprechenden ICH-Leitlinie E3 erwartet (ICH-E3).
Veröffentlichung in Studienregistern
Innerhalb eines Jahres nach Abschluss einer Prüfung in der EU sind die wesentlichen Studiendaten und Ergebnisse in einer strukturierten Zusammenfassung zur Erfassung in der EU-Studiendatenbank (EudraCT, European Union Drug Regulating Authorities Clinical Trials; https://eudract.ema.europa.eu/) zur Verfügung zu stellen, die über das Clinical Trial Register der EU (EU-CTR; https://www.clinicaltrialsregister.eu/) öffentlich zugänglich gemacht werden. Um eine selektive Publikation positiver Studien und positiver Ergebnisse exploratorischer Analysen zu vermeiden („publication bias“), sollen z. B. nach einer Resolution der World Health Organization (WHO) Studien sowohl in öffentlichen Studienregistern (z. B. ClinicalTrials.gov [https://clinicaltrials.gov/], EU-CTR) als auch in Fachzeitschriften mit einem Peer-Review-Verfahren publiziert werden (WHO-International Clinical Trials Registry Platform (ICTRP) 2015; WHO 2018). Es ist jedoch zu beachten, dass EU-CTR keine Publikation von Daten aus Phase-1-Prüfungen vorsieht, wie es für sogenannte Primary Register gefordert wird (International Committee of Medical Journal Editors (ICMJE) 2019).
Ein wesentliches Element ist dabei die prospektive Registrierung vor Studienbeginn mit der Offenlegung eines standardisierten Datensatzes wesentlicher Studienmerkmale (WHO-Trial Registration Data Set, TRDS), z. B. Beschreibung der Interventionen, wesentlicher Auswahlkriterien, primärer und sekundärer Endpunkte mit Art und Zeitplan für deren Erfassung und geplanter Fallzahl. Nach Studienende sollen die Ergebnisse nachgetragen werden, und zwar
  • Ausgangspatientencharakteristika,
  • Patientenfluss über die einzelnen Studien- und Auswertungsstufen,
  • unerwünschte Ereignisse,
  • Ergebnisse der primären und sekundären Endpunkte mit entsprechenden Konfidenzintervallen sowie
  • eine textliche Zusammenfassung des Studienergebnisses und
  • die Angabe, ob und unter welchen Bedingungen anonymisierte individuelle Patientendaten für weitergehende Untersuchungen zur Verfügung gestellt werden.
Hierbei sind jedoch aktuelle und allenfalls auch lokale datenschutzrechtliche Bestimmungen zu beachten.
Publikation in Fachzeitschriften
Vom ICMJE wurden Empfehlungen für Publikationsstandards formuliert und kontinuierlich weiterentwickelt, die Autoren als Leitfaden für die Manuskripterstellung dienen sollen und in den formalen Vorgaben von Fachzeitschriften („instructions for authors“) vielfach eine zentrale Referenz darstellen (ICMJE 2019). Nicht zuletzt geht die Forderung der prospektiven Registrierung einer Studie als Bedingung für eine Publikation in renommierten Fachzeitschriften auf eine ICMJE-Forderung zurück.
Neben dieser allgemeinen Leitlinie sind unter EQUATOR (https://www.equator-network.org/) Links zu Reportleitlinien für verschiedenste Studienarten und Designs zu finden. Besondere Bedeutung wird dem weitest möglichen Ausschluss bzw. der Deklaration studiendesignbedingter, subjektiver Einflussfaktoren beigemessen. Dass selbst ein randomisiertes kontrolliertes Studiendesign keinen absoluten Schutz vor „bias“ bietet, zeigt die „Consolidated Standards of Reporting Trials“-(CONSORT-) Checkliste (http://www.consort-statement.org) auf. Untenstehend ist eine verkürzte Checkliste zur Publikation von Studienergebnissen nach CONSORT-2010 dargestellt:
  • Beschreibung des Studiendesigns und wichtiger methodischer Änderungen (z. B. Auswahlkriterien) nach Studienbeginn
  • Auswahlkriterien für die Studienteilnehmer sowie Umstände der Datenerhebung
  • Detaillierte Beschreibung der geplanten und tatsächlich durchgeführten Studienintervention(en)
  • Klar definierte primäre und sekundäre Endpunkte, wie und wann gemessen; eventuelle Änderungen im Studienverlauf
  • Planungsgrundlagen für Fallzahl, allfällige Zwischenauswertungen und vorzeitigen Studienabbruch
  • Randomisierung: Generierung der Sequenz, Art und Sicherstellung der Zuweisung (zentrale Randomisierung?)
  • Verblindung der Zuordnung (wer war verblindet, wie gewährleistet?), falls zutreffend
  • Statistische Methodik, z. B. beim Gruppenvergleich für primäre Zielgröße
  • Flussdiagramm für Studienpopulation (Zahl der Teilnehmer je Prozessschritt; Zahl und Gründe von Abbrüchen und Ausschlüssen)
  • Demografische und klinische Ausgangsbefunde je Behandlungsgruppe; pro Behandlungsgruppe und Endpunkt:
    • Anzahl analysierter Teilnehmer (Angabe der Anzahl, nicht nur der Prozentanteile)
    • Spezifikation der statistischen Maßzahl (Mittelwert/Median etc.) mit Präzisionsmaß (Standardabweichung/Standardfehler, Range etc.)
  • Wichtige unerwünschte Ereignisse und Nebenwirkungen je Behandlungsgruppe
  • Interpretation der Ereignisse mit Diskussion möglicher Bias-Faktoren
  • Studienlimitationen und Verallgemeinerungsfähigkeit der Ergebnisse
  • Interpretation der Ergebnisse im Vergleich zum allgemeinen Kenntnisstand
Zur Einschätzung der Validität des Studienergebnisses nehmen Péron et al. (2013) kritisch Stellung. Die „Template for Intervention Description and Replication“-(TIDieR-)Checkliste ist auf die vollständige Beschreibung der Studienintervention fokussiert (Hoffmann et al. 2014).

Übersichtsarbeiten, Metaanalysen und Therapieleitlinien

Angesichts Ausmaß und Komplexität der stetig zunehmenden Informationen aus der klinischen Forschung ist es erforderlich, diese für eine Berücksichtigung bei individuellen Therapieentscheidungen nach Relevanz zu klassifizieren und aufzubereiten. Mit dem Ziel einer evidenzbasierten Medizin (EBM, „evidence based medicine“) haben sich daher verschiedene Bewertungssysteme herausgebildet, in denen randomisierte kontrollierte Studien bzw. systematische Übersichtsarbeiten („systematic reviews“), die auf aussagekräftigen kontrollierten Studien basieren, jeweils einen hohen Stellenwert einnehmen.
Ein von der GRADE Working Group herausgegebenes und fortgeschriebenes elektronisches Handbuch beschreibt umfassend Prozess und Kriterien für die Bewertung von Evidenzstufen und abgeleiteten Empfehlungen (Schünemann et al. 2013). Die Homepage der Arbeitsgruppe bietet vielfältige Links zu entsprechender elektronisch verfügbarer Literatur (https://www.gradeworkinggroup.org).

Zulassung von Arzneimitteln

Insgesamt besteht weltweit die Tendenz, neue Arzneimittel leichter und rascher verfügbar zu machen. Die Beantwortung der Frage, wie viel Nutzen gegeben sein muss, damit eine neue Prüfsubstanz zugelassen wird, ist keine wissenschaftliche, sondern primär eine komplexe sozio-politische bzw. -ökonomische, die zu ihrer Beantwortung auf wissenschaftliche Methoden zurückgreift. Letztlich ist bestimmend, wie viel Risiko/Nebenwirkungen eine Gesellschaft für welches Behandlungsergebnis auf sich zu nehmen als adäquat einstuft und was sich eine Gesellschaft das Gesundheitssystem Kosten lassen kann, soll und will. Der EMA ist es von Gesetzes wegen untersagt, Entscheidungen aufgrund ökonomischer Überlegungen zu treffen. Die Agentur ist weder für den Review-Prozess von Kosteneffektivität oder Preisbildung verantwortlich noch für die Verfügbarkeit von Arzneimitteln in der EU. Letztere Inhalte werden auf dem Niveau der nationalen Regierungen und deren Gesundheitsbehörden geregelt.
Schon in der Vergangenheit wurden zahlreiche Onkologika auf der Basis von Phase-2-Daten entweder regulär oder in vorläufiger Variante zugelassen, viele darunter wegen antitumoralen Ansprechens, andere wegen zusätzlicher Erleichterung von tumorspezifischen Symptomen oder nur wegen letzterem (Johnson et al. 2003). Mittlerweile ermöglicht auch die EMA immer mehr Zulassungen auf der Basis von einarmigen Phase-2-Prüfungen, und zwar insbesondere bei seltenen Tumoren und im Rahmen sogenannter stratifizierter Medizin, d. h. biomarkerbasierter Patientenselektion (Martinalbo et al. 2016). Die Zulassung einer Prüfsubstanz erscheint der EMA insbesondere dann gerechtfertigt, wenn entsprechende Nachweise für die Wirksamkeit aus explorativen Phase-2-Prüfungen vorliegen.
Der Einsatz eines sogenannten externen Kontrolldesigns bleibt beschränkt auf Situationen, in denen der Behandlungseffekt als dramatisch und die Erkrankung als gut vorhersehbar eingestuft werden (EMEA/CPMP/ICH/364/96 2001). Der Effekt in solchen extern kontrollierten klinischen Prüfungen muss wesentlich größer sein als das Ergebnis der günstigsten Vergleichskontrollen in Form von historischen Kontrollen. Bei gleichzeitigem Fehlen jeglicher relevanter Sicherheitsbedenken ist diese pragmatische Vorgehensweise im Interesse der schnellen therapeutischen Verfügbarkeit zu begrüßen. Kriterien, die dafür sprechen, die Arzneimittelzulassung auf der Basis von nicht-randomisiert zustande gekommener Evidenz vorzunehmen, wurden von Miller und Joffe (2011) aufgestellt:
  • Zwingend starke Rationale, meist auf dem Wirkmechanismus basierend, welche die Wirksamkeit der neuen Prüfsubstanz favorisiert
  • Evidenz eines großen Wirkumfangs („large effect sizes“) auf der Basis von frühen klinischen Prüfungen
  • Schlechte Ergebnisse bei eingeschränkter Patientenvariabilität unter den derzeit zur Verfügung stehenden Therapie- und Supportivmaßnahmen („medical need“)
  • Verfügbarkeit von historischen Kontrollgruppen mit vergleichbaren Charakteristika, wie sie die präsumtiven Patienten der angestrebten Studie aufweisen sollen
  • Vorhandensein eines klinisch anerkannten oder validierten primären Surrogatendpunkts in der nicht kontrollierten Studie
Dem steht die Erfahrung gegenüber, dass insbesondere MTA häufig nur bescheidene antitumorale Aktivität in Phase-2-Studien erkennen lassen und deshalb die Testung in RCT benötigen (Roberts et al. 2003). Kriterien, die als ausreichend erfolgversprechend eingestuft werden, um das Fortsetzen der frühen klinischen Entwicklung in Form der Phase 3 zu rechtfertigen, sind (Roberts et al. 2003):
  • Das Vorliegen einer einzigartigen und validierten Zielstruktur bei überzeugender präklinischer Aktivität
  • Günstige PK, wie z. B. gute Bioverfügbarkeit bei oraler Applikation, lange Halbwertszeit, Wirkstoffspiegel weit über dem inhibitorischen Schwellenwert mit Talspiegeln über dem Schwellenwert
  • Biologische Aktivität oder Toxizität in den früheren klinischen Entwicklungsphasen
  • Bedeutung in der Behandlung einer bestimmten Erkrankung als Monotherapie oder in Kombination
Die U.S. Food and Drug Administration (FDA) sieht durch den 21st Century Cures Act einerseits Erleichterungen hinsichtlich unnützer bürokratischer Auflagen und Restriktionen im Zusammenhang mit wissenschaftlichen Meetings (Hudson und Collins 2017). Dem gegenüber steht andererseits enormer Druck, neuen Arzneimitteln und Medizinprodukten rascher die Zulassung zuteil werden zu lassen. Dazu scheinen dem US-Gesetzgeber insbesondere auch Methoden geeignet, die rascher zu Ergebnissen führen als randomisierte klinische Prüfungen – wie Evidenz von klinischer Erfahrung, z. B. aus Beobachtungsstudien, Registern oder sogar dem therapeutischen Routineeinsatz – selbst wenn hierdurch geringere Arzneimittelsicherheit und Effektivität als bisher gefordert inkauf genommen würden (Avorn und Kesselheim 2015).
Herkömmlich wurde ein Gewinn an medianem PFS von 2,7 Monaten (einem HR von 0,57 entsprechend) und einer an medianem OS von 2,0 Monaten (einem HR von 0,73 entsprechend) als ausreichend für die Zulassung eines neuen Arzneimittels auf der Basis von prospektiv randomisierten Phase-3-Prüfungen erachtet.
Für die Beibehaltung dieser Strategie spricht, dass die serielle Hintereinanderreihung von neuen Therapien dieses Ausmaß an Verbesserung z. B. für das metastasierte Kolorektalkarzinom das OS von dereinst median 5,0 Monaten auf nunmehr median über 20 Monate anheben konnte (Sobrero und Bruzzi 2009). Wäre die Schwelle für die Zulassung höher angesetzt worden, wären einige der heute erfolgreich eingesetzten Arzneimittel nicht verfügbar. Dem steht die Forderung nach Verlängerung von PFS um z. B. 5–6 Monate gegenüber, um dann eine bedingte (EMA) bzw. beschleunigte (FDA) Arzneimittelzulassung („conditional/accelerated approval“) zu gewähren und damit den gesamten Entwicklungsprozess zu verkürzen.
Die bedingte Zulassung durch die EMA geht mit jährlichem Review zu ihrer Aufrechterhaltung bis zur vollen Zulassung einher. Jedoch kann auch eine reguläre Zulassung wieder aufgehoben oder suspendiert werden, wenn die Wirksamkeit oder die Risiko-Nutzen-Balance nicht mehr gegeben sein sollte (Boon et al. 2010).
Die beschleunigte Zulassung durch die FDA erfordert den Nachweis von klinischem Nutzen durch klinische Postmarketing-Prüfungen. Wird dieser Wirksamkeitsnachweis nicht erbracht, kann dies zur Aberkennung der Marktzulassung führen (FDA Guidance for Industry 2014b). Regulär von der FDA zugelassene Medikamente benötigen keine bestätigenden Postmarketing-Wirksamkeitsstudien und können ausschließlich aus Gründen ungenügender Arzneimittelsicherheit vom Markt genommen werden (DeLoughery und Prasad 2018).
Bisher musste eine vorläufige Arzneimittelzulassung durch zumindest eine prospektiv randomisierte Studie mit Überlebensvorteil, am besten durch 2, ergänzt werden. Sollte PFS als Endpunkt für die Zulassung herangezogen werden, so sollte das Ausmaß der Verlängerung desselben ausreichend sein, d. h. klinisch bedeutungsvoll sein (Tuma 2009). In Postmarketing-Studien muss Verlängerung von OS nachgebracht werden.
PFS mag ein wertvoller Endpunkt bei bestimmten Erkrankungen und für bestimmte Prüfsubstanzen sein, nicht aber für andere (Tuma 2009). Die wesentlichsten Szenarien, in denen aktuell ein Abgehen von der Forderung von OS als zulassungsrelevantem Endpunkt zu erleben ist, sind
  • ausgeprägte antitumorale Aktivität bereits in der frühen Entwicklungsphase, die das Erfordernis nach Äquipoise als Grundlage für RCT nicht gewährleistet,
  • der langsame natürliche Verlauf einer Erkrankung und
  • die Seltenheit der Erkrankung (Blumenthal et al. 2017).
Die erste reguläre Zulassung eines neuen Arzneimittels ausschließlich auf der Basis hoher OR (72 %) war die von Crizotinib bei ROS1-rearrangiertem metastasiertem NSCLC im Rahmen einer einarmigen Expansionskohorte einer Phase-1-Prüfung (Kazandjian et al. 2016). Das Wesen regulärer Zulassung besteht in der Verlängerung von OS und der Verbesserung von QoL oder eines etablierten Surrogats. Zumal OR kein etabliertes Surrogat bei NSCLC darstellt, muss diese Vorgangsweise, die seither auch für zahlreiche andere Onkologika Anwendung fand, als nicht unproblematisch angesehen werden (DeLoughery und Prasad 2018).
Als Musterbeispiele für unorthodoxe Zulassungen sind die vorläufige Arzneimittelzulassung des TKI Ceritinib in ALK-(„anaplastic lymphoma kinase“-)rearrangiertem NSCLC auf der Basis von Phase-1-Daten und später die des Immuncheckpoint-Inhibitors Pembrolizumab zur Behandlung von metastasiertem Melanom und die von Platin-vorbehandeltem NSCLC in einer einarmigen, nicht-randomisierten Phase-1-Erstanwendung am Menschen unter Einbeziehung von multiplen Expansionskohorten anzuführen (Khozin et al. 2015; Kang et al. 2017).
Als weiteres Beispiel für eine innovative Zulassung muss die erste organunabhängige („site agnostic“) vorläufige FDA-Zulassung von Pembrolizumab bei soliden Tumoren mit hoher Mikrosatelliten-Instabilität (MSI-H, „microsatellite instability high“) oder „Mismatch-repair“-Defizienz (dMMR, „deficient mismatch repair“), wie fortgeschrittenen kolorektalen und anderen gastrointestinalen Karzinomen sowie Endometriumkarzinomen, eingestuft werden (Lemery et al. 2017; Blumenthal und Pazdur 2018). Diese Arzneimittelzulassung erfolgte auf der Basis hoher Ansprechraten und langer Ansprechdauer (Merck 2020). Für die endgültige Zulassung mussten diese Daten durch eine prospektiv randomisierte Phase-3-Prüfung für die Erstlinientherapie des MSI-H/dMMR fortgeschrittenen Kolorektalkarzinoms bestätigt werden (André et al. 2020).
Eine zweite beschleunigte agnostische, d. h. ausschließlich auf dem Nachweis des Vorliegens eines Biomarkers – nämlich dem einer hohen Tumormutationslast (TMB-high) – basierende Zulassung erfolgte 2020 ebenfalls für Pembrolizumab, und zwar bei nicht resezierbaren oder metastasierten soliden Tumoren (Marabelle et al. 2020). Eine dritte beschleunigte tumoragnostische Zulassung erging seitens der FDA für den Tropomyosinrezeptorkinase-(TRK-)Inhibitor Larotrectinib auf der Basis einer außergewöhnlich hohen Ansprechrate von 86 % bei einer Reihe von üblicherweise nicht oder bestenfalls schlecht behandelbaren, teilweise seltenen, auch kindlichen Tumoren. Die EMA vergab für diese Arzneimittelentwicklung ihre erste agnostische Marktzulassung (Drilon et al. 2018; Hong et al. 2020).
Vorläufige und reguläre Zulassung auf der Basis von ausschließlich Phase-2-Daten wird jedoch nur erteilt, wenn die neue Entwicklung einen klinisch bedeutsamen Vorteil gegenüber dem etablierten Standard zu bieten scheint (Tsimberidou et al. 2009).
Die bedingte bzw. die beschleunigte Arzneimittelzulassung stellt eine besondere Herausforderung für Zulassungsbehörden dar (Senderowicz und Pfaff 2014). Gemäß einer Analyse wurde in weniger als 10 % jener vorläufigen Zulassungen, in denen später RCT zum endgültigen Wirksamkeitsnachweis durchgeführt wurden, auch tatsächlich die klinische Wirksamkeit als überlegen dokumentiert; in dieser klinischen Prüfung war ein Drittel (41 von 123) der Zulassungen auf Onkologie ausgerichtet (Pease et al. 2017). Davis et al. (2017) analysierten, dass die EMA im Zeitraum von 2009–2013 bei 44/68 Indikationen von 48 Onkologika, d. h. in 65 %, die Zulassung ohne Vorliegen eines OS-Benefits erteilte. Nur in 7 % (3/44) dieser Zulassungen konnte in späterer Verlaufsbeurteilung ein OS-Gewinn beobachtet werden. In lediglich 5/44 anderen Indikationen (11 %) trat Benefit in QoL nach der Zulassung ein.
Eine Analyse der FDA-Zulassungen von Onkologika im Zeitraum von 2008–2012 ergab, dass 67 % auf der Basis von Surrogatendpunkten erfolgte bzw. in 100 % der 15 beschleunigten Zulassungen. Nach Jahren der Nachbeobachtung war bei 86 % der Zulassungen der Effekt auf OS entweder immer noch ungewiss oder nicht gegeben (Kim und Prasad 2015).
Eine rezentere Analyse über den Zeitraum 1992–2017 kam zu einem vergleichbaren Ergebnis (Gyawali et al. 2019). In einem retrospektiven Vergleich von Zulassungen der FDA im Zeitraum von 2012–2017 auf der Basis von „breakthrough status“ versus „non-breakthrough status“ konnte enttäuschenderweise kein Unterschied in den Ergebnisgrößen ORR oder PFS beobachtet werden (Hwang et al. 2018).
Die Erfüllung der Auflagen im Rahmen von bedingten/beschleunigten Zulassungen wird jedoch ungenügend kontrolliert bzw. bei negativem Studienausgang nicht unbedingt durch Entzug einer vorläufigen Zulassung sanktioniert. Um der Erwartung der Wahrung der größtmöglichen Patientensicherheit zu entsprechen, sind Zulassungsbehörden dazu übergegangen, gleichzeitig mit dem Antrag um Marktzulassung auch die Vorlage eines Risiko-Managementplans der Postmarketing-Pharmakovigilanz zu verlangen. Hand in Hand mit der Entwicklung von MTA sind Zulassungsbehörden zunehmend mit der Zulassung von In-vitro Diagnostika („companion diagnostics“) für die Patientenselektion bzw. -stratifizierung befasst (Senderowicz und Pfaff 2014).
Für die Zulassung von neuen Arzneimitteln wird ein positives Nutzen-Risiko-Profil gefordert (Eichler et al. 2009). Es werden aber auch unorthodoxe Wege möglicher künftiger Vorgangsweisen für die Entwicklung neuer Arzneimittel beschrieben, die den Rahmen dieses Beitrages sprengen, zumal sie erst in Diskussion sind (Dhingra 2015; Goldberg et al. 2017; Eichler et al. 2018, 2020).
Literatur
Aaronson NK, Ahmedzai S, Bergman B, Bullinger M, Cull A, Duez NJ, Filiberti A, Flechtner H, Fleishman SB, de Haes JC, Kaasa S, Klee M, Osoba D, Razavi D, Rofe PB, Schraub S, Sneeuw K, Sullivan M, Takeda F (1993) The European Organization for Research and Treatment of Cancer QLQ-C30: a quality-of-life instrument for use in international clinical trials in oncology. J Natl Cancer Inst 85:365–376PubMedCrossRef
Abola MV, Prasad V, Jena AB (2014) Association between treatment toxicity and outcomes in oncology clinical trials. Ann Oncol 25:2284–2289. https://​doi.​org/​10.​1093/​annonc/​mdu444CrossRefPubMedPubMedCentral
Adjei AA (2006) What is the right dose? The elusive optimal biologic dose in phase I clinical trials. J Clin Oncol 24:4054–4055PubMedCrossRef
Agoram BM (2009) Use of pharmacokinetic/pharmacodynamic modelling for starting dose selection in first-in-human trials of high-risk biologics. Br J Clin Pharmacol 67:153–160. https://​doi.​org/​10.​1111/​j.​1365-2125.​2008.​03297.​xCrossRefPubMed
Alymani NA, Smith MD, Williams DJ, Petty RD (2010) Predictive biomarkers for personalised anti-cancer drug use: discovery to clinical implementation. Eur J Cancer 46:869–879. https://​doi.​org/​10.​1016/​j.​ejca.​2010.​01.​001CrossRefPubMed
American Society of Clinical Oncology (2017) Broadening eligibility criteria for oncology clinical trials. J Clin Oncol 35(Special Series):3737–3787
Anderson GL, LeBlanc M, Liu PY, Crowley JJ (2012) Use of covariates in randomization and analysis of clinical trials. In: Crowley JJ, Hoering A (Hrsg) Handbook of statistics in clinical oncology, 3. Aufl. CRC Press, Boca Raton, S 185–197
Andre F, Delaloge S, Soria JC (2011) Biology-driven phase II trials: what is the optimal model for molecular selection? J Clin Oncol 29:1236–1238. https://​doi.​org/​10.​1200/​JCO.​2010.​31.​6877CrossRefPubMed
André T, Shiu KK, Kim TW, Jensen BV, Jensen LH, Punt C, Smith D, Garcia-Carbonero R, Benavides M, Gibbs P, de la Fouchardiere C, Rivera F, Elez E, Bendell J, Le DT, Yoshino T, Van Cutsem E, Yang P, Farooqui MZH, Marinello P, Diaz LA Jr for the KEYNOTE-177 Investigators (2020) Pembrolizumab in microsatellite-instability-high advanced colorectal cancer. N Engl J Med 383:2207–2218. https://​doi.​org/​10.​1056/​NEJMoa2017699CrossRefPubMed
Arkenau HT, Olmos D, Ang JE, de Bono J, Judson I, Kaye S (2008) Clinical outcome and prognostic factors for patients treated within the context of a phase I study: the Royal Marsden Hospital experience. Br J Cancer 98:1029–1033. https://​doi.​org/​10.​1038/​sj.​bjc.​6604218CrossRefPubMedPubMedCentral
Armitage P, McPherson CK, Rowe BC (1969) Repeated significance tests on accumulating data. J R Stat Soc A 132:235–244CrossRef
Ascierto PA, Long GV (2016) Progression-free survival landmark analysis: a critical endpoint in melanoma clinical trials. Lancet Oncol 17:1037–1039. https://​doi.​org/​10.​1016/​S1470-2045(16)30017-1CrossRefPubMed
Avorn J, Kesselheim AS (2015) The 21st Century Cures Act – will it take us back in time? N Engl J Med 372:2473–2475. https://​doi.​org/​10.​1056/​NEJMp1506964CrossRefPubMed
Babb J, Rogatko A, Zacks S (1998) Cancer phase I clinical trials: efficient dose escalation with overdose control. Stat Med 17:1103–1120PubMedCrossRef
Basch E, Reeve BB, Mitchell SA, Clauser SB, Minasian LM, Dueck AC, Mendoza TR, Hay J, Atkinson TM, Abernethy AP, Bruner DW, Cleeland CS, Sloan JA, Chilukuri R, Baumgartner P, Denicoff A, St Germain D, O’Mara AM, Chen A, Kelaghan J, Bennett AV, Sit L, Rogak L, Barz A, Paul DB, Schrag D (2014) Development of the National Cancer Institute’s patient-reported outcomes version of the common terminology criteria for adverse events (PRO-CTCAE). J Natl Cancer Inst 106: pii: dju244. https://​doi.​org/​10.​1093/​jnci/​dju244
Bauer P, Bretz F, Dragalin V, König F, Wassmer G (2016) Twenty-five years of confirmatory adaptive designs: opportunities and pitfalls. Stat Med 35:325–347. https://​doi.​org/​10.​1002/​sim.​6472CrossRefPubMed
Berry DA (2015) The Brave New World of clinical cancer research: adaptive biomarker-driven trials integrating clinical practice with clinical research. Mol Oncol 9:951–959. https://​doi.​org/​10.​1016/​j.​molonc.​2015.​02.​011CrossRefPubMedPubMedCentral
Berry SM, Carlin BP, Lee JJ, Müller P (2010) Bayesian adaptive methods for clinical trials. CRC Press, Boca RatonCrossRef
Bhattacharya S, Fyfe G, Gray RJ, Sargent DJ (2009) Role of sensitivity analyses in assessing progression-free survival in late-stage oncology trials. J Clin Oncol 27:5958–5964. https://​doi.​org/​10.​1200/​JCO.​2009.​22.​4329CrossRefPubMed
Biomarkers Definitions Working Group (2001) Biomarkers and surrogate endpoints: preferred definitions and conceptual framework. Clin Pharmacol Ther 69:89–95. https://​doi.​org/​10.​1067/​mcp.​2001.​113989CrossRef
Blumenthal GM, Pazdur R (2018) Approvals in 2017: gene therapies and site-agnostic indications. Nat Rev Clin Oncol 15:127–128. https://​doi.​org/​10.​1038/​nrclinonc.​2018.​11CrossRefPubMed
Blumenthal GM, Kluetz PG, Schneider J, Goldberg KB, McKee AE, Pazdur R (2017) Oncology drug approvals: evaluating endpoints and evidence in an era of breakthrough therapies. Oncologist 22:762–767. https://​doi.​org/​10.​1634/​theoncologist.​2017-0152CrossRefPubMedPubMedCentral
Boon WP, Moors EH, Meijer A, Schellekens H (2010) Conditional approval and approval under exceptional circumstances as regulatory instruments for stimulating responsible drug innovation in Europe. Clin Pharmacol Ther 88:848–853. https://​doi.​org/​10.​1038/​clpt.​2010.​207CrossRefPubMed
Booth B, Glassman R, Ma P (2003) Oncology’s trials. Nat Rev Drug Discov 2:609–610PubMedCrossRef
Booth CM, Eisenhauer EA (2012) Progression-free survival: meaningful or simply measurable? J Clin Oncol 30:1030–1033. https://​doi.​org/​10.​1200/​JCO.​2011.​38.​7571CrossRefPubMed
Booth CM, Calvert AH, Giaccone G, Lobbezoo MW, Eisenhauer EA, Seymour LK (2008) Design and conduct of phase II studies of targeted anticancer therapy: recommendations from the task force on methodology for the development of innovative cancer therapies (MDICT). Eur J Cancer 44:25–29PubMedCrossRef
Borcoman E, Kanjanapan Y, Champiat S, Kato S, Servois V, Kurzrock R, Goel S, Bedard P, Le Tourneau C (2019) Novel patterns of response under immunotherapy. Ann Oncol 30:385–396. https://​doi.​org/​10.​1093/​annonc/​mdz003CrossRefPubMed
Bothwell LE, Greene JA, Podolsky SH, Jones DS (2016) Assessing the gold standard – lessons from the history of RCTs. N Engl J Med 374:2175–2181. https://​doi.​org/​10.​1056/​NEJMms1604593CrossRefPubMed
Bottomley A, Reijneveld JC, Koller M, Flechtner H, Tomaszewski KA, Greimel E on behalf of the 5th EORTC Quality of Life in Cancer Clinical Trials Conference Faculty (2019) Current state of quality of life and patient-reported outcomes research. Eur J Cancer 121:55–63. https://​doi.​org/​10.​1016/​j.​ejca.​2019.​08.​016CrossRefPubMed
Braun TM (2006) Generalizing the TITE-CRM to adapt for early- and late-onset toxicities. Stat Med 25:2071–2083. https://​doi.​org/​10.​1002/​sim.​2337CrossRefPubMed
Braunholtz DA, Edwards SJ, Lilford RJ (2001) Are randomized clinical trials good for us (in the short term)? Evidence for a „trial effect“. J Clin Epidemiol 54:217–224PubMedCrossRef
Brave M, Weinstock C, Brewer JR, Chi DC, Suzman DL, Cheng J, Zhang L, Sridhara R, Ibrahim A, Kluetz PG, Pazdur R, Beaver JA (2020) An FDA review of drug development in nonmetastatic castration-resistant prostate cancer. Clin Cancer Res 26:4717–4722. https://​doi.​org/​10.​1158/​1078-0432.​CCR-19-3835CrossRefPubMed
Bruix J, Sherman M on behalf of Practice Guidelines Committee of the American Association for the Study of Liver Diseases (AASLD) (2005) Management of hepatocellular carcinoma. Hepatology 42:1208–1236. https://​doi.​org/​10.​1002/​hep.​20933CrossRefPubMed
Bruzzi P, Del Mastro L, Sormani MP, Bastholt L, Danova M, Focan C, Fountzilas G, Paul J, Rosso R, Venturini M (2005) Objective response to chemotherapy as a potential surrogate end point of survival in metastatic breast cancer patients. J Clin Oncol 23:5117–5125PubMedCrossRef
Burnett T, Mozgunov P, Pallmann P, Villar SS, Wheeler GM, Jaki T (2020) Adding flexibility to clinical trial designs: an example-based guide to the practical use of adaptive designs. BMC Med 18:352. https://​doi.​org/​10.​1186/​s12916-020-01808-2CrossRefPubMedPubMedCentral
Burris HA 3rd, Moore MJ, Andersen J, Green MR, Rothenberg ML, Modiano MR, Cripps MC, Portenoy RK, Storniolo AM, Tarassoff P, Nelson R, Dorr FA, Stephens CD, Von Hoff DD (1997) Improvements in survival and clinical benefit with gemcitabine as first-line therapy for patients with advanced pancreas cancer: a randomized trial. J Clin Oncol 15:2403–2413PubMedCrossRef
Burzykowski T, Buyse M, Piccart-Gebhart MJ, Sledge G, Carmichael J, Lück HJ, Mackey JR, Nabholtz JM, Paridaens R, Biganzoli L, Jassem J, Bontenbal M, Bonneterre J, Chan S, Basaran GA, Therasse P (2008) Evaluation of tumor response, disease control, progression-free survival, and time to progression as potential surrogate end points in metastatic breast cancer. J Clin Oncol 26:1987–1992. https://​doi.​org/​10.​1200/​JCO.​2007.​10.​8407CrossRefPubMed
Buyse M, Thirion P, Carlson RW, Burzykowski T, Molenberghs G, Piedbois P for the Meta-Analysis Group in Cancer (2000) Relation between tumour response to first-line chemotherapy and survival in advanced colorectal cancer: a meta-analysis. Lancet 356:373–378PubMedCrossRef
Buyse M, Burzykowski T, Carroll K, Michiels S, Sargent DJ, Miller LL, Elfring GL, Pignon JP, Piedbois P (2007) Progression-free survival is a surrogate for survival in advanced colorectal cancer. J Clin Oncol 25:5218–5224PubMedCrossRef
Buyse M, Sargent DJ, Saad ED (2011) Survival is not a good outcome for randomized trials with effective subsequent therapies. J Clin Oncol 29:4719–4720. https://​doi.​org/​10.​1200/​JCO.​2011.​38.​4206CrossRefPubMed
Byrne MJ, Nowak AK (2004) Modified RECIST criteria for assessment of response in malignant pleural mesothelioma. Ann Oncol 15:257–260PubMedCrossRef
Cabarrou B, Gomez-Roca C, Viala M, Rabeau A, Paulon R, Loirat D, Munsch N, Delord JP, Filleron T (2020) Modernizing adverse events analysis in oncology clinical trials using alternative approaches: rationale and design of the MOTIVATE trial. Investig New Drugs 38:1879–1887. https://​doi.​org/​10.​1007/​s10637-020-00938-xCrossRef
Cannistra SA (2009) Phase II trials in Journal of Clinical Oncology. J Clin Oncol 27:3073–3076. https://​doi.​org/​10.​1200/​JCO.​2009.​23.​1811CrossRefPubMed
Carden CP, Sarker D, Postel-Vinay S, Yap TA, Attard G, Banerji U, Garrett MD, Thomas GV, Workman P, Kaye SB, de Bono JS (2010) Can molecular biomarker-based patient selection in Phase I trials accelerate anticancer drug development? Drug Discov Today 15:88–97. https://​doi.​org/​10.​1016/​j.​drudis.​2009.​11.​006CrossRefPubMed
Carter SK (1977) Clinical trials in cancer chemotherapy. Cancer 40(Suppl 1):544–557PubMedCrossRef
Casali PG, Vyas M on behalf of the European Society for Medical Oncology (ESMO) (2021) Data protection and research in the European Union: a major step forward, with a step back. Ann Oncol 32:15–19. https://​doi.​org/​10.​1016/​j.​annonc.​2020.​10.​472CrossRefPubMed
Chabner B (2007) Phase II cancer trials: out of control? Clin Cancer Res 13:2307–2308PubMedCrossRef
Chan AW, Tetzlaff JM, Altman DG, Laupacis A, Gøtzsche PC, Krleža-Jerić K, Hróbjartsson A, Mann H, Dickersin K, Berlin JA, Doré CJ, Parulekar WR, Summerskill WS, Groves T, Schulz KF, Sox HC, Rockhold FW, Rennie D, Moher D (2013a) SPIRIT 2013 statement: defining standard protocol items for clinical trials. Ann Intern Med 158:200–207. https://​doi.​org/​10.​7326/​0003-4819-158-3-201302050-00583CrossRefPubMedPubMedCentral
Chan AW, Tetzlaff JM, Gøtzsche PC, Altman DG, Mann H, Berlin JA, Dickersin K, Hróbjartsson A, Schulz KF, Parulekar WR, Krleza-Jeric K, Laupacis A, Moher D (2013b) SPIRIT 2013 explanation and elaboration: guidance for protocols of clinical trials. BMJ 346:e7586. https://​doi.​org/​10.​1136/​bmj.​e7586CrossRefPubMedPubMedCentral
Chan TA, Yarchoan M, Jaffee E, Swanton C, Quezada SA, Stenzinger A, Peters S (2019) Development of tumor mutation burden as an immunotherapy biomarker: utility for the oncology clinic. Ann Oncol 30:44–56. https://​doi.​org/​10.​1093/​annonc/​mdy495CrossRefPubMed
Choi H, Charnsangavej C, Faria SC, Macapinlac HA, Burgess MA, Patel SR, Chen LL, Podoloff DA, Benjamin RS (2007) Correlation of computed tomography and positron emission tomography in patients with metastatic gastrointestinal stromal tumor treated at a single institution with imatinib mesylate: proposal of new computed tomography response criteria. J Clin Oncol 25:1753–1759PubMedCrossRef
Chow S-C, Chang M (2007) Adaptive design methods in clinical trials. CRC Press Biostatistics, Boca Raton
Collette L, Burzykowski T, Carroll KJ, Newling D, Morris T, Schröder FH (2005) Is prostate-specific antigen a valid surrogate end point for survival in hormonally treated patients with metastatic prostate cancer? Joint research of the European Organisation for Research and Treatment of Cancer, the Limburgs Universitair Centrum, and AstraZeneca Pharmaceuticals. J Clin Oncol 23:6139–6148PubMedCrossRef
Collins JM, Grieshaber CK, Chabner BA (1990) Pharmacologically guided phase I clinical trials based upon preclinical drug development. J Natl Cancer Inst 82:1321–1326. https://​doi.​org/​10.​1093/​jnci/​82.​16.​1321CrossRefPubMed
CONSORT (CONsolidated Standards of Reporting Trials). http://​www.​consort-statement.​org. Zugegriffen am 25.02.2021
Cortazar P, Zhang L, Untch M, Mehta K, Costantino JP, Wolmark N, Bonnefoi H, Cameron D, Gianni L, Valagussa P, Swain SM, Prowell T, Loibl S, Wickerham DL, Bogaerts J, Baselga J, Perou C, Blumenthal G, Blohmer J, Mamounas EP, Bergh J, Semiglazov V, Justice R, Eidtmann H, Paik S, Piccart M, Sridhara R, Fasching PA, Slaets L, Tang S, Gerber B, Geyer CE Jr, Pazdur R, Ditsch N, Rastogi P, Eiermann W, von Minckwitz G (2014) Pathological complete response and long-term clinical benefit in breast cancer: the CTNeoBC pooled analysis. Lancet 384:164–172. https://​doi.​org/​10.​1016/​S0140-6736(13)62422-8CrossRefPubMed
Coussens LM, Fingleton B, Matrisian LM (2002) Matrix metalloproteinase inhibitors and cancer: trials and tribulations. Science 295:2387–2392PubMedCrossRef
Cox DR (1972) Regression models and life-tables. J R Stat Soc B 34:187–220
CTEP (Cancer Therapy Evaluation Program), NIH (National Institutes of Health), NCI (National Cancer Institute), DCTD (Division of Cancer Treatment and Diagnosis). Protocol development, tools, protocol templates and guidelines. https://​ctep.​cancer.​gov/​protocolDevelopm​ent/​templates_​applications.​htm. Zugegriffen am 25.02.2021
Cunanan KM, Gonen M, Shen R, Hyman DM, Riely GJ, Begg CB, Iasonos A (2017) Basket trials in oncology: a trade-off between complexity and efficiency. J Clin Oncol 35:271–273. https://​doi.​org/​10.​1200/​JCO.​2016.​69.​9751CrossRefPubMed
Cuzick J (2008) Primary endpoints for randomised trials of cancer therapy. Lancet 371:2156–2158. https://​doi.​org/​10.​1016/​S0140-6736(08)60933-2CrossRefPubMed
Dancey JE, Dobbin KK, Groshen S, Jessup JM, Hruszkewycz AH, Koehler M, Parchment R, Ratain MJ, Shankar LK, Stadler WM, True LD, Gravell A, Grever MR on behalf of the Biomarkers Task Force of the NCI Investigational Drug Steering Committee (2010) Guidelines for the development and incorporation of biomarker studies in early clinical trials of novel agents. Clin Cancer Res 16:1745–1755. https://​doi.​org/​10.​1158/​1078-0432.​CCR-09-2167CrossRefPubMed
Davis C, Naci H, Gurpinar E, Poplavska E, Pinto A, Aggarwal A (2017) Availability of evidence of benefits on overall survival and quality of life of cancer drugs approved by European Medicines Agency: retrospective cohort study of drug approvals 2009–13. BMJ 359:j4530. https://​doi.​org/​10.​1136/​bmj.​j4530CrossRefPubMedPubMedCentral
Davis S, Wright PW, Schulman SF, Hill LD, Pinkham RD, Johnson LP, Jones TW, Kellogg HB Jr, Radke HM, Sikkema WW, Jolly PC, Hammar SP (1985) Participants in prospective, randomized clinical trials for resected non-small cell lung cancer have improved survival compared with nonparticipants in such trials. Cancer 56:1710–1718PubMedCrossRef
DeLoughery EP, Prasad V (2018) The US Food and Drug Administration’s use of regular approval for cancer drugs based on single-arm studies: implications for subsequent evidence generation. Ann Oncol 29:527–529. https://​doi.​org/​10.​1093/​annonc/​mdy008CrossRefPubMed
Dhingra K (2015) Oncology 2020: a drug development and approval paradigm. Ann Oncol 26:2347–2350. https://​doi.​org/​10.​1093/​annonc/​mdv353CrossRefPubMed
Dienstmann R, Braña I, Rodon J, Tabernero J (2011) Toxicity as a biomarker of efficacy of molecular targeted therapies: focus on EGFR and VEGF inhibiting anticancer drugs. Oncologist 16:1729–1740. https://​doi.​org/​10.​1634/​theoncologist.​2011-0163CrossRefPubMedPubMedCentral
Dignam JJ, Hamstra DA, Lepor H, Grignon D, Brereton H, Currey A, Rosenthal S, Zeitzer KL, Venkatesan VM, Horwitz EM, Pisansky TM, Sandler HM (2019) Time interval to biochemical failure as a surrogate end point in locally advanced prostate cancer: analysis of randomized trial NRG/RTOG 9202. J Clin Oncol 37:213–221. https://​doi.​org/​10.​1200/​JCO.​18.​00154CrossRefPubMed
DiMasi JA, Hansen RW, Grabowski HG (2003) The price of innovation: new estimates of drug development costs. J Health Econ 22:151–185. https://​doi.​org/​10.​1016/​S0167-6296(02)00126-1CrossRefPubMed
Dittrich C (2008) Planung und Durchführung klinischer Phase-II-Studien. Onkologie 31(Suppl 2):46–52. https://​doi.​org/​10.​1159/​000113031CrossRefPubMed
Dittrich C (2020) Basket trials: from tumour gnostic to tumour agnostic drug development. Cancer Treat Rev 90:102082. https://​doi.​org/​10.​1016/​j.​ctrv.​2020.​102082CrossRefPubMed
Doll R (1998) Controlled trials: the 1948 watershed. BMJ 317:1217–1220PubMedPubMedCentralCrossRef
Drilon A, Nagasubramanian R, Blake JF, Ku N, Tuch BB, Ebata K, Smith S, Lauriault V, Kolakowski GR, Brandhuber BJ, Larsen PD, Bouhana KS, Winski SL, Hamor R, Wu WI, Parker A, Morales TH, Sullivan FX, DeWolf WE, Wollenberg LA, Gordon PR, Douglas-Lindsay DN, Scaltriti M, Benayed R, Raj S, Hanusch B, Schram AM, Jonsson P, Berger MF, Hechtman JF, Taylor BS, Andrews S, Rothenberg SM, Hyman DM (2017) A next-generation TRK kinase inhibitor overcomes acquired resistance to prior TRK kinase inhibition in patients with TRK fusion-positive solid tumors. Cancer Discov 7:963–972. https://​doi.​org/​10.​1158/​2159-8290.​CD-17-0507CrossRefPubMedPubMedCentral
Drilon A, Laetsch TW, Kummar S, DuBois SG, Lassen UN, Demetri GD, Nathenson M, Doebele RC, Farago AF, Pappo AS, Turpin B, Dowlati A, Brose MS, Mascarenhas L, Federman N, Berlin J, El-Deiry WS, Baik C, Deeken J, Boni V, Nagasubramanian R, Taylor M, Rudzinski ER, Meric-Bernstam F, Sohal DPS, Ma PC, Raez LE, Hechtman JF, Benayed R, Ladanyi M, Tuch BB, Ebata K, Cruickshank S, Ku NC, Cox MC, Hawkins DS, Hong DS, Hyman DM (2018) Efficacy of larotrectinib in TRK fusion-positive cancers in adults and children. N Engl J Med 378:731–739. https://​doi.​org/​10.​1056/​NEJMoa1714448CrossRefPubMedPubMedCentral
Druker BJ, Talpaz M, Resta DJ, Peng B, Buchdunger E, Ford JM, Lydon NB, Kantarjian H, Capdeville R, Ohno-Jones S, Sawyers CL (2001) Efficacy and safety of a specific inhibitor of the BCR-ABL tyrosine kinase in chronic myeloid leukemia. N Engl J Med 344:1031–1037PubMedCrossRef
Duffy MJ, Sturgeon CM, Sölétormos G, Barak V, Molina R, Hayes DF, Diamandis EP, Bossuyt PM (2015) Validation of new cancer biomarkers: a position statement from the European Group on Tumor Markers. Clin Chem 61:809–820. https://​doi.​org/​10.​1373/​clinchem.​2015.​239863CrossRefPubMed
Edler L (1990) Statistical requirements of phase I studies. Onkologie 13:90–95PubMed
Edler L (1993) Phase II Studien in der Onkologie: Wieviele Patienten sind erforderlich. Tumordiagn Ther 14:1–9
Edler L, Burkholder I (2006) Overview of phase I trials. In: Crowley J, Ankerst DP (Hrsg) Handbook of statistics in clinical oncology, 2. Aufl. CRC Press, Boca Raton, S 3–29
Eichler HG, Abadie E, Raine JM, Salmonson T (2009) Safe drugs and the cost of good intentions. N Engl J Med 360:1378–1380. https://​doi.​org/​10.​1056/​NEJMp0900092CrossRefPubMed
Eichler HG, Bedlington N, Boudes M, Bouvy JC, Broekmans AW, Cerreta F, Faulkner SD, Forda SR, Joos A, Le Cam Y, Mayer MH, Pirard V, Corriol-Rohou S, ADAPT SMART Consortium (2018) Medicines adaptive pathways to patients: why, when, and how to engage? Clin Pharmacol Ther. https://​doi.​org/​10.​1002/​cpt.​1121
Eichler HG, Koenig F, Arlett P, Enzmann H, Humphreys A, Pétavy F, Schwarzer-Daum B, Sepodes B, Vamvakas S, Rasi G (2020) Are novel, nonrandomized analytic methods fit for decision making? The need for prospective, controlled, and transparent validation. Clin Pharmacol Ther 107:773–779. https://​doi.​org/​10.​1002/​cpt.​1638CrossRefPubMed
Eisenhauer EA (1998) Phase I and II trials of novel anti-cancer agents: endpoints, efficacy and existentialism. The Michel Clavel Lecture, held at the 10th NCI-EORTC Conference on New Drugs in Cancer Therapy, Amsterdam, 16–19 June 1998. Ann Oncol 9:1047–1052PubMedCrossRef
Eisenhauer EA, Therasse P, Bogaerts J, Schwartz LH, Sargent D, Ford R, Dancey J, Arbuck S, Gwyther S, Mooney M, Rubinstein L, Shankar L, Dodd L, Kaplan R, Lacombe D, Verweij J (2009) New response evaluation criteria in solid tumours: revised RECIST guideline (version 1.1). Eur J Cancer 45:228–247. https://​doi.​org/​10.​1016/​j.​ejca.​2008.​10.​026CrossRefPubMed
Ellis LM, Bernstein DS, Voest EE, Berlin JD, Sargent D, Cortazar P, Garrett-Mayer E, Herbst RS, Lilenbaum RC, Sima C, Venook AP, Gonen M, Schilsky RL, Meropol NJ, Schnipper LE (2014) American Society of Clinical Oncology perspective: raising the bar for clinical trials by defining clinically meaningful outcomes. J Clin Oncol 32:1277–1280. https://​doi.​org/​10.​1200/​JCO.​2013.​53.​8009CrossRefPubMed
El-Maraghi RH, Eisenhauer EA (2008) Review of phase II trial designs used in studies of molecular targeted agents: outcomes and predictors of success in phase III. J Clin Oncol 26:1346–1354. https://​doi.​org/​10.​1200/​JCO.​2007.​13.​5913CrossRefPubMed
Elsäßer A, Regnstrom J, Vetter T, Koenig F, Hemmings RJ, Greco M, Papaluca-Amati M, Posch M (2014) Adaptive clinical trial designs for European marketing authorization: a survey of scientific advice letters from the European Medicines Agency. Trials 15:383. https://​doi.​org/​10.​1186/​1745-6215-15-383CrossRefPubMedPubMedCentral
EMA/CHMP/292464/2014 (2016) Appendix 2 to the guideline on the evaluation of anticancer medicinal products in man – the use of patient-reported outcome (PRO) measures in oncology studies. https://​www.​ema.​europa.​eu/​en/​documents/​other/​appendix-2-guideline-evaluation-anticancer-medicinal-products-man_​en.​pdf. Zugegriffen am 25.02.2021
EMA/4260/2001 Rev. 10 (2020) European Medicines Agency Guidance for applicants seeking scientific advice and protocol assistance. https://​www.​ema.​europa.​eu/​en/​documents/​regulatory-procedural-guideline/​european-medicines-agency-guidance-applicants-seeking-scientific-advice-protocol-assistance_​en.​pdf. Zugegriffen am 25.02.2021
EMA/CHMP/205/95 Rev. 5 (2017) Guideline on the evaluation of anticancer medicinal products in man. https://​www.​ema.​europa.​eu/​en/​documents/​scientific-guideline/​guideline-evaluation-anticancer-medicinal-products-man-revision-5_​en.​pdf. Zugegriffen am 25.02.2021
EMA/CHMP/205/95 Rev. 6 (2019) Guideline on the clinical evaluation of anticancer medicinal products (draft). https://​www.​ema.​europa.​eu/​en/​documents/​scientific-guideline/​draft-guideline-evaluation-anticancer-medicinal-products-man-revision-6_​en.​pdf. Zugegriffen am 25.02.2021
EMA/CHMP/ICH/436221/2017 (2020) ICH E9 (R1) addendum on estimands and sensitivity analysis in clinical trials to the guideline on statistical principles for clinical trials, step 5. https://​www.​ema.​europa.​eu/​en/​documents/​scientific-guideline/​ich-e9-r1-addendum-estimands-sensitivity-analysis-clinical-trials-guideline-statistical-principles_​en.​pdf. Zugegriffen am 25.02.2021
EMA/CHMP/ICH/646107/2008 (2010) ICH guideline S9 on nonclinical evaluation for anticancer pharmaceuticals, step 5. https://​www.​ema.​europa.​eu/​documents/​scientific-guideline/​international-conference-harmonisation-technical-requirements-registration-pharmaceuticals-human-use_​en-16.​pdf. Zugegriffen am 25.02.2021
EMA/CPMP/ICH/286/1995 (2009) ICH guideline M3(R2) on non-clinical safety studies for the conduct of human clinical trials and marketing authorisation for pharmaceuticals, step 5. https://​www.​ema.​europa.​eu/​en/​documents/​scientific-guideline/​ich-guideline-m3r2-non-clinical-safety-studies-conduct-human-clinical-trials-marketing-authorisation_​en.​pdf. Zugegriffen am 25.02.2021
EMEA/CPMP/ICH/363/96 (1998) ICH topic E 9 statistical principles for clinical trials, step 5. Note for guidance on statistical principles for clinical trials. https://​www.​ema.​europa.​eu/​en/​documents/​scientific-guideline/​ich-e-9-statistical-principles-clinical-trials-step-5_​en.​pdf. Zugegriffen am 25.02.2021
EMEA/CHMP/EWP/2459/02 (2007) Reflection paper on methodological issues in confirmatory clinical trials planned with an adaptive design. https://​www.​ema.​europa.​eu/​en/​documents/​scientific-guideline/​reflection-paper-methodological-issues-confirmatory-clinical-trials-planned-adaptive-design_​en.​pdf. Zugegriffen am 25.02.2021
EMEA/CHMP/SWP/28367/07 Rev. 1 (2017) Guideline on strategies to identify and mitigate risks for first-in-human and early clinical trials with investigational medicinal products. https://​www.​ema.​europa.​eu/​en/​documents/​scientific-guideline/​guideline-strategies-identify-mitigate-risks-first-human-early-clinical-trials-investigational_​en.​pdf. Zugegriffen am 25.02.2021
EMEA/CPMP/ICH/364/96 (2001) ICH topic E 10 choice of control group in clinical trials, step 5. Note for guidance on choice of control group in clinical trials. https://​www.​ema.​europa.​eu/​en/​documents/​scientific-guideline/​ich-e-10-choice-control-group-clinical-trials-step-5_​en.​pdf. Zugegriffen am 25.02.2021
EORTC New Drug Development Committee (1985) EORTC guidelines for phase I trials with single agents in adults. Eur J Cancer Clin Oncol 21:1005–1007CrossRef
EQUATOR (Enhancing the QUAlity and Transparency Of health Research)-Network. Reporting guidelines for main study types. https://​www.​equator-network.​org/​. Zugegriffen am 25.02.2021
EU-Richtlinie 2001/20/EG (2001) Richtlinie 2001/20/EG des Europäischen Parlaments und des Rates vom 4. April 2001 zur Angleichung der Rechts- und Verwaltungsvorschriften der Mitgliedstaaten über die Anwendung der guten klinischen Praxis bei der Durchführung von klinischen Prüfungen mit Humanarzneimitteln. https://​eur-lex.​europa.​eu/​legal-content/​DE/​TXT/​PDF/​?​uri=​CELEX:​32001L0020. Zugegriffen am 25.02.2021
EU-Verordnung 2016/679 (2016) Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27. April 2016 zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten, zum freien Datenverkehr und zur Aufhebung der Richtlinie 95/46/EG (Datenschutz-Grundverordnung) (Text von Bedeutung für den EWR). https://​eur-lex.​europa.​eu/​legal-content/​DE/​TXT/​PDF/​?​uri=​CELEX:​32016R0679&​qid=​1613848230599. Zugegriffen am 25.02.2021
EU-Verordnung 2017/746 (2017) Verordnung (EU) 2017/746 des Europäischen Parlaments und des Rates vom 5. April 2017 über In-vitro-Diagnostika und zur Aufhebung der Richtlinie 98/79/EG und des Beschlusses 2010/227/EU der Kommission (Text von Bedeutung für den EWR). https://​eur-lex.​europa.​eu/​legal-content/​DE/​TXT/​PDF/​?​uri=​CELEX:​32017R0746. Zugegriffen am 25.02.2021
EU-Verordnung 536/2014 (2014) Verordnung (EU) Nr. 536/2014 des Europäischen Parlaments und des Rates vom 16. April 2014 über klinische Prüfungen mit Humanarzneimitteln und zur Aufhebung der Richtlinie 2001/20/EG (Text von Bedeutung für den EWR). https://​eur-lex.​europa.​eu/​legal-content/​DE/​TXT/​PDF/​?​uri=​CELEX:​32014R0536. Zugegriffen am 25.02.2021
FDA (2005) Guidance for Industry – estimating the maximum safe starting dose in initial clinical trials for therapeutics in adult healthy volunteers. https://​www.​fda.​gov/​media/​72309/​download. Zugegriffen am 25.02.2021
FDA (2009) Guidance for Industry – patient-reported outcome measures: use in medical product development to support labeling claims. https://​www.​fda.​gov/​media/​77832/​download. Zugegriffen am 25.02.2021
FDA (2014a) Guidance for Industry and Food and Drug Administration Staff – in vitro companion diagnostic devices. https://​www.​fda.​gov/​media/​81309/​download. Zugegriffen am 25.02.2021
FDA (2014b) Guidance for Industry – expedited programs for serious conditions – drugs and biologics. https://​www.​fda.​gov/​media/​119293/​download. Zugegriffen am 25.02.2021
FDA (2016) Draft Guidance for Industry and Food and Drug Administration Staff – principles for codevelopment of an in vitro companion diagnostic device with a therapeutic product. https://​www.​fda.​gov/​media/​99030/​download. Zugegriffen am 25.02.2021
FDA (2019) Guidance for Industry – adaptive designs for clinical trials of drugs and biologics. https://​www.​fda.​gov/​media/​78495/​download. Zugegriffen am 25.02.2021
Fleming TR, DeMets DL (1996) Surrogate end points in clinical trials: are we being misled? Ann Intern Med 125:605–613PubMedCrossRef
Freedman B (1987) Equipoise and the ethics of clinical research. N Engl J Med 317:141–145PubMedCrossRef
Freireich EJ, Gehan EA, Rall DP, Schmidt LH, Skipper HE (1966) Quantitative comparison of toxicity of anticancer agents in mouse, rat, hamster, dog, monkey, and man. Cancer Chemother Rep 50:219–244PubMed
Garrett-Mayer E (2006) The continual reassessment method for dose-finding studies: a tutorial. Clin Trials 3:57–71PubMedCrossRef
Gatsonis C, Greenhouse JB (1992) Bayesian methods for phase I clinical trials. Stat Med 11:1377–1389PubMedCrossRef
Gehan EA (1961) The determination of the number of patients required in a preliminary and a follow-up trial of a new chemotherapeutic agent. J Chronic Dis 13:346–353PubMedCrossRef
Gill S, Sargent D (2006) End points for adjuvant therapy trials: has the time come to accept disease-free survival as a surrogate end point for overall survival? Oncologist 11:624–629PubMedCrossRef
Giovagnoli A (2021) The Bayesian design of adaptive clinical trials. Int J Environ Res Public Health 18:530. https://​doi.​org/​10.​3390/​ijerph18020530CrossRefPubMedCentral
Glassman RH, Ratain MJ (2009) Biomarkers in early cancer drug development: limited utility. Clin Pharmacol Ther 85:134–135. https://​doi.​org/​10.​1038/​clpt.​2008.​231CrossRefPubMed
Glimelius B, Lahn M (2011) Window-of-opportunity trials to evaluate clinical activity of new molecular entities in oncology. Ann Oncol 22:1717–1725. https://​doi.​org/​10.​1093/​annonc/​mdq622CrossRefPubMed
Goldberg RM, Wei L, Fernandez S (2017) The evolution of clinical trials in oncology: defining who benefits from new drugs using innovative study designs. Oncologist 22:1015–1019. https://​doi.​org/​10.​1634/​theoncologist.​2017-0153CrossRefPubMedPubMedCentral
Goldhirsch A, Gelber RD, Simes RJ, Glasziou P, Coates AS (1989) Costs and benefits of adjuvant therapy in breast cancer: a quality-adjusted survival analysis. J Clin Oncol 7:36–44. https://​doi.​org/​10.​1200/​JCO.​1989.​7.​1.​36CrossRefPubMed
Goldmacher GV, Khilnani AD, Andtbacka RHI, Luke JJ, Hodi FS, Marabelle A, Harrington K, Perrone A, Tse A, Madoff DC, Schwartz LH (2020) Response criteria for intratumoral immunotherapy in solid tumors: itRECIST. J Clin Oncol 38:2667–2676. https://​doi.​org/​10.​1200/​JCO.​19.​02985CrossRefPubMedPubMedCentral
Goldsmith MA, Slavik M, Carter SK (1975) Quantitative prediction of drug toxicity in humans from toxicology in small and large animals. Cancer Res 35:1354–1364PubMed
Goulart BH, Clark JW, Pien HH, Roberts TG, Finkelstein SN, Chabner BA (2007) Trends in the use and role of biomarkers in phase I oncology trials. Clin Cancer Res 13:6719–6726PubMedCrossRef
Graf AC, Bauer P, Glimm E, Koenig F (2014) Maximum type 1 error rate inflation in multiarmed clinical trials with adaptive interim sample size modifications. Biom J 56:614–630. https://​doi.​org/​10.​1002/​bimj.​201300153CrossRefPubMedPubMedCentral
Green S (2012) Overview of phase II clinical trials. In: Crowley JJ, Hoering A (Hrsg) Handbook of statistics in clinical oncology, 3. Aufl. CRC Press, Boca Raton, S 109–123
Grothey A, Hedrick EE, Mass RD, Sarkar S, Suzuki S, Ramanathan RK, Hurwitz HI, Goldberg RM, Sargent DJ (2008) Response-independent survival benefit in metastatic colorectal cancer: a comparative analysis of N9741 and AVF2107. J Clin Oncol 26:183–189. https://​doi.​org/​10.​1200/​JCO.​2007.​13.​8099CrossRefPubMed
Gruber BL, Marchese MJ, Kew R (1995) Angiogenic factors stimulate mast-cell migration. Blood 86:2488–2493PubMedCrossRef
Gyawali B, Hey SP, Kesselheim AS (2019) Assessment of the clinical benefit of cancer drugs receiving accelerated approval. JAMA Intern Med 179:906–913. https://​doi.​org/​10.​1001/​jamainternmed.​2019.​0462CrossRefPubMedPubMedCentral
Hamberg P, Ratain MJ, Lesaffre E, Verweij J (2010) Dose-escalation models for combination phase I trials in oncology. Eur J Cancer 46:2870–2878. https://​doi.​org/​10.​1016/​j.​ejca.​2010.​07.​002CrossRefPubMed
Hanahan D, Weinberg RA (2000) The hallmarks of cancer. Cell 100:57–70PubMedCrossRef
Hanahan D, Weinberg RA (2011) Hallmarks of cancer: the next generation. Cell 144:646–674. https://​doi.​org/​10.​1016/​j.​cell.​2011.​02.​013CrossRefPubMed
Hansen AR, Cook N, Ricci MS, Razak A, Le Tourneau C, McKeever K, Roskos L, Dixit R, Siu LL, Hinrichs MJ (2015) Choice of starting dose for biopharmaceuticals in first-in-human phase I cancer clinical trials. Oncologist 20:653–659. https://​doi.​org/​10.​1634/​theoncologist.​2015-0008CrossRefPubMedPubMedCentral
Harrel F (2015) Regression modeling strategies with applications to linear models, logistics regression and survival analysis, 3. Aufl. Springer, New YorkCrossRef
Haslam A, Hey SP, Gill J, Prasad V (2019) A systematic review of trial-level meta-analyses measuring the strength of association between surrogate end-points and overall survival in oncology. Eur J Cancer 106:196–211. https://​doi.​org/​10.​1016/​j.​ejca.​2018.​11.​012CrossRefPubMed
Hay M, Thomas DW, Craighead JL, Economides C, Rosenthal J (2014) Clinical development success rates for investigational drugs. Nat Biotechnol 32:40–51. https://​doi.​org/​10.​1038/​nbt.​2786CrossRefPubMed
Heinemann V, Stintzing S, Modest DP, Giessen-Jung C, Michl M, Mansmann UR (2015) Early tumour shrinkage (ETS) and depth of response (DpR) in the treatment of patients with metastatic colorectal cancer (mCRC). Eur J Cancer 51:1927–1936. https://​doi.​org/​10.​1016/​j.​ejca.​2015.​06.​116CrossRefPubMed
Heller G (2015) Statistical controversies in clinical research: an initial evaluation of a surrogate end point using a single randomized clinical trial and the Prentice criteria. Ann Oncol 26:2012–2016. https://​doi.​org/​10.​1093/​annonc/​mdv333CrossRefPubMedPubMedCentral
Heller G, McCormack R, Kheoh T, Molina A, Smith MR, Dreicer R, Saad F, de Wit R, Aftab DT, Hirmand M, Limon A, Fizazi K, Fleisher M, de Bono JS, Scher HI (2018) Circulating tumor cell number as a response measure of prolonged survival for metastatic castration-resistant prostate cancer: a comparison with prostate-specific antigen across five randomized phase III clinical trials. J Clin Oncol 36:572–580. https://​doi.​org/​10.​1200/​JCO.​2017.​75.​2998CrossRefPubMed
Hintze J (2011) PASS 11 – sample size. NCSS LLC, Kaysville. www.​ncss.​com
Hodi FS, Ballinger M, Lyons B, Soria JC, Nishino M, Tabernero J, Powles T, Smith D, Hoos A, McKenna C, Beyer U, Rhee I, Fine G, Winslow N, Chen DS, Wolchok JD (2018) Immune-Modified Response Evaluation Criteria In Solid Tumors (imRECIST): refining guidelines to assess the clinical benefit of cancer immunotherapy. J Clin Oncol 36:850–858. https://​doi.​org/​10.​1200/​JCO.​2017.​75.​1644CrossRefPubMed
Hoering A, LeBlanc M, Crowley J (2015) Comparison of randomized clinical trial designs for targeted agents. In: Matsui S, Buyse M, Simon R (Hrsg) Design and analysis of clinical trials for predictive medicine. CRC Press, Boca Raton, S 147–163
Hoffmann TC, Glasziou PP, Boutron I, Milne R, Perera R, Moher D, Altman DG, Barbour V, Macdonald H, Johnston M, Lamb SE, Dixon-Woods M, McCulloch P, Wyatt JC, Chan AW, Michie S (2014) Better reporting of interventions: template for intervention description and replication (TIDieR) checklist and guide. BMJ 348:g1687. https://​doi.​org/​10.​1136/​bmj.​g1687 (Deutsche Bearbeitung (2016) Gesundheitswesen 78:175–188. https://​doi.​org/​10.​1055/​s-0041-111066)
Hollebecque A, Postel-Vinay S, Verweij J, Demetri GD, Flaherty K, Bedard P, Soria JC (2013) Modifying phase I methodology to facilitate enrolment of molecularly selected patients. Eur J Cancer 49:1515–1520. https://​doi.​org/​10.​1016/​j.​ejca.​2012.​12.​012CrossRefPubMed
Hong DS, DuBois SG, Kummar S, Farago AF, Albert CM, Rohrberg KS, van Tilburg CM, Nagasubramanian R, Berlin JD, Federman N, Mascarenhas L, Geoerger B, Dowlati A, Pappo AS, Bielack S, Doz F, McDermott R, Patel JD, Schilder RJ, Tahara M, Pfister SM, Witt O, Ladanyi M, Rudzinski ER, Nanda S, Childs BH, Laetsch TW, Hyman DM, Drilon A (2020) Larotrectinib in patients with TRK fusion-positive solid tumours: a pooled analysis of three phase 1/2 clinical trials. Lancet Oncol 21:531–540. https://​doi.​org/​10.​1016/​S1470-2045(19)30856-3CrossRefPubMedPubMedCentral
Hudis CA, Barlow WE, Costantino JP, Gray RJ, Pritchard KI, Chapman JA, Sparano JA, Hunsberger S, Enos RA, Gelber RD, Zujewski JA (2007) Proposal for standardized definitions for efficacy end points in adjuvant breast cancer trials: the STEEP system. J Clin Oncol 25:2127–2132PubMedCrossRef
Hudson KL, Collins FS (2017) The 21st Century Cures Act – a view from the NIH. N Engl J Med 376:111–113. https://​doi.​org/​10.​1056/​NEJMp1615745CrossRefPubMed
Humphrey RW, Brockway-Lunardi LM, Bonk DT, Dohoney KM, Doroshow JH, Meech SJ, Ratain MJ, Topalian SL, Pardoll DM (2011) Opportunities and challenges in the development of experimental drug combinations for cancer. J Natl Cancer Inst 103:1222–1226. https://​doi.​org/​10.​1093/​jnci/​djr246CrossRefPubMed
Hunsberger S (2012) Phase II/III designs. In: Crowley JJ, Hoering A (Hrsg) Handbook of statistics in clinical oncology, 3. Aufl. CRC Press, Boca Raton, S 175–182
Hutchinson N, Vinarov E, Iasonos A, Kimmelman J (2020) Ethical and policy issues for seamless phase I oncology trials. J Clin Oncol 38:669–673. https://​doi.​org/​10.​1200/​JCO.​19.​02456CrossRefPubMed
Hwang TJ, Franklin JM, Chen CT, Lauffenburger JC, Gyawali B, Kesselheim AS, Darrow JJ (2018) Efficacy, safety, and regulatory approval of Food and Drug Administration-designated breakthrough and nonbreakthrough cancer medicines. J Clin Oncol 36:1805–1812. https://​doi.​org/​10.​1200/​JCO.​2017.​77.​1592CrossRefPubMed
Iasonos A, O’Quigley J (2016) Integrating the escalation and dose expansion studies into a unified phase I clinical trial. Contemp Clin Trials 50:124–134. https://​doi.​org/​10.​1016/​j.​cct.​2016.​06.​010CrossRefPubMedPubMedCentral
ICH-E (International Conference on Harmonisation of Technical Requirements for Registration of Pharmaceuticals for Human Use-Efficacy) Guidelines. https://​www.​ich.​org/​page/​efficacy-guidelines. Zugegriffen am 25.02.2021
ICMJE (International Committee of Medical Journal Editors) (2019) Recommendations for the Conduct, Reporting, Editing, and Publication of Scholarly Work in Medical Journals (updated December 2019). http://​www.​icmje.​org/​recommendations/​. Zugegriffen am 25.02.2021
Irle S, Schäfer H (2012) Interim design modifications in time-to-event studies. J Am Stat Assoc 107:341–348. https://​doi.​org/​10.​1080/​01621459.​2011.​644141CrossRef
Jahn-Eimermacher A, Ingel K (2009) Adaptive trial design: a general methodology for censored time to event data. Contemp Clin Trials 30:171–177. https://​doi.​org/​10.​1016/​j.​cct.​2008.​12.​002CrossRefPubMed
Jaki T, Clive S, Weir CJ (2013) Principles of dose finding studies in cancer: a comparison of trial designs. Cancer Chemother Pharmacol 71:1107–1114. https://​doi.​org/​10.​1007/​s00280-012-2059-8CrossRefPubMedPubMedCentral
Jenkins M, Stone A, Jennison C (2011) An adaptive seamless phase II/III design for oncology trials with subpopulation selection using correlated survival endpoints. Pharm Stat 10:347–356. https://​doi.​org/​10.​1002/​pst.​472CrossRefPubMed
Jennison C, Turnbull BW (2000) Group sequential methods with applications to clinical trials. CRC Press, New York
Jensen RE, Potosky AL, Reeve BB, Hahn E, Cella D, Fries J, Smith AW, Keegan TH, Wu XC, Paddock L, Moinpour CM (2015) Validation of the PROMIS physical function measures in a diverse US population-based cohort of cancer patients. Qual Life Res 24:2333–2344. https://​doi.​org/​10.​1007/​s11136-015-0992-9CrossRefPubMedPubMedCentral
Joffe S, Harrington DP, George SL, Emanuel EJ, Budzinski LA, Weeks JC (2004) Satisfaction of the uncertainty principle in cancer clinical trials: retrospective cohort analysis. BMJ 328:1463. https://​doi.​org/​10.​1136/​bmj.​38118.​685289.​55CrossRefPubMedPubMedCentral
Johnson JR, Williams G, Pazdur R (2003) End points and United States Food and Drug Administration approval of oncology drugs. J Clin Oncol 21:1404–1411PubMedCrossRef
Joly F, Vardy J, Pintilie M, Tannock IF (2007) Quality of life and/or symptom control in randomized clinical trials for patients with advanced cancer. Ann Oncol 18:1935–1942PubMedCrossRef
Jones DS, Podolsky SH (2015) The history and fate of the gold standard. Lancet 385:1502–1503. https://​doi.​org/​10.​1016/​S0140-6736(15)60742-5CrossRefPubMed
Kalbfleisch JD, Prentice RL (1980) The statistical analysis of failure data. Wiley, New York
Kang SP, Gergich K, Lubiniecki GM, de Alwis DP, Chen C, Tice MAB, Rubin EH (2017) Pembrolizumab KEYNOTE-001: an adaptive study leading to accelerated approval for two indications and a companion diagnostic. Ann Oncol 28:1388–1398. https://​doi.​org/​10.​1093/​annonc/​mdx076CrossRefPubMedPubMedCentral
Kaplan EL, Meier P (1958) Nonparametric estimation from incomplete observations. J Am Stat Assoc 53:457–481CrossRef
Kazandjian D, Blumenthal GM, Luo L, He K, Fran I, Lemery S, Pazdur R (2016) Benefit-risk summary of crizotinib for the treatment of patients with ROS1 alteration-positive, metastatic non-small cell lung cancer. Oncologist 21:974–980. https://​doi.​org/​10.​1634/​theoncologist.​2016-0101CrossRefPubMedPubMedCentral
Kepner JL, Chang MN (2004) Samples of exact k-stage group sequential designs for phase II and pilot studies. Control Clin Trials 25:326–333PubMedCrossRef
Khozin S, Blumenthal GM, Zhang L, Tang S, Brower M, Fox E, Helms W, Leong R, Song P, Pan Y, Liu Q, Zhao P, Zhao H, Lu D, Tang Z, Al Hakim A, Boyd K, Keegan P, Justice R, Pazdur R (2015) FDA approval: ceritinib for the treatment of metastatic anaplastic lymphoma kinase-positive non-small cell lung cancer. Clin Cancer Res 21:2436–2439. https://​doi.​org/​10.​1158/​1078-0432.​CCR-14-3157CrossRefPubMed
Kim C, Prasad V (2015) Cancer drugs approved on the basis of a surrogate end point and subsequent overall survival: an analysis of 5 years of US Food and Drug Administration approvals. JAMA Intern Med 175:1992–1994. https://​doi.​org/​10.​1001/​jamainternmed.​2015.​5868CrossRefPubMed
Kimmelman J (2016) Is participation in cancer phase I trials really therapeutic? J Clin Oncol 35:135–138. https://​doi.​org/​10.​1200/​JCO.​2016.​67.​9902CrossRefPubMed
Kluetz PG, Slagle A, Papadopoulos EJ, Johnson LL, Donoghue M, Kwitkowski VE, Chen WH, Sridhara R, Farrell AT, Keegan P, Kim G, Pazdur R (2016) Focusing on core patient-reported outcomes in cancer clinical trials: symptomatic adverse events, physical function, and disease-related symptoms. Clin Cancer Res 22:1553–1558. https://​doi.​org/​10.​1158/​1078-0432.​CCR-15-2035CrossRefPubMed
Kola I, Landis J (2004) Can the pharmaceutical industry reduce attrition rates? Nat Rev Drug Discov 3:711–715. https://​doi.​org/​10.​1038/​nrd1470CrossRefPubMed
Köpcke W (1984) Zwischenauswertungen und vorzeitiger Abbruch von Therapiestudien: gemischte Strategien bei gruppensequentiellen Methoden und Verfahrensvergleiche bei Lebensdauerverteilungen. Springer, BerlinCrossRef
Kopecky KJ, Green S (2012) Comparison of randomized clinical trial designs for targeted agents. In: Matsui S, Buyse M, Simon R (Hrsg) Design and analysis of clinical trials for predictive medicine. CRC Press, Boca Raton, S 229–249
Korn EL, Freidlin B, Abrams JS (2011) Overall survival as the outcome for randomized clinical trials with effective subsequent therapies. J Clin Oncol 29:2439–2442. https://​doi.​org/​10.​1200/​JCO.​2011.​34.​6056CrossRefPubMedPubMedCentral
Kummar S, Kinders R, Rubinstein L, Parchment RE, Murgo AJ, Collins J, Pickeral O, Low J, Steinberg SM, Gutierrez M, Yang S, Helman L, Wiltrout R, Tomaszewski JE, Doroshow JH (2007) Compressing drug development timelines in oncology using phase ‚0‘ trials. Nat Rev Cancer 7:131–139PubMedCrossRef
Kwak EL, Bang YJ, Camidge DR, Shaw AT, Solomon B, Maki RG, Ou SH, Dezube BJ, Jänne PA, Costa DB, Varella-Garcia M, Kim WH, Lynch TJ, Fidias P, Stubbs H, Engelman JA, Sequist LV, Tan W, Gandhi L, Mino-Kenudson M, Wei GC, Shreeve SM, Ratain MJ, Settleman J, Christensen JG, Haber DA, Wilner K, Salgia R, Shapiro GI, Clark JW, Iafrate AJ (2010) Anaplastic lymphoma kinase inhibition in non-small-cell lung cancer. N Engl J Med 363:1693–1703. https://​doi.​org/​10.​1056/​NEJMoa1006448CrossRefPubMedPubMedCentral
Lakatos E (2002) Designing complex group sequential survival trials. Stat Med 21:1969–1989PubMedCrossRef
Le Saux O, Falandry C, Gan HK, You B, Freyer G, Péron J (2016) Inclusion of elderly patients in oncology clinical trials. Ann Oncol 27:1799–1804. https://​doi.​org/​10.​1093/​annonc/​mdw259CrossRefPubMed
Le Tourneau C, Stathis A, Vidal L, Moore MJ, Siu LL (2010) Choice of starting dose for molecularly targeted agents evaluated in first-in-human phase I cancer clinical trials. J Clin Oncol 28:1401–1407. https://​doi.​org/​10.​1200/​JCO.​2009.​25.​9606CrossRefPubMed
Le Tourneau C, Paoletti X, Coquan E, Sablin MP, Zoubir M, Tannock IF (2014a) Critical evaluation of disease stabilization as a measure of activity of systemic therapy: lessons from trials with arms in which patients do not receive active treatment. J Clin Oncol 32:260–263. https://​doi.​org/​10.​1200/​JCO.​2013.​53.​5518CrossRefPubMed
Le Tourneau C, Kamal M, Alt M, Verlingue L, Servois V, Sablin MP, Servant N, Paoletti X (2014b) The spectrum of clinical trials aiming at personalizing medicine. Chin Clin Oncol 3:13. https://​doi.​org/​10.​3978/​j.​issn.​2304-3865.​2014.​05.​02CrossRefPubMed
Lee JJ, Chu CT (2012) Bayesian clinical trials in action. Stat Med 31:2955–2972. https://​doi.​org/​10.​1002/​sim.​5404CrossRefPubMedPubMedCentral
Lemery S, Keegan P, Pazdur R (2017) First FDA approval agnostic of cancer site – when a biomarker defines the indication. N Engl J Med 377:1409–1412. https://​doi.​org/​10.​1056/​NEJMp1709968CrossRefPubMed
Lewis IJ, Nooij MA, Whelan J, Sydes MR, Grimer R, Hogendoorn PC, Memon MA, Weeden S, Uscinska BM, van Glabbeke M, Kirkpatrick A, Hauben EI, Craft AW, Taminiau AH on behalf of MRC BO06 and EORTC 80931 collaborators and European Osteosarcoma Intergroup (2007) Improvement in histologic response but not survival in osteosarcoma patients treated with intensified chemotherapy: a randomized phase III trial of the European Osteosarcoma Intergroup. J Natl Cancer Inst 99:112–128PubMedCrossRef
Litière S, Collette S, de Vries EGE, Seymour L, Bogaerts J (2017) RECIST – learning from the past to build the future. Nat Rev Clin Oncol 14:187–192. https://​doi.​org/​10.​1038/​nrclinonc.​2016.​195CrossRefPubMed
Litière S, Isaac G, De Vries EGE, Bogaerts J, Chen A, Dancey J, Ford R, Gwyther S, Hoekstra O, Huang E, Lin N, Liu Y, Mandrekar S, Schwartz LH, Shankar L, Therasse P, Seymour L on behalf of the RECIST Working Group (2019) RECIST 1.1 for response evaluation apply not only to chemotherapy-treated patients but also to targeted cancer agents: a pooled database analysis. J Clin Oncol 37:1102–1110. https://​doi.​org/​10.​1200/​JCO.​18.​01100CrossRefPubMedPubMedCentral
LoRusso PM (2009) Phase 0 clinical trials: an answer to drug development stagnation? J Clin Oncol 27:2586–2588. https://​doi.​org/​10.​1200/​JCO.​2008.​21.​5798CrossRefPubMed
LoRusso PM, Canetta R, Wagner JA, Balogh EP, Nass SJ, Boerner SA, Hohneker J (2012) Accelerating cancer therapy development: the importance of combination strategies and collaboration. Summary of an Institute of Medicine workshop. Clin Cancer Res 18:6101–6109. https://​doi.​org/​10.​1158/​1078-0432.​CCR-12-2455CrossRefPubMed
Macdonald DR, Cascino TL, Schold SC Jr, Cairncross JG (1990) Response criteria for phase II studies of supratentorial malignant glioma. J Clin Oncol 8:1277–1280PubMedCrossRef
Magirr D, Jaki T, Koenig F, Posch M (2016) Sample size reassessment and hypothesis testing in adaptive survival trials. PLoS One 11:e0146465. https://​doi.​org/​10.​1371/​journal.​pone.​0146465CrossRefPubMedPubMedCentral
Maillet D, Blay JY, You B, Rachdi A, Gan HK, Péron J (2016) The reporting of adverse events in oncology phase III trials: a comparison of the current status versus the expectations of the EORTC members. Ann Oncol 27:192–198. https://​doi.​org/​10.​1093/​annonc/​mdv485CrossRefPubMed
Mandrekar SJ (2014) Dose-finding trial designs for combination therapies in oncology. J Clin Oncol 32:65–67. https://​doi.​org/​10.​1200/​JCO.​2013.​52.​9198CrossRefPubMed
Mandrekar SJ, Sargent DJ (2009) Clinical trial designs for predictive biomarker validation: theoretical considerations and practical challenges. J Clin Oncol 27:4027–4034. https://​doi.​org/​10.​1200/​JCO.​2009.​22.​3701CrossRefPubMedPubMedCentral
Manji A, Brana I, Amir E, Tomlinson G, Tannock IF, Bedard PL, Oza A, Siu LL, Razak AR (2013) Evolution of clinical trial design in early drug development: systematic review of expansion cohort use in single-agent phase I cancer trials. J Clin Oncol 31:4260–4267. https://​doi.​org/​10.​1200/​JCO.​2012.​47.​4957CrossRefPubMed
Mansinho A, Boni V, Miguel M, Calvo E (2019) New designs in early clinical drug development. Ann Oncol 30:1460–1465. https://​doi.​org/​10.​1093/​annonc/​mdz191CrossRefPubMed
Marabelle A, Le DT, Ascierto PA, Di Giacomo AM, De Jesus-Acosta A, Delord JP, Geva R, Gottfried M, Penel N, Hansen AR, Piha-Paul SA, Doi T, Gao B, Chung HC, Lopez-Martin J, Bang YJ, Frommer RS, Shah M, Ghori R, Joe AK, Pruitt SK, Diaz LA Jr (2020) Efficacy of pembrolizumab in patients with noncolorectal high microsatellite instability/mismatch repair-deficient cancer: results from the phase II KEYNOTE-158 study. J Clin Oncol 38:1–10. https://​doi.​org/​10.​1200/​JCO.​19.​02105CrossRefPubMed
Marchetti S, Schellens JHM (2007) The impact of FDA and EMEA guidelines on drug development in relation to phase 0 trials. Br J Cancer 97:577–581PubMedPubMedCentralCrossRef
Martinalbo J, Bowen D, Camarero J, Chapelin M, Démolis P, Foggi P, Jonsson B, Llinares J, Moreau A, O’Connor D, Oliveira J, Vamvakas S, Pignatti F (2016) Early market access of cancer drugs in the EU. Ann Oncol 27:96–105. https://​doi.​org/​10.​1093/​annonc/​mdv506CrossRefPubMed
Marubini E, Valsecchi MG (1994) Analysing survival data from clinical trials and observational studies. Wiley, Chichester
Mathijssen RH, Sparreboom A, Verweij J (2014) Determining the optimal dose in the development of anticancer agents. Nat Rev Clin Oncol 11:272–281. https://​doi.​org/​10.​1038/​nrclinonc.​2014.​40CrossRefPubMed
Matulonis UA, Walder L, Nøttrup TJ, Bessette P, Mahner S, Gil-Martin M, Kalbacher E, Ledermann JA, Wenham RM, Woie K, Lau S, Marmé F, Casado Herraez A, Hardy-Bessard AC, Banerjee S, Lindahl G, Benigno B, Buscema J, Travers K, Guy H, Mirza MR (2019) Niraparib maintenance treatment improves Time Without Symptoms or Toxicity (TWiST) versus routine surveillance in recurrent ovarian cancer: a TWiST analysis of the ENGOT-OV16/NOVA trial. J Clin Oncol 37:3183–3191. https://​doi.​org/​10.​1200/​JCO.​19.​00917CrossRefPubMedPubMedCentral
McShane LM, Hunsberger S, Adjei AA (2009) Effective incorporation of biomarkers into phase II trials. Clin Cancer Res 15:1898–1905. https://​doi.​org/​10.​1158/​1078-0432.​CCR-08-2033CrossRefPubMedPubMedCentral
Merck (2020) Highlights of prescribing information. https://​www.​merck.​com/​product/​usa/​pi_​circulars/​k/​keytruda/​keytruda_​pi.​pdf. Zugegriffen am 25.02.2021
Merkhofer C, Eaton KD, Martins RG, Ramsey SD, Goulart BHL (2019) Potential impact of clinical trial (CT) participation on survival of patients with metastatic non-small cell lung cancer (NSCLC). J Clin Oncol 37(Suppl 27):Abstract 137. https://​doi.​org/​10.​1200/​JCO.​2019.​37.​27_​suppl.​137. https://​meetinglibrary.​asco.​org/​record/​179033/​abstract. Zugegriffen am 25.02.2021
Meropol NJ (2007) A renewed call for equipoise. J Clin Oncol 25:3392–3394PubMedCrossRef
Methy N, Bedenne L, Conroy T, Bouché O, Chapet O, Ducreux M, Gérard JP, Bonnetain F (2010) Surrogate end points for overall survival and local control in neoadjuvant rectal cancer trials: statistical evaluation based on the FFCD 9203 trial. Ann Oncol 21:518–524. https://​doi.​org/​10.​1093/​annonc/​mdp340CrossRefPubMed
Miksad RA, Zietemann V, Gothe R, Schwarzer R, Conrads-Frank A, Schnell-Inderst P, Stollenwerk B, Siebert U (2008) Progression-free survival as a surrogate endpoint in advanced breast cancer. Int J Technol Assess Health Care 24:371–383. https://​doi.​org/​10.​1017/​S026646230808049​5CrossRefPubMedPubMedCentral
Mileham KF, Schenkel C, Chuk MK, Buchmeier A, Perez RP, Hurley P, Levit LA, Garrett-Mayer E, Davis C, Bruinooge SS, Vose J (2019) Assessing an ASCO decision aid for improving the accuracy and attribution of serious adverse event reporting from investigators to sponsors. J Oncol Pract 15:e1050–e1065. https://​doi.​org/​10.​1200/​JOP.​19.​00366CrossRefPubMed
Miller FG, Joffe S (2011) Equipoise and the dilemma of randomized clinical trials. N Engl J Med 364:476–480. https://​doi.​org/​10.​1056/​NEJMsb1011301CrossRefPubMed
Moatti M, Chevret S, Zohar S, Rosenberger WF (2016) A Bayesian hybrid adaptive randomisation design for clinical trials with survival outcomes. Methods Inf Med 55:4–13. https://​doi.​org/​10.​3414/​ME14-01-0132CrossRefPubMed
Monzon JG, Hay AE, McDonald GT, Pater JL, Meyer RM, Chen E, Chen BE, Dancey JE (2015) Correlation of single arm versus randomised phase 2 oncology trial characteristics with phase 3 outcome. Eur J Cancer 51:2501–2507. https://​doi.​org/​10.​1016/​j.​ejca.​2015.​08.​004CrossRefPubMed
Morgan B, Thomas AL, Drevs J, Hennig J, Buchert M, Jivan A, Horsfield MA, Mross K, Ball HA, Lee L, Mietlowski W, Fuxuis S, Unger C, O’Byrne K, Henry A, Cherryman GR, Laurent D, Dugan M, Marmé D, Steward WP (2003) Dynamic contrast-enhanced magnetic resonance imaging as a biomarker for the pharmacological response of PTK787/ZK 222584, an inhibitor of the vascular endothelial growth factor receptor tyrosine kinases, in patients with advanced colorectal cancer and liver metastases: results from two phase I studies. J Clin Oncol 21:3955–3964PubMedCrossRef
Motzer RJ, Hutson TE, Tomczak P, Michaelson MD, Bukowski RM, Rixe O, Oudard S, Negrier S, Szczylik C, Kim ST, Chen I, Bycott PW, Baum CM, Figlin RA (2007) Sunitinib versus interferon alfa in metastatic renal-cell carcinoma. N Engl J Med 356:115–124PubMedCrossRef
Müller HH, Schäfer H (2001) Adaptive group sequential designs for clinical trials: combining the advantages of adaptive and of classical group sequential approaches. Biometrics 57:886–891PubMedCrossRef
Mushti SL, Mulkey F, Sridhara R (2018) Evaluation of overall response rate and progression-free survival as potential surrogate endpoints for overall survival in immunotherapy trials. Clin Cancer Res 24:2268–2275. https://​doi.​org/​10.​1158/​1078-0432.​CCR-17-1902CrossRefPubMed
Newell DR, Burtles SS, Fox BW, Jodrell DI, Connors TA (1999) Evaluation of rodent-only toxicology for early clinical trials with novel cancer therapeutics. Br J Cancer 81:760–768PubMedPubMedCentralCrossRef
Newell DR, Silvester J, McDowell C, Burtles SS (2004) The Cancer Research UK experience of pre-clinical toxicology studies to support early clinical trials with novel cancer therapies. Eur J Cancer 40:899–906PubMedCrossRef
Nishino M, Giobbie-Hurder A, Gargano M, Suda M, Ramaiya NH, Hodi FS (2013) Developing a common language for tumor response to immunotherapy: immune-related response criteria using unidimensional measurements. Clin Cancer Res 19:3936–3943. https://​doi.​org/​10.​1158/​1078-0432.​CCR-13-0895CrossRefPubMedPubMedCentral
O’Brien PC, Fleming TR (1979) A multiple testing procedure for clinical trials. Biometrics 35:549–556PubMedCrossRef
Ocana A, Tannock IF (2011) When are „positive“ clinical trials in oncology truly positive? J Natl Cancer Inst 103:16–20. https://​doi.​org/​10.​1093/​jnci/​djq463CrossRefPubMed
Ocaña A, Amir E, Vera F, Eisenhauer EA, Tannock IF (2011) Addition of bevacizumab to chemotherapy for treatment of solid tumors: similar results but different conclusions. J Clin Oncol 29:254–256. https://​doi.​org/​10.​1200/​JCO.​2010.​32.​0275CrossRefPubMed
Ochoa de Olza M, Oliva M, Hierro C, Matos I, Martin-Liberal J, Garralda E (2018) Early-drug development in the era of immuno-oncology: are we ready to face the challenges? Ann Oncol 29:1727–1740. https://​doi.​org/​10.​1093/​annonc/​mdy225CrossRefPubMed
Olmos D, A’hern RP, Marsoni S, Morales R, Gomez-Roca C, Verweij J, Voest EE, Schöffski P, Ang JE, Penel N, Schellens JH, Del Conte G, Brunetto AT, Evans TR, Wilson R, Gallerani E, Plummer R, Tabernero J, Soria JC, Kaye SB (2012) Patient selection for oncology phase I trials: a multi-institutional study of prognostic factors. J Clin Oncol 30:996–1004. https://​doi.​org/​10.​1200/​JCO.​2010.​34.​5074CrossRefPubMed
O’Quigley J, Iasonos A (2012) Dose finding designs based on the continual reassessment method. In: Crowley J, Hoering A (Hrsg) Handbook of statistics in clinical oncology, 3. Aufl. CRC Press, Boca Raton, S 22–51
O’Quigley J, Pepe M, Fisher L (1990) Continual reassessment method: a practical design for phase 1 clinical trials in cancer. Biometrics 46:33–48PubMedCrossRef
Pao W, Ladanyi M (2007) Epidermal growth factor receptor mutation testing in lung cancer: searching for the ideal method. Clin Cancer Res 13:4954–4955PubMedCrossRef
Parikh RB, Prasad V (2018) Metastasis-free survival in prostate cancer: faster drug approvals, better drugs? J Clin Oncol 37:266–268. https://​doi.​org/​10.​1200/​JCO.​18.​01092CrossRefPubMed
Park JJH, Siden E, Zoratti MJ, Dron L, Harari O, Singer J, Lester RT, Thorlund K, Mills EJ (2019) Systematic review of basket trials, umbrella trials, and platform trials: a landscape analysis of master protocols. Trials 20:572. https://​doi.​org/​10.​1186/​s13063-019-3664-1CrossRefPubMedPubMedCentral
Pasalic D, McGinnis GJ, Fuller CD, Grossberg AJ, Verma V, Mainwaring W, Miller AB, Lin TA, Jethanandani A, Espinoza AF, Diefenhardt M, Das P, Subbiah V, Subbiah IM, Jagsi R, Garden AS, Fokas E, Rödel C, Thomas CR Jr, Minsky BD, Ludmir EB (2020) Progression-free survival is a suboptimal predictor for overall survival among metastatic solid tumour clinical trials. Eur J Cancer 136:176–185. https://​doi.​org/​10.​1016/​j.​ejca.​2020.​06.​015CrossRefPubMedPubMedCentral
Paz-Ares L, Douillard JY, Koralewski P, Manegold C, Smit EF, Reyes JM, Chang GC, John WJ, Peterson PM, Obasaju CK, Lahn M, Gandara DR (2006) Phase III study of gemcitabine and cisplatin with or without aprinocarsen, a protein kinase C-alpha antisense oligonucleotide, in patients with advanced-stage non-small-cell lung cancer. J Clin Oncol 24:1428–1434PubMedCrossRef
Pazdur R (2000) Response rates, survival, and chemotherapy trials. J Natl Cancer Inst 92:1552–1553PubMedCrossRef
Pazdur R (2008) Endpoints for assessing drug activity in clinical trials. Oncologist 13(Suppl 2):19–21. https://​doi.​org/​10.​1634/​theoncologist.​13-S2-19CrossRefPubMed
Pease AM, Krumholz HM, Downing NS, Aminawung JA, Shah ND, Ross JS (2017) Postapproval studies of drugs initially approved by the FDA on the basis of limited evidence: systematic review. BMJ 357:j1680. https://​doi.​org/​10.​1136/​bmj.​j1680CrossRefPubMedPubMedCentral
Péron J, Maillet D, Gan HK, Chen EX, You B (2013) Adherence to CONSORT adverse event reporting guidelines in randomized clinical trials evaluating systemic cancer therapy: a systematic review. J Clin Oncol 31:3957–3963. https://​doi.​org/​10.​1200/​JCO.​2013.​49.​3981CrossRefPubMed
Peto R, Baigent C (1998) Trials: the next 50 years. Large scale randomised evidence of moderate benefits. BMJ 317:1170–1171PubMedPubMedCentralCrossRef
Peto R, Pike MC, Armitage P, Breslow NE, Cox DR, Howard SV, Mantel N, McPherson K, Peto J, Smith PG (1976) Design and analysis of randomized clinical trials requiring prolonged observation of each patient. I. Introduction and design. Br J Cancer 34:585–612PubMedPubMedCentralCrossRef
Petrelli F, Barni S (2013) Correlation of progression-free and post-progression survival with overall survival in advanced colorectal cancer. Ann Oncol 24:186–192. https://​doi.​org/​10.​1093/​annonc/​mds289CrossRefPubMed
Phillips KA, Van Bebber S, Issa AM (2006) Diagnostics and biomarker development: priming the pipeline. Nat Rev Drug Discov 5:463–469PubMedCrossRef
Pocock SJ (1977) Group sequential methods in the design and analysis of clinical trials. Biometrika 64:191–199CrossRef
Pong A, Chow S-C (2011) Adaptive designs in pharmaceutical and clinical development. CRC Press, Boca Raton
Posch M, Klinglmueller F, König F, Miller F (2018) Estimation after blinded sample size reassessment. Stat Methods Med Res 27:1830–1846. https://​doi.​org/​10.​1177/​0962280216670424​CrossRefPubMed
Postel-Vinay S, Soria JC (2015) Phase I trials in oncology: a new era has started. Ann Oncol 26:7–9. https://​doi.​org/​10.​1093/​annonc/​mdu513CrossRefPubMed
Postel-Vinay S, Collette L, Paoletti X, Rizzo E, Massard C, Olmos D, Fowst C, Levy B, Mancini P, Lacombe D, Ivy P, Seymour L, Le Tourneau C, Siu LL, Kaye SB, Verweij J, Soria JC (2014) Towards new methods for the determination of dose limiting toxicities and the assessment of the recommended dose for further studies of molecularly targeted agents--Dose-Limiting Toxicity and Toxicity Assessment Recommendation Group for Early Trials of Targeted therapies, an European Organisation for Research and Treatment of Cancer-led study. Eur J Cancer 50:2040–2049. https://​doi.​org/​10.​1016/​j.​ejca.​2014.​04.​031CrossRefPubMed
Postel-Vinay S, Aspeslagh S, Lanoy E, Robert C, Soria JC, Marabelle A (2016) Challenges of phase 1 clinical trials evaluating immune checkpoint-targeted antibodies. Ann Oncol 27:214–224. https://​doi.​org/​10.​1093/​annonc/​mdv550CrossRefPubMed
Prasad V, Addeo A (2020) The FDA approval of pembrolizumab for patients with TMB >10 mut/Mb: was it a wise decision? No. Ann Oncol 31:1112–1114. https://​doi.​org/​10.​1016/​j.​annonc.​2020.​07.​001CrossRefPubMed
Prentice RL (1978) Linear rank tests with right censored data. Biometrika 63:291–298
Prentice RL (1989) Surrogate endpoints in clinical trials: definition and operational criteria. Stat Med 8:431–440. https://​doi.​org/​10.​1002/​sim.​4780080407CrossRefPubMed
Prowell TM, Theoret MR, Pazdur R (2016) Seamless oncology-drug development. N Engl J Med 374:2001–2003. https://​doi.​org/​10.​1056/​NEJMp1603747CrossRefPubMed
Punt CJ, Buyse M, Köhne CH, Hohenberger P, Labianca R, Schmoll HJ, Påhlman L, Sobrero A, Douillard JY (2007) Endpoints in adjuvant treatment trials: a systematic review of the literature in colon cancer and proposed definitions for future trials. J Natl Cancer Inst 99:998–1003PubMedCrossRef
Pusztai L, Szekely B, Hatzis C (2017) Is complete response the answer? Ann Oncol 28:1681–1683. https://​doi.​org/​10.​1093/​annonc/​mdx215CrossRefPubMed
Raghav KP, Mahajan S, Yao JC, Hobbs BP, Berry DA, Pentz RD, Tam A, Hong WK, Ellis LM, Abbruzzese J, Overman MJ (2015) From protocols to publications: a study in selective reporting of outcomes in randomized trials in oncology. J Clin Oncol 33:3583–3590. https://​doi.​org/​10.​1200/​JCO.​2015.​62.​4148CrossRefPubMedPubMedCentral
Ratain MJ (2005) Phase II oncology trials: let’s be positive. Clin Cancer Res 11:5661–5662PubMedCrossRef
Ratain MJ, Sargent DJ (2009) Optimising the design of phase II oncology trials: the importance of randomisation. Eur J Cancer 45:275–280. https://​doi.​org/​10.​1016/​j.​ejca.​2008.​10.​029CrossRefPubMed
Ratain MJ, Mick R, Schilsky RL, Siegler M (1993) Statistical and ethical issues in the design and conduct of phase I and II clinical trials of new anticancer agents. J Natl Cancer Inst 85:1637–1643PubMedCrossRef
Ratain MJ, Eisen T, Stadler WM, Flaherty KT, Kaye SB, Rosner GL, Gore M, Desai AA, Patnaik A, Xiong HQ, Rowinsky E, Abbruzzese JL, Xia C, Simantov R, Schwartz B, O’Dwyer PJ (2006) Phase II placebo-controlled randomized discontinuation trial of sorafenib in patients with metastatic renal cell carcinoma. J Clin Oncol 24:2505–2512PubMedCrossRef
Reeve BB, Mitchell SA, Dueck AC, Basch E, Cella D, Reilly CM, Minasian LM, Denicoff AM, O’Mara AM, Fisch MJ, Chauhan C, Aaronson NK, Coens C, Bruner DW (2014) Recommended patient-reported core set of symptoms to measure in adult cancer treatment trials. J Natl Cancer Inst 106: pii: dju129. https://​doi.​org/​10.​1093/​jnci/​dju129
Regan MM, Werner L, Rao S, Gupte-Singh K, Hodi FS, Kirkwood JM, Kluger HM, Larkin J, Postow MA, Ritchings C, Sznol M, Tarhini AA, Wolchok JD, Atkins MB, McDermott DF (2019) Treatment-free survival: a novel outcome measure of the effects of immune checkpoint inhibition–a pooled analysis of patients with advanced melanoma. J Clin Oncol 37:3350–3358. https://​doi.​org/​10.​1200/​JCO.​19.​00345CrossRefPubMedPubMedCentral
Renfro LA, Mandrekar SJ (2018) Definitions and statistical properties of master protocols for personalized medicine in oncology. J Biopharm Stat 28:217–228. https://​doi.​org/​10.​1080/​10543406.​2017.​1372778CrossRefPubMed
Renfro LA, Sargent DJ (2017) Statistical controversies in clinical research: basket trials, umbrella trials, and other master protocols: a review and examples. Ann Oncol 28:34–43. https://​doi.​org/​10.​1093/​annonc/​mdw413CrossRefPubMed
Renfro LA, An MW, Mandrekar SJ (2017) Precision oncology: a new era of cancer clinical trials. Cancer Lett 387:121–126. https://​doi.​org/​10.​1016/​j.​canlet.​2016.​03.​015CrossRefPubMed
Riviere MK, Le Tourneau C, Paoletti X, Dubois F, Zohar S (2014) Designs of drug-combination phase I trials in oncology: a systematic review of the literature. Ann Oncol 26:669–674. https://​doi.​org/​10.​1093/​annonc/​mdu516CrossRefPubMed
Roberts TG Jr, Lynch TJ Jr, Chabner BA (2003) The phase III trial in the era of targeted therapy: unraveling the „go or no go“ decision. J Clin Oncol 21:3683–3695PubMedCrossRef
Robinson AG, Booth CM, Eisenhauer EA (2014a) Disease-free survival as an end-point in the treatment of solid tumours – perspectives from clinical trials and clinical practice. Eur J Cancer 50:2298–2302. https://​doi.​org/​10.​1016/​j.​ejca.​2014.​05.​016CrossRefPubMed
Robinson AG, Booth CM, Eisenhauer EA (2014b) Progression-free survival as an end-point in solid tumours – perspectives from clinical trials and clinical practice. Eur J Cancer 50:2303–2308. https://​doi.​org/​10.​1016/​j.​ejca.​2014.​05.​024CrossRefPubMed
Roviello G, Andre F, Venturini S, Pistilli B, Curigliano G, Cristofanilli M, Rosellini P, Generali D (2017) Response rate as a potential surrogate for survival and efficacy in patients treated with novel immune checkpoint inhibitors: a meta-regression of randomised prospective studies. Eur J Cancer 86:257–265. https://​doi.​org/​10.​1016/​j.​ejca.​2017.​09.​018CrossRefPubMed
Rubinstein LV, Steinberg SM, Kummar S, Kinders R, Parchment RE, Murgo AJ, Tomaszewski JE, Doroshow JH (2010) The statistics of phase 0 trials. Stat Med 29:1072–1076. https://​doi.​org/​10.​1002/​sim.​3840CrossRefPubMedPubMedCentral
Saad ED, Buyse M (2016) Statistical controversies in clinical research: end points other than overall survival are vital for regulatory approval of anticancer agents. Ann Oncol 27:373–378. https://​doi.​org/​10.​1093/​annonc/​mdv562CrossRefPubMed
Saad ED, Katz A (2009) Progression-free survival and time to progression as primary end points in advanced breast cancer: often used, sometimes loosely defined. Ann Oncol 20:460–464. https://​doi.​org/​10.​1093/​annonc/​mdn670CrossRefPubMed
Sargent D, Allegra C (2002) Issues in clinical trial design for tumor marker studies. Semin Oncol 29:222–230PubMedCrossRef
Sargent D, Shi Q, Yothers G, Van Cutsem E, Cassidy J, Saltz L, Wolmark N, Bot B, Grothey A, Buyse M, de Gramont A for the Adjuvant Colon Cancer End-points (ACCENT) Group (2011) Two or three year disease-free survival (DFS) as a primary end-point in stage III adjuvant colon cancer trials with fluoropyrimidines with or without oxaliplatin or irinotecan: data from 12,676 patients from MOSAIC, X-ACT, PETACC-3, C-06, C-07 and C89803. Eur J Cancer 47:990–996. https://​doi.​org/​10.​1016/​j.​ejca.​2010.​12.​015CrossRefPubMedPubMedCentral
Sargent DJ, Hayes DF (2008) Assessing the measure of a new drug: is survival the only thing that matters? J Clin Oncol 26:1922–1923. https://​doi.​org/​10.​1200/​JCO.​2007.​14.​8064CrossRefPubMed
Sarker D, Workman P (2007) Pharmacodynamic biomarkers for molecular cancer therapeutics. Adv Cancer Res 96:213–268PubMedCrossRef
Scher HI, Morris MJ, Stadler WM, Higano C, Basch E, Fizazi K, Antonarakis ES, Beer TM, Carducci MA, Chi KN, Corn PG, de Bono JS, Dreicer R, George DJ, Heath EI, Hussain M, Kelly WK, Liu G, Logothetis C, Nanus D, Stein MN, Rathkopf DE, Slovin SF, Ryan CJ, Sartor O, Small EJ, Smith MR, Sternberg CN, Taplin ME, Wilding G, Nelson PS, Schwartz LH, Halabi S, Kantoff PW, Armstrong AJ (2016) Trial design and objectives for castration-resistant prostate cancer: updated recommendations from the Prostate Cancer Clinical Trials Working Group 3. J Clin Oncol 34:1402–1418. https://​doi.​org/​10.​1200/​JCO.​2015.​64.​2702CrossRefPubMedPubMedCentral
Schmitz S, Caballero C, Locati LD (2018) Perspectives on window of opportunity trials in head and neck cancer: lessons from the EORTC 90111-24111-NOCI-HNCG study. Eur J Cancer 104:219–223. https://​doi.​org/​10.​1016/​j.​ejca.​2018.​07.​315CrossRefPubMed
Schumacher M, Schulgen G (2007) Methodik klinischer Studien, 2. Aufl. Springer, Berlin/Heidelberg
Schumacher M, Holländer N, Schwarzer G, Binder H, Sauerbrei W (2012) Prognostic factor studies. In: Crowley JJ, Hoering A (Hrsg) Handbook of statistics in clinical oncology, 3. Aufl. CRC Press, Boca Raton, S 415–469
Schünemann H, Brożek J, Guyatt G, Oxman A (Hrsg) (2013) GRADE handbook. Introduction to GRADE handbook. Handbook for grading the quality of evidence and the strength of recommendations using the GRADE approach (updated October 2013). https://​gdt.​gradepro.​org/​app/​handbook/​handbook.​html. Zugegriffen am 25.02.2021
Schwaederle M, Zhao M, Lee JJ, Eggermont AM, Schilsky RL, Mendelsohn J, Lazar V, Kurzrock R (2015) Impact of precision medicine in diverse cancers: a meta-analysis of phase II clinical trials. J Clin Oncol 33:3817–3825. https://​doi.​org/​10.​1200/​JCO.​2015.​61.​5997CrossRefPubMedPubMedCentral
Schwaederle M, Zhao M, Lee JJ, Lazar V, Leyland-Jones B, Schilsky RL, Mendelsohn J, Kurzrock R (2016) Association of biomarker-based treatment strategies with response rates and progression-free survival in refractory malignant neoplasms: a meta-analysis. JAMA Oncol 2:1452–1459. https://​doi.​org/​10.​1001/​jamaoncol.​2016.​2129CrossRefPubMed
Sekine I, Tamura T, Kunitoh H, Kubota K, Shinkai T, Kamiya Y, Saijo N (1999) Progressive disease rate as a surrogate endpoint of phase II trials for non-small-cell lung cancer. Ann Oncol 10:731–733PubMedCrossRef
Senderowicz AM, Pfaff O (2014) Similarities and differences in the oncology drug approval process between FDA and European Union with emphasis on in vitro companion diagnostics. Clin Cancer Res 20:1445–1452. https://​doi.​org/​10.​1158/​1078-0432.​CCR-13-1761CrossRefPubMed
Seymour L, Ivy SP, Sargent D, Spriggs D, Baker L, Rubinstein L, Ratain MJ, Le Blanc M, Stewart D, Crowley J, Groshen S, Humphrey JS, West P, Berry D (2010) The design of phase II clinical trials testing cancer therapeutics: consensus recommendations from the Clinical Trial Design Task Force of the National Cancer Institute Investigational Drug Steering Committee. Clin Cancer Res 16:1764–1769. https://​doi.​org/​10.​1158/​1078-0432.​CCR-09-3287CrossRefPubMedPubMedCentral
Seymour L, Bogaerts J, Perrone A, Ford R, Schwartz LH, Mandrekar S, Lin NU, Litière S, Dancey J, Chen A, Hodi FS, Therasse P, Hoekstra OS, Shankar LK, Wolchok JD, Ballinger M, Caramella C, de Vries EG on behalf of the RECIST Working Group (2017) iRECIST: guidelines for response criteria for use in trials testing immunotherapeutics. Lancet Oncol 18:e143–e152. https://​doi.​org/​10.​1016/​S1470-2045(17)30074-8
Shaw AT, Kim DW, Mehra R, Tan DS, Felip E, Chow LQ, Camidge DR, Vansteenkiste J, Sharma S, De Pas T, Riely GJ, Solomon BJ, Wolf J, Thomas M, Schuler M, Liu G, Santoro A, Lau YY, Goldwasser M, Boral AL, Engelman JA (2014) Ceritinib in ALK-rearranged non-small-cell lung cancer. N Engl J Med 370:1189–1197. https://​doi.​org/​10.​1056/​NEJMoa1311107CrossRefPubMedPubMedCentral
Sidhu R, Rong A, Dahlberg S (2013) Evaluation of progression-free survival as a surrogate endpoint for survival in chemotherapy and targeted agent metastatic colorectal cancer trials. Clin Cancer Res 19:969–976. https://​doi.​org/​10.​1158/​1078-0432.​CCR-12-2502CrossRefPubMed
Siena S, Peeters M, Van Cutsem E, Humblet Y, Conte P, Bajetta E, Comandini D, Bodoky G, Van Hazel G, Salek T, Wolf M, Devercelli G, Woolley M, Amado RG (2007) Association of progression-free survival with patient-reported outcomes and survival: results from a randomised phase 3 trial of panitumumab. Br J Cancer 97:1469–1474PubMedPubMedCentralCrossRef
Simmet V, Eberst L, Marabelle A, Cassier PA (2019) Immune checkpoint inhibitor-based combinations: is dose escalation mandatory for phase I trials? Ann Oncol 30:1751–1759. https://​doi.​org/​10.​1093/​annonc/​mdz286CrossRefPubMed
Simon R (1989) Optimal two-stage designs for phase II clinical trials. Control Clin Trials 10:1–10PubMedCrossRef
Simon R, Freidlin B, Rubinstein L, Arbuck SG, Collins J, Christian MC (1997) Accelerated titration designs for phase I clinical trials in oncology. J Natl Cancer Inst 89:1138–1147PubMedCrossRef
Sloan JA (2005) Assessing the minimally clinically significant difference: scientific considerations, challenges and solutions. COPD 2:57–62PubMedCrossRef
Smoragiewicz M, Bogaerts J, Calvo E, Marabelle A, Perrone A, Seymour L, Shalabi A, Siu LL, Tabernero J, Giaccone G on behalf of the task force on Methodology for the Development of Innovative Cancer Therapies (2018) Design and conduct of early clinical studies of immunotherapy agent combinations: recommendations from the task force on Methodology for the Development of Innovative Cancer Therapies. Ann Oncol 29:2175–2182. https://​doi.​org/​10.​1093/​annonc/​mdy398CrossRefPubMed
Sobrero A, Bruzzi P (2009) Incremental advance or seismic shift? The need to raise the bar of efficacy for drug approval. J Clin Oncol 27:5868–5873. https://​doi.​org/​10.​1200/​JCO.​2009.​22.​4162CrossRefPubMed
Soria JC, Massard C, Le Chevalier T (2010) Should progression-free survival be the primary measure of efficacy for advanced NSCLC therapy? Ann Oncol 21:2324–2332. https://​doi.​org/​10.​1093/​annonc/​mdq204CrossRefPubMed
SPIRIT (Standard Protocol Items: Recommendations for Interventional Trials) SPIRIT 2013 Statement. https://​www.​spirit-statement.​org/​spirit-statement/​. Zugegriffen am 25.02.2021
Stiller CA (1989) Survival of patients with cancer. BMJ 299:1058–1059PubMedPubMedCentralCrossRef
Storer BE (1989) Design and analysis of phase I clinical trials. Biometrics 45:925–937PubMedCrossRef
Storer BE (1992) A class of phase II designs with three possible outcomes. Biometrics 48:55–60PubMedCrossRef
Storer BE (2012) Choosing a phase 1 design. In: Crowley J, Hoering A (Hrsg) Handbook of statistics in clinical oncology, 3. Aufl. CRC Press, Boca Raton, S 3–20
Subbiah V, Solit DB, Chan TA, Kurzrock R (2020) The FDA approval of pembrolizumab for adult and pediatric patients with tumor mutational burden (TMB) ≥10: a decision centered on empowering patients and their physicians. Ann Oncol 31:1115–1118. https://​doi.​org/​10.​1016/​j.​annonc.​2020.​07.​002CrossRefPubMed
Suh HY, Peck CC, Yu KS, Lee H (2016) Determination of the starting dose in the first-in-human clinical trials with monoclonal antibodies: a systematic review of papers published between 1990 and 2013. Drug Des Devel Ther 10:4005–4016. eCollection 2016PubMedPubMedCentralCrossRef
Tabernero J, Van Cutsem E, Ohtsu A, Amellal N, Cadour S, Fougeray R, Haffemayer B, Mayer RJ (2017) QTWiST analysis of the RECOURSE trial of trifluridine/tipiracil in metastatic colorectal cancer. ESMO Open 2:e000284. https://​doi.​org/​10.​1136/​esmoopen-2017-000284. eCollection 2017CrossRefPubMedPubMedCentral
Takimoto CH (2009) Phase 0 clinical trials in oncology: a paradigm shift for early drug development? Cancer Chemother Pharmacol 63:703–709. https://​doi.​org/​10.​1007/​s00280-008-0789-4CrossRefPubMed
Tam K (2013) Estimating the „First in human“ dose – a revisit with particular emphasis on oncology drugs. ADMET and DMPK 1:63–75. https://​doi.​org/​10.​5599/​admet.​1.​4.​10CrossRef
Tangen CM, Crowley JJ (2012) Designs using time-to-event endpoints/single arm versus randomized phase II designs. In: Crowley JJ, Hoering A (Hrsg) Handbook of statistics in clinical oncology, 3. Aufl. CRC Press, Boca Raton, S 139–150
Tannock IF, Osoba D, Stockler MR, Ernst DS, Neville AJ, Moore MJ, Armitage GR, Wilson JJ, Venner PM, Coppin CM, Murphy KC (1996) Chemotherapy with mitoxantrone plus prednisone or prednisone alone for symptomatic hormone-resistant prostate cancer: a Canadian randomized trial with palliative end points. J Clin Oncol 14:1756–1764PubMedCrossRef
Tannock IF, Amir E, Booth CM, Niraula S, Ocana A, Seruga B, Templeton AJ, Vera-Badillo F (2016) Relevance of randomised controlled trials in oncology. Lancet Oncol 17:e560–e567. https://​doi.​org/​10.​1016/​S1470-2045(16)30572-1CrossRefPubMed
The Protocol Review Committee, the Data Center, the Research and Treatment Division, and the New Drug Development Office – European Organization for Research and Treatment of Cancer (1997) Phase II trials in the EORTC. Eur J Cancer 33:1361–1363CrossRef
Therasse P, Arbuck SG, Eisenhauer EA, Wanders J, Kaplan RS, Rubinstein L, Verweij J, Van Glabbeke M, van Oosterom AT, Christian MC, Gwyther SG (2000) New guidelines to evaluate the response to treatment in solid tumors. European Organization for Research and Treatment of Cancer, National Cancer Institute of the United States, National Cancer Institute of Canada. J Natl Cancer Inst 92:205–216PubMedCrossRef
Tighiouart M, Rogatko A, Babb JS (2005) Flexible Bayesian methods for cancer phase I clinical trials. Dose escalation with overdose control. Stat Med 24:2183–2196. https://​doi.​org/​10.​1002/​sim.​2106CrossRefPubMed
Tighiouart M, Cook-Wiens G, Rogatko A (2018) A Bayesian adaptive design for cancer phase I trials using a flexible range of doses. J Biopharm Stat 28:562–574. https://​doi.​org/​10.​1080/​10543406.​2017.​1372774CrossRefPubMed
Tomaszewski JE (2004) Multi-species toxicology approaches for oncology drugs: the US perspective. Eur J Cancer 40:907–913PubMedCrossRef
Tsimberidou AM, Braiteh F, Stewart DJ, Kurzrock R (2009) Ultimate fate of oncology drugs approved by the US Food and Drug Administration without a randomized trial. J Clin Oncol 27:6243–6250. https://​doi.​org/​10.​1200/​JCO.​2009.​23.​6018CrossRefPubMed
Tsimberidou AM, Iskander NG, Hong DS, Wheler JJ, Falchook GS, Fu S, Piha-Paul S, Naing A, Janku F, Luthra R, Ye Y, Wen S, Berry D, Kurzrock R (2012) Personalized medicine in a phase I clinical trials program: the MD Anderson Cancer Center initiative. Clin Cancer Res 18:6373–6383. https://​doi.​org/​10.​1158/​1078-0432.​CCR-12-1627CrossRefPubMedPubMedCentral
Tsimberidou AM, Levit LA, Schilsky RL, Averbuch SD, Chen D, Kirkwood JM, McShane LM, Sharon E, Mileham KF, Postow MA (2019) Trial Reporting in Immuno-Oncology (TRIO): an American Society of Clinical Oncology-Society for Immunotherapy of Cancer Statement. J Clin Oncol 37:72–80. https://​doi.​org/​10.​1200/​JCO.​18.​00145CrossRefPubMed
Tuma R (2009) Progression-free survival remains debatable endpoint in cancer trials. J Natl Cancer Inst 101:1439–1441. https://​doi.​org/​10.​1093/​jnci/​djp399CrossRefPubMed
Unger JM, Barlow WE, Martin DP, Ramsey SD, Leblanc M, Etzioni R, Hershman DL (2014) Comparison of survival outcomes among cancer patients treated in and out of clinical trials. J Natl Cancer Inst 106:dju002. https://​doi.​org/​10.​1093/​jnci/​dju002CrossRefPubMedPubMedCentral
Van Cutsem E, van de Velde H, Karasek P, Oettle H, Vervenne WL, Szawlowski A, Schoffski P, Post S, Verslype C, Neumann H, Safran H, Humblet Y, Perez Ruixo J, Ma Y, Von Hoff D (2004) Phase III trial of gemcitabine plus tipifarnib compared with gemcitabine plus placebo in advanced pancreatic cancer. J Clin Oncol 22:1430–1438PubMedCrossRef
Van Cutsem E, Tejpar S, Vanbeckevoort D, Peeters M, Humblet Y, Gelderblom H, Vermorken JB, Viret F, Glimelius B, Gallerani E, Hendlisz A, Cats A, Moehler M, Sagaert X, Vlassak S, Schlichting M, Ciardiello F (2012) Intrapatient cetuximab dose escalation in metastatic colorectal cancer according to the grade of early skin reactions: the randomized EVEREST study. J Clin Oncol 30:2861–2868. https://​doi.​org/​10.​1200/​JCO.​2011.​40.​9243CrossRefPubMed
van den Bent MJ, Wefel JS, Schiff D, Taphoorn MJ, Jaeckle K, Junck L, Armstrong T, Choucair A, Waldman AD, Gorlia T, Chamberlain M, Baumert BG, Vogelbaum MA, Macdonald DR, Reardon DA, Wen PY, Chang SM, Jacobs AH (2011) Response assessment in neuro-oncology (a report of the RANO group): assessment of outcome in trials of diffuse low-grade gliomas. Lancet Oncol 12:583–593. https://​doi.​org/​10.​1016/​S1470-2045(11)70057-2CrossRefPubMed
Vassal G, Geoerger B, Morland B (2013) Is the European pediatric medicine regulation working for children and adolescents with cancer? Clin Cancer Res 19:1315–1325. https://​doi.​org/​10.​1158/​1078-0432.​CCR-12-2551CrossRefPubMed
Venook AP, Tabernero J (2015) Progression-free survival: helpful biomarker or clinically meaningless end point? J Clin Oncol 33:4–6. https://​doi.​org/​10.​1200/​JCO.​2014.​57.​9557CrossRefPubMed
Vera-Badillo FE, Napoleone M, Krzyzanowska MK, Alibhai SM, Chan AW, Ocana A, Seruga B, Templeton AJ, Amir E, Tannock IF (2016) Bias in reporting of randomised clinical trials in oncology. Eur J Cancer 61:29–35. https://​doi.​org/​10.​1016/​j.​ejca.​2016.​03.​066CrossRefPubMed
Wahl RL, Jacene H, Kasamon Y, Lodge MA (2009) From RECIST to PERCIST: evolving considerations for PET response criteria in solid tumors. J Nucl Med 50(Suppl 1):122S–150S. https://​doi.​org/​10.​2967/​jnumed.​108.​057307CrossRefPubMed
Walker I, Newell H (2009) Do molecularly targeted agents in oncology have reduced attrition rates? Nat Rev Drug Discov 8:15–16. https://​doi.​org/​10.​1038/​nrd2758CrossRefPubMed
Wason JM, Trippa L (2014) A comparison of Bayesian adaptive randomization and multi-stage designs for multi-arm clinical trials. Stat Med 33:2206–2221. https://​doi.​org/​10.​1002/​sim.​6086CrossRefPubMed
Wason JM, Dentamaro A, Eisen TG (2015) The power of phase II end-points for different possible mechanisms of action of an experimental treatment. Eur J Cancer 51:984–992. https://​doi.​org/​10.​1016/​j.​ejca.​2015.​03.​002CrossRefPubMedPubMedCentral
Wassmer G (2006) Planning and analyzing adaptive group sequential survival trials. Biom J 48:714–729PubMedCrossRef
Weber JS, Levit LA, Adamson PC, Bruinooge S, Burris HA 4th, Carducci MA, Dicker AP, Gönen M, Keefe SM, Postow MA, Thompson MA, Waterhouse DM, Weiner SL, Schuchter LM (2014) American Society of Clinical Oncology policy statement update: the critical role of phase I trials in cancer research and treatment. J Clin Oncol 33:278–284. https://​doi.​org/​10.​1200/​JCO.​2014.​58.​2635CrossRefPubMedPubMedCentral
Weiß C (2019) Basiswissen Medizinische Statistik, 7. Aufl. Springer, Berlin/HeidelbergCrossRef
Wen PY, Macdonald DR, Reardon DA, Cloughesy TF, Sorensen AG, Galanis E, Degroot J, Wick W, Gilbert MR, Lassman AB, Tsien C, Mikkelsen T, Wong ET, Chamberlain MC, Stupp R, Lamborn KR, Vogelbaum MA, van den Bent MJ, Chang SM (2010) Updated response assessment criteria for high-grade gliomas: response assessment in Neuro-Oncology Working Group. J Clin Oncol 28:1963–1972. https://​doi.​org/​10.​1200/​JCO.​2009.​26.​3541CrossRefPubMed
WHO (World Health Organization) (2018) International standards for clinical trial registries, Version 3.0. World Health Organization. https://​apps.​who.​int/​iris/​handle/​10665/​274994. Zugegriffen am 25.02.2021
WHO-ICTRP (World Health Organization-International Clinical Trials Registry Platform) (2015) WHO statement on public disclosure of clinical trial results. https://​www.​who.​int/​ictrp/​results/​WHO_​Statement_​results_​reporting_​clinical_​trials.​pdf. Zugegriffen am 25.02.2021
WHO-TRDS (World Health Organization-Trial Registration Data Set). WHO Trial Registration Data Set, Version 1.3.1. https://​www.​who.​int/​clinical-trials-registry-platform/​network/​who-data-set. Zugegriffen am 25.02.2021
Wilson MK, Pujade-Lauraine E, Aoki D, Mirza MR, Lorusso D, Oza AM, du Bois A, Vergote I, Reuss A, Bacon M, Friedlander M, Gallardo-Rincon D, Joly F, Chang SJ, Ferrero AM, Edmondson RJ, Wimberger P, Maenpaa J, Gaffney D, Zang R, Okamoto A, Stuart G, Ochiai K, on behalf of the participants of the Fifth Ovarian Cancer Consensus Conference (2017) Fifth Ovarian Cancer Consensus Conference of the Gynecologic Cancer InterGroup: recurrent disease. Ann Oncol 28:727–732. https://​doi.​org/​10.​1093/​annonc/​mdw663CrossRefPubMed
Wolchok JD, Hoos A, O’Day S, Weber JS, Hamid O, Lebbé C, Maio M, Binder M, Bohnsack O, Nichol G, Humphrey R, Hodi FS (2009) Guidelines for the evaluation of immune therapy activity in solid tumors: immune-related response criteria. Clin Cancer Res 15:7412–7420. https://​doi.​org/​10.​1158/​1078-0432.​CCR-09-1624CrossRefPubMed
Woodcock J, LaVange LM (2017) Master protocols to study multiple therapies, multiple diseases, or both. N Engl J Med 377:62–70. https://​doi.​org/​10.​1056/​NEJMra1510062CrossRefPubMed
Xie J, Quan H, Zhang J (2012) Blinded assessment of treatment effects for survival endpoint in an ongoing trial. Pharm Stat 11:204–213. https://​doi.​org/​10.​1002/​pst.​535CrossRefPubMed
Xie W, Regan MM, Buyse M, Halabi S, Kantoff PW, Sartor O, Soule H, Clarke NW, Collette L, Dignam JJ, Fizazi K, Paruleker WR, Sandler HM, Sydes MR, Tombal B, Williams SG, Sweeney CJ on behalf of the ICECaP Working Group (2017) Metastasis-free survival is a strong surrogate of overall survival in localized prostate cancer. J Clin Oncol 35:3097–3104. https://​doi.​org/​10.​1200/​JCO.​2017.​73.​9987CrossRefPubMedPubMedCentral
Yap TA, Rodon J (2017) Development of molecularly driven targeted combination strategies. Oncologist 22:1421–1423. https://​doi.​org/​10.​1634/​theoncologist.​2017-0402CrossRefPubMedPubMedCentral
Yap TA, Sandhu SK, Workman P, de Bono JS (2010) Envisioning the future of early anticancer drug development. Nat Rev Cancer 10:514–523. https://​doi.​org/​10.​1038/​nrc2870CrossRefPubMed
Yates LR, Seoane J, Le Tourneau C, Siu LL, Marais R, Michiels S, Soria JC, Campbell P, Normanno N, Scarpa A, Reis-Filho JS, Rodon J, Swanton C, Andre F (2018) The European Society for Medical Oncology (ESMO) precision medicine glossary. Ann Oncol 29:30–35. https://​doi.​org/​10.​1093/​annonc/​mdx707CrossRefPubMed
Yee LM, McShane LM, Freidlin B, Mooney MM, Korn EL (2019) Biostatistical and logistical considerations in the development of basket and umbrella clinical trials. Cancer J 25:254–263. https://​doi.​org/​10.​1097/​PPO.​0000000000000384​CrossRefPubMedPubMedCentral
Younes A, Hilden P, Coiffier B, Hagenbeek A, Salles G, Wilson W, Seymour JF, Kelly K, Gribben J, Pfreunschuh M, Morschhauser F, Schoder H, Zelenetz AD, Rademaker J, Advani R, Valente N, Fortpied C, Witzig TE, Sehn LH, Engert A, Fisher RI, Zinzani PL, Federico M, Hutchings M, Bollard C, Trneny M, Elsayed YA, Tobinai K, Abramson JS, Fowler N, Goy A, Smith M, Ansell S, Kuruvilla J, Dreyling M, Thieblemont C, Little RF, Aurer I, Van Oers MHJ, Takeshita K, Gopal A, Rule S, de Vos S, Kloos I, Kaminski MS, Meignan M, Schwartz LH, Leonard JP, Schuster SJ, Seshan VE (2017) International Working Group consensus response evaluation criteria in lymphoma (RECIL 2017). Ann Oncol 28:1436–1447. https://​doi.​org/​10.​1093/​annonc/​mdx097CrossRefPubMedPubMedCentral