Definition und Ziele klinischer Prüfungen
Allgemein wird als klinische Prüfung die in einem Prüfplan beschriebene wiederholte Anwendung einer diagnostischen, therapeutischen, präventiven oder nachsorgenden Maßnahme bezeichnet, die das Ziel hat, mindestens eine Prüfhypothese der Studienfragestellung zu bestätigen oder zu verwerfen.
Für an einer klinischen Prüfung teilnehmende Patienten steht das
individuelle Behandlungsziel im Vordergrund. Interessanterweise konnte gezeigt werden, dass allein die Teilnahme an klinischen Prüfungen zu besseren (Überlebens-)Ergebnissen dieser Patienten geführt hat (Davis et al.
1985; Stiller
1989; Braunholtz et al.
2001; Unger et al.
2014; Merkhofer et al.
2019).
Das Wissen in der Onkologie mit ihren tiefen, sich rasch ausweitenden Einblicken in biologische bzw. pathophysiologische Abläufe und somit zunehmenden Kenntnissen von molekular-genetischen Veränderungen (Genomik) sowie solchen auf den Gebieten der verschiedenen weiteren „OMICS“, wie Transkriptomik, Proteomik oder Metabolomik, unterliegt – bedingt durch enorme technologische Fortschritte – einer sehr kurzen Gültigkeitsdauer. Dieser Umstand hat konsequenterweise Einfluss auf die Entwicklung von neuen Therapien, insbesondere auf die von neuen Arzneimitteln gegen Malignome, genommen.
Erst nach erfolgreichem Abschluss entsprechender klinischer Untersuchungen werden neue Wirkstoffe durch positive Entscheidung der Zulassungsbehörden zur therapeutischen Anwendung zugelassen. Die Durchführung derartiger Untersuchungen unterliegt genauen gesetzlichen Regelungen, unter Umständen verbunden mit Auflagen zur Durchführung weiterer Untersuchungen nach der Zulassung. Bisher konnten die Ausdrücke klinische Prüfung und klinische Studie stellvertretend füreinander eingesetzt werden. In diesem Kapitel wird die
klinische Prüfung abgehandelt, die solche Arzneimittelstudien umfasst, auf die das in der Verordnung der Europäischen Union (EU) 536/2014 vom 16. April 2014 beschriebene Regelwerk anzuwenden ist, die jedoch auch für spezielle Vorgangsweisen Gültigkeit hat, wie z. B. Studien außerhalb zugelassener Anwendungsgebiete oder landesübliche Anwendungsweisen eines Arzneimittels (EU-Verordnung 536/2014
2014). Die
klinische Studie, auf die in diesem Kapitel nicht detailliert eingegangen wird, ist gemäß dieser EU-Verordnung ein weiter gefasstes Konzept, zu der auch die klinische Prüfung gehört. Bis zur Implementierung der EU-Verordnung 536/2014 ist die EU-Richtlinie 2001/20/EG in Kraft (EU-Richtlinie
2001) (Abschn.
13.2).
Die Entwicklung von Arzneimitteln für die Krebstherapie (nachfolgend auch
Onkologika bezeichnet) geht von verschiedenen therapeutischen Konzepten aus. Diese basieren auf der unterschiedlichen Charakterisierung der Malignität bzw. des Unterschieds zwischen entarteten (malignen) und nicht entarteten (benignen) Zellen. Unabhängig davon ist die Entwicklung von immunstimulierenden Arzneimitteln zu sehen, auf deren Wirkmechanismus getrennt eingegangen wird (Kap. „Prinzipien der medikamentösen Immuntherapie“). Am Anfang unseres molekularen Verständnisses von Malignität war diese durch gesteigerte DNA-Synthese und konsekutiv gesteigerte Aktivität von Reparaturenzymen, wie z. B. von Topoisomerasen, charakterisiert. Die logische pharmakotherapeutische Konsequenz war die Entwicklung von Wirkstoffen, die mit dem Prozess der
DNA-Synthese interferieren, den Zytostatika bzw. Zytotoxika einerseits, und solchen, die die entsprechenden
Reparaturenzyme hemmen, wie z. B. den Topoisomerase-Hemmern andererseits. Damit stand in den ersten Jahrzehnten der Entwicklung von Onkologika das Prinzip der Zytotoxizität im Vordergrund. Die neuere Sicht charakterisiert
Malignität-
als durch genetische Aberrationen bedingt,
-
mit Funktionsgewinn von Onkogenen (durch Mutation, Amplifikation oder Überexpression) oder
-
mit
Funktionsverlust von Suppressorgenen (durch Mutation,
Deletion oder epigenetische Abschaltung („silencing“))
als Verursacherprinzipien (Hanahan und Weinberg
2000,
2011). Die pharmakotherapeutische Antwort darauf war die Entwicklung von Wirkstoffen, die mit den Genprodukten bzw. mit den von diesen gesteuerten, deregulierten Signalwegen („pathways“) interferieren, d. h. von
gegen molekulare Zielstrukturen gerichteten Wirkstoffen (MTA, „molecularly targeted agents“). Heutzutage kommen beide therapeutische Vorgehensweisen, auch in Kombination, zum Einsatz. Basierend auf dem ursprünglich zytotoxischen Wirkprinzip hat sich eine phasenweise Entwicklung von Onkologika etabliert (Tab.
1).
Tab. 1
Klassische Ziele der klinischen Prüfung von neuen Wirkstoffen/Therapien
1 | Erfassung der Sicherheit und Verträglichkeit der höchsten Dosis, die für die weitere Entwicklung empfohlen wird |
2 | Erfassung der Aktivität und des Nebenwirkungsspektrums (Toxizität) für die in der Phase 1 eruierte Dosis und empfohlene Verabreichungsweise bei einer definierten Gruppe von Patienten |
3 | Nachweis der Überlegenheit/Nicht-Unterlegenheit der in der Phase 2 als entwicklungswürdig eingestuften Dosis und Verabreichungsweise im Verhältnis zum etablierten Standardvorgehen |
Präklinische Untersuchungen zur Bestimmung einer Startdosis für die klinische Prüfung eines Wirkstoffs und zur Vorhersage von Toxizitäten
Die Festlegung der Startdosis eines Wirkstoffs zur klinischen Prüfung in der Phase 1, insbesondere wenn es sich um eine Erstanwendung am Menschen („first-in-human; first-in-man“) handelt, erfolgt auf der Basis von
tiertoxikologischen Untersuchungen. Ein Zehntel der
„lethal dose10“ (LD10) bei Mäusen – jene Dosis, bei der 10 % der Mäuse versterben – hat sich als sichere Einstiegsdosis bewährt, wenn die Dosis auf der Basis von
Körperoberfläche (in mg pro m
2) angegeben ist (Freireich et al.
1966).
Newell et al. (
1999,
2004) konnten zeigen, dass mit der Toxizitätserfassung ausschließlich an Nagetieren (Mäusen, Ratten) eine sichere Einstiegsdosierung für klinische Prüfungen der Phase 1 bestimmt werden kann. Durch die Verwendung einer zweiten Tierspezies – zusätzlich zu Nagern – konnten auch seltene (7 %) Fälle verhindert werden, in denen die Startdosis über der MTD gelegen war (Tomaszewski
2004; EMA/CPMP/ICH/286/1995
2009; FDA Guidance for Industry
2005; Tam
2013).
Deshalb bestehen die Zulassungsbehörden darauf, dass Prüfsubstanzen mit neuem Wirkmechanismus jeweils sowohl in einer Nagetier- als auch in einer Nicht-Nagetierspezies getestet werden. In den ICH-S9-(International Conference on Harmonisation-Safety-)Leitlinien wurde die ursprüngliche Startdosis bei Patienten von einem Zehntel der LD
10 von Mäusen auf ein Zehntel der stark
toxischen Dosis in 10 % von Nagern (
STD10, „severely toxic dose 10“) herabgesetzt (EMA/CHMP/ICH/646107/2008
2010). Falls eine Nicht-Nagetierspezies als geeigneter zur Toxizitätserfassung eingestuft wird, wird ein Sechstel der höchsten nicht stark toxischen Dosis (
HNSTD, „highest non-severely toxic dose“) als geeignete Startdosis angesehen. HNSTD ist die höchste Dosisstufe, die nicht zu Tod, lebensbedrohenden Toxizitäten oder irreversiblen Schädigungen führt. Allerdings wird die Einschränkung angebracht, dass die gewählte Startdosis von einer üblicherweise empfindlicheren Nicht-Nagetierspezies, wie z. B. Hunden, toleriert werden muss. Während die Prädiktion von Hämatotoxizität sowie gastrointestinaler, Nephro- und Hepatotoxizität als zufriedenstellend einzustufen ist, sind Dermato-, Kardio- und Neurotoxizität ungenügend genau voraussagbar (Carter
1977).
Die Wahl der Testtierspezies erscheint für die Erfassung bestimmter Toxizitäten entscheidend. Aufgrund von sogenannten Off-Target-Effekten von Wirkstoffen, die gegen molekulare Zielstrukturen gerichtet sind, sind solche Toxizitätsprofile weniger auf pharmakologischer Basis vorhersagbar (Le Tourneau et al.
2010; Hansen et al.
2015; Suh et al.
2016). Gemäß der European Medicines (Evaluation) Agency (EM(E)A) wird im Falle der Testung an Probanden – wie dies bei MTA, nicht aber bei Zytotoxika zulässig ist – die Extrapolation von der Exposition vom höchsten „no observed adverse event level“ (
NOAEL) in der relevantesten Tierspezies für die Einschätzung äquivalenter Exposition beim Menschen herangezogen (EMA/CPMP/ICH/286/1995
2009; EMEA/CHMP/SWP/28367/07Rev.1
2017). Die Einschätzung erfolgt auf der Basis von State-of-the-Art-Modellierung (z. B.
Pharmakokinetik/
Pharmakodynamik (PK/PD); PBPK („physiologically based PK“)) und/oder auf jener von allometrischen Faktoren (Agoram
2009).
„Minimal anticipated biological effect level“ (
MABEL) wird sowohl für die Phase-1-Testung an gesunden Probanden als auch an Patienten zur Entwicklung von Biologika eingesetzt. Um MABEL beim Menschen zu bestimmen, wird zunächst die Exposition von präferenziell humanem Gewebe im Rahmen präklinisch-pharmakologischer Studien (inklusive Ex-vivo- und In-vitro-Studien) in Bezug auf PD-Effekte untersucht. Von MABEL wird auf die pharmakologisch aktive Dosis (PAD) und/oder die antizipierte therapeutische Dosis (ATD) extrapoliert (EMA/CHMP/205/95Rev. 5
2017).
Klinische Prüfung der Phase 0
Die etablierte
3-Phasen-Entwicklung von Onkologika führte in ungenügendem Ausmaß zum Erfolg. So wurden nach Kola und Landis (
2004) und Thomas et al. (
2016) lediglich 5 %, nach Hay et al. (
2014) 6,7 %, nach Walker und Newell (
2009) 18 % und nach DiMasi et al. (
2003) 26 % der Wirkstoffe, die einer klinischen Phase-1-Prüfung unterworfen wurden, schließlich als Arzneimittel zugelassen. Deshalb wurde nach Effizienzsteigerung gesucht und eine solche in sogenannten
„Exploratory IND-(Investigational New Drug)“-Studien, auch als Phase-0-Studien bezeichnet, in der frühen Entwicklungsphase gefunden (Kummar et al.
2007; Marchetti und Schellens
2007; LoRusso
2009; Takimoto
2009).
Ziel dieser Phase-0-Prüfungen ist es, zur Verbesserung des Entscheidungsprozesses über die Weiterentwicklung einer Leitsubstanz beizutragen.
Auf der Basis von ersten Bioassays mit humanem Gewebe sollen anstelle von nicht immer konsistenten Daten von Tiergewebe erste humane PK-Daten unter sogenannter Mikrodosierung erfasst werden, um PD-Daten zu generieren (Tab.
2). Insbesondere wenn es darum geht, den angenommenen Wirkmechanismus nachzuweisen bzw. zu falsifizieren, muss eine pharmakologisch relevante Dosierung eingesetzt werden, allerdings ohne dass die MTD angestrebt wird (Rubinstein et al.
2010).
Da in der Phase 0
-
einer sehr begrenzten Anzahl an Patienten oder Probanden
-
eine Prüfsubstanz in geringer Dosierung (Mikrodosen),
-
in begrenzter Häufigkeit (von einmal bis mehrmals) und
-
über einen begrenzten Zeitraum (z. B. von maximal 7 Tagen)
appliziert wird, sind weniger umfangreiche präklinische Toxizitätsstudien und weniger aufwendige Produktionsmaßnahmen erforderlich. Da dieser Vorgangsweise jedoch weder ein diagnostisches noch therapeutisches Ziel zugrunde liegt, stellt sie gleichzeitig eine besondere ethische Herausforderung dar. Dieser Umstand, die Notwendigkeit einer Ausrüstung mit hoch sensitiven bioanalytischen Geräten und erforderliche Kenntnisse in der Entwicklung von Assays für Biomarker haben die Etablierung von solchen Testeinrichtungen der Phase 0 auf wenige hoch spezialisierte Zentren beschränkt.
Klinische Prüfung der Phase 1
Primäre Zielsetzung der Phase 1 ist bei Zytotoxika die Festlegung der (höchsten) Dosis der Prüfsubstanz für die weitere Entwicklung, und zwar unabhängig von der Tumorentität.
Beurteilungsgrundlage einer solchen
Dosisfindungsstudie ist der Zusammenhang zwischen Dosis und Verabreichungsform (z. B. Bolus, Infusion, peroral) einerseits und den erwünschten und unerwünschten Wirkungen der Prüfsubstanz andererseits (Tab.
1).
Bei einem
zytotoxischen Wirkstoff sind
primäre Endpunkte der Phase 1 (Tab.
2)
-
die Bestimmung der maximal verträglichen Dosis (MTD, „maximum tolerated dose“) auf der Basis von nach Art und Schweregrad definierten dosislimitierenden Toxizitäten (DLT, „dose limiting toxicities“) sowie
-
die Empfehlung einer Dosis für die weitere Untersuchung, in der Regel in einer Phase-2-Prüfung (RP2D, „recommended phase 2 dose“).
Die Bestimmung von MTD und RP2D erfolgt unter begleitender ausführlicher Beschreibung der PK der Prüfsubstanz in der gewählten Verabreichungsform. Nachgeordnet erfolgt die Erfassung aller Nebenwirkungen bzw. der Toxizität als Teil der Berichterstattung über unerwünschte Ereignisse (AE, „adverse events“) sowie die Erfassung antitumoraler Aktivität in Form von Ansprechen.
Bei
MTA werden im Allgemeinen die aus der Entwicklung von Zytotoxika bekannten Endpunkte beibehalten, jedoch um die Komponente der
Modulation, meist
Hemmung, der
Zielstruktur ergänzt.
Primäre Endpunkte können dabei
-
die Bestimmung der maximalen Modulation der relevanten Zielstruktur oder
-
die der minimal effektiven Dosis oder, weniger präzise,
-
die einer biologisch effektiven Dosis
sein (Tab.
2). Das häufig zitierte Postulat der Bestimmung einer biologisch optimalen Dosis ist zwar prinzipiell gut untermauert, erscheint jedoch kaum zu einem so frühen Entwicklungszeitpunkt verwirklichbar (Gruber et al.
1995). Zu viele Faktoren wie Patientencharakteristika, genetische Faktoren, Lebensstil, Organfunktionen, Begleiterkrankungen, Ko-Medikationen, Körperzusammensetzung oder krankheitsbedingte Faktoren können die systemische Exposition einer Substanz und damit die Optimierung einer solchen Exposition beeinflussen (Adjei
2006; Mathijssen et al.
2014).
Grundsätzliche Voraussetzungen für klinische Prüfungen der Phase 1
Sowohl für die Entwicklung eines zytotoxischen Wirkstoffs als auch eines MTA sind aus Sicht der Methodik der Phase 1 folgende
Vorbedingungen zu erfüllen:
-
Die Festlegung einer
sicheren Startdosis, die in der Regel, so noch keine humanen Daten vorliegen, von präklinischen Daten, z. B. aus Tierexperimenten, anhand entsprechender Fragestellungen zu Wirkung und Toxizität abgeleitet wird (Abschn.
4)
-
Die prospektive Festlegung eines Designs, d. h. des Schemas für Dosissteigerungen (Dosiseskalation) zur Erstellung des Dosis-Wirkungsprofils
-
Die eindeutige Festlegung von DLT zur Bestimmung der MTD als Schwellenwert, der eine weitere Dosissteigerung verbietet
-
Die prospektive Festlegung eines Verfahrens zur Bestimmung von MTD und RP2D und damit auch einer Regel zur Beendigung der Studie
Startdosis und Dosiseskalation
Die Bestimmung einer geeigneten Startdosis ist primär vom Wunsch getragen, eine für die Anwendung sichere Dosis zu wählen (Abschn.
4), während die Eskalation möglichst wenige Patienten auf einer unwirksamen Dosisstufe belassen bzw. ermöglichen soll, Patienten möglichst rasch auf einer Dosisstufe mit antitumoraler Wirkung zu testen (Abschn.
6.3 – „Dosiseskalation“).
DLT, MTD und RP2D
Toxizitäten werden weltweit übereinkunftsgemäß nach den U.S.-NCI-NIH
Common Terminology Criteria for Adverse Events (
CTCAE; bisher Version 4.03, aktuell Version 5.0) angegeben (Kap. „Bewertung unerwünschter Ereignisse und Therapienebenwirkungen“).
Die Festlegung, welche Toxizitäten welchen Schweregrads (G, „grade“; von G1 bis G5) als DLT einzustufen sind, erfolgt im Allgemeinen prüfsubstanz- und protokollspezifisch. Häufig werden nicht- hämatologische Toxizitäten G3/G4 und hämatologische Toxizitäten G4 als DLT definiert. DLT beziehen sich üblicherweise auf den Beurteilungszeitraum der ersten Behandlungsperioden bzw. Zyklen, oft nur auf wenige Wochen bzw. nur auf den ersten Zyklus. Abhängig vom Stoffwechselweg und Toxizitätsspektrum der Prüfsubstanz sind für Untergruppen von Patienten mit bereits bestehenden Organschädigungen (z. B. Leber oder Niere) spezifische Untersuchungen erforderlich, um allenfalls im fortgeschrittenen Stadium der Phase 1 adaptierte MTD- und RP2D-Werte bestimmen zu können.
Die
Ermittlung von MTD erfolgt auf der Basis von im Voraus festgelegten DLT, d. h. festgelegten Häufigkeiten bestimmter Toxizitäten von spezifiziertem Grad im vorgesehenen Beurteilungszeitraum. Oft benutzte Standardwerte für die Schwellen der Häufigkeit und der Schwere der Toxizität sind 30 % und ≥G3. Das Verfahren zur Bestimmung von MTD ist protokollspezifisch ebenfalls im Voraus festzulegen, üblicherweise durch Angabe der niedrigsten untersuchten Dosierung der Prüfsubstanz, bei der die Häufigkeit von DLT bei/über einem festgelegten Prozentsatz liegt. Feste Algorithmen oder
statistische Testverfahren zur Bestimmung von MTD sind in dieser frühen Phase der Entwicklung eher weniger ausgeprägt.
Das gilt auch für den weiteren Endpunkt RP2D, die für Phase-2-Prüfungen empfohlene Dosis, die vereinbarungsgemäß unter der MTD liegt; üblicherweise die nächst niedrigere geprüfte Dosis. Im angelsächsischen Raum wird RP2D auch als MTD bezeichnet; die gültige Definition ist stets dem jeweiligen klinischen Prüfprotokoll zu entnehmen.
Die Analyse klinischer Prüfungen von MTA hat ergeben, dass mehr als die Hälfte der schwerwiegenden Toxizitäten (G3/G4) erst nach dem ersten Zyklus oder noch später auftreten und damit nach der üblichen DLT-Periode für Zytotoxika. Während das Beurteilungsintervall für die Dosiseskalation bei lediglich einem Zyklus belassen wurde, fließen in die Bestimmung von MTD auch die Toxizitätsbeurteilungen bzw. DLT-Erfassungen jenseits des Zyklus 1 ein, insbesondere wenn diese mit einer Reduktion der relativen Dosisintensität auf unter 75 % verbunden sind (Postel-Vinay et al.
2014).
Spezielle Voraussetzungen für klinische Prüfungen der Phase 1
Die Wahl des geeigneten
Verabreichungsschemas („schedule“) hängt von wissenschaftlichen, aber auch pragmatischen und merkantilen Überlegungen ab, wie
-
pharmazeutischen Eigenschaften, insbesondere Galenik der Prüfsubstanz,
-
vermutetem Wirkmechanismus,
-
Abhängigkeit vom zeitlichen Verabreichungsablauf („schedule dependency“) in Tierversuchen,
-
präklinischen und klinischen pharmakologischen Daten,
-
Praktikabilität für Patienten,
-
Zieltumor(en) und
-
der Strategie der Arzneimittelentwicklung,
-
der beabsichtigten Indikation, für die die Zulassung angestrebt wird, oder
-
nationalen Kostenerstattungssystemen.
Adäquate
Ein- und Ausschlusskriterien stellen eine weitere wichtige Voraussetzung für eine erfolgreiche frühe klinische Prüfung dar. Das Fehlen wirksamer Therapiealternativen in Form von Systemtherapie, Operation oder
Strahlentherapie stellt unverändert eine ethische Grundbedingung für die Teilnahme an einer „First-in-man“-Studie und an Phase-1-Prüfungen generell dar, wobei für frühe Phase-1-Prüfungen, insbesondere „First-in-man“-Studien, nach wie vor die Forderung nach normalen Organfunktionen aufrecht zu erhalten ist. Später ist das Vorwissen über mögliche oder zu erwartende
unerwünschte Arzneimittelwirkungen, z. B. aus Prüferinformationsschriften (IB, „investigator’s brochure“) zu berücksichtigen. Die Vermessbarkeit von Tumorläsionen muss jedoch nicht gegeben sein, wenn nicht auch eine Beurteilung des Ansprechens gefordert wird.
Designs der klinischen Prüfung in der Phase 1
Ein wesentlicher Baustein einer Phase-1-Prüfung ist das Design, d. h. das Schema der Dosissteigerung und die Verteilung der Studienteilnehmer auf die vorgesehenen Dosisstufen.
Im ethischen Dilemma zwischen der Gabe einer potenziell toxischen Prüfsubstanz in einer unwirksamen Dosierung und einer potenziell wirksamen Prüfsubstanz in einer zu toxischen Dosierung werden bei einem Zytotoxikum bei der Dosissteigerung ab Start im Bereich der kleinen Dosen zunächst große Dosissprünge (z. B. Verdoppelung oder das 1,5-Fache in einer multiplikativen Skala) zugelassen, die dann rasch sukzessive verringert werden, sodass bei weiteren Schritten nur noch eine konstant geringe Menge an Prüfsubstanz zur vorangegangenen Dosis addiert wird (arithmetische/lineare Skala). Grundsätzlich kann unterschieden werden zwischen
-
einem geschlossenen Dosierungsschema, bei dem einschließlich der Startdosis die vorgesehenen weiteren Dosisstufen genau festgelegt sind, und
-
einem offenen Dosierungsschema, bei dem nach festgelegter Startdosis die folgenden Dosisstufen nicht vorgegeben sind und ein bestimmter Algorithmus, der in der Regel jedoch auf ein pharmakologisch sinnvolles Raster unterschiedlicher Dosen eingeschränkt ist und die jeweils nächste Dosis bestimmt.
Eine Zwischenlösung, bei der nur einige wenige Dosen nach der Startdosis festgelegt werden und dann mit einem offenen Dosierungsschema fortgefahren wird, ist eher selten.
Die Festlegung der Anzahl der zu prüfenden Dosisstufen und der Patienten, die auf jeder Dosisstufe behandelt werden sollen, bestimmt die Gesamtzahl der erforderlichen Patienten. Im Gegensatz zur biometrischen Planung der Phase 2/3 ist das Phase-1-Design nicht von Prüfhypothesen geleitet, sondern vom Ziel, sichere Dosen für diese Folgeprüfphasen zu bestimmen.
Aus statistischer Sicht sollte unter den oben formulierten Rahmenbedingungen das Design eine ausreichend genaue statistische Schätzung für höchstmöglichen Erkenntnisgewinn zur Toxizität bei höchstmöglicher Sicherheit der Patienten liefern. Üblicherweise werden dazu je Dosisstufe 1–6 Patienten behandelt, und die Gesamtzahl der Patienten liegt dann meist zwischen 20 und 40.
Dosiseskalation
Zur Gewährleistung der Patientensicherheit wird in der Phase-1-Prüfung eines Zytotoxikums der Ablauf der Gabe der verschiedenen Dosen in einem Dosiseskalationsschema so geregelt, dass, mit der Startdosis beginnend, zunächst schrittweise aufsteigend die Dosisstufen des Schemas bis zum Auftreten von DLT geprüft und anschließend die MTD bestimmt wird. Ein Absteigen zu einer niedrigeren, im Allgemeinen beim Aufsteigen schon geprüften Dosis ist möglich bzw. kann notwendig sein und dient der Bestimmung von RP2D. Die dazu mögliche Aufstockung der Fallzahl im Bereich der MTD bzw. RP2D sollte getrennt von der Planung der Fallzahl des Dosiseskalationsschemas erfolgen. Grundsätzlich sollte die Bestimmung von MTD und RP2D zusammen mit Angaben zur geplanten minimalen und maximalen Fallzahl Teil des Prüfplans sein.
Dosiseskalationsschritte können deterministisch oder probabilistisch erfolgen. Im ersten Fall folgt man einem deterministischen Algorithmus, der jeweils nach einer kleinen Zahl von Patienten auf einer Dosisstufe regelt, ob und wie eskaliert werden kann. Der probabilistische Ansatz ist meist ein Bayes-Verfahren, bei dem für eine anstehende Dosiserhöhung auf der Basis der bis dahin gewonnenen Dosis-Toxizitäts-Information für bestimmte Dosen Toxizitätswahrscheinlichkeiten berechnet werden, auf deren Grundlage eine modellbasierte Entscheidungsregel die nächste Dosis vorschlägt.
Wegen der oft konservativen Wahl einer eher zu kleinen Startdosis bei Zytotoxika sollten Dosissteigerungen im unteren Dosisbereich bis zum ersten Auftreten von mutmaßlich prüfsubstanzbedingten AE größere Zuwächse (Sprünge) zulassen. Dieses Prinzip wurde im modifizierten Fibonacci-Schema realisiert (Goldsmith et al.
1975), bei dem zunächst die Startdosis verdoppelt wird und sich die Zuwächse danach in relativ wenigen Schritten bei 33 % der jeweils vorangehenden Dosis stabilisieren (Edler 1990) (Tab.
4).
Tab. 4
Die ersten Stufen des modifizierten Fibonacci-Dosierungsschemas* mit kumulativen Fallzahlen bei Dosissteigerung gemäß 3+3-Regel (Adaptiert nach Edler 1990)
1 | 1 × D | – | 3–6 |
2 | 2 × D | 100 | 6–12 |
3 | 3,3 × D | 67 | 9–18 |
4 | 5 × D | 50 | 12–24 |
5 | 7 × D | 40 | 15–30 |
6 | 9,3 × D | 33 | 18–36 |
7 | 12 × D | 33 | 21–42 |
8 | 16 × D | 33 | 24–48 |
9 | 21 × D | 33 | 27–54 |
10 | 28 × D | 33 | 30–60 |
Regeln der Dosiseskalation
Modifiziertes Fibonacci-Schema
Das klassische modifizierte Fibonacci-Dosierungsschema wurde bereits sehr früh mit der ebenfalls klassischen
3+3-Regel der Dosiseskalation – ein deterministischer Algorithmus, oft unpassend als
3+3-Design bezeichnet – kombiniert, wobei jeweils Kohorten von 3 Patienten parallel geprüft werden, maximal jedoch 6 Patienten auf der gleichen Dosisstufe mit der Option, bei 0/3 bzw. 1/6 DLT zur nächsten Dosis zu eskalieren und bei 2/3 bzw. 2–4/6 die Dosiseskalation zu beenden und MTD sowie RP2D zu bestimmen. Zur Abgrenzung von ähnlichen, aber nicht identischen 3+3-Regeln wurde dieses Schema auch als
„strict traditional escalation rule“ (STER) bezeichnet (Edler und Burkholder
2006).
Die 3+3-Regel wurde mit einer Tolerierung von maximal 33 % DLT bei der so bestimmten MTD in Verbindung gebracht. Offensichtlich führt die Regel zu einer Ablehnung einer Dosis bei 2/3 (66 %) bzw. bei 2–4/6 (33–66 %). Storer (
2012) weist darauf hin, dass die Regel auf eine Toxizitätsrate zwischen 17 % und 33 % abzielt; passend dazu, dass bei bis zu 33 % Toxizität die Wahrscheinlichkeit, diesen Umfang an Toxizität bei 6 Patienten zu übersehen, unter 10 % liegt. Wenn MTD und RP2D daher unterhalb der Dosis des Stopps gewählt werden, ist die zu erwartende Toxizität bei Anwendung der 3+3-Regel bei RP2D unter 33 %. Eine systematische statistische Charakterisierung des Zielintervalls der Toxizität dieser oder ähnlicher pragmatischer Regeln fehlt.
Continual-Reassessment-Methode (CRM)
Die Vermeidung von DLT in der Patientenpopulation und die gleichzeitige Behandlung von möglichst vielen Patienten mit einer potenziell wirksamen Dosis einerseits und eine möglichst genaue Schätzung der MTD, gekoppelt mit einer definierten Zieltoxizität, andererseits führten zur Entwicklung der sogenannten
CRM durch O’Quigley et al. (
1990), gefolgt von einer Vielzahl von Modifikationen (Garrett-Mayer
2006; O’Quigley und Iasonos
2012). Statistisch gesehen gehört CRM zur Klasse der Bayes-Verfahren, ist aber im Gegensatz zu den oft recht allgemeinen Bayes-Methoden auf die Phase-1-Prüfung zugeschnitten (Gatsonis und Greenhouse
1992; Lee und Chu
2012).
Das Verfahren erlaubt die konkrete Festlegung einer Zieltoxizität (z. B. 30 % oder 40 %) und die statistische Schätzung der zugehörigen MTD auf der Basis einer definierten Dosis-Toxizitäts-Kurve.
MTD kann somit statistisch genauer als mit der 3+3-Regel geschätzt werden, d. h. mit einer Familie von monoton mit der Dosis steigenden Kurven, die mit 1–2 Modellparametern beschrieben werden. Die rechnerische Bestimmung der Kurve führt direkt zur Schätzung der MTD. Die Anzahl von DLT wird kontrolliert, und mehr Patienten werden in der Nähe der geschätzten MTD behandelt.
Als Bayes-Verfahren startet CRM mit einer bestimmten Dosis-Toxizitäts-Kurve, der a-priori-Dosis-Toxizitäts-Kurve, und berechnet daraus eine a-posteriori-Kurve mittels der beobachteten Toxizitätsinformation der nacheinander rekrutierten Patienten mit ihren jeweils zugewiesenen Dosen.
CRM von O’Quigley et al. (
1990) prüft jeweils nur einen Patienten pro Dosis. Die erste Dosis kann so gewählt werden, dass sie der MTD der a-priori-Kurve entspricht. Sinnvollerweise wählt man die a-priori-Kurve so, dass diese Dosis nahe, aber unterhalb der MTD liegt. Im Gegensatz zur 3+3-Regel startet CRM mit Dosen, die 2- bis 3-mal höher als die übliche Startdosis liegen, und nutzt aus, dass das Verfahren auf- und absteigen kann. Nach Behandlung des ersten Patienten wird dessen Toxizitätsinformation mit der ersten a-priori-Dosis-Toxizitäts-Kurve kombiniert und eine neue Kurve, die a-posteriori-Dosis-Toxizitätskurve, berechnet, die dann zur a-priori-Kurve für den nächsten Patienten wird.
Bei einem offenen Dosierungsschema, in dem ab einer Startdosis ein Kontinuum von Dosierungen zulässig ist, kann dessen Dosis so gewählt werden, dass sie der MTD der a-posteriori-Kurve entspricht. Bei einem diskreten Dosisschema, wie dem Fibonacci-Schema, wird als nächste Dosis diejenige, die der geschätzten MTD am nächsten liegt, gewählt. Für alle weiteren Patienten folgt CRM diesem Schema: Aus der vorigen a-posteriori-Kurve wird die sozusagen bis dahin beste MTD berechnet und mit den Toxizitätsdaten des neuen Patienten eine neue a-posteriori-Kurve bestimmt.
CRM stoppt, wenn die MTD mit im Voraus festgelegter ausreichender Genauigkeit (z. B. Standardfehler oder Breite des
Konfidenzintervalls) geschätzt werden kann oder wenn eine im Voraus festgelegte Maximalzahl von Patienten erreicht ist. Denkbar ist auch ein Stopp, wenn CRM mehrfach die gleiche Dosis als beste MTD vorschlägt.
Als Bayes-Verfahren muss CRM nicht notwendigerweise mit diskreten Dosierungsschemata durchgeführt werden, da nach seinem Konstruktionsprinzip die Folge der MTD-Schätzungen auf einem Kontinuum liegt. Aus praktischen Gründen wird aber eine diskrete Folge möglicher Dosen bevorzugt.
Seit seiner ersten Beschreibung und Anwendung Mitte der 1990er-Jahre wurden verschiedene Varianten der CRM in einer Vielzahl an Publikationen vorgeschlagen und in Simulationsstudien miteinander verglichen (O’Quigley und Iasonos
2012; Jaki et al.
2013). Dabei wurde auch versucht, die Rolle des mathematischen Dosis-Toxizitäts-Modells für die Bestimmung der nächsten Dosis einzuschränken und eine hohe Variation zwischen aufeinanderfolgenden Dosen zu vermeiden, z. B. dadurch, dass eine nächste Dosis maximal nur die Folgedosis im Schema sein kann, die Kohortengröße von einem einzelnen Patienten auf 2–3 Patienten erhöht und die kleinste Dosis als Startdosis gefordert wurde. Diese Methodenforschung ist auch vor dem Hintergrund der Anforderungen der Präzisionsmedizin weiterhin sehr aktiv und sollte bei jeder konkreten Planung einer Phase-1-Prüfung durch eine ausreichende Literatursuche berücksichtigt werden. Dazu gehören auch Bayes-Verfahren, die das Prinzip der Design-Anpassung („Bayesian adaptive designs“) für die Phase 1 nutzen (Tighiouart et al.
2018; Giovagnoli
2021).
Eine weitergehende Modifikation der CRM ist das
„Escalation with overdose control“-Design von Babb et al. (
1998) und Tighiouart et al. (
2005), bei dem die MTD als zufälliger Endpunkt mit einer statistischen Verteilung modelliert wird. Die Dosis jedes Patienten wird so bestimmt, dass die a-posteriori-Wahrscheinlichkeit, die MTD zu übersteigen, gleich einem festen Wert von z. B. 25 % gesetzt wird. Die endgültige Schätzung der MTD erfolgt mit einer Bayes-Entscheidungsregel.
Obgleich alle bisher beschriebenen Designs statistisch unabhängig davon sind, wie groß der Beobachtungszeitraum für die Bestimmung der DLT ist, werden sie bei Zytotoxika im Allgemeinen nur so eingesetzt, dass sich das Auftreten relevanter Toxizität auf wenige Wochen oder üblicherweise auf Zyklus 1 beschränkt, da sich andernfalls eine Phase-1-Prüfung zu lange hinziehen und sich der Entwicklungsprozess einer Prüfsubstanz teuer verlängern würde. Für den Fall einer längeren Beobachtungsdauer wurde CRM zur
„Time to event“-CRM erweitert, die Patienten, die bis zum Ende der Beobachtungsperiode ohne DLT waren, nicht voll, sondern nur mit einer reduzierten Gewichtung berücksichtigt (Braun
2006).
Design von Studien zur Entwicklung von gegen molekulare Zielstrukturen gerichteten Wirkstoffen (MTA)
Fallzahlen zur Bestimmung von MTD und RP2D können, wie oben beschrieben, bei Phase-1-Prüfungen zur Entwicklung von MTA nur hilfsweise eingesetzt werden, wenn ein relevanter Parameter für unerwünschte Wirkungen definiert werden kann. Auf ausreichend validierte biometrische Designs für die Phase-1-Prüfung von Modulation oder Hemmung der relevanten Zielstruktur und die Bestimmung einer minimal effektiven oder gar optimalen biologischen Dosis kann derzeit noch nicht verwiesen werden. Im Gegensatz zur Bestimmung von MTD ist bei den für die Prüfung von MTA gewählten Endpunkten eine gerichtete Dosiseskalation, ausgehend von einer konservativ bestimmten kleinen Startdosis, nicht unbedingt erforderlich, zumindest wenn die „First-in-man“-Prüfung, die üblicherweise wie bei der von Zytotoxika abläuft, positiv abgeschlossen ist und eine klinisch relevante Gefährdung durch die Prüfsubstanz ausgeräumt ist.
Erste Wahl wäre ein geschlossenes Dosierungsschema d1<d2< … <dK, das im erwarteten, therapeutisch angestrebten Bereich liegt. In diesem Fall könnten „Random walk“-Designs eingesetzt werden, die von einer Startdosis, z. B. von der Mitte des Dosierungsschemas ausgehend, nach einer Regel z. B. mit Patientenkohorten der Größe 2–3 auf- oder absteigen. Falls größere Patientenpopulationen von 30–100 vorgesehen sind, können biometrische Methoden für Dosisfindungsstudien eingesetzt werden, wie sie z. B. für die Prüfung von nicht-onkologischen Wirkstoffen entwickelt wurden, die aber dann als randomisierte Studien zum Vergleich der gewählten Dosierungen zu planen wären, wobei meist nicht mehr als 5 Dosisgruppen betrachtet werden.
Als interessante Variante sei der rezente erneute Einsatz der früher geübten Methode der PK-geleiteten Dosiseskalation angeführt, die aus verschiedenen inherenten Gründen, d. h. teils substanzbedingt, teils methodenbedingt, keine Aufnahme in die Routinevorgehensweise der Entwicklung neuer Onkologika erfuhr (Collins et al.
1990). Der aktuelle Einsatz einer „Real-time“-PK-geleiteten intraindividuellen Dosiseskalation erfolgte bei Patienten mit Resistenzmutationen gegenüber Tyrosinkinaseinhibitor-(TKI-)Vortherapie, und zwar bis zum Erreichen einer für die Tyrosinkinase-Absättigung erforderlichen Konzentration, sodass ein erneutes Ansprechen auf den gegen dieselbe Zielstruktur entwickelten Wirkstoff erreicht werden konnte (Drilon et al.
2017).
Expansionskohorten
Um eine Absicherung der auf sehr wenigen Daten basierenden RP2D zu gewährleisten, wurden in den letzten Jahren sogenannte Expansionskohorten eingeführt. Mit den Daten dieser Kohorten kann die Bestimmung von RP2D/MTD verbessert werden (Iasonos und O’Quigley
2016).
Bereits im Rahmen der 3+3-Regel gab es Überlegungen, die Fallzahl der Kohorte auf der MTD-Stufe oder der geplanten RP2D-Stufe nach Bestimmung derselben über die üblichen 6 Patienten zu erhöhen, um genauere Informationen zur erwarteten Toxizität in den Folgestudien der Phase 2/3 zu erhalten. Dazu wurde meist ohne weitere statistische Überlegungen die Fallzahl von 3–6 um wenige Patienten erhöht (EORTC New Drug Development Committee
1985). Auf der Basis von Wahrscheinlichkeiten für akzeptable und unakzeptable Toxizität können Fallzahlen im Bereich von 6–12 begründet werden (Edler
1990), aber der Informationsgewinn ist selbst bei einer Verdoppelung von 6 auf 12 Patienten gering: Das 95 %-Konfidenzintervall einer Toxizität von 33 % geht dabei von 4–78 % lediglich auf 10–65 % zurück.
Ursprünglich wurde die Fallzahl weit unter der von Phase-2-Prüfungen gehalten, und es sollten lediglich mehr Sicherheitsdaten generiert werden. Mittlerweile wurde insbesondere bei MTA die Fallzahl derart erweitert, dass nicht mehr nur Sicherheitsdaten, sondern auch Aktivitätsdaten in so großem Umfang in einzelnen Studien generiert wurden, dass dieselben sogar zu vorläufiger Zulassung herangezogen werden konnten (Kwak et al.
2010; Manji et al.
2013; Shaw et al.
2014).
Besonders krass zeigte sich diese Vorgangsweise bei der Entwicklung neuer Immuntherapeutika in Form von
Checkpoint-Inhibitoren, wie z. B. mit 1137 Patienten für Pembrolizumab (Postel-Vinay und Soria
2015). In jüngerer Zeit beobachtete hohe Fallzahlen der Expansionskohorten zur weiteren Abklärung von Sicherheit und Wirksamkeit der Prüfsubstanz bedürfen deswegen einer auf die jeweilige Fragestellung bezogenen biometrischen Fallzahlberechnung.
Immuntherapeutika in der klinischen Prüfung der Phase 1
Die Besonderheiten der Phase-1-Testung von immunstimulierenden monoklonalen
Antikörpern vom Typus antizytotoxischer T-Lymphozyten-Antigen-4-(CTLA-4-)Antikörper oder „Anti-programmed death-1“-(PD-1-)Rezeptor/Ligand-(PD-L1-)Antikörper wurden in einem Review von Postel-Vinay et al. (
2016) zusammengefasst. Diese bestehen in folgenden Erfahrungen/Erkenntnissen:
-
Es ist überwiegend keine MTD bestimmbar.
-
RP2D basiert üblicherweise auf maximal angewandter Dosis (MAD).
-
G3/G4-Toxizitäten sind selten, ebenso kumulative Toxizität.
-
Das Auftreten von irAE ist auch nach Zyklus 1 möglich.
-
irAE>G2 sollte als DLT eingestuft werden.
-
Es besteht keine klare Dosis-Toxizitäts-Wirkungsbeziehung.
-
Die optimale Form der Applikation ist bisher ungeklärt: kontinuierlich (unlimitiert?) versus diskontinuierlich.
-
Die Integration umfassender Expansionskohorten direkt im Anschluss an die Phase 1 mit mehreren Dosierungen und Tumorarten parallel hat sich bewährt; speziell dieser Ansatz wird mittlerweile in sogenannten agnostischen, d. h. histologieunabhängigen, Studien mit Immuncheckpoint-Inhibitoren umgesetzt.
-
Es wird die Forderung nach einer Begründung von Größe sowie primärem Studienziel der Expansionskohorte der Phase-1-Population erhoben.
-
Such muss die Forderung nach Regeln für die Studienbeendigung, falls die Expansionskohorte für den Aktivitätsnachweis eingesetzt wird, erhoben werden.
-
Es sind lediglich dynamische Biomarker im Gewebe ohne klinische
Validierung verfügbar (Konklusivität eingeschränkt).
-
Die bisher eingesetzten blutbasierten Biomarker sind ohne Prädiktivität in Bezug auf antitumorale Aktivität.
-
Es sind weniger eng gefasste Einschlusskriterien als für Zytotoxika üblich und zumindest für die Expansionskohorten gerechtfertigt; somit sind solche Ergebnisse für die sogenannte reale Welt repräsentativer.
Fehlende
Validierung als Biomarker in Geweben gilt auch für die Bestimmung der
Tumormutationslast (TMB, „tumor mutation burden“), zu der sehr unterschiedliche Beurteilungen vorliegen (Chan et al.
2019; Prasad und Addeo
2020; Subbiah et al.
2020).
Weiterführende allgemeine kritische Überlegungen zur noch in einem frühen Entwicklungsstadium befindlichen Immunonkologie werden in einem Review von Ochoa de Olza et al. (
2018) angestellt.
Als Musterbeispiel für diese Art von Entwicklung kann die des PD-1-Immuncheckpoint-Inhibitors Pembrolizumab angeführt werden. Die sogenannte nahtlose („seamless“) Entwicklung von Wirkstoffen beginnt in der Phase 1 mit der klinischen Erstanwendung einer neuen Prüfsubstanz und wird unmittelbar um die Testung in verschiedenen Dosisstufen und unterschiedlichen Tumorentitäten erweitert bzw. im positiven Fall auf der Basis der daraus gewonnenen Ergebnisse einem beschleunigten Beurteilungsprozess für eine vorläufige Arzneimittelzulassung zugeführt (Prowell et al.
2016; Blumenthal et al.
2017; Lemery et al.
2017).
Wegen des Umfangs positiver Auswirkungen von modernen Immuntherapien auf das (progressionsfreie) Langzeitüberleben, wie ein solches unter Chemotherapie oder Therapie mit MTA bisher kaum beschrieben wurde, hat sich die Analyse des (progressionsfreien) Überlebens in Form von Landmark-Analysen bewährt (Ascierto und Long
2016). Diese gibt die entsprechenden Prozentsätze nach 1, 2 oder 3 Jahren an, ein Einblick, der der üblichen Präsentation in Form von medianem (progressionsfreiem) Überleben entgeht. Auch wird für die spezifische Beurteilung des Behandlungseffekts von Immuntherapien das sogenannte
behandlungsfreie Überleben (TFS, „treatment free survival“) als möglicher neuer Endpunkt diskutiert (Regan et al.
2019). Die nahtlose Wirkstoffentwicklung, beginnend mit der Phase 1, birgt zahlreiche immanente Probleme, die noch nicht einheitlich gelöst sind (Hutchinson et al.
2020).
Bezüglich der
besonderen Anforderungen für die Durchführung von klinischen
Phase-1-Prüfungen von Kombinationen verschiedener Wirkstoffe bzw. Wirkstoffklassen sei lediglich auf weiterführende Literatur verwiesen (Hamberg et al.
2010; Humphrey et al.
2011; LoRusso et al.
2012; Mandrekar
2014; Riviere et al.
2014; Yap und Rodon
2017; Simmet et al.
2019).
Position der Phase-1-Prüfung in der Onkologie: Experiment oder auch Therapie?
Prinzipiell stellt sich die Frage nach der Erwartung bzw. Nutzen-Risiko-Bewertung für die Teilnahme an klinischen Prüfungen der Phase 1. Insgesamt sind Phase-1-Prüfungen als äußerst sicher einzustufen, wahrscheinlich als ebenso sicher wie Behandlungen außerhalb von Studien in vergleichbarer Situation (Weber et al.
2014). Es ist klinischen Phase-1-Prüfungen immanent, die primär die Bedingungen, unter denen ein Wirkstoff in positivem Fall zur weiteren Entwicklung und Anwendung kommen wird, erst klären sollen, dass diese nicht schon eine optimale Behandlung darstellen dürften; zumindest nicht für die Gesamtheit der Studienpopulation. Hingegen ist es bei der Entwicklung von MTA sogar zu extrem hohen Ansprechraten bereits in der Phase 1 gekommen, wie das Beispiel von Imatinib mit 70 % Ansprechen bei einer ansonsten refraktären Patientenpopulation zeigt (Druker et al.
2001). Bei der klinischen Phase-1-Prüfung von TKI und Immuncheckpoint-inhibierenden monoklonalen
Antikörpern wurden eindrucksvolle Ansprechraten dokumentiert. Somit ist eine klinische Phase-1-Prüfung sowohl Experiment als auch therapeutisches Angebot, ohne damit notwendigerweise einen Widerspruch darzustellen (Kimmelman
2016).
Um allfällige durch eine Prüfsubstanz verursachte Effekte besser einschätzen zu können, haben sich mehrere Arbeitsgruppen bemüht,
prognostische Faktoren für eine geeignete Patientenselektion in Phase-1-Prüfungen zu identifizieren. Der sogenannte
Royal Marsden Score erkannte
-
erniedrigten Serumalbumin-Gehalt (<35 g/l),
-
mehr als 2 metastatische Organlokalisationen und
-
eine Erhöhung des LDH-Werts über den Normalwert
als
negative prognostische Faktoren (Arkenau et al.
2008). Die Verwendung dieses und ähnlicher Scores erwies sich einerseits als hilfreich, die nicht durch die Prüfsubstanz bedingte 90-Tage Mortalität um die Hälfte zu reduzieren (Olmos et al.
2012). Andererseits gibt es genügend Daten, um manche der Einschränkungen in den Ein- und Ausschlusskriterien von Patienten mit Organeinschränkungen zurückzunehmen. Dies sollte für Patienten mit geringgradigen Organfunktionsstörungen zu einer verbesserten Zugänglichkeit insbesondere zu MTA führen und auch die Durchführung von Studien mit teilweise seltenen molekularen Aberrationen nicht unnötig verzögern (Hollebecque et al.
2013).
Klinische Prüfung der Phase 2
Zusammen mit der Phase 1 bildet die Phase-2-Prüfung den exploratorischen Teil der Arzneimittelentwicklung, dem erst der konfirmatorische in Form der Phase 3 und später das Postmarketing-Segment der Phase 4 folgt.
Die Hauptentscheidung über eine Weiterentwicklung einer Prüfsubstanz erfolgt üblicherweise in der Phase 2 (Seymour et al.
2010). Im Unterschied zur Entwicklung von Arzneimitteln für andere Erkrankungsfelder steht im Bereich der Onkologie am Ende der Phase 2 die Frage bzw. Entscheidung über Fortsetzung oder Einstellung an.
Die Phase 2 ist die passende Entwicklungsphase, um die Subpopulation an Patienten mit der größten Erfolgsaussicht für die noch experimentelle Prüfsubstanz zu identifizieren, da die antitumorale Aktivität am besten an einer möglichst einheitlichen Population erfasst werden kann (Tab.
1).
Bei der
antitumoralen Aktivität handelt es sich um eine biologische Größe, die nicht mit klinischem Benefit für Patienten gleichgesetzt werden darf. Eine allein messtechnisch erfasste Tumorrückbildung ist nur selten mit Endpunkten von Benefit für Patienten wie OS oder QoL korreliert. In diesem Zusammenhang ist auch die vielfach angewandte sogenannte
Rate an klinischem Benefit, CR plus PR plus SD, kritisch zu hinterfragen, es sei denn, es wird eine klinisch relevante Dauer der SD von z. B. mindestens 6 Monaten verlangt. Die Zweifelhaftigkeit von SD als Endpunkt liegt darin begründet, dass die Tumorverdoppelungszeit in soliden Tumoren häufig 2–3 Monate ausmacht und Tumoren, die langsam wachsen, die formalen Kriterien von SD auch ohne therapeutischen Effekt erfüllen (Le Tourneau et al.
2014a). Zur Erfassung der Wirksamkeit einer Prüfsubstanz bei SD eignet sich z. B. das randomisierte Diskontinuitätsdesign (Ratain et al.
2006).
Im Wechselspiel mit der ebenso wichtigen Erfassung der Toxizität (Nebenwirkungen) an der gewählten Patientenpopulation erfolgt im Rahmen der Phase-2-Prüfung die Optimierung der Dosis und des Verabreichungsschemas („schedule“).
Neben den
Endpunkten antitumorale Aktivität/Tumorrückbildung und
Toxizität kommen auch zahlreiche weitere Endpunkte zum Einsatz, wobei diese Charakterisierung nur dann gerechtfertigt ist, wenn die gewählte
Messgröße für den jeweiligen Zweck validiert wurde (Tab.
2). So gibt es zwar zahlreiche Hinweise, dass manche Toxizitäten, wie z. B. Blutdruckanstieg bei antiangiogenen Substanzen oder Intensität der Hauteffloreszenzen bei der Anwendung von gegen epidermalen Wachstumsfaktor-Rezeptor (EGFR, „epidermal growth factor receptor“) gerichteten monoklonalen
Antikörpern, mit stärkerer Wirksamkeit der jeweiligen Prüfsubstanzen verknüpft sein dürfte, doch wurde dieser Zusammenhang zwischen Ausmaß an Toxizität und klinischem Endpunkt (z. B. OS) für keine der Substanzgruppen und Toxizitäten validiert (Eisenhauer
1998; Motzer et al.
2007; Dienstmann et al.
2011; Van Cutsem et al.
2012; Abola et al.
2014).
Um die vielfältigen Endpunkte zu erreichen, decken Phase-2-Prüfungen eine große Bandbreite ab und können in
frühe und
späte unterteilt werden bzw. in solche, die die Aktivität und folglich die auf Ansprechen basierten Endpunkte einerseits und andererseits die Machbarkeit einer Therapie, PFS und PRO („patient-reported outcomes“) in den Vordergrund rücken; dabei weisen die frühen mehr Screening-Charakter auf, während die späten der Entscheidungsfindung dienen, ob die Entwicklung fortgeführt werden soll (Dittrich
2008; Seymour et al.
2010) (Tab.
5).
Tab. 5
Unterteilung und Charakterisierung von klinischen Prüfungen der Phase 2. (Adaptiert nach Dittrich
2008)
Allgemein | Erfassung der antitumoralen Aktivität | Erfassung des therapeutischen Effekts |
- Zielstruktur (Target) – Modulation | - Klinische Wirksamkeit |
- Substanzorientiert | - Erkrankungsorientiert |
- Monotherapiestudien | - Machbarkeitsstudien |
| - Selektionierte Erkrankungssituationen |
Einschlusskriterien | Einschluss: allgemein | Einschluss: spezifiziert |
- Keine Strata | - Strata |
- Vorbehandlung eingeschränkt | - Vorbehandlung enger definiert |
- Keine Organfunktionsstörungen akzeptiert | - Definierte Organfunktionsstörungen akzeptiert |
Dosis/Verabreichungsschema | Dosis aus Phase-1-Studie übernommen | Dosismodifikation möglich |
Verabreichungsschema definiert | Dosisvergleiche zur Optimierung |
| Supportivmaßnahmen (Optimierung) |
Erfassung der Toxizität | Akut Kumulativ | Bei bestimmten Organfunktionseinschränkungen für Kombinationstherapien |
Erfassung der Pharmakokinetik | | Populationspharmakokinetik |
Erfassung der Pharmakodynamik | Pharmakokinetik-Pharmakodynamik Interaktionen im Detail | Pharmakokinetik-Pharmakodynamik Interaktionen optional |
Biostatistik | Einarmiges Design Explorativer Charakter | Randomisiertes, mehrarmiges Design mit konfirmatorischen Elementen |
Minimierung der Patientenanzahl | Größere Patientenanzahl |
Aussage ungenau/orientierend | Aussage genauer/robuster |
Entdeckung von Wirkung(en) der Prüfsubstanz Kontrolle einer falsch negativen Folgerung/Aussage Minimierung des Fehlers 2. Art („beta-Fehler“) bzw. Maximierung der „power“ | Entdeckung einer wirksamen Prüfsubstanz Kontrolle einer falsch positiven Folgerung/Aussage |
Die Erfassung der Machbarkeit bezieht sich auch auf die von Kombinationen mit anderen Wirkstoffen, Therapien und Therapiemodalitäten (The Protocol Review Committee, the Data Center, the Research and Treatment Division, and the New Drug Development Office – European Organization for Research and Treatment of Cancer
1997). Die Wahl des Endpunkts hängt auch vom Wirkmechanismus der Prüfsubstanz ab (Wason et al.
2015). Zytotoxika führen zur Tumorschrumpfung und können daher auch in einarmigen Studien mit ORR als Endpunkt adäquat getestet werden. Dagegen lassen MTA in der Regel keine Tumorrückbildung erwarten und sollten sich daher über die PD-Rate charakterisieren lassen, da diese besser als ORR mit dem medianen OS korreliert ist (Eisenhauer
1998; Sekine et al.
1999). Außerdem hat die PD-Rate auch den methodischen Vorteil, dass ihre Bestimmung ohnehin mit der beobachteten TTP und somit mit der Ereigniszeit PFS verbunden ist. Infolgedessen hat sich in der Praxis die Bestimmung von PFS in randomisierten Phase-2-Prüfungen durchgesetzt (Seymour et al.
2010). OS-Dauer ist wegen der potenziellen Beeinflussung des Ergebnisses durch spätere Therapien sowie dem oftmals späten Eintreten kein effizienter Endpunkt für die Phase 2. Es besteht Einigkeit, dass die Kombination von Wirkstoffen in einem mehrarmigen randomisierten Design zu testen ist, um ausreichende Rückschlüsse zu erlauben.
Designs der klinischen Prüfung in der Phase 2
Nicht nur der richtige Endpunkt, sondern auch das Design muss zur Natur der Prüfsubstanz passen (Chabner
2007). Die Wahl des Designs steht ihrerseits unter vielen
Einflussgrößen wie
-
Studienziel,
-
Endpunkt und
-
Machbarkeit.
Historisch begann die Phase-2-Testung von Zytotoxika als folgerichtiger zweiter Schritt nach Bestimmung von DLT, MTD und RP2D in der Phase 1 mit einarmigen Designs. Wenn Tumorregression erwartbar ist und, um Tumorrückbildung als erstes Zeichen der biologischen Aktivität einer Prüfsubstanz zu demonstrieren, ist dies nach wie vor indiziert, und
ORR ist dann primärer Endpunkt einer frühen Phase 2. Doch auch
MTA können
in einarmigen Studien getestet werden,
-
wenn das bei einer Tumorentität erfolgt, für die es geeignete Information aus historischen Kontrollen gibt, und
-
wenn es primär darum geht, den Effekt auf die Zielstruktur nachzuweisen, oder
-
bei fortgeschrittener Erkrankungssituation, für die es keine Standardbehandlung gibt, und
-
bei Wirkstoffen, von denen Ansprechen erwartet werden kann (Booth et al.
2008).
Einarmige Studiendesigns
Als Zwischenschritt zwischen Phase 1 und Phase 3 der Entwicklung einer Prüfsubstanz sollte die Wahl eines statistischen Designs der Phase 2 grundsätzlich, soweit klinisch vertretbar, einfach gehalten werden.
Für eine effiziente Phase-2-Prüfung ist deswegen eine einarmige Studie mit ORR als primärem dichotomem Endpunkt das Design erster Wahl. Die ORR wird bevorzugt innerhalb weniger Wochen bzw. nach 2–3 Zyklen beurteilt.
Statistische Grundlage sind 2 einfache Hypothesen:
-
Bezeichnet p den Endpunkt ORR, so entspricht die Nullhypothese H0: p = p0 dem bisherigen Stand der Behandlungsoptionen (Standardbehandlung), der mit der Prüfsubstanz klinisch relevant verbessert werden soll.
-
Die Alternativhypothese H1: p = p1 spezifiziert diese Verbesserung, und die Rate p1 wird als erreichbares Ziel der Prüfsubstanz und ihrer Wirksamkeit definiert.
Die Beibehaltung der Nullhypothese ist damit gleichbedeutend mit Unwirksamkeit und die Annahme der Alternative signalisiert Wirksamkeit. Die Differenz p
1 – p
0 ist somit der klinische Nutzen in Form von Ansprechen, und die Änderung im ORR sollte so groß sein, dass eine Weiterentwicklung in der Phase 3 angezeigt ist, falls die Studie erfolgreich beendet und die Alternativhypothese H
1 angenommen wird. Die Formulierung des Designs als statistisches Testproblem mit den beiden Optionen, sich für Unwirksamkeit oder Wirksamkeit entscheiden zu können, führt statistisch konsequent zur Quantifizierung der Wahrscheinlichkeiten von Fehlentscheidungen:
-
der
Wahrscheinlichkeit α, fälschlicherweise eine unwirksame Prüfsubstanz anzunehmen (
Fehler 1. Art bzw. Ablehnung von H
0, wenn H
0 richtig ist) und
-
der
Wahrscheinlichkeit β, fälschlicherweise eine wirksame Substanz abzulehnen (
Fehler 2. Art bzw. Annahme von H
0, wenn H
1 richtig ist).
Zusätzlich zu den beiden Eckpunkten p0 und p1 des Ansprechens sind auch diese beiden Fehlerwahrscheinlichkeiten α und β festzulegen, sodass zu den gegebenen Designparametern (p0, p1, α, β) die erforderliche Fallzahl statistisch berechnet werden kann.
Die Dichotomie des Endpunkts ORR erfordert für die statistische Auswertung für jeden aufgenommenen Patienten eine eindeutige Unterscheidung zwischen Ansprechen (Responder) und Nicht-Ansprechen (Non-Responder).
Sind unter n beurteilbaren Studienteilnehmern Responder r, wird die Ansprechrate der Prüfsubstanz p als Quotient r/n geschätzt.
Methoden für Binomialtests können für das formale statistische Testen und zur Berechnung von
Konfidenzintervallen der Ansprechrate angewendet werden (Weiß
2019).
Für die
Berechnung von Fallzahlen für die Phase 2 muss diese allgemeine Methodik der Binomialtests und der beiden einfachen Hypothesen H
0 und H
1 an die Gegebenheiten der Prüfung angepasst werden. 2 Gründe sind entscheidend:
-
Eine direkte Fallzahlberechnung auf der Grundlage von Binomialtests berücksichtigt nicht die praktischen Einschränkungen der Patientenrekrutierung in der frühen Phase der Arzneimittelentwicklung, bei der für die Phase 2 bei bestimmten Indikationen oft nicht mehr als 50 Studienteilnehmer, maximal meist weniger als 100, zur Verfügung stehen. Außerdem ist die Studiendauer für die Phase 2 sehr eingeschränkt.
-
Insbesondere bei Zytotoxika ist wegen der Wahl der Dosis im Bereich der MTD mit erheblicher Toxizität zu rechnen, so dass die Anzahl der Patienten unter einer neuen Therapie, deren Wirksamkeit noch nicht geklärt ist, soweit wie möglich beschränkt werden muss; auch vor dem Hintergrund retrospektiver Untersuchungen, die zeigten, dass sich weniger als 10–20 % aller Prüfsubstanzen letztlich als wirksam erwiesen haben.
Zweiarmige Studiendesigns
Zweiarmige randomisierte Phase-2-Prüfungen wurden insbesondere im Zusammenhang mit Erweiterungen auf Ereigniszeiten, in erster Linie für PFS, aber auch für OS, als Endpunkte diskutiert, wobei eine Randomisierung sowohl wegen erwarteter größerer Heterogenität als auch wegen nur eingeschränkter Information zu historischen Kontrollen angezeigt erschien (Tangen und Crowley
2012).
Randomisierung ist immer dann
notwendig,
Randomisierung gewährleistet die Gültigkeit der Daten bei sich rasch ändernden Standards in Diagnostik, bei supportiven Maßnahmen sowie bei Patientenselektion und -therapie. Um das Fehlen von historischen Kontrolldaten für biomarkerselektionierte Untergruppen auszugleichen und nicht zuletzt um bei Kombination von Wirkstoffen den relativen Anteil der Prüfsubstanz am Gesamtergebnis erfassen zu können, ist Randomisierung indiziert (Booth et al.
2008). Doch auch Phase-2-Prüfungen mit vergleichendem randomisiertem Design sind primär als hypothesengenerierend einzustufen und bedürfen der Bestätigung in Phase-3-Prüfungen. Das ist dadurch bedingt, dass die im Allgemeinen gewählten kleinen Fallzahlen zu hohen Typ I-Fehlerwahrscheinlichkeiten von 10–20 % führen und die genaue Einschätzung des Ausmaßes eines Effekts wegen weiter
Konfidenzintervalle schwierig ist (Cannistra
2009).
Eine besondere Form der Randomisierung stellt das randomisierte Diskontinuitätsdesign dar.
Es erlaubt, bei Patienten mit stabiler Erkrankungssituation (SD) unter einer experimentellen Therapie (Verum) zwischen therapiebedingten Effekten und dem tumorintrinsischen Wachstumsverhalten zu unterscheiden (Ratain et al.
2006).
Dieses Design ist besonders hilfreich für die Testung von Wirkstoffen, für die keine Zielstruktur für die Patientenselektion bekannt ist. Da nur Patienten mit SD unter Verum randomisiert und verblindet mit Verum oder Placebo weiterbehandelt werden – Patienten mit Ansprechen werden mit Verum weiter behandelt –, ist im Vergleich zu konventioneller Randomisierung nur ein kleinerer Teil der Patienten placeboexponiert, und die Gesamtzahl der mit Verum behandelten Patienten ist erhöht. Da alle Patienten initial Verum erhalten und allfällige Nebenwirkungen entwickeln können, erwarten diese Patienten dieselben Nebenwirkungen auch in der Phase der Randomisierung. Bei Nicht-Auftreten derselben geht folglich der Doppelblindcharakter verloren. Dies kann zu vermehrten Therapieabbrüchen führen, da den betroffenen Patienten bewusst wird, dass sie dem Placebo-Arm zugeteilt wurden.
Ein ganz anderer Grund für randomisierte Phase-2-Prüfungen tat sich auf, als die sogenannten
„Seamless phase 2/3“-Designs als effiziente, zeit- und kostensparende Alternativen im Vergleich zu separaten Phase-2- und Phase-3-Prüfungen neuer Wirkstoffe vorgeschlagen wurden und intensive Methodenforschung veranlassten (Hunsberger
2012).
Besondere Erwähnung verdienen die
„Window-of-opportunity“-
Studien bzw. die Testung neuer Wirkstoffe im präoperativen/neoadjuvanten Setting (Glimelius und Lahn
2011; Schmitz et al.
2018). Sie sind in der Lage, früh in der Entwicklung, d. h. am besten nach den „First-in-man“-Erfahrungen, die Aktivität einzelner (wirkmechanistisch charakterisierter) Prüfsubstanzen bei genau selektionierten Patienten zu erfassen. Sie können jedoch nachfolgende randomisierte Phase-3-Prüfungen nicht ersetzen.
Biomarker in den frühen Phasen der klinischen Prüfung
Biomarker sind gemäß einer international anerkannten Definition biologische Marker, die als Indikatoren für normale biologische Prozesse, pathologische Prozesse oder pharmakologische Antworten auf eine therapeutische Intervention objektiv erfasst und gemessen werden können (Biomarkers Definitions Working Group
2001).
Biomarker können mittels verschiedener Systeme
klassifiziert werden, wie z. B.
In der frühen klinischen Testung sind dies oft Marker einer pharmakodynamischen Wirkung. In der Phase 3 kommen zusätzlich zu
prädiktiven Biomarkern auch
Surrogatbiomarker zur Anwendung oder Marker, die eine spezielle Wirkung im Verlauf kennzeichnen, sogenannte
Intermediär-Endpunktbiomarker (Sarker und Workman
2007).
Die Arbeitsgruppe des Royal Marsden Hospital in London hat den Begriff der
Anreicherungs-(„Enrichment“-)Biomarker geprägt und für jene Biomarker vorgesehen, für die zwar ein wissenschaftliches Rationale und starke präklinische Hinweise für antitumorale Aktivität vorliegen, die aber klinisch noch nicht qualifiziert sind und somit lediglich korrelative Endpunkte darstellen (McShane et al.
2009; Yap et al.
2010).
Obwohl dazu kein wissenschaftlicher Konsens vorliegt, empfehlen Yap et al. (
2010) den Terminus
prädiktive Biomarker für solche vorzubehalten, die wissenschaftlich schlüssig sind und für die die Methodologie präklinisch validiert wurde und die klinisch in randomisierten Studien qualifiziert wurden, in dem sie bei entsprechend selektionierten Patienten störungsunanfällig („robust“) und reproduzierbar antitumorales Ansprechen vorhersagen konnten.
Als
pharmakodynamische Biomarker werden solche eingesetzt, die den theoretisch angenommenen Wirkmechanismus nachweisen, z. B. in Form der Modulation der Phosphorylierung von Targetproteinen, oder indem sie Wirkung in Form von Tumorrückbildung (OR) oder wirkstoffbedingter Toxizität als Off-Target-Effekte erkennen lassen. Auch werden sie bei der Bestimmung der pharmakokinetisch/pharmakodynamisch notwendigen Dosierung eingesetzt. Bei der Festlegung der RP2D, einem der primären Ziele der Phase 1, war der Einsatz von Biomarkern jedoch von untergeordneter Bedeutung bzw. wurden Biomarker dafür nur eingeschränkt in Anspruch genommen (Goulart et al.
2007).
Für die frühe Entwicklung von MTA ist der richtige Zeitpunkt der Selektion von Patienten mit Tumoren mit individuell nachgewiesener spezifischer Zielstruktur entscheidend:
-
Für eine Patientenselektion möglichst früh in der Wirkstoffentwicklung spricht, dass durch eine solche erst Phänomene mit geringer
Prävalenz entdeckbar werden und damit eine falsch negative Einstufung vermieden werden kann sowie allfällige Nebenwirkungen auf jene Patienten beschränkt bleiben, bei denen zumindest theoretisch der zu erwartende therapeutische Effekt eintreten kann. Im Gegensatz zu Phase-1-Prüfungen mit Zytotoxika, die oft Patienten in fortgeschrittenem Krankheitsstadium und mit zahlreichen Vortherapien einschließen, ist die Phase 1 mit MTA und bei Erkrankungen mit weniger aggressiver Progression auch für den frühen Einsatz („window-of-opportunity“) im Krankheitsverlauf, sogar als Erst- und Zweitlinienbehandlung, geeignet.
-
Gegen eine Patientenselektion möglichst früh in der Wirkstoffentwicklung spricht, dass damit auch eine negative Kontrollgruppe (zu) früh wegfällt und insbesondere nach positiven Anfangserfolgen im weiteren Verlauf der Arzneimittelentwicklung nur schwer wieder eingeführt werden kann, um die Prädiktivität des Biomarkers zu validieren.
Der Nutzen des Einsatzes von Biomarkern in der frühen Arzneimittelentwicklung wurde in der Vergangenheit kontrovers diskutiert (Glassman und Ratain
2009). Sie sind in der Entwicklungsphase entweder ausschließlich von explorativem Charakter oder haben eine Funktion für die Studienführung. Sogenannte
integrale Biomarker z. B. können zur Entscheidung über die weitere Dosiseskalation in der Phase-1-Prüfung herangezogen werden (Dancey et al.
2010). Mittlerweile bedient sich eine Mehrheit von Studien mit MTA dieser Vorgangsweise. Dies ist eine Bestätigung einer frühen Forderung der Arbeitsgruppe von Paul Workman, dass, wann immer Biomarker erfassbar sind, dieselben so früh wie möglich in den Entwicklungsprozess im Rahmen des sogenannten „pharmacologic
audit trail“ aufgenommen werden sollten (Carden et al.
2010; Yap et al.
2010). So zeigten frühe Ergebnisse einer monozentrischen, retrospektiven Analyse des MD Anderson Cancer Center, dass Patienten, die eine molekulare Aberration hatten und die mit passenden gegen diese Zielstrukturen gerichteten Wirkstoffen behandelt wurden, besseres Ansprechen, längere TTF und längeres OS aufwiesen als solche, die konventionell behandelt wurden (Tsimberidou et al.
2012). In diesem Fall handelte es sich um eine retrospektive Auswertung nicht-randomisierter Daten. Eine
Metaanalyse solcher Daten von 346 derartiger Studien ergab eine Assoziation mit signifikant besseren Ergebnissen für ORR und PFS bei biomarkerbasierter Patientenselektion. Hingegen wiesen Studien mit MTA, ohne dass Biomarker zum Einsatz kamen, lediglich vernachlässigbare ORR auf (Schwaederle et al.
2016). Dieses Ergebnis muss kritisch relativiert werden, zumal auch diese Analyse nicht von einer randomisierten Untersuchung herrührt.
Idealerweise sollte die
Entwicklung von neuen Wirkstoffen und die von Biomarkern parallel erfolgen (Phillips et al.
2006; Yap et al.
2010) (Tab.
2):
-
Dieser Prozess beginnt bereits
präklinisch (McShane et al.
2009). Auf dieser frühen Stufe steht die Entwicklung eines analytisch validierten Assays für Biomarker im Vordergrund. Dieser Ansatz findet in der sogenannten
Phase 0 – so eine solche eingeschoben wird – unter erstmaliger Verwendung humanen Materials seine Fortsetzung.
-
In der
Phase 1 werden Biomarker besser charakterisiert und in Bezug auf ihren Einsatz bei Humangewebe optimiert. Das hat jedoch zur Folge, dass in den frühen Phasen der Arzneimittelentwicklung noch keine validierten Biomarker zur Verfügung stehen, sondern lediglich explorative; es liegen auch noch keine optimierten Anwendungsbedingungen vor (Dancey et al.
2010).
-
In der
Phase 2 kann die Frage nach einer Assoziation zwischen der Änderung des Biomarkers und dem klinischen Ergebnis gestellt werden. Dazu müssen genügend Patienten die von Biomarkern zu fordernden Qualifikationskriterien aufweisen. Seymour et al. (
2010) nehmen in ihren Konsensus-Empfehlungen der Clinical Design Task Force des US-NCI-Investigational Drug Steering Committee zu Biomarkern in der Phase 2 explizit Stellung, indem sie sich – da Biomarker in dieser Phase meistens noch nicht validiert sind – gegen deren Einsatz zur Patientenselektion mit der Ausnahme bei Verwendung eines adaptiven Designs, jedoch für deren prospektiven Einschluss aussprechen, um deren Eignung als prädiktive Marker orientierend zu evaluieren.
-
Jedenfalls erscheint es unwahrscheinlich, in Phase-2-Prüfungen feststellen zu können, ob ein Biomarker-Effekt mit einem klinischen Benefit assoziiert ist oder diesen vorhersagen kann (prädiktiver Biomarker). Dies findet eher erst in der
Phase-3-Prüfung statt, wenn im randomisierten Vergleich Kontrollen zur Verfügung stehen (Dancey et al.
2010). Die klinische
Validierung von Biomarkern als Surrogatendpunkt für Wirksamkeit oder als Prädiktor des klinischen Ergebnisses erfolgt üblicherweise erst in der Phase 3 (Duffy et al.
2015).
Neuere Untersuchungen – ohne dass eine solche
Validierung vorgenommen worden wäre – bestätigen bessere Ergebnisse unter Patientenselektion auf molekularer Basis, insbesondere verbessertes Ansprechen, längeres PFS und OS sowie eine Verminderung an Todesfällen (Schwaederle et al.
2015) (Kap. „Klinische Studien auf der Basis molekularer Charakterisierung von Tumoren“).
Die Entwicklung von Biomarkern in der klinischen Prüfung der Phase 3 ist unter Designs zur Prüfung von gegen molekulare Zielstrukturen gerichteten Wirkstoffen (MTA) mit Biomarkern abgehandelt (Abschn.
11.1.2).
Abfolge der klinischen Prüfung: Phase 1 – Phase 2 – Phase 3
Zahlreiche Entwicklungen, welche die Phase 2 überspringen wollten, sind gescheitert; unter ihnen solche von Metalloproteinase-Inhibitoren, von Farnesyltransferase-Inhibitoren, aber auch die eines TKI oder von Antisensoligonukleotiden (Coussens et al.
2002; Roberts et al.
2003; Morgan et al.
2003; Van Cutsem et al.
2004; Paz-Ares et al.
2006). Nur wenn aussagekräftige präklinische Daten über eine Substanz, ergänzt und bestätigt durch Phase-1-Daten über die Target-Inhibition, sowie Daten über biologische Effekte/Toxizität vorliegen – wie von wirksamen Dosen zu erwarten –, kann ein
direkter Übergang von Phase 1 zu Phase 3 angedacht werden. Jedenfalls handelt es sich dabei um eine überaus riskante Vorgehensweise.
Es liegen widersprüchliche Daten dazu vor, inwieweit Phase-2-Ergebnisse für den Erfolg von Phase-3-Prüfungen prädiktiv sind. Booth et al. (
2003) konnten diesen Zusammenhang nicht bestätigen. El-Maraghi und Eisenhauer (
2008) erkannten ORR als prädiktiv für die Zulassung von MTA. Entgegen der zuvor genannten Befürwortung randomisierter Phase-2-Prüfungen fanden Monzon et al. (
2015), dass einarmige Phase-2-Prüfungen in Bezug auf die Voraussagerichtigkeit des Erfolgs von Phase-3-Prüfungen nicht unterlegen waren.
Während in anderen medizinischen Bereichen die Phase-3-Prüfung oft nur die Bestätigung von Phase-2-Ergebnissen darstellt, trifft dies für die Onkologie nicht zu (Ratain
2005). Das mag zwar einerseits durch die Natur von Malignomen und die von Onkologika bedingt sein, andererseits möglicherweise designbedingt. Das Verwerfen der Nullhypothese, also der Nachweis eines Effekts in den verschiedenen Phase-2-Designs, ist nicht gleichbedeutend damit, dass eine Prüfsubstanz als gut wirksam angesehen werden kann. Positive Ergebnisse nicht kontrollierter Phase-2-Prüfungen, die allein noch nicht für eine Arzneimittelzulassung ausreichen, verfügen über einen niedrigen positiven prädiktiven Wert. Dies ist nicht zuletzt der Notwendigkeit geschuldet, dass in der Phase-2-Prüfung nur ein Teil der für die Wirksamkeit relevanten Zielparameter geprüft werden kann; meist nur die früh beobachtbaren Parameter, wie ORR, und selten die für OS relevanten. Ungeachtet dessen haben randomisierte Phase-2-Prüfungen einen hohen positiven prädiktiven Wert im Hinblick auf eine erfolgreiche Entwicklung (Ratain et al.
1993).
Klinische Prüfung der Phase 3
Die Phase 3 stellt die konfirmatorische Phase im Prämarketing-Segment der Arzneimittelentwicklung dar.
Sie dient der Etablierung von neuen Therapiestandards und stellt die häufigste Grundlage für die behördliche Arzneimittelzulassung und anschließende therapeutische Anwendung dar.
Das Ausmaß der Wirksamkeit einer Prüfsubstanz, wie sie in einer randomisierten Phase-3-Prüfung gemessen wird, sollte den Benefit für Patienten in Form von längerem OS und auch in Form von verbesserter QoL während des Überlebens widerspiegeln (Tab.
2). Unter besonderen Umständen kann
PFS als primärer Endpunkt eingesetzt werden. Das ist
zulässig, z. B.
-
wenn PFS als Surrogat für OS validiert wurde,
-
wenn insbesondere bei placebokontrollierten Studien wegen Crossover zu späteren Therapien die Beurteilung von OS eingeschränkt/verunmöglicht wird oder
-
wenn die absehbare Durchführung mehrerer nachfolgender Therapien die Erfassung eines Unterschieds im OS bei Indikationen mit langer Überlebenserwartung einschränken (Ocana und Tannock
2011) (Abschn.
12).
Um in höherem Umfang, als dies bisher der Fall war, zu gewährleisten, dass positive Phase-3-Prüfungen auch tatsächlich Benefit für Patienten bedeuten, hat die Arbeitsgruppe um Ian Tannock die Forderung erhoben, dass der klinisch relevante Unterschied (
Delta [Δ] der Hypothesenbildung bei der Studienplanung) im primären Endpunkt zugunsten des Experimentalarms nicht nur die nach Prüfplan angestrebte statistische Signifikanz erreicht, sondern auch eine für jedes Protokoll bzw. den jeweils gewählten Endpunkt zu fordernde Mindestgröße hat (Sloan
2005; Ocana und Tannock
2011). Unter Bezugnahme auf Überlegungen von Sobrero und Bruzzi (
2009) fordern Ocana und Tannock (
2011) ein Δ von zumindest 3 Monaten im medianen OS oder von 4–6 Monaten im medianen PFS – einem Hazard Ratio von 0,75 für OS und 0,5 für PFS entsprechend –, um als klinisch relevant eingestuft werden zu können.
In den 1980er-Jahren wurden
randomisierte, kontrollierte Studien (
RCT, „randomized controlled trials“) in der klinischen Epidemiologie und Arzneimittelforschung zum
Goldstandard des medizinischen Erkenntnisgewinns (Jones und Podolsky
2015; Bothwell et al.
2016). Naturgemäß haben auch RCT – wie alle methodischen Systeme –
Schwachstellen. Eine davon ist die immanent relativ späte Antwort auf eine gestellte Frage infolge der Dauer einer Phase-3-Prüfung, insbesondere dann, wenn mehr als eine RCT gefordert wird. Das kann in krassen Fällen dazu führen, dass der Kontrollarm bei Studienende nicht mehr dem medizinischen Standard entspricht. So mag zwar die interne
Validität der Ergebnisse gegeben sein, jedoch wird die externe verloren, wenn die Ergebnisse nicht mehr sogenannten „real-world data“ entsprechen. Um extern valide Ergebnisse zu gewährleisten, werden große Anstrengungen unternommen,
Einschlussfaktoren für Patienten in klinische Prüfungen weniger restriktiv zu halten bzw. an die Situation außerhalb von klinischen Prüfungen anzupassen. Dies ist nicht auf die Phase 3 beschränkt (Vassal et al.
2013; Le Saux et al.
2016; Tannock et al.
2016; American Society of Clinical Oncology
2017).
Nicht nur, aber auch dem Umstand Rechnung tragend, dass auch Phase-3-Prüfungen mit positivem Ausgang eher publiziert werden als negative Studien („publication bias“), wurde die
Registrierung aller Studien (via EudraCT und/oder
ClinicalTrials.gov) zur Pflicht für klinische Prüfungen der
guten klinischen Praxis (Abschn.
13.2).
Das ursprüngliche Ziel von RCT, nämlich systematische Fehler („bias“) zu reduzieren, ist erreicht worden (Doll
1998; Tannock et al.
2016). Dagegen stellt die Frage der Anwendbarkeit von Daten aus RCT auf Individuen oder kleinste Patientengruppen, die im Zentrum von personalisierter Medizin stehen, eine noch zu bewältigende, neue Herausforderung für Phase-3-Prüfungen dar (Bothwell et al.
2016). RCT weisen im Allgemeinen die Tendenz auf, den teilnehmenden Patienten zu nützen und nicht zu schaden (Braunholtz et al.
2001). Diese Evidenz stammt primär von onkologischen Studien. Die Erarbeitung dieser Evidenz unterliegt immanenten Schwierigkeiten, zumal Studienergebnisse von RCT ihrerseits unter einem sogenannten
Studien-/Prüfungseffekt zustande kommen, der wiederum auf verschiedene Effekte, nämlich
zurückzuführen sein mag (Braunholtz et al.
2001). Diese Erfahrungen werden durch eine neuere multivariate Analyse unterstützt, die 21 von 102 SWOG-(„South West Oncology Group“-)Phase-3-Prüfungen im Zeitraum 1987–2007 mit rund 5200 Patienten untersuchte (Unger et al.
2014). Die Autoren kamen zum Schluss, dass zwar für die Gesamtheit aller Studienteilnehmer OS nicht verlängert war, jedoch war die OS-Rate nach einem Jahr – auch bei schlechter Prognose – im Vergleich zu nicht an Studien teilnehmenden Patienten sehr wohl erhöht. Darüber hinaus wies die Untergruppe der Patienten mit schlechter Prognose verlängertes OS auf.
Des Weiteren werden durch
Randomisierung, d. h. Zuordnung von Patienten zu Behandlungsarmen nach dem Zufallsprinzip, nicht nur die Grundlagen für einen statistischen Kausalzusammenhang zwischen Endpunkt und Therapieform geschaffen, sondern es werden so Zufallsergebnisse eliminiert oder zumindest reduziert, und zwar umso besser, je größer die Studien sind (Peto und Baigent
1998). Dies ist umso bedeutsamer, als insbesondere in der Vergangenheit der Umfang an Unterschieden in den Ergebnissen von Behandlungen meist gering war (Joffe et al.
2004). Auch haben RCT durch ihre häufig negativen Ergebnisse selbst den besten Beweis für die Notwendigkeit ihrer Durchführung geliefert (Meropol
2007; Miller und Joffe
2011).
Rechtfertigendes zentrales Element für die Durchführung der Randomisierung ist das Prinzip von „
equipoise“, das nach Freedman (
1987) als „fehlender Konsens über die Vergleichbarkeit der Ergebnisse der zur Testung anstehenden Behandlungsalternativen“ eingestuft wurde. Andere Autoren bezeichneten „equipoise“ auch als „berechtigte Unsicherheit über das Ergebnis einer Studie“ (Meropol
2007) oder als „professionelle Unsicherheit“. Letzteres, auch
Unsicherheitsprinzip genannt, besagt:
„Ein Patient darf in eine klinische Prüfung eingebracht werden, und nur dann, wenn der verantwortliche Kliniker substanziell unsicher ist, welche der Behandlungen der klinischen Prüfung für den speziellen Patienten am passendsten ist“ (gekürzt nach Peto und Baigent
1998).
Auf die Problematik der Ungenauigkeit von „equipoise“ wird von Miller und Joffe (
2011) hingewiesen, auch unter welchen Bedingungen auf die klinische Prüfung in Form von RCT verzichtet werden kann. Wird eine Prüfsubstanz z. B. auf der Basis einer einarmigen Phase-2-Prüfung zugelassen, wird in Kauf genommen, dass diese Therapie zum neuen Vergleichsstandard für künftige klinische Prüfungen wird und später entwickelte Wirkstoffe nicht mehr mit einer unbehandelten Kontrolle verglichen werden können.
Designs der klinischen Prüfung in der Phase 3
Die zentrale Rolle der Phase-3-Prüfung zum Nachweis der Wirksamkeit einer Prüfsubstanz stellt hohe Anforderungen an die Planung und Erstellung des Prüfplans bzw. Designs. Vielfältigkeit von Tumorerkrankungen und von deren unterschiedlichen behandlungspflichtigen Stadien, Verschiedenartigkeit der Behandlungsmöglichkeiten, aber auch praktische und strategische Überlegungen zur Patientenrekrutierung führten zu verschiedenen Designs, unter denen ein für die jeweilige Fragestellung geeignetes auszuwählen ist. Infolgedessen haben die Begründung und Formulierung der Ziele und konkreten Fragestellungen für die Phase-3-Prüfung höchste Priorität und entscheiden über Ergebnis und Nutzen, aber auch ethische Vertretbarkeit des Vorhabens.
Prüfung auf Wirksamkeit – Zweiarmige Überlegenheitsstudie
Die zweiarmige randomisierte kontrollierte Studie (RCT) vergleicht eine neue Prüfsubstanz E (experimenteller Arm) mit einer Standardtherapie C (Kontroll- oder Standardarm).
Sie ist weiterhin das am häufigsten gewählte Design für Phase-3-Prüfungen. Hinsichtlich Vorbereitung, Begründung und Durchführung relativ einfach liefert es im Vergleich zu komplexeren (z. B. mehrarmigen oder mehrstufigen) Designs in kürzester Zeit interpretierbare Ergebnisse und zwar mit minimal benötigten Patientenzahlen. In seiner einfachsten Version hat es einen einzigen primären Endpunkt, oft OS, und es klassifiziert weitere durchaus auch klinisch relevante Endpunkte als sekundäre Endpunkte und stuft die Ergebnisse von Auswertungen von Untergruppen ebenfalls als sekundär ein.
Δ definiert damit die Effektgröße im Verhältnis zum Standard.
Die Wahl von Δ hat einen weitaus stärkeren Einfluss auf die Fallzahl als jede der beiden Fehlerwahrscheinlichkeiten. Ein großer Unterschied, so er existiert, kann mit einer relativ kleinen Fallzahl statistisch signifikant auf dem Niveau α entdeckt werden. Ist dieser erwartete bzw. bei der Planung geforderte Unterschied Δ klinisch unrealistisch und zu groß gewählt, kann er bei kleiner Fallzahl kaum entdeckt werden, und die klinische Prüfung endet mit hoher Wahrscheinlichkeit nicht signifikant; typischerweise mit hoher Variabilität des primären Endpunkts in beiden Armen. Ein kleines Δ erfordert hohe Fallzahlen, die im Bereich von mehr als 1000 Studienteilnehmern liegen kann. Es sollte stets, abgesehen von Machbarkeit und Kosten, auf klinische Relevanz geprüft werden, die umso fragwürdiger wird, je mehr sich der nachzuweisende Unterschied der Variabilität des primären Endpunkts in der Patientenpopulation nähert.
Mit der Festlegung der Prüfhypothesen und Fehlerwahrscheinlichkeiten müssen für einen vollständigen Prüfplan der primäre Endpunkt und dessen Δ spezifiziert werden. In der Phase 3 ist dafür an erster Stelle OS anzusehen, gefolgt von anderen Wirkdauern, für die mehrere Varianten, wie DFS, PFS, Zeit des Überlebens nach Progredienz (PPS) oder Zeit bis zur Tumorprogression (TTP) bzw. Zeit bis zum Therapieversagen (TTF) vorliegen. Je nach Typ und Stadium der Tumorerkrankung und Wirkmechanismus der Prüfsubstanz kommen letztere vor allem als sekundäre (in manchen Fällen auch als primäre) Endpunkte in Betracht. Zu beachten ist, dass in der Methodik klinischer Prüfungen die Begriffe Zielgröße, Zielparameter und Endpunkt („endpoint“) gleiche Bedeutung aufweisen.
In besonderen Fällen sind ORR und QoL die relevanten primären Endpunkte. ORR weist als primärer Endpunkt Nachtteile auf: Die Fallzahl hängt stark von der Lage der ORR der Standardtherapie ab. Während ein Unterschied von 10 % zwischen E und C bei ORR von 20 % für C bei α = 5 % und „power“ 80–90 % 249–338 Patienten erfordert, sind es bei ORR von 40 % 321–445 Patienten. Neben Unsicherheiten und Ungenauigkeiten der Beurteilung ist dies ein Grund, ORR in der Phase 3 lediglich als sekundären Endpunkt auszuwerten. Bezüglich QoL sei vor allem darauf hingewiesen, dass neben ihrer Komplexität als longitudinale, mehrfach gemessene Größe, die zur Auswertung eine statistische Modellbildung erfordert, auch zu beachten ist, dass sie als subjektiver primärer Endpunkt für eine definitive Beurteilung nur in einer Blind-/Doppelblindstudie ausreichend
Validität besitzt.
Test auf Überlegenheit der Prüfsubstanz – Rolle der Hazardfunktion
Die fulminante Methodenentwicklung für die Analyse von Überlebenszeiten (Kaplan und Meier
1958; Cox
1972; Peto et al.
1976; Prentice
1978) und ihre Verbreitung (Kalbfleisch und Prentice
1980; Marubini und Valsecchi
1994) sowie ihre rasche Übernahme als Methode der Wahl in der klinischen Forschung führten schon früh zum nicht-parametrischen Vergleich von Überlebenskurven dergestalt, dass die oben allgemein formulierten Nullhypothesen und Alternativhypothesen zum Vergleich der Wirksamkeit in Bezug auf OS Anlass waren, die
Überlebensfunktionen S
E(t) und S
C(t) zu vergleichen.
Die Überlebensfunktion S(t) ist die Wahrscheinlichkeit, den Zeitpunkt t, gemessen ab Therapiebeginn oder Randomisierung, zu überleben.
Infolgedessen vergleicht der Logrank-Test als Methode der Wahl für den Vergleich von 2 Überlebenszeitverteilungen nicht irgendeine abgeleitete Maßzahl der beiden Verteilungen S
E(t) und S
C(t) (wie z. B. den Mittelwert oder den Median), sondern die beobachteten Überlebenszeiten selbst. Dabei ist zu berücksichtigen, ob die Zeit bis zum Tod beobachtet werden konnte oder ob Patienten zu einem bestimmten Zeitpunkt ausgeschieden sind oder bis zum Stichtag der Auswertung noch am Leben waren (Peto et al.
1976). In den letzteren Fällen werden die Daten als
zensiert bezeichnet, entsprechend auch für andere Wirkdauern, wie z. B. Zeiten bis zum Eintritt einer Progression oder zu einem anderen negativen Ereignis („time to event“).
Derartige
zensierte Ereigniszeiten werden mit einer einheitlichen Methodik analysiert (Schumacher und Schulgen
2007). Die Methodik der Analyse von Ereigniszeiten – auch als
Ausfallzeiten („failure times“) bezeichnet – hat sich von Beginn an weniger auf die Überlebensfunktion S(t) konzentriert, die mit dem Kaplan-Meier-Schätzer optimal empirisch beschrieben ist, sondern auf die statistisch äquivalente
Hazardfunktion h(t), die Inzidenzfunktion der Ereignisse (Kaplan und Meier
1958). Bei OS ist der Tod eines Patienten das Ereignis, und h(t) ist dann ein momentanes Sterberisiko.
Mathematisch ist h(t) ein Grenzwert der bedingten Wahrscheinlichkeit, das Ereignis unmittelbar nach der Zeit t zu erfahren, wenn es bis zu dieser Zeit noch nicht eingetreten ist.
Auf dieser Grundidee basieren
-
die Kaplan-Meier-Kurven als statistische Schätzung der Überlebensfunktion S(t) und
-
der Logrank-Test, aber auch
-
das
Cox-Modell, das als Regressionsmodell sowohl eine Anpassung („adjustment“) des Vergleichs von S
E(t) mit S
C(t) bezüglich prognostischer Faktoren gestattet als auch für die Identifikation von Prognosefaktoren ganz allgemein eingesetzt werden kann (Cox
1972; Prentice
1978).
Im letzteren Fall können Therapien (Vortherapien zusammen mit einer oder mehreren Prüftherapien) als Faktoren (in statistischer Sprechweise als Kovariable) im Verbund mit anderen Faktoren auf ihren Einfluss auf OS analysiert werden. Der Einfluss selbst wird durch die Größe der den Faktoren zugeordneten statistischen Regressionsparameter einschließlich ihrer statistischen Signifikanz bzw. ihrer 95 %
Konfidenzintervalle ausgedrückt (Schumacher und Schulgen
2007; Anderson et al.
2012; Harrel
2015).
Ein Vergleich der 2 Überlebenskurven S
E(t) und S
C(t) kann durch das Verhältnis ihrer beiden Hazardfunktionen h
E(t) und h
C(t) mittels einer einzigen Funktion beschrieben werden, dem
Hazardquotienten (
Hazard Ratio)
$$ \mathrm{HR}\left(\mathrm{t}\right)={\mathrm{h}}_{\mathrm{E}}\left(\mathrm{t}\right)/{\mathrm{h}}_{\mathrm{C}}\left(\mathrm{t}\right), $$
der im Laufe der Anwendung der statistischen Theorie in der klinischen Forschung zum zentralen Parameter des Therapievergleichs wurde und inzwischen in allen Ergebnissen von Therapiestudien berichtet wird. Zu beachten ist, dass in der Literatur die Hazardfunktion oft auch
Hazardrate genannt wird und nicht mit dem englischen Begriff „hazard ratio“ verwechselt werden darf.
Mittels Hazardquotienten können die Null- und Alternativhypothesen für den Test auf Überlegenheit umformuliert werden als H
0: „
HR(t) = 1 für alle Zeiten t“ gegen die Alternativhypothese H
1: „
HR(t)<1 für mindestens einen Zeitpunkt t“. Als Quotient
$$ {\mathrm{h}}_{\mathrm{E}}\left(\mathrm{t}\right)/{\mathrm{h}}_{\mathrm{C}}\left(\mathrm{t}\right)<1 $$
zeigt er an, dass das Ereignisrisiko im Arm E geringer ist als im Kontrollarm C und somit die Prüfsubstanz E wirksamer als die Kontrolle C.
Ist die Wirkung der Prüfsubstanz besser als die von C, kann Konstanz, d. h. HR(t) = HR*, des im Allgemeinen von der Zeit ab Therapiebeginn abhängigen HR(t) angenommen werden, und die Konstante HR* beschreibt den Unterschied zwischen E und C. Man spricht dann von
proportionalen Hazards, d. h. h
E(t) ist proportional zu h
C(t) mit der Proportionalitätskonstanten HR*; es gilt:
$$ {\mathrm{h}}_{\mathrm{E}}\left(\mathrm{t}\right)={\mathrm{HR}}^{\ast }{\mathrm{h}}_{\mathrm{C}}\left(\mathrm{t}\right). $$
Dies ist die grundlegende Voraussetzung zur Berechnung der Fallzahlen aller Studien mit Ereigniszeiten als primärem Endpunkt. In der praktischen Anwendung werden dazu Werte zwischen relativ hoher Wirksamkeit im Bereich von 0,5–0,6 und relativ geringer Wirksamkeit im Bereich von 0,8–0,9 unterschieden; mit der entsprechenden Konsequenz für die Fallzahlen. Wird zum Beispiel eine Phase-3-Prüfung für α = 5 % (zweiseitig) und „power“ 90 % mit Rekrutierungs- und Nachbeobachtungszeit von jeweils einem Jahr (also Gesamtdauer 2 Jahre) bei 10 % Ausfall geplant, so werden nach Lakatos (
2002) lediglich 144 auswertbare Studienteilnehmer (72 pro Arm) benötigt, wenn der Hazardquotient von E über C als HR* = 0,5 angenommen wird. Muss der Unterschied zwischen E und C als geringer angenommen werden, steigt die Fallzahl rasch an: für HR* = 0,66 (2/3) müssen 371, für HR* = 0,75 (also 3/4) 748 und ab ca. HR* = 0,8 (4/5) mehr als tausend Studienteilnehmer, berechnet mit Pass 11 (Hintze
2011), rekrutiert werden.
Im Cox-Modell wird die Hazardfunktion in einem Regressionsmodell funktional mit der Behandlung (E oder C) als Einflussfaktor für Überleben in Verbindung gebracht und sein Regressionsparameter b ist gleich dem Logarithmus des Hazardquotienten HR*, also log(HR*) = b. Obgleich das Modell proportionale Hazards annimmt – und deswegen oft auch proportionales Hazardmodell genannt wird –, hat es sich als sehr robust gegen Abweichungen von dieser Annahme erwiesen und zum Standardmodell für die Modellierung von zensierten Überlebenszeiten entwickelt.
In den Vorbereitungen zur Studienplanung, vor allem bei OS, sind Überlegungen zur medianen Überlebenszeit und zu Überlebenswahrscheinlichkeiten nach bestimmten Zeiträumen, wie den 1-Jahres-, 3-Jahres- oder 5-Jahres-Überlebensraten, oft von Vorteil, da diese Parameter aus der Literatur bekannt sind und eine sehr anschauliche Interpretation haben. Im Vergleich zum Hazardquotienten HR (konstant über die Zeit) haben diese eher punktuellen statistischen Parameter den Nachteil, dass sie nicht den ganzen Zeitraum ab Randomisierung abgreifen. Aussagen über mediane Überlebenszeiten oder Überlebensraten können unter bestimmten Annahmen bezüglich Verteilung der Ereigniszeiten in Aussagen über den Hazardquotienten umgerechnet werden. Derartige Überlegungen sollten als Teil der Studienplanung und Fallzahlberechnung zwischen dem Sponsor und den an der klinischen Prüfung beteiligten klinischen Forschern zusammen mit den für die klinische Prüfung verantwortlichen Biostatistikern und Datenmanagern besprochen werden. Dazu gehört auch die Auswahl geeigneter Fallzahlprogramme, für die es Expertise z. B. in klinischen Koordinationszentren gibt.
Test auf Nicht-Unterlegenheit der Prüfsubstanz
Kann bei einem Test auf Überlegenheit die Nullhypothese H
0: „E und C sind gleich wirksam“ nicht abgelehnt werden, verwehrt die Theorie des statistischen Testens die Aussage „E und C sind gleich wirksam“, da sie nicht in gleicher Weise wie die Alternative H
1: „E ist wirksamer als C“ abgesichert ist; offensichtlich deswegen, weil der
Fehler 2. Art, oft zwischen 20 % und 10 %, bei einer „power“ von 80–90 % deutlich höher als der
Fehler 1. Art, angenommen als 2,5 %, ist. Ein weiterer Grund liegt in der Asymmetrie zwischen H
0 und H
1 des statistischen Testens selbst.
Um dennoch Aussagen über Äquivalenz von 2 Therapien zu erlauben, wurden sogenannte
Äquivalenztests eingeführt, bei denen „E und C sind gleich wirksam“ die zu testende Alternativhypothese und als Konsequenz deren Verneinung „E und C sind nicht gleich wirksam“ die Nullhypothese werden. Wiederum sind in der Entwicklung von Onkologika die einseitigen Hypothesen von größerer Bedeutung als die zweiseitigen. In einem
Test auf Nicht-Unterlegenheit von E im Vergleich zu C wird
geprüft.
Für die praktische Durchführung muss festgelegt werden, um wie viel die Wirkung von E unter derjenigen von C liegen darf, damit immer noch von Äquivalenz oder Nicht-Unterlegenheit von E im Vergleich zu C ausgegangen werden kann. Es geht somit um die Festlegung einer
Unterlegenheitsschwelle Δ
NU. Ist OS der primäre Endpunkt, wird in einem Test auf Nicht-Unterlegenheit von E im Vergleich mit C
geprüft, wobei Δ
NU ein Wert größer als 1 ist, z. B. 1,1 oder 1,3. Die Wahl einer Unterlegenheitsschwelle Δ
NU ist extrem kritisch und bedarf einer intensiven Diskussion aller an der klinischen Prüfung Beteiligten, an dessen Ende eine klinische und ethische Rechtfertigung stehen sollte (Kopecky und Green
2012). Die erforderlichen Fallzahlen steigen mit fallenden Werten von Δ
NU rasant an z. B. von ca. 500 für Δ
NU = 1,3 auf ca. 5000 für Δ
NU = 1,2 bei üblichen Fehlerwahrscheinlichkeiten (α = 2,5–5 % und β = 10–20 %).
Zwischenauswertungen und gruppensequenzielle Designs
Dauer, Kosten und die möglichen therapeutischen Konsequenzen einer Phase-3-Prüfung erfordern eine regelmäßige
Kontrolle des Studienverlaufs, die
-
das Monitoring der Rekrutierung sowie
-
die Maßnahmen zur Patientensicherheit umfassen, wie
-
die Erfassung von Toxizität sowie
-
die Auswertung und Bewertung von AE (Kap. „Bewertung unerwünschter Ereignisse und Therapienebenwirkungen“).
Derartige Zwischenauswertungen sind aus biostatistischer Sicht von beschreibender Natur und werden daher unabhängig von den Auswertungen der primären Endpunkte als administrative (Zwischen-)Auswertungen zur Gewährleistung der internen
Validität einer klinischen Prüfung angesehen. Dazu gehört auch die Beurteilung der bei Studienbeginn getroffenen Annahmen, z. B. bei den Ein-/Ausschlusskriterien und den primären und sekundären Endpunkten (siehe „Adaptive Designs“).
Verschieden von administrativen (Zwischen-)Auswertungen sind Zwischenauswertungen zu
primären und allenfalls auch ausgewählten
sekundären Endpunkten zur Wirksamkeit oder zur Beurteilung bzw. Revision des Nutzen-Risiko-Verhältnisses der klinischen Prüfung. Solche Auswertungen haben hohe methodische Relevanz, wenn ihre Ergebnisse Konsequenzen für die Fortsetzung der klinischen Prüfung und/oder für Empfehlungen studienbegleitender Data Safety Monitoring Boards (DSMB) haben; oft auch als Data Monitoring Committee (DMC) bezeichnet. Deswegen wurden Zwischenauswertungen der primären Endpunkte und die Beurteilung von frühen Therapieunterschieden ein fester Bestandteil in der Planung klinischer Phase-3-Prüfungen (Armitage et al.
1969; Pocock
1977; Köpcke
1984).
Adaptive Designs
Adaptive Designs wurden entwickelt, um in einer laufenden klinischen Prüfung unter Berücksichtigung neuer studieninterner oder -externer Informationen den Prüfplan ändern zu können, ohne den konfirmatorischen Charakter zu beschädigen und den Fehler einer falsch positiven Schlussfolgerung (
Fehler 1. Art) zu erhöhen.
Sie setzten damit die frühere Entwicklung von gruppensequenziellen Verfahren der flexiblen Patientenrekrutierung mit der Möglichkeit eines vorzeitigen Stopps der klinischen Prüfung fort. Während man sich zu Beginn auf Fallzahlneuberechnungen nach Zwischenauswertungen und Verfahren zur Auswahl von Therapiearmen beschränkte, wurden später auch gravierendere Änderungen im Prüfplan, wie z. B. ungeplante Zwischenauswertungen, Änderungen der Studienhypothesen und adaptive Auswahl primärer Untergruppen, einbezogen; letzteres auch unter dem Eindruck von Forderungen der Präzisionsmedizin (Yates et al.
2018). Umfassende Übersichten sind z. B. bei Chow und Chang (
2007); Pong und Chow (
2011) sowie Bauer et al. (
2016) zu finden. Die anfängliche methodische Konkurrenz zwischen adaptiven und gruppensequenziellen Designs konnte in der statistischen Methodenforschung insofern geklärt werden, als inzwischen die statistische Theorie der adaptiven Designs soweit verallgemeinert werden konnte, dass sie die gruppensequenziellen Designs als Spezialfall umfasst.
Es wurden in den letzten Jahren auch verschiedene
Bayes’sche adaptive Designs für die Phase 3 entwickelt, zum Teil gekoppelt mit dem besonderen Verfahren der „response-adaptiven“ Randomisierung auch für Überlebenszeiten (Berry et al.
2010; Wason und Trippa
2014; Moatti et al.
2016). Vor einem Routineeinsatz in Phase-3-Prüfungen oder randomisierten Phase-2-Prüfungen sollten jedoch erst noch praktische Erfahrungen abgewartet werden.
Adaptive Designs bei Studien mit Ereigniszeiten als Endpunkten sind wegen der zensierten Daten weitaus schwieriger anzuwenden als bei Studien mit Endpunkten, die vollständig beobachtet werden und für die im Fall kontinuierlicher Daten oft eine Gauß’sche
Normalverteilung angenommen werden kann. Letzteres wäre eine Option bei der Auswertung von Daten zur QoL. Einfacher sind adaptive Designs auch für Studien mit Ansprechraten als Endpunkten. Bei Ereigniszeiten liegt die Situation vor, dass sich zum Zeitpunkt der Adaption des Designs einschließlich einer geplanten Fallzahlneubewertung („sample size reassessment“) die Information bis zur Adaption nur unvollständig von der erwarteten Information danach trennen lässt, da zum Zeitpunkt der Adaption im Rahmen einer Zwischenauswertung eine größere Zahl von Patienten noch nicht vollständig beobachtet ist, bei der Endauswertung aber sein wird. Dieses Dilemma lässt sich methodisch nicht vollständig überwinden. 2 Ansätze erlauben aber gute approximative Lösungen:
Dabei wird die Zeit unter Studienbedingungen bei zensierten Fällen aufgeteilt: Entweder werden Daten weggelassen, oder das statistische Verfahren wird so angepasst, dass auf jeden Fall der
Fehler 1. Art gesichert ist (Jenkins et al.
2011; Irle und Schäfer
2012; Magirr et al.
2016).
Die Entwicklung adaptiver Designs wurde von den Zulassungsbehörden hinsichtlich der Integrität von Studien kritisch verfolgt, und es wurde darauf geachtet, dass Modifikationen einfach gehalten bleiben und die Studienabläufe weder verkompliziert noch intransparent werden (EMEA/CHMP/EWP/2459/02
2007; Elsäßer et al.
2014; FDA Guidance for Industry
2019). Mögliche Unterschiede zwischen verschiedenen Varianten adaptiver Designs und die maximale Verletzung des
Fehlers 1. Art sind selbst bei mehr als 2 Armen eher gering (Graf et al.
2014).
Die in der klinischen Forschung zunächst mit Zurückhaltung aufgenommene Möglichkeit einer statistisch kontrollierten Änderung des Studienprotokolls einer laufenden Studie ist inzwischen Teil moderner Studienplanung geworden (Burnett et al.
2020).
Designs zur Prüfung von gegen molekulare Zielstrukturen gerichteten Wirkstoffen (MTA) mit Biomarkern
Für die Prüfung von MTA wurden verschiedene Designs vorgeschlagen, die die vorhandene Information zu einem oder mehreren Biomarkern (BM) unterschiedlich einsetzen. Grundsätzlich sollte ein BM ausreichend als therapeutisch relevant für die jeweilige Tumorerkrankung identifiziert und beschrieben sein, bevor er als therapieführender Parameter in einer Phase-3-Prüfung eingesetzt wird. In den meisten Designs wird auch vorausgesetzt, dass ein BM so dichotomisiert ist, dass jeder Patient, der alle weiteren Ein-/Ausschlusskriterien erfüllt, eindeutig entweder als Biomarker-positiv (BM+) oder als Biomarker-negativ (BM-) eingestuft werden kann, wobei
positiv in der Regel so verstanden wird, dass diese Information des BM entweder prognostisch relevant für den Krankheitsverlauf oder prädiktiv für eine (experimentelle) Therapie ist (Mandrekar und Sargent
2009; Hoering et al.
2015).
Randomize all-Design (RAD)
Das einfachste Design ist RAD, da es die BM-Information lediglich bei der Auswertung nutzt, allerdings in zwei Varianten:
a.
Die beiden Teilpopulationen BM+ und BM- unterteilen die Patientenpopulation der Studie in 2 prognostisch möglicherweise unterschiedliche Teilpopulationen von Patienten, Strata, in denen separat zwischen experimenteller Therapie (E) und Kontroll-(Standard-)Therapie (C) randomisiert wird, und diese prospektive Unterteilung wird bei der Auswertung berücksichtigt.
b.
Das Vorliegen des BM wird lediglich vor Randomisierung verlangt, und die Gesamtpopulation wird zwischen E und C randomisiert.
Während im Fall a die Auswertung primär in den beiden Gruppen BM+ und BM- getrennt durchgeführt wird, konzentriert sich die Auswertung im Fall b primär auf die Gesamtpopulation, die nach BM post-stratifiziert durchgeführt werden kann. Im Fall b ist eine unterschiedliche Balance zwischen BM+ und BM- nicht ausgeschlossen, wenngleich sie wegen Randomisierung und bei ausreichend hoher Fallzahl unwahrscheinlich ist (Abschn.
11.2)
.
Weitere Varianten, bei denen der Markerstatus teilweise erst nach der Randomisierung bestimmt oder die Markerbestimmung später infrage gestellt wird, sollten vermieden werden, denn eine dadurch entstandene Teilpopulation von Patienten, die ebenfalls zwischen E und C randomisiert werden, ist schwer zu beurteilen und unterscheidet sich höchstwahrscheinlich auch in anderen prognostischen Faktoren von der Patientengruppe mit eindeutiger Markerbestimmung.
Bei der Planung von RAD werden für den primären Endpunkt
zwei Auswertungen für den Vergleich auf Überlegenheit von E über C vorgesehen:
-
in der Gesamtpopulation und
-
in der Teilpopulation BM+, in der ein größerer Unterschied erwartet wird.
Wegen des zweifachen Testens muss das globale
Signifikanzniveau α nach den Regeln des multiplen Testens angepasst werden. Dazu gibt es den Vorschlag, zunächst in der Gesamtpopulation Überlegenheit auf dem Signifikanzniveau von 4 % zu testen. Ist der Test signifikant, wäre die überlegene Wirksamkeit von E statistisch gesichert. Falls nicht, wird in der Untergruppe BM+ auf dem niedrigeren Signifikanzniveau von 1 % auf Überlegenheit von E getestet (Hoering et al.
2015). Bei der Fallzahlberechnung können demnach unterschiedliche zu erreichende HR-Werte für die Populationen vorgesehen werden, und in der Regel wird die „power“ in den beiden Tests auch unterschiedlich sein. Auch wenn der Anteil der BM+ Patienten an der Gesamtpopulation schwer vorhersehbar ist, sollte er auf Basis aller verfügbaren Vorinformation abgeschätzt werden, und beide Fehlerwahrscheinlichkeiten müssen für beide Tests prospektiv festgelegt werden. Deswegen sollte bei der Wahl eines RAD die Anwendung eines adaptiven Designs mit einer Fallzahlneubewertung stets eine Option sein, allenfalls auch in einer Variante, die erlaubt, die Überlegenheitshypothesen zu modifizieren, was nach dem allgemein formulierten Prinzip von Müller und Schäfer (
2001) möglich ist.
Targeted Design (TD)
Anders als bei RAD werden bei TD – auch als Marker-positives Design bezeichnet – nur BM+ Patienten in die klinische Prüfung aufgenommen. Wegen der Reduktion der Fallzahl und somit auch der Studienkosten wird es als effizienteres Design angesehen. TD hat aber eine andere Ausgangssituation, die bei der Planung nicht außer Acht gelassen werden sollte: Studienleitung und Prüfärzte müssen sich bei TD stärker als bei RAD der abgesicherten Bedeutung der BM+ Eigenschaft bewusst sein, wenn diese Einschlusskriterium für den Vergleich von E mit C ist.
Es gibt auch eine Variante von TD, bei der die Gruppe von Patienten, die beim
Screening BM- sind und das Einschlusskriterium nicht erfüllen, parallel in einer Beobachtungsstudie mit C behandelt werden. Für den Therapievergleich ist diese Gruppe aber nicht geeignet, und sie sollte ihre eigene Begründung und Fragestellung haben. Entscheidend für die Wahl von TD und gegen eine Wahl von RAD ist die Frage, ob ein Nutzen der Prüfsubstanz für BM- Patienten ausgeschlossen werden kann, eine Frage, die bei einem späteren Antrag auf Arzneimittelzulassung zusätzlich an Bedeutung gewinnen und gegebenenfalls weitere Prüfungen erforderlich machen kann.
Strategy Design (SD)
Während RAD und TD keinen direkten Anspruch erheben, zur Präzisionsmedizin beizutragen, hat SD diesen Anspruch, da BM die Therapieauswahl mitbestimmt. Wie bei TD und meist auch bei RAD müssen die Biomarker vor Randomisierung bestimmt und die beiden Teilpopulationen BM+ und BM- definiert sein. Randomisiert werden aber alle Patienten, unabhängig von ihrer Zugehörigkeit zu BM+ oder BM-, und zwar zwischen einer markerbasierten Therapie (MBT) und einer nicht markerbasierten Vergleichstherapie (NON-MBT). Patienten im MBT-Arm werden in den beiden Untergruppen BM+ und BM- unterschiedlich behandelt: BM+ Patienten erhalten die Prüfsubstanz E-BM+ und BM- Patienten eine andere, im Allgemeinen die übliche Vergleichstherapie C-BM-. Die Überlegenheit des MBT-Arms gegenüber dem NON-MBT-Arm der klinischen Prüfung wird methodisch wie im Fall des Vergleichs von Zytotoxika geprüft.
Die von Sargent und Allegra (
2002) als
„augmented strategy design“ (ASD) in die Diskussion gebrachte Erweiterung von SD betrifft den NON-MBT-Arm, in dem ein weiteres Mal zwischen 2 Therapien randomisiert wird. Anspruchsvoll und schwierig ist bei dieser Erweiterung bereits die Hypothesenbildung, da sich der Vergleich MBT versus NON-MBT bei einem Unterschied zwischen den Therapien im NON-MBT-Arm eventuell aufspaltet, und zwar in 2 Vergleiche von MBT gegen 2 Therapien NON-MBT-E und NON-MBT-C, einen etwaigen Standardarm. Vergleiche zwischen den 4 Teilpopulationen (E-BM+, E-BM-, NON-MBT-E, NON-MBT-C) sind wegen möglicherweise komplexen Wechselwirkungen zwischen den qualitativ unterschiedlichen Randomisierungen schwierig, und die Fallzahlplanung ist entsprechend komplex.
Für das Konzept des Masterprotokolls und für die Planung von Basket-, Umbrella- und Plattformstudien wurden effiziente biostatistische Designs und Auswerteverfahren entwickelt (Renfro und Mandrekar
2018; Park et al.
2019; Yee et al.
2019).
Auswertung von klinischen Prüfungen der Phase 1–3
Prüfungen der Phase 1 bis 3 sind prospektive klinische Prüfungen, die nach einem bestimmten Design durchgeführt werden, das vor einem dokumentierten Studienbeginn festgelegt und von unabhängigen Körperschaften, wie Zulassungsbehörden und Ethikkommissionen, geprüft wird. Dementsprechend müssen auch die Datenerhebung und -dokumentation sowie die Datenauswertung prospektiv geplant, entsprechende Pläne erstellt und hinterlegt werden. Im Prüfplan müssen die für die Auswertung erforderlichen statistischen Verfahren und die Auswertungsstrategie zumindest so detailliert und zielgerichtet dargestellt werden, dass erkennbar ist, wie die Fragestellungen der klinischen Prüfung evaluiert werden sollen, und zwar ausführlich in Bezug auf die primären Ziele und Endpunkte, in Grundzügen aber auch bezüglich aller weiteren Fragestellungen und Teilstudien sowie weiterer (z. B. sekundärer) Endpunkte (Abschn.
13.2 – „Prüfplan“).
Die erforderlichen
statistischen Verfahren sind für die 3 Phasen der klinischen Prüfung sehr unterschiedlich und müssen in enger Zusammenarbeit mit dem verantwortlichen Studienstatistiker oder einem methodischen/biostatistischen Zentrum erarbeitet und beschrieben werden:
-
Während dies im Fall der Phase 1, abgesehen von der Auswertung von Daten zur PK, überwiegend beschreibende (deskriptive) statistische Verfahren sind,
-
werden in der
Phase 3 überwiegend Verfahren der konfirmatorischen Statistik angewendet (EMEA/CPMP/ICH/363/96
1998).
-
In der Phase 2 haben sowohl deskriptive und als auch konfirmatorische Verfahren relevante Funktionen.
Diskussion zu den Endpunkten klinischer Prüfung
Die
Festlegung des primären Endpunkts zur Prüfung eines Wirkstoffs ist besonders für die Phase 3, aber auch für die Phase 2 weder trivial noch unumstritten (Tab.
2 und
3). Es bedarf der detaillierten Kenntnis des Behandlungsszenarios, um die richtige Wahl treffen zu können. Nicht zuletzt hängt die Wahl auch davon ab, ob der Hintergrund für eine Entwicklung ein akademischer ist, der ausschließlich der Verbesserung einer therapeutischen Situation dienen soll, oder ob im Hinblick auf eine geplante Arzneimittelzulassung regulatorische Aspekte stärker zu berücksichtigen sind. Schließlich wird auch die Meinungsvielfalt innerhalb der wissenschaftlichen Gemeinschaft dabei offenkundig.
Die
Wahl des geeigneten Endpunkts stellt den wichtigsten Akt im Rahmen der Konzeption einer klinischen Prüfung dar und ist in einem erheblichen Ausmaß für das Gelingen oder auch Scheitern einer Entwicklung entscheidend. Wenngleich es keine festen Regeln gibt, steht diese Entscheidung
-
einerseits auf dem Boden der bisherigen Erkenntnisse über die Art der zu entwickelnden Wirkstoffe, nämlich von Zytotoxika, von MTA und von Immuntherapeutika,
-
andererseits hängt die Wahl vom zu erreichenden Ziel ab, und dieses kann primär eine Sicht betroffener Patienten, der klinisch forschenden Wissenschaftler, die der pharmazeutischen Industrie oder einer Zulassungsbehörde sein.
Naturgemäß handelt es sich bei allen auch differenziellen Sichtweisen immer um den Anspruch, zu einer Verbesserung der Situation von an einem Malignom erkrankten Patienten beizutragen.
Im Folgenden soll auf die Argumente für oder gegen die Wahl eines Endpunkts eingegangen werden, wobei sich diese in Abhängigkeit von der Gesamtentwicklung der therapeutischen Forschung, z. B. vom Ausmaß zur Verfügung stehender etablierter Therapien, ändern können.
Gesamtüberleben (OS)
Unwidersprochen ist OS aus Sicht der Zulassungsbehörden, aber auch aus klinischer Sicht bei fortgeschrittenen metastasierten Tumoren, wie z. B. Pankreas-, nicht-kleinzelligem Lungen- (NSCLC), Mamma- oder
Kolonkarzinom, der favorisierte primäre Endpunkt (Ellis et al.
2014) (Tab.
2 und
3). Die Feststellung des Todesdatums hängt nicht – wie die von sogenannten Surrogatendpunkten wie PFS – von zahlreichen möglichen Messfehlern („bias“) ab. Die für die Beobachtung von OS oftmals notwendige lange Studiendauer und damit verbundene Zusatzkosten, aber auch Schwierigkeiten im Auffinden aller Todesdaten führten zum Vorschlag, OS durch einen früher auswertbaren Surrogatendpunkt zu „ersetzen“. Allgemein wird gefordert, dass ein Surrogat die sogenannten
Prentice-Kriterien erfüllen muss, um als durch
Metaanalyse validiertes Surrogat anerkannt zu werden (Prentice
1989; Heller
2015):
-
Die Behandlung hat einen Effekt auf OS.
-
Die Behandlung hat einen Effekt auf das Surrogat.
-
Das Surrogat ist assoziiert mit OS.
-
Der Behandlungseffekt auf OS wird durch das Surrogat erfasst.
Will man einen anderen Endpunkt, der, wie z. B. PFS, früher erfassbar ist, als Surrogat für OS einsetzen, reicht es also nicht, dass das Surrogat mit OS statistisch korreliert, sondern Patienten mit längerem PFS müssen auch individuell längeres OS zeigen (Fleming und DeMets
1996).
Zum Argument, dass insbesondere bei älteren Patienten OS wegen
kompetitiver Risiken, an anderen Ursachen als an der Grunderkrankung zu versterben, verfälscht
(„confounded“) werden kann, sowie zur neuen Situation, dass es bei mehreren Tumorentitäten mittlerweile
wirksame Folgetherapien (Salvagetherapien) gibt, die Einfluss auf die Prognose sowohl nach Experimentaltherapie als auch nach Kontrollbehandlung nehmen können (Buyse et al.
2011; Saad und Buyse
2016), halten Korn et al. (
2011) fest, dass kein Benefit einer experimentellen Erstlinientherapie gegeben ist, wenn dieser durch Folgetherapien quasi ausgeschwemmt wird. Laut diesen Autoren muss es das Ziel klinischer Forschung sein, Therapien zu entwickeln, die Patienten-Benefit im Kontext mit bestehenden Therapien bieten und nicht nur in einer imaginären Welt, in der vorhandene Therapien ausgeblendet sind. Korn et al. (
2011) warnen davor, auf weniger stringente Endpunkte, wie z. B. PFS, auszuweichen, nur weil es schwieriger bzw. mühsamer, weil länger dauernd, ist, den Effekt auf OS bei mehreren Folge-/Zwischentherapien festzustellen. Laut diesen Autoren darf PFS lediglich dann als Surrogat für die Prädiktion von OS herangezogen werden, wenn diese Vorhersage alle aktuell verfügbaren etablierten Folge-/Zwischentherapien berücksichtigt. Intermediäre Endpunkte wie PFS dürfen nur dann stellvertretend für OS verwendet werden, wenn es um die Erfassung der Aktivität einer Prüfsubstanz geht, nicht aber um die des Benefits für Patienten.
Wenn keine Folgetherapien verfügbar sind oder ein
Überwechseln („
cross-over“) von Patienten vom Kontrollarm auf die Therapie des Prüfarms nicht erlaubt wird, soll laut Saad und Buyse (
2016) OS als Endpunkt genommen werden. Gegen das Argument, dass „cross-over“ das OS als primären Endpunkt verunmöglicht, wurde angeführt, dass eine Prüfsubstanz auch dann als überzeugend einzustufen sei, wenn sie erst nach „cross-over“ zur (verbesserten) Symptomkontrolle führt (Booth und Eisenhauer
2012). Abgesehen davon, dass ein Verbot von Therapiewechseln ethische Fragen aufwirft, teilen diese Autoren nicht den Eindruck, dass es für die meisten Tumoren Folgetherapien mit wesentlichem Einfluss auf die Überlebenszeit gibt.
Laut Cuzick (
2008) soll OS nicht bei Indikationen mit sehr guter Prognose verwendet werden, da dann der Behandlungseffekt durch Tod aus anderen Ursachen stark verdünnt werden kann. Sargent und Hayes (
2008) sehen sowohl wegen „cross-over“ als auch wegen mehrerer Folgetherapien den allfälligen Behandlungsvorteil durch die Experimentaltherapie erst spät und häufig zu schwach nachweisbar, was unter dem heutigen Druck, Arzneimittel rascher und kosteneffektiver zu entwickeln, gegen eine Wahl von OS als Endpunkt spricht. Um den
Effekt einer Behandlungssequenz zu erfassen, ist OS weiterhin der ideale Endpunkt (Saad und Buyse
2016).
Krankheitsfreies Überleben (DFS)/Rezidivfreies Überleben (RFS)
DFS/RFS wird im Allgemeinen als Intervall vom Erreichen der Krankheitsfreiheit bis zur Wiedererkrankung oder bis zum Eintreten des Todes unabhängig von dessen Ursache definiert (Tab.
2 und
3).
Nach radikaler Tumoroperation ist für DFS z. B. beim
Kolonkarzinom im Stadium III formal Surrogatcharakter erwiesen, im Stadium II lediglich grenzwertig, nicht aber beim
Mammakarzinom oder NSCLC (Gill und Sargent
2006; Sargent et al.
2011). Die Zulassungsbehörden haben DFS unabhängig von seinem formal nicht validierten Status beim Mammakarzinom als eigenständigen Endpunkt gewertet und registrierten auf dieser Basis z. B. Aromatase-Inhibitoren (Robinson et al.
2014a). Diese Einschätzung erscheint insbesondere dann gerechtfertigt, wenn eine Verlängerung von DFS zu einer Verlängerung der Zeit ohne Erkrankung und krankheitsbedingte Therapie führt (Robinson et al.
2014a). Der Surrogatcharakter muss jedenfalls für genau definierte Therapiesituationen (z. B. adjuvant für DFS oder palliativ für PFS) und Behandlungsarten (z. B. Chemotherapie oder gegen molekulare Zielstrukturen gerichtete Therapien) separat untersucht und validiert werden.
Für die
Validierung von DFS als Surrogatendpunkt ist es notwendig, die Art der Wiedererkrankung („recurrent disease“) genau zu definieren, z. B. als Lokalrezidiv, Fernmetastasierung oder Auftreten eines neuen Primärtumors im selben Organ. Dies ist für das
Mammakarzinom (Hudis et al.
2007) und auch für das kolorektale Karzinom (Punt et al.
2007) erfolgt, nicht aber für zahlreiche andere Tumorentitäten. Darüber hinaus ist die Erfassung von DFS von den eingesetzten Detektionsmethoden abhängig: biochemisch (
Tumormarker), durch Bildgebung, klinisch im Rahmen physikalischer Untersuchung oder symptomatisch, d. h. durch Anamnese.
Progressionsfreies Überleben (PFS)
Üblicherweise wird
PFS als der Zeitraum von Therapiebeginn bis zur Progression oder Tod, aus welchem Grund auch immer, definiert unter Zensierung jener Patienten, die nicht weiter beobachtet werden können (Tab.
2 und
3).
Laut Saad und Buyse (
2016) sollte PFS immer dann primärer Endpunkt sein,
-
wenn effektive Folgetherapien nach der experimentellen Therapie verfügbar sind,
-
wenn langes Überleben nach Krankheitsprogredienz erwartet wird und
-
wenn „cross-over“ erlaubt ist.
Der Status von PFS als Surrogat für OS konnte unter anderem für das fortgeschrittene Kolorektalkarzinom durch
Metaanalyse von individuellen
Patientendaten für die Fluorouracil-basierte Erstlinientherapie belegt werden (Buyse et al.
2007). Metaanalytisch auf der Basis von gepoolten Analysen publizierter Daten konnten Sidhu et al. (
2013) den Surrogatcharakter von PFS für OS bei Patienten mit metastasiertem Kolorektalkarzinom nicht nur unter Chemotherapie bestätigen, sondern auch für MTA, notabene antiangiogene und gegen EGFR gerichtete monoklonale
Antikörper. Auch für das fortgeschrittene
Ovarialkarzinom konnte der Surrogatstatus etabliert werden (Booth und Eisenhauer
2012). Ungeachtet des formalen Status wird PFS für das metastasierte Pankreas-, Lungen-, Mamma- und
Kolonkarzinom als Surrogat zumindest akzeptiert, wenn auch nicht favorisiert, wenngleich es von den angeführten Tumorentitäten, abgesehen vom Kolonkarzinom, die Erfordernisse als Surrogat formal nicht erfüllt (Burzykowski et al.
2008; Miksad et al.
2008; Soria et al.
2010; Ellis et al.
2014).
Für die Zulassung von MTA wird heutzutage PFS als Surrogatendpunkt und inzwischen auch als definitiver Endpunkt eingesetzt (Robinson et al.
2014b). Die FDA erkannte PFS auch unabhängig von seinem Surrogatstatus für OS als eigenständigen primären Endpunkt für die Zulassung von neuen Wirkstoffen beim metastasierten Kolorektalkarzinom an (Sargent und Hayes
2008).
Ein Grund, warum Verlängerung von PFS nicht zwingend zu einer von OS führt, mag darin liegen, dass bei kleinvolumiger Erkrankung das Eintreten von PD keinen wesentlichen Einfluss auf OS hat. Darüber hinaus besteht eine starke Abhängigkeit zwischen der Erfassung von PD, und damit von PFS, und der Variabilität („bias“) des Messzeitpunkts aufgrund unterschiedlicher Zykluslänge, aber auch vom „bias“ durch symptomatische Progression oder fehlende Daten (Bhattacharya et al.
2009; Booth und Eisenhauer
2012).
Ocaña et al. (
2011) erachten PFS nicht als konsistentes Surrogat für einen Benefit von Patienten. Sie sehen in der asymptomatischen Befundverschlechterung in der Bildgebung, die zur Beurteilung von PD führt, keinen zwingenden Einfluss auf klinisch relevante Parameter wie OS und QoL. In jedem Fall sollten klinische Prüfungen mit PFS als primärem Endpunkt so angelegt (gepowert) werden, dass sie einen allfälligen OS-Benefit zusätzlich zutage fördern können.
Insgesamt wird PFS lediglich als suboptimales Surrogat für OS bei klinischen Prüfungen von Patienten mit metastasierten soliden Tumoren eingestuft (Pasalic et al.
2020).
Zeit bis zur Tumorprogression (TTP) und Zeit bis zum Therapieversagen (TTF)
Üblicherweise wird
TTP als der Zeitraum von Therapiebeginn bis zur Progression definiert unter Zensierung jener Patienten, die nicht weiter beobachtet werden können, und
TTF als der Zeitraum von Therapiebeginn bis zum Therapieabbruch, aus welchem Grund auch immer, und zwar wegen Progression der Erkrankung, Toxizität der Behandlung, auf Wunsch des Patienten bzw. aufgrund der Einschätzung des Arztes und wegen Todes (Tab.
2 und
3).
TTF berücksichtigt als einzige zeitabhängige
Messgröße in besonderer Weise auch die Toxizität einer Therapie und wird aufgrund des Charakters, 2 Qualitäten, nämlich therapeutische Effektivität und Toxizität, in einer Messgröße zu erfassen, als zusammengesetzter Endpunkt von den Zulassungsbehörden als nicht zulassungsrelevant angesehen und daher nicht berücksichtigt (Johnson et al.
2003; Pazdur
2008).
Zeit des Überlebens nach Progredienz (PPS)
„Post progression survival“ als weiterer möglicher Endpunkt wurde gut mit OS und besser mit PFS assoziiert gefunden, jedoch liegt keine
Metaanalyse vor, und somit kann PPS für keine Indikation als validiert eingestuft werden (Petrelli und Barni
2013). Außerdem ist bei einer Auswertung die Abhängigkeit von PPS von der vorangegangenen Zeit, nämlich von PFS, zu beachten, deren Zensierung gleichzeitig die Population der für PPS auswertbaren Patienten reduziert und bei einem Therapievergleich die Möglichkeit von „bias“ nicht ausschließt.
Objektive Ansprechrate (ORR)
Die Erfassung des Ansprechens und dessen Dauer ist in der frühen klinischen Prüfung (insbesondere in der Phase 2) ein wesentlicher Endpunkt, der der Erfassung der Aktivität neuer Wirkstoffe dient (Tab.
2 und
3).
RECIST ist für diese Konstellation geschaffen worden, nicht jedoch für die Erfassung von Wirksamkeit. RECIST stellt ein künstliches System dar, dem primär keine biologische Relevanz zugrunde liegt. Im Einzelfall gilt es dies, sofern das Ansprechen als Surrogat für OS verwendet werden soll, für eine bestimmte Situation einer definierten Erkrankungsform zu untersuchen und nachzuweisen.
Während Ansprechen als Surrogat für OS für die 5-Fluorouracil-basierte Erstlinientherapie des Kolorektalkarzinoms metaanalytisch erkannt wurde, beschrieben Grothey et al. (
2008) für dieselbe Therapie und Indikation einen von Ansprechen unabhängigen Überlebensvorteil (Buyse et al.
2000). Beim metastasierten
Mammakarzinom konnte kein Ersatzstatus von Ansprechen für OS gezeigt werden (Bruzzi et al.
2005; Burzykowski et al.
2008). In der Vergangenheit wurde sogar PR in der Therapie des metastasierten Mammakarzinoms für die Zulassung von Hormontherapie ohne Verlängerung des Überlebens wegen der verhältnismäßig geringen Toxizität herangezogen (Pazdur
2000). Voraussetzung dafür war, dass keine Patienten mit stabiler Erkrankungssituation in die klinischen Prüfungen eingebracht wurden.
In der Hämatologie diente das Erreichen von CR traditionellerweise für die Arzneimittelzulassung, z. B. von Cladribin oder Pentostatin für die Haarzellleukämie, oder die von Arsentrioxid und Tretinoin für die Zweitlinientherapie der akuten Promyelozytenleukämie (Johnson et al.
2003).
Eine rezente
Metaanalyse publizierter Daten ergab, dass ORR weder für PFS noch für OS einen Surrogatendpunkt bei der Behandlung mit Immuncheckpoint-Inhibitoren darstellt (Roviello et al.
2017). Zu ähnlichen Ergebnissen kamen Mushti et al. (
2018) in ihrer Metaanalyse in Bezug auf den fehlenden Surrogatstatus von ORR und PFS für OS.
Eine Sonderform des Ansprechens stellen die
histopathologisch definierten Ansprechkriterien dar. Das
pathologisch komplette Ansprechen (
pCR, „pathological complete response“) konnte metaanalytisch nicht als Surrogat für OS in der präoperativen Therapie des operablen
Mammakarzinoms nachgewiesen werden (Cortazar et al.
2014; Pusztai et al.
2017). Weder ypT, ypN, T-Downstaging, Tumorregressionsgrad (TRG, „tumor
regression grade“) noch zirkumferenzieller Resektionsrand (CRM, „circumferential resection margin“) stellen Surrogate für OS oder Lokalkontrolle im präoperativen Therapiesetting beim
Rektumkarzinom dar (Methy et al.
2010). Das histologische Ansprechen bei
Osteosarkomen erwies sich nicht als Surrogat für OS (Lewis et al.
2007). Auch müssen die
Vorschläge zusätzlicher Ansprechqualitäten, wie
-
Zeit bis zum maximalen Ansprechen bzw.
-
Zeit bis zum Tumorwachstum (TTG, „time to tumor growth“) oder
-
Tiefe des Ansprechens („depth of response“) oder
-
frühe Tumorrückbildung („early tumor shrinkage“),
als noch
nicht validiert angesehen werden (Venook und Tabernero
2015; Heinemann et al.
2015).
Biomarker als Surrogatendpunkte
Während sich Biomarker als überaus bedeutsam für die Patientenselektion erwiesen haben, gibt es derzeit keinen Biomarker, der metaanalytisch als Surrogat für OS validiert werden konnte (Biomarkers Definitions Working Group
2001; Sargent und Hayes
2008; Ellis et al.
2014) (Tab.
2). Biomarker-Endpunkte, die formal nicht den Kriterien eines Surrogats entsprechen und sich dennoch als klinisch nützlich erweisen, werden als
korrelative Endpunkte bezeichnet (McShane et al.
2009).
Stellvertretend sei
PSA angeführt, ein Biomarker, der beim
Prostatakarzinom in der klinischen Routine durchaus therapiemitbestimmend ist, für den jedoch metaanalytisch keine Ersatzkraft („surrogacy“) für OS gefunden wurde – lediglich eine Assoziation zwischen PSA und OS – und der damit als nicht validiert einzustufen ist (Collette et al.
2005). Das gilt auch für
Lebensqualität (QoL), gesundheitsbezogene Lebensqualität (HRQoL) und Patient-Reported Outcomes (PRO)
Derzeit besteht die Diskussion, wie solche Beurteilungssysteme optimal an neue Wirkstoffe und Behandlungssituationen angepasst werden können. Die FDA favorisiert die Kombination aus PRO-CTCAE für die Erfassung von symptomatischen AE und PROMIS (Patient-Reported Outcomes Measurement Information System) für die von physischer Funktion und sieht das bisherige HRQoL-System als zu unflexibel an (Basch et al.
2014; Jensen et al.
2015) (Kap. „Bewertung unerwünschter Ereignisse und Therapienebenwirkungen“). Die EORTC QoL Group sieht in der Kombination ihres Core-QLQ-C30-Fragebogens mit den Inhalten einer umfassenden Sammlung von indikationsspezifischen Modulen den Vorteil – im Gegensatz zur FDA – bereits international validiertes Material einzusetzen (Aaronson et al.
1993; Reeve et al.
2014; EMA/CHMP/292464/2014
2016; Bottomley et al.
2019). Allein diese Diskussion zeigt, dass sich QoL-Beurteilungen nicht als primäre Endpunkte für klinische Prüfungen eignen, zumal keine weltweit einheitliche Akzeptanz der Beurteilungssysteme vorliegt.
In einem systematischen Review von Haslam et al. (
2019) wurde auf der Basis von
Metaanalysen des höchsten Evidenzgrads festgestellt, dass die meisten Surrogate lediglich schwache oder mäßige Korrelation zu OS aufweisen und daher Schlussfolgerungen aus denselben nur beschränkt gemacht werden mögen.
Zulassung von Arzneimitteln
Insgesamt besteht weltweit die Tendenz, neue Arzneimittel leichter und rascher verfügbar zu machen. Die Beantwortung der Frage, wie viel Nutzen gegeben sein muss, damit eine neue Prüfsubstanz zugelassen wird, ist keine wissenschaftliche, sondern primär eine komplexe sozio-politische bzw. -ökonomische, die zu ihrer Beantwortung auf wissenschaftliche Methoden zurückgreift. Letztlich ist bestimmend, wie viel Risiko/Nebenwirkungen eine Gesellschaft für welches Behandlungsergebnis auf sich zu nehmen als adäquat einstuft und was sich eine Gesellschaft das Gesundheitssystem Kosten lassen kann, soll und will. Der EMA ist es von Gesetzes wegen untersagt, Entscheidungen aufgrund ökonomischer Überlegungen zu treffen. Die Agentur ist weder für den Review-Prozess von Kosteneffektivität oder Preisbildung verantwortlich noch für die Verfügbarkeit von Arzneimitteln in der EU. Letztere Inhalte werden auf dem Niveau der nationalen Regierungen und deren Gesundheitsbehörden geregelt.
Schon in der Vergangenheit wurden zahlreiche Onkologika auf der Basis von Phase-2-Daten entweder regulär oder in vorläufiger Variante zugelassen, viele darunter wegen antitumoralen Ansprechens, andere wegen zusätzlicher Erleichterung von tumorspezifischen Symptomen oder nur wegen letzterem (Johnson et al.
2003). Mittlerweile ermöglicht auch die EMA immer mehr Zulassungen auf der Basis von einarmigen Phase-2-Prüfungen, und zwar insbesondere bei seltenen Tumoren und im Rahmen sogenannter
stratifizierter Medizin, d. h. biomarkerbasierter Patientenselektion (Martinalbo et al.
2016). Die Zulassung einer Prüfsubstanz erscheint der EMA insbesondere dann gerechtfertigt, wenn entsprechende Nachweise für die Wirksamkeit aus explorativen Phase-2-Prüfungen vorliegen.
Der Einsatz eines sogenannten
externen Kontrolldesigns bleibt beschränkt auf Situationen, in denen der Behandlungseffekt als dramatisch und die Erkrankung als gut vorhersehbar eingestuft werden (EMEA/CPMP/ICH/364/96
2001). Der Effekt in solchen extern kontrollierten klinischen Prüfungen muss wesentlich größer sein als das Ergebnis der günstigsten Vergleichskontrollen in Form von historischen Kontrollen. Bei gleichzeitigem Fehlen jeglicher relevanter Sicherheitsbedenken ist diese pragmatische Vorgehensweise im Interesse der schnellen therapeutischen Verfügbarkeit zu begrüßen.
Kriterien, die dafür sprechen, die Arzneimittelzulassung auf der
Basis von nicht-randomisiert zustande gekommener Evidenz vorzunehmen, wurden von Miller und Joffe (
2011) aufgestellt:
-
Zwingend starke Rationale, meist auf dem Wirkmechanismus basierend, welche die Wirksamkeit der neuen Prüfsubstanz favorisiert
-
Evidenz eines großen Wirkumfangs („large effect sizes“) auf der Basis von frühen klinischen Prüfungen
-
Schlechte Ergebnisse bei eingeschränkter Patientenvariabilität unter den derzeit zur Verfügung stehenden Therapie- und Supportivmaßnahmen („medical need“)
-
Verfügbarkeit von historischen Kontrollgruppen mit vergleichbaren Charakteristika, wie sie die präsumtiven Patienten der angestrebten Studie aufweisen sollen
-
Vorhandensein eines klinisch anerkannten oder validierten primären Surrogatendpunkts in der nicht kontrollierten Studie
Dem steht die Erfahrung gegenüber, dass insbesondere MTA häufig nur bescheidene antitumorale Aktivität in Phase-2-Studien erkennen lassen und deshalb die Testung in RCT benötigen (Roberts et al.
2003).
Kriterien, die als ausreichend erfolgversprechend eingestuft werden, um
das Fortsetzen der frühen klinischen Entwicklung in Form der Phase 3 zu rechtfertigen, sind (Roberts et al.
2003):
-
Das Vorliegen einer einzigartigen und validierten Zielstruktur bei überzeugender präklinischer Aktivität
-
Günstige PK, wie z. B. gute
Bioverfügbarkeit bei oraler Applikation, lange
Halbwertszeit, Wirkstoffspiegel weit über dem inhibitorischen Schwellenwert mit Talspiegeln über dem Schwellenwert
-
Biologische Aktivität oder Toxizität in den früheren klinischen Entwicklungsphasen
-
Bedeutung in der Behandlung einer bestimmten Erkrankung als Monotherapie oder in Kombination
Die U.S.
Food and Drug Administration (FDA) sieht durch den
21st Century Cures Act einerseits Erleichterungen hinsichtlich unnützer bürokratischer Auflagen und Restriktionen im Zusammenhang mit wissenschaftlichen Meetings (Hudson und Collins
2017). Dem gegenüber steht andererseits enormer Druck, neuen Arzneimitteln und
Medizinprodukten rascher die Zulassung zuteil werden zu lassen. Dazu scheinen dem US-Gesetzgeber insbesondere auch Methoden geeignet, die rascher zu Ergebnissen führen als randomisierte klinische Prüfungen – wie Evidenz von klinischer Erfahrung, z. B. aus Beobachtungsstudien, Registern oder sogar dem therapeutischen Routineeinsatz – selbst wenn hierdurch geringere Arzneimittelsicherheit und Effektivität als bisher gefordert inkauf genommen würden (Avorn und Kesselheim
2015).
Herkömmlich wurde ein Gewinn an medianem PFS von 2,7 Monaten (einem HR von 0,57 entsprechend) und einer an medianem OS von 2,0 Monaten (einem HR von 0,73 entsprechend) als ausreichend für die Zulassung eines neuen Arzneimittels auf der Basis von prospektiv randomisierten Phase-3-Prüfungen erachtet.
Für die Beibehaltung dieser Strategie spricht, dass die serielle Hintereinanderreihung von neuen Therapien dieses Ausmaß an Verbesserung z. B. für das metastasierte Kolorektalkarzinom das OS von dereinst median 5,0 Monaten auf nunmehr median über 20 Monate anheben konnte (Sobrero und Bruzzi
2009). Wäre die Schwelle für die Zulassung höher angesetzt worden, wären einige der heute erfolgreich eingesetzten Arzneimittel nicht verfügbar. Dem steht die Forderung nach Verlängerung von PFS um z. B. 5–6 Monate gegenüber, um dann eine bedingte (EMA) bzw. beschleunigte (FDA) Arzneimittelzulassung („conditional/accelerated approval“) zu gewähren und damit den gesamten Entwicklungsprozess zu verkürzen.
Die
bedingte Zulassung durch die EMA geht mit jährlichem Review zu ihrer Aufrechterhaltung bis zur vollen Zulassung einher. Jedoch kann auch eine reguläre Zulassung wieder aufgehoben oder suspendiert werden, wenn die Wirksamkeit oder die Risiko-Nutzen-Balance nicht mehr gegeben sein sollte (Boon et al.
2010).
Die
beschleunigte Zulassung durch die FDA erfordert den Nachweis von klinischem Nutzen durch klinische Postmarketing-Prüfungen. Wird dieser Wirksamkeitsnachweis nicht erbracht, kann dies zur Aberkennung der Marktzulassung führen (FDA Guidance for Industry
2014b). Regulär von der FDA zugelassene Medikamente benötigen keine bestätigenden Postmarketing-Wirksamkeitsstudien und können ausschließlich aus Gründen ungenügender Arzneimittelsicherheit vom Markt genommen werden (DeLoughery und Prasad
2018).
Bisher musste eine vorläufige Arzneimittelzulassung durch zumindest eine prospektiv randomisierte Studie mit Überlebensvorteil, am besten durch 2, ergänzt werden. Sollte PFS als Endpunkt für die Zulassung herangezogen werden, so sollte das Ausmaß der Verlängerung desselben ausreichend sein, d. h. klinisch bedeutungsvoll sein (Tuma
2009). In Postmarketing-Studien muss Verlängerung von OS nachgebracht werden.
PFS mag ein wertvoller Endpunkt bei bestimmten Erkrankungen und für bestimmte Prüfsubstanzen sein, nicht aber für andere (Tuma
2009). Die wesentlichsten Szenarien, in denen aktuell ein Abgehen von der Forderung von OS als zulassungsrelevantem Endpunkt zu erleben ist, sind
-
ausgeprägte antitumorale Aktivität bereits in der frühen Entwicklungsphase, die das Erfordernis nach Äquipoise als Grundlage für RCT nicht gewährleistet,
-
der langsame natürliche Verlauf einer Erkrankung und
-
die Seltenheit der Erkrankung (Blumenthal et al.
2017).
Die erste reguläre Zulassung eines neuen Arzneimittels ausschließlich auf der Basis hoher OR (72 %) war die von Crizotinib bei ROS1-rearrangiertem metastasiertem NSCLC im Rahmen einer einarmigen Expansionskohorte einer Phase-1-Prüfung (Kazandjian et al.
2016). Das Wesen regulärer Zulassung besteht in der Verlängerung von OS und der Verbesserung von QoL oder eines etablierten Surrogats. Zumal OR kein etabliertes Surrogat bei NSCLC darstellt, muss diese Vorgangsweise, die seither auch für zahlreiche andere Onkologika Anwendung fand, als nicht unproblematisch angesehen werden (DeLoughery und Prasad
2018).
Als Musterbeispiele für unorthodoxe Zulassungen sind die vorläufige Arzneimittelzulassung des TKI Ceritinib in ALK-(„anaplastic lymphoma kinase“-)rearrangiertem NSCLC auf der Basis von Phase-1-Daten und später die des Immuncheckpoint-Inhibitors Pembrolizumab zur Behandlung von metastasiertem
Melanom und die von Platin-vorbehandeltem NSCLC in einer einarmigen, nicht-randomisierten Phase-1-Erstanwendung am Menschen unter Einbeziehung von multiplen Expansionskohorten anzuführen (Khozin et al.
2015; Kang et al.
2017).
Als weiteres Beispiel für eine innovative Zulassung muss die erste
organunabhängige (
„site agnostic“) vorläufige FDA-Zulassung von Pembrolizumab bei soliden Tumoren mit hoher Mikrosatelliten-Instabilität (MSI-H, „microsatellite instability high“) oder „Mismatch-repair“-Defizienz (dMMR, „deficient mismatch repair“), wie fortgeschrittenen kolorektalen und anderen gastrointestinalen Karzinomen sowie
Endometriumkarzinomen, eingestuft werden (Lemery et al.
2017; Blumenthal und Pazdur
2018). Diese Arzneimittelzulassung erfolgte auf der Basis hoher Ansprechraten und langer Ansprechdauer (Merck
2020). Für die endgültige Zulassung mussten diese Daten durch eine prospektiv randomisierte Phase-3-Prüfung für die Erstlinientherapie des MSI-H/dMMR fortgeschrittenen Kolorektalkarzinoms bestätigt werden (André et al.
2020).
Eine zweite beschleunigte agnostische, d. h. ausschließlich auf dem Nachweis des Vorliegens eines Biomarkers – nämlich dem einer hohen Tumormutationslast (TMB-high) – basierende Zulassung erfolgte 2020 ebenfalls für Pembrolizumab, und zwar bei nicht resezierbaren oder metastasierten soliden Tumoren (Marabelle et al.
2020). Eine dritte beschleunigte tumoragnostische Zulassung erging seitens der FDA für den Tropomyosinrezeptorkinase-(TRK-)Inhibitor Larotrectinib auf der Basis einer außergewöhnlich hohen Ansprechrate von 86 % bei einer Reihe von üblicherweise nicht oder bestenfalls schlecht behandelbaren, teilweise seltenen, auch kindlichen Tumoren. Die EMA vergab für diese Arzneimittelentwicklung ihre erste agnostische Marktzulassung (Drilon et al.
2018; Hong et al.
2020).
Vorläufige und reguläre Zulassung auf der Basis von ausschließlich Phase-2-Daten wird jedoch nur erteilt, wenn die neue Entwicklung einen klinisch bedeutsamen Vorteil gegenüber dem etablierten Standard zu bieten scheint (Tsimberidou et al.
2009).
Die bedingte bzw. die beschleunigte Arzneimittelzulassung stellt eine besondere Herausforderung für Zulassungsbehörden dar (Senderowicz und Pfaff
2014). Gemäß einer Analyse wurde in weniger als 10 % jener vorläufigen Zulassungen, in denen später RCT zum endgültigen Wirksamkeitsnachweis durchgeführt wurden, auch tatsächlich die klinische Wirksamkeit als überlegen dokumentiert; in dieser klinischen Prüfung war ein Drittel (41 von 123) der Zulassungen auf Onkologie ausgerichtet (Pease et al.
2017). Davis et al. (
2017) analysierten, dass die EMA im Zeitraum von 2009–2013 bei 44/68 Indikationen von 48 Onkologika, d. h. in 65 %, die Zulassung ohne Vorliegen eines OS-Benefits erteilte. Nur in 7 % (3/44) dieser Zulassungen konnte in späterer Verlaufsbeurteilung ein OS-Gewinn beobachtet werden. In lediglich 5/44 anderen Indikationen (11 %) trat Benefit in QoL nach der Zulassung ein.
Eine Analyse der FDA-Zulassungen von Onkologika im Zeitraum von 2008–2012 ergab, dass 67 % auf der Basis von Surrogatendpunkten erfolgte bzw. in 100 % der 15 beschleunigten Zulassungen. Nach Jahren der Nachbeobachtung war bei 86 % der Zulassungen der Effekt auf OS entweder immer noch ungewiss oder nicht gegeben (Kim und Prasad
2015).
Eine rezentere Analyse über den Zeitraum 1992–2017 kam zu einem vergleichbaren Ergebnis (Gyawali et al.
2019). In einem retrospektiven Vergleich von Zulassungen der FDA im Zeitraum von 2012–2017 auf der Basis von „breakthrough status“ versus „non-breakthrough status“ konnte enttäuschenderweise kein Unterschied in den Ergebnisgrößen ORR oder PFS beobachtet werden (Hwang et al.
2018).
Die Erfüllung der Auflagen im Rahmen von bedingten/beschleunigten Zulassungen wird jedoch ungenügend kontrolliert bzw. bei negativem Studienausgang nicht unbedingt durch Entzug einer vorläufigen Zulassung sanktioniert. Um der Erwartung der Wahrung der größtmöglichen Patientensicherheit zu entsprechen, sind Zulassungsbehörden dazu übergegangen, gleichzeitig mit dem Antrag um Marktzulassung auch die Vorlage eines Risiko-Managementplans der Postmarketing-Pharmakovigilanz zu verlangen. Hand in Hand mit der Entwicklung von MTA sind Zulassungsbehörden zunehmend mit der Zulassung von
In-vitro Diagnostika („companion diagnostics“) für die Patientenselektion bzw. -stratifizierung befasst (Senderowicz und Pfaff
2014).
Für die Zulassung von neuen Arzneimitteln wird ein positives Nutzen-Risiko-Profil gefordert (Eichler et al.
2009). Es werden aber auch unorthodoxe Wege möglicher künftiger Vorgangsweisen für die Entwicklung neuer Arzneimittel beschrieben, die den Rahmen dieses Beitrages sprengen, zumal sie erst in Diskussion sind (Dhingra
2015; Goldberg et al.
2017; Eichler et al.
2018,
2020).