Hintergrund und Hypothese
COVID-19 ist eine hochinfektiöse Krankheit, die durch das neuartige Coronavirus SARS-CoV‑2 verursacht wird. Die andauernde COVID-19-Pandemie wurde von der Weltgesundheitsorganisation (WHO) zur gesundheitlichen Notlage internationaler Tragweite erklärt [
1,
2]. Die Pandemie wird weltweit mit mehr als 3,5 Mio. Todesfällen (Stand: 08.06.2021) in Verbindung gebracht und verursacht gesellschaftliche Probleme durch schwerwiegende Konsequenzen für Gesundheitswesen, Sozialwesen und Wirtschaft.
Die Symptome der Krankheit sind unspezifisch und stark heterogen [
3], weshalb sie kaum zur Diagnose herangezogen werden können. Stattdessen erfolgt die Diagnostik mithilfe molekularer Tests über die reverse Transkriptionspolymerasekettenreaktion (RT-PCR), bei der das Virus über seine RNA identifiziert wird [
4]. Die kontinuierlich veröffentlichten offiziellen COVID-19-Fallzahlen werden größtenteils über diesen Test ermittelt. Es wird jedoch angenommen, dass diese Anzahl von SARS-CoV-2-Fällen deutlich unterschätzt wird, hauptsächlich aufgrund nicht gemeldeter (weil nicht entdeckter) Fälle durch asymptomatische Krankheitsformen und/oder begrenzter diagnostischer Kapazitäten [
5,
6]. Die resultierende Dunkelziffer schwankt hypothetisch stark zwischen Ländern in Abhängigkeit von lokalen Teststrategien und -kapazitäten.
Infolgedessen ist die Gesamtzahl der infizierten Fälle als der wesentliche Schlüsselwert für das Verständnis des Krankheitsfortschrittes derzeit nicht bekannt. Insbesondere zu Beginn einer Pandemie ist dies aber meistens der Fall. Die Schätzung der Gesamtzahl infizierter Fälle ist wichtig, um 1) die Ausbreitung der Pandemie zu verfolgen, 2) die Sterblichkeitsrate zu berechnen und 3) die fortschreitende Ausbreitung einer potenziellen Herdenimmunität abzuschätzen. Somit wirkt sich die Schätzung der Dunkelziffer auch auf die mathematische Modellierung aus, wie in dem Artikel von Priesemann et al. zur Rolle epidemiologischer Modelle bei der Beschreibung des Ausbruchsgeschehens in diesem Themenheft genauer untersucht wird.
Daher sind Methoden erforderlich, mit deren Hilfe die Anzahl unentdeckter Fälle abgeschätzt werden kann. Beispielsweise wurden serologische Antikörperdetektionstests etabliert [
7]. Diese sind in der frühen Phase einer Pandemie allerdings noch nicht verfügbar oder führen zu umstrittenen Schlussfolgerungen aufgrund unzureichender oder unbekannter Sensitivität und Spezifität der Test-Assays, nichttransparenter Studiendesigns [
8‐
10] und unklarer zeitlicher Stabilität der Seroprävalenz [
11]. Als komplementäre Methode zu Antikörper-Assays schlagen wir ein mathematisches Modell vor, das insbesondere in der Frühphase einer Pandemie angewendet werden kann. Das Modell haben wir im Rahmen der COVID-19-Pandemie entwickelt und erprobt, allerdings ist seine Anwendbarkeit nicht auf diese beschränkt. Das Modell macht starken Gebrauch von nach Altersgruppen aufgelösten Daten, anders als andere mathematische Modelle zur direkten Schätzung der tatsächlichen Infektionszahlen [
12,
13], und stellt somit einen ergänzenden Ansatz dar.
Unsere Motivation, das Modell zu entwickeln, war die Hypothese, dass sich die Dunkelziffern zwischen den Ländern in der Frühphase einer Pandemie stark voneinander unterscheiden. Wir zeigen das für COVID-19 durch einen Vergleich der Länder Deutschland und Italien, die sich als gute Modellländer erweisen. Diese Hypothese möchten wir im Folgenden durch 2 Sachverhalte erläutern.
Eine Begründung für diese unterschiedlichen Dunkelziffern liegt unter anderem in der zeitlichen Entwicklung der Pandemie. Italien war als erstes europäisches Land stark von der Pandemie betroffen, was sich in einem rapiden Anstieg von Fällen äußerte, die intensivmedizinische Betreuung brauchten. Da es gerade zu Beginn der Pandemie noch an systematischer Teststruktur fehlte und die Gesundheitsbehörden durch den plötzlichen Anstieg stark belastet waren, konnten nicht genügend Infektionsketten hinreichend verfolgt werden. Mildere Fälle wurden möglicherweise überproportional nicht getestet und blieben unentdeckt. Da die Wahrscheinlichkeit schwerwiegender Symptome mit dem Alter zunimmt [
3], unterscheidet sich auch die Altersstruktur innerhalb aller gemeldeten Fälle und die älteren Patienten sind überrepräsentiert.
Unser Ziel besteht darin, mittels eines einfachen mathematischen Modells die Dunkelziffern in Deutschland und Italien zu schätzen und dadurch die anhand der Zahlen beobachteten unterschiedlichen Fallsterblichkeiten zumindest teilweise zu erklären.
Wir formulieren ein mathematisches Modell, das die Prävalenzen (Grad der Verbreitung einer andauernden oder zurückliegenden SARS-CoV-2-Infektion in der Bevölkerung) verschiedener Altersgruppen aus den gemeldeten Infektionen mit den Prävalenzen vergleicht, die sich aufgrund von unterschiedlicher Mobilität und sozialem Verhalten ergeben sollten. Von diesen korrigierten Prävalenzen erwarten wir, dass die daraus ermittelten Fallsterblichkeiten weniger Unterschiede zwischen z. B. Italien und Deutschland zeigen. Wir fassen das Vorgehen zur Bestimmung der Dunkelziffer zunächst kurz zusammen und geben später Details, die wir anhand der verwendeten Daten illustrieren.
Methoden
Verfahren zur Schätzung der Dunkelziffer
Weil nicht jede Infektion zuverlässig erkannt und gemeldet wird, ist die tatsächliche Prävalenz unbekannt. Bestimmt man die Prävalenz auf Basis der gemeldeten Infektionszahlen, so liegt damit eine untere Abschätzung der wahren Prävalenz vor. Diese untere Abschätzung wollen wir im Weiteren als gemeldete Prävalenz bezeichnen.
Um die Lücke zwischen wahrer und gemeldeter Prävalenz rechnerisch zu schließen, bestimmen wir die Unterschiede in den Infektionspotenzialen für die verschiedenen Altersgruppen und vergleichen diese mit den Unterschieden in den gemeldeten Prävalenzen. Dazu muss das altersabhängige Infektionspotenzial (bedingt durch Anzahl sozialer Kontakte, Empfänglichkeit für das Virus) aus den Prävalenzen herausgerechnet werden.
Bei der Auswahl der statistischen Werkzeuge haben wir auf unsere statistischen Kompetenzen in der Fahrzeugentwicklung
1 zurückgegriffen. Dort werden frühe Ausfälle (z. B. bei einem niedrigen Kilometerstand) zuerst von den Vielfahrern bemerkt. Für die Hersteller ist es bei solchen Ausfällen wichtig zu erkennen, ob das Einzelfälle sind oder ob sie alle ausgelieferten Fahrzeuge einer Baureihe betreffen. Will man früh, auf Basis gemeldeter Bauteilausfälle, verlässliche Prognosen ableiten, sieht man sich mit einem sog. Missing-Data-Problem konfrontiert. Durch begründete Annahmen über die monatlichen Fahrleistungen aller Fahrzeuge im Feld kann man dort auf die Dunkelziffer schließen.
Datengrundlage
Alle unsere Analysen beziehen sich auf die folgenden Datenquellen. Für Italien nutzen wir vornehmlich die Daten aus den Berichten des nationalen Gesundheitsinstituts
Istituto Superiore di Sanità (ISS) [
14], welche in regelmäßigen zeitlichen Abständen veröffentlicht werden und Informationen über die registrierten Infektionen in verschiedenen Altersgruppen enthalten. Für Deutschland nutzen wir hauptsächlich die Daten des Robert Koch-Instituts [
15]. Einzelne Darstellungen, welche keine altersspezifischen Daten benötigen, basieren zusätzlich auf den Daten der Johns Hopkins University [
16,
17]. Für die Altersverteilungen der Bevölkerungen nutzen wir die Daten von der Webseite „PopulationPyramid“ [
18].
Als Referenzdatum wählen wir den 16.04.2020. Zu diesem Zeitpunkt ist in beiden Ländern schon das Maximum der ersten Welle erreicht worden (Abb.
1), sodass man die Dunkelziffer in den Frühphasen der nationalen Ausbrüche gut abschätzen kann.
Grundannahme
Bei der Bestimmung der Dunkelziffer gehen wir davon aus, dass die Verbreitung des Virus in einer Gruppe proportional zu deren Infektionspotenzial erfolgt. Dieses Infektionspotenzial hängt von vielen verschiedenen Faktoren ab, wie bspw. der Anzahl der Kontakte und der Empfänglichkeit der Menschen in dieser Gruppe für das Virus. Gerade in der Frühphase einer Pandemie lässt sich das genaue Infektionspotenzial noch nicht gut abschätzen, da das Virus zu dem Zeitpunkt noch nicht gut verstanden wird.
Was allerdings schätzungsweise verfügbar ist, sind Kontaktzahlen innerhalb einer Gruppe. Die Anzahl der Kontakte korreliert nun stark mit den sozioökonomischen Faktoren, von denen sehr viele in der Praxis nicht hinreichend bekannt sind. Ein Faktor, für den dies bekannt und gut untersucht ist, ist das Alter (siehe [
19] und [
20]). Unser Modell bezieht sich auf die Frühphase einer Pandemie, in der die untersuchten und modellierten Kontaktzahlen noch nicht oder weniger stark von sanitären und sozialen Maßnahmen beeinflusst werden. Zu dem von uns betrachteten Zeitpunkt waren allerdings sowohl in Italien als auch in Deutschland solche Maßnahmen in Kraft, was sicherlich einen Einfluss auf die absoluten Kontaktzahlen hatte. Allerdings gehen wir für die beobachteten Zeiträume davon aus, dass sich die Maßnahmen relativ gesehen auf alle Altersgruppen eher gleichmäßig ausgewirkt haben. Damit nehmen wir an, dass sich die relativen Verhältnisse zwischen den Kontaktzahlen der verschiedenen Altersgruppen auch durch die Maßnahmen nicht stark geändert haben. Da die Ergebnisse unseres Modells nur von diesen relativen Unterschieden abhängen und nicht auf absolute Kontaktzahlen angewiesen sind, bedeutet diese Annahme auch keine großen Änderungen in unseren Ergebnissen.
Anwendung des Verfahrens
Im Folgenden bezeichne
\(P_{\mathrm{reg},i}=F_{\mathrm{reg},i}/B_{i}\) die Prävalenz der registrierten Fälle in der Altersgruppe
i, wobei
Freg,i die Anzahl der registrierten Fälle in Altersgruppe
i und
Bi die Größe der zugehörigen Bevölkerungsgruppe ist. Mit
Ki bezeichnen wir die zugehörigen relativen Kontaktzahlen, als deren Grundlagen uns die Ergebnisse aus [
19] dienen, die in Tab.
1 zu finden sind. Wir modifizieren die relativen Kontaktzahlen für Kinder unter 10 Jahren, indem wir die zugehörigen Werte aus Tab.
1 durch den Faktor 2 teilen, um die angenommene geringere Infektionsempfänglichkeit von Kindern unter 10 Jahren zu berücksichtigen [
21]. Weil die Aufteilung der Altersgruppen der registrierten Fälle für Deutschland und Italien nicht mit der aus Tab.
1 übereinstimmt, interpolieren wir die relativen Kontaktzahlen linear und erhalten damit insgesamt für jede Altersgruppe
i der registrierten Fälle eine relative Kontaktzahl
Ki.
Tab. 1
Empirisch ermittelte relative Kontaktzahlen verschiedener Altersgruppen aus [
19]
00–04 | 1,00 |
05–09 | 1,42 |
10–14 | 1,73 |
15–19 | 1,68 |
20–29 | 1,45 |
30–39 | 1,45 |
40–49 | 1,38 |
50–59 | 1,31 |
60–69 | 1,06 |
70+ | 0,81 |
Um zu bestimmen, welche Altersgruppe die Referenz für die Prävalenz darstellt, bilden wir im ersten Schritt die normalisierten (gemeldeten) Prävalenzen \(P_{\mathrm{norm},i}=P_{\mathrm{reg},i}/K_{i}\) für alle Altersgruppen. Die normalisierte Prävalenz modelliert daher einen Zustand, in welchem in der entsprechenden Bevölkerungsgruppe jeder Mensch im Mittel genau einen Kontakt hat.
Im zweiten Schritt bestimmen wir die maximale normalisierte Prävalenz \(P_{\mathrm{norm},\max }=\max _{\mathrm{i}}\left(P_{\mathrm{norm},i}\right)\) und nehmen diese dann als Referenz für alle Altersgruppen an.
Beim dritten Schritt multiplizieren wir diese einheitlichen Werte für jede Altersgruppe i wieder mit der zugehörigen relativen Kontaktzahl Ki und erhalten eine vorläufige Schätzung der wahren Prävalenz \(\tilde{P}_{i}=P_{\mathrm{norm},\max }\cdot K_{i}\).
Final berücksichtigen wir im vierten Schritt, dass viele Fälle aufgrund fehlender Symptome nicht auffallen. Da wir die Rate
\(a_{i}=a\) dieser asymptomatischen Fälle für alle Altersgruppen als gleich annehmen, erhalten wir die (finale) Schätzung der wahren Prävalenz:
$$P_{i}=\frac{\tilde{P}_{i}}{1-a}.$$
Sobald Daten vorliegen, mit denen der Anteil der asymptomatischen Fälle besser nach Altersgruppen aufgelöst werden kann, sollte das im Modell berücksichtigt werden. Die angepassten Fallzahlen berechnen sich hieraus, indem wir wieder mit den dazugehörigen Bevölkerungszahlen multiplizieren.
Um eventuelle Verteilungsunterschiede zwischen den Geschlechtern nicht zu übersehen, führen wir dieses Verfahren für Männer und Frauen getrennt durch und erhalten somit für beide Geschlechter eine angepasste Zahl an Infektionen.
Diskussion
Durch unser prävalenzbasiertes Modell der ersten 7–8 Wochen der Pandemie schätzten wir die Dunkelziffer und hiermit die tatsächliche Prävalenz der SARS-CoV-2-Infektionen. Diese Prävalenzen waren für Deutschland 2,8-mal und für Italien 8,3-mal höher als jene basierend auf der Anzahl gemeldeter Fälle. Demnach wären zu diesem frühen Zeitpunkt der Pandemie bereits 0,44 % der Bevölkerung Deutschlands und 2,18 % der Bevölkerung Italiens infiziert gewesen. Die Fallsterblichkeit würde demnach 0,98 % für Deutschland und 1,51 % für Italien betragen.
Um die Güte der Vorhersagen unseres mathematischen Modells zu überprüfen, nutzen wir Literaturdaten aus serologischen Untersuchungen als Referenz. Solche Antikörpertests gelten als relativ verlässlicher Nachweis für eine zurückliegende SARS-CoV-2-Infektion. Streeck und Kollegen schätzten die tatsächliche Prävalenz der SARS-CoV-2-Infektionen mittels serologischer Methoden basierend auf dem Vorhandensein spezifischer Antikörper gegen die Virusproteine [
22]. Sie fanden solche Antikörper in 15,5 % der durch ein Super-spreading-Ereignis stark exponierten Population im Kreis Heinsberg. Durch dieses Ereignis ist die resultierende Prävalenz zwar nicht repräsentativ für Deutschland oder Europa, jedoch sollte der dadurch geschätzte Anteil der Dunkelziffer vergleichbar sein. Deren Antikörperstudie detektierte eine 5‑mal höhere Prävalenz als die angenommene Prävalenz basierend auf detektierten COVID-19-Fällen. Dieser Faktor liegt zwischen unseren Werten für Deutschland und Italien.
Italienische Behörden schätzten die tatsächliche Prävalenz ebenfalls mittels Antikörpertests. Nach einem landesweiten serologischen Test von 64.660 Personen wurde die Prävalenz auf 2,5 % geschätzt. Dieser Wert liegt sehr nahe an unserem Wert von 2,18 % [
23].
In einem ähnlichen Test, allerdings begrenzt auf die stark exponierte Provinz Bergamo, wurden 423 Arbeiter serologisch getestet, wovon bereits 38,5 % SARS-CoV-2-Antikörper hatten. Dieser Anteil ist 26-mal so groß wie die aus den offiziell gemeldeten Fällen errechnete Prävalenz [
24]. Diese starke Diskrepanz bestätigt unsere Annahme, wonach eine stärkere Überlastung der Gesundheitssysteme mit einer höheren Dunkelziffer einhergeht.
Bezüglich Fallsterblichkeit schätzten Streeck et al. [
22] basierend auf ihrer Antikörperstudie einen Wert von 0,36 % (mit 95 %-Konfidenzintervall [0,29 %; 0,45 %]) für Deutschland. Dieser Wert liegt etwas unter unserer Schätzung. Die italienweite Schätzung würde mit einer Fallsterblichkeit von 2,3 % einhergehen [
23], während die Studie in der Provinz Bergamo auf einen Wert von 1 % kam [
24]. Die aus unserem Modell resultierende Fallsterblichkeit von 1,51 % liegt in Bereich dieser Studien.
Diese Übereinstimmung untermauert die Validität unseres Models als schnelle, effiziente und kostengünstige Methode zur Abschätzung der Dunkelziffer in einer frühen Pandemiephase. Marginale Unterschiede zwischen unseren Schätzungen und jenen aus Antikörpertests könnten auf über- oder unterschätzte Prävalenzen unseres Modells oder auf technische Grenzen der Antikörpertests (limitierte Spezifität oder nicht repräsentative Testkohorten) zurückgehen. Mögliche Abweichungen zu den Aussagen unseres Modells können bspw. auf die Unsicherheiten in den genutzten Kontaktzahlen zurückgehen, welche nie vollständig und exakt bekannt sind. Hier zeigt sich aber auch ein weiterer Vorteil unseres Modells im Vergleich zu anderen mathematischen Ausbreitungsmodellen, welche Kontaktzahlen nutzen: Unser Modell ist nur auf die relativen Unterschiede zwischen den Kontaktzahlen angewiesen und nicht auf deren absoluten Werte.
Die deutlich größere Dunkelziffer in Italien geht in unserem Modell direkt auf die Tatsache zurück, dass der Anteil an sehr alten Menschen bei den Erkrankten viel höher ist als deren Anteil an der Bevölkerung. Wir halten es für sehr plausibel, dass dies auf die Tatsache zurückzuführen ist, dass ältere Menschen im Mittel viel schwerer erkranken und damit deutlich stärker auffallen als jüngere Menschen. Diese Dunkelzifferschätzungen ermöglichen es uns, einen großen Teil des Unterschieds in den zum 16.04.2020 beobachteten Fallsterblichkeiten für Italien und Deutschland zu erklären. Der resultierende Faktor von 1,5 zwischen den Fallsterblichkeiten erscheint uns plausibler als der deutlich höhere Faktor von 4,6, der rein aus den gemeldeten Fallsterblichkeiten bestimmt wird. Die verbliebene Abweichung vom Faktor 1 lässt sich durch weitere Faktoren (wie bspw. ein lokal stark überlastetes Gesundheitssystem) erklären, die nur schwierig quantitativ zu ermitteln sind. Darüber hinaus ist die mit unserem Modell geschätzte Fallsterblichkeit für Italien monoton mit dem Lebensalter steigend, sodass die Altersgruppe 90+ das höchste Risiko aufweist, an der Krankheit zu versterben. Dies erscheint uns auch glaubwürdiger als die unkorrigierte Schätzung der Fallsterblichkeiten aus den registrierten Fallzahlen, in denen die zweithöchste Altersgruppe (80–89 Jahre) eine höhere Fallsterblichkeit aufweist als die höchste (90 Jahre und älter).
Ein großer Vorteil des Modells ist, dass es nicht viele Annahmen und Daten benötigt und nur wenige Parameter besitzt. Das ermöglicht eine einfache und gut nachvollziehbare, robuste Implementierung. Die Robustheit folgt dabei aus der Tatsache, dass sich Änderungen in den Parametern höchstens linear auf die Ergebnisse auswirken. Somit schlägt sich bei den beobachteten Prävalenzen die Korrektur der relativen Kontaktzahlen für Kinder [
16] auch nur in dieser Gruppe aus: Ohne Korrektur wäre die aus unserem Modell geschätzte Fallzahl um einen Faktor 2 höher, was sich nur gering auf die Gesamtzahl nicht registrierter Fälle aller Altersgruppen zusammen auswirkt.
Unser Modell lässt sich prinzipiell immer dann bei einer Epidemie anwenden, wenn folgende Aspekte angenommen werden können: Die Ausbreitung erfolgt proportional zu den Kontaktzahlen, die Fallzahlen sind für verschiedene Altersgruppen bekannt und die relativen Kontaktzahlen für diese Altersgruppen können hinreichend gut ermittelt werden. Ändern sich die relativen Kontaktzahlen aufgrund der Auswirkung dieser Epidemie sehr stark (z. B. durch kontakteinschränkende Maßnahmen, spezifisch für ältere Menschen), so sollten die Kontaktzahlen möglichst in Echtzeit ermittelt werden. Die Annahme, dass die Ausbreitung proportional zu den Kontaktzahlen erfolgt, bedeutet, dass die Wahrscheinlichkeit einer Übertragung nicht stark vom Lebensalter abhängig ist. In unserem Fall haben wir lediglich eine geringere Übertragungswahrscheinlichkeit bei Kindern [
16] dadurch korrigiert, dass wir mit modifizierten Kontaktzahlen rechnen. Dies lässt sich auch prinzipiell bei anderen Epidemien anwenden: Ist bekannt, dass verschiedene Altersgruppen das Virus aufgrund eben ihres Alters unterschiedlich stark weitergeben, dann lassen sich so wieder modifizierte Kontaktzahlen bestimmen, welche dann von unserem Modell genutzt werden können, was eine hohe Anpassungsfähigkeit bedeutet.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.