Hintergrund
App Stores wie die von Apple und Google bieten eine enorme Vielzahl gesundheitsbezogener Apps zum Direktbezug durch die Verbraucher an. Bei Fehlen einer klinischen oder regulatorischen Bewertung resultiert eine heterogene Qualität [
1]. Diese Situation wird dadurch gefördert, dass die Entwicklung von (Gesundheits‑)Apps einfacher und kostengünstiger geworden ist, z. B. durch die Nutzung von sog. App-Entwicklungstoolkits [
2,
3]. Niedrige Marktbarrieren ziehen unterschiedlich qualifizierte Unternehmen mit variablen Geschäftsmotivationen an, um in den profitablen Gesundheitsmarkt einzusteigen [
2‐
4].
Bedeutsam ist in diesem Kontext das durch das Digitale-Versorgung-Gesetz (DVG) seit 2020 entstehende „digitale Gesundheitsanwendungen(DiGA)-Verzeichnis“. Dieses beim Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) geführte Verzeichnis ist als ein Mittel zur Regulierung für den deutschen Markt zu verstehen [
5]. In Deutschland können DiGAs gemäß DVG verordnet und auch bei Eigenbeantragung durch den Versicherten von den gesetzlichen Krankenkassen erstattet werden. Entsprechende organisatorische Strukturen wurden implementiert, weitere, detaillierte Ausgestaltungen sind in Vorbereitung. DiGAs sollen, um langfristig in das DiGA-Verzeichnis beim BfArM aufgenommen werden zu können, im klinischen Kontext – auch auf ihren Nutzen – geprüft werden [
5,
6], einzelne Ergebnisse zur Validität der mit Gesundheits-Apps erhobenen Daten liegen für die Rheumatologie vor [
7,
8].
Der Anwendung von Gesundheits-Apps werden vielversprechende Erfolgsaussichten zugeschrieben [
7,
9]. Postuliert wird ein großes Potenzial, die Gesundheit und das Patientenmanagement zu verbessern, aber es besteht auch hier eine erhebliche Heterogenität, z. B. hinsichtlich ihrer Sicherheit und Qualität [
2,
3]. Zu den diskutierten Qualitätsthemen zählen beispielsweise zweifelhafte App-Inhalte, der Verlust der Privatsphäre in Verbindung mit Weitergabe der erfassten Patientendaten sowie die fehlenden Daten zur Wirksamkeit einer Gesundheits-App [
1,
3]. Gründe dafür, warum geringe App-Qualität durchaus üblich ist und zudem auch weithin toleriert wird und warum ihre Regelung so schwierig ist, wurden publiziert [
3,
10]. Dazu zählen Gründe auf der Entwickler-, der Anwender-, der regulatorischen und der ethischen Seite. Beispiele sind die hohe Anzahl von Apps, ein geringes Bewusstsein für Qualität und Qualitätskriterien, die Kultur des sog. „minimal viable products“ bei Veröffentlichung der Apps, niedrige Markteintrittsbarrieren, der häufig bestehende Mangel formaler Evaluationen und des Monitorings der Nutzung sowie der noch in Entwicklung befindliche Konsens der beteiligten Stakeholder über den „Grad der akzeptablen Sicherheit“ [
3,
10].
Auch wenn Forschung zur Identifizierung, Charakterisierung und Bewertung von Gesundheits-Apps erfolgt, ist es immer noch eine Herausforderung, qualitativ hochwertige Apps zu finden und sich nicht nur von subjektiven, nicht standardisierten und semiquantitativen Beurteilungen mit „Sternen“ anderer Nutzer im App Store leiten zu lassen. Um rheumatologisch Interessierte bei der Suche nach qualitativ höherwertigen Apps zu unterstützen, untersuchten wir, wie die von Albrecht et al. publizierte SARASA(„semiautomated retrospective App Store analysis“)-Methode rheumatologische Apps [
11] identifizieren kann. Wir prüften, ob diese – über ggf. notwendige Ergänzungen – mit Qualitätsindikatoren annotiert und somit für die Versorgung der Patienten als vorteilhafte Apps hervorgehoben werden können.
Material und Methode
Die „semiautomated retrospective App Store analysis“ (SARASA) ist eine mehrstufige Methode zur Auswahl und Charakterisierung von in einem App Store gelisteten Apps, die exemplarisch für den App Store von Apple entwickelt und von Albrecht et al. beschrieben wurde [
11], prinzipiell aber auch auf andere Stores anwendbar wäre.
Im ersten SARASA-Schritt werden die Metadaten der in den gewünschten Apple App Store-Kategorien (z. B. „Medizin“ und/oder „Gesundheit und Fitness“) enthaltenen Apps über deren Listung auf den länderspezifischen Webseiten der jeweiligen Store-Kategorien und die Verwendung des „iTunes Search APIs“ [
12] skriptbasiert ausgelesen. Dazu gehören u. a. die App-Namen, Angaben zu den Herstellern, Links zur Website des Herstellers, die Store-Beschreibungstexte zu den Apps, notwendige Betriebssystemversion, Kosten, Datum der Bereitstellung bzw. letzten Aktualisierung oder auch Nutzerbewertungen [
11]. Schritt 2 setzt sich mit der Zusammenstellung der Filterkriterien für die gewonnenen Daten auseinander. Zur Analyse der textuellen Informationen – insbesondere der Store-Beschreibungstexte der Apps – werden für die Suche geeignete, fachbezogene Stichworte definiert. Hierzu werden idealerweise sog. reguläre Ausdrücke in Perl-Notation [
13] verwendet, um nötigenfalls verschiedene Wortformen bzw. Wortkombinationen erfassen oder vermeiden zu können [
14]. Zudem ist es möglich, Rankingkriterien auf Basis der weiteren Metadaten festzulegen (z. B. das Vorhandensein oder Fehlen bestimmter Herstellerangaben oder auch, ob eine App kostenfrei bzw. kostenpflichtig ist) und diesen Wichtungen zuzuordnen. Dies kann insbesondere bei einer zu erwartenden großen Trefferanzahl im späteren Verlauf helfen, Apps, die diesen Rankingkriterien besonders gut entsprechen, in der Ergebnisliste prominenter abzubilden [
11]. Im dritten SARASA-Schritt werden die zuvor definierten Suchstichworte auf die verfügbaren App-Daten angewendet, um eine Auswahl von Apps aus der Datenbank zu extrahieren [
11]. Anschließend wird die Ergebnisliste manuell validiert sowie, wenn gewünscht, kategorisiert, und es werden (optional und dann automatisiert) die zuvor definierten Ranking-Kriterien angewendet [
11]. Abschließend steht eine Liste von Apps mit den begleitenden Metadaten zur Verfügung, die für beliebige weitere Auswertungen herangezogen werden kann [
11].
Im Februar 2018 und erneut im Februar 2020 wurde die SARASA-Methode auf den Apple App Store auf Apps angewendet, für die in den Metadaten in der sog. primären oder sekundären Kategorie „Gesundheit und Fitness“ und „Medizin“ angegeben war (vom Hersteller festgelegt) und die somit auf den oben genannten Webseiten gelistet waren. In einem zweiten Schritt wurden die Ergebnisse mit von den Autoren gewählten rheumatologischen Suchbegriffen systematisch eingegrenzt. Dazu wurden 2018 und 2020 die identischen Suchbegriffe (ohne Berücksichtigung der Groß‑/Kleinschreibung) genutzt: arthritis, spondyl, uveitis, collagenos, kollagenos, lupus, vasculitis, vaskulitis, arteriitis, granulomatose, sklero, sclero, myositis, sjögren und rheumatolog. Auf das optionale Festlegen und Anwenden von Rankingkriterien wurde hier verzichtet. Anschließend erfolgte eine manuelle Überprüfung der identifizierten deutschsprachigen Apps durch die Autoren. Die Gesundheits-Apps wurden strukturiert erfasst und nach von den Autoren konsentierten Zielgruppen ärztliches oder medizinisches Fachpersonal und Patienten kategorisiert. Darüber hinaus wurde untersucht, ob zwischen 2018 und 2020 eine Zu- oder Abnahme der Anzahl von deutsch- und englischsprachigen Apps zu verzeichnen war. Diese Betrachtung erfolgte auch bezüglich der einzelnen Krankheitsgruppen bzw. Diagnosen gemäß den genutzten Suchbegriffen.
Das DiGA-Verzeichnis beim BfArM (
https://diga.bfarm.de/de/verzeichnis) wurde am 15.04.2021 daraufhin überprüft, ob eine oder mehrere der in 2018 bzw. 2020 mittels SARASA und den anschließend vorgenommenen manuellen Überprüfungsprozessen der Autoren gefundenen Apps gelistet werden.
Diskussion
SARASA ist eine Methode zur teilautomatisierten Auswahl und Charakterisierung von in einem App Store gelisteten Apps gemäß formaler Kriterien [
11]. Nach Kenntnis der Autoren beschreibt die vorliegende Publikation erstmalig die Anwendung der SARASA-Methode im Fachgebiet der Rheumatologie und stellt ihre vergleichende Anwendung im Abstand von 2 Jahren dar. Die Zahl der mittels definierter Qualitätskriterien herausgefilterten Apps war sowohl 2018 als auch 2020 mit weniger als 20 deutschsprachigen Apps überschaubar. Die prozentualen Veränderungen bei den einzelnen Stichworten verdeutlichen einerseits die Fluktuationen am App-Markt, könnten aber auch darauf hinweisen, dass die von den Herstellern zur Verfügung gestellten Metadaten der Apps ggf. adaptiert wurden und damit bei der Analyse nicht mehr mit ausgegeben werden. Albrecht et al. identifizierten 2018 in einem vergleichbaren Ansatz
n = 335 kardiologische deutschsprachige Apps, die dann durch Studierende weiter evaluiert wurden [
11,
15].
Das große Angebot von Apps in den App Stores, die schnellen Entwicklungen digitaler Gesundheitsanwendungen sowie die inhaltliche und technische Qualität, die auch die publizierten Risiken der Verwendung von Gesundheits-Apps beinhaltet, machen kontinuierliche Beurteilungen notwendig [
1,
3,
16]. Albrecht et al. forderten bereits 2018 ein „gesetzlich verpflichtendes, standardisiertes Berichtswesen“ für Apps [
17]. Mit dem Digitale-Versorgung-Gesetz und dem daraufhin implementierten DiGA-Verzeichnis des BfArM wurden zwar wesentliche Schritte in diese Richtung vollzogen [
5], mit Stand 15.04.2021 war aber noch keine der mit der SARASA-Methode identifizierten Apps im DiGA-Verzeichnis zu finden. Aus vielfältigen Gründen werden sich nicht alle App-Hersteller dem aufwendigen und kostenintensiven DiGA-Prozess stellen wollen und können und dennoch ihre Apps in den Stores anbieten [
6]. Erste Hersteller potenzieller DiGAs haben bereits ihre Anträge auf Zulassung zurückgezogen, und einige Anträge wurden vom BfArM auch negativ beschieden [
18]. Zu welchen Fach- bzw. Anwendungsgebieten diese gehören, ist (zumindest bis zur Erstellung dieser Publikation) nicht publik. Darüber hinaus mag die fehlende Auffindbarkeit der Apps im DiGA-Verzeichnis auch Ausdruck der hohen Fluktuation von Apps und ihrer Hersteller sein. Bereits bei unserer zeitnahen manuellen Rezension waren einzelne der mit SARASA identifizierten Apps veraltet (beispielsweise 2020 die RheumaLive App, die in die RheCord App überführt wurde).
Kontinuierliche Beurteilungen der Apps sind notwendig
Die Forschung zur Identifizierung, Charakterisierung und Bewertung gesundheitsbezogener Apps wird aber nicht nur durch die Dynamik digitaler Gesundheitsanwendungen, sondern auch durch eine große Heterogenität von Bewertungskriterien erschwert. Daraus resultierten Forderungen nach einem möglichst einfach (automatisiert) einzusetzenden, standardisierten Bewertungstool zur Qualitätsprüfung, auch um relevante und zuverlässige Apps besser identifizieren zu können [
19,
20]. Gütesiegel wurden diskutiert, eines wurde beispielsweise von einer Initiative aus dem Bereich der Diabetologie (DiaDigital
https://www.diabetesde.org/diadigital) implementiert [
21].
Die von einigen App-Herstellern genutzten CE-Kennzeichnungen mit Identifikationsnummern dokumentieren lediglich die Einhaltung gesetzlicher Mindestanforderungen der Europäischen Union und weisen auf die Einbindung einer sog. „benannten Stelle“ hin. Die CE-Kennzeichnungen stellen rechtlich und v. a. inhaltlich aber kein Gütekriterium dar. Es existieren aber Bemühungen der Europäischen Kommission zur Entwicklung einer technischen Spezifikation von Qualitäts- und Reliabilitätsanforderungen für „Gesundheits- und Wellness-Apps“. Die Arbeiten werden vom Europäischen Komitee für Normung (CEN) geleitet, das mit der Internationalen Organisation für Normung (ISO), der Internationalen Elektrotechnischen Kommission (IEC) und dem Europäischen Komitee für elektrotechnische Normung (CENELEC) zusammenarbeitet [
1]. Von der EULAR (European League Against Rheumatism) wurden inzwischen sog. „points to consider“ publiziert, die bei der Entwicklung, Bewertung und Implementierung mobiler Gesundheitsanwendungen zur Unterstützung des Selbstmanagements von Menschen mit rheumatischen und muskuloskeletalen Erkrankungen zu beachten sind [
22].
Portale wie beispielsweise die sog. „Weiße Liste“ verzeichnen digitale Gesundheitsanwendungen, die als Medizinprodukt zertifiziert sind und wollen den User mit zuverlässigen Informationen bei der Auswahl unterstützen [
23]. Die Pflege solcher Seiten ist aber aufwendig. Bislang (Stand 20.04.2021) ist dort eine einzige rheumatologische App gelistet, die aus 3 der von uns sowohl 2018 als auch 2020 mit SARASA identifizierten Apps durch Fusionierung entstanden ist. Das Zentralinstitut für die kassenärztliche Versorgung in der Bundesrepublik Deutschland stellt seit Ende 2020 die Website „KVAppRadar“ zur Verfügung, die zunächst im Testbetrieb Ärzten und Psychotherapeuten bzw. zu einem späteren Zeitpunkt auch Patienten die Möglichkeit geben soll, sich über Gesundheits-Apps zu informieren [
24]. Ein weiteres Angebot zu DiGAs findet sich in dem sog. „DiGA Monitor“, der von einer Privatperson angeboten wird und auch aktuelle Preise der DiGAs auflistet [
25]. Weitere Verbände wie der Verband der forschenden Pharma-Unternehmen in Deutschland stellen Interessierten Informationen zu DiGAs u. a. in Form der „DiGA Watchlist“ zur Verfügung [
26].
Verschiedene Analysetools, wie z. B. die entwickelte Mobile App Rating Scale (MARS), sollen ebenfalls helfen, relevante, qualitativ hochwertige Apps zu identifizieren [
2,
20,
27]. Für einen Teil der mit SARASA identifizierten Apps sind entsprechende MARS-Evaluationen publiziert [
2]. Zur Praktikabilität und Anwendbarkeit in der klinischen Versorgung der anhand der SARASA-Methode und der von uns durch manuelle Überprüfung identifizierten Apps liegen nur einzelne Erfahrungen aus Proof-of-Concept-Studien vor [
7,
8].
Bevor zeitaufwendige inhaltliche Analysen, z. B. inhaltsbasierte Auswertungen zur Beurteilung der Qualität einzelner Apps, erfolgen, scheint es – auch aus ökonomischen Gründen – sinnvoll, eine standardisierte valide Vorauswahl zu treffen und nicht ein rein händisches Durchsuchen der App Stores mittels Suchbegriffen anzustreben. So liefert die Anwendung der SARASA-Methode semiautomatisiert Apps, bei denen zumindest auf die vom Hersteller zur Verfügung gestellten App-Beschreibungen und andere Metadaten geprüft wurde. Die verpflichtende Einführung weiterer Metadaten zu den Gesundheits-Apps in App Stores, wie sie z. B. bei PubMed durch die sog. MeSH(Medical Subject Headings)-Terms existieren, könnte ggf. auch das Problem nicht eineindeutig zu bestimmender Suchbegriffe lösen helfen. Das „Training“ der der SARASA-Methode zugrunde liegenden Algorithmen anhand dieser Evaluationen könnte möglicherweise zur weiteren Qualitätsoptimierung der Methode beitragen.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.