Beim ML sind das überwachte und unüberwachte Lernen als zwei grundlegende Ansätze zu unterscheiden, die es Computern ermöglichen, zu lernen und Vorhersagen zu treffen (Hastie et al.
2009; Kuhn und Johnson
2013).
Überwachtes Lernen
Beim überwachten Lernen wird ein ML- oder DL-Algorithmus auf einem markierten Datensatz trainiert, wobei die gewünschte Ausgabe (Zielvariable) für jeden Eingabedatenpunkt angegeben wird (Hastie et al.
2009; Kuhn und Johnson
2013). Das Modell lernt, aus den markierten Beispielen zu verallgemeinern und Vorhersagen oder Klassifizierungen für ungesehene Daten zu treffen. Es lassen sich zwei Arten von Zielvariablen unterschieden: Regressionsprobleme (Vorhersage einer stetigen Zielvariable) und Klassifikationsprobleme (Vorhersage einer diskreten Zielvariable).
Ein klassisches Beispiel in der Augenheilkunde für überwachtes Lernen mit einer stetigen Zielvariable (Regressionsproblem) ist die Berechnung der optimalen Linsenstärke vor Katarakt-Operation. Hierzu kann ein Trainingsdatensatz mit Merkmalen wie der Achsenlänge und Hornhautbrechkraft sowie der Zielvariable (emmetropisierende Linsenstärke) herangezogen werden, um ein Regressionsmodell anzupassen, welches für zukünftige Patienten die emmetropisierende Linsenstärke vorhersagen kann (Prinzip der SRK-Formel) (Sanders und Retzlaff
1983).
Ein Beispiel für überwachtes Lernen mit einer diskreten Zielvariable (Klassifikationsproblem) wäre die Vorhersage der Diagnose mittels CNNs anhand eines optischen Kohärenztomografie (OCT)-Volumenscans (De Fauw et al.
2018).
Unüberwachtes Lernen
Beim unüberwachten Lernen werden Muster oder Beziehungen in einem Datensatz entdeckt, ohne dass markierte Daten oder spezifische Zielvariablen vorhanden sind (Hastie et al.
2009; Kuhn und Johnson
2013). Das Ziel besteht darin, die Daten zu erforschen, die zugrunde liegenden Strukturen zu erkennen und daraus sinnvolle Erkenntnisse oder Gruppierungen zu gewinnen.
Clustering ist eine Technik, die dazu dient, ähnliche Datenpunkte auf der Grundlage ihrer intrinsischen Merkmale oder Ähnlichkeiten zusammenzufassen (Hastie et al.
2009; Kuhn und Johnson
2013). Ziel ist es, natürliche Cluster oder Untergruppen innerhalb der Daten zu identifizieren. Die daraus resultierenden Cluster können Aufschluss über unterschiedliche Gruppen, Ähnlichkeiten oder Beziehungen in den Daten geben. Zu den gängigen Clustering-Algorithmen gehören k-Means-Clustering und hierarchisches Clustering (Hastie et al.
2009; Kuhn und Johnson
2013).
Diese Verfahren spielen vor allem bei der Analysis von hochdimensionalen „Omics-Daten“ eine wichtige Rolle. Cameron S. Cowan und Mitarbeiter haben beispielsweise Clustering-Techniken angewandt, um riesige Genexpressionsdaten von Netzhautzellen zu gruppieren und somit einzelne Zellgruppen zu identifizieren (Cowan et al.
2020). Cluster-Analysen wurden aber auch bereits angewandt, um Subgruppen innerhalb von altersabhängiger Makuladegeneration zu identifizieren (Biarnés et al.
2020).
Bei der
Dimensionalitätsreduzierung hingegen geht es darum, die
Anzahl der Merkmale in einem Datensatz zu reduzieren, wobei wichtige Informationen erhalten bleiben. Sie zielt darauf ab, die Datendarstellung zu vereinfachen und die Rechenkomplexität der nachfolgenden Analyseaufgaben zu verringern (Hastie et al.
2009; Kuhn und Johnson
2013).
Dies macht Sinn, da medizinische Daten oftmals redundant sind. Im Beispiel von AMD bildet das Drusenvolumen in der OCT und die Drusenfläche in Farbfundusfotos den gleichen zugrunde liegenden biologischen Prozess ab.
Algorithmen zur Dimensionalitätsreduzierung, wie die Hauptkomponentenanalyse (PCA) und t-SNE (t-Distributed Stochastic Neighbor Embedding), kodieren die ursprünglichen Merkmale in einen neuen Satz von Merkmalen oder Komponenten um (Hastie et al.
2009; Kuhn und Johnson
2013). Diese neuen Merkmale erfassen die wichtigsten Informationen und erklären die maximale
Varianz in den Daten. Durch die Verringerung der Dimensionalität der Daten werden diese überschaubarer und interpretierbar und eignen sich besser für nachfolgende Analyse- oder Visualisierungsaufgaben.