Skip to main content
Erschienen in: coloproctology 6/2023

Open Access 27.11.2023 | Journal Club

Evaluation der Qualität der Gewebsbehandlung bei laparoskopischer Kolorektalchirurgie mittels Machine Learnings

verfasst von: Assoc. Prof. Dr. Gerd Silberhumer, MBA, FACS

Erschienen in: coloproctology | Ausgabe 6/2023

download
DOWNLOAD
print
DRUCKEN
insite
SUCHEN
Hinweise
QR-Code scannen & Beitrag online lesen

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.
Originalpublikation
Sasaki S, Kitaguchi D, Takenaka S et al (2023) Machine learning-based automatic evaluation of tissue handling skills in laparoscopic colorectal surgery: a retrospective study. Ann Surg 278(2):e250–e255.
Ziele und Hintergrund.
Die laparoskopische Chirurgie gewinnt zusehends an Prävalenz in vielen Bereichen der Viszeralchirurgie. Diese Methode ist mit einer schnellen Patientenerholung assoziiert, jedoch hängt das chirurgische Outcome stark vom Ausbildungsgrad und dem technischen Geschick des Chirurgen ab. Die chirurgische Ausbildung bedarf objektiver und quantitativer Evaluationsmodule der chirurgischen Fertigkeiten. Intraoperative Blutungen sind durch Gewebsverletzungen bedingt. Das Ausmaß dieser Blutungen lässt Rückschlüsse auf die chirurgischen Fertigkeiten und die intraoperative Gewebsbehandlung zu. Bei etablierten chirurgischen Evaluierungsmethoden wie „Objective Structured Assessment of Technical Skills“ (OSATS; [1]) und „Global Operative Assessment of Laparoscopic Skills“ (GOALS; [2]) sind die unzureichende quantitative Beurteilung der technischen Fähigkeiten sowie der Gewebsbehandlung durch den Chirurgen limitierend. Andere Evaluationssysteme wie „Observational Clinical Human Reliability Analysis“ (OCHRA) sind zeitintensiv und basieren auf der Expertenbeurteilung von uneditierten Videos in Bezug auf intraoperativen Blutverlust [3]. Diese Studie versuchte, ein lernbasierendes Modell zu entwickeln, das auch kleinere Gewebeblutungen in Operationsvideos erkennen und quantifizieren kann. Über die gemessenen Indizes soll eine Evaluation der chirurgischen Fertigkeiten sowie der Technik der Gewebsbehandlung durch den Chirurgen ermöglicht werden.
Methode.
Studiendesign: Machine-Learning-basierte Blutpixel-Klassifikation. Aus 28 laparoskopischen kolorektalen Operationsvideos von verschiedenen japanischen Institutionen wurden 504 Blutungsareale und 504 nichtblutende Areale als Fotos extrahiert und für das Machine Learning als Klassifikationsmodell verwendet. Aus den Bildern wurden RGB-Werte ermittelt, welche eine Ratio der Primärfarben Rot (R), Grün (G) und Blau (B) repräsentieren. Die 3 Primärfarben können jeweils 256 verschiedene Helligkeitsstufen darstellen, wodurch 16.777.126 verschiedene Farbtöne resultieren. Die RGB-Werte aller Areale wurden analysiert und in 3 Datensätze geteilt: Training, Validation und Testung des Algorithmus. Overall Accuracy, Sensitivität und Spezifität wurden wie folgt berechnet:
$$\text{Overall accuracy}=\frac{TP+TN}{TP+FP+TN+FN}$$
(1)
$$\text{Sensitivity}=\frac{TP}{TP+FN}$$
(2)
$$\text{Specificity}=\frac{TN}{FP+TN}$$
(3)
TP =
Blutpixel vorhanden, richtig klassifiziert
TN =
Keine Blutpixel vorhanden, richtig klassifiziert
FN =
Blutpixel vorhanden, falsch als nicht vorhandene Blutpixel klassifiziert
FP =
Keine Blut Pixel vorhanden, falsch als vorhandene Blutpixel klassifiziert
Videodaten für die Beurteilung der chirurgischen Fertigkeiten: Die Videos zur Beurteilung der chirurgischen Fertigkeiten waren Operationsvideos von laparoskopischen Sigmaresektionen aus japanischen Zentren, welche zwischen 2016 und 2017 an das Endoskopic Surgical skill Qualification System (ESSQS) eingereicht wurden. Details der ESSQS-Evaluationskriterien können unter Supplementary Table 1, Supplemental Digital Content 1, http://​links.​lww.​com/​SLA/​E310 nachgelesen werden. Bei ESSQS bewerteten 2 Experten die Qualität der Gewebsbehandlung, woraus die Unterteilung in „high tissue handling“ und „low tissue handling“ erfolgte. Zusätzlich werden bei ESSQS weitere chirurgische Fähigkeiten (Operationsgebiet, Effizienz, Autonomie) beurteilt, wodurch über den Gesamtscore und die Standardabweichung eine „+2 SD“-Gruppe und eine „−2 SD“-Gruppe klassifiziert wurde. Als 3. Gruppe („Novizengruppe“) wurden Videos von Chirurgen mit unter 5 laparoskopischen Eingriffen gewertet. Anschließend wurden die Unterschiede der Blutpixelzahl zwischen den 3 Gruppen analysiert. Es wurde die Hypothese aufgestellt, dass damit Unterschiede in der Qualität der Gewebsbehandlung nachgewiesen werden können. Weiters wurde der Index angewandt, um Unterschiede bezüglich der gesamtchirurgischen Fertigkeiten zwischen den einzelnen Gruppen nachzuweisen. Auch der konventionell dokumentierte „geschätzte Blutverlust“ wurde mit der Qualität der Gewebsbehandlung verglichen. Hier wurde die Hypothese aufgestellt, dass keine Unterschiede gefunden werden, da die gesamtchirurgischen Fertigkeiten nicht nur durch die Gewebsbehandlung, sondern durch zusätzliche Faktoren bedingt sind.
Statistik: Quantitative Daten sind als Durchschnitt (Standardabweichung) präsentiert. Für 2‑Gruppen-Vergleiche wurden t‑Tests und für 3‑Gruppen 1‑way-ANOVA verwendet. Wenn mittels 1‑way-ANOVA eine Signifikanz vermutet wurde, erfolgte ein Each-between-group-post-hoc-Vergleich mit der Tukey-Methode. Alle Tests wurden zweiseitig durchgeführt, mit einem Signifikanzlevel von p < 0,05. Alle statistischen Analysen wurden mit EZR (Saitama Medical Center, Jichi Medical University) durchgeführt [4].
Ergebnisse.
Machine-Learning-basierte Blutpixel-Klassifikation: Insgesamt wurden 1008 Bilder aus den 28 analysierten Operationsvideos extrahiert. Die Bilder enthielten 23.736 blutige Pixel und 20.994 unblutige Pixel. Das Trainingsdatenset bestand aus 34.988 Pixel von 20 Fällen, das Validationsdatenset aus 4606 Pixel von 4 Fällen und das Testdatenset aus 5136 Pixels von 4 Fällen. Die Overall Accuracy des Machine-Learning-Modells betrug 85,7 %. Die Sensitivität lag bei 99,9 % und die Spezifität bei 72,7 %.
Automatische Evaluation der Qualität der Gewebebehandlung: Es wurden 60 Videos von der „High-tissue-handling“-Gruppe, 55 von der „Low-tissue-handling“-Gruppe sowie 36 von der Novizengruppe analysiert. One-way-ANOVA zeigte signifikante Unterschiede zwischen den einzelnen 3 Gruppen bezüglich der Blutpixelzahl pro Feld („high tissue handling“ 20.972,23 [19.287,05] vs. „low tissue handling“ 34.473,42 [28.144,29] vs.. Novizengruppe 50.630,04 [42.427,76]; p < 0,01). Auch die paarweisen Vergleiche zeigten signifikant weniger Blutpixel in der Gruppe „high tissue handling“ als in der Gruppe „low tissue handling“ oder der Novizengruppe. Auch die „Low tissue handling“-Gruppe zeigte signifikant weniger Blutpixel als die Novizengruppe.
Korrelation zwischen Blutpixelzahl per Feld und gesamtchirurgischem Skills-Score. Siebzehn Videos der Gruppe „+2 SD“- und 20 Videos von der „−2 SD“-Gruppe wurden hierfür verwendet. Es finden sich keine signifikanten Unterschiede zwischen den Blutpixelzahlen pro Feld zwischen den Gruppen (p = 0,267), folglich keine Korrelation zwischen Blutpixelzahl pro Feld und chirurgischem Skill-Score.
Korrelation zwischen Blutverlust und Gewebsbehandlungsscore. Der geschätzte Blutverlust zeigte keinen signifikanten Unterschied zwischen den einzelnen Gruppen (p = 0,461). Darauf basierend korrelierte der konventionell geschätzte Blutverlust nicht mit der Qualität der Gewebshandlung.
Diskussion.
Die Autoren konnten die erfolgreiche Etablierung eines Machine-Learning-Systems zur objektiven und quantitativen Evaluation unterschiedlicher Gewebebehandlungsfertigkeiten basierend auf Blutpixel bei laparoskopischen Kolorektaleingriffen zeigen. Die Blutpixelzahl war signifikant niedriger bei Chirurgen mit besserem Gewebshandling. Die Autoren konkludieren, dass dieses Modell potenzielle Gewebeschäden und Blutungen bedingt durch inadäquates Handling nachweisen kann und so auf die Fertigkeiten der Chirurgen rückgeschlossen werden kann. Der Vergleich bezüglich Gesamtscores zwischen +2 SD-Gruppe und −2 SD-Gruppe und Novizen zeigte keine Unterschiede in Blutpixelzahl pro Feld zwischen den einzelnen Gruppen. Da sich die chirurgischen Fertigkeiten aus verschiedenen Faktoren zusätzlich zum Gewebshandling zusammensetzen, vermuten die Autoren, dass durch die Auswahl der Gruppierung der Operationsvideos diese Signifikanz verlorengegangen ist. Auch der Blutverlust korrelierte weder mit dem Gewebshandling, noch den gesamtchirurgischen Fertigkeiten. Hier vermuten die Autoren, dass aufgrund des geringen Blutverlusts bei laparoskopischen Operationen keine Unterschiede mehr zu detektieren sind. Die Zuverlässigkeit des Scores in der Studie basiert auf Evaluation von Operationsvideos durch Experten der Japan Society for Endoscopic Surgery. Erfahrene Chirurgen validieren (reviewen) zahlreiche Operationsvideos für die ESSQS mittels aufwendigen Prozessen. Daher ist ein brauchbares automatisches und auch zeitsparendes Evaluationssystem wünschenswert, um chirurgische Standards zu validieren und schlussendlich auch zu verbessern. Als limitierend erwähnen die Autoren die nicht besonders hohe Accuracy des Maschine-Learning-Modells. Weiters handelt es sich um eine retrospektive Studie mit einem Selektionsbias bezüglich der Gruppeneinteilung der chirurgischen Fertigkeiten. Zudem merken die Autoren auch die geringe Fallzahl an und schlagen den Vergleich ihrer Ergebnisse mit etablierten Validierungstools wie OSATS oder GOALS vor.

Kommentar

Diese Studie beschäftigt sich mit der Entwicklung eines Machine-Learning-basierten Modells zur objektiven Evaluierung der chirurgischen Fertigkeiten. Hierbei gelingt es laut den Autoren, mit dem entwickelten Modell anhand von Blutpixel aus laparoskopischen Operationsvideos bei kolorektalen Eingriffen in objektiver Weise ChirurgInnen quantitativ zu beurteilen.
Von den Autoren angeführte etablierte Evaluierungstools wie OSATS und GOALS bewerten zwar auch das Gewebshandling, diese sind aber oft subjektiv, unterliegen einem Bias und sind häufig auch sehr aufwendig. Zur quantitativen Evaluation wird, wie schon in der OCHRA-Analyse gezeigt, von Blutungsevents auf Gewebsmanipulationsfehler rückgeschlossen. Die Kritik an der OCHRA-Analyse ist, dass die Evaluation über den geschätzten Blutverlust erfolgte und dabei kleinere Gewebesickerblutungen, die auf schlechter Gewebsbehandlung basieren, nicht berücksichtigt wurden.
Prinzipiell ist eine objektive Analyse von Operationsvideos zur Qualitätsverbesserung von chirurgischen Eingriffen sehr wünschenswert und für jegliches Ausbildungsniveau zu empfehlen.
Die Methodik des Papers ist leider sehr komplex formuliert und nicht ganz schlüssig dargestellt. In der Arbeit wird nicht genau erklärt, wie die initialen Learning-Videos standardisiert wurden. Hier wäre es meiner Meinung nach sinnvoll, genaue anatomische Lokalisationen bei definierten kritischen Operationsschritten (wie Mobilisierung der linken Flexur, Aufsuchen der V. mesenterica inferior am Unterrand des Pankreas, Absetzungsstelle der A. mesenterica inferior, Mobilisierung nach lateral unter Schonung des Ureters auf Höhe des Sigmas etc.) zu standardisieren, an denen die Bilder zur Evaluation der Blutungspixel gewählt werden.
Auch die Definition des Validierungsdatensets ist nicht genau beschrieben. Es ist nicht klar, wie die Auswahl als Trainings‑, Validierungs- und Testdatenset erfolgte. Insgesamt ist die Overall Accuracy des Machine-Learning-Modells mit mehr als 85 % in Ordnung, die Spezifität von 72,7 % ist als eher niedrig anzusehen. Auch die geringe Fallzahl an Operationsvideos wird schon von den Autoren selbst als limitierend angeführt.
Die Einteilung in „hohe“ und „niedrige“ Gewebsbehandlungsgruppe bzw. „Novizen“ ist ebenfalls schwer nachvollziehbar. Die weitere Aufteilung in Chirurgen mit ESSQS-Gesamtscore +2 SD und −2 SD sowie Novizen zur Evaluierung der Blutpixel pro Bild ist unklar und verwirrend.
Die Ergebnisse zeigen sehr deutlich (signifikant) ein besseres Gewebshandling durch erfahrene Chirurgen, resultierend in weniger Blutverlust anhand der Blutpixelzahl pro Bild. Dies zeigt sich interessanterweise jedoch nicht mehr in der weiteren Analyse bezüglich der Korrelation gesamtchirurgischer Fertigkeiten und der Blutpixelzahl pro Bild. Dies wird von den Autoren nur sehr oberflächlich diskutiert und der Vielzahl an chirurgischen Zusatzfaktoren zugeschrieben. Die Komplexität der Evaluierung von chirurgischen Fertigkeiten ist sehr gut im Review von Ibrahim und Dimick zusammengefasst [5].

Empfehlung

Es handelt sich prinzipiell um einen tollen Zugang, um die Operationsqualität anhand von objektiv zu quantifizierenden Parametern zu evaluieren. Diese Studie ist ein richtiger und wichtiger Schritt, welcher in größeren Fallzahlen und klareren Evaluierungszeitpunkten fortgesetzt werden muss.

Interessenkonflikt

G. Silberhumer gibt an, dass kein Interessenkonflikt besteht.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de.

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Unsere Produktempfehlungen

Die Chirurgie

Print-Titel

Das Abo mit mehr Tiefe

Mit der Zeitschrift Die Chirurgie erhalten Sie zusätzlich Online-Zugriff auf weitere 43 chirurgische Fachzeitschriften, CME-Fortbildungen, Webinare, Vorbereitungskursen zur Facharztprüfung und die digitale Enzyklopädie e.Medpedia.

Bis 30. April 2024 bestellen und im ersten Jahr nur 199 € zahlen!

e.Med Interdisziplinär

Kombi-Abonnement

Für Ihren Erfolg in Klinik und Praxis - Die beste Hilfe in Ihrem Arbeitsalltag

Mit e.Med Interdisziplinär erhalten Sie Zugang zu allen CME-Fortbildungen und Fachzeitschriften auf SpringerMedizin.de.

e.Med Innere Medizin

Kombi-Abonnement

Mit e.Med Innere Medizin erhalten Sie Zugang zu CME-Fortbildungen des Fachgebietes Innere Medizin, den Premium-Inhalten der internistischen Fachzeitschriften, inklusive einer gedruckten internistischen Zeitschrift Ihrer Wahl.

Literatur
1.
Zurück zum Zitat Martin JA, Regehr G, Reznick R et al (1997) Objective structured assessment of technical skill (OSATS) for surgical residents. Br J Surg 84(2):273–278PubMed Martin JA, Regehr G, Reznick R et al (1997) Objective structured assessment of technical skill (OSATS) for surgical residents. Br J Surg 84(2):273–278PubMed
2.
Zurück zum Zitat Vassiliou MC, Feldman LS, Andrew CG et al (2005) A global assessment tool for evaluation of intraoperative laparoscopic skills. Am J Surg 190(1):107–113CrossRefPubMed Vassiliou MC, Feldman LS, Andrew CG et al (2005) A global assessment tool for evaluation of intraoperative laparoscopic skills. Am J Surg 190(1):107–113CrossRefPubMed
3.
Zurück zum Zitat Tang B, Cuschieri A (2020) Objective assessment of surgical operative performance by observational clinical human reliability analysis (OCHRA): a systematic review. Surg Endosc 34(4):1492–1508CrossRefPubMedPubMedCentral Tang B, Cuschieri A (2020) Objective assessment of surgical operative performance by observational clinical human reliability analysis (OCHRA): a systematic review. Surg Endosc 34(4):1492–1508CrossRefPubMedPubMedCentral
4.
Zurück zum Zitat Kanda Y (2013) Investigation of the freely available easy-to-use software ‘EZR’ for medical statistics. Bone Marrow Transplant 48(3):452–458CrossRefPubMed Kanda Y (2013) Investigation of the freely available easy-to-use software ‘EZR’ for medical statistics. Bone Marrow Transplant 48(3):452–458CrossRefPubMed
5.
Zurück zum Zitat Ibrahim AM, Dimick JB (2018) What metrics accurately reflect surgical quality? Annu Rev Med 69:481–491CrossRefPubMed Ibrahim AM, Dimick JB (2018) What metrics accurately reflect surgical quality? Annu Rev Med 69:481–491CrossRefPubMed
Metadaten
Titel
Evaluation der Qualität der Gewebsbehandlung bei laparoskopischer Kolorektalchirurgie mittels Machine Learnings
verfasst von
Assoc. Prof. Dr. Gerd Silberhumer, MBA, FACS
Publikationsdatum
27.11.2023
Verlag
Springer Medizin
Erschienen in
coloproctology / Ausgabe 6/2023
Print ISSN: 0174-2442
Elektronische ISSN: 1615-6730
DOI
https://doi.org/10.1007/s00053-023-00747-9

Weitere Artikel der Ausgabe 6/2023

coloproctology 6/2023 Zur Ausgabe

Mitteilungen der SAKP

Mitteilungen der SAKP

Leitlinien kompakt für die Innere Medizin

Mit medbee Pocketcards sicher entscheiden.

Seit 2022 gehört die medbee GmbH zum Springer Medizin Verlag

Neu im Fachgebiet Innere Medizin

Update Innere Medizin

Bestellen Sie unseren Fach-Newsletter und bleiben Sie gut informiert.