Erschienen in:
01.08.2015 | Leitthema
Big Data, medizinische Sprache und biomedizinische Ordnungssysteme
verfasst von:
Stefan Schulz, Pablo López-García
Erschienen in:
Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz
|
Ausgabe 8/2015
Einloggen, um Zugang zu erhalten
Zusammenfassung
Eine Vielzahl umfangreicher begrifflicher Ordnungssysteme wie Thesauren, Klassifikationen, Nomenklaturen und Ontologien unterstützt die Informations- und Wissensverarbeitung in Gesundheitsversorgung und biomedizinischer Forschung. Dennoch ist nach wie vor die menschliche Sprache in Form individuell verfasster Texte primärer Träger von Information – sowohl bei der Beschreibung von Krankheits- oder Behandlungsverläufen in elektronischen Krankenakten als auch bei der Beschreibung biomedizinischer Forschungsergebnisse in wissenschaftlichen Publikationen. Im Zusammenhang mit der Big-Data-Diskussion stellen wir die These auf, dass die Abstraktion von der Vielgestaltigkeit natürlichsprachlicher Äußerungen hin zu strukturierter und semantisch normalisierter Information den Einsatz von statistischen Methoden der Wissensakquisition aus textuellen Forschungs-/Behandlungsdaten erleichtert. Dazu können Technologien zur computergestützten Verarbeitung menschlicher Sprache eingesetzt werden. Diese sind zunehmend in der Lage, medizinische Texte mit Kodes aus biomedizinischen Ordnungssystemen zu annotieren. Allerdings hängt dies in hohem Maße von linguistischen und terminologischen Ressourcen ab. Die Erstellung und Pflege solcher Ressourcen ist arbeitsintensiv. Es gibt schlüssige Hinweise darauf, dass auch hierfür Big-Data-Methoden unterstützend eingesetzt werden können. Beispiele sind das Erlernen von hierarchischen Beziehungen, die Gruppierung synonymer Terme in Konzepte und die Disambiguierung von Homonymen. Auch wenn bisher keine empirischen Daten vorliegen, erscheint die Kombination von natürlichsprachlichen Technologien, semantischen Ressourcen und Big-Data-Analytics vielversprechend.