Nachrichten, Gerüchte, Meldungen und Berichte aus der IT-Szene

Redaktion: Heinz Schmitz

Antwort auf Gesundheitsfragen im Internet?

14.02.2023 00:00

Im Internet sind nahezu alle Informationen zu Gesundheitsfragen zu finden, aber oft nur von Experten zu verstehen. (Quelle: Gerd Altmann/Pixabay)

Informationen zu Krankheiten, Symptomen und zu Gesundheitsthemen allgemein können heutzutage ganz schnell und unkompliziert über das Internet gefunden werden. Ob Selbstdiagnostik, Hintergründe zu einem bestimmten Medikament oder einer Behandlung: die Anzahl der Webseiten ist groß. Doch wie verständlich sind diese Texte eigentlich? Helfen uns die Informationen überhaupt oder verstehen wir vielleicht so wenig, dass wir abgeschreckt die Suche beenden? Welche Themenfelder werden überhaupt abgedeckt und wer steckt hinter den Angeboten in diesem unübersichtlichen Informationsdschungel zum Thema Gesundheit?

Der Medizininformatiker Richard Zowalla stellte sich diesen Fragen. Im Rahmen seiner Dissertation erfasste ein sogenannter fokussierter Web- Crawler – ein Computerprogramm, dass das Internet unter Zuhilfenahme von KI-Verfahren automatisch nach bestimmten Informationen durchsucht – über den Zeitraum eines ganzes Jahres (Mai 2019 – Mai 2020) die URLs und Textinhalte von insgesamt 14,2 Millionen gesundheitsrelevanten deutschsprachigen Webseiten. Anschließend wurden die Inhalte mit Verfahren aus dem KI-Bereich ausgewertet und die Ergebnisse dieser Studie in einem internationalen Fachjournal veröffentlicht.

„Während der Crawler von Webseite zu Webseite springt, speichern wir nur Verlinkungen zwischen gesundheitsrelevanten Internetseiten. Auf diese Weise entsteht ein sogenannter Web-Graph, der ausschließlich gesundheitsrelevante Webseiten und deren Verlinkungen untereinander enthält“, erklärt Zowalla. „Die Wichtigkeit einer Webseite innerhalb dieses Gesundheitsweb-Graphen können wir dann beispielsweise mit Google‘s PageRank bestimmen“, ergänzt Professor Daniel Pfeifer (HHN), der neben Professor Thomas Wetter von der Universität Heidelberg die Promotion von Richard Zowalla betreut. Das Grundprinzip von PageRank ist einfach: Je mehr Links auf eine Seite verweisen, desto höher ist das Gewicht dieser Seite, sie scheint also eine höhere Bedeutsamkeit zu haben.

Mit Hilfe des Page Rank wurde jeweils für Deutschland, Österreich und die Schweiz eine Top 1000 Liste berechnet, wodurch insgesamt eine Top 3000 Liste des Gesundheitswebs entstand. Die umfassende Untersuchung zeigt, dass öffentliche Institutionen, wie beispielweise das Robert-Koch-Institut und nicht kommerzielle Anbieter von Gesundheitsinformationen wie beispielsweise die Webseite der deutschen Krebshilfe nur knapp die Hälfte der Top 3000 Seiten des Gesundheitswebs in Deutschland, Österreich und der Schweiz ausmachen, während der Großteil an Informationen durch private Anbieter wie Webseiten von Ärzten zur Verfügung gestellt wird. Die hohen Ränge (jeweils die vordersten 20 bis 50 Seiten) der Top 3000 nehmen in allen drei Ländern vor allem die Informationsangebote von öffentlichen Einrichtungen ein. „Interessant ist jedoch, dass dies nicht unbedingt die Informationsangebote sind, die ein kommerzieller Suchmaschinenanbieter als Top Treffer präsentiert, hier stehen oftmals private Anbieter im Vordergrund“, erläutert Zowalla.

Als Maßstab für die Lesbarkeit eines Textes wurden der FRE-Score bzw. die vierte Wienersachtextformel verwendet. Als schwerer lesbar werden dabei unter anderem längere medizinische Fachbegriffe, lange oder verschachtelte Sätze gewertet. Diese Lesbarkeitsmaße bewerten einen Text entweder als Punktwert (Score) oder in Form von Schuljahren. Erhält ein Text die Bewertung 11 sollten Leser, die die 11. Klasse abgeschlossen haben, diese sprachlich klar erfassen können. Im Falle von Gesundheitsinformationen würde man empfehlen, dass diese Texte bereits von Schüler aus der Mittelstufe verstanden werden können. Das verwendete Vokabular wurde zudem mit Hilfe eines KI-Verfahrens auf dessen Laientauglichkeit untersucht. „Die Studie jedoch, dass im deutschsprachigen Gesundheitsweb das Niveau deutlich darüber liegt und ein Text nur dann vollständig erfasst werden kann, wenn 13 bis 14 Jahre schulische Bildung vorliegen“, erklärt Zowalla. Diese Dauer entspricht einem Hochschulstudium. „Bemerkenswert ist jedoch, dass das verwendete Vokabular größtenteils gut für ein Laienpublikum geeignet ist“, ergänzt Zowalla. Schwer lesbare Texte zu gesundheits- oder krankheitsbezogenen Themen erzeugen somit eine Barriere im Umgang mit Informationen aus dem Internet, auch wenn das verwendete Vokabular aus medizinischer Sicht angemessen erscheint.

Die Themen des Gesundheitswebs wurden mittels Latent Dirchlet Allocation

(LDA) bestimmt. LDA ist ein Verfahren, das verwendet wird, um eine große Menge an unstrukturierten Texten zu kategorisieren und Themen zu identifizieren. Die häufigsten Themenfelder im Gesundheitsweb in Deutschland, Österreich und der Schweiz sind die Themenfelder „Krankheit & Verletzung“ sowie „Forschung & Wissenschaft“. Insbesondere zeigt die Untersuchung, dass das Thema „Pandemie & Impfung“ mit Bezug zur COVID-19 Pandemie bereits im Januar 2020 ein Bestandteil des Gesundheitsweb war. Spannend ist auch, dass sich die Themen zwischen den einzelnen deutschsprachigen Ländern nicht sonderlich voneinander unterscheiden.

„Im Zeitalter von Fake-News und Desinformation wäre es sicherlich interessant, wenn ein Verfahren vertrauenswürdige Anbieter (wie beispielsweise das Robert Koch Institut) für Gesundheitsinformationen vollautomatisch identifizieren könnte“, sagt Richard Zowalla aus der informatischen Perspektive. Hier besteht weiterhin Handlungs- und Forschungsbedarf, der in zukünftigen Projekten an der Informatik Fakultät der HHN unter Einbindung medizinischer Experten adressiert werden soll.

Originalpublikation:

Richard Zowalla, Daniel Pfeifer, Thomas Wetter, „Readability and topics of the German Health Web: Exploratory study and text analysis”, PLoS one 2.2023

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0281582

Zurück