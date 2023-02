Suchmaschinen rücken eher private Anbieter nach vorne

Vokabular auch für Laien geeignet - Lesbarkeit jedoch auf Hochschulniveau

Am häufigsten wird nach Krankheit und Verletzung gesucht

"Vertrauenswürdige Anbieter vollautomatisch identifizieren"

Bei Gesundheitsproblemen oder -fragen zuerst "Dr. Google" zu konsultieren ist ziemlich beliebt. Die Anzahl der Webseiten zu Gesundheitsthemen ist riesig. Doch wie verständlich sind deren Texte eigentlich? Helfen sie oder schrecken sie eher ab? Welche Themenfelder werden abgedeckt und wer steckt hinter diesen Angeboten? Diesen Fragen ging Medizininformatiker Richard Zowalla von der Universität Heidelberg in seiner Dissertation auf den Grund. Dafür erfasste ein sogenannter fokussierter Web-Crawler von Mai 2019 bis Mai 2020 die URLs und Textinhalte von insgesamt 14,2 Millionen gesundheitsrelevanten deutschsprachigen Webseiten. Anschließend wurden die Inhalte mit Verfahren aus dem KI-Bereich ausgewertet."Während der Crawler von Webseite zu Webseite springt, speichern wir nur Verlinkungen zwischen gesundheitsrelevanten Internetseiten. Auf diese Weise entsteht ein sogenannter Web-Graph, der ausschließlich gesundheitsrelevante Webseiten und deren Verlinkungen untereinander enthält", erklärt Zowalla. "Die Wichtigkeit einer Webseite innerhalb dieses Gesundheitsweb-Graphen können wir dann beispielsweise mit Google's PageRank bestimmen", ergänzt Professor Daniel Pfeifer (HHN), der neben Professor Thomas Wetter von der Universität Heidelberg die Promotion von Richard Zowalla betreut. Das Grundprinzip von PageRank: Je mehr Links auf eine Seite verweisen, desto höher ist das Gewicht dieser Seite, sie scheint also eine höhere Bedeutsamkeit zu haben.Mit Hilfe des Page Rank wurde jeweils für Deutschland, Österreich und die Schweiz eine Top 1000 Liste berechnet, wodurch insgesamt eine Top 3000 Liste des Gesundheitswebs entstand. Die Untersuchung zeigt, dass öffentliche Institutionen, wie das Robert-Koch-Institut und nicht kommerzielle Anbieter von Gesundheitsinformationen wie beispielsweise die Webseite der deutschen Krebshilfe nur knapp die Hälfte der Top 3000 Seiten des Gesundheitswebs ausmachen. Der Großteil an Informationen stammt von private Anbietern wie Webseiten von ÄrztInnen. Die vordersten 20 bis 50 Seiten der Top 3000 nehmen in allen drei Ländern vor allem die Informationsangebote von öffentlichen Einrichtungen ein. "Interessant ist jedoch, dass dies nicht unbedingt die Informationsangebote sind, die ein kommerzieller Suchmaschinenanbieter als Top Treffer präsentiert, hier stehen oftmals private Anbieter im Vordergrund", erläutert Zowalla.Als Maßstab für die Lesbarkeit eines Textes wurden der FRE-Score bzw. die vierte Wienersachtextformel verwendet: Als schwerer lesbar gelten demnach Texte mit längeren medizinischen Fachbegriffe sowie langen oder verschachtelten Sätzen. Diese Lesbarkeitsmaße bewerten einen Text entweder als Punktwert (Score) oder in Form von Schuljahren. Erhält ein Text etwa die Bewertung 11 sollten LeserInnen, die die 11. Klasse abgeschlossen haben, diese sprachlich klar erfassen können. Gesundheitsinformationen sollten bereits SchülerInnen aus der Mittelstufe verstehen können. Die Ergebnisse zeigen jedoch, "dass im deutschsprachigen Gesundheitsweb das Niveau deutlich darüber liegt und ein Text nur dann vollständig erfasst werden kann, wenn 13 bis 14 Jahre schulische Bildung vorliegen", erklärt Zowalla. Diese Dauer entspricht einem Hochschulstudium. Besser schneidet das Gesundheitsweb beim verwendeten Vokabular ab, dessen Laientauglichkeit mit Hilfe eines KI-Verfahrens untersucht wurde. Hier zeigt sich, dass es "größtenteils gut für ein Laienpublikum geeignet ist", so Zowalla. Schwer lesbare Texte zu gesundheits- oder krankheitsbezogenen Themen erzeugten somit eine Barriere im Umgang mit Informationen aus dem Internet, auch wenn das verwendete Vokabular aus medizinischer Sicht angemessen erscheint.Die Themen des Gesundheitswebs wurden mittels Latent Dirchlet Allocation (LDA) bestimmt. Das Verfahren wird verwendet, um eine große Menge an unstrukturierten Texten zu kategorisieren und Themen zu identifizieren. Die häufigsten Themenfelder im Gesundheitsweb sind die Themenfelder "Krankheit & Verletzung" sowie "Forschung & Wissenschaft". Die Untersuchung zeigt zudem, dass das Thema "Pandemie & Impfung" mit Bezug zur COVID-19 Pandemie bereits im Januar 2020 ein Bestandteil des Gesundheitsweb war.Ein Fazit von Richard Zowalla: "Im Zeitalter von Fake-News und Desinformation wäre es sicherlich interessant, wenn ein Verfahren vertrauenswürdige Anbieter (wie beispielsweise das Robert Koch Institut) für Gesundheitsinformationen vollautomatisch identifizieren könnte". Hier bestehe weiterhin Handlungs- und Forschungsbedarf. Die Informatik Fakultät der HHN plant deshalb bereits weitere Projekte gemeinsam mit medizinischen ExpertInnen.