Große Sprachmodelle (Large Language Models, LLM) sind ein zentraler Bestandteil der Künstlichen Intelligenz (KI). Sie werden mithilfe von Deep Learning trainiert und ermöglichen es Computersystemen, menschliche Sprache zu verstehen, zu generieren und zu verarbeiten.
Die Interpretation von Hautbefunden kann sowohl für Laien als auch für Kliniker eine Herausforderung darstellen. Große Sprachmodelle bieten eine zugängliche Entscheidungshilfe, doch ihre diagnostischen Fähigkeiten für dermatologische Bilder sind noch nicht ausreichend erforscht.
Eine neue Studie (https://doi.org/10.1515/dx-2025-0014) hat sieben hochmoderne multimodale LLM evaluiert, indem 500 dermatologische Bilder mit vier häufigen Hauterkrankungen analysiert wurden: Psoriasis, Vitiligo, Erysipel und Rosacea.
Die Modelle erhielten ausschließlich Bilddaten – ohne klinische Informationen oder Einschränkungen auf die vier Ziel-Diagnosen. Besonders an dieser Studie ist nicht nur die Gesamtergebnisse, sondern auch der direkte Vergleich zwischen großen cloud-basierten LLM und lokal einsetzbaren Modellen.
Wichtige Erkenntnis: GPT-4o erzielte die höchste diagnostische Genauigkeit von 67,8 %, dicht gefolgt von GPT-4o mini und dem lokal laufenden LLaMA 3.2 11B Modell von Meta. Diese lokal betriebenen LLaMA-Modelle schnitten genauso gut ab wie die großen Modelle hinter ChatGPT, Gemini oder Claude. Diese Modelle können vollständig offline betrieben werden – auf jedem normalen Rechner oder Laptop ohne Internetverbindung – und keine Patientendaten verlassen das Gerät.
Diese Studie zeigt, dass multimodale LLM effektiv diagnostische Schlüsselmerkmale in dermatologischen Bildern identifizieren können, selbst wenn kein bereichsspezifisches Training vorhanden ist. Ihre Fähigkeit, Erkrankungen mit ausgeprägten visuellen Mustern, wie Vitiligo und Psoriasis, zu erkennen, unterstreicht ihr Potenzial für breitere klinische Anwendungen. Insbesondere die vergleichbare Leistung von lokal eingesetzten Modellen wie Llama3.2 11B mit großen, cloudbasierten Lösungen zeigt, dass das solche Modelle auch unter den strengen deutschen Datenschutzbestimmungen einsetzbar sind und im klinischen Umfeld größer skalierbar sind.
Natürlich hat diese Studie ihre Einschränkungen, es bedarf eines breiteren Spektrums an Erkrankungen, klinischen Kontexten und Bilddaten aus realen klinischen Arbeitsabläufen. Die Forscher:innen arbeiten bereits an follow-up-Projekten.
Quelle: Cirkel, Lasse, Lechner, Fabian, Henk, Lukas Alexander, Krusche, Martin, Hirsch, Martin C., Hertl, Michael, Kuhn, Sebastian and Knitza, Johannes. "Large language models for dermatological image interpretation – a comparative study" Diagnosis, 2025. https://doi.org/10.1515/dx-2025-0014
ssey/bvdd