Unbiased News - Bachelor Projekt
Unbiased News ist ein KI-basierter Nachrichtenprototyp, den ich im Rahmen meines Bachelorprojekts entwickelt habe, um politische Verzerrungen in deutschsprachigen Nachrichtenartikeln transparent darzustellen und die Medienkompetenz von Nutzerinnen und Nutzern zu stärken. Das Projekt verfolgt das Ziel, mithilfe eines feinjustierten KI-Modells die politische Ausrichtung aktueller Nachrichten automatisch zu analysieren, einzuordnen und visuell aufzubereiten. Dabei steht nicht die vollständige Nachrichtenaggregation im Vordergrund, sondern die Forschungsfrage, ob und wie zuverlässig künstliche Intelligenz politische Muster in Texten erkennen kann – und wie stark die Qualität der Trainingsdaten die Modellleistung beeinflusst. Die Basis des Systems bildet eine automatisierte Datenpipeline, die mithilfe der News API täglich aktuelle Nachrichten deutscher Medien abruft und in einer strukturierten Datenbank speichert. Ein Python-Skript in einer Docker-Umgebung übernimmt sowohl die Abfrage als auch die regelmäßige Aktualisierung der Datensätze. Durch diese automatisierte Infrastruktur entstand innerhalb weniger Wochen eine umfangreiche, vielfältige und thematisch breit gefächerte Datensammlung, die als Grundlage für das spätere KI-Training genutzt wurde. Ein zentraler Schritt des Projekts war die Erstellung der Labels, also der politischen Kategorien, in die das Modell Nachrichten einordnen sollte. Definiert wurden fünf politische Spektren: links, leicht links, mittel, leicht rechts und rechts. Für das Labeling wurden zwei Ansätze umgesetzt und miteinander verglichen: einerseits ein automatisiertes Labeling über ein LLM (z. B. GPT-3.5 oder ein spezialisiertes Tool von Spinde et al.), andererseits eine manuell geprüfte und optimierte Variante, bei der Mediengruppen konsistent bestimmten politischen Kategorien zugeordnet wurden. Dieser Prozess lieferte entscheidende Erkenntnisse über Datenqualität und politisches Framing. Im nächsten Schritt wurden verschiedene Open-Source-Modelle über Hugging Face evaluiert, um ein geeignetes Basismodell für feinabgestimmtes Fine-Tuning auszuwählen. Dazu wurden mehrere Modelle per Prompt Engineering getestet und anhand essenzieller Metriken wie Accuracy, Precision, Recall, F1-Score und Prediction Time bewertet. Erst nach diesem Vergleich wurde das leistungsstärkste Modell für das eigentliche Fine-Tuning genutzt. Trainiert wurde sowohl mit automatisch gelabelten Datensätzen (LLM-Labels) als auch mit manuell gruppierten Daten, um experimentell überprüfen zu können, welche Methode zu besseren Ergebnissen führt. Die Trainingsphase wurde mit PyTorch und Hugging Face in einer GPU-gestützten Umgebung durchgeführt. Dabei kamen Techniken wie Parameter Efficient Fine-Tuning (PEFT), Early Stopping und hyperparameterbasierte Optimierung mittels WandB zum Einsatz, um Overfitting zu vermeiden und die Modellleistung zu maximieren. Die kontinuierliche Überwachung von Trainings- und Evaluations-Loss ermöglichte ein präzises Finetuning und ein tiefes Verständnis der Lernprozesse des Modells. Die Ergebnisse des Projekts sind besonders hervorzuheben: ➡️ Das Modell, das mit manuell gruppierten Daten trainiert wurde, erzielte eine doppelt so hohe Genauigkeit wie die Version mit rein KI-erzeugten Labels. Diese Beobachtung zieht sich durch sämtliche Metriken – insbesondere beim F1-Score und bei der Präzision. Die Experimente zeigen damit sehr deutlich, dass sorgfältig kuratierte und konsistent gelabelte Trainingsdaten einen enormen Einfluss auf die Leistungsfähigkeit politischer Klassifikationsmodelle haben. Während das KI-Labeling schnell und kostengünstig ist, kann es zu inkonsistenten oder fehleranfälligen Einordnungen führen, die das Modell langfristig schwächen. Manuell vorklassifizierte Daten hingegen geben dem Modell klare Muster, die es zuverlässig verallgemeinern kann. Diese empirischen Ergebnisse verdeutlichen auch mögliche Bias-Risiken. Da politische Kategorisierung stark von Ausgangslabels abhängt, ist ein diverser, geprüfter und transparent dokumentierter Datensatz entscheidend, um Verzerrungen zu minimieren. Das Projekt zeigt damit nicht nur technische Machbarkeit, sondern liefert auch einen wertvollen Beitrag zur Diskussion rund um verantwortungsvolle KI im Medienkontext. Abgeschlossen wurde das Projekt durch die Entwicklung einer Webapplikation auf Basis von Next.js, die die analysierten Nachrichten übersichtlich und mobiloptimiert darstellt. Nutzerinnen und Nutzer können dort Artikel lesen, politische Einordnungen einsehen und Zusammenfassungen abrufen. Das Design orientiert sich bewusst an bekannten Plattformen wie Google News und Ground News, um schnellen Einstieg und hohe Usability zu gewährleisten. Insgesamt zeigt Unbiased News, wie KI zur politischen Analyse deutscher Nachrichten eingesetzt werden kann und welche Grundvoraussetzungen erfüllt sein müssen, um valide Ergebnisse zu erzielen. Das Projekt verbindet automatisierte Datenbeschaffung, Machine-Learning-Forschung, experimentelle Modellierung und Webentwicklung zu einem kompletten End-to-End-Prototyp. Es bietet damit nicht nur einen praktischen Nutzen, sondern liefert auch wichtige wissenschaftliche Erkenntnisse über KI-Bias, Datenqualität und die Herausforderungen politischer Textklassifikation.
