Im Verbundprojekt (gemeinsam mit dem Ubiquitous Knowledge Processing Lab des Computer Science Department der TU Darmstadt) werden Konsens und Polarisierung in den Positionen unterschiedlicher gesellschaftlicher Gruppen (Wissenschaft, Politik, Medien, Bevölkerung) zu den Maßnahmen zur Bekämpfung der COVID-19-Pandemie im sozialen Netzwerk Twitter gemessen. Dabei sollen mithilfe innovativer Methoden aus dem Bereich des Natural Language Processing (NLP) Meinungsäußerungen automatisiert erfasst und Meinungsdynamiken mithilfe zeitreihenanalytischer Verfahren statistisch modelliert werden, um Ursachen und Entwicklungen gesellschaftlicher Spaltungsprozesse zu erkennen. Konkret werden dabei u.a. folgende Fragen beantwortet: Wie haben verschiedene gesellschaftliche Gruppen (z.B. die Politik oder die Medien) und Subgruppen (z.B. unterschiedliche Parteien und Medien mit unterschiedlichen redaktionellen Linien) die Corona-Maßnahmen bewertet, wie hat sich dies im Zeitverlauf verändert und wie haben sich die Positionen der unterschiedlichen Gruppen wechselseitig beeinflusst? Da die hier entwickelten NLP-Modelle zudem auf zukünftige Krisen übertragen werden können, erlaubt es das Projekt, allgemeine Muster in der Entstehung von Konsens und Polarisierung in Krisen zu identifizieren und ermöglicht eine Art gesellschaftliches Frühwarnsystem, das aufkommende Spaltungstendenzen erkennen kann. Neben diesem inhaltlichen Ziel verfolgt das Projekt zudem zwei methodische Ziele: Erstens sollen Vergleiche der auf Twitter gemessenen Meinungsäußerungen mit repräsentativen Bevölkerungsumfragen Auskunft darüber geben, wie gut sich der Diskurs auf Twitter als Indikator für die öffentliche Meinung eignet. Zweitens sollen die innovativen NLP-Verfahren auf sozialwissenschaftliche Fragestellungen angewandt und dadurch weiterentwickelt werden.
Im Folgenden erhalten Sie Informationen über die wichtigsten Aspekte des Forschungsprojektes.
Informationen zur Theorie
In demokratischen Gesellschaften müssen unterschiedliche Positionen zu politischen Maßnahmen selbstverständlich grundsätzlich möglich sein. Normative Demokratietheorien unterstellen allerdings in der Regel, dass Gesellschaften ein gewisses Maß an Grundkonsens benötigen, um politische Entscheidungen treffen zu können. Das Auseinanderdriften der Gesellschaft in Teilgruppen mit gegensätzlichen, unvereinbaren Extrempositionen (Polarisierung), ist für eine Gesellschaft dementsprechend dysfunktional (Hmielowski et al. 2016). Dies gilt insbesondere in Krisenzeiten, die eine hohe Akzeptanz für oft schnell und unter hoher Unsicherheit zu treffende Entscheidungen erfordern (Rosenthal et al. 1989). Die Frage, wie in einer Krisensituation Konsens und Polarisierung über diese Maßnahmen entstehen, ist folglich von erheblicher Relevanz für die Fähigkeit einer Gesellschaft, Krisen zu bewältigen.
Die sozialwissenschaftliche Forschung hält eine Reihe von Theorien und empirischen Befunden bereit, die das Ausmaß und Entstehen von Konsens und Polarisierung in einzelnen gesellschaftlichen Gruppen (Wissenschaft, Politik, Nachrichtenmedien, Bevölkerung) und Subgruppen (z.B. Politikerinnen und Politiker unterschiedlicher Parteien, Medien mit unterschiedlichen redaktionellen Linien) sowie wechselseitige Einflüsse zwischen den Gruppen beschreiben. So beschäftigen sich verschiedene Forschungsstränge mit dem Einfluss von Konsens und Polarisierung in der Wissenschaft auf den Konsens in Politik und Bevölkerung (Hamilton 2016), dem Einfluss von Konsens und Polarisierung unter politischen Eliten auf den Konsens in der Medienberichterstattung (Maurer et al. 2021), dem Einfluss der Polarisierung politischer Eliten (Iyengar et al. 2012) und der Medienberichterstattung (Hmielowski et al. 2016) auf die Polarisierung der Bevölkerung sowie dem Einfluss von politischen Eliten und Bevölkerung auf die Medienberichterstattung (McGregor & Molyneux 2020). Die Forschungsstränge wurden bislang – anders als beispielsweise in der Agenda-Setting-Forschung, die die Wechselwirkungen der Themenagenden der verschiedenen Gruppen seit langem untersucht (Barbera et al. 2019) – bislang noch nicht zu einem allgemeinen theoretischen Modell verbunden, das Aussagen darüber erlaubt, von welchen Gruppen Konsens und Polarisierung ausgehen, wie diese sich im Zusammenspiel der verschiedenen Gruppen weiterentwickeln und ob sich im Vergleich mehrerer Krisen bestimmte Muster der Meinungsbildung identifizieren und erklären lassen.
In Anknüpfung an die skizzierten theoretischen Grundlagen schlagen wir ein theoretisches Modell vor, dass die wechselseitigen Einflüsse der verschiedenen Akteursgruppen auf die Meinungsbildung während der COVID-19-Pandemie skizziert:
Das Modell berücksichtigt drei zentrale Aspekte:
Erstens wird das Ausmaß von Konsens und Polarisierung innerhalb der vier untersuchten Gruppen – Wissenschaft, Politik, Nachrichtenmedien und Bevölkerung – betrachtet.
Zweitens werden die vermuteten Einflüsse der Meinungsverteilungen innerhalb dieser Gruppen auf die Meinungsverteilungen in den jeweils anderen Gruppen dargestellt. Dabei wird angenommen, dass bestimmte Gruppen eine stärkere Wirkung auf andere ausüben. In Anlehnung an die Agenda-Setting-Forschung wird etwa vermutet, dass besonders starke Effekte von der Wissenschaft auf die Politik, von der Politik auf die Medien und von den Medien auf die Bevölkerung ausgehen (dargestellt durch hervorgehobene Pfeile).
Drittens berücksichtigt das Modell den Einfluss externer Faktoren, wie beispielsweise dem Infektionsgeschehen, auf die Meinungsbildung.
Jede dieser vermuteten Beziehungen basiert auf eigenständigen theoretischen Ansätzen innerhalb der Sozialwissenschaften, etwa Journalismus- und Medienwirkungstheorien, akteurstheoretischen Ansätzen der Soziologie oder Theorien des Parteienwettbewerbs. Diese bislang weitgehend isolierten Theorien werden in diesem Modell systematisch miteinander verknüpft, um die Dynamik von Konsens und Polarisierung innerhalb und zwischen den Gruppen sowie den Einfluss externer Faktoren umfassend zu analysieren.
Informationen über Methode
Datenerhebung
Die Datenerhebung für die Studie erfolgte durch das Sammeln von Tweets zur COVID-19-Pandemie im Zeitraum von Januar 2020 bis März 2022. Dabei kamen drei verschiedene Methoden zum Einsatz:
- Schlagwortsuche: Es wurden 61 verschiedene Suchanfragen verwendet, die Begriffe wie „Infektionsschutz“ oder „Quarantäne“ umfassten. Diese Schlagwörter berücksichtigten unterschiedliche Schreibweisen, wie sie in der öffentlichen Diskussion vorkamen.
- Twitter-Kontext-Annotation: Twitter kategorisierte Tweets anhand ihres semantischen Inhalts. Dazu gehören Listen von spezifischen Schlagwörtern, Hashtags und @Handles, die einem bestimmten Thema zugeordnet sind. Tweets, die diese Begriffe enthalten, erhalten eine entsprechende Kennzeichnung. Für COVID-19 wurde die Kontext-Annotation mit der Kennung 123.1220701888179359745 verwendet.
- Suche über ausgewählte X-Accounts: Es wurde eine Liste hochwertiger deutscher X-Accounts von Akteuren aus Politik (Parteien, Kandidierende, Ministerien, soziale Bewegungen, etc.), Medien (Medienoutlets, Online-Medien, Alternativmedien, Journalisten, Sendungen, Formate, etc.) und Wissenschaft (Ärzte, Virologen, Wissenschaftler unterschiedlicher Disziplinen) erstellt. Innerhalb des festgelegten Zeitraums wurden deren Tweets mit den zuvor definierten Schlagwörtern als COVID-19-Bezug gesammelt.
In allen drei Ansätzen wurden ausschließlich Original-Tweets, Zitate und Retweets berücksichtigt. Antworten auf Tweets (Replies) wurden aus der Analyse ausgeschlossen.
Einteilung der gesellschaftlichen Gruppen
Die Einteilung von X-Nutzern in die gesellschaftlichen Gruppen der Politik, Medien, Wissenschaft und der Bevölkerung erfolgt durch ein halbautomatisches Verfahren.
Im ersten Schritt recherchierten wir die relevantesten deutschen X-Accounts aus Politik, Medien und Wissenschaft auf Basis von vorhandenen wissenschaftlich-kuratierten Accountlisten (u.a. GESIS, HBI, Open Source Listen, Studien). Darin waren die Informationen über den X-Account-Handle und den dazugehörigen Gruppen-Klassifikationen (Politik, Medien, Wissenschaft) und Subgruppen-Klassifikationen (Partei, Kandidierende, Fraktion, etc. sowie eine entsprechende Parteizugehörigkeit; Medienoutlet, Mediengattung, Rechtsform; Wissenschaftlicher Beruf, Wissenschaftsdisziplin).
Im zweiten Schritt wurden die Kurzbeschreibungen der Nutzer (Bios) mit einer einer vordefinierten Liste von Schlüsselbegriffen mit einem Algorithmus verglichen. Diese Listen wurden für jede Gruppe angefertigt und setzten sich aus den häufigsten Begriffen der Nutzer-Biografien der im erstem Schritt identifizierten Accounts und einer manuellen Recherche der wichtigsten Begriffen zur Beschreibung der jeweiligen Gruppen zusammen. Zusätzlich berücksichtigt der Algorithmus Kombinationen aus zwei aufeinanderfolgenden Wörtern, um die Zuordnung zu verfeinern.
Alle Accounts wurden mit beiden Schritten analysiert und darauf basierend einer Gruppe zugeteilt. Wenn in beiden Schritten keine Gruppenzugehörigkeit identifiziert werden konnte, dann wurden diese Accounts als "Bevölkerung" eingestuft.
Manuelle Codierung des Trainingsdatensatzes
Die automatisierte Erkennung von Meinungsäußerungen zu Corona-Maßnahmen erfolgte in mehreren Schritten.
In einem ersten Schritt wurde ein manuell annotierter Datensatz von Tweets für das Training der automatisierten Klassifikationsalgorithmen benötigt. Dafür wurden sieben Codierer über mehrere Wochen geschult, um Maßnahmen und deren Bewertung in den Tweets zu identifizieren.
Einerseits wurden die in den Posts erwähnten Maßnahmen zur Eindämmung von COVID-19 auf Basis einer Liste an 32 Maßnahmen in den folgenden 8 Oberkategorien klassifiziert:
- Maßnahmen allgemein (z.B.. Infektionsschutzmaßnahmenverordnung, wenn explizit angesprochen und nicht einzelne Maßnahmen genannt sind)
- Shutdown / Lockdown allgemein
- Allgemeine Präventionsmaßnahmen (bspw. AHAL-Regeln, Abstand- und Hygieneregeln, Maskenpflicht, Lüften, Testpflicht, 2G- oder 3G-Regeln, Ausgangsbeschränkungen, Quarantäne, Corona-Apps )
- Begrenzung und Schließungen (bspw. Begrenzung von Personen/Teilnehmern bei privaten Feiern und öffentlichen Veranstaltungen, Schließungen von Bildungseinrichtungen, Freizeit-, Sport-, Kultur- und Religionseinrichtungen, Handel und Dienstleistungen sowie Homeoffice-Regelungen)
- Verbote (bspw. Alkoholverbote auf öffentlichen Plätzen, Reise- und Grenzverbote, Beherbergungsverbote sowie Einschränkungen und Verbote bei Messengerdiensten)
- Impfmaßnahmen (bspw. Impfungen der Bevölkerung, staatliche Organisation von Impfkampagnen und Impfzentren sowie Impfpflicht)
- Staatliche Investitionen (bspw. zusätzliche Mittel Digitalpakt Schule, Mittel zur Forschungsförderung (z.B. Impfstoff); Wirtschaftshilfen (z.B. Kurzarbeitergeld, Kompensation von Einnahmeausfällen)
- Sonstige Maßnahmen
Andererseits wurde jede Maßnahme hinsichtlich der Bewertung codiert:
- eindeutig oder eher positive Bewertung
- ambivalent - negative und positive Bewertung etwa gleichgewichtig
- eindeutig oder eher negative Bewertung
Zur Überprüfung der Güte der Übereinstimmung der Codierungen zwischen allen sieben Codierern analysierten diese dieselben 500 Tweets auf Basis der beschriebenen Kategorien auf erwähnte Maßnahmen und entsprechenden Bewertungen. Die Intercoder-Reliabilität wurde mit Krippendorffs Alpha gemessen und ergab solide Übereinstimmungswerte in allen Kategorien (α = 0.69 bis 0.89).
Der Trainingsdatensatz bestand aus einer Zufallsauswahl an 3500 Tweets aus vier Zeiträumen von jeweils sechseinhalb Monaten im Untersuchungszeitraum. Diese Tweets stammten von 3.212 Accounts, wobei 169 Accounts mehrfach vertreten waren. Diese Tweets wurden unter den sieben geschulten Codierenden gleichmäßig aufgeteilt und codiert.
Zusammengefasst umfassten die 3500 Tweets des Trainingsdatensatzes 1.556 Beiträge (44,5 %), die COVID-19-Maßnahmen erwähnten. Davon waren 54,4 % (1.119) neutral, 47,6 % (446) positiv, 45,6 % (427) negativ und 6,8 % (64) ambivalent.
Automatisierte Detektion der Meinungsäußerungen zu Corona-Maßnahmen:
Im zweiten Schritt haben wir mehrere Varianten für das Training der Inferenz-Modelle getestet und evaluiert. Allgemein haben wir Supervised Fine-Tuning (SFT), Instruction-Tuning using QLoRA und Prompting getestet, mit folgenden Modellen:
- Supervised Fine-Tuning (SFT): Hierbei wurden deutsche Sprachmodelle wie DeBERTaV3, GBERT und GELECTRA verwendet und auf dem annotierten Datensatz trainiert.
- Instruction Tuning mit QLoRA: Modelle wie Llama und LeoLM wurden mit der QLoRA-Methode feinjustiert.
- Prompting: Tweets wurden direkt in OpenAI-Modelle (GPT-3.5 Turbo und GPT-4) eingespeist, um ohne explizites Training eine Klassifikation durch Prompting zu erreichen.
Die Güte der automatisierten Klassifikationen der Modelle wurde auf Basis des Trainingsdatensatzes mit den manuellen Codierungen der Maßnahmen und Bewertungen geprüft.
Die Experimente wurden mit mehreren randomisierten Initialisierungen wiederholt, um robustere Ergebnisse zu erhalten. Weiterhin haben wir verschiedene Strategien zur Verbesserung der Modellperformanz evaluiert, einerseits die Kombination der in diesem Projekt annotierten Daten mit existierenden, ähnlichen Datensätzen (Beck et al., ACL 2021) und die Erstellung synthetischer Daten mittels Prompt Engineering.
Als beste Variante hat sich Instruction-Tuning QLoRA mit dem Modell „Llama3_DiscoLM_8b_v0.1“ auf einer Kombination von unseren eigenen annotierten Daten, den Daten aus einer vorhergehenden Arbeit (Beck et al., ACL 2021) und synthetisch-generierten Daten (n=1000 via few-shot prompting GPT4) herausgestellt.
Dieses Modell hat auf den kombinierten Test-Daten eine Performanz von 0.82 (+- 0.01) Accuracy, 0.68 (± 0.04) macro-averaged F1 erzielt und wurde genutzt, um den gesamten Twitter-Korpus zu klassifizieren.
Einreichungen & Publikationen aus dem Projekt
Kruschinski, S., Beck, T., Yazdani, S., Maurer, M., & Gurevych, I. (2025). Consensus and Conflict in Crisis: Opinion Dynamics on COVID-19 Measures Across Societal Groups on X.
Vortrag auf der ECREA Political Communication Section Conference am 4. und 5. September 2025 in Innsbruck, Österreich.
Beck, Tilman; Schuff, Hendrik; Lauscher, Anne; Gurevych, Iryna (2024):
Sensitivity, Performance, Robustness: Deconstructing the Effect of Sociodemographic Prompting.
In: Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 2589-2615, ACL, 18th Conference of the European Chapter of the Association for Computational Linguistics, St. Julian's, Malta, 17.-22.03.2024, Official URL, Conference or Workshop Item
Beck, Tilman; Waldis, Andreas; Gurevych, Iryna (2023):
Robust Integration of Contextual Information for Cross-Target Stance Detection.
In: StarSEM 2023: The 12th Joint Conference on Lexical and Computational Semantics - Proceedings of the Conference (*SEM 2023), pp. 494-511, ACL, 12th Joint Conference on Lexical and Computational Semantics, Toronto, Canada, 13.07.2023-14.07.2023, ISBN 978-1-959429-76-0, Official URL, Conference or Workshop Item