Auffälligkeiten bei den Likern: werden Fake-Profile verwendet?

Der Wahlkampf zur Bundestagswahl wird intensiv auch auf Facebook ausgetragen. Jeder Spitzenkandidat versucht möglichst viele Befürworter zu finden. Dabei taucht immer wieder die Frage auf, hinter wie vielen Liker tatsächlich „echte“ Personen stehen und wie viele davon möglicherweise nur Fake-Profile sind. Auch wird von vielen Seiten angenommen, daß Fake-Profile benutzt werden um Meinungen und Stimmungen besser zu verbreiten.

Wir gehen heute dieser Frage nach und untersuchen die Liker der Spitzenkandidaten mittels Verteilung der Vornamen auf Auffälligkeiten. Diese ist eine von vielen Möglichkeiten Indizien für Fake-Profile zu finden. Sie basiert darauf, daß für Fake-Profile meist unauffällige (also gewöhnliche) Namen benutzt werden und nicht so häufige Namen unterrepräsentiert sind. Kurz gesagt, benutzt ein Kandidat viele Fake-Profile, kann dies Auswirkung auf die Namensverteilung seiner Liker haben. Für unsere Untersuchung haben wir die Facebook-Beiträge von verschiedenen Spitzenpolitikern im Zeitraum 1.1.2017 bis einschließlich 13.3.2017 betrachtet und die Häufigkeitsverteilungen der N häufigsten Vornamen der likenden Personen ausgewertet. Diese Häufigkeiten haben wir unter den Spitzenkandidaten miteinander verglichen und daraus eine Kennzahl X (in Abhängigkeit von N) berechnet. Es gilt dabei: je höher der X-Wert ist, desto auffälliger ist die Vornamen-Verteilung, d.h. desto unwahrscheinlicher ist es, daß die Vornamen gleichverteilt sind und somit den Gedanken aufwerfen, ob nicht Fake-Profile mit vielen häufigen Vornamen verwendet wurden. Das genaue Verfahren beschreiben wir am Ende dieses Posts. Im folgenden stellen wir die Ergebnisse vor.

In der folgenden Skizze zeigt die untere Kurve den Verlauf der obigen Testkennzahl X für  die ersten N häufigsten Vornamen unter den Likern von A. Merkel, M. Schulz, S. Wagenknecht, C. Özdemir, K. Göring-Eckardt, H. Seehofer, A. Scheuer. Die obere Kurve beschreibt die Testkennzahl X, wenn man zu jener Liste noch F. Petry hinzunimmt.

Auffälligkeiten-Petry-Liker

Der grüne Bereich definiert den Bereich, bei welchem die Kennzahl X keine auffälligen Werte liefert; der rote Bereich hingegen signalisiert, daß die Werte von X deutlich zu hohe Werte liefern, um davon ausgehen zu können, daß die Vornamen gleich verteilt sind. Der gelb-markierte Bereich gibt eine kritische Übergangsregion an, welche wie folgt interpretiert werden muß: X-Werte über diesem Bereich lassen auf einem Sicherheitsniveau von 99% den Schluß zu, daß die Vornamen nicht gleichverteilt sind und daher einige Vornamen unverhältnismäßig oft  vorkommen.

Wie man aus der Skizze ablesen kann, ist die untere Kurve deutlich unterhalb der kritischen Zone und liefert somit keinerlei Auffälligkeiten. Durch die Hinzunahme von Frauke Petry’s Liker jedoch entstehen auf einmal enorme Unregelmäßigkeiten, was zu dem Schluß führt, daß einige Vornamen bei Frauke Petry überverhältnismäßig oft auftauchen als sie sollten. Das stellt die Frage auf, ob hier Fake-Profile eine Rolle spielen.

Wir machen nun auch noch den Vergleich mit Christian Lindner. In der folgenden Skizze ist zu erkennen, wie die Hinzunahme von Christian Lindner’s Liker die Testkennzahl X (obere Kurve) über die kritische Region steigt und somit davon auszugehen ist, daß die Vornamen seiner Liker anders verteilt sind als die der restlichen Politiker. Dies läßt auf dieselbe Unregelmäßigkeiten in der Struktur seiner Liker schließen.

Auffaelligkeiten-Lindner-Liker

Zur Erläuterung des Test-Verfahrens:

Wir beginnen unsere Auswertung, indem wir die am häufigsten auftretenden Vornamen der Liker betrachten. In der folgenden Tabelle werden die Top 10 der auftretenden Vornamen aufgelistet:

vornamen-top-10

Es gab also 569 verschiedene Facebook-User mit Vornamen „Michael“, welche mindestens einen Like auf einen Merkel-Post im oben genannten Zeitraum vergeben haben. Es wurden in der obigen Tabelle nur Vornamen berücksichtigt, die bei allen Spitzenpolitikern mindestens einmal auftraten.

Wir haben nun untersucht, ob die Vornamen gleichmäßig verteilt unter allen Politikern sind oder ob es Auffälligkeiten gibt. Hintergrund ist der Denk-Ansatz, daß bei Fakeprofilen typische deutsche Vornamen aus einer relativ kleinen Vornamensliste zugewiesen werden. Wenn also viele Fakeprofile verwendet werden, liegt die Vermutung nahe, daß manche Vornamen deutlich öfters vorkommen als sie eigentlich sollten. Als erste Aufgabe haben wir uns die 100 häufigsten Vornamen unter den Likern angeschaut und ausgewertet, welchen Prozentanteil jeder Name bei jedem einzelnen Politiker ausmacht. Diese Politiker-spezifische Vornamensverteilung haben wir dann verglichen mit der Vornamen-Verteilung, wenn man die Werte von allen Politiker miteinbeziehen. Ein Standardmaß zur Beurteilung, wie nahe zwei Verteilungen beisammen liegen, ist der sog. Totalvariationsabstand, welcher sich wie folgt berechnet:

  • n(M,Y) = Häufigkeit des Vornamens M bei Politiker Y

  • n(Y) = Summe der n(M,Y), aufsummiert über die 100 häufigsten Vornamen M
  • n = Summe der n(Y), aufsummiert über alle Politiker Y
  • p(M,Y) = n(M,Y) / n(Y)
  • p(M) = n(M,Y) / n

Der Totalvariationsabstand der Politiker-spezifischen Vornamensverteilung p(M,Y) zur gesamten Vornamensverteilung p(M) wird berechnet als

TV = Summe aller Beträge |p(M,Y)-p(M)|, aufsummiert über die Top 100 Vornamen M.

Je höher eine Politiker-spezifische Vornamensverteilung ist, desto stärker weicht sie von der Gesamt-Verteilung ab, was als Indiz für Unregelmäßigkeiten gewertet werden kann. Es ergibt sich folgendes Bild, wobei die Höhe des Balken den Totalvariationsabstand der Politiker-spezifischen Vornamensverteilung zur Gesamt-Verteilung beschreibt:

TV-vergleich

Auffallend sind hier die hohen Werte von A. Merkel, F. Petry und C. Lindner. Bei näherer Untersuchung stellt man fest, daß bei A. Merkel mehr als 0,1 Punkte durch die Vornamen „Ali“ und „Ahmet“ resultieren. Daher korrigieren wir obige Abstandswerte, indem wir diese Vornamen entfernen. Damit erhalten wir folgendes Bild:

TV-Vergleich-korrigiert

Es lohnt sich daher nun ein genauerer Blick auf die Verteilung der Vornamen von A. Merkel, F. Petry und C. Lindner, bei denen jene Verteilungen sehr unregelmäßig erscheinen.

Dazu haben wir im folgenden eine Test-Kennzahl X verwendet, welche solche Auffälligkeiten (d.h. abnormale Häufigkeiten unter den N häufigsten Vornamen) misst: je höher der Wert X ist, desto stärker ist davon auszugehen, daß die Vornamen unter den Kandidaten nicht identisch-verteilt sind und somit eine auffällige Abweichung darstellen. Eine genauere Erklärung des Testverfahrens liefern wir am Ende des Blogs.

Wir sind zur Erstellung der Test-Statistik X wie folgt vorgegangen:

  1. Es wurden alle Liker der Posts im Zeitraum 1.1.2017 bis 13.3.2017 der betrachteten Politiker berücksichtigt. Jeder Liker wird dabei nur einmal über seinen Vornamen gezählt. Daraus haben wir eine Tabelle erstellt mit den N am häufigsten auftretenden Vornamen; siehe Tabelle oben.
  2. Da die Anzahl der Liker sehr unterschiedlich ist und für uns nur die relativen Häufigkeiten interessant sind, haben wir wie folgt normiert: beim Politiker Y haben wir jede absolute Häufigkeit in der Tabelle geteilt durch die Summe der Liker beim Politiker Y, welche einen der (N+10) häufigsten Vornamen besitzen. (Wir erhöhen hier aus technischen Modellierungsgründen um 10.). D.h. in obiger Tabelle wurden die absoluten Häufigkeiten n(M,Y) ersetzt durch n(M,Y)/n(Y), wobei wir bei Berechnung von n(Y) alle Werte n(M,Y) mit den Top (N+10) häufigsten Vornamen M aufsummieren
  3. Nun haben wir jeden der N häufigsten Vornamen jeweils einem Politiker zugeschlagen: d.h. derjenige Politiker bekommt den Vornamen Z zugeschlagen, welcher den höchsten normierten Wert in der normierten Tabelle aus 2. in der Zeile M enthält. D.h. der Vorname M wird demjenigen Politiker Y zugeschlagen, so daß n(M,Y)/n(Y) maximiert wird. Dies liefert am Ende eine Liste von Zahlen, welcher Politiker wie viele Namen „gewinnen“ konnte.
  4. Sollten die Vornamen gleichverteilt sein, so sollten alle Politiker in etwa gleich viele Vornamen „gewonnen“ haben. Mit einem klassischen Chi-Quadrat-Test überprüfen wir die Hypothese auf einem Signifikanzniveau von 1%. Die resultierende Test-Statistik ist gegeben durch X, welche in den Grafiken oben als Kurven beschrieben werden in Abhängigkeit von N.
  5. Die kritische Region in den obigen Grafiken wird beschrieben durch eine untere Linie, welche den kritischen Wert bei 6 Freiheitsgraden angibt und relevant für die untere Kurve ist, und durch eine obere Linie, welche den kritischen Wert bei 7 Freiheitsgraden angibt und relevant ist für die obere Kurve. Die Anzahl der Freiheitsgrade ist dabei gegeben als „Anzahl der Politiker minus 1“.

Hier ist zu erkennen, daß ohne Frauke Petry und Christian Lindner die Teststatsitik X klar zum Ausdruck bringt, daß man davon ausgehen muß, daß die einzelnen Kandidaten die Vornamen gleichmäßig „zugesprochen“ bekommen.

Hinweis:

Es ist selbstverständlich klar, daß dieser Test nur eine von vielen Möglichkeiten darstellt, wie man Unregelmäßigkeiten aufdecken kann. Das Problem hierbei ist aber die Erstellung eines vernünftigen Modells, welches nicht zu früh vor Unregelmäßigkeiten warnt. Hier sei noch angemerkt, dass der klassische Chi-Quadrat Unabhängigkeistest angewandt auf die ursprüngliche Tabelle stets eine signifikante Abhängigkeit von Vornamen und Kandidat ergibt. Dies ist aber wohl darauf zurück zu führen, dass dieser Test in unserer Situation schon sehr kleine Abhängikeiten „erkennt“.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s