Textanalyse: Unter Generalverdacht durch Algorithmen

Dieses Thema im Forum "Netzwelt" wurde erstellt von CanHurry, 19. Februar 2014 .

Schlagworte:
  1. 19. Februar 2014
    Zuletzt bearbeitet: 13. Juli 2014
    Geheimdienste wie die NSA scannen täglich unzählige Texte. Die Gefahr, dass Personen fälschlicherweise verdächtigt werden, sei groß, schreibt Informatikerin Anna Biselli. Denn Algorithmen arbeiteten nicht fehlerfrei.

    Welches Auto soll ich kaufen? Schaue ich mir den neuen Film von Arnold Schwarzenegger im Kino an? Welche Partei kann man noch wählen? In all diesen Entscheidungen beeinflussen uns die Meinungen anderer. Vor den Zeiten von Diskussionsforen und sozialen Netzwerken haben wir uns vorrangig mit Freunden und Bekannten ausgetauscht, heute werden wir mit einer Vielzahl an Meinungen aus allen Bereichen des Internets konfrontiert.

    Und nicht nur wir sind interessiert daran, was andere zu sagen haben, sondern auch diejenigen, denen die Stimmungen gelten - seien es Autohersteller, Firmen, Politiker oder Musiker oder diejenigen, die aus Kommentaren andere Erkenntnisse gewinnen wollen, wie etwa die Geheimdienste.

    Einzelne Personen können es bei der Masse an Blogs, Produktbewertungen in Onlineshops, Diskussionsforen und Bewertungsportalen nicht mehr schaffen, all die Informationen auszuwerten. Dieses Feld des Opinion Mining oder der Sentiment Analysis wird mehr und mehr Algorithmen überlassen.
    Zu Unrecht verdächtigt

    Dass diese Programme nicht fehlerfrei sind, hat der Fall Andrej Holm gezeigt. Am 31. Juli 2007 wurden in Brandenburg Bundeswehrfahrzeuge in Brand gesetzt. Am 1. August stürmte ein Sondereinsatzkommando die Wohnung des Soziologen. Der Vorwurf lautete, er sei Mitglied einer terroristischen Vereinigung, der als linksradikal eingestuften Militanten Gruppe.

    Das BKA hatte ihn als Verfasser von Schriften der Gruppe identifiziert, die für den besagten Brandanschlag verantwortlich war. Zu dieser Annahme bewegte die Polizei eine vermeintliche Ähnlichkeit seiner Texte mit Bekennerschreiben der Gruppe. Holm befasste sich im Rahmen seiner Forschung mit Themen wie Gentrifizierung und Prekarisierung. Diese Begriffe traten häufig in seinen Texten auf, genau wie bei der militanten Gruppe. Diese vermeintlichen Beweise führten zu einem Gerichtsverfahren, das erst 2010 eingestellt wurde.
    Wo kommen die Meinungen her?

    So vielfältig das Internet sein mag, es tendiert dazu, viele kleine und große Filterblasen zu bilden. Daher besteht die Gefahr, Ergebnisse durch die Auswahl der Quellen zu verfälschen. Schaut man sich die Plattform Indymedia an, weiß man vorher, dass sich positive Stimmung in der eher linken politischen Ecke feststellen lassen wird, beim Konservativen Forum liegt der Fall entgegengesetzt. Günstig sind neutrale Plattformen, die weitgehend einstellungsunabhängig genutzt werden.

    Eine populäre Quelle sind Microblogging-Dienste wie Twitter. Durch Hashtags hat Twitter auch den Vorteil, dass Nachrichten bereits thematisch zugeordnet sind. Im Beispiel des neuen Bundestagsausschusses für Digitale Agenda können wir also nach dessen Hashtag #btada suchen und bekommen eine bunte Auswahl an Nachrichten aufs Tablett.

    Dabei sind positive wie "Chapeau! Inhalt + CGN Joke klasse! Meine Rede zu Demokratie im digitalen Zeitalter im Bundestag" und "Jetzt ist er da, der Ausschuss für dieses Internet. Juhu."

    Und eher Skeptische wie "#btADA - Besser ein Potemkinsches Dorf als gar kein Zuhause für die Netzpolitiker?" und "Viel Wirtschaft & Infrastruktur, wenig Bürgerrechte. Stimmt nicht gerade optimistisch für den Internetausschuss".
    Wo steckt die Meinung drin?

    Zunächst ist wichtig, Äußerungen zu finden, die auch wirklich zu dem betrachteten Thema gehören. Auf Twitter ist das durch Hashtags einfach, ebenso bei gezielten Produktbewertungen. Nutzt man andere, unstrukturierte Internetquellen, muss zunächst das Thema festgestellt werden, mit dem sich ein Text befasst.

    Beim Topic Mining wird ähnlich vorgegangen wie bei einer herkömmlichen Suchmaschine. Man crawlt die Menge eingehender Dokumente und sortiert, beispielsweise anhand von Keywords. Jedes Thema enthält außerdem Teilaspekte, die abhängig von der betrachteten Domäne sind. Deren Identifikation ist wichtig, denn sonst können Äußerungen falsch interpretiert werden. Dazu braucht man ein Modell der Einzelaspekte eines Themas.

    Im Rahmen des Internetausschusses formen zum Beispiel die Abgeordneten eigene Aspekte - aber auch die einzelnen Fraktionen, der Vorsitzende, ein Beschluss oder eine Abstimmung können Teilaspekte darstellen. Abbilden kann man solche Zusammenhänge durch Ontologien - strukturierte Wissensmodelle.

    Die enthalten zum Beispiel die Information, dass Lars Klingbeil ein Mitglied des Ausschusses ist. Wenn ein Tweet dann kritisiert, die Krawatte von Klingbeil sei hässlich, kann vermieden werden, das als Negativbeurteilung des gesamten Ausschusses zu klassifizieren.

    Als Ergebnis interessant ist die Polarität der Meinung. Die kleinste meinungstragende Einheit ist das einzelne Wort. Manche Wortarten haben dabei mehr Aussagekraft als andere. "Der", "wenn" oder "mein" verraten uns nichts, können also außen vor gelassen werden. Am aussagekräftigsten sind Adjektive und Adverben.

    Um Satzbestandteile zu klassifizieren, nutzt man Part-of-Speech Tagger, populäre Methoden sind statistische Modelle wie Hidden Markov Models, die durch die Häufigkeit bestimmter Satzkonstruktionen die wahrscheinlichste Wortart schätzen.

    Auf ein Personalpronomen folgen oft Adjektive und Substantive, aber selten Verben, also liegt beim Ausdruck "Meine Rede" nahe, dass Rede ein Substantiv ist und kein Verb. Diese Verfahren erreichen Genauigkeiten von 95 bis 97 Prozent.

    Weiß man, welche Wörter und Wortarten man vor sich hat, geht es darum herauszufinden, was die einzelnen Wörter ausdrücken. Ist "Juhu" Ausdruck einer positiven oder negativen Einstellung? Die simpelste, aber aufwendigste Methode ist es, die Klassifizierung Menschen zu überlassen und die Ergebnisse in einer Datenbank zu sammeln, auf deren Wissen man später zurückgreifen kann.
    "Pointwise Mutual Information and Information Retrieval"-Algorithmus

    Einer anderer Ansatz, der ohne menschliche Unterstützung, ist der "Pointwise Mutual Information and Information Retrieval"-Algorithmus, der die semantische Ähnlichkeit zweier Wörter ermittelt.

    In diesem Fall heißt das: Man hat ein Wort, dessen Stimmung unbekannt ist, und startet eine Suchanfrage, wie oft es in der Nähe eines bekannten Wortes wie "gut" oder "schlecht" auftaucht. Das kann man mit Googles AROUND(n)-Operator durchführen, der alle Suchergebnisse liefert, bei denen zwei Suchwörter im maximalen Abstand von n vorkommen. "Juhu" AROUND(3) "gut" liefert rund 14 Millionen Treffer, "juhu" AROUND(3) "schlecht" 5,6 Millionen. Wiederholt man den Test mit mehreren Referenzwörtern, bekommt man durch die Anzahl der Treffer auf beiden Seiten eine brauchbare Einschätzung der Wortpolarität.

    Ein weiterer Ansatz ist der von Sentiwordnet, hier wird eine kleine Ausgangsmenge eindeutig positiver und negativer Wörter als Ausgangsbasis benutzt. In der lexikalischen Datenbank Wordnet sind verwandte Wörter gespeichert, die sogenannte Synsets bilden.

    Sentiwordnet ordnet jedem Synset drei Stimmungswerte für positiv, negativ und neutral zu. Von bekannten Synsets ausgehend, werden verwandte Synsets gesucht, deren semantischer Abstand zum Vergleichssynset ein Indikator für die Polarität der Stimmung der Einzelwörter ist.

    Die nächste Ebene bilden Wortkombinationen und Satzkonstrukte. Wörter stehen nicht allein und können durch andere negiert, abgeschwächt oder verstärkt werden. Mit Hilfe der identifizierten Wortarten und formulierten Grammatikregeln kann durch logisches Schließen ermittelt werden, dass ein negierendes Wort gefolgt von einem positiven Adjektiv eine negative Haltung ausdrückt, wie bei "optimistisch" und "nicht gerade optimistisch".

    Aber auch sprachspezifische Wortzusammensetzungen können eine übertragene Bedeutung haben, "Potemkinsches Dorf" ist ein Bigram, ein Textfragment aus zwei Wörtern, das im Deutschen negativ konnotiert ist, obwohl keines der beiden Wörter separat eine Stimmung ausdrückt. Umgekehrt gilt das Gleiche: Eigennamen, deren Einzelbestandteile bedeutungstragend sind, müssen durch Named Entity Recognition herausgefiltert werden. Sonst hätte das Ausschussmitglied "Nadine Schön" immer eine positivere Bewertung als beispielsweise "Christina Schwarzer".
    Klassifikation eines ganzen Textes

    Um einen ganzen Text oder Tweet hinsichtlich der enthaltenen Meinung zu klassifizieren, gibt es mehrere Verfahren aus dem Bereich des maschinellen Lernens. Ein populäres sind Support Vector Machines. Aus der quantifizierten Häufigkeit von Satzteilen, Einzelwortstimmungen, Satzkonstruktionen, Textlänge usw. wird ein Vektor erstellt.

    Anhand von Beispielen mit bekannter Bedeutung lernt das Verfahren, Kategorien zu unterscheiden. Dafür wird eine Trennebene ermittelt, die Mengen der Vektoren in den Einzelkategorien so trennt, dass der Abstand der Ebenen zu den Randvektoren möglichst groß ist. Für einen unbekannten Vektor wird dann bestimmt, auf welcher Seite er liegt, also zu welcher Kategorie er wahrscheinlich gehört.
    Wo ist das Problem?

    Die oben angesprochenen Schwierigkeiten sind nur exemplarisch und die Einteilung von positiv und negativ ist die denkbar einfachste Unterscheidung, die man vornehmen kann. Verschiedene Sprachen, kulturelle Unterschiede, Ironie, bereichsspezifisches Vokabular. Die Herausforderungen sind unendlich. Sprachanalyse wird deshalb niemals hundertprozentig korrekt sein. Vor allem, wenn man sich die vielen Einzelschritte der Verarbeitungspipeline vor Augen führt, die zu sich aufsummierenden Fehlern führen können.

    Bei Meinungsbildern oder Bewertungen wird das in vielen Fällen durch die schiere Masse an Material ausgeglichen. Aber wenn es um den Einzelnen geht, kann das drastische Konsequenzen haben. Nicht nur positive und negative, sondern auch politische Haltungen verraten sich oft durch die Nutzung von charakteristischen Worten und Phrasen.

    Sprache ist ideologisiert, aus repräsentativen Texten kann man versuchen, Identifikatoren abzuleiten. Worthäufigkeiten, Wortschatzkomplexität oder durchschnittliche Satz- und Textlängen sind nur einige Kriterien, mit denen sich ein sprachlicher Fingerabdruck von Lebensanschauungen generieren lässt, oder nicht?

    Sprachanalyse ist ein interessantes Feld. Aber wie alle Algorithmen, die zur Ermittlung von Persönlichkeitsmerkmalen benutzt werden, ist die Gefahr von "False Positives" hoch. Wir werden täglich gescannt, die sprachlichen Spuren, die wir im Internet hinterlassen, sind vielfältig, und es wäre nicht verwunderlich, wenn wir auch einmal auffallen und interessant für Geheimdienste und Ermittler würden, weil ein Algorithmus uns Auffälligkeiten attestiert.

    Quelle: Sprache besteht nicht nur aus einzelnen Wörtern - Textanalyse: Unter Generalverdacht durch Algorithmen - Golem.de

    --------------------------

    Nun kann man endlich mal in den Quelltext schauen, wie solche Programme arbeiten. Meinungungen sind interessant Programme Analysieren die Meinung jedes einzelnen zu den Themen, für diese man sich interessiert. Diese werden weiterverkauft und tauchen früher oder später in Appz wieder auf. Somit weiß dein Gegenüber bevor er dich je gesehn hat, schonmal über dich bescheid. Perfekt, um sich dir sympatisch zu geben gleiche interessen vorzuspielen und die passenden Antworten auf deine Interessen zu liefern. Das macht Eindruck.
     
  2. 18. März 2014
    AW: Textanalyse: Unter Generalverdacht durch Algorithmen

    Spannender Bericht zu einer äußerst bedenklichen Entwicklung.
     
  3. Video Script

    Videos zum Themenbereich

    * gefundene Videos auf YouTube, anhand der Überschrift.