Tagungsprogramm

Der offizielle Start der 26. TaCoS ist am Freitag, den 6. Mai 2016, am Nachmittag in der Neuen Uni (in der Heidelberger Altstadt).
Am Abend gibt es auch eine Möglichkeit, die Stadt zu erkunden.

Das Tagungsprogramm findet am Freitagnachmittag, am Samstag ganztägig und am Sonntagvormittag statt, sodass die TaCoS gegen Sonntagmittag zu Ende ist.
Während das Programm am Freitagnachmittag in der Neuen Universität in der Altstadt stattfindet, befinden wir uns am Wochenende im Konferenzzentrum des Technologieparks.
Außerdem gibt es natürlich etwas Rahmenprogramm, wie z. B. eine Stadtführung und einen bunten Abend.

Freitag, 6. Mai Neue Universität

  • ab 13:00Anmeldung

  • 14:30
    bis 15:15
    Einleitende Worte Institutsleitung
    Begrüßung durch TaCoS-Team

  • 15:30
    bis 16:15
    Herr Dr. Pfleger
    Virtuelle Persönliche Assistenten
    Die nächste Generation natürlichsprachlicher Dialogsysteme

  • Kaffeepause
  • 16:30
    bis 17:15
    Alexander Judea und Benjamin Heinzerling
    Multipass-Sieve-Ansatz für WSD und Struct. Percept. zur Ereignis/Entitätsextr.

  • 17:15
    bis 18:00
    Sebastian Burst
    Ein graphbasiertes Verfahren zur WSI (und zum Auffinden neuer Wortbedeutungen)

  • Abendessen und Stadtführung

Samstag, 7. Mai Technologiepark

  • ab 9:00Frühstück

  • 10:30
    bis 11:15
    Sven Buechel
    Emotionale Unternehmen? Computational Social Science als Anwendungsfeld von Sprachtechnologie

  • 11:15
    bis 12:00
    Julia Suter
    Regelbasierte Textvereinfachung
    fürs Deutsche

  • Mittagspause
  • 13:30
    bis 14:15
    Julia Kreutzer
    Quality-Estimation from Scratch

  • 14:15
    bis 15:00
    Valentin Deyringer
    Chatbot-Entwicklung mit Neuronalem Netz

  • Pause
  • 15:30
    bis 16:15
    Anja Summa
    Emotion Recognition from Microblogs in the Urban Context with Spatio-Temporal Information

  • 16:15
    bis 17:00
    Todor Mihaylov
    Exposing Paid Opinion Manipulation Trolls in News Community Forums

  • 17:00
    bis 17:45
    Benjamin Körner
    Computerlinguistik im Arbeitsalltag

  • Abendprogramm und Grillabend

Sonntag, 8. Mai Technologiepark

  • ab 9:00Frühstück

  • 10:00
    bis 11:30
    Atilla Azgin
    Wie gefährlich ist die Computerlinguistik?

  • Abschlussworte

Lineup

Wie gefährlich ist die Computerlinguistik?

Atilla Azgin

Universität Heidelberg

Spätestens seit den Enthüllungen von Edward Snowden ist klar, dass Computerlinguistische Methoden im großen Stil zur Massenüberwachung verwendet wurden. Auch große Unternehmen wie Facebook, Google, Apple und Microsoft sammeln große Datenmengen, indem sie vermeindlich nützliche Tools zur Verfügung stellen. In dieser Runde wird es eine kleine Übersicht über möglicherweise moralisch grenzwertige Forschungsgebiete geben, um dann ein Gespräch darüber zu starten, "wie weit Computerlinguistik gehen darf".

Emotionale Unternehmen? Computational Social Science als Anwendungsfeld von Sprachtechnologie

Sven Buechel

Universität Jena

Die Analyse von subjektiver, wertender oder emotionaler Sprache erfährt derzeit große Aufmerksamkeit innerhalb der Computerlinguistik. Sehr häufig werden dabei individuelle Meinungen einzelner Personen insbesondere zu bestimmten Produkten oder den entsprechenden Herstellungsfirmen betrachtet. Die hier vorgestellte Arbeit zieht dagegen eine andere Perspektive heran, indem sie den emotionalen Sprachgebrauch von Unternehmen selbst untersucht, anstatt die Sprache über Unternehmen zu betrachten. Diese Perspektive entspricht einer derzeit viel diskutierten Forschungsrichtung innerhalb der Management- Organisationswissenschaften, die Organisationen – wie zum Beispiel Wirtschaftsunternehmen – anthropomorphisch, als soziale Akteure modelliert. Die vorgestellte Arbeit liefert durch die Verwendung von automatischer Textanalyse Daten als empirische Grundlage für die Diskussion dieses Organisationsmodells – sie folgt somit dem neu entstehenden Forschungsparadigma der Computational Social Sciences – einer Parallelentwicklung der Digital Humanities in den Sozialwissenschaften. Hierzu untersucht sie 1.676 Geschäfts- und Nachhaltigkeitsberichte der 90 größten Unternehmen der USA, Großbritanniens und Deutschlands und vergleicht diese hinsichtlich ihres Emotionsgehalts untereinander und in Bezug auf den ca. 800.000 Nachrichtentexte umfassenden Reuters-Korpus RCV1. Diese Analyse zeigt große Ähnlichkeiten in der Emotionalität von Geschäftsberichten zu – typischerweise emotional unmarkierten – Wirtschaftsmeldungen, während Nachhaltigkeitsberichte große Nähe zu – typischerweise sehr viel stärker emotional aufgeladenen – Sport- und Modenachrichten haben. Darüber hinaus weisen die Untersuchungsergebnisse darauf hin, dass die Emotionalität der Texte eines Unternehmens über den Untersuchungszeitraum von 23 Jahren hinweg relativ stabil bleibt und sich dabei deutlich vom emotionalen Sprachgebrauch anderer Unternehmen unterscheidet. Es deutet darauf hin, dass diese Unternehmen jeweils über ein für sie charakteristisches, dauerhaftes emotionales Profil verfügen.

Ein graphbasiertes Verfahren zur WSI (und zum Auffinden neuer Wortbedeutungen)

Sebastian Burst

Universität Heidelberg

Chatbot-Entwicklung mit Neuronalem Netz

Valentin Deyringer

Ludwig-Maximilians-Universität München

Neural nets, which have drawn a lot of attention in many research areas recently, are also used to train chat bots with interesting results. In our work we are implementing a chat bot for twitter (twitter bot) using a neural net with encoder-decoder structure as used in neural machine translation. Our work also focuses on the challenge of gathering appropriate data for training this kind of bot. This talk will also go into detail about the difficulties arising during development of this work in progress.

Multipass-Sieve-Ansatz für Word Sense Disambiguation und Structured Perceptron zur Ereignis/Entitätsextraktion

Alexander Judea und Benjamin Heinzerling

Heidelberger Institut für Theoretische Studien

Das Heidelberger Institut für Theoretische Studien (HITS) ist ein privates und gemeinnütziges Forschungsinstitut, das sich der Förderung datengetriebener Wissenschaft widmet. Die NLP-⁠Gruppe am HITS beschäftigt sich mit semantischen Phänomenen aller Art, sei es Koreferenzerkennung, Kohärenzmodellierung, Textzusammenfassung, Wortsinn-⁠Disambiguierung oder Informationsextraktion.
In unserem Vortrag stellen wir zwei Themengebiete näher vor. Zum einen die Disambiguierung mehrdeutiger Wörter im Kontext, zum anderen die Extraktion von wichtigen Ereignissen und von allen involvierten Entitäten, Zeiten und Orten aus Texten. Für die Disambiguierung verwenden wir einen Multipass-⁠Sieve-⁠Ansatz, für die Ereignis-⁠Extraktion ein Structured Perceptron.

Computerlinguistik im Arbeitsalltag

Benjamin Körner

Aristech

In meinem Beruf als Computerlinguist bei der Firma Aristech in Heidelberg befasse ich mich hauptsächlich mit der Verarbeitung gesprochener Sprache. Einerseits ist sie der Input für Spracherkennung (ASR), welche diese zu geschriebener Sprache umwandelt. Andererseits kann Text mittels Sprachsynthese- oder Text-to-Speech (TTS) wiederum in gesprochener Sprache wiedergeben werden. Semantische Analyse von Sprache bildet eine Zwischenebene zwischen diesen beiden Sphären. Hierbei kommen formale Grammatiken zum Einsatz, welche den textuellen Output für verschiedene Endanwendungen optimieren.
Neben der Akquise von Sprachdaten, dem Training von Modellen, welche für diverse Einsatzzwecke und speziell auf Kunden zugeschnitten sind, spielen vor allem auch die Qualitätskontrolle des Inputs & Outputs sowie das Debugging fertiger Synthese- oder Erkennungssyteme eine große Rolle. Abgesehen vom technischen Aspekt dieses Jobs zählen auch das Erstellen von Dokumentationen und Schulungen der Endkunden ebenso zu regelmäßigen Aufgaben. Somit bietet der Beruf, in meinem Falle, einen abwechslungsreichen Arbeitsalltag in den ich in meinem Vortrag einen kurzen Einblick gewähren möchte.

Quality-Estimation from Scratch

Julia Kreutzer

Universität Heidelberg

How good is machine translation? Quality estimation is the task that tries to find an answer to this question.
This talk will present a neural network approach for word-level machine translation quality estimation. The model builds on a feedforward multi-layer architecture for learning continuous space representations for bilingual contexts from scratch. It is trained for binary classification of translated words, given only the source sentence and the machine translation.
Enhancing the model with alignments, and unsupervised pre-training of word representations allows for leveraging large monolingual corpora for supervised quality estimation training.
With this approach we successfully participated in the quality estimation shared task of the Workshop on Statistical Machine Translation 2015. Furthermore, the bilingual word representations learnt during supervised training for quality estimation prove useful for other cross-lingual tasks.

Exposing Paid Opinion Manipulation Trolls in News Community Forums

Todor Mihaylov

Computational Linguistics Department, Universität Heidelberg

The practice of using opinion manipulation trolls has been reality since the rise of Internet and community forums. It has been shown that user opinions about products, companies and politics can be influenced by posts by other users in online forums and social networks. This makes it easy for companies and political parties to gain popularity by paying for “reputation management” to people or companies that write in discussion forums and social networks fake opinions from fake profiles.
During the 2013-2014 Bulgarian protests against the government, social networks and news community forums became the main “battle grounds” between supporters and opponents of the government. In that period, there was a very notable presence and activity of government supporters in Web forums. In series of leaked documents in an independent Bulgarian media, it was alleged that the ruling Socialist party was paying Internet trolls with EU Parliament money. Allegedly, these trolls were hired by a PR agency and were given specific instructions what to write.
A natural question is whether such trolls can be found and exposed automatically. This is a very hard task, as there is no enough data to train a classifier; yet, it is possible to obtain some test data, as these trolls are sometimes caught and widely exposed. Yet, one still needs training data. We solve the problem by assuming that a user who is called a troll by several different people is likely to be one, and one who has never been called a troll is unlikely to be such. We compare the profiles of (i) paid trolls vs. (ii) “mentioned” trolls vs. (iii) non-trolls, and we further show that a classifier trained to distinguish (ii) from (iii) does quite well also at telling apart (i) from (iii).

Sponsor

Dialog-Plattform ODPS3

Herr Dr. Pfleger

semvox

Google Now, Cortana und Siri – virtuelle Assistenten bilden immer häufiger die Schnittstelle zwischen Mensch und Computer und können dabei dank „KI“-Methoden immer komplexere Aufgaben aufnehmen.
Doch wie lassen sich solche Systeme realisieren? Am Beispiel der ODP S3 Plattform wird der grundsätzliche Entwicklungsprozess für die Realisierung eines sprachbasierten Assistenzsystems vorgestellt. Dabei werden auch die unterschiedlichen Rollen innerhalb des Entwicklungsprozesses betrachtet und auf die unterschiedlichen Aufgabenfelder für Computerlinguisten eingegangen.

Die SemVox GmbH wurde 2008 als Spin-Off des deutschen Forschungszentrums für Künstliche Intelligenz (DFKI GmbH) gegründet und hat sich zum Ziel gesetzt, mit Hilfe einfacher und intelligenter Bedienkonzepte Informationen intuitiv erlebbar und nutzbar zu machen. Egal ob Spracheingabe, Gestensteuerung, Steuerung über Touchscreen oder eine Kombination von verschiedenen Eingabemöglichkeiten die SemVox-Technologie gibt Benutzern die Freiheit, in jeder Situation die für sie optimale Bedienform zu wählen.
Mit der ODP S3 Plattform ermöglicht SemVox die Entwicklung interaktiver, multimodaler und intelligenter Lösungen für die Branchen Automotive, Smart Home, Home Entertainment, Industrie 4.0 und Medizintechnik, die weit über die üblichen Möglichkeiten einer reinen Sprachsteuerung hinausgehen und die Rolle eines persönlichen Assistenten übernehmen können.
Mit einem Team von 50 Mitarbeitern unterstützt SemVox seine Kunden bei der Konzeption und Entwicklung von eigenen Sprachlösungen sowie bei der Umsetzung von Ideen zu Innovationen.

Emotion Recognition from Microblogs in the Urban Context with Spatio-Temporal Information

Anja Summa

Universität Heidelberg

Das Erkennen und Klassifizieren von Emotionen in Texten ist ein wachsendes Forschungsgebiet, welches durch das Aufkommen des Internets und sozialer Medien, wie z.B. dem Microblogging-Dienst Twitter, zusätzlichen Auftrieb erhielt, da durch diese Technologien mehr und mehr potenziell emotionale Texte in digitalisierter Form verfügbar sind. Während sich die meisten Arbeiten im Bereich der Sentiment Analysis auf die Unterscheidung der Polarität (positiv, negativ, neutral) eines Textes beziehen, wird im Rahmen dieser Masterarbeit eine feinkörnigere Klassifikation durchgeführt.
Ziel dieser Arbeit ist es, einen Datensatz aus Tweets in diskrete Emotionskategorien (anger, disgust, fear, sadness, happiness, surprise und none) zu klassifizieren. Dazu wird zunächst ein geeigneter Datensatz ausgewählt, aus welchem ein manuell annotierter Goldstandard erstellt wird. Dieser dient als Trainings- und Testdatensatz für einen halb-überwachten Algorithmus für Maschinelles Lernen.
Die Besonderheit des hier vorgestellten Ansatzes besteht darin, dass nicht nur die Tweettexte analysiert werden, sondern auch deren räumlich-zeitliche Metadaten (Zeitstempel und Koordinaten) miteinbezogen werden. Da Tweets immer häufiger von mobilen Endgeräten wie Smartphones abgesendet werden, können durch das angewendete Verfahren wichtige Informationsattribute hinzugewonnen werden, die bei einer rein textuellen Analyse verloren gingen. Diese Arbeit ist die erste, die alle drei Dimensionen in einer gemeinsamen Metrik verbindet. Um dieses Ziel zu erreichen, werden Methoden aus der Computerlinguistik und Geoinformatik miteinander kombiniert. Als Klassifizierer werden graph-basierte Algorithmen ausgewählt, weil diese eine natürliche Verbindungen zwischen den zwei genannten Disziplinen herstellen, da beide die Konzepte von Graphen und Ähnlichkeiten definieren und benutzen.
Der Graph, der als Eingabe für die Klassifizierer dient, wird wie folgt berechnet: Tweets werden als Knoten repräsentiert, während die Kanten ihre paarweise Ähnlichkeit kodieren. Hierzu wird ein innovatives Konzept für die Ähnlichkeit entlang der drei Dimensionen Linguistik, Raum und Zeit definiert. Die Ähnlichkeit zweier Tweets wird danach beurteilt, wie wahrscheinlich es ist, dass beide dieselbe Emotion (aus der Menge der oben genannten Emotionen) ausdrücken. Für jede der drei Dimensionen wird ein Ähnlichkeitswert berechnet, welche dann linear kombiniert und gewichtet den gesamten Ähnlichkeitswert ergeben. Dieser Ähnlichkeitswert wird als Kantengewicht im Graphen ausgedrückt.
Von den Seedknoten ausgehend werden deren Labels entlang starker Kanten an ungelabelte Knoten weitergegeben, wodurch am Ende jeder Tweet ein Label erhält. Die Ergebnisse werden auf den Testdaten nach Precision, Recall und F-Measure evaluiert und bescheinigen dem hier vorgestellten Ansatz großes Potenzial. Dennoch bietet dieser viele Möglichkeiten zur weiterführenden Forschung, z.B. im Hinblick auf das Verfeinern der Ähnlichkeitsberechnung. Die Erstellung des Goldstandards zeigt, dass die Erkennung und Klassifizierung von Emotionsinformationen in Twitterdaten subjektiv und daher auch für Menschen schwierig ist. Eine verlässlichere Annotation könnte die Ergebnisse des Maschinellen Lernens weiter verbessern.

Regelbasierte Textvereinfachung fürs Deutsche

Julia Suter

Universität Zürich

Leichte Sprache hat zum Ziel, Texte für alle verständlich und zugänglich zu machen, auch für Menschen mit Leseschwierigkeiten. Leichte Sprache weist eine geringe lexikalische und syntaktische Komplexität auf. Schwierige Wörter werden erklärt und der Text wird klar strukturiert dargestellt. In den letzten Jahren hat sich Automatische Textvereinfachung etabliert und für verschiedene Sprachen wurden Systeme zur Automatischen Generierung von Leichter Sprache entwickelt. Bislang gab es jedoch kein System zur Vereinfachung von deutschen Texten. Daher habe ich ein regelbasiertes System zur Automatischen Textvereinfachung entwickelt, das deutsche Alltagssprache in Leichte(re) Sprache übersetzt. Da es auf der syntaktischen Analyse des Ausgangstextes basiert, nimmt es hauptsächlich syntaktische Vereinfachungen vor. Allerdings wurden weitere Tools und Ressourcen eingebaut, die die lexikalische Komplexität verringern und den Text mit zusätzlichen Informationen versehen.