Tool Support for the Automatic Analysis of Natural Language User Statements

Daub, Johannes

German Title: Werkzeugunterstützung zur automatischen Analyse von natürlichsprachlichen Nutzeräußerungen

[thumbnail of Masterarbeit_Johannes_Daub_Final.pdf]

Preview

PDF, English - main document
Download (2MB) | Lizenz: Rights reserved - Free Access

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00030794
URN: urn:nbn:de:bsz:16-heidok-307946

Abstract

[Context & Motivation] Developers need to learn about the requirements of software users, who give their feedback mostly in form of natural language statements. Processing these statements through manual coding, however, is an elaborate task and makes it unsuitable for big datasets. By extracting concepts from these statements, developers can get insights about the point of view of the software user. A software tool that provides automatic processing can help with this process.

[Contributions] This thesis explores the state-of-the-art topic modeling methods for user forums and applies suitable methods in the context of concept detection to a manually collected and annotated interview dataset. A software tool for automatic language processing, named "Feed.UVL" is created and the selected methods are integrated into this tool. The created software tool provides dataset management, which means that datasets can be stored, reviewed and deleted with the software. The implemented methods can be used to analyze these datasets for concepts. With the result visualization, the analysis results can be reviewed and the performance can be evaluated via the F1-score on a ground truth. Feed.UVL uses a micro-service architecture, which means it can be extended easily with new methods or functions. The integrated methods are then evaluated for the task of concept detection. A set of quality assurance measures, including static code analysis, component and system tests, have also been performed on the created tool.

[Conclusion] The main part of the thesis was the creation of a novel tool for natural language processing. The tool has a clean and user-friendly design and supports researchers in their analysis. Automatic analysis tasks can be handled and the user interface provides a rich display of results, including the metrics false positives, false negatives, precision, recall and F1-score. The current design and micro-service architecture ensures that the tool can be extended easily for further analysis methods and future research goals. At the moment, two state-of-the-art topic modeling methods (LDA and SeaNMF) are integrated, which were adapted for the use in concept detection. The evaluation has shown that while their precision is relatively high (0.84 for LDA and 0.83 for SeaNMF), their recall is rather low compared to a manually annotated ground truth for use in concept detection, which leaves space for improvements and future works.

Translation of abstract (German)

[Kontext & Motivation] Entwickler müssen die Anforderungen von Software-Nutzern, die ihr Feedback meist in Form von Aussagen in natürlicher Sprache geben, kennenlernen. Die Verarbeitung dieser Aussagen durch manuelle Kodierung ist jedoch eine aufwändige Aufgabe und für große Datenmengen ungeeignet. Durch die Extraktion von Konzepten aus diesen Aussagen können Entwickler Einblicke in die Sichtweise der Software-Nutzer gewinnen. Ein Software-Werkzeug, das eine automatische Verarbeitung ermöglicht, kann bei diesem Prozess helfen.

[Beiträge] Diese Arbeit untersucht den Stand der Technik von Methoden zur Themenmodellierung für Benutzerforen und wendet geeignete Methoden im Kontext der Konzepterkennung auf einen manuell erhobenen und annotierten Interviewdatensatz an. Es wird ein Software-Werkzeug zur automatischen Sprachverarbeitung mit dem Namen "Feed.UVL" erstellt und die ausgewählten Methoden in dieses Werkzeug integriert. Das erstellte Software-Werkzeug bietet eine Datensatzverwaltung, d. h. Datensätze können mit der Software gespeichert, überprüft und gelöscht werden. Mit den implementierten Methoden können diese Datensätze auf Konzepte hin analysiert werden. Mit der Ergebnisvisualisierung können die Analyseergebnisse überprüft und die Leistung über den F1-Score auf einer Ground Truth bewertet werden. Feed.UVL verwendet eine Microservice-Architektur, d. h. es kann leicht um neue Methoden oder Funktionen erweitert werden. Die integrierten Methoden werden dann für die Aufgabe der Konzepterkennung evaluiert. Eine Reihe von Qualitätssicherungsmaßnahmen, einschließlich statischer Code-Analyse, Komponenten- und Systemtests, wurden ebenfalls mit dem erstellten Werkzeug durchgeführt.

[Schlussfolgerungen] Der Hauptteil der Arbeit war die Entwicklung eines neuartigen Werkzeugs für die Verarbeitung natürlicher Sprache. Das Werkzeug hat ein klares und benutzerfreundliches Design und unterstützt Forscher bei ihrer Analyse. Es können automatische Analyseaufgaben durchgeführt werden, und die Benutzeroberfläche bietet eine umfangreiche Ergebnisanzeige, einschließlich der Metriken false positives, false-negatives, Precision, Recall und F1-Score. Das aktuelle Design und die Microservice-Architektur stellen sicher, dass das Werkzeug leicht für weitere Analysemethoden und zukünftige Forschungsziele erweitert werden kann. Derzeit sind zwei moderne Methoden zur Themenmodellierung (LDA und SeaNMF) integriert, die für die Verwendung in der Konzepterkennung angepasst wurden. Die Evaluierung hat gezeigt, dass ihre Präzision zwar relativ hoch ist (0,84 für LDA und 0,83 für SeaNMF), ihr Recall im Vergleich zu einer manuell annotierten Ground Truth für den Einsatz in der Konzepterkennung jedoch eher gering ist, was Raum für Verbesserungen und zukünftige Arbeiten lässt.

Document type:	Master's thesis
Supervisor:	Paech, Prof. Dr. Barbara
Place of Publication:	Heidelberg
Date of thesis defense:	27 September 2021
Date Deposited:	02 Dec 2021 10:51
Date:	2021
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification:	004 Data processing Computer science