eprintid: 8970 rev_number: 8 eprint_status: archive userid: 1 dir: disk0/00/00/89/70 datestamp: 2009-01-19 09:25:27 lastmod: 2014-04-03 21:04:21 status_changed: 2012-08-14 15:27:38 type: doctoralThesis metadata_visibility: show creators_name: Pafilis, Evangelos title: Web-based Named Entity Recognition and Data Integration to Accelerate Molecular Biology Research title_de: Web-basierte Erkennung von Begriffen und deren Bedeutung sowie Datenintegration um molekularbiologische Forschung zu beschleunigen ispublished: pub subjects: ddc-570 divisions: i-140001 adv_faculty: af-14 keywords: Datenintegration , Text Mining , Dokumentenerweiterung , Web ServicesData integration , text mining , knowledge summaries , document enrichment , web services cterms_swd: Web-Seite cterms_swd: Dokumentverarbeitung cterms_swd: Web Services cterms_swd: Datenintegration cterms_swd: Text Mining abstract: Finding information about a biological entity is a step tightly bound to molecular biology research. Despite ongoing efforts, this task is both tedious and time consuming, and tends to become Sisyphean as the number of entities increases. Our aim is to assist researchers by providing them with summary information about biological entities while they are browsing the web, as well as with simplified programmatic access to biological data. To materialise this aim we employ emerging web technologies offering novel web-browsing experiences and new ways of software communication Reflect is a tool that couples biological named entity recognition with informative summaries, and can be applied to any web page, during web browsing. Invoked either via its browser extensions or via its web page, Reflect highlights gene, protein and chemical molecule names in a web page, and, dynamically, attaches to them summary information. The latter provides an overview of what is known about the entity, such as a description, the domain composition, the 3D structure and links to more detailed resources. The annotation process occurs via easy-to-use interfaces. The fast performance allows for Reflect to be an interactive companion for scientific readers/researchers, while they are surfing the internet. OnTheFly is a web-based application that not only extends Reflect functionality to Microsoft Word, Microsoft Excel, PDF and plain text format files, but also supports the extraction of networks of known and predicted interactions about the entities recognised in a document. A combination of Reflect and OnTheFly offers a data annotation solution for documents used by life science researchers throughout their work. EasySRS is a set of remote methods that expose the functionality of the Sequence Retrieval System (SRS), a data integration platform used in providing access to life science information including genetic, protein, expression and pathway data. EasySRS supports simultaneous queries to all of the integrated resources. Accessed from a single point, via the web, and based on a simple, common query format, EasySRS facilitates the task of biological data collection and annotation. EasySRS has been employed to enrich the entries of a Plant Defence Mechanism database. UniprotProfiler is a prototype application that employs EasySRS to generate graphs of knowledge based on database record cross-references. These graphs are converted into 3D diagrams of interconnected data. The 3D diagram generation occurs via Systems Biology visualisation tools that employ intuitive graphs to replace long result lists and facilitate hypothesis generation and knowledge discovery. abstract_translated_text: Das Auffinden von biologischen Entitäten ist ein Schritt der eng an die molekularbiologische Forschung geknüpft ist. Trotz laufender Bemühungen ist diese Aufgabe sowohl aufwändig als auch zeitintensiv und wird mit steigender Anzahl an Entitäten (Einheiten) unpraktikabel . Das Ziel unserer Arbeit ist es, Forscher Zusammenfassungen von Informationen über biologische Entitäten zur Verfügung zu stellen waehrend sie das Web nutzen , sowie auch vereinfachten, programmbasierten Zugang zu biologischen Daten zu ermöglichen. Das Programm Reflect verknüpft die Erkennung biologischer Namen von Entitäten (Einheiten) mit informativen Zusammenfassungen. Es kann auf jeder Webseite während des Browsens angewandt werden. Zudem kann es als Browser-Zusatzfunktion oder als Webseite aufgerufen werden. Es hebt Namen von Genen, Proteinen und chemischen Molekülen hervor und versieht diese dynamisch mit zusammengefassten Informationen. Letztere Funktion gibt einen Überblick über das vorhandene Wissen über eine Entitä (Eineit)t, wie etwa eine Beschreibung, die Domänenkonstellation, die dreidimensionale Struktur und Verweise zu detaillierteren Ressourcen. Der Annotationsprozess findet mittels einer leicht zu handhabenden Schnittstelle statt. Durch seine Schnelligkeit unterstützt Reflect den wissenschaftlichen Leser/Forscher beim Websurfen als interaktiver Partner. OnTheFly ist eine web-basierte Anwendung, die nicht nur die Funktionalität von Reflect auf Dateien von Microsoft Word, Microsoft Excel, PDF und Plaintextdatein erweitert, sondern es unterstützt auch die Extraktion von Netzwerken bekannter und vorausgesagter Interaktionen erkannter Entitäten eines Dokuments. Eine Kombination von Reflect und OnTheFly bietet somit eine Annotationsdatenlösung für Dokumente, die von Forschern der Biowissenschaften währen ihrer Arbeit genutzt werden. EasySRS ist eine Sammlung von Remote-Methoden, welche die Funktionalität von Sequence Retrieval System (SRS) bereit stellt. Letzteres ist eine Datenintegrationsplattform, die Zugang zu Informationen der Biowissenschaften wie genetische, Protein-, Expression- und Stoffwechselwegdaten bietet. EasySRS unterstützt gleichzeitige Anfragen zu allen integrierten Ressourcen. Alle Anfragen verwenden ein gemeinsames, einfaches, web-basiertes Format. SRS sammelt und annotiert daraufhin biologische Daten.. EasySRS wurde angewandt um die Einträge der Plant Defense Mechanism database zu erweitern. UniprotProfiler ist eine Prototypen-Anwendung, die EasySRS nutzt um basierend auf der Kreuzreferenzierung von Datenbankeinträngen Wissensgraphen zu erzeugen. Diese Graphen werden in 3D-Diagrammeder verknüpften Daten umgewandelt. Die Erzeugung der 3D-Diagramme erfolgt durch das „Systems Biology visualisation“-Werkzeugset, das lange Ergebnislisten durch intuitive Graphen ersetzt und somit die Hyphothesengenierierung und Wissensfindung ermöglicht. abstract_translated_lang: ger date: 2008 date_type: published id_scheme: DOI id_number: 10.11588/heidok.00008970 ppn_swb: 1647657083 own_urn: urn:nbn:de:bsz:16-opus-89706 date_accepted: 2009-01-12 advisor: HASH(0x56009aa71508) language: eng bibsort: PAFILISEVAWEBBASEDNA2008 full_text_status: public citation: Pafilis, Evangelos (2008) Web-based Named Entity Recognition and Data Integration to Accelerate Molecular Biology Research. [Dissertation] document_url: https://archiv.ub.uni-heidelberg.de/volltextserver/8970/1/Evangelos_Thesis.pdf