Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Web-based Named Entity Recognition and Data Integration to Accelerate Molecular Biology Research

Pafilis, Evangelos

German Title: Web-basierte Erkennung von Begriffen und deren Bedeutung sowie Datenintegration um molekularbiologische Forschung zu beschleunigen

[thumbnail of Evangelos_Thesis.pdf]
Preview
PDF, English
Download (3MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

Finding information about a biological entity is a step tightly bound to molecular biology research. Despite ongoing efforts, this task is both tedious and time consuming, and tends to become Sisyphean as the number of entities increases. Our aim is to assist researchers by providing them with summary information about biological entities while they are browsing the web, as well as with simplified programmatic access to biological data. To materialise this aim we employ emerging web technologies offering novel web-browsing experiences and new ways of software communication Reflect is a tool that couples biological named entity recognition with informative summaries, and can be applied to any web page, during web browsing. Invoked either via its browser extensions or via its web page, Reflect highlights gene, protein and chemical molecule names in a web page, and, dynamically, attaches to them summary information. The latter provides an overview of what is known about the entity, such as a description, the domain composition, the 3D structure and links to more detailed resources. The annotation process occurs via easy-to-use interfaces. The fast performance allows for Reflect to be an interactive companion for scientific readers/researchers, while they are surfing the internet. OnTheFly is a web-based application that not only extends Reflect functionality to Microsoft Word, Microsoft Excel, PDF and plain text format files, but also supports the extraction of networks of known and predicted interactions about the entities recognised in a document. A combination of Reflect and OnTheFly offers a data annotation solution for documents used by life science researchers throughout their work. EasySRS is a set of remote methods that expose the functionality of the Sequence Retrieval System (SRS), a data integration platform used in providing access to life science information including genetic, protein, expression and pathway data. EasySRS supports simultaneous queries to all of the integrated resources. Accessed from a single point, via the web, and based on a simple, common query format, EasySRS facilitates the task of biological data collection and annotation. EasySRS has been employed to enrich the entries of a Plant Defence Mechanism database. UniprotProfiler is a prototype application that employs EasySRS to generate graphs of knowledge based on database record cross-references. These graphs are converted into 3D diagrams of interconnected data. The 3D diagram generation occurs via Systems Biology visualisation tools that employ intuitive graphs to replace long result lists and facilitate hypothesis generation and knowledge discovery.

Translation of abstract (German)

Das Auffinden von biologischen Entitäten ist ein Schritt der eng an die molekularbiologische Forschung geknüpft ist. Trotz laufender Bemühungen ist diese Aufgabe sowohl aufwändig als auch zeitintensiv und wird mit steigender Anzahl an Entitäten (Einheiten) unpraktikabel . Das Ziel unserer Arbeit ist es, Forscher Zusammenfassungen von Informationen über biologische Entitäten zur Verfügung zu stellen waehrend sie das Web nutzen , sowie auch vereinfachten, programmbasierten Zugang zu biologischen Daten zu ermöglichen. Das Programm Reflect verknüpft die Erkennung biologischer Namen von Entitäten (Einheiten) mit informativen Zusammenfassungen. Es kann auf jeder Webseite während des Browsens angewandt werden. Zudem kann es als Browser-Zusatzfunktion oder als Webseite aufgerufen werden. Es hebt Namen von Genen, Proteinen und chemischen Molekülen hervor und versieht diese dynamisch mit zusammengefassten Informationen. Letztere Funktion gibt einen Überblick über das vorhandene Wissen über eine Entitä (Eineit)t, wie etwa eine Beschreibung, die Domänenkonstellation, die dreidimensionale Struktur und Verweise zu detaillierteren Ressourcen. Der Annotationsprozess findet mittels einer leicht zu handhabenden Schnittstelle statt. Durch seine Schnelligkeit unterstützt Reflect den wissenschaftlichen Leser/Forscher beim Websurfen als interaktiver Partner. OnTheFly ist eine web-basierte Anwendung, die nicht nur die Funktionalität von Reflect auf Dateien von Microsoft Word, Microsoft Excel, PDF und Plaintextdatein erweitert, sondern es unterstützt auch die Extraktion von Netzwerken bekannter und vorausgesagter Interaktionen erkannter Entitäten eines Dokuments. Eine Kombination von Reflect und OnTheFly bietet somit eine Annotationsdatenlösung für Dokumente, die von Forschern der Biowissenschaften währen ihrer Arbeit genutzt werden. EasySRS ist eine Sammlung von Remote-Methoden, welche die Funktionalität von Sequence Retrieval System (SRS) bereit stellt. Letzteres ist eine Datenintegrationsplattform, die Zugang zu Informationen der Biowissenschaften wie genetische, Protein-, Expression- und Stoffwechselwegdaten bietet. EasySRS unterstützt gleichzeitige Anfragen zu allen integrierten Ressourcen. Alle Anfragen verwenden ein gemeinsames, einfaches, web-basiertes Format. SRS sammelt und annotiert daraufhin biologische Daten.. EasySRS wurde angewandt um die Einträge der Plant Defense Mechanism database zu erweitern. UniprotProfiler ist eine Prototypen-Anwendung, die EasySRS nutzt um basierend auf der Kreuzreferenzierung von Datenbankeinträngen Wissensgraphen zu erzeugen. Diese Graphen werden in 3D-Diagrammeder verknüpften Daten umgewandelt. Die Erzeugung der 3D-Diagramme erfolgt durch das „Systems Biology visualisation“-Werkzeugset, das lange Ergebnislisten durch intuitive Graphen ersetzt und somit die Hyphothesengenierierung und Wissensfindung ermöglicht.

Document type: Dissertation
Supervisor: Peer, Dr Bork
Date of thesis defense: 12 January 2009
Date Deposited: 19 Jan 2009 09:25
Date: 2008
Faculties / Institutes: The Faculty of Bio Sciences > Dean's Office of the Faculty of Bio Sciences
DDC-classification: 570 Life sciences
Controlled Keywords: Web-Seite, Dokumentverarbeitung, Web Services, Datenintegration, Text Mining
Uncontrolled Keywords: Datenintegration , Text Mining , Dokumentenerweiterung , Web ServicesData integration , text mining , knowledge summaries , document enrichment , web services
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative