Sie sind hier
E-Book

Informationsintegration in Biodatenbanken

Automatisches Finden von Abhängigkeiten zwischen Datenquellen

AutorJan Hegewald
VerlagVieweg+Teubner (GWV)
Erscheinungsjahr2009
Seitenanzahl102 Seiten
ISBN9783834892812
FormatPDF
KopierschutzDRM
GerätePC/MAC/eReader/Tablet
Preis54,99 EUR
Dieses Buch liefert einen Beitrag zur Integration von Informationen aus verschiedenen Datenquellen. Ein Algorithmus wird vorgestellt, mit dem gleiche Objekte in verschiedenen Datenbanken identifiziert werden können. Dieses Verfahren erlaubt es viele große Datenbanken schnell zu analysieren und im Folgenden die enthaltenen Informationen beinahe automatisiert zu integrieren. Verteilte Daten werden dadurch handhabbar und ermöglichen neue, tiefergehende Erkenntnisse.


Jan Hegewald studierte an der Humboldt-Universität zu Berlin Informatik. Am Hasso-Plattner-Institut in Potsdam fertigte er seine Diplomarbeit an, für die er mit dem 'Information Quality Best Master Degree Award' der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet wurde.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe
2 Stand der Forschung (S. 9-10)

In diesem Kapitel wird der aktuelle Stand der Forschung zu verschiedenen, der Problemstellung verwandten Themen eruiert.

2.1 Integration von Biodatenbanken

Mit dem weiten Feld der Integration von Biodatenbanken befassen sich mehrere Arbeiten, meist im Rahmen konkreter Projekte. Im Jahr 2001 beschrieben Eckman, Lacroix und Raschid in [ELR01] die Optimierung von Anfragen an mehrere molekularbiologische Datenbanken in einer Mediator-Wrapper-Architektur. Diese bereits 1992 von Gio Wiederhold in [Wie92] vorgestellte Architektur kapselt einzelne Datenquellen durch sogenannte Wrapper und verwendet Mediatoren um die so verfügbaren Informationen zusammenzuführen. Die Mediatoren stellen ein globales, integriertes Mediatorschema bereit – anders als in Aladin. Eckman, Lacroix und Raschid untersuchten die Anfrageoptimierung in einer Mediator-Wrapper-Architektur für Biodatenbanken. Sind mehrere Datenbanken untereinander verknüpft, so existieren meist mehrere unterschiedliche Pfade zwischen den Datenquellen.

Dementsprechend sind auch mehrere Anfragepläne zur Beantwortung einer Anfrage möglich. Die Autoren optimierten Anfrageausführungen mittels Kostenschätzungen für die einzelnen Anfragepläne. In die Optimierung wurden auch Metadaten einbezogen, die die Semantik von Datenquellen und ihre Anfrageschnittstellen beschreiben können. Hernandez und Kambhampati veröffentlichten 2004 in [HK04] einen Überblick über aktuelle Integrationstechniken im Bereich der Biodatenbanken. Sie unterschieden die Ansätze in Warehouse Integration, Mediator-basierte Integration und Link-basierte Integration.

Zu jedem Ansatz wurden Vor- und Nachteile herausgearbeitet. Die vorliegende Arbeit und das Projekt Aladin fallen in die letzte Kategorie. Die Autoren hoben als Vorteil dieses Vorgehens hervor, dass kein globales Schema modelliert werden muss. Eine Herausforderung besteht jedoch laut den Autoren darin, aus den verschiedenen möglichen Pfaden zwischen zwei Datenquellen einen möglichst günstigen auszuwählen. Weiterhin wurden einzelne Projekte vorgestellt und den jeweiligen Kategorien zugeordnet. In der Kategorie Link- basierte Integration wurde nur ein Projekt, SRS, aufgeführt.

Dieses 2001 von Rodrigo Lopez in [Lop01] beschriebene System ist allerdings mehr ein Schlüsselwortbasiertes Retrieval-System und insofern nur schwer mit Aladin zu vergleichen. Im Jahr 2004 publizierten Lacroix, Naumann, Raschid und Murthy in [LMNR04] eine Arbeit, die sich ähnlich wie [ELR01] mit Anfragen an mehrere Datenquellen befasst. Die Autoren stellten Beziehungen zwischen Datenquellen als Graphen dar. Anhand dieses Formalismus untersuchten sie Anfragen als Pfade im Graph hinsichtlich verschiedener Eigenschaften.

Dazu gehören zum Beispiel die Zeit für die Anfragebearbeitung oder die Informationsqualität bei Quellen unterschiedlicher Reputation. Ferner stellten die Autoren ein Kostenmodell auf, mit dem die Größen von Anfrageergebnissen abgeschätzt werden können. Für solche Anfrageoptimierungen ist die Erkennung der Beziehungen zwischen Datenquellen und damit diese Arbeit eine Voraussetzung. Die Arbeiten, die sich mit der Integration von Datenbanken der Molekularbiologie befassen, zeigen, dass auf diesem Gebiet noch hoher Forschungsbedarf besteht. Die vorliegende Arbeit ist ein Beitrag hierzu.
Blick ins Buch
Inhaltsverzeichnis
Geleitwort6
Vorwort7
Inhaltsverzeichnis9
1 Einleitung10
1.1 Definitionen12
1.2 Aufgabenstellung15
1.3 Aufbau der Arbeit16
2 Stand der Forschung18
2.1 Integration von Biodatenbanken18
2.2 (Instanz-basiertes) Schema Matching19
2.3 Erkennen von Inklusionsabhängigkeiten20
2.4 SPIDER22
3 Algorithmus zum Finden von PS-INDs30
3.1 Kategorisierung möglicher Af.xe und Schlüsselwerte30
3.2 LINK-FINDER: Finden von Suf.x-Inklusionsabhängigkeiten31
3.3 Erweiterungen zu LINK-FINDER60
3.4 Ermitteln der Metadaten einer PS-IND69
3.5 Erkennen von Beziehungen zu mehreren anderen Datenquellen74
3.6 Komplexitätsuntersuchung75
4 Evaluierung des Algorithmus81
4.1 Ergebnisse81
4.2 Laufzeitmessung87
5 Ausblick und Zusammenfassung94
5.1 Ausblick94
5.2 Zusammenfassung101
A Anhang103
A.1 Messergebnisse für LINK-FINDER103
A.2 Abkürzungsverzeichnis106
Literaturverzeichnis107

Weitere E-Books zum Thema: Datenbanken - Datenbanktheorie - Datenbankentwicklung

IT-Management

E-Book IT-Management
Best Practices für CIOs Format: PDF

In den 15 Beiträgen dieses Buches erhalten Sie praktisches Fachwissen zu den bedeutendsten Themen des heutigen IT-Managements. Der Einsatz von Informationstechnologien (IT) entscheidet mehr denn je…

Innovationen durch IT

E-Book Innovationen durch IT
Erfolgsbeispiele aus der Praxis Format: PDF

'Innovationen sind Treibstoff für die Wirtschaft ... Sie sind sowohl für Unternehmen ein zentrales Thema als auch für die gesamte Volkswirtschaft eines Landes ... Deutschland kann angesichts der…

IT-Governance in der Praxis

E-Book IT-Governance in der Praxis
Erfolgreiche Positionierung der IT im Unternehmen. Anleitung zur erfolgreichen Umsetzung regulatorischer und wettbewerbsbedingter Anforderungen Format: PDF

Die Autoren adressieren die Sandwich-Position, in der sich die IT heute in vielen größeren Unternehmen befindet: Zum einen der Druck, Governance Anforderungen wie Sarbanes-Oxley oder Compliance-…

Innovationen durch IT

E-Book Innovationen durch IT
Erfolgsbeispiele aus der Praxis Format: PDF

'Innovationen sind Treibstoff für die Wirtschaft ... Sie sind sowohl für Unternehmen ein zentrales Thema als auch für die gesamte Volkswirtschaft eines Landes ... Deutschland kann angesichts der…

SAP Business Information Warehouse

E-Book SAP Business Information Warehouse
Mehrdimensionale Datenmodellierung Format: PDF

Das SAP Business Information Warehouse (BW) als Data Warehouse-Lösung zielt auf eine zeitnahe Versorgung betrieblicher Entscheidungsträger mit relevanten Informationen zu Analysezwecken. Basis…

Der IT Business Case

E-Book Der IT Business Case
Kosten erfassen und analysieren - Nutzen erkennen und quantifizieren - Wirtschaftlichkeit nachweisen und realisieren Format: PDF

Obwohl sich das Potential der Informationstechnologie in den letzten Ja- zehnten vervielfacht hat und dadurch die Informatik zweifelsfrei an Bed- tung gewonnen hat, hat sich eines nicht verändert -…

IT-Management

E-Book IT-Management
Best Practices für CIOs Format: PDF

In den 15 Beiträgen dieses Buches erhalten Sie praktisches Fachwissen zu den bedeutendsten Themen des heutigen IT-Managements. Der Einsatz von Informationstechnologien (IT) entscheidet mehr denn je…

IT-Governance in der Praxis

E-Book IT-Governance in der Praxis
Erfolgreiche Positionierung der IT im Unternehmen. Anleitung zur erfolgreichen Umsetzung regulatorischer und wettbewerbsbedingter Anforderungen Format: PDF

Die Autoren adressieren die Sandwich-Position, in der sich die IT heute in vielen größeren Unternehmen befindet: Zum einen der Druck, Governance Anforderungen wie Sarbanes-Oxley oder Compliance-…

Innovationen durch IT

E-Book Innovationen durch IT
Erfolgsbeispiele aus der Praxis Format: PDF

'Innovationen sind Treibstoff für die Wirtschaft ... Sie sind sowohl für Unternehmen ein zentrales Thema als auch für die gesamte Volkswirtschaft eines Landes ... Deutschland kann angesichts der…

Weitere Zeitschriften

MENSCHEN. das magazin

MENSCHEN. das magazin

MENSCHEN. das magazin informiert über Themen, die das Zusammenleben von Menschen in der Gesellschaft bestimmen -und dies konsequent aus Perspektive der Betroffenen. Die Menschen, um die es geht, ...

AUTOCAD & Inventor Magazin

AUTOCAD & Inventor Magazin

FÜHREND - Das AUTOCAD & Inventor Magazin berichtet seinen Lesern seit 30 Jahren ausführlich über die Lösungsvielfalt der SoftwareLösungen des Herstellers Autodesk. Die Produkte gehören zu ...

cards Karten cartes

cards Karten cartes

Die führende Zeitschrift für Zahlungsverkehr und Payments – international und branchenübergreifend, erscheint seit 1990 monatlich (viermal als Fachmagazin, achtmal als ...

Demeter-Gartenrundbrief

Demeter-Gartenrundbrief

Einzige Gartenzeitung mit Erfahrungsberichten zum biologisch-dynamischen Anbau im Hausgarten (Demeter-Anbau). Mit regelmäßigem Arbeitskalender, Aussaat-/Pflanzzeiten, Neuigkeiten rund um den ...

Deutsche Tennis Zeitung

Deutsche Tennis Zeitung

Die DTZ – Deutsche Tennis Zeitung bietet Informationen aus allen Bereichen der deutschen Tennisszene –sie präsentiert sportliche Highlights, analysiert Entwicklungen und erläutert ...

dima

dima

Bau und Einsatz von Werkzeugmaschinen für spangebende und spanlose sowie abtragende und umformende Fertigungsverfahren. dima - die maschine - bietet als Fachzeitschrift die Kommunikationsplattform ...

DSD Der Sicherheitsdienst

DSD Der Sicherheitsdienst

Der "DSD – Der Sicherheitsdienst" ist das Magazin der Sicherheitswirtschaft. Es erscheint viermal jährlich und mit einer Auflage von 11.000 Exemplaren. Der DSD informiert über aktuelle Themen ...

building & automation

building & automation

Das Fachmagazin building & automation bietet dem Elektrohandwerker und Elektroplaner eine umfassende Übersicht über alle Produktneuheiten aus der Gebäudeautomation, der Installationstechnik, dem ...