Sie sind hier
E-Book

Webbasierte Datenintegration

Ansätze zur Messung und Sicherung der Informationsqualität in heterogenen Datenbeständen unter Verwendung eines vollständig webbasierten Werkzeuges

AutorRobert Hollmann, Steven Helmis
VerlagVieweg+Teubner (GWV)
Erscheinungsjahr2009
Seitenanzahl198 Seiten
ISBN9783834892805
FormatPDF
KopierschutzDRM
GerätePC/MAC/eReader/Tablet
Preis54,99 EUR
Die Autoren diskutieren die Problematik der Datenqualität, und entwickeln ein webbasiertes Werkzeug, welches die Integration der Daten ermöglicht und die Qualität der Datenbestände testet. Die Analyse der Bestände, das Auffinden von Duplikaten und die Bereinigung der Daten stehen dabei im Fokus dieses Werkzeuges, welches eine Grundlage für eine umfassende Datenqualitäts- und Bereinigungslösung darstellen kann.

Steven Helmis und Robert Hollmann studierten Angewandte Informatik an der Fachhochschule Erfurt und wurden für ihre Arbeiten mit dem 'Information Quality Best Master Degree Award' der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe
13 Konzept der Datenqualitätsanwendung „DCT" (S. 147-148)

Nachdem in den vergangenen Kapiteln die theoretischen Grundlagen für das Messen von Datenqualität und das konkrete Auf.nden von Duplikaten vorgestellt wurden, folgt in diesem Kapitel die Dokumentation eines Konzeptes zur konkreten Umsetzung einiger gezeigter Verfahrensweisen in einer leistungsfähigen Anwendung. Dieses Kapitel stellt die entwickelte Software „Data Cleaning Toolkit", kurz „DCT" sowie die zugrunde liegenden Entwicklungsmodelle und Entwürfe dar.

Neben der Architektur der verwendeten Technologie, der der Anwendung als Grundlage dient, werden die Modelle der Applikation, wie auch die zum Einsatz kommenden Datenmodelle beschrieben und dokumentiert. Für eine einfache und effiziente Anwendung, wird die Applikation durch eine einfache, aber leistungsfähige und gut verwendbare Benutzerober.äche bedient. Eingangs werden die Motivation für die Entwicklung der Anwendung, wie auch die gestellten Anforderungen diskutiert.

13.1 Zielstellung der Applikation

Die außerordentliche Notwendigkeit der Erhaltung bzw. Schaffung einer hohen Datenqualität in einem Unternehmensdatenbestand wurde im Verlauf dieser Arbeit mehrfach hervorgehoben und bewiesen. Es erscheint logisch, dass vorgestellte Konzepte und Verfahrensweisen in einer Softwaretechnischen Umsetzung angewendet werden. Die mit Co-Autor Steven Helmis (vgl. [Hel07]) entworfene und prototypisch im Rahmen dieser Masterthesis implementierte Applikation stellt das Ergebnis der thematischen Auseinandersetzung mit Datenqualität und deren Bewertung dar. Ziel der Applikationsentwicklung war es, eine leistungsfähige, modular aufgebaute und universell einsetzbare Lösung zur Datenqualitätsbewertung wie auch der Identi.kation von Duplikaten mit einer adäquaten Visualisierung und Auswertung zu entwickeln.

Als Quelldaten sollten hierbei vor allem verschiedene heterogene Datenbanken unterschiedlicher Datembankmanagementsysteme dienen. Für die eigentliche Bewertung und die Verarbeitung der geladenen, heterogenen Operativdaten wird in der Arbeitsdatenbank eine „Workspace-Table" angelegt, was eine manipulationsfreie Weiterverarbeitung der Quelldaten ermöglicht. In dieser sollen, die im Folgenden beschrieben Verfahren und Funktionen zur Bewertung der Qualität im geladenen Datenbestand und zur Duplikaterkennung nach verschiedenen Gesichtspunkten durchgeführt werden. Eine entsprechende, Grafiken-gestützte Auswertung macht die ermittelten Ergebnisse für Benutzer des Systems interpretierbar. Ebenso sollten externe Referenzdaten für die Qualitätsmessung und die Dublettensuche zum Einsatz kommen.

Die Anwendung soll universell als Client/Sever Anwendung ausgeführt werden. Als Zieltechnologie dient die webbasierte PHP-Skriptsprache. Die Arbeitsdatenbank, wie auch Applikationsdatenstrukturen werden im freien DBMS „MSSQL 2005 Express" verfügbar gemacht. Mit Hilfe von einzurichtenden Konnektoren soll so auf externe, verteilte und über das Internet verfügbare Quelldatenbanken zugegriffen werden. Interpretierbarkeit und Übersichtlichkeit der erzeugten Ergebnisse stand im Vordergrund der Auswertung und Visualiserung am Ende des Bewertungsprozesses.

13.2 Anforderungsanalyse

Für die Entwicklung des „DCT" wurde eine umfangreiche Analyse der eigentlichen Anforderungen an den zu implementierenden Prototypen durchgeführt. Diese sollen im folgenden Abschnitt dargestellt werden und orientieren sich in ihrer Struktur vornehmlich an den Richtlinien des „Reqirements Engineering", also der Anforderungsanalyse für die Softwareentwicklung, die im Referenzwerk von Balzert et al. (vgl. [Bal00]) dargestellt sind. Aus Gründen der Übersichtlichkeit wird jedoch nur ein Teil der von Balzert et al. geforderten Inhalte eines vollständigen P.ichtenhefts (engl. Software Requirement Speci.cation, kurz SRS) in diesem Abschnitt dargestellt.
Blick ins Buch
Inhaltsverzeichnis
Geleitwort6
Vorwort7
Inhaltsverzeichnis9
Abbildungsverzeichnis12
Tabellenverzeichnis15
Abkürzungsverzeichnis17
Teil I Datenbereinigung und Konsolidierung von heterogenen Datenbeständen20
1 Einleitung21
1.1 Motivation22
1.2 Zielsetzung der Arbeit23
1.3 Aufbau der Arbeit23
2 Datenqualität25
2.1 Datenqualität de.nieren25
2.2 Datenfehler26
2.3 Qualitätskriterien29
2.4 Methoden zur Einstufung der Qualität32
3 Dimensionen und Architektur der Informationsintegration42
3.1 Verteilung42
3.2 Heterogenität43
3.3 Autonomie45
3.4 Integrationsarchitektur46
4 Data Cleaning52
4.1 Datenanalyse53
4.2 Normalisierung und Validierung56
4.3 Record Matching57
4.4 Record Merging59
5 Konzeption des Data Cleaning Toolkits66
5.1 Bewertung und Analyse exisitierender Systeme66
5.2 Anforderungsanalyse69
5.3 Architektur Data Cleaning Toolkit71
5.4 Funktionsumfang72
6 Implementierung80
6.1 Datenbankentwicklung80
6.2 Webentwicklung88
6.3 Probleme während der Implementierungsphase94
7 Zusammenfassung und Ausblick95
Literaturverzeichnis97
Teil II Auffinden und Bereinigen von Duplikaten in heterogenen Datenbeständen104
8 Einleitung105
8.1 Motivation106
8.2 Zielstellungen dieser Arbeit107
8.3 Gliederung dieser Arbeit108
9 Informationen, Daten und Wissen- ein De.nitionsversuch109
9.1 Begriffsdefinitionen110
9.2 Herkunft von Daten und Informationen112
9.3 Beschaffenheit von Daten und Zugriff auf Informationen112
10 Informationsintegration im Fokus der Datenqualität117
10.1 Ist-Stand in Unternehmen- Notwendigkeit der Integration117
10.2 Informations- und Datenqualität119
10.3 Sicherung der Datenqualität128
10.4 Kosten der Datenqualität129
11 Duplikate in Datenbeständen131
11.1 Dubletten und deren Identi.kation131
11.2 Ein Framework zur Objektidenti.kation132
11.3 Das Dilemma der Dublettensuche134
12 Konkrete Verfahren zur Dublettenauf.ndung und Klassi.kation139
12.1 Ähnlichkeitsmessungen und Klassi.kation139
12.2 Ähnlichkeitsbestimmung bei Tupeln in einem Datenbestand140
12.3 Vorselektion für die Dublettensuche156
13 Konzept der Datenqualitätsanwendung „DCT“160
13.1 Zielstellung der Applikation160
13.2 Anforderungsanalyse161
13.3 Technologiemodell170
13.4 Datenbankmodell173
13.5 Applikationsarchitektur177
13.6 Applikationsstruktur179
13.7 Entwicklung einer Benutzerober.äche182
14 Implementierung, ausgewählte Algorithmen- und Datenstrukturen185
14.1 „DCT“- Der Verbindungsmanager185
14.3 „DCT- Data Pro.ling“189
14.4 „DCT“-Plausibilitätskontrolle192
14.5 „DCT“- Auf.nden von Duplikaten194
15 Fazit und Ausblick199
Literaturverzeichnis201

Weitere E-Books zum Thema: Internet - Intranet - Webdesign - Security

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Texten für das Web

E-Book Texten für das Web
Erfolgreich werben, erfolgreich verkaufen Format: PDF

Dieses Buch bietet das nötige Handwerkszeug, um die Qualität der eigenen Web-Texte zu verbessern bzw. eingekaufte Texte sicherer beurteilen zu können. Es liefert klare Kriterien für die Textanalyse,…

Texten für das Web

E-Book Texten für das Web
Erfolgreich werben, erfolgreich verkaufen Format: PDF

Dieses Buch bietet das nötige Handwerkszeug, um die Qualität der eigenen Web-Texte zu verbessern bzw. eingekaufte Texte sicherer beurteilen zu können. Es liefert klare Kriterien für die Textanalyse,…

Texten für das Web

E-Book Texten für das Web
Erfolgreich werben, erfolgreich verkaufen Format: PDF

Dieses Buch bietet das nötige Handwerkszeug, um die Qualität der eigenen Web-Texte zu verbessern bzw. eingekaufte Texte sicherer beurteilen zu können. Es liefert klare Kriterien für die Textanalyse,…

TCP/IP-Praxis

E-Book TCP/IP-Praxis
Dienste, Sicherheit, Troubleshooting Format: PDF

Netzwerke modernen Standards verlangen weniger nach Rezepten für Neu - Design als vielmehr nach Wegen, Maßnahmen zur Integration in eine bestehende Infrastruktur aufzuzeigen. Diesem Aspekt trägt TCP/…

E-Learning

E-Book E-Learning
Einsatzkonzepte und Geschäftsmodelle Format: PDF

Der vorliegende Band ist dem Lernen und Lehren auf der Basis moderner Informations- und Kommunikationstechnologien gewidmet. Das Buch fasst die wichtigsten Ansätze zur Einführung, Umsetzung und…

E-Learning

E-Book E-Learning
Einsatzkonzepte und Geschäftsmodelle Format: PDF

Der vorliegende Band ist dem Lernen und Lehren auf der Basis moderner Informations- und Kommunikationstechnologien gewidmet. Das Buch fasst die wichtigsten Ansätze zur Einführung, Umsetzung und…

Weitere Zeitschriften

BEHINDERTEPÄDAGOGIK

BEHINDERTEPÄDAGOGIK

Für diese Fachzeitschrift arbeiten namhafte Persönlichkeiten aus den verschiedenen Fotschungs-, Lehr- und Praxisbereichen zusammen. Zu ihren Aufgaben gehören Prävention, Früherkennung, ...

Berufsstart Bewerbung

Berufsstart Bewerbung

»Berufsstart Bewerbung« erscheint jährlich zum Wintersemester im November mit einer Auflage von 50.000 Exemplaren und ermöglicht Unternehmen sich bei Studenten und Absolventen mit einer ...

bank und markt

bank und markt

Zeitschrift für Banking - die führende Fachzeitschrift für den Markt und Wettbewerb der Finanzdienstleister, erscheint seit 1972 monatlich. Leitthemen Absatz und Akquise im Multichannel ...

Card Forum International

Card Forum International

Card Forum International, Magazine for Card Technologies and Applications, is a leading source for information in the field of card-based payment systems, related technologies, and required reading ...

cards Karten cartes

cards Karten cartes

Die führende Zeitschrift für Zahlungsverkehr und Payments – international und branchenübergreifend, erscheint seit 1990 monatlich (viermal als Fachmagazin, achtmal als ...

die horen

die horen

Zeitschrift für Literatur, Kunst und Kritik."...weil sie mit großer Aufmerksamkeit die internationale Literatur beobachtet und vorstellt; weil sie in der deutschen Literatur nicht nur das Neueste ...

dima

dima

Bau und Einsatz von Werkzeugmaschinen für spangebende und spanlose sowie abtragende und umformende Fertigungsverfahren. dima - die maschine - bietet als Fachzeitschrift die Kommunikationsplattform ...