Sie sind hier
E-Book

Strukturelle Analyse Web-basierter Dokumente

AutorMatthias Dehmer
VerlagDUV Deutscher Universitäts-Verlag
Erscheinungsjahr2007
Seitenanzahl171 Seiten
ISBN9783835091351
FormatPDF
KopierschutzDRM
GerätePC/MAC/eReader/Tablet
Preis40,00 EUR
Matthias Dehmer rückt das Web Structure Mining, insbesondere die strukturelle Analyse Web-basierter Hypertexte auf Grundlage gerichteter Graphen, in den Mittelpunkt seiner Untersuchung. Der Autor stellt ein graphentheoretisches Modell zur Bestimmung der strukturellen Ähnlichkeit einer Klasse von gerichteten Graphen vor. Auf Basis des angesprochenen Modells führt er Experimente mit bestehenden Hypertexten durch und beschreibt neuartige Anwendungen im Web Structure Mining und in anderen Gebieten.

Dr. Matthias Dehmer arbeitet in der Informatik im Bereich der Strukturklassifikation und der Analyse von graphbasierten Netzwerken. In der Mathematik ist er in der diskreten Mathematik (Schwerpunkt Graphentheorie) und in der angewandten Funktionentheorie (Schwerpunkt Nullstellenlokalisierung) tätig.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe
Einleitung (S. 1)

1.1 Motivation der Arbeit

Die Untersuchung von Strukturen ist aus der Sicht vieler Wissenschaftsbereiche ein aktuelles Forschungsthema. Dabei ist die Strukturanalyse einerseits in anwendungsorientierten Disziplinen und andererseits in theorieorientierten Forschungsbereichen von zentraler Bedeutung:

 ,In der Linguistik wird intensiv die Struktur von Sprache, z.B. die syntaktische Sprachstruktur (Bar-Hillel 1964, Chomsky 1976) untersucht.

 ,Die soziologische Forschung betrachtet z.B. Kommunikationsstrukturen (Bavelas 1950) und soziale Netzwerke (Harary 1959, 1974, Scott 2001).

 ,In der Biologie und in der Biochemie spielen z.B. fraktale biologische Strukturen (Sernetz 2001) eine größte Rolle.

 ,Die Elektrotechnik untersucht Strukturen von Stromverzweigungen, elektrischer Netzwerke und Platinen.

Aus diesen Beispielen geht zunächst nicht hervor, mit welchen Methoden und Formalismen die jeweiligen Strukturen modelliert werden. Da in dieser Arbeit relationale Strukturen in Form von Graphen als Repräsentation komplexer Dokumentstrukturen eine wesentliche Rolle spielen, ist speziell das letzte Beispiel der obigen Aufzählung interessant.

KIRCHOFF (Kirchhoff 1847) publizierte im Bereich der Elektrizitätslehre bereits 1847 eine wichtige Arbeit bezogen auf die Theorie der Stromverzweigungen, die einen Grundstein der modernen Graphentheorie legte. Daran schlossen sich richtungsweisende Beiträge , von CALEY (Caley 1875), PETERSEN (Petersen 1891) und SYLVESTER (Sylvester 1878) an, die ihre Wurzeln ebenfalls in der Graphentheorie besitzen.

Heute ist die Beschreibung von Strukturen ohne graphbasierte Modelle in vielen Wissenschafts- und Lebensbereichen nicht mehr vorstellbar, wobei Graphen in der Informatik, z.B. für die Darstellung von Rechnernetzen, breite Anwendung , finden.

Die vorliegende Arbeit ist thematisch in einem Teilbereich des Web Mining (Chakrabarti 2002, Kosala &, Blockeel 2000)- dem Web Structure Mining (Kosala &, Blockeel 2000)- angesiedelt, weil sie strukturelle Modellierungsaspekte webbasierter , Dokumentstrukturen untersucht.

Da der Umgang mit Computern allgegenwärtig ist und die Menge an Dokumenten im Web bekanntlich exponentiell zunimmt, sind Hilfsmittel zur schnellen Erfassung, Klassifizierung und Auffindung von Dokumenten von zentraler Bedeutung. Längst wurde klar, dass Inhalt und Struktur vernetzter Dokumente hierbei relevant sind. Die vorliegende Arbeit konzentriert sich auf Strukturaspekte web-basierter Dokumente, welche in jüngerer Zeit immer stärker ins Blickfeld rücken.

Es existieren formale Ansätze (dInverno et al. 1997, Fronk 2003, Lange 1990, Mehler 2001), die strukturelle Aspekte hypertextueller Dokumente beschreiben. Die ersten bekannten Arbeiten, die insbesondere die strukturelle Analyse von Hypertexten auf der Basis graphentheoretischer Methoden fokussierten, stammen von (Botafogo &, Shneiderman 1991, Botafogo et al. 1992, Botafogo 1993).

Dabei wurden bekannte Konzepte , der Graphentheorie verwendet, um Maßzahlen- so genannte Indizes (Dehmer 2005, Mehler 2004) - für die Beschreibung struktureller Hypertextausprägungen zu entwickeln. Beispielsweise definierten BOTAFOGO et al. (Botafogo et al. 1992) als einen typischen Vertreter das bekannte Maß Compactness , welches den Grad der Vernetztheit einer Hypertextstruktur beschreibt.

Die Aussagekraft solcher Maße ist jedoch sehr eingeschränkt, da die zu beschreibende Ausprägung auf eine einzige Maßzahl abgebildet wird. Damit folgt weiter, dass solche Maße nicht eindeutig interpretierbar sind.

Unmittelbar daraus resultiert ein Problem, welches sich bislang negativ auf die Analyse hypertextueller Dokumente auswirkte (Dehmer 2005): Wegen der nicht eindeutigen Interpretierbarkeit und der damit verbundenden mangelnden Aussagekraft dieser Maße, ist eine Gruppierungähnlicher Strukturen nicht möglich, mit dem Ziel, ähnliche Funktionen oder sogar Qualitätsmerkmale abzuleiten.
Inhaltsverzeichnis
Vorwort6
Zusammenfassung8
Inhaltsverzeichnis10
Kapitel 1 Einleitung13
1.1 Motivation der Arbeit13
1.2 Zielsetzung der Arbeit15
1.3 Aufbau der Arbeit17
1.4 Wissenschaftlicher Beitrag der Arbeit19
Kapitel 2 Strukturelle Aspekte hypertextueller Einheiten23
2.1 Hypertext und Hypermedia23
2.2 Problemstellungen des Web Mining26
2.3 Existierende graphentheoretische Analysemethoden von Hypertextstrukturen32
2.4 Existierende Clusteringverfahren zur Analyse hypertextueller Daten43
2.5 Modellbildung: Polymorphie und funktionale Äquivalenz55
2.6 Konkreter Modellierungsansatz auf der Basis von GXL57
2.7 Zusammenfassende Bewertung und Fazit59
Kapitel 3 Grenzen der inhaltsbasierten Kategorisierung von Hypertextstrukturen63
3.1 Motivation63
3.2 Das Testkorpus und die Extraktion web-basierter Hypertexte66
3.3 Motivation des maschinellen Lernverfahrens68
3.4 Das Kategorisierungsexperiment71
3.5 Interpretation der Evaluierungsergebnisse74
3.6 Fazit76
Kapitel 4 Graphentheorie und strukturelle Ähnlichkeit: Bekannte Methoden79
4.1 Erforderliche Grundlagen79
4.2 Strukturelle Ähnlichkeit von Graphen87
4.3 Graph Mining und weitere graphorientierte Ähnlichkeitsmaße92
4.4 Zusammenfassende Bewertung101
Kapitel 5 Graphbasierte Analyse und Retrieval: Neuer Ansatz105
5.1 Motivation106
5.2 Gradsequenzen von Graphen110
5.3 Hierarchisierte und gerichtete Graphen114
5.4 Zentraler Lösungsansatz117
5.5 Berechnungsgrundlagen120
5.6 Strukturelle Ähnlichkeit hierarchisierter und gerichteter Graphen125
5.7 Ergebnisse134
5.8 Experimentelle Ergebnisse136
Kapitel 6 Exkurs: Strukturvorhersage151
6.1 Erkennung struktureller Beziehungen zwischen Graphmengen151
6.2 Ergebnisse154
6.3 Fazit156
Kapitel 7 Zusammenfassung und Ausblick157
7.1 Zusammenfassung der Ergebnisse157
7.2 Ausblick160
7.3 Weiterführende Fragestellungen163
Literaturverzeichnis165

Weitere E-Books zum Thema: Wirtschaftsinformatik - Informationstechnik - IT

Informationsmanagement

E-Book Informationsmanagement
Format: PDF

Das Internet hat in den letzten Jahren ohne Zweifel erhebliche Veränderungen in der gesamten Ökonomie bewirkt. E-Business gehört heute zur Unternehmensrealität und konfrontiert das…

Mobile qualifizierte elektronische Signaturen

E-Book Mobile qualifizierte elektronische Signaturen
Analyse der Hemmnisfaktoren und Gestaltungsvorschläge zur Einführung Format: PDF

Heiko Roßnagel diskutiert die Ursachen für den fehlenden Markterfolg elektronischer Signaturen. Er stellt mobile qualifizierte elektronische Signaturen als Alternative vor und zeigt unter welchen…

Umhegt oder abhängig?

E-Book Umhegt oder abhängig?
Der Mensch in einer digitalen Umgebung Format: PDF

Digitalisierung und Miniaturisierung von informations- und kommunikationstechnischen Funktionselementen schreiten rasch voran. Die allgegenwärtige digitale Assistenz für den Menschen beginnt Realität…

Strategische Liefernetze

E-Book Strategische Liefernetze
Evaluierung, Auswahl, kritische Knoten Format: PDF

Nikolaus Müssigmann erarbeitet Methoden und Verfahren zur Identifikation und Evaluierung strategischer Liefernetze. Besonderen Wert legt er dabei auf die Berücksichtigung kritischer Knoten. Er greift…

Quintessenz des Supply Chain Managements

E-Book Quintessenz des Supply Chain Managements
Was Sie wirklich über Ihre Prozesse in Beschaffung, Fertigung, Lagerung und Logistik wissen müssen Format: PDF

Der Wettbewerb findet zukünftig zwischen Supply Chains statt. Was die Gründe dafür sind und welche Konsequenzen sich daraus für Unternehmen ergeben, macht der Autor in dem Band deutlich. Er…

Handelscontrolling

E-Book Handelscontrolling
Optimale Informationsversorgung mit Kennzahlen Format: PDF

Handelsunternehmen gut zu führen ist in Zeiten turbulenter Veränderungen und dramatischen Preiswettbewerbs ein schwieriges Unterfangen. Um der Aufgabe gerecht zu werden, benötigen alle…

Dynamische Disposition

E-Book Dynamische Disposition
Strategien zur optimalen Auftrags- und Bestandsdisposition Format: PDF

Dynamische Disposition sichert marktgerechte Lieferzeiten, kostenoptimale Lieferfähigkeit und verhindert überhöhte oder unzureichende Bestände. Dieses Buch beantwortet grundlegende Fragen. Der Autor…

Weitere Zeitschriften

BMW Magazin

BMW Magazin

Unter dem Motto „DRIVEN" steht das BMW Magazin für Antrieb, Leidenschaft und Energie − und die Haltung, im Leben niemals stehen zu bleiben.Das Kundenmagazin der BMW AG inszeniert die neuesten ...

BONSAI ART

BONSAI ART

Auflagenstärkste deutschsprachige Bonsai-Zeitschrift, basierend auf den renommiertesten Bonsai-Zeitschriften Japans mit vielen Beiträgen europäischer Gestalter. Wertvolle Informationen für ...

cards Karten cartes

cards Karten cartes

Die führende Zeitschrift für Zahlungsverkehr und Payments – international und branchenübergreifend, erscheint seit 1990 monatlich (viermal als Fachmagazin, achtmal als ...

caritas

caritas

mitteilungen für die Erzdiözese FreiburgUm Kindern aus armen Familien gute Perspektiven für eine eigenständige Lebensführung zu ermöglichen, muss die Kinderarmut in Deutschland nachhaltig ...

CE-Markt

CE-Markt

 Das Fachmagazin für Consumer-Electronics & Home Technology Products Telefónica O2 Germany startet am 15. Oktober die neue O2 Handy-Flatrate. Der Clou: Die Mindestlaufzeit des Vertrages ...

Deutsche Hockey Zeitung

Deutsche Hockey Zeitung

Informiert über das internationale, nationale und internationale Hockey. Die Deutsche Hockeyzeitung ist Ihr kompetenter Partner für Ihr Wirken im Hockeymarkt. Sie ist die einzige ...

Die Versicherungspraxis

Die Versicherungspraxis

Behandlung versicherungsrelevanter Themen. Erfahren Sie mehr über den DVS. Der DVS Deutscher Versicherungs-Schutzverband e.V, Bonn, ist der Interessenvertreter der versicherungsnehmenden Wirtschaft. ...