Sie sind hier
E-Book

Text Mining und dessen Implementierung

AutorChristian Zietzsch, Norman Zänker
VerlagDiplomica Verlag GmbH
Erscheinungsjahr2011
Seitenanzahl86 Seiten
ISBN9783842809703
FormatPDF
Kopierschutzkein Kopierschutz/DRM
GerätePC/MAC/eReader/Tablet
Preis44,99 EUR
In der heutigen Zeit, in der der Umgang mit Informationsressourcen den Alltag bestimmt, ist es wichtig, dass es Systeme gibt, die gewährleisten, dass für den Nutzer relevante Informationen gesucht und auf die wichtigsten Fakten reduziert werden. Ein Großteil der gespeicherten Informationen, welche extrahiert werden sollen, sind dabei in Form von Textdokumenten vorhanden. Zu diesem Zweck gibt es in der Informatik ein Fachgebiet, das es sich zur Aufgabe gemacht hat, Analysewerkzeuge zur Bearbeitung von natürlich sprachigen Texten zu entwickeln. Diese Entwicklung hatte ihren Ursprung bereits in den Anfängen der Informatik und ist somit eines der ältesten Probleme der IT-Branche. Mit der erhöhten Zugänglichkeit der Informationen steigen die Anforderungen an Informationssysteme, von denen eine automatische Generierung und Aufbereitung von Wissen erwartet wird. Dabei wird die Entwicklung solcher Informationssysteme mit verschiedenen Problemen konfrontiert. Beispielsweise erschwert die schiere Masse an Daten die Auswahl der Informationsquellen. Allein das Volumen des Internets umfasst ca. 75 Mio. Webseiten, ganz zu schweigen von unternehmensinternen Datenbanken, Email-Verkehr und Dokumentenmanagementsysteme, deren Datenvolumen bereits im Jahr 2000 auf 1000 Petabyte geschätzt wurde. Da elektronische Medien in der modernen Zeit immer mehr an Bedeutung gewinnen, steigen auch die gespeicherten Informationen in unaufhaltsamem Maße fast exponentiell an. Dieser Trend wird auch als Information Overload bezeichnet. Erschwerend dabei ist, dass weder die Inhalte, noch der Zweck des Systems im World Wide Web klar definiert sind.
Desweiteren macht die natürliche Sprache der einzelnen Informationsquellen zu schaffen. Solang die Daten strukturiert in einer Datenbank vorliegen, können sie von Informationssystemen ohne Probleme gelesen und die wichtigsten Informationen herausgefiltert werden. Dieses Verfahren ist bekannt unter dem Begriff ?Data-Mining?. Bei natürlichen Texten liegt jedoch keine feste Datenstruktur vor, da Semantik und Syntax bei der Informationsgewinnung berücksichtigt werden müssen. Hinzu kommt noch, dass statistische Methoden eine große Rolle spielen, um die gewünschten Informationen aus den Texten zu gewinnen. Ohne entsprechende Systeme ist es somit unmöglich, effektiv mit den Informationen aus Texten umzugehen.
Eine Technik, die es dennoch ermöglicht Textdatenbanken zu analysieren und Wissen aus unbekannten Texten zu extrahieren, wird als ?Text-Mining? bezeichnet, welches auf den Grundlagen des Data-Mining basiert.
Nichts desto trotz stecken die Analyseverfahren noch in den Kinderschuhen, da die enorme Fülle an Informationen und deren differenzierter sprachlicher Aufbau der Entwicklung zu schaffen macht.
In dieser Studie geben wir grundlegende Einblicke in das Gebiet des Text-Mining, definieren und beschreiben den Prozess, und erläutern die Methodik an einem eigens konzipierten Text-Mining-Tools.

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch
Inhaltsverzeichnis
Inhaltsverzeichnis3
Abbildungsverzeichnis5
Tabellenverzeichnis5
1 Einleitung6
1.1 Zielsetzung7
1.2 Aufbau der Arbeit7
2 Grundlagen8
2.1 Was ist Text Mining?8
2.2 Aufbau und Struktur von Text9
2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse11
2.3.1 Die Linguistik und ihre Ebenen11
2.3.2 Syntagmatische und Paradigmatische Relationen16
2.3.3 Semantische Relationen20
3 Text Mining-Prozess23
3.1 Unterschied Text Mining und Data Mining24
3.2 Dokumentsuche25
3.2.1 Information Retrieval25
3.2.2 Aufbau und Funktion eines Information Retrieval Systems26
3.3 Dokumentaufbereitung28
3.3.1 Textressourcen28
3.3.2 Aufbau eines Analysekorpus28
3.4 Text Mining – Statistische Analysemethoden33
3.4.1 Zipfsches Gesetz33
3.4.2 Differenzanalyse33
3.4.3 Part-of-Speech Tagging35
3.4.4 Kookkurrenzanalyse43
3.5. Text Mining – Clusteranalyse47
3.5.1 Nicht-hierarchische Verfahren47
3.5.2 Hierarchische Verfahren49
3.5.3 Fuzzy-Clusteranalyse50
3.5.4 Dokumentähnlichkeit51
3.5.5 Anwendungsbeispiel54
3.6 Text Mining – Musteranalyse56
3.6.1 Reguläre Ausdrücke56
3.6.2 Syntaktische Muster58
4 Text Mining-Prozess anhand des Zalazar Text Miner60
4.1 Programmaufbau61
4.2 Dokumentaufbereitung63
4.2.1 Formatierung des zu analysierenden Textdokuments63
4.2.2 Aufbau des Analysekorpus anhand der Satz- und Wortsegmentierung64
4.3 Dokumentanalyse71
4.3.1 Part-of-Speech Tagging71
4.3.2 Differenzanalyse74
4.3.3 Musteranalyse75
4.4 Ergebnisevaluation77
4.5 Handhabung des Zalazar Text Miner78
4.5.1 Öffnen einer neuen Mail79
4.5.2 Durchführen der Textanalyse80
4.5.3 Speichern der Ergebnisse81
4.5.4 Laden der Ergebnisse einer bereits analysierten Mail82
5 Schlusswort83
Literatur85

Weitere E-Books zum Thema: Informatik - Algorithmen - Softwaresysteme

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Weitere Zeitschriften

Augenblick mal

Augenblick mal

Die Zeitschrift mit den guten Nachrichten "Augenblick mal" ist eine Zeitschrift, die in aktuellen Berichten, Interviews und Reportagen die biblische Botschaft und den christlichen Glauben ...

Burgen und Schlösser

Burgen und Schlösser

aktuelle Berichte zum Thema Burgen, Schlösser, Wehrbauten, Forschungsergebnisse zur Bau- und Kunstgeschichte, Denkmalpflege und Denkmalschutz Seit ihrer Gründung 1899 gibt die Deutsche ...

care konkret

care konkret

care konkret ist die Wochenzeitung für Entscheider in der Pflege. Ambulant wie stationär. Sie fasst topaktuelle Informationen und Hintergründe aus der Pflegebranche kompakt und kompetent für Sie ...

caritas

caritas

mitteilungen für die Erzdiözese FreiburgUm Kindern aus armen Familien gute Perspektiven für eine eigenständige Lebensführung zu ermöglichen, muss die Kinderarmut in Deutschland nachhaltig ...

Computerwoche

Computerwoche

Die COMPUTERWOCHE berichtet schnell und detailliert über alle Belange der Informations- und Kommunikationstechnik in Unternehmen – über Trends, neue Technologien, Produkte und Märkte. IT-Manager ...

Correo

Correo

 La Revista de Bayer CropScience para la Agricultura ModernaPflanzenschutzmagazin für den Landwirt, landwirtschaftlichen Berater, Händler und am Thema Interessierten mit umfassender ...

Deutsche Tennis Zeitung

Deutsche Tennis Zeitung

Die DTZ – Deutsche Tennis Zeitung bietet Informationen aus allen Bereichen der deutschen Tennisszene –sie präsentiert sportliche Highlights, analysiert Entwicklungen und erläutert ...