Sie sind hier
E-Book

Text Mining und dessen Implementierung

AutorChristian Zietzsch, Norman Zänker
VerlagDiplomica Verlag GmbH
Erscheinungsjahr2011
Seitenanzahl86 Seiten
ISBN9783842809703
FormatPDF
Kopierschutzkein Kopierschutz/DRM
GerätePC/MAC/eReader/Tablet
Preis44,99 EUR
In der heutigen Zeit, in der der Umgang mit Informationsressourcen den Alltag bestimmt, ist es wichtig, dass es Systeme gibt, die gewährleisten, dass für den Nutzer relevante Informationen gesucht und auf die wichtigsten Fakten reduziert werden. Ein Großteil der gespeicherten Informationen, welche extrahiert werden sollen, sind dabei in Form von Textdokumenten vorhanden. Zu diesem Zweck gibt es in der Informatik ein Fachgebiet, das es sich zur Aufgabe gemacht hat, Analysewerkzeuge zur Bearbeitung von natürlich sprachigen Texten zu entwickeln. Diese Entwicklung hatte ihren Ursprung bereits in den Anfängen der Informatik und ist somit eines der ältesten Probleme der IT-Branche. Mit der erhöhten Zugänglichkeit der Informationen steigen die Anforderungen an Informationssysteme, von denen eine automatische Generierung und Aufbereitung von Wissen erwartet wird. Dabei wird die Entwicklung solcher Informationssysteme mit verschiedenen Problemen konfrontiert. Beispielsweise erschwert die schiere Masse an Daten die Auswahl der Informationsquellen. Allein das Volumen des Internets umfasst ca. 75 Mio. Webseiten, ganz zu schweigen von unternehmensinternen Datenbanken, Email-Verkehr und Dokumentenmanagementsysteme, deren Datenvolumen bereits im Jahr 2000 auf 1000 Petabyte geschätzt wurde. Da elektronische Medien in der modernen Zeit immer mehr an Bedeutung gewinnen, steigen auch die gespeicherten Informationen in unaufhaltsamem Maße fast exponentiell an. Dieser Trend wird auch als Information Overload bezeichnet. Erschwerend dabei ist, dass weder die Inhalte, noch der Zweck des Systems im World Wide Web klar definiert sind.
Desweiteren macht die natürliche Sprache der einzelnen Informationsquellen zu schaffen. Solang die Daten strukturiert in einer Datenbank vorliegen, können sie von Informationssystemen ohne Probleme gelesen und die wichtigsten Informationen herausgefiltert werden. Dieses Verfahren ist bekannt unter dem Begriff ?Data-Mining?. Bei natürlichen Texten liegt jedoch keine feste Datenstruktur vor, da Semantik und Syntax bei der Informationsgewinnung berücksichtigt werden müssen. Hinzu kommt noch, dass statistische Methoden eine große Rolle spielen, um die gewünschten Informationen aus den Texten zu gewinnen. Ohne entsprechende Systeme ist es somit unmöglich, effektiv mit den Informationen aus Texten umzugehen.
Eine Technik, die es dennoch ermöglicht Textdatenbanken zu analysieren und Wissen aus unbekannten Texten zu extrahieren, wird als ?Text-Mining? bezeichnet, welches auf den Grundlagen des Data-Mining basiert.
Nichts desto trotz stecken die Analyseverfahren noch in den Kinderschuhen, da die enorme Fülle an Informationen und deren differenzierter sprachlicher Aufbau der Entwicklung zu schaffen macht.
In dieser Studie geben wir grundlegende Einblicke in das Gebiet des Text-Mining, definieren und beschreiben den Prozess, und erläutern die Methodik an einem eigens konzipierten Text-Mining-Tools.

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch
Inhaltsverzeichnis
Inhaltsverzeichnis3
Abbildungsverzeichnis5
Tabellenverzeichnis5
1 Einleitung6
1.1 Zielsetzung7
1.2 Aufbau der Arbeit7
2 Grundlagen8
2.1 Was ist Text Mining?8
2.2 Aufbau und Struktur von Text9
2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse11
2.3.1 Die Linguistik und ihre Ebenen11
2.3.2 Syntagmatische und Paradigmatische Relationen16
2.3.3 Semantische Relationen20
3 Text Mining-Prozess23
3.1 Unterschied Text Mining und Data Mining24
3.2 Dokumentsuche25
3.2.1 Information Retrieval25
3.2.2 Aufbau und Funktion eines Information Retrieval Systems26
3.3 Dokumentaufbereitung28
3.3.1 Textressourcen28
3.3.2 Aufbau eines Analysekorpus28
3.4 Text Mining – Statistische Analysemethoden33
3.4.1 Zipfsches Gesetz33
3.4.2 Differenzanalyse33
3.4.3 Part-of-Speech Tagging35
3.4.4 Kookkurrenzanalyse43
3.5. Text Mining – Clusteranalyse47
3.5.1 Nicht-hierarchische Verfahren47
3.5.2 Hierarchische Verfahren49
3.5.3 Fuzzy-Clusteranalyse50
3.5.4 Dokumentähnlichkeit51
3.5.5 Anwendungsbeispiel54
3.6 Text Mining – Musteranalyse56
3.6.1 Reguläre Ausdrücke56
3.6.2 Syntaktische Muster58
4 Text Mining-Prozess anhand des Zalazar Text Miner60
4.1 Programmaufbau61
4.2 Dokumentaufbereitung63
4.2.1 Formatierung des zu analysierenden Textdokuments63
4.2.2 Aufbau des Analysekorpus anhand der Satz- und Wortsegmentierung64
4.3 Dokumentanalyse71
4.3.1 Part-of-Speech Tagging71
4.3.2 Differenzanalyse74
4.3.3 Musteranalyse75
4.4 Ergebnisevaluation77
4.5 Handhabung des Zalazar Text Miner78
4.5.1 Öffnen einer neuen Mail79
4.5.2 Durchführen der Textanalyse80
4.5.3 Speichern der Ergebnisse81
4.5.4 Laden der Ergebnisse einer bereits analysierten Mail82
5 Schlusswort83
Literatur85

Weitere E-Books zum Thema: Informatik - Algorithmen - Softwaresysteme

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Weitere Zeitschriften

Archiv und Wirtschaft

Archiv und Wirtschaft

"Archiv und Wirtschaft" ist die viermal jährlich erscheinende Verbandszeitschrift der Vereinigung der Wirtschaftsarchivarinnen und Wirtschaftsarchivare e. V. (VdW), in der seit 1967 rund 2.500 ...

küche + raum

küche + raum

Internationale Fachzeitschrift für Küchenforschung und Küchenplanung. Mit Fachinformationen für Küchenfachhändler, -spezialisten und -planer in Küchenstudios, Möbelfachgeschäften und den ...

EineWelt

EineWelt

Lebendige Reportagen, spannende Interviews, interessante Meldungen, informative Hintergrundberichte. Lesen Sie in der Zeitschrift „EineWelt“, was Menschen in Mission und Kirche bewegt Man kann ...

elektrobörse handel

elektrobörse handel

elektrobörse handel gibt einen facettenreichen Überblick über den Elektrogerätemarkt: Produktneuheiten und -trends, Branchennachrichten, Interviews, Messeberichte uvm.. In den monatlichen ...

Euro am Sonntag

Euro am Sonntag

Deutschlands aktuelleste Finanz-Wochenzeitung Jede Woche neu bietet €uro am Sonntag Antworten auf die wichtigsten Fragen zu den Themen Geldanlage und Vermögensaufbau. Auch komplexe Sachverhalte ...

F- 40

F- 40

Die Flugzeuge der Bundeswehr, Die F-40 Reihe behandelt das eingesetzte Fluggerät der Bundeswehr seit dem Aufbau von Luftwaffe, Heer und Marine. Jede Ausgabe befasst sich mit der genaue Entwicklungs- ...

filmdienst#de

filmdienst#de

filmdienst.de führt die Tradition der 1947 gegründeten Zeitschrift FILMDIENST im digitalen Zeitalter fort. Wir begleiten seit 1947 Filme in allen ihren Ausprägungen und Erscheinungsformen.  ...