Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation:
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Buch |
Sprache: | German |
Veröffentlicht: |
Duisburg
Univ. Duisburg-Essen, Fak. 3 Wirtschaftswiss.
2005
|
Schriftenreihe: | Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen
313 |
Schlagworte: | |
Online-Zugang: | Inhaltsverzeichnis |
Beschreibung: | Literaturverz. S. 79 - 93 |
Beschreibung: | VIII, 93 S. graph. Darst. |
Internformat
MARC
LEADER | 00000nam a2200000 cb4500 | ||
---|---|---|---|
001 | BV022514403 | ||
003 | DE-604 | ||
005 | 20070808 | ||
007 | t | ||
008 | 070717s2005 d||| |||| 00||| ger d | ||
035 | |a (OCoLC)180168078 | ||
035 | |a (DE-599)GBV534980503 | ||
040 | |a DE-604 |b ger | ||
041 | 0 | |a ger | |
049 | |a DE-473 |a DE-83 | ||
084 | |a QB 910 |0 (DE-625)141231: |2 rvk | ||
100 | 1 | |a Klapdor, Marius |e Verfasser |4 aut | |
245 | 1 | 0 | |a Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation |c Marius Klapdor ; Carsten Felden |
264 | 1 | |a Duisburg |b Univ. Duisburg-Essen, Fak. 3 Wirtschaftswiss. |c 2005 | |
300 | |a VIII, 93 S. |b graph. Darst. | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
338 | |b nc |2 rdacarrier | ||
490 | 1 | |a Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen |v 313 | |
500 | |a Literaturverz. S. 79 - 93 | ||
650 | 0 | 7 | |a Information Retrieval |0 (DE-588)4072803-1 |2 gnd |9 rswk-swf |
689 | 0 | 0 | |a Information Retrieval |0 (DE-588)4072803-1 |D s |
689 | 0 | |5 DE-604 | |
700 | 1 | |a Felden, Carsten |d 1969- |e Verfasser |0 (DE-588)1020725702 |4 aut | |
830 | 0 | |a Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen |v 313 |w (DE-604)BV020019229 |9 313 | |
856 | 4 | 2 | |m HBZ Datenaustausch |q application/pdf |u http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=015721235&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |3 Inhaltsverzeichnis |
999 | |a oai:aleph.bib-bvb.de:BVB01-015721235 |
Datensatz im Suchindex
_version_ | 1804136618373677056 |
---|---|
adam_text | I_
Inhaltsverzeichnis
Abbildungsverzeichnis III
Tabellenverzeichnis IV
Abkürzungsverzeichnis V
Symbolverzeichnis VI
1 Einleitung 1
2 Problematik unstrukturierter Daten in der Praxis 3
2.1 Informationsüberflutung in der Praxis 3
2.2 Lösung durch Textklassifikation 5
2.3 Datenqualität 8
3 Grundlagen der Klassifikation unstrukturierter Daten 11
3.1 Knowledge Discovery in Databases und Data Mining 11
3.2 Text Mining 13
3.3 Vektorraummodell 15
3.4 Gütekriterien des Information Retrieval 17
3.5 Datenaufbereitungsverfahren für unstrukturierte Daten 19
3.5.1 Stemming 19
3.5.2 Thesauren 20
3.5.3 Eliminierung von zur Klassifikation nicht geeigneten Begriffen 21
n
4 Verbreitete Algorithmen zur Textklassifikation 25
4.1 Nächste Nachbarn Algorithmen 26
4.2 Entscheidungsbaum Algorithmen 30
4.3 Bayes Klassifikation 35
4.4 Künstliche Neuronale Netze 37
4.5 Boosting Algorithmen 41
4.6 Support Vector Machines 45
4.7 Rocchio Algorithmus 49
4.8 Voted Perceptron 51
4.9 HyperPipes 52
4.10 Logistische Regression 53
5 Textklassifikation anhand eines Beispiels aus der Praxis 57
5.1 Versuchsbeschreibung 57
5.1.1 Rahmendaten 58
5.1.2 Allgemeine Datenaufbereitung 58
5.1.3 Spezielle Datenaufbereitung 60
5.1.4 Anwendung von Klassifikations Algorithmen 62
5.2 Ergebnisse der Textklassifikation 63
5.2.1 Effektivität 63
5.2.2 Effizienz 66
5.3 Kritische Bewertung 69
5.4 Schwierigkeiten bei der Versuchsdurchführung 72
6 Fazit 75
Literaturverzeichnis 79
m
Abbildungsverzeichnis
Abbildung 1: Diskriminationskraft von Termen 22
Abbildung 2: Klassifikation anhand der nächsten Nachbarn 28
Abbildung 3: Entscheidungsbaum 31
Abbildung 4: Multi Layer Perceptron 38
Abbildung 5: Aufbau eines Neurons 38
Abbildung 6: Trennende Hyperebenen im linear separierbaren Fall 45
Abbildung 7: Maximal trennende Hyperebene im linear separierbaren Fall 46
Abbildung 8: Transformation 48
Abbildung 9: Grafische Darstellung der /^ Maß Ergebnisse 66
rv
Tabellenverzeichnis
Tabelle 1: Zuordnung der Vorverarbeitungsschritte 61
Tabelle 2: Anzahl der genutzten Terme 62
Tabelle 3: Testergebnisse anhand des Fß Maßes 64
Tabelle 4: Normierte Ergebnisse des Laufzeitverhaltens 68
Tabelle 5: Verhältnis der Steigerungsraten bei Termen und Laufzeiten 71
|
adam_txt |
I_
Inhaltsverzeichnis
Abbildungsverzeichnis III
Tabellenverzeichnis IV
Abkürzungsverzeichnis V
Symbolverzeichnis VI
1 Einleitung 1
2 Problematik unstrukturierter Daten in der Praxis 3
2.1 Informationsüberflutung in der Praxis 3
2.2 Lösung durch Textklassifikation 5
2.3 Datenqualität 8
3 Grundlagen der Klassifikation unstrukturierter Daten 11
3.1 Knowledge Discovery in Databases und Data Mining 11
3.2 Text Mining 13
3.3 Vektorraummodell 15
3.4 Gütekriterien des Information Retrieval 17
3.5 Datenaufbereitungsverfahren für unstrukturierte Daten 19
3.5.1 Stemming 19
3.5.2 Thesauren 20
3.5.3 Eliminierung von zur Klassifikation nicht geeigneten Begriffen 21
n
4 Verbreitete Algorithmen zur Textklassifikation 25
4.1 Nächste Nachbarn Algorithmen 26
4.2 Entscheidungsbaum Algorithmen 30
4.3 Bayes Klassifikation 35
4.4 Künstliche Neuronale Netze 37
4.5 Boosting Algorithmen 41
4.6 Support Vector Machines 45
4.7 Rocchio Algorithmus 49
4.8 Voted Perceptron 51
4.9 HyperPipes 52
4.10 Logistische Regression 53
5 Textklassifikation anhand eines Beispiels aus der Praxis 57
5.1 Versuchsbeschreibung 57
5.1.1 Rahmendaten 58
5.1.2 Allgemeine Datenaufbereitung 58
5.1.3 Spezielle Datenaufbereitung 60
5.1.4 Anwendung von Klassifikations Algorithmen 62
5.2 Ergebnisse der Textklassifikation 63
5.2.1 Effektivität 63
5.2.2 Effizienz 66
5.3 Kritische Bewertung 69
5.4 Schwierigkeiten bei der Versuchsdurchführung 72
6 Fazit 75
Literaturverzeichnis 79
m
Abbildungsverzeichnis
Abbildung 1: Diskriminationskraft von Termen 22
Abbildung 2: Klassifikation anhand der nächsten Nachbarn 28
Abbildung 3: Entscheidungsbaum 31
Abbildung 4: Multi Layer Perceptron 38
Abbildung 5: Aufbau eines Neurons 38
Abbildung 6: Trennende Hyperebenen im linear separierbaren Fall 45
Abbildung 7: Maximal trennende Hyperebene im linear separierbaren Fall 46
Abbildung 8: Transformation 48
Abbildung 9: Grafische Darstellung der /^ Maß Ergebnisse 66
rv
Tabellenverzeichnis
Tabelle 1: Zuordnung der Vorverarbeitungsschritte 61
Tabelle 2: Anzahl der genutzten Terme 62
Tabelle 3: Testergebnisse anhand des Fß Maßes 64
Tabelle 4: Normierte Ergebnisse des Laufzeitverhaltens 68
Tabelle 5: Verhältnis der Steigerungsraten bei Termen und Laufzeiten 71 |
any_adam_object | 1 |
any_adam_object_boolean | 1 |
author | Klapdor, Marius Felden, Carsten 1969- |
author_GND | (DE-588)1020725702 |
author_facet | Klapdor, Marius Felden, Carsten 1969- |
author_role | aut aut |
author_sort | Klapdor, Marius |
author_variant | m k mk c f cf |
building | Verbundindex |
bvnumber | BV022514403 |
classification_rvk | QB 910 |
ctrlnum | (OCoLC)180168078 (DE-599)GBV534980503 |
discipline | Wirtschaftswissenschaften |
discipline_str_mv | Wirtschaftswissenschaften |
format | Book |
fullrecord | <?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>01576nam a2200349 cb4500</leader><controlfield tag="001">BV022514403</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20070808 </controlfield><controlfield tag="007">t</controlfield><controlfield tag="008">070717s2005 d||| |||| 00||| ger d</controlfield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)180168078</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)GBV534980503</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">ger</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-473</subfield><subfield code="a">DE-83</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">QB 910</subfield><subfield code="0">(DE-625)141231:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Klapdor, Marius</subfield><subfield code="e">Verfasser</subfield><subfield code="4">aut</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation</subfield><subfield code="c">Marius Klapdor ; Carsten Felden</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">Duisburg</subfield><subfield code="b">Univ. Duisburg-Essen, Fak. 3 Wirtschaftswiss.</subfield><subfield code="c">2005</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">VIII, 93 S.</subfield><subfield code="b">graph. Darst.</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="490" ind1="1" ind2=" "><subfield code="a">Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen</subfield><subfield code="v">313</subfield></datafield><datafield tag="500" ind1=" " ind2=" "><subfield code="a">Literaturverz. S. 79 - 93</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Information Retrieval</subfield><subfield code="0">(DE-588)4072803-1</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Information Retrieval</subfield><subfield code="0">(DE-588)4072803-1</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="700" ind1="1" ind2=" "><subfield code="a">Felden, Carsten</subfield><subfield code="d">1969-</subfield><subfield code="e">Verfasser</subfield><subfield code="0">(DE-588)1020725702</subfield><subfield code="4">aut</subfield></datafield><datafield tag="830" ind1=" " ind2="0"><subfield code="a">Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen</subfield><subfield code="v">313</subfield><subfield code="w">(DE-604)BV020019229</subfield><subfield code="9">313</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">HBZ Datenaustausch</subfield><subfield code="q">application/pdf</subfield><subfield code="u">http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=015721235&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA</subfield><subfield code="3">Inhaltsverzeichnis</subfield></datafield><datafield tag="999" ind1=" " ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-015721235</subfield></datafield></record></collection> |
id | DE-604.BV022514403 |
illustrated | Illustrated |
index_date | 2024-07-02T18:00:38Z |
indexdate | 2024-07-09T20:59:16Z |
institution | BVB |
language | German |
oai_aleph_id | oai:aleph.bib-bvb.de:BVB01-015721235 |
oclc_num | 180168078 |
open_access_boolean | |
owner | DE-473 DE-BY-UBG DE-83 |
owner_facet | DE-473 DE-BY-UBG DE-83 |
physical | VIII, 93 S. graph. Darst. |
publishDate | 2005 |
publishDateSearch | 2005 |
publishDateSort | 2005 |
publisher | Univ. Duisburg-Essen, Fak. 3 Wirtschaftswiss. |
record_format | marc |
series | Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen |
series2 | Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen |
spelling | Klapdor, Marius Verfasser aut Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation Marius Klapdor ; Carsten Felden Duisburg Univ. Duisburg-Essen, Fak. 3 Wirtschaftswiss. 2005 VIII, 93 S. graph. Darst. txt rdacontent n rdamedia nc rdacarrier Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen 313 Literaturverz. S. 79 - 93 Information Retrieval (DE-588)4072803-1 gnd rswk-swf Information Retrieval (DE-588)4072803-1 s DE-604 Felden, Carsten 1969- Verfasser (DE-588)1020725702 aut Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen 313 (DE-604)BV020019229 313 HBZ Datenaustausch application/pdf http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=015721235&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA Inhaltsverzeichnis |
spellingShingle | Klapdor, Marius Felden, Carsten 1969- Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation Diskussionsbeiträge des Fachbereichs Betriebswirtschaft, Universität Duisburg-Essen Information Retrieval (DE-588)4072803-1 gnd |
subject_GND | (DE-588)4072803-1 |
title | Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation |
title_auth | Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation |
title_exact_search | Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation |
title_exact_search_txtP | Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation |
title_full | Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation Marius Klapdor ; Carsten Felden |
title_fullStr | Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation Marius Klapdor ; Carsten Felden |
title_full_unstemmed | Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation Marius Klapdor ; Carsten Felden |
title_short | Eignung von Algorithmen zur Bereitstellung unstrukturierter Daten im Rahmen der Textklassifikation |
title_sort | eignung von algorithmen zur bereitstellung unstrukturierter daten im rahmen der textklassifikation |
topic | Information Retrieval (DE-588)4072803-1 gnd |
topic_facet | Information Retrieval |
url | http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=015721235&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |
volume_link | (DE-604)BV020019229 |
work_keys_str_mv | AT klapdormarius eignungvonalgorithmenzurbereitstellungunstrukturierterdatenimrahmendertextklassifikation AT feldencarsten eignungvonalgorithmenzurbereitstellungunstrukturierterdatenimrahmendertextklassifikation |