Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen:
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Abschlussarbeit Buch |
Sprache: | German |
Veröffentlicht: |
Aachen
Shaker
2007
|
Schriftenreihe: | C-LAB publication
23 |
Schlagworte: | |
Online-Zugang: | Inhaltsverzeichnis |
Beschreibung: | IV, 132 S. graph. Darst. |
ISBN: | 9783832260545 3832260544 |
Internformat
MARC
LEADER | 00000nam a2200000 cb4500 | ||
---|---|---|---|
001 | BV026593480 | ||
003 | DE-604 | ||
005 | 20110228 | ||
007 | t | ||
008 | 110326s2007 d||| m||| 00||| ger d | ||
015 | |a 07,N17,0058 |2 dnb | ||
015 | |a 07,H07,0072 |2 dnb | ||
016 | 7 | |a 983706425 |2 DE-101 | |
020 | |a 9783832260545 |9 978-3-8322-6054-5 | ||
020 | |a 3832260544 |9 3-8322-6054-4 | ||
035 | |a (OCoLC)180129396 | ||
035 | |a (DE-599)DNB983706425 | ||
040 | |a DE-604 |b ger |e rakwb | ||
041 | 0 | |a ger | |
049 | |a DE-188 | ||
082 | 0 | |a 025.04 |2 22/ger | |
084 | |a 004 |2 sdnb | ||
084 | |a 020 |2 sdnb | ||
100 | 1 | |a Werner, Lars |e Verfasser |4 aut | |
245 | 1 | 0 | |a Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen |c Lars Werner |
264 | 1 | |a Aachen |b Shaker |c 2007 | |
300 | |a IV, 132 S. |b graph. Darst. | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
338 | |b nc |2 rdacarrier | ||
490 | 1 | |a C-LAB publication |v 23 | |
502 | |a Zugl.: Paderborn, Univ., Diss., 2006 | ||
650 | 0 | 7 | |a Typografie |0 (DE-588)4136341-3 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Information-Retrieval-System |0 (DE-588)4670557-0 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Dokumentenverwaltungssystem |0 (DE-588)4303691-0 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Information Extraction |0 (DE-588)4566641-6 |2 gnd |9 rswk-swf |
655 | 7 | |0 (DE-588)4113937-9 |a Hochschulschrift |2 gnd-content | |
689 | 0 | 0 | |a Dokumentenverwaltungssystem |0 (DE-588)4303691-0 |D s |
689 | 0 | 1 | |a Information-Retrieval-System |0 (DE-588)4670557-0 |D s |
689 | 0 | 2 | |a Information Extraction |0 (DE-588)4566641-6 |D s |
689 | 0 | 3 | |a Typografie |0 (DE-588)4136341-3 |D s |
689 | 0 | |5 DE-188 | |
810 | 2 | |a C-LAB <Paderborn> |t C-LAB publication |v 23 |w (DE-604)BV012839278 |9 23 | |
856 | 4 | 2 | |m HBZ Datenaustausch |q application/pdf |u http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=022150360&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |3 Inhaltsverzeichnis |
999 | |a oai:aleph.bib-bvb.de:BVB01-022150360 |
Datensatz im Suchindex
_version_ | 1804145189905760256 |
---|---|
adam_text | Inhaltsverzeichnis
1 Einleitung 1
1.1 Information Retrieval 2
1.1.1 Indexierung von Textdokumenten 2
1.1.2 Thesauruskonstruktion 3
1.1.3 Unterstützung bei der Formulierung von Suchfragen 3
1.2 Retrieval-Anforderungen an Dokumentenmanagementsysteme 4
2 Information-Retrieval-Verfahren in Dokumentenmanagementsystemen 7
2.1 Indexierung 7
2.1.1 Stemming-Verfahren 9
2.1.2 Einsatz von Thesauren 11
2.1.3 Termgewichtung 11
2.2 Modelle zur Berechnung von Dokumentenähnlichkeiten 12
2.2.1 Vektorraummodell 12
2.2.2 Latent Semantische Indexierung 15
2.2.3 Probabilistische Modelle 16
2.3 IR-Verfahren in Dokumentenmanagementsystemen 16
2.3.1 yolltextrecherche 17
2.3.2 Ähnlichkeitssuche 18
2.3.3 Push-Technologien 18
2.3.4 Textkategorisierung 19
2.3.5 Text-Clustering 20
2.3.6 Automatic Abstracting 23
2.3.7 Recherche nach relevanten Dokumenten in unstrukturierten Datenbanken 24
3 Typografische Termgewichtung 29
3.1 Stand der Technik 29
3.2 HTML-Tag-Gewichtung 31
3.2.1 Absolute Gewichtung von HTML-Tags 31
3.2.2 Relative Gewichtung von HTML-Tags 34
3.3 Allgemeine typografische Termgewichtung 35
3.3.1 Richtlinien zur Typografie von Textdokumenten 35
3.3.2 Entwickeltes Verfahren zur typografischen Termgewichtung 36
3.4 Feature-Selektion und Typografiegewichtung 39
3.4.1 Bekannte binäre Feature-Bewertungsverfahren 40
3.4.2 Relative Feature-Bewertung 43
ii Inhaltsverzeichnis
3.4.3 Globale Auswahl der Kategorie-Features 45
4 Evaluierung der typografischen Termgewichtung 47
4.1 Bewertungsverfahren für Klassifikationsprobleme 47
4.1.1 Fehlerrate 48
4.1.2 Precision und Recall 48
4.1.3 Precision-Recall-Breakeven-Punkt 49
4.1.4 F-Maß 49
4.1.5 Mikro-und Makro-Bewertung 49
4.2 Klassifikationsverfahren für Textdokumente 50
4.2.1 k-NN-Klassifizierer 51
4.2.2 SVM-Klassifizierer 52
4.3 Beschreibung der Testkollektionen 55
4.3.1 Anforderungen an die Testkollektionen 55
4.3.2 Die WebKB-Testkollektionen 56
4.3.3 Die ACM-Testkollektion 56
4.3.4 Die C-LAB Marketing, Sales PR Testkollektion 57
4.3.5 Vergleich der Testkollektionen 57
4.4 Messungen 58
4.4.1 Evaluierung des relativen k-NN-Verfahrens 60
4.4.2 Feature-Selektionsverfahren für k-NN-Klassifizierer 60
4.4.3 Vergleich der Typografiegewichtungsverfahren 67
4.4.4 Vergleich von SVM-und k-NN-Klassifizierem 70
4.4.5 Gesamtverbesserung der vorgestellten Verfahren 72
4.5 Typografische Termgewichtung in Cluster-Verfahren 76
4.5.1 Cluster-Qualität 77
4.5.2 Evaluierung 77
4.6 Zusammenfassung der Evaluierungsergebnisse 80
5 Das VKC-System 83
5.1 Geschichte des VKC-Systems 83
5.2 Die Datenschicht des VKC-Systems 85
5.2.1 Die Datenbank-Persistenzschicht 85
5.2.2 Die Archivschicht 85
5.2.3 Die Indexschicht 86
5.3 Die Logikschicht des VKC-Systems 86
5.3.1 Information-Retrieval-Komponenten 86
5.3.2 Dokumentenmanagement-Komponente 87
5.3.3 Benutzermanagement-Komponente 88
5.3.4 Projektmanagement-Komponente 89
5.3.5 Messenger-Komponente 91
5.3.6 Systemverwaltung 91
5.4 Die Präsentationsschicht des VKC-Systems 93
5.4.1 HTML Model-View-Controller 2 93
5.4.2 WebDAV-Schnittstelle 94
5.4.3 Web-Services-Schnittstelle 96
5.5 VKC-Konverter-Server 97
5.6 Die VKC-Workfiow-Komponente 98
5.7 Verteilung der VKC-Komponenten zur Leistungssteigerung 99
Inhaltsverzeichnis iii
5.7.1 Die Verteilung auf mehrere Servlet-Container 99
5.7.2 Der parallele Einsatz mehrerer Konverter-Server 100
6 Die Information-Retrieval-Funktionen des VKC-Systems 103
6.1 Typografiegewichtung 103
6.1.1 Das Typography Description Format 103
6.1.2 Berechnung der TDF-Gewichte 105
6.2 Realisierung des IR-Index 106
6.2.1 Indexierung der TDF-Dateien 107
6.2.2 VKC-Suchfunktionen 108
6.3 Klassifikationsfunktion 109
6.3.1 Die praktische Bedeutung der Trefferrate in DMS 111
6.3.2 Bestimmung der optimalen k-NN-Parameter 112
6.3.3 Bestimmung der Vorhersagequalität 115
6.4 CIustering-Funktion 116
6.5 Analysefunktion 117
6.6 Der C-LAB-Retriever 118
7 Zusammenfassung und Ausblick 121
Literaturverzeichnis 123
Index 129
|
any_adam_object | 1 |
author | Werner, Lars |
author_facet | Werner, Lars |
author_role | aut |
author_sort | Werner, Lars |
author_variant | l w lw |
building | Verbundindex |
bvnumber | BV026593480 |
ctrlnum | (OCoLC)180129396 (DE-599)DNB983706425 |
dewey-full | 025.04 |
dewey-hundreds | 000 - Computer science, information, general works |
dewey-ones | 025 - Operations of libraries and archives |
dewey-raw | 025.04 |
dewey-search | 025.04 |
dewey-sort | 225.04 |
dewey-tens | 020 - Library and information sciences |
discipline | Allgemeines Informatik |
format | Thesis Book |
fullrecord | <?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>02009nam a2200505 cb4500</leader><controlfield tag="001">BV026593480</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20110228 </controlfield><controlfield tag="007">t</controlfield><controlfield tag="008">110326s2007 d||| m||| 00||| ger d</controlfield><datafield tag="015" ind1=" " ind2=" "><subfield code="a">07,N17,0058</subfield><subfield code="2">dnb</subfield></datafield><datafield tag="015" ind1=" " ind2=" "><subfield code="a">07,H07,0072</subfield><subfield code="2">dnb</subfield></datafield><datafield tag="016" ind1="7" ind2=" "><subfield code="a">983706425</subfield><subfield code="2">DE-101</subfield></datafield><datafield tag="020" ind1=" " ind2=" "><subfield code="a">9783832260545</subfield><subfield code="9">978-3-8322-6054-5</subfield></datafield><datafield tag="020" ind1=" " ind2=" "><subfield code="a">3832260544</subfield><subfield code="9">3-8322-6054-4</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)180129396</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)DNB983706425</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield><subfield code="e">rakwb</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">ger</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-188</subfield></datafield><datafield tag="082" ind1="0" ind2=" "><subfield code="a">025.04</subfield><subfield code="2">22/ger</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">004</subfield><subfield code="2">sdnb</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">020</subfield><subfield code="2">sdnb</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Werner, Lars</subfield><subfield code="e">Verfasser</subfield><subfield code="4">aut</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen</subfield><subfield code="c">Lars Werner</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">Aachen</subfield><subfield code="b">Shaker</subfield><subfield code="c">2007</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">IV, 132 S.</subfield><subfield code="b">graph. Darst.</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="490" ind1="1" ind2=" "><subfield code="a">C-LAB publication</subfield><subfield code="v">23</subfield></datafield><datafield tag="502" ind1=" " ind2=" "><subfield code="a">Zugl.: Paderborn, Univ., Diss., 2006</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Typografie</subfield><subfield code="0">(DE-588)4136341-3</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Information-Retrieval-System</subfield><subfield code="0">(DE-588)4670557-0</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Dokumentenverwaltungssystem</subfield><subfield code="0">(DE-588)4303691-0</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Information Extraction</subfield><subfield code="0">(DE-588)4566641-6</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="655" ind1=" " ind2="7"><subfield code="0">(DE-588)4113937-9</subfield><subfield code="a">Hochschulschrift</subfield><subfield code="2">gnd-content</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Dokumentenverwaltungssystem</subfield><subfield code="0">(DE-588)4303691-0</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2="1"><subfield code="a">Information-Retrieval-System</subfield><subfield code="0">(DE-588)4670557-0</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2="2"><subfield code="a">Information Extraction</subfield><subfield code="0">(DE-588)4566641-6</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2="3"><subfield code="a">Typografie</subfield><subfield code="0">(DE-588)4136341-3</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-188</subfield></datafield><datafield tag="810" ind1="2" ind2=" "><subfield code="a">C-LAB <Paderborn></subfield><subfield code="t">C-LAB publication</subfield><subfield code="v">23</subfield><subfield code="w">(DE-604)BV012839278</subfield><subfield code="9">23</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">HBZ Datenaustausch</subfield><subfield code="q">application/pdf</subfield><subfield code="u">http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=022150360&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA</subfield><subfield code="3">Inhaltsverzeichnis</subfield></datafield><datafield tag="999" ind1=" " ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-022150360</subfield></datafield></record></collection> |
genre | (DE-588)4113937-9 Hochschulschrift gnd-content |
genre_facet | Hochschulschrift |
id | DE-604.BV026593480 |
illustrated | Illustrated |
indexdate | 2024-07-09T23:15:30Z |
institution | BVB |
isbn | 9783832260545 3832260544 |
language | German |
oai_aleph_id | oai:aleph.bib-bvb.de:BVB01-022150360 |
oclc_num | 180129396 |
open_access_boolean | |
owner | DE-188 |
owner_facet | DE-188 |
physical | IV, 132 S. graph. Darst. |
publishDate | 2007 |
publishDateSearch | 2007 |
publishDateSort | 2007 |
publisher | Shaker |
record_format | marc |
series2 | C-LAB publication |
spelling | Werner, Lars Verfasser aut Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen Lars Werner Aachen Shaker 2007 IV, 132 S. graph. Darst. txt rdacontent n rdamedia nc rdacarrier C-LAB publication 23 Zugl.: Paderborn, Univ., Diss., 2006 Typografie (DE-588)4136341-3 gnd rswk-swf Information-Retrieval-System (DE-588)4670557-0 gnd rswk-swf Dokumentenverwaltungssystem (DE-588)4303691-0 gnd rswk-swf Information Extraction (DE-588)4566641-6 gnd rswk-swf (DE-588)4113937-9 Hochschulschrift gnd-content Dokumentenverwaltungssystem (DE-588)4303691-0 s Information-Retrieval-System (DE-588)4670557-0 s Information Extraction (DE-588)4566641-6 s Typografie (DE-588)4136341-3 s DE-188 C-LAB <Paderborn> C-LAB publication 23 (DE-604)BV012839278 23 HBZ Datenaustausch application/pdf http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=022150360&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA Inhaltsverzeichnis |
spellingShingle | Werner, Lars Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen Typografie (DE-588)4136341-3 gnd Information-Retrieval-System (DE-588)4670557-0 gnd Dokumentenverwaltungssystem (DE-588)4303691-0 gnd Information Extraction (DE-588)4566641-6 gnd |
subject_GND | (DE-588)4136341-3 (DE-588)4670557-0 (DE-588)4303691-0 (DE-588)4566641-6 (DE-588)4113937-9 |
title | Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen |
title_auth | Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen |
title_exact_search | Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen |
title_full | Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen Lars Werner |
title_fullStr | Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen Lars Werner |
title_full_unstemmed | Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen Lars Werner |
title_short | Typografiegewichtete Information-Retrieval-Verfahren in Dokumentenmanagementsystemen |
title_sort | typografiegewichtete information retrieval verfahren in dokumentenmanagementsystemen |
topic | Typografie (DE-588)4136341-3 gnd Information-Retrieval-System (DE-588)4670557-0 gnd Dokumentenverwaltungssystem (DE-588)4303691-0 gnd Information Extraction (DE-588)4566641-6 gnd |
topic_facet | Typografie Information-Retrieval-System Dokumentenverwaltungssystem Information Extraction Hochschulschrift |
url | http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=022150360&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |
volume_link | (DE-604)BV012839278 |
work_keys_str_mv | AT wernerlars typografiegewichteteinformationretrievalverfahrenindokumentenmanagementsystemen |