EDSI - Effiziente Grammatikinduktion: korpus-basierte effiziente Informationsextraktion und Grammatikinduktion
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Abschlussarbeit Buch |
Sprache: | German |
Veröffentlicht: |
München
Akademische Verlagsgemeinschaft München
2013
|
Schlagworte: | |
Online-Zugang: | Inhaltstext Inhaltsverzeichnis |
Beschreibung: | IX, 260 S. graph. Darst. |
ISBN: | 9783869244907 |
Internformat
MARC
LEADER | 00000nam a2200000 c 4500 | ||
---|---|---|---|
001 | BV041249903 | ||
003 | DE-604 | ||
005 | 20130916 | ||
007 | t | ||
008 | 130902s2013 gw d||| m||| 00||| ger d | ||
016 | 7 | |a 1038494508 |2 DE-101 | |
020 | |a 9783869244907 |c Pb. : EUR 49.90 (DE), EUR 51.30 (AT), sfr 87.00 (freier Pr.) |9 978-3-86924-490-7 | ||
024 | 3 | |a 9783869244907 | |
035 | |a (OCoLC)859389016 | ||
035 | |a (DE-599)DNB1038494508 | ||
040 | |a DE-604 |b ger |e rakddb | ||
041 | 0 | |a ger | |
044 | |a gw |c XA-DE-BY | ||
049 | |a DE-12 |a DE-19 |a DE-11 | ||
082 | 0 | |a 410.188 |2 22/ger | |
084 | |a ES 900 |0 (DE-625)27926: |2 rvk | ||
084 | |a ES 930 |0 (DE-625)27932: |2 rvk | ||
100 | 1 | |a Shen, Chunze |e Verfasser |4 aut | |
245 | 1 | 0 | |a EDSI - Effiziente Grammatikinduktion |b korpus-basierte effiziente Informationsextraktion und Grammatikinduktion |c Chunze Shen |
264 | 1 | |a München |b Akademische Verlagsgemeinschaft München |c 2013 | |
300 | |a IX, 260 S. |b graph. Darst. | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
338 | |b nc |2 rdacarrier | ||
502 | |a Zugl.: Gießen, Univ., Diss. | ||
650 | 0 | 7 | |a Grammatik |0 (DE-588)4021806-5 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Computerlinguistik |0 (DE-588)4035843-4 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Korpus |g Linguistik |0 (DE-588)4165338-5 |2 gnd |9 rswk-swf |
655 | 7 | |0 (DE-588)4113937-9 |a Hochschulschrift |2 gnd-content | |
689 | 0 | 0 | |a Korpus |g Linguistik |0 (DE-588)4165338-5 |D s |
689 | 0 | 1 | |a Grammatik |0 (DE-588)4021806-5 |D s |
689 | 0 | 2 | |a Computerlinguistik |0 (DE-588)4035843-4 |D s |
689 | 0 | |5 DE-604 | |
856 | 4 | 2 | |m X:MVB |q text/html |u http://deposit.dnb.de/cgi-bin/dokserv?id=4424239&prov=M&dok_var=1&dok_ext=htm |3 Inhaltstext |
856 | 4 | 2 | |m DNB Datenaustausch |q application/pdf |u http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=026223958&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |3 Inhaltsverzeichnis |
943 | 1 | |a oai:aleph.bib-bvb.de:BVB01-026223958 |
Datensatz im Suchindex
_version_ | 1806325722903478272 |
---|---|
adam_text |
INHALTSVERZEICHNIS
INHALTSVERZEICHNIS
INHALTSVERZEICHNIS I
TABELLENVERZEICHNIS V
ABBILDUNGSVERZEICHNIS VI
ABKUERZUNG IX
1. EINLEITUNG 1
1.1 GEGENSTAND DER VORLIEGENDEN ARBEIT 2
1.2 FORSCHUNGSLAGE UND MOTIVATION 2
1.3 ZIELSETZUNG 5
1.4 AUFBAU DER ARBEIT 6
2. THEORETISCHE UND METHODISCHE GRUNDLAGEN 8
2.1 MASCHINELLES LERNEN 8
2.1.1 PRINZIPIEN DES MASCHINELLEN LERNENS 11
2.1.2 MODELLIERUNG DURCH SYNTAKTISCHE MERKMALE 12
2.1.2.1 MODELLIERUNG 12
2.1.2.2 DISTRIBUTIONALE INFORMATIONEN 13
2.1.3 FORMALISMEN ZUR REPRAESENTATION 17
2.1.3.1 WISSENSREPRAESENTATION 17
2.1.3.2 SYNTAKTISCHE STRUKTUREN & FORMALE GRAMMATIKEN 18
2.1.4 LERNSTRATEGIEN 19
2.1.5 UEBERWACHTES /UNUEBERWACHTES LERNEN 21
2.1.6 FAZIT 22
2.2 GRAMMATIK INDUKTION 23
2.2.1 EINLEITUNG. 23
2.2.2 LEMMODELLE DER (AUTOMATISCHEN) GRAMMATIK-INDUKTION 26
2.2.2.1 GENERELLES LERNMODELL 26
2.2.2.2 RELEVANTE LERNMODELLE DER GRAMMATIK-INDUKTION 27
2.2.3 KLASSISCHE REGELBASIERTE (ODER SYMBOLISCHE) SYSTEME 31
2.2.3.1 SPARSER 31
2.2.3.2 NYU-SYSTEM 34
2.2.3.3 ANSATZ MIT LOKALEN GRAMMATIKEN 35
2.2.4 STATISCHE ODER LERNBASIERTE SYSTEME 36
I
HTTP://D-NB.INFO/1038494508
INHALTSVERZEICHNIS
2.2.4.1 ABL 37
2.2.4.2 ADIOS '. 40
2.2.4.3 SPM 42
2.2.5 METHODEN ZUR EVALUATION 45
2.2.6 FAZIT 47
2.3 LOKALE GRAMMATIKEN 48
2.3.1 EINLEITUNG 48
2.3.2 DEFINITION 50
2.3.2.1 INFORMELLE BESCHREIBUNG 50
2.3.2.2 FORMALE DEFINITION LOKALER GRAMMATIKEN 50
2.3.3 REPRAESENTATION LOKALER GRAMMATIKEN 51
2.3.3.1 CHOMSKY-HIERARCHIE 51
2.3.3.2 LESBARKEIT DER GRAMMATIKREGELN & GRAPHEN 58
2.3.3.3 GRAPHISCHE DARSTELLUNG LOKALER GRAMMATIKEN 60
2.3.4 IMPLEMENTIERUNG LOKALER GRAMMATIKEN 63
2.3.4.1 VORGEHENSWEISE: BOOTSTRAPPING 63
2.3.4.2 WERKZEUG: UNITEX 64
2.3.5 ANWENDUNGEN LOKALER GRAMMATIKEN 65
2.3.6 FAZIT 66
3. EDSI-ANSATZ 67
3.1 RELEVANTE DEFINITIONEN 69
3.2 INDEXIERUNG 72
3.2.1 VORGEHENSSCHRITTE DES INDEXAUFBAUS 73
3.2.1.1 VORVERARBEITUNG DES KORPUS 73
3.2.1.2 BILDUNG DER MATRIZES 74
3.2.2 ALGORITHMUS 76
3.2.3 EFFIZIENTER DATENZUGRIFF 78
3.3 GREEDY-
LERNEN 79
3.3.1 VORGEHENSSCHRITTE DES GREEDY-LEMENS 80
3.3.1.1 TERM-TRANSLATION 83
3.3.1.2 PATTERN-EXTRAKTION 85
3.3.1.3 HYPOTHESEN-EXTRAKTION 87
3.3.2 ALGORITHMUS 92
3.3.3 LERNEN DURCH SUCHE 95
3.4 SELEKTION-LERNEN 97
3.4.1 VORGEHENSSCHRITTE DES SELEKTION-LERNENS 98
3.4.1.1 KONSTITUENTE-SELEKTION 100
3.4.1.2 TREEBANK-KONSTRUKTION 104
3.4.2 ALGORITHMUS 105
3.5 INDUKTION DER GRAMMATIKREGELN 106
3.6 FAZIT 109
II
INHALTSVERZEICHNIS
4. EVALUATION DER SYSTEME 110
4.1 METHODE DER EVALUATION 110
4.1.1 QUANTITATIVE EVALUATION 110
4.1.2 QUALITATIVE EVALUATION 114
4.2 TESTUMGEBUNG 114
4.2.1 UMGEBUNG DER IMPLEMENTIERUNG 114
4.2.2 UMGEBUNG DES REFERENZIERTEN SYSTEMS 116
4.2.3 UMGEBUNG DES EDSI-ANSATZES 117
4.3 RESULTATE UND EVALUATION 119
4.3.1 EVALUATION: GREEDY-SYSTEM 120
4.3.1.1 TESTERGEBNIS: VERGLEICH DER EFFIZIENZ 120
4.3.1.2 TESTERGEBNIS: BEWERTUNG DER TREEBANKS 124
4.3.2 EVALUATION: SELEKTION-SYSTEM 125
4.3.2.1 TESTERGEBNIS: VERGLEICH DER EFFIZIENZ 126
4.3.2.2 TESTERGEBNIS: BEWERTUNG DER RESULTATE 130
4.3.2.3 TESTERGEBNIS: STABILITAET DES SYSTEMS 134
4.4 INDUKTION DER LOKALEN GRAMMATIKEN 136
4.4.1 EINE *LOOKS GOOD" EVALUATION 136
4.4.2 EIN BEISPIEL DER GRAMMATIK-INDUKTION 138
4.4.2.1 KONTEXTFREIE GRAMMATIKEN 138
4.4.2.2 GRUPPEN 140
4.4.2.3 LOKALE GRAMMATIK 143
4.5 FAZIT 144
5. ANWENDUNG DER LG IM INFORMATION-RETRIEVAL 146
5.1 ERKENNUNG DER FIRMENNAMEN 147
5.1.1 INTERNER UND EXTERNER KONTEXT 147
5.1.2 GRAMMATIKEN DER FIRMENNAMEN 149
5.2 ERKENNUNG DER ADRESSEN 151
5.2.1 INTERNER UND EXTERNER KONTEXT 151
5.2.2 GRAMMATIKEN DER STRASSENNAMEN 153
5.3 ERKENNUNG DER FIRMENPROFILE 155
5.3.1 KLASSIFIKATION DER FIRMENPROFILE 156
5.3.2 GRAMMATIKEN DER FIRMENPROFILE 158
5.4 EVALUATION 160
5.4.1 EVALUATION DER EIGENNAMEN 161
5.4.2 EVALUATION DER FIRMENPROFILE 162
5.5 FAZIT 164
6. ZUSAMMENFASSUNG UND AUSBLICK 165
III
INHALTSVERZEICHNIS
7. ANHANG 169
7.1 SOURCE-CODE 169
7.1.1 HIERARCHIE DES CODE-SYSTEMS 169
7.1.2 DARSTELLUNG DER CODES 170
7.2 BAUMSTRUKTUR DES SATZES 490 IM ENGLISCHEN KORPUS 203
7.2.1 BAUMSTRUKTUR AUS TREEBANK T 203
7.2.2 BAUMSTRUKTUR AUS TREEBANK S 204
7.3 LOKALE GRAMMATIKEN 220
7.3.1 BEISPIEL *HEALTH" 220
7.3.2 LOKALE GRAMMATIK DES SATZES 490 IM ENGLISCHEN KORPUS 224
7.3.3 EXTRAKTION DER FIRMENINFORMATIONEN 225
7.3.3.1 LOKALE GRAMMATIK DER FIRMENNAMEN 225
7.3.3.2 LOKALE GRAMMATIK DER STRASSENNAMEN 233
7.3.3.3 LOKALE GRAMMATIKEN DER FIRMENPROFILE 235
7.4 INDIKATOREN EXTERNER KONTEXTE 247
7.4.1 FIRMENNAMEN 247
7.4.2 STRASSENNAMEN 248
8. LITERATURVERZEICHNIS 250
IV |
any_adam_object | 1 |
author | Shen, Chunze |
author_facet | Shen, Chunze |
author_role | aut |
author_sort | Shen, Chunze |
author_variant | c s cs |
building | Verbundindex |
bvnumber | BV041249903 |
classification_rvk | ES 900 ES 930 |
ctrlnum | (OCoLC)859389016 (DE-599)DNB1038494508 |
dewey-full | 410.188 |
dewey-hundreds | 400 - Language |
dewey-ones | 410 - Linguistics |
dewey-raw | 410.188 |
dewey-search | 410.188 |
dewey-sort | 3410.188 |
dewey-tens | 410 - Linguistics |
discipline | Sprachwissenschaft Literaturwissenschaft |
format | Thesis Book |
fullrecord | <?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>00000nam a2200000 c 4500</leader><controlfield tag="001">BV041249903</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20130916</controlfield><controlfield tag="007">t</controlfield><controlfield tag="008">130902s2013 gw d||| m||| 00||| ger d</controlfield><datafield tag="016" ind1="7" ind2=" "><subfield code="a">1038494508</subfield><subfield code="2">DE-101</subfield></datafield><datafield tag="020" ind1=" " ind2=" "><subfield code="a">9783869244907</subfield><subfield code="c">Pb. : EUR 49.90 (DE), EUR 51.30 (AT), sfr 87.00 (freier Pr.)</subfield><subfield code="9">978-3-86924-490-7</subfield></datafield><datafield tag="024" ind1="3" ind2=" "><subfield code="a">9783869244907</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)859389016</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)DNB1038494508</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield><subfield code="e">rakddb</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">ger</subfield></datafield><datafield tag="044" ind1=" " ind2=" "><subfield code="a">gw</subfield><subfield code="c">XA-DE-BY</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-12</subfield><subfield code="a">DE-19</subfield><subfield code="a">DE-11</subfield></datafield><datafield tag="082" ind1="0" ind2=" "><subfield code="a">410.188</subfield><subfield code="2">22/ger</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ES 900</subfield><subfield code="0">(DE-625)27926:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ES 930</subfield><subfield code="0">(DE-625)27932:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Shen, Chunze</subfield><subfield code="e">Verfasser</subfield><subfield code="4">aut</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">EDSI - Effiziente Grammatikinduktion</subfield><subfield code="b">korpus-basierte effiziente Informationsextraktion und Grammatikinduktion</subfield><subfield code="c">Chunze Shen</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">München</subfield><subfield code="b">Akademische Verlagsgemeinschaft München</subfield><subfield code="c">2013</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">IX, 260 S.</subfield><subfield code="b">graph. Darst.</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="502" ind1=" " ind2=" "><subfield code="a">Zugl.: Gießen, Univ., Diss.</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Grammatik</subfield><subfield code="0">(DE-588)4021806-5</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Computerlinguistik</subfield><subfield code="0">(DE-588)4035843-4</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Korpus</subfield><subfield code="g">Linguistik</subfield><subfield code="0">(DE-588)4165338-5</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="655" ind1=" " ind2="7"><subfield code="0">(DE-588)4113937-9</subfield><subfield code="a">Hochschulschrift</subfield><subfield code="2">gnd-content</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Korpus</subfield><subfield code="g">Linguistik</subfield><subfield code="0">(DE-588)4165338-5</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2="1"><subfield code="a">Grammatik</subfield><subfield code="0">(DE-588)4021806-5</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2="2"><subfield code="a">Computerlinguistik</subfield><subfield code="0">(DE-588)4035843-4</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">X:MVB</subfield><subfield code="q">text/html</subfield><subfield code="u">http://deposit.dnb.de/cgi-bin/dokserv?id=4424239&prov=M&dok_var=1&dok_ext=htm</subfield><subfield code="3">Inhaltstext</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">DNB Datenaustausch</subfield><subfield code="q">application/pdf</subfield><subfield code="u">http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=026223958&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA</subfield><subfield code="3">Inhaltsverzeichnis</subfield></datafield><datafield tag="943" ind1="1" ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-026223958</subfield></datafield></record></collection> |
genre | (DE-588)4113937-9 Hochschulschrift gnd-content |
genre_facet | Hochschulschrift |
id | DE-604.BV041249903 |
illustrated | Illustrated |
indexdate | 2024-08-03T00:54:07Z |
institution | BVB |
isbn | 9783869244907 |
language | German |
oai_aleph_id | oai:aleph.bib-bvb.de:BVB01-026223958 |
oclc_num | 859389016 |
open_access_boolean | |
owner | DE-12 DE-19 DE-BY-UBM DE-11 |
owner_facet | DE-12 DE-19 DE-BY-UBM DE-11 |
physical | IX, 260 S. graph. Darst. |
publishDate | 2013 |
publishDateSearch | 2013 |
publishDateSort | 2013 |
publisher | Akademische Verlagsgemeinschaft München |
record_format | marc |
spelling | Shen, Chunze Verfasser aut EDSI - Effiziente Grammatikinduktion korpus-basierte effiziente Informationsextraktion und Grammatikinduktion Chunze Shen München Akademische Verlagsgemeinschaft München 2013 IX, 260 S. graph. Darst. txt rdacontent n rdamedia nc rdacarrier Zugl.: Gießen, Univ., Diss. Grammatik (DE-588)4021806-5 gnd rswk-swf Computerlinguistik (DE-588)4035843-4 gnd rswk-swf Korpus Linguistik (DE-588)4165338-5 gnd rswk-swf (DE-588)4113937-9 Hochschulschrift gnd-content Korpus Linguistik (DE-588)4165338-5 s Grammatik (DE-588)4021806-5 s Computerlinguistik (DE-588)4035843-4 s DE-604 X:MVB text/html http://deposit.dnb.de/cgi-bin/dokserv?id=4424239&prov=M&dok_var=1&dok_ext=htm Inhaltstext DNB Datenaustausch application/pdf http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=026223958&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA Inhaltsverzeichnis |
spellingShingle | Shen, Chunze EDSI - Effiziente Grammatikinduktion korpus-basierte effiziente Informationsextraktion und Grammatikinduktion Grammatik (DE-588)4021806-5 gnd Computerlinguistik (DE-588)4035843-4 gnd Korpus Linguistik (DE-588)4165338-5 gnd |
subject_GND | (DE-588)4021806-5 (DE-588)4035843-4 (DE-588)4165338-5 (DE-588)4113937-9 |
title | EDSI - Effiziente Grammatikinduktion korpus-basierte effiziente Informationsextraktion und Grammatikinduktion |
title_auth | EDSI - Effiziente Grammatikinduktion korpus-basierte effiziente Informationsextraktion und Grammatikinduktion |
title_exact_search | EDSI - Effiziente Grammatikinduktion korpus-basierte effiziente Informationsextraktion und Grammatikinduktion |
title_full | EDSI - Effiziente Grammatikinduktion korpus-basierte effiziente Informationsextraktion und Grammatikinduktion Chunze Shen |
title_fullStr | EDSI - Effiziente Grammatikinduktion korpus-basierte effiziente Informationsextraktion und Grammatikinduktion Chunze Shen |
title_full_unstemmed | EDSI - Effiziente Grammatikinduktion korpus-basierte effiziente Informationsextraktion und Grammatikinduktion Chunze Shen |
title_short | EDSI - Effiziente Grammatikinduktion |
title_sort | edsi effiziente grammatikinduktion korpus basierte effiziente informationsextraktion und grammatikinduktion |
title_sub | korpus-basierte effiziente Informationsextraktion und Grammatikinduktion |
topic | Grammatik (DE-588)4021806-5 gnd Computerlinguistik (DE-588)4035843-4 gnd Korpus Linguistik (DE-588)4165338-5 gnd |
topic_facet | Grammatik Computerlinguistik Korpus Linguistik Hochschulschrift |
url | http://deposit.dnb.de/cgi-bin/dokserv?id=4424239&prov=M&dok_var=1&dok_ext=htm http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=026223958&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |
work_keys_str_mv | AT shenchunze edsieffizientegrammatikinduktionkorpusbasierteeffizienteinformationsextraktionundgrammatikinduktion |