Web information retrieval: Technologien zur Informationssuche im Internet
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Abschlussarbeit Buch |
Sprache: | German |
Veröffentlicht: |
Frankfurt am Main
Dt. Ges. für Informationswissenschaft und Informationspraxis
2005
|
Schriftenreihe: | Reihe Informationswissenschaft der DGI
7 |
Schlagworte: | |
Online-Zugang: | Volltext Inhaltsverzeichnis |
Beschreibung: | 248 S. graph. Darst. |
ISBN: | 3925474552 |
Internformat
MARC
LEADER | 00000nam a2200000 cb4500 | ||
---|---|---|---|
001 | BV020819356 | ||
003 | DE-604 | ||
005 | 20100726 | ||
007 | t | ||
008 | 051005s2005 gw d||| m||| 00||| ger d | ||
016 | 7 | |a 976378078 |2 DE-101 | |
020 | |a 3925474552 |9 3-925474-55-2 | ||
035 | |a (OCoLC)181478936 | ||
035 | |a (DE-599)BVBBV020819356 | ||
040 | |a DE-604 |b ger |e rakwb | ||
041 | 0 | |a ger | |
044 | |a gw |c XA-DE-HE | ||
049 | |a DE-M49 |a DE-M347 |a DE-20 |a DE-12 |a DE-473 |a DE-521 |a DE-634 |a DE-83 |a DE-11 |a DE-525 |a DE-2070s |a DE-M29 | ||
082 | 0 | |a 025.04 |2 22 | |
084 | |a AN 95000 |0 (DE-625)6793: |2 rvk | ||
084 | |a ST 205 |0 (DE-625)143613: |2 rvk | ||
084 | |a DAT 616d |2 stub | ||
084 | |a KOM 910d |2 stub | ||
084 | |a 020 |2 sdnb | ||
084 | |a 004 |2 sdnb | ||
100 | 1 | |a Lewandowski, Dirk |d 1973- |e Verfasser |0 (DE-588)130531782 |4 aut | |
245 | 1 | 0 | |a Web information retrieval |b Technologien zur Informationssuche im Internet |c Dirk Lewandowski |
264 | 1 | |a Frankfurt am Main |b Dt. Ges. für Informationswissenschaft und Informationspraxis |c 2005 | |
300 | |a 248 S. |b graph. Darst. | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
338 | |b nc |2 rdacarrier | ||
490 | 1 | |a Reihe Informationswissenschaft der DGI |v 7 | |
502 | |a Zugl.: Düsseldorf, Univ., Diss., 2005 | ||
650 | 0 | 7 | |a Information Retrieval |0 (DE-588)4072803-1 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Internet |0 (DE-588)4308416-3 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a World Wide Web |0 (DE-588)4363898-3 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Suchmaschine |0 (DE-588)4423007-2 |2 gnd |9 rswk-swf |
655 | 7 | |0 (DE-588)4113937-9 |a Hochschulschrift |2 gnd-content | |
689 | 0 | 0 | |a Internet |0 (DE-588)4308416-3 |D s |
689 | 0 | 1 | |a Information Retrieval |0 (DE-588)4072803-1 |D s |
689 | 0 | |5 DE-604 | |
689 | 1 | 0 | |a Suchmaschine |0 (DE-588)4423007-2 |D s |
689 | 1 | 1 | |a World Wide Web |0 (DE-588)4363898-3 |D s |
689 | 1 | 2 | |a Information Retrieval |0 (DE-588)4072803-1 |D s |
689 | 1 | |8 1\p |5 DE-604 | |
830 | 0 | |a Reihe Informationswissenschaft der DGI |v 7 |w (DE-604)BV020838084 |9 7 | |
856 | 4 | |u http://www.durchdenken.de/lewandowski/web-ir/ |z kostenfrei |3 Volltext | |
856 | 4 | 2 | |m HBZ Datenaustausch |q application/pdf |u http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=013524746&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |3 Inhaltsverzeichnis |
999 | |a oai:aleph.bib-bvb.de:BVB01-013524746 | ||
883 | 1 | |8 1\p |a cgwrk |d 20201028 |q DE-101 |u https://d-nb.info/provenance/plan#cgwrk |
Datensatz im Suchindex
_version_ | 1804133771897733120 |
---|---|
adam_text | Inhalt
Vorwort 9
Suchmaschinen im Internet informationswissenschaftlich betrachtet 9
1 Einleitung 13
2 Forschungsumfeld 21
2.1 Suchmaschinen Markt 21
2.2 Formen der Suche im WWW 24
2.3 Aufbau von algorithmischen Suchmaschinen 26
2.4 Abfragesprachen 30
2.5 Arten von Suchanfragen 33
2.6 Nutzerstudien 34
2.6.1 Methoden der Nutzerforschung 35
2.6.2 Nutzergruppen 36
2.6.3 Recherchekenntnisse und Strategien 36
2.6.4 Themen und Auswahl der Suchbegriffe 37
2.6.5 Sichten der Treffer 38
2.6.6 Wissen über Suchmaschinen und deren Finanzierung 38
2.7 Forschungsbereiche 39
3 Die Größe des Web und seine Abdeckung durch Suchmaschinen 41
3.1 Die Größe des indexierbaren Web 42
3.2 Struktur 45
3.3 Crawling 48
3.4 Aktualität 50
3.5 Invisible Web 51
4 Strukturinformationen 59
4.1 Strukturierungsgrad von Dokumenten 59
4.2 Strukturinformationen in den im Web gängigen Dokumenten 60
4.2.1 HTML 61
4.2.2 Word Dokumente 65
4.2.3 PDF 66
4.3 Trennung von Navigation, Layout und Inhalt 67
4.4 Repräsentation der Dokumente in den Datenbanken der Suchmaschinen.... 68
5
5 Klassische Verfahren des Information Retrieval und ihre Anwendung bei
WWW Suchmaschinen 71
5.1 Unterschiede zwischen „klassischem Information Retrieval und Web
Information Retrieval 71
5.2 Kontrolliertes Vokabular 77
5.3 Kriterien für die Aufnahme in den Datenbestand 78
5.4 Modelle des Information Retrieval 80
5.4.1 Boolesches Modell 80
5.4.2 Vektorraummodell 83
5.4.3 Probabilistisches Modell 86
6 Ranking 89
6.1 Rankingfaktoren 90
6.2 Messbarkeit von Relevanz 95
6.3 Grundsätzliche Probleme des Relevance Ranking in Suchmaschinen 97
7 Informationsstatistische und informationslinguistische Verfahren
7.1 Textstatistische Verfahren 99
7.2 Nutzungsstatistische Verfahren 101
7.3 Informationslinguistische Verfahren 104
7.3.1 Stemming 106
7.3.2 Phrasenerkennung 109
7.3.3 Synonyme, Homonyme, Akronyme 111
7.3.4 Rechtschreibkontrolle 113
8 Linktopologische Rankingverfahren 117
8.1 Grundlagen: Science Citation Indexing 118
8.2PageRank 120
8.2.1 Der klassische PageRank Algorithmus 120
8.2.2 Weiterentwicklungen: Reranking 123
8.3 HITS 126
8.4 Hilltop 130
8.5 Evaluierung der linktopologischen Verfahren 132
8.6 Problembereiche linktopologischer Rankingverfahren 134
8.7 Fazit linktopologische Verfahren 137
6
9 Retrievaltests 139
9.1 Aufbau und Nutzen von Retrievaltests 139
9.2 Aufbau und Ergebnisse ausgewählter Retrievaltests 142
9.3 Kritik 145
10 Verfahren der intuitiven Benutzerführung 149
10.1 Relevance Feedback 151
10.2 Vorschläge zur Erweiterung und Einschränkung der Suchanfrage 154
10.3 Klassifikation und Thesaurus 159
10.4 Clusterbildung 161
10.5 Graphische Ansätze der Ergebnispräsentation 165
11 Aktualität 169
11.1 Bedeutung der Beschränkung nach der Aktualität der Dokumente 169
11.2 Funktionsfähigkeit der Datumsbeschränkung in Suchmaschinen 170
11.2.1 Methodik 171
11.2.2 Ergebnisse 174
11.3 Möglichkeiten der Ermittlung von Datumsangaben in Web Dokumenten... 180
11.4 Aktualitätsfaktoren im Ranking 182
11.5 Spezialisierte Suchmaschinen für Nachrichten 187
11.6 Auswahl der gewünschten Aktualität durch den Nutzer 188
12 Qualität 191
12.1 Bedeutung der Beschränkung nach der Qualität der Dokumente 192
12.2 Qualitätsbeschränkungen bei der Recherche in Datenbank Hosts 192
12.3 Identifizierung von Top Quellen im WWW 194
12.4 Manuelle Einbindung von Top Quellen 195
12.5 Automatisierte Einbindung von Invisible Web Quellen 198
12.6 Einbindung von Web Verzeichnissen in Suchmaschinen 200
12.6.1 Erschließung des Web mittels Suchmaschinen und Verzeichnissen.201
12.6.2 Web Verzeichnisse und ihre Integration in Suchmaschinen 203
12.6.3 Erschließung der Sites in Web Verzeichnissen 204
12.6.4 Einbindung der Verzeichnisdaten in Suchmaschinen 206
7
13 Verbesserung der Dokumentrepräsentation 217
13.1 Beschränkung auf den Inhaltsteil der Dokumente 217
13.2 Erweiterungen der Dokumentrepräsentation 221
13.2.1 Strukturinformationen 221
13.2.2 Größenangaben 222
13.2.3 Abbildungen und Tabellen 223
13.3 Ersatz für die Nicht Verwendbarkeit generischer Top Level DÖmäins . . . . . 224
13.4 Aufbereitung der Suchergebnisse in den Trefferlisten 224
14 Fazit und Ausblick
Literatur
231
Register
243
8
|
any_adam_object | 1 |
author | Lewandowski, Dirk 1973- |
author_GND | (DE-588)130531782 |
author_facet | Lewandowski, Dirk 1973- |
author_role | aut |
author_sort | Lewandowski, Dirk 1973- |
author_variant | d l dl |
building | Verbundindex |
bvnumber | BV020819356 |
classification_rvk | AN 95000 ST 205 |
classification_tum | DAT 616d KOM 910d |
ctrlnum | (OCoLC)181478936 (DE-599)BVBBV020819356 |
dewey-full | 025.04 |
dewey-hundreds | 000 - Computer science, information, general works |
dewey-ones | 025 - Operations of libraries and archives |
dewey-raw | 025.04 |
dewey-search | 025.04 |
dewey-sort | 225.04 |
dewey-tens | 020 - Library and information sciences |
discipline | Allgemeines Informatik Kommunikationswesen Wiss. Arbeiten |
format | Thesis Book |
fullrecord | <?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>02463nam a2200577 cb4500</leader><controlfield tag="001">BV020819356</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20100726 </controlfield><controlfield tag="007">t</controlfield><controlfield tag="008">051005s2005 gw d||| m||| 00||| ger d</controlfield><datafield tag="016" ind1="7" ind2=" "><subfield code="a">976378078</subfield><subfield code="2">DE-101</subfield></datafield><datafield tag="020" ind1=" " ind2=" "><subfield code="a">3925474552</subfield><subfield code="9">3-925474-55-2</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)181478936</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)BVBBV020819356</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield><subfield code="e">rakwb</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">ger</subfield></datafield><datafield tag="044" ind1=" " ind2=" "><subfield code="a">gw</subfield><subfield code="c">XA-DE-HE</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-M49</subfield><subfield code="a">DE-M347</subfield><subfield code="a">DE-20</subfield><subfield code="a">DE-12</subfield><subfield code="a">DE-473</subfield><subfield code="a">DE-521</subfield><subfield code="a">DE-634</subfield><subfield code="a">DE-83</subfield><subfield code="a">DE-11</subfield><subfield code="a">DE-525</subfield><subfield code="a">DE-2070s</subfield><subfield code="a">DE-M29</subfield></datafield><datafield tag="082" ind1="0" ind2=" "><subfield code="a">025.04</subfield><subfield code="2">22</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">AN 95000</subfield><subfield code="0">(DE-625)6793:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 205</subfield><subfield code="0">(DE-625)143613:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">DAT 616d</subfield><subfield code="2">stub</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">KOM 910d</subfield><subfield code="2">stub</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">020</subfield><subfield code="2">sdnb</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">004</subfield><subfield code="2">sdnb</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Lewandowski, Dirk</subfield><subfield code="d">1973-</subfield><subfield code="e">Verfasser</subfield><subfield code="0">(DE-588)130531782</subfield><subfield code="4">aut</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">Web information retrieval</subfield><subfield code="b">Technologien zur Informationssuche im Internet</subfield><subfield code="c">Dirk Lewandowski</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">Frankfurt am Main</subfield><subfield code="b">Dt. Ges. für Informationswissenschaft und Informationspraxis</subfield><subfield code="c">2005</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">248 S.</subfield><subfield code="b">graph. Darst.</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="490" ind1="1" ind2=" "><subfield code="a">Reihe Informationswissenschaft der DGI</subfield><subfield code="v">7</subfield></datafield><datafield tag="502" ind1=" " ind2=" "><subfield code="a">Zugl.: Düsseldorf, Univ., Diss., 2005</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Information Retrieval</subfield><subfield code="0">(DE-588)4072803-1</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Internet</subfield><subfield code="0">(DE-588)4308416-3</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">World Wide Web</subfield><subfield code="0">(DE-588)4363898-3</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Suchmaschine</subfield><subfield code="0">(DE-588)4423007-2</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="655" ind1=" " ind2="7"><subfield code="0">(DE-588)4113937-9</subfield><subfield code="a">Hochschulschrift</subfield><subfield code="2">gnd-content</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Internet</subfield><subfield code="0">(DE-588)4308416-3</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2="1"><subfield code="a">Information Retrieval</subfield><subfield code="0">(DE-588)4072803-1</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="1" ind2="0"><subfield code="a">Suchmaschine</subfield><subfield code="0">(DE-588)4423007-2</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="1" ind2="1"><subfield code="a">World Wide Web</subfield><subfield code="0">(DE-588)4363898-3</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="1" ind2="2"><subfield code="a">Information Retrieval</subfield><subfield code="0">(DE-588)4072803-1</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="1" ind2=" "><subfield code="8">1\p</subfield><subfield code="5">DE-604</subfield></datafield><datafield tag="830" ind1=" " ind2="0"><subfield code="a">Reihe Informationswissenschaft der DGI</subfield><subfield code="v">7</subfield><subfield code="w">(DE-604)BV020838084</subfield><subfield code="9">7</subfield></datafield><datafield tag="856" ind1="4" ind2=" "><subfield code="u">http://www.durchdenken.de/lewandowski/web-ir/</subfield><subfield code="z">kostenfrei</subfield><subfield code="3">Volltext</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">HBZ Datenaustausch</subfield><subfield code="q">application/pdf</subfield><subfield code="u">http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=013524746&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA</subfield><subfield code="3">Inhaltsverzeichnis</subfield></datafield><datafield tag="999" ind1=" " ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-013524746</subfield></datafield><datafield tag="883" ind1="1" ind2=" "><subfield code="8">1\p</subfield><subfield code="a">cgwrk</subfield><subfield code="d">20201028</subfield><subfield code="q">DE-101</subfield><subfield code="u">https://d-nb.info/provenance/plan#cgwrk</subfield></datafield></record></collection> |
genre | (DE-588)4113937-9 Hochschulschrift gnd-content |
genre_facet | Hochschulschrift |
id | DE-604.BV020819356 |
illustrated | Illustrated |
indexdate | 2024-07-09T20:14:01Z |
institution | BVB |
isbn | 3925474552 |
language | German |
oai_aleph_id | oai:aleph.bib-bvb.de:BVB01-013524746 |
oclc_num | 181478936 |
open_access_boolean | 1 |
owner | DE-M49 DE-BY-TUM DE-M347 DE-20 DE-12 DE-473 DE-BY-UBG DE-521 DE-634 DE-83 DE-11 DE-525 DE-2070s DE-M29 |
owner_facet | DE-M49 DE-BY-TUM DE-M347 DE-20 DE-12 DE-473 DE-BY-UBG DE-521 DE-634 DE-83 DE-11 DE-525 DE-2070s DE-M29 |
physical | 248 S. graph. Darst. |
publishDate | 2005 |
publishDateSearch | 2005 |
publishDateSort | 2005 |
publisher | Dt. Ges. für Informationswissenschaft und Informationspraxis |
record_format | marc |
series | Reihe Informationswissenschaft der DGI |
series2 | Reihe Informationswissenschaft der DGI |
spelling | Lewandowski, Dirk 1973- Verfasser (DE-588)130531782 aut Web information retrieval Technologien zur Informationssuche im Internet Dirk Lewandowski Frankfurt am Main Dt. Ges. für Informationswissenschaft und Informationspraxis 2005 248 S. graph. Darst. txt rdacontent n rdamedia nc rdacarrier Reihe Informationswissenschaft der DGI 7 Zugl.: Düsseldorf, Univ., Diss., 2005 Information Retrieval (DE-588)4072803-1 gnd rswk-swf Internet (DE-588)4308416-3 gnd rswk-swf World Wide Web (DE-588)4363898-3 gnd rswk-swf Suchmaschine (DE-588)4423007-2 gnd rswk-swf (DE-588)4113937-9 Hochschulschrift gnd-content Internet (DE-588)4308416-3 s Information Retrieval (DE-588)4072803-1 s DE-604 Suchmaschine (DE-588)4423007-2 s World Wide Web (DE-588)4363898-3 s 1\p DE-604 Reihe Informationswissenschaft der DGI 7 (DE-604)BV020838084 7 http://www.durchdenken.de/lewandowski/web-ir/ kostenfrei Volltext HBZ Datenaustausch application/pdf http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=013524746&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA Inhaltsverzeichnis 1\p cgwrk 20201028 DE-101 https://d-nb.info/provenance/plan#cgwrk |
spellingShingle | Lewandowski, Dirk 1973- Web information retrieval Technologien zur Informationssuche im Internet Reihe Informationswissenschaft der DGI Information Retrieval (DE-588)4072803-1 gnd Internet (DE-588)4308416-3 gnd World Wide Web (DE-588)4363898-3 gnd Suchmaschine (DE-588)4423007-2 gnd |
subject_GND | (DE-588)4072803-1 (DE-588)4308416-3 (DE-588)4363898-3 (DE-588)4423007-2 (DE-588)4113937-9 |
title | Web information retrieval Technologien zur Informationssuche im Internet |
title_auth | Web information retrieval Technologien zur Informationssuche im Internet |
title_exact_search | Web information retrieval Technologien zur Informationssuche im Internet |
title_full | Web information retrieval Technologien zur Informationssuche im Internet Dirk Lewandowski |
title_fullStr | Web information retrieval Technologien zur Informationssuche im Internet Dirk Lewandowski |
title_full_unstemmed | Web information retrieval Technologien zur Informationssuche im Internet Dirk Lewandowski |
title_short | Web information retrieval |
title_sort | web information retrieval technologien zur informationssuche im internet |
title_sub | Technologien zur Informationssuche im Internet |
topic | Information Retrieval (DE-588)4072803-1 gnd Internet (DE-588)4308416-3 gnd World Wide Web (DE-588)4363898-3 gnd Suchmaschine (DE-588)4423007-2 gnd |
topic_facet | Information Retrieval Internet World Wide Web Suchmaschine Hochschulschrift |
url | http://www.durchdenken.de/lewandowski/web-ir/ http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=013524746&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |
volume_link | (DE-604)BV020838084 |
work_keys_str_mv | AT lewandowskidirk webinformationretrievaltechnologienzurinformationssucheiminternet |