Internformat: Exploring the complexity of event query discovery

Exploring the complexity of event query discovery:

Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Kleest-Meißner, Sarah (VerfasserIn)
Format:	Abschlussarbeit Buch
Sprache:	English
Veröffentlicht:	Berlin [2024?]
Schlagworte:	Data Mining Datenbanksystem Informationssystem Wissensextraktion Abfrageverarbeitung Hochschulschrift
Online-Zugang:	kostenfrei
Zusammenfassung:	Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen solche Anfragen zunächst definiert werden. Diese komplexe Aufgabe wird zumeist nicht automatisiert gelöst. In dieser Dissertation behandeln wir multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken als Anfragesprache für sequentielle Daten. Anfragen bestehen aus einer Zeichenkette s über einem Alphabet aus Symbolen und Variablen, einem globalen Fenster w und einem Tupel c aus lokalen Lückenbeschränkungen. Eine Anfrage passt zu einer Folge t über der Menge an Symbolen, falls die in s vorkommenden Variablen so durch einzelne Symbole ersetzt werden können, dass die daraus resultierende Zeichenkette s' als Teilfolge in t vorkommt. Die Gesamtlänge des Vorkommens darf dabei nicht mehr als w Events umfassen und die Distanz zwischen konsekutiven Positionen der Teilfolge muss c entsprechen. Wir untersuchen, wie zu einer Menge von Folgen S eine Anfrage gefunden werden kann, die S bestmöglich beschreibt (Suchproblem). Wir geben einen Algorithmus an, der dieses Problem löst, und analysieren dessen Komplexität. Zu entscheiden, ob eine Anfrage zu einer Folge passt (Matchingproblem), dominiert die Laufzeit des Algorithmus. Wir führen disjunktive multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken, sowie multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und verallgemeinerten beschränkten Lücken als Erweiterungen ein, und passen den oben genannter Algorithmus an, um das Suchproblem für diese Anfragemodelle zu lösen. [...] Englische Version: Sequence data are (usually temporally) ordered finite or infinite streams over events that are instances of a multi-dimensional schema. Systems which deal with sequence data usually use queries to detect situations of interest. However, finding such queries from historical sequence data is notoriously hard and is often assumed to be a non-automated task. In this dissertation, we propose multi-dimensional subsequence queries with wildcards and gap-size constraints (mswg-queries) as an expressive query model for sequence data. These queries consist of a query string s over an alphabet of variables and types, as well as a global window size w and a tuple c of local gap-size constraints. A query matches a trace t, i.e., a sequence of events, if the variables in s can be replaced by single types in such a way that the resulting string s' occurs as a subsequence in t that spans an area of at most w events, and the distance between consecutive positions in the subsequence conforms with c. We study the task of discovering an mswg-query that describes best a given sample, i.e. a finite set of traces. For that, we provide an algorithm solving this problem, and investigate its complexity. Our analysis identifies the subroutine for solving the matching problem (i.e., deciding whether a given query q matches in a given trace t) as the only potential bottleneck. We propose extensions of mswg-queries for the one-dimensional setting, namely, subsequence queries with generalised gap-size constraints (swgg-queries) and disjunctive subsequence queries (dswg-queries), and discuss how the aforementioned algorithm can be adapted to compute swgg- and dswg-queries that describes best a sample. The formal results are complemented by a description of our prototypical implementation of query discovery and an experimental evaluation based on both, synthetic and real-world data.
Beschreibung:	Tag der mündlichen Prüfung: 10.09.2024 Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache.
Beschreibung:	xv, 151 Seiten Illustrationen, Diagramme (farbig)

Internformat

MARC


LEADER	00000nam a2200000 c 4500
001	BV050041905
003	DE-604
005	20241129
007	t\|
008	241125s2024 xx a\|\|\| m\|\|\| 00\|\|\| eng d
035			\|a (OCoLC)1477613460
035			\|a (DE-599)BVBBV050041905
040			\|a DE-604 \|b ger \|e rda
041	0		\|a eng
049			\|a DE-11
084			\|a ST 134 \|0 (DE-625)143590: \|2 rvk
084			\|a ST 265 \|0 (DE-625)143634: \|2 rvk
084			\|8 1\p \|a 005.74 \|2 23ksdnb
084			\|8 2\p \|a 004 \|2 23sdnb
100	1		\|a Kleest-Meißner, Sarah \|e Verfasser \|0 (DE-588)1348426403 \|4 aut
245	1	0	\|a Exploring the complexity of event query discovery \|c von Sarah Kleest-Meißner, Master of Science
264		1	\|a Berlin \|c [2024?]
300			\|a xv, 151 Seiten \|b Illustrationen, Diagramme (farbig)
336			\|b txt \|2 rdacontent
337			\|b n \|2 rdamedia
338			\|b nc \|2 rdacarrier
500			\|a Tag der mündlichen Prüfung: 10.09.2024
500			\|a Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache.
502			\|b Dissertation \|c Humboldt-Universität zu Berlin \|d 2024
520	8		\|a Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen solche Anfragen zunächst definiert werden. Diese komplexe Aufgabe wird zumeist nicht automatisiert gelöst. In dieser Dissertation behandeln wir multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken als Anfragesprache für sequentielle Daten. Anfragen bestehen aus einer Zeichenkette s über einem Alphabet aus Symbolen und Variablen, einem globalen Fenster w und einem Tupel c aus lokalen Lückenbeschränkungen. Eine Anfrage passt zu einer Folge t über der Menge an Symbolen, falls die in s vorkommenden Variablen so durch einzelne Symbole ersetzt werden können, dass die daraus resultierende Zeichenkette s' als Teilfolge in t vorkommt. Die Gesamtlänge des Vorkommens darf dabei nicht mehr als w Events umfassen und die Distanz zwischen konsekutiven Positionen der Teilfolge muss c entsprechen. Wir untersuchen, wie zu einer Menge von Folgen S eine Anfrage gefunden werden kann, die S bestmöglich beschreibt (Suchproblem). Wir geben einen Algorithmus an, der dieses Problem löst, und analysieren dessen Komplexität. Zu entscheiden, ob eine Anfrage zu einer Folge passt (Matchingproblem), dominiert die Laufzeit des Algorithmus. Wir führen disjunktive multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken, sowie multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und verallgemeinerten beschränkten Lücken als Erweiterungen ein, und passen den oben genannter Algorithmus an, um das Suchproblem für diese Anfragemodelle zu lösen. [...]
520	8		\|a Englische Version: Sequence data are (usually temporally) ordered finite or infinite streams over events that are instances of a multi-dimensional schema. Systems which deal with sequence data usually use queries to detect situations of interest. However, finding such queries from historical sequence data is notoriously hard and is often assumed to be a non-automated task. In this dissertation, we propose multi-dimensional subsequence queries with wildcards and gap-size constraints (mswg-queries) as an expressive query model for sequence data. These queries consist of a query string s over an alphabet of variables and types, as well as a global window size w and a tuple c of local gap-size constraints. A query matches a trace t, i.e., a sequence of events, if the variables in s can be replaced by single types in such a way that the resulting string s' occurs as a subsequence in t that spans an area of at most w events, and the distance between consecutive positions in the subsequence conforms with c. We study the task of discovering an mswg-query that describes best a given sample, i.e. a finite set of traces. For that, we provide an algorithm solving this problem, and investigate its complexity. Our analysis identifies the subroutine for solving the matching problem (i.e., deciding whether a given query q matches in a given trace t) as the only potential bottleneck. We propose extensions of mswg-queries for the one-dimensional setting, namely, subsequence queries with generalised gap-size constraints (swgg-queries) and disjunctive subsequence queries (dswg-queries), and discuss how the aforementioned algorithm can be adapted to compute swgg- and dswg-queries that describes best a sample. The formal results are complemented by a description of our prototypical implementation of query discovery and an experimental evaluation based on both, synthetic and real-world data.
650	0	7	\|a Data Mining \|0 (DE-588)4428654-5 \|2 gnd \|9 rswk-swf
650	0	7	\|a Datenbanksystem \|0 (DE-588)4113276-2 \|2 gnd \|9 rswk-swf
650	0	7	\|a Informationssystem \|0 (DE-588)4072806-7 \|2 gnd \|9 rswk-swf
650	0	7	\|a Wissensextraktion \|0 (DE-588)4546354-2 \|2 gnd \|9 rswk-swf
650	0	7	\|a Abfrageverarbeitung \|0 (DE-588)4378490-2 \|2 gnd \|9 rswk-swf
655		7	\|0 (DE-588)4113937-9 \|a Hochschulschrift \|2 gnd-content
689	0	0	\|a Abfrageverarbeitung \|0 (DE-588)4378490-2 \|D s
689	0		\|5 DE-604
689	1	0	\|a Wissensextraktion \|0 (DE-588)4546354-2 \|D s
689	1		\|5 DE-604
689	2	0	\|a Data Mining \|0 (DE-588)4428654-5 \|D s
689	2		\|5 DE-604
689	3	0	\|a Informationssystem \|0 (DE-588)4072806-7 \|D s
689	3		\|5 DE-604
689	4	0	\|a Datenbanksystem \|0 (DE-588)4113276-2 \|D s
689	4		\|5 DE-604
776	0	8	\|i Erscheint auch als \|n Online-Ausgabe \|a Kleest-Meißner, Sarah \|t Exploring the complexity of event query discovery \|o 10.18452/30007 \|o urn:nbn:de:kobv:11-110-18452/30581-5 \|w (DE-604)BV049954426
856	4	1	\|u http://edoc.hu-berlin.de/18452/30581 \|x Verlag \|z kostenfrei \|3 Volltext
883	0		\|8 1\p \|a emakn \|c 0,10938 \|d 20241119 \|q DE-101 \|u https://d-nb.info/provenance/plan#emakn
883	0		\|8 2\p \|a emasg \|c 0,61401 \|d 20241119 \|q DE-101 \|u https://d-nb.info/provenance/plan#emasg
912			\|a ebook
943	1		\|a oai:aleph.bib-bvb.de:BVB01-035379622

Datensatz im Suchindex

_version_	1822490596284039169
adam_text
any_adam_object
author	Kleest-Meißner, Sarah
author_GND	(DE-588)1348426403
author_facet	Kleest-Meißner, Sarah
author_role	aut
author_sort	Kleest-Meißner, Sarah
author_variant	s k m skm
building	Verbundindex
bvnumber	BV050041905
classification_rvk	ST 134 ST 265
collection	ebook
ctrlnum	(OCoLC)1477613460 (DE-599)BVBBV050041905
discipline	Informatik
format	Thesis Book
fullrecord	<?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>00000nam a2200000 c 4500</leader><controlfield tag="001">BV050041905</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20241129</controlfield><controlfield tag="007">t\|</controlfield><controlfield tag="008">241125s2024 xx a\|\|\| m\|\|\| 00\|\|\| eng d</controlfield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)1477613460</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)BVBBV050041905</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield><subfield code="e">rda</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">eng</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-11</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 134</subfield><subfield code="0">(DE-625)143590:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 265</subfield><subfield code="0">(DE-625)143634:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="8">1\p</subfield><subfield code="a">005.74</subfield><subfield code="2">23ksdnb</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="8">2\p</subfield><subfield code="a">004</subfield><subfield code="2">23sdnb</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Kleest-Meißner, Sarah</subfield><subfield code="e">Verfasser</subfield><subfield code="0">(DE-588)1348426403</subfield><subfield code="4">aut</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">Exploring the complexity of event query discovery</subfield><subfield code="c">von Sarah Kleest-Meißner, Master of Science</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">Berlin</subfield><subfield code="c">[2024?]</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">xv, 151 Seiten</subfield><subfield code="b">Illustrationen, Diagramme (farbig)</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="500" ind1=" " ind2=" "><subfield code="a">Tag der mündlichen Prüfung: 10.09.2024</subfield></datafield><datafield tag="500" ind1=" " ind2=" "><subfield code="a">Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache.</subfield></datafield><datafield tag="502" ind1=" " ind2=" "><subfield code="b">Dissertation</subfield><subfield code="c">Humboldt-Universität zu Berlin</subfield><subfield code="d">2024</subfield></datafield><datafield tag="520" ind1="8" ind2=" "><subfield code="a">Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen solche Anfragen zunächst definiert werden. Diese komplexe Aufgabe wird zumeist nicht automatisiert gelöst. In dieser Dissertation behandeln wir multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken als Anfragesprache für sequentielle Daten. Anfragen bestehen aus einer Zeichenkette s über einem Alphabet aus Symbolen und Variablen, einem globalen Fenster w und einem Tupel c aus lokalen Lückenbeschränkungen. Eine Anfrage passt zu einer Folge t über der Menge an Symbolen, falls die in s vorkommenden Variablen so durch einzelne Symbole ersetzt werden können, dass die daraus resultierende Zeichenkette s' als Teilfolge in t vorkommt. Die Gesamtlänge des Vorkommens darf dabei nicht mehr als w Events umfassen und die Distanz zwischen konsekutiven Positionen der Teilfolge muss c entsprechen. Wir untersuchen, wie zu einer Menge von Folgen S eine Anfrage gefunden werden kann, die S bestmöglich beschreibt (Suchproblem). Wir geben einen Algorithmus an, der dieses Problem löst, und analysieren dessen Komplexität. Zu entscheiden, ob eine Anfrage zu einer Folge passt (Matchingproblem), dominiert die Laufzeit des Algorithmus. Wir führen disjunktive multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken, sowie multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und verallgemeinerten beschränkten Lücken als Erweiterungen ein, und passen den oben genannter Algorithmus an, um das Suchproblem für diese Anfragemodelle zu lösen. [...]</subfield></datafield><datafield tag="520" ind1="8" ind2=" "><subfield code="a">Englische Version: Sequence data are (usually temporally) ordered finite or infinite streams over events that are instances of a multi-dimensional schema. Systems which deal with sequence data usually use queries to detect situations of interest. However, finding such queries from historical sequence data is notoriously hard and is often assumed to be a non-automated task. In this dissertation, we propose multi-dimensional subsequence queries with wildcards and gap-size constraints (mswg-queries) as an expressive query model for sequence data. These queries consist of a query string s over an alphabet of variables and types, as well as a global window size w and a tuple c of local gap-size constraints. A query matches a trace t, i.e., a sequence of events, if the variables in s can be replaced by single types in such a way that the resulting string s' occurs as a subsequence in t that spans an area of at most w events, and the distance between consecutive positions in the subsequence conforms with c. We study the task of discovering an mswg-query that describes best a given sample, i.e. a finite set of traces. For that, we provide an algorithm solving this problem, and investigate its complexity. Our analysis identifies the subroutine for solving the matching problem (i.e., deciding whether a given query q matches in a given trace t) as the only potential bottleneck. We propose extensions of mswg-queries for the one-dimensional setting, namely, subsequence queries with generalised gap-size constraints (swgg-queries) and disjunctive subsequence queries (dswg-queries), and discuss how the aforementioned algorithm can be adapted to compute swgg- and dswg-queries that describes best a sample. The formal results are complemented by a description of our prototypical implementation of query discovery and an experimental evaluation based on both, synthetic and real-world data.</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Data Mining</subfield><subfield code="0">(DE-588)4428654-5</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Datenbanksystem</subfield><subfield code="0">(DE-588)4113276-2</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Informationssystem</subfield><subfield code="0">(DE-588)4072806-7</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Wissensextraktion</subfield><subfield code="0">(DE-588)4546354-2</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Abfrageverarbeitung</subfield><subfield code="0">(DE-588)4378490-2</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="655" ind1=" " ind2="7"><subfield code="0">(DE-588)4113937-9</subfield><subfield code="a">Hochschulschrift</subfield><subfield code="2">gnd-content</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Abfrageverarbeitung</subfield><subfield code="0">(DE-588)4378490-2</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="1" ind2="0"><subfield code="a">Wissensextraktion</subfield><subfield code="0">(DE-588)4546354-2</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="1" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="2" ind2="0"><subfield code="a">Data Mining</subfield><subfield code="0">(DE-588)4428654-5</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="2" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="3" ind2="0"><subfield code="a">Informationssystem</subfield><subfield code="0">(DE-588)4072806-7</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="3" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="4" ind2="0"><subfield code="a">Datenbanksystem</subfield><subfield code="0">(DE-588)4113276-2</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="4" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="776" ind1="0" ind2="8"><subfield code="i">Erscheint auch als</subfield><subfield code="n">Online-Ausgabe</subfield><subfield code="a">Kleest-Meißner, Sarah</subfield><subfield code="t">Exploring the complexity of event query discovery</subfield><subfield code="o">10.18452/30007</subfield><subfield code="o">urn:nbn:de:kobv:11-110-18452/30581-5</subfield><subfield code="w">(DE-604)BV049954426</subfield></datafield><datafield tag="856" ind1="4" ind2="1"><subfield code="u">http://edoc.hu-berlin.de/18452/30581</subfield><subfield code="x">Verlag</subfield><subfield code="z">kostenfrei</subfield><subfield code="3">Volltext</subfield></datafield><datafield tag="883" ind1="0" ind2=" "><subfield code="8">1\p</subfield><subfield code="a">emakn</subfield><subfield code="c">0,10938</subfield><subfield code="d">20241119</subfield><subfield code="q">DE-101</subfield><subfield code="u">https://d-nb.info/provenance/plan#emakn</subfield></datafield><datafield tag="883" ind1="0" ind2=" "><subfield code="8">2\p</subfield><subfield code="a">emasg</subfield><subfield code="c">0,61401</subfield><subfield code="d">20241119</subfield><subfield code="q">DE-101</subfield><subfield code="u">https://d-nb.info/provenance/plan#emasg</subfield></datafield><datafield tag="912" ind1=" " ind2=" "><subfield code="a">ebook</subfield></datafield><datafield tag="943" ind1="1" ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-035379622</subfield></datafield></record></collection>
genre	(DE-588)4113937-9 Hochschulschrift gnd-content
genre_facet	Hochschulschrift
id	DE-604.BV050041905
illustrated	Illustrated
indexdate	2025-01-28T11:07:53Z
institution	BVB
language	English
oai_aleph_id	oai:aleph.bib-bvb.de:BVB01-035379622
oclc_num	1477613460
open_access_boolean	1
owner	DE-11
owner_facet	DE-11
physical	xv, 151 Seiten Illustrationen, Diagramme (farbig)
psigel	ebook
publishDate	2024
publishDateSearch	2024
publishDateSort	2024
record_format	marc
spelling	Kleest-Meißner, Sarah Verfasser (DE-588)1348426403 aut Exploring the complexity of event query discovery von Sarah Kleest-Meißner, Master of Science Berlin [2024?] xv, 151 Seiten Illustrationen, Diagramme (farbig) txt rdacontent n rdamedia nc rdacarrier Tag der mündlichen Prüfung: 10.09.2024 Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache. Dissertation Humboldt-Universität zu Berlin 2024 Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen solche Anfragen zunächst definiert werden. Diese komplexe Aufgabe wird zumeist nicht automatisiert gelöst. In dieser Dissertation behandeln wir multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken als Anfragesprache für sequentielle Daten. Anfragen bestehen aus einer Zeichenkette s über einem Alphabet aus Symbolen und Variablen, einem globalen Fenster w und einem Tupel c aus lokalen Lückenbeschränkungen. Eine Anfrage passt zu einer Folge t über der Menge an Symbolen, falls die in s vorkommenden Variablen so durch einzelne Symbole ersetzt werden können, dass die daraus resultierende Zeichenkette s' als Teilfolge in t vorkommt. Die Gesamtlänge des Vorkommens darf dabei nicht mehr als w Events umfassen und die Distanz zwischen konsekutiven Positionen der Teilfolge muss c entsprechen. Wir untersuchen, wie zu einer Menge von Folgen S eine Anfrage gefunden werden kann, die S bestmöglich beschreibt (Suchproblem). Wir geben einen Algorithmus an, der dieses Problem löst, und analysieren dessen Komplexität. Zu entscheiden, ob eine Anfrage zu einer Folge passt (Matchingproblem), dominiert die Laufzeit des Algorithmus. Wir führen disjunktive multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken, sowie multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und verallgemeinerten beschränkten Lücken als Erweiterungen ein, und passen den oben genannter Algorithmus an, um das Suchproblem für diese Anfragemodelle zu lösen. [...] Englische Version: Sequence data are (usually temporally) ordered finite or infinite streams over events that are instances of a multi-dimensional schema. Systems which deal with sequence data usually use queries to detect situations of interest. However, finding such queries from historical sequence data is notoriously hard and is often assumed to be a non-automated task. In this dissertation, we propose multi-dimensional subsequence queries with wildcards and gap-size constraints (mswg-queries) as an expressive query model for sequence data. These queries consist of a query string s over an alphabet of variables and types, as well as a global window size w and a tuple c of local gap-size constraints. A query matches a trace t, i.e., a sequence of events, if the variables in s can be replaced by single types in such a way that the resulting string s' occurs as a subsequence in t that spans an area of at most w events, and the distance between consecutive positions in the subsequence conforms with c. We study the task of discovering an mswg-query that describes best a given sample, i.e. a finite set of traces. For that, we provide an algorithm solving this problem, and investigate its complexity. Our analysis identifies the subroutine for solving the matching problem (i.e., deciding whether a given query q matches in a given trace t) as the only potential bottleneck. We propose extensions of mswg-queries for the one-dimensional setting, namely, subsequence queries with generalised gap-size constraints (swgg-queries) and disjunctive subsequence queries (dswg-queries), and discuss how the aforementioned algorithm can be adapted to compute swgg- and dswg-queries that describes best a sample. The formal results are complemented by a description of our prototypical implementation of query discovery and an experimental evaluation based on both, synthetic and real-world data. Data Mining (DE-588)4428654-5 gnd rswk-swf Datenbanksystem (DE-588)4113276-2 gnd rswk-swf Informationssystem (DE-588)4072806-7 gnd rswk-swf Wissensextraktion (DE-588)4546354-2 gnd rswk-swf Abfrageverarbeitung (DE-588)4378490-2 gnd rswk-swf (DE-588)4113937-9 Hochschulschrift gnd-content Abfrageverarbeitung (DE-588)4378490-2 s DE-604 Wissensextraktion (DE-588)4546354-2 s Data Mining (DE-588)4428654-5 s Informationssystem (DE-588)4072806-7 s Datenbanksystem (DE-588)4113276-2 s Erscheint auch als Online-Ausgabe Kleest-Meißner, Sarah Exploring the complexity of event query discovery 10.18452/30007 urn:nbn:de:kobv:11-110-18452/30581-5 (DE-604)BV049954426 http://edoc.hu-berlin.de/18452/30581 Verlag kostenfrei Volltext 1\p emakn 0,10938 20241119 DE-101 https://d-nb.info/provenance/plan#emakn 2\p emasg 0,61401 20241119 DE-101 https://d-nb.info/provenance/plan#emasg
spellingShingle	Kleest-Meißner, Sarah Exploring the complexity of event query discovery Data Mining (DE-588)4428654-5 gnd Datenbanksystem (DE-588)4113276-2 gnd Informationssystem (DE-588)4072806-7 gnd Wissensextraktion (DE-588)4546354-2 gnd Abfrageverarbeitung (DE-588)4378490-2 gnd
subject_GND	(DE-588)4428654-5 (DE-588)4113276-2 (DE-588)4072806-7 (DE-588)4546354-2 (DE-588)4378490-2 (DE-588)4113937-9
title	Exploring the complexity of event query discovery
title_auth	Exploring the complexity of event query discovery
title_exact_search	Exploring the complexity of event query discovery
title_full	Exploring the complexity of event query discovery von Sarah Kleest-Meißner, Master of Science
title_fullStr	Exploring the complexity of event query discovery von Sarah Kleest-Meißner, Master of Science
title_full_unstemmed	Exploring the complexity of event query discovery von Sarah Kleest-Meißner, Master of Science
title_short	Exploring the complexity of event query discovery
title_sort	exploring the complexity of event query discovery
topic	Data Mining (DE-588)4428654-5 gnd Datenbanksystem (DE-588)4113276-2 gnd Informationssystem (DE-588)4072806-7 gnd Wissensextraktion (DE-588)4546354-2 gnd Abfrageverarbeitung (DE-588)4378490-2 gnd
topic_facet	Data Mining Datenbanksystem Informationssystem Wissensextraktion Abfrageverarbeitung Hochschulschrift
url	http://edoc.hu-berlin.de/18452/30581
work_keys_str_mv	AT kleestmeißnersarah exploringthecomplexityofeventquerydiscovery

Verfügbarkeit

MARC

Datensatz im Suchindex

Ähnliche Einträge