Exploring the complexity of event query discovery:
Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Abschlussarbeit Buch |
Sprache: | English |
Veröffentlicht: |
Berlin
[2024?]
|
Schlagworte: | |
Online-Zugang: | kostenfrei |
Zusammenfassung: | Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen solche Anfragen zunächst definiert werden. Diese komplexe Aufgabe wird zumeist nicht automatisiert gelöst. In dieser Dissertation behandeln wir multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken als Anfragesprache für sequentielle Daten. Anfragen bestehen aus einer Zeichenkette s über einem Alphabet aus Symbolen und Variablen, einem globalen Fenster w und einem Tupel c aus lokalen Lückenbeschränkungen. Eine Anfrage passt zu einer Folge t über der Menge an Symbolen, falls die in s vorkommenden Variablen so durch einzelne Symbole ersetzt werden können, dass die daraus resultierende Zeichenkette s' als Teilfolge in t vorkommt. Die Gesamtlänge des Vorkommens darf dabei nicht mehr als w Events umfassen und die Distanz zwischen konsekutiven Positionen der Teilfolge muss c entsprechen. Wir untersuchen, wie zu einer Menge von Folgen S eine Anfrage gefunden werden kann, die S bestmöglich beschreibt (Suchproblem). Wir geben einen Algorithmus an, der dieses Problem löst, und analysieren dessen Komplexität. Zu entscheiden, ob eine Anfrage zu einer Folge passt (Matchingproblem), dominiert die Laufzeit des Algorithmus. Wir führen disjunktive multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken, sowie multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und verallgemeinerten beschränkten Lücken als Erweiterungen ein, und passen den oben genannter Algorithmus an, um das Suchproblem für diese Anfragemodelle zu lösen. [...] Englische Version: Sequence data are (usually temporally) ordered finite or infinite streams over events that are instances of a multi-dimensional schema. Systems which deal with sequence data usually use queries to detect situations of interest. However, finding such queries from historical sequence data is notoriously hard and is often assumed to be a non-automated task. In this dissertation, we propose multi-dimensional subsequence queries with wildcards and gap-size constraints (mswg-queries) as an expressive query model for sequence data. These queries consist of a query string s over an alphabet of variables and types, as well as a global window size w and a tuple c of local gap-size constraints. A query matches a trace t, i.e., a sequence of events, if the variables in s can be replaced by single types in such a way that the resulting string s' occurs as a subsequence in t that spans an area of at most w events, and the distance between consecutive positions in the subsequence conforms with c. We study the task of discovering an mswg-query that describes best a given sample, i.e. a finite set of traces. For that, we provide an algorithm solving this problem, and investigate its complexity. Our analysis identifies the subroutine for solving the matching problem (i.e., deciding whether a given query q matches in a given trace t) as the only potential bottleneck. We propose extensions of mswg-queries for the one-dimensional setting, namely, subsequence queries with generalised gap-size constraints (swgg-queries) and disjunctive subsequence queries (dswg-queries), and discuss how the aforementioned algorithm can be adapted to compute swgg- and dswg-queries that describes best a sample. The formal results are complemented by a description of our prototypical implementation of query discovery and an experimental evaluation based on both, synthetic and real-world data. |
Beschreibung: | Tag der mündlichen Prüfung: 10.09.2024 Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache. |
Beschreibung: | xv, 151 Seiten Illustrationen, Diagramme (farbig) |
Internformat
MARC
LEADER | 00000nam a2200000 c 4500 | ||
---|---|---|---|
001 | BV050041905 | ||
003 | DE-604 | ||
005 | 20241129 | ||
007 | t| | ||
008 | 241125s2024 xx a||| m||| 00||| eng d | ||
035 | |a (OCoLC)1477613460 | ||
035 | |a (DE-599)BVBBV050041905 | ||
040 | |a DE-604 |b ger |e rda | ||
041 | 0 | |a eng | |
049 | |a DE-11 | ||
084 | |a ST 134 |0 (DE-625)143590: |2 rvk | ||
084 | |a ST 265 |0 (DE-625)143634: |2 rvk | ||
084 | |8 1\p |a 005.74 |2 23ksdnb | ||
084 | |8 2\p |a 004 |2 23sdnb | ||
100 | 1 | |a Kleest-Meißner, Sarah |e Verfasser |0 (DE-588)1348426403 |4 aut | |
245 | 1 | 0 | |a Exploring the complexity of event query discovery |c von Sarah Kleest-Meißner, Master of Science |
264 | 1 | |a Berlin |c [2024?] | |
300 | |a xv, 151 Seiten |b Illustrationen, Diagramme (farbig) | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
338 | |b nc |2 rdacarrier | ||
500 | |a Tag der mündlichen Prüfung: 10.09.2024 | ||
500 | |a Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache. | ||
502 | |b Dissertation |c Humboldt-Universität zu Berlin |d 2024 | ||
520 | 8 | |a Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen solche Anfragen zunächst definiert werden. Diese komplexe Aufgabe wird zumeist nicht automatisiert gelöst. In dieser Dissertation behandeln wir multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken als Anfragesprache für sequentielle Daten. Anfragen bestehen aus einer Zeichenkette s über einem Alphabet aus Symbolen und Variablen, einem globalen Fenster w und einem Tupel c aus lokalen Lückenbeschränkungen. Eine Anfrage passt zu einer Folge t über der Menge an Symbolen, falls die in s vorkommenden Variablen so durch einzelne Symbole ersetzt werden können, dass die daraus resultierende Zeichenkette s' als Teilfolge in t vorkommt. Die Gesamtlänge des Vorkommens darf dabei nicht mehr als w Events umfassen und die Distanz zwischen konsekutiven Positionen der Teilfolge muss c entsprechen. Wir untersuchen, wie zu einer Menge von Folgen S eine Anfrage gefunden werden kann, die S bestmöglich beschreibt (Suchproblem). Wir geben einen Algorithmus an, der dieses Problem löst, und analysieren dessen Komplexität. Zu entscheiden, ob eine Anfrage zu einer Folge passt (Matchingproblem), dominiert die Laufzeit des Algorithmus. Wir führen disjunktive multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken, sowie multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und verallgemeinerten beschränkten Lücken als Erweiterungen ein, und passen den oben genannter Algorithmus an, um das Suchproblem für diese Anfragemodelle zu lösen. [...] | |
520 | 8 | |a Englische Version: Sequence data are (usually temporally) ordered finite or infinite streams over events that are instances of a multi-dimensional schema. Systems which deal with sequence data usually use queries to detect situations of interest. However, finding such queries from historical sequence data is notoriously hard and is often assumed to be a non-automated task. In this dissertation, we propose multi-dimensional subsequence queries with wildcards and gap-size constraints (mswg-queries) as an expressive query model for sequence data. These queries consist of a query string s over an alphabet of variables and types, as well as a global window size w and a tuple c of local gap-size constraints. A query matches a trace t, i.e., a sequence of events, if the variables in s can be replaced by single types in such a way that the resulting string s' occurs as a subsequence in t that spans an area of at most w events, and the distance between consecutive positions in the subsequence conforms with c. We study the task of discovering an mswg-query that describes best a given sample, i.e. a finite set of traces. For that, we provide an algorithm solving this problem, and investigate its complexity. Our analysis identifies the subroutine for solving the matching problem (i.e., deciding whether a given query q matches in a given trace t) as the only potential bottleneck. We propose extensions of mswg-queries for the one-dimensional setting, namely, subsequence queries with generalised gap-size constraints (swgg-queries) and disjunctive subsequence queries (dswg-queries), and discuss how the aforementioned algorithm can be adapted to compute swgg- and dswg-queries that describes best a sample. The formal results are complemented by a description of our prototypical implementation of query discovery and an experimental evaluation based on both, synthetic and real-world data. | |
650 | 0 | 7 | |a Data Mining |0 (DE-588)4428654-5 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Datenbanksystem |0 (DE-588)4113276-2 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Informationssystem |0 (DE-588)4072806-7 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Wissensextraktion |0 (DE-588)4546354-2 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Abfrageverarbeitung |0 (DE-588)4378490-2 |2 gnd |9 rswk-swf |
655 | 7 | |0 (DE-588)4113937-9 |a Hochschulschrift |2 gnd-content | |
689 | 0 | 0 | |a Abfrageverarbeitung |0 (DE-588)4378490-2 |D s |
689 | 0 | |5 DE-604 | |
689 | 1 | 0 | |a Wissensextraktion |0 (DE-588)4546354-2 |D s |
689 | 1 | |5 DE-604 | |
689 | 2 | 0 | |a Data Mining |0 (DE-588)4428654-5 |D s |
689 | 2 | |5 DE-604 | |
689 | 3 | 0 | |a Informationssystem |0 (DE-588)4072806-7 |D s |
689 | 3 | |5 DE-604 | |
689 | 4 | 0 | |a Datenbanksystem |0 (DE-588)4113276-2 |D s |
689 | 4 | |5 DE-604 | |
776 | 0 | 8 | |i Erscheint auch als |n Online-Ausgabe |a Kleest-Meißner, Sarah |t Exploring the complexity of event query discovery |o 10.18452/30007 |o urn:nbn:de:kobv:11-110-18452/30581-5 |w (DE-604)BV049954426 |
856 | 4 | 1 | |u http://edoc.hu-berlin.de/18452/30581 |x Verlag |z kostenfrei |3 Volltext |
883 | 0 | |8 1\p |a emakn |c 0,10938 |d 20241119 |q DE-101 |u https://d-nb.info/provenance/plan#emakn | |
883 | 0 | |8 2\p |a emasg |c 0,61401 |d 20241119 |q DE-101 |u https://d-nb.info/provenance/plan#emasg | |
912 | |a ebook | ||
943 | 1 | |a oai:aleph.bib-bvb.de:BVB01-035379622 |
Datensatz im Suchindex
_version_ | 1822490596284039169 |
---|---|
adam_text | |
any_adam_object | |
author | Kleest-Meißner, Sarah |
author_GND | (DE-588)1348426403 |
author_facet | Kleest-Meißner, Sarah |
author_role | aut |
author_sort | Kleest-Meißner, Sarah |
author_variant | s k m skm |
building | Verbundindex |
bvnumber | BV050041905 |
classification_rvk | ST 134 ST 265 |
collection | ebook |
ctrlnum | (OCoLC)1477613460 (DE-599)BVBBV050041905 |
discipline | Informatik |
format | Thesis Book |
fullrecord | <?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>00000nam a2200000 c 4500</leader><controlfield tag="001">BV050041905</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20241129</controlfield><controlfield tag="007">t|</controlfield><controlfield tag="008">241125s2024 xx a||| m||| 00||| eng d</controlfield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)1477613460</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)BVBBV050041905</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield><subfield code="e">rda</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">eng</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-11</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 134</subfield><subfield code="0">(DE-625)143590:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 265</subfield><subfield code="0">(DE-625)143634:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="8">1\p</subfield><subfield code="a">005.74</subfield><subfield code="2">23ksdnb</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="8">2\p</subfield><subfield code="a">004</subfield><subfield code="2">23sdnb</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Kleest-Meißner, Sarah</subfield><subfield code="e">Verfasser</subfield><subfield code="0">(DE-588)1348426403</subfield><subfield code="4">aut</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">Exploring the complexity of event query discovery</subfield><subfield code="c">von Sarah Kleest-Meißner, Master of Science</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">Berlin</subfield><subfield code="c">[2024?]</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">xv, 151 Seiten</subfield><subfield code="b">Illustrationen, Diagramme (farbig)</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="500" ind1=" " ind2=" "><subfield code="a">Tag der mündlichen Prüfung: 10.09.2024</subfield></datafield><datafield tag="500" ind1=" " ind2=" "><subfield code="a">Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache.</subfield></datafield><datafield tag="502" ind1=" " ind2=" "><subfield code="b">Dissertation</subfield><subfield code="c">Humboldt-Universität zu Berlin</subfield><subfield code="d">2024</subfield></datafield><datafield tag="520" ind1="8" ind2=" "><subfield code="a">Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen solche Anfragen zunächst definiert werden. Diese komplexe Aufgabe wird zumeist nicht automatisiert gelöst. In dieser Dissertation behandeln wir multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken als Anfragesprache für sequentielle Daten. Anfragen bestehen aus einer Zeichenkette s über einem Alphabet aus Symbolen und Variablen, einem globalen Fenster w und einem Tupel c aus lokalen Lückenbeschränkungen. Eine Anfrage passt zu einer Folge t über der Menge an Symbolen, falls die in s vorkommenden Variablen so durch einzelne Symbole ersetzt werden können, dass die daraus resultierende Zeichenkette s' als Teilfolge in t vorkommt. Die Gesamtlänge des Vorkommens darf dabei nicht mehr als w Events umfassen und die Distanz zwischen konsekutiven Positionen der Teilfolge muss c entsprechen. Wir untersuchen, wie zu einer Menge von Folgen S eine Anfrage gefunden werden kann, die S bestmöglich beschreibt (Suchproblem). Wir geben einen Algorithmus an, der dieses Problem löst, und analysieren dessen Komplexität. Zu entscheiden, ob eine Anfrage zu einer Folge passt (Matchingproblem), dominiert die Laufzeit des Algorithmus. Wir führen disjunktive multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken, sowie multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und verallgemeinerten beschränkten Lücken als Erweiterungen ein, und passen den oben genannter Algorithmus an, um das Suchproblem für diese Anfragemodelle zu lösen. [...]</subfield></datafield><datafield tag="520" ind1="8" ind2=" "><subfield code="a">Englische Version: Sequence data are (usually temporally) ordered finite or infinite streams over events that are instances of a multi-dimensional schema. Systems which deal with sequence data usually use queries to detect situations of interest. However, finding such queries from historical sequence data is notoriously hard and is often assumed to be a non-automated task. In this dissertation, we propose multi-dimensional subsequence queries with wildcards and gap-size constraints (mswg-queries) as an expressive query model for sequence data. These queries consist of a query string s over an alphabet of variables and types, as well as a global window size w and a tuple c of local gap-size constraints. A query matches a trace t, i.e., a sequence of events, if the variables in s can be replaced by single types in such a way that the resulting string s' occurs as a subsequence in t that spans an area of at most w events, and the distance between consecutive positions in the subsequence conforms with c. We study the task of discovering an mswg-query that describes best a given sample, i.e. a finite set of traces. For that, we provide an algorithm solving this problem, and investigate its complexity. Our analysis identifies the subroutine for solving the matching problem (i.e., deciding whether a given query q matches in a given trace t) as the only potential bottleneck. We propose extensions of mswg-queries for the one-dimensional setting, namely, subsequence queries with generalised gap-size constraints (swgg-queries) and disjunctive subsequence queries (dswg-queries), and discuss how the aforementioned algorithm can be adapted to compute swgg- and dswg-queries that describes best a sample. The formal results are complemented by a description of our prototypical implementation of query discovery and an experimental evaluation based on both, synthetic and real-world data.</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Data Mining</subfield><subfield code="0">(DE-588)4428654-5</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Datenbanksystem</subfield><subfield code="0">(DE-588)4113276-2</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Informationssystem</subfield><subfield code="0">(DE-588)4072806-7</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Wissensextraktion</subfield><subfield code="0">(DE-588)4546354-2</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Abfrageverarbeitung</subfield><subfield code="0">(DE-588)4378490-2</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="655" ind1=" " ind2="7"><subfield code="0">(DE-588)4113937-9</subfield><subfield code="a">Hochschulschrift</subfield><subfield code="2">gnd-content</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Abfrageverarbeitung</subfield><subfield code="0">(DE-588)4378490-2</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="1" ind2="0"><subfield code="a">Wissensextraktion</subfield><subfield code="0">(DE-588)4546354-2</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="1" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="2" ind2="0"><subfield code="a">Data Mining</subfield><subfield code="0">(DE-588)4428654-5</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="2" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="3" ind2="0"><subfield code="a">Informationssystem</subfield><subfield code="0">(DE-588)4072806-7</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="3" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="4" ind2="0"><subfield code="a">Datenbanksystem</subfield><subfield code="0">(DE-588)4113276-2</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="4" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="776" ind1="0" ind2="8"><subfield code="i">Erscheint auch als</subfield><subfield code="n">Online-Ausgabe</subfield><subfield code="a">Kleest-Meißner, Sarah</subfield><subfield code="t">Exploring the complexity of event query discovery</subfield><subfield code="o">10.18452/30007</subfield><subfield code="o">urn:nbn:de:kobv:11-110-18452/30581-5</subfield><subfield code="w">(DE-604)BV049954426</subfield></datafield><datafield tag="856" ind1="4" ind2="1"><subfield code="u">http://edoc.hu-berlin.de/18452/30581</subfield><subfield code="x">Verlag</subfield><subfield code="z">kostenfrei</subfield><subfield code="3">Volltext</subfield></datafield><datafield tag="883" ind1="0" ind2=" "><subfield code="8">1\p</subfield><subfield code="a">emakn</subfield><subfield code="c">0,10938</subfield><subfield code="d">20241119</subfield><subfield code="q">DE-101</subfield><subfield code="u">https://d-nb.info/provenance/plan#emakn</subfield></datafield><datafield tag="883" ind1="0" ind2=" "><subfield code="8">2\p</subfield><subfield code="a">emasg</subfield><subfield code="c">0,61401</subfield><subfield code="d">20241119</subfield><subfield code="q">DE-101</subfield><subfield code="u">https://d-nb.info/provenance/plan#emasg</subfield></datafield><datafield tag="912" ind1=" " ind2=" "><subfield code="a">ebook</subfield></datafield><datafield tag="943" ind1="1" ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-035379622</subfield></datafield></record></collection> |
genre | (DE-588)4113937-9 Hochschulschrift gnd-content |
genre_facet | Hochschulschrift |
id | DE-604.BV050041905 |
illustrated | Illustrated |
indexdate | 2025-01-28T11:07:53Z |
institution | BVB |
language | English |
oai_aleph_id | oai:aleph.bib-bvb.de:BVB01-035379622 |
oclc_num | 1477613460 |
open_access_boolean | 1 |
owner | DE-11 |
owner_facet | DE-11 |
physical | xv, 151 Seiten Illustrationen, Diagramme (farbig) |
psigel | ebook |
publishDate | 2024 |
publishDateSearch | 2024 |
publishDateSort | 2024 |
record_format | marc |
spelling | Kleest-Meißner, Sarah Verfasser (DE-588)1348426403 aut Exploring the complexity of event query discovery von Sarah Kleest-Meißner, Master of Science Berlin [2024?] xv, 151 Seiten Illustrationen, Diagramme (farbig) txt rdacontent n rdamedia nc rdacarrier Tag der mündlichen Prüfung: 10.09.2024 Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache. Dissertation Humboldt-Universität zu Berlin 2024 Sequentielle Daten sind meist zeitlich geordnete (un)endliche Datenströme von Events über einem multi-dimensionalen Eventschema. Systeme über sequentiellen Daten nutzen Anfragen, um Zusammenhänge von besonderem Interesse in sequentiellen Daten zu beschreiben. Basierend auf historischen Daten müssen solche Anfragen zunächst definiert werden. Diese komplexe Aufgabe wird zumeist nicht automatisiert gelöst. In dieser Dissertation behandeln wir multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken als Anfragesprache für sequentielle Daten. Anfragen bestehen aus einer Zeichenkette s über einem Alphabet aus Symbolen und Variablen, einem globalen Fenster w und einem Tupel c aus lokalen Lückenbeschränkungen. Eine Anfrage passt zu einer Folge t über der Menge an Symbolen, falls die in s vorkommenden Variablen so durch einzelne Symbole ersetzt werden können, dass die daraus resultierende Zeichenkette s' als Teilfolge in t vorkommt. Die Gesamtlänge des Vorkommens darf dabei nicht mehr als w Events umfassen und die Distanz zwischen konsekutiven Positionen der Teilfolge muss c entsprechen. Wir untersuchen, wie zu einer Menge von Folgen S eine Anfrage gefunden werden kann, die S bestmöglich beschreibt (Suchproblem). Wir geben einen Algorithmus an, der dieses Problem löst, und analysieren dessen Komplexität. Zu entscheiden, ob eine Anfrage zu einer Folge passt (Matchingproblem), dominiert die Laufzeit des Algorithmus. Wir führen disjunktive multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und beschränkten Lücken, sowie multi-dimensionale Teilfolge-Anfragen mit Platzhaltern und verallgemeinerten beschränkten Lücken als Erweiterungen ein, und passen den oben genannter Algorithmus an, um das Suchproblem für diese Anfragemodelle zu lösen. [...] Englische Version: Sequence data are (usually temporally) ordered finite or infinite streams over events that are instances of a multi-dimensional schema. Systems which deal with sequence data usually use queries to detect situations of interest. However, finding such queries from historical sequence data is notoriously hard and is often assumed to be a non-automated task. In this dissertation, we propose multi-dimensional subsequence queries with wildcards and gap-size constraints (mswg-queries) as an expressive query model for sequence data. These queries consist of a query string s over an alphabet of variables and types, as well as a global window size w and a tuple c of local gap-size constraints. A query matches a trace t, i.e., a sequence of events, if the variables in s can be replaced by single types in such a way that the resulting string s' occurs as a subsequence in t that spans an area of at most w events, and the distance between consecutive positions in the subsequence conforms with c. We study the task of discovering an mswg-query that describes best a given sample, i.e. a finite set of traces. For that, we provide an algorithm solving this problem, and investigate its complexity. Our analysis identifies the subroutine for solving the matching problem (i.e., deciding whether a given query q matches in a given trace t) as the only potential bottleneck. We propose extensions of mswg-queries for the one-dimensional setting, namely, subsequence queries with generalised gap-size constraints (swgg-queries) and disjunctive subsequence queries (dswg-queries), and discuss how the aforementioned algorithm can be adapted to compute swgg- and dswg-queries that describes best a sample. The formal results are complemented by a description of our prototypical implementation of query discovery and an experimental evaluation based on both, synthetic and real-world data. Data Mining (DE-588)4428654-5 gnd rswk-swf Datenbanksystem (DE-588)4113276-2 gnd rswk-swf Informationssystem (DE-588)4072806-7 gnd rswk-swf Wissensextraktion (DE-588)4546354-2 gnd rswk-swf Abfrageverarbeitung (DE-588)4378490-2 gnd rswk-swf (DE-588)4113937-9 Hochschulschrift gnd-content Abfrageverarbeitung (DE-588)4378490-2 s DE-604 Wissensextraktion (DE-588)4546354-2 s Data Mining (DE-588)4428654-5 s Informationssystem (DE-588)4072806-7 s Datenbanksystem (DE-588)4113276-2 s Erscheint auch als Online-Ausgabe Kleest-Meißner, Sarah Exploring the complexity of event query discovery 10.18452/30007 urn:nbn:de:kobv:11-110-18452/30581-5 (DE-604)BV049954426 http://edoc.hu-berlin.de/18452/30581 Verlag kostenfrei Volltext 1\p emakn 0,10938 20241119 DE-101 https://d-nb.info/provenance/plan#emakn 2\p emasg 0,61401 20241119 DE-101 https://d-nb.info/provenance/plan#emasg |
spellingShingle | Kleest-Meißner, Sarah Exploring the complexity of event query discovery Data Mining (DE-588)4428654-5 gnd Datenbanksystem (DE-588)4113276-2 gnd Informationssystem (DE-588)4072806-7 gnd Wissensextraktion (DE-588)4546354-2 gnd Abfrageverarbeitung (DE-588)4378490-2 gnd |
subject_GND | (DE-588)4428654-5 (DE-588)4113276-2 (DE-588)4072806-7 (DE-588)4546354-2 (DE-588)4378490-2 (DE-588)4113937-9 |
title | Exploring the complexity of event query discovery |
title_auth | Exploring the complexity of event query discovery |
title_exact_search | Exploring the complexity of event query discovery |
title_full | Exploring the complexity of event query discovery von Sarah Kleest-Meißner, Master of Science |
title_fullStr | Exploring the complexity of event query discovery von Sarah Kleest-Meißner, Master of Science |
title_full_unstemmed | Exploring the complexity of event query discovery von Sarah Kleest-Meißner, Master of Science |
title_short | Exploring the complexity of event query discovery |
title_sort | exploring the complexity of event query discovery |
topic | Data Mining (DE-588)4428654-5 gnd Datenbanksystem (DE-588)4113276-2 gnd Informationssystem (DE-588)4072806-7 gnd Wissensextraktion (DE-588)4546354-2 gnd Abfrageverarbeitung (DE-588)4378490-2 gnd |
topic_facet | Data Mining Datenbanksystem Informationssystem Wissensextraktion Abfrageverarbeitung Hochschulschrift |
url | http://edoc.hu-berlin.de/18452/30581 |
work_keys_str_mv | AT kleestmeißnersarah exploringthecomplexityofeventquerydiscovery |