Representation learning for biomedical text mining:
Die Untersuchung von Beziehungen zwischen biomedizinischen Entitäten bildet einen Eckpfeiler der modernen Medizin. Angesichts der rasanten Zunahme der Forschungsliteratur wird es jedoch zunehmend schwieriger, durch bloßes Lesen umfassende Informationen über bestimmte Entitäten und deren Beziehungen...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Abschlussarbeit Buch |
Sprache: | English |
Veröffentlicht: |
Berlin
[2024?]
|
Schlagworte: | |
Online-Zugang: | Volltext |
Zusammenfassung: | Die Untersuchung von Beziehungen zwischen biomedizinischen Entitäten bildet einen Eckpfeiler der modernen Medizin. Angesichts der rasanten Zunahme der Forschungsliteratur wird es jedoch zunehmend schwieriger, durch bloßes Lesen umfassende Informationen über bestimmte Entitäten und deren Beziehungen zu gewinnen. Text-Mining Ansätze versuchen, die Verarbeitung dieser riesigen Datenmengen mit Hilfe von Maschinellen Lernen zu erleichtern. Wir tragen zu dieser Forschung bei indem wir Methoden zum Erlernen von Entitäts- und Textrepräsentationen auf Basis großer Publikations- und Wissensdatenbanken entwickeln. Als erstes schlagen wir zwei neuartige Ansätze zur Relationsextraktion vor, die Techniken des Representation Learnings nutzen, um umfassende Modelle biomedizinischer Entitäten und Entitätspaaren zu lernen. Diese Modelle lernen Vektorrepräsentationen, indem sie alle PubMed-Artikel berücksichtigen, die eine bestimmte Entität oder ein Entitätspaar erwähnen. Wir verwenden diese Vektoren als Eingabe für ein neuronales Netzwerk, um Relationen global zu klassifizieren, d. h. die Vorhersagen basieren auf dem gesamten Korpus und nicht auf einzelnen Sätzen oder Artikeln wie in konventionellen Ansätzen. In unserem zweiten Beitrag untersuchen wir die Auswirkungen multimodaler Entitätsinformationen auf die Vorhersage von Relationen mithilfe von Knowledge Graph Embedding Methoden. In unserer Studie erweitern wir bestehende Modelle, indem wir Wissensgraphen mit multimodalen Informationen anreichern. Ferner schlagen wir ein allgemeines Framework für die Integration dieser Informationen in den Lernprozess für Entitätsrepräsentationen vor. In unserem dritten Beitrag erweitern wir Sprachmodelle mit zusätzlichen Entitätsinformationen für die Identifikation von Relationen in Texten. [...] Englische Version: With the rapid growth of biomedical literature, obtaining comprehensive information regarding particular biomedical entities and relations by only reading is becoming increasingly difficult. Text mining approaches seek to facilitate processing these vast amounts of text using machine learning. This renders effective and efficient encoding of all relevant information regarding specific entities as one central challenge in these approaches. In this thesis, we contribute to this research by developing machine learning methods for learning entity and text representations based on large-scale publication repositories and diverse information from in-domain knowledge bases. First, we propose two novel relation extraction approaches that use representation learning techniques to create comprehensive models of entities or entity pairs. These models learn low-dimensional embeddings by considering all publications from PubMed mentioning a specific entity or pair of entities. We use these embeddings as input for a neural network to classify relations globally, i.e., predictions are based on the entire corpus, not on single sentences or articles as in prior art. In our second contribution, we investigate the impact of multi-modal entity information for biomedical link prediction using knowledge graph embedding methods (KGEM). Our study enhances existing KGEMs by augmenting biomedical knowledge graphs with multi-modal entity information from in-domain databases. We propose a general framework for integrating this information into the KGEM entity representation learning process. In our third contribution, we augment pre-trained language models (PLM) with additional context information to identify interactions described in scientific texts. [...] |
Beschreibung: | Datum der Disputation: 25.11.2024 Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache. |
Beschreibung: | XI, 162 Seiten Illustrationen, Diagramme (farbig) |
Internformat
MARC
LEADER | 00000nam a2200000 c 4500 | ||
---|---|---|---|
001 | BV050128157 | ||
003 | DE-604 | ||
005 | 20250129 | ||
007 | t| | ||
008 | 250120s2024 xx a||| m||| 00||| eng d | ||
035 | |a (OCoLC)1492108756 | ||
035 | |a (DE-599)BVBBV050128157 | ||
040 | |a DE-604 |b ger |e rda | ||
041 | 0 | |a eng | |
049 | |a DE-11 | ||
084 | |a ST 306 |0 (DE-625)143654: |2 rvk | ||
084 | |a WC 7700 |0 (DE-625)148144: |2 rvk | ||
084 | |8 1\p |a 610.28 |2 23ksdnb | ||
084 | |8 2\p |a 610 |2 23sdnb | ||
100 | 1 | |a Sänger, Mario |e Verfasser |0 (DE-588)1353071162 |4 aut | |
245 | 1 | 0 | |a Representation learning for biomedical text mining |c von M.Sc. Mario Sänger |
264 | 1 | |a Berlin |c [2024?] | |
300 | |a XI, 162 Seiten |b Illustrationen, Diagramme (farbig) | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
338 | |b nc |2 rdacarrier | ||
500 | |a Datum der Disputation: 25.11.2024 | ||
500 | |a Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache. | ||
502 | |b Dissertation |c Humboldt-Universität zu Berlin |d 2024 | ||
520 | 8 | |a Die Untersuchung von Beziehungen zwischen biomedizinischen Entitäten bildet einen Eckpfeiler der modernen Medizin. Angesichts der rasanten Zunahme der Forschungsliteratur wird es jedoch zunehmend schwieriger, durch bloßes Lesen umfassende Informationen über bestimmte Entitäten und deren Beziehungen zu gewinnen. Text-Mining Ansätze versuchen, die Verarbeitung dieser riesigen Datenmengen mit Hilfe von Maschinellen Lernen zu erleichtern. Wir tragen zu dieser Forschung bei indem wir Methoden zum Erlernen von Entitäts- und Textrepräsentationen auf Basis großer Publikations- und Wissensdatenbanken entwickeln. Als erstes schlagen wir zwei neuartige Ansätze zur Relationsextraktion vor, die Techniken des Representation Learnings nutzen, um umfassende Modelle biomedizinischer Entitäten und Entitätspaaren zu lernen. Diese Modelle lernen Vektorrepräsentationen, indem sie alle PubMed-Artikel berücksichtigen, die eine bestimmte Entität oder ein Entitätspaar erwähnen. Wir verwenden diese Vektoren als Eingabe für ein neuronales Netzwerk, um Relationen global zu klassifizieren, d. h. die Vorhersagen basieren auf dem gesamten Korpus und nicht auf einzelnen Sätzen oder Artikeln wie in konventionellen Ansätzen. In unserem zweiten Beitrag untersuchen wir die Auswirkungen multimodaler Entitätsinformationen auf die Vorhersage von Relationen mithilfe von Knowledge Graph Embedding Methoden. In unserer Studie erweitern wir bestehende Modelle, indem wir Wissensgraphen mit multimodalen Informationen anreichern. Ferner schlagen wir ein allgemeines Framework für die Integration dieser Informationen in den Lernprozess für Entitätsrepräsentationen vor. In unserem dritten Beitrag erweitern wir Sprachmodelle mit zusätzlichen Entitätsinformationen für die Identifikation von Relationen in Texten. [...] | |
520 | 8 | |a Englische Version: With the rapid growth of biomedical literature, obtaining comprehensive information regarding particular biomedical entities and relations by only reading is becoming increasingly difficult. Text mining approaches seek to facilitate processing these vast amounts of text using machine learning. This renders effective and efficient encoding of all relevant information regarding specific entities as one central challenge in these approaches. In this thesis, we contribute to this research by developing machine learning methods for learning entity and text representations based on large-scale publication repositories and diverse information from in-domain knowledge bases. First, we propose two novel relation extraction approaches that use representation learning techniques to create comprehensive models of entities or entity pairs. These models learn low-dimensional embeddings by considering all publications from PubMed mentioning a specific entity or pair of entities. We use these embeddings as input for a neural network to classify relations globally, i.e., predictions are based on the entire corpus, not on single sentences or articles as in prior art. In our second contribution, we investigate the impact of multi-modal entity information for biomedical link prediction using knowledge graph embedding methods (KGEM). Our study enhances existing KGEMs by augmenting biomedical knowledge graphs with multi-modal entity information from in-domain databases. We propose a general framework for integrating this information into the KGEM entity representation learning process. In our third contribution, we augment pre-trained language models (PLM) with additional context information to identify interactions described in scientific texts. [...] | |
650 | 0 | 7 | |a Data Mining |0 (DE-588)4428654-5 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Wissensextraktion |0 (DE-588)4546354-2 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Wissensrepräsentation |0 (DE-588)4049534-6 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Biomedizin |0 (DE-588)4647152-2 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Text Mining |0 (DE-588)4728093-1 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Maschinelles Lernen |0 (DE-588)4193754-5 |2 gnd |9 rswk-swf |
655 | 7 | |0 (DE-588)4113937-9 |a Hochschulschrift |2 gnd-content | |
689 | 0 | 0 | |a Maschinelles Lernen |0 (DE-588)4193754-5 |D s |
689 | 0 | |5 DE-604 | |
689 | 1 | 0 | |a Data Mining |0 (DE-588)4428654-5 |D s |
689 | 1 | |5 DE-604 | |
689 | 2 | 0 | |a Biomedizin |0 (DE-588)4647152-2 |D s |
689 | 2 | |5 DE-604 | |
689 | 3 | 0 | |a Wissensrepräsentation |0 (DE-588)4049534-6 |D s |
689 | 3 | |5 DE-604 | |
689 | 4 | 0 | |a Wissensextraktion |0 (DE-588)4546354-2 |D s |
689 | 4 | |5 DE-604 | |
689 | 5 | 0 | |a Text Mining |0 (DE-588)4728093-1 |D s |
689 | 5 | |5 DE-604 | |
776 | 0 | 8 | |i Erscheint auch als |n Online-Ausgabe |a Sänger, Mario |t Representation learning for biomedical text mining |o 10.18452/30831 |o urn:nbn:de:kobv:11-110-18452/31420-5 |w (DE-604)BV050116086 |
856 | 4 | 1 | |u http://edoc.hu-berlin.de/18452/31420 |x Verlag |z kostenfrei |3 Volltext |
883 | 0 | |8 1\p |a emakn |c 0,72892 |d 20250114 |q DE-101 |u https://d-nb.info/provenance/plan#emakn | |
883 | 0 | |8 2\p |a emasg |c 0,46080 |d 20250114 |q DE-101 |u https://d-nb.info/provenance/plan#emasg | |
912 | |a ebook | ||
943 | 1 | |a oai:aleph.bib-bvb.de:BVB01-035464917 |
Datensatz im Suchindex
_version_ | 1823676096865894400 |
---|---|
adam_text | |
any_adam_object | |
author | Sänger, Mario |
author_GND | (DE-588)1353071162 |
author_facet | Sänger, Mario |
author_role | aut |
author_sort | Sänger, Mario |
author_variant | m s ms |
building | Verbundindex |
bvnumber | BV050128157 |
classification_rvk | ST 306 WC 7700 |
collection | ebook |
ctrlnum | (OCoLC)1492108756 (DE-599)BVBBV050128157 |
discipline | Biologie Informatik |
format | Thesis Book |
fullrecord | <?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>00000nam a2200000 c 4500</leader><controlfield tag="001">BV050128157</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20250129</controlfield><controlfield tag="007">t|</controlfield><controlfield tag="008">250120s2024 xx a||| m||| 00||| eng d</controlfield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)1492108756</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)BVBBV050128157</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield><subfield code="e">rda</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">eng</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-11</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 306</subfield><subfield code="0">(DE-625)143654:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">WC 7700</subfield><subfield code="0">(DE-625)148144:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="8">1\p</subfield><subfield code="a">610.28</subfield><subfield code="2">23ksdnb</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="8">2\p</subfield><subfield code="a">610</subfield><subfield code="2">23sdnb</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Sänger, Mario</subfield><subfield code="e">Verfasser</subfield><subfield code="0">(DE-588)1353071162</subfield><subfield code="4">aut</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">Representation learning for biomedical text mining</subfield><subfield code="c">von M.Sc. Mario Sänger</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">Berlin</subfield><subfield code="c">[2024?]</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">XI, 162 Seiten</subfield><subfield code="b">Illustrationen, Diagramme (farbig)</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="500" ind1=" " ind2=" "><subfield code="a">Datum der Disputation: 25.11.2024</subfield></datafield><datafield tag="500" ind1=" " ind2=" "><subfield code="a">Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache.</subfield></datafield><datafield tag="502" ind1=" " ind2=" "><subfield code="b">Dissertation</subfield><subfield code="c">Humboldt-Universität zu Berlin</subfield><subfield code="d">2024</subfield></datafield><datafield tag="520" ind1="8" ind2=" "><subfield code="a">Die Untersuchung von Beziehungen zwischen biomedizinischen Entitäten bildet einen Eckpfeiler der modernen Medizin. Angesichts der rasanten Zunahme der Forschungsliteratur wird es jedoch zunehmend schwieriger, durch bloßes Lesen umfassende Informationen über bestimmte Entitäten und deren Beziehungen zu gewinnen. Text-Mining Ansätze versuchen, die Verarbeitung dieser riesigen Datenmengen mit Hilfe von Maschinellen Lernen zu erleichtern. Wir tragen zu dieser Forschung bei indem wir Methoden zum Erlernen von Entitäts- und Textrepräsentationen auf Basis großer Publikations- und Wissensdatenbanken entwickeln. Als erstes schlagen wir zwei neuartige Ansätze zur Relationsextraktion vor, die Techniken des Representation Learnings nutzen, um umfassende Modelle biomedizinischer Entitäten und Entitätspaaren zu lernen. Diese Modelle lernen Vektorrepräsentationen, indem sie alle PubMed-Artikel berücksichtigen, die eine bestimmte Entität oder ein Entitätspaar erwähnen. Wir verwenden diese Vektoren als Eingabe für ein neuronales Netzwerk, um Relationen global zu klassifizieren, d. h. die Vorhersagen basieren auf dem gesamten Korpus und nicht auf einzelnen Sätzen oder Artikeln wie in konventionellen Ansätzen. In unserem zweiten Beitrag untersuchen wir die Auswirkungen multimodaler Entitätsinformationen auf die Vorhersage von Relationen mithilfe von Knowledge Graph Embedding Methoden. In unserer Studie erweitern wir bestehende Modelle, indem wir Wissensgraphen mit multimodalen Informationen anreichern. Ferner schlagen wir ein allgemeines Framework für die Integration dieser Informationen in den Lernprozess für Entitätsrepräsentationen vor. In unserem dritten Beitrag erweitern wir Sprachmodelle mit zusätzlichen Entitätsinformationen für die Identifikation von Relationen in Texten. [...]</subfield></datafield><datafield tag="520" ind1="8" ind2=" "><subfield code="a">Englische Version: With the rapid growth of biomedical literature, obtaining comprehensive information regarding particular biomedical entities and relations by only reading is becoming increasingly difficult. Text mining approaches seek to facilitate processing these vast amounts of text using machine learning. This renders effective and efficient encoding of all relevant information regarding specific entities as one central challenge in these approaches. In this thesis, we contribute to this research by developing machine learning methods for learning entity and text representations based on large-scale publication repositories and diverse information from in-domain knowledge bases. First, we propose two novel relation extraction approaches that use representation learning techniques to create comprehensive models of entities or entity pairs. These models learn low-dimensional embeddings by considering all publications from PubMed mentioning a specific entity or pair of entities. We use these embeddings as input for a neural network to classify relations globally, i.e., predictions are based on the entire corpus, not on single sentences or articles as in prior art. In our second contribution, we investigate the impact of multi-modal entity information for biomedical link prediction using knowledge graph embedding methods (KGEM). Our study enhances existing KGEMs by augmenting biomedical knowledge graphs with multi-modal entity information from in-domain databases. We propose a general framework for integrating this information into the KGEM entity representation learning process. In our third contribution, we augment pre-trained language models (PLM) with additional context information to identify interactions described in scientific texts. [...]</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Data Mining</subfield><subfield code="0">(DE-588)4428654-5</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Wissensextraktion</subfield><subfield code="0">(DE-588)4546354-2</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Wissensrepräsentation</subfield><subfield code="0">(DE-588)4049534-6</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Biomedizin</subfield><subfield code="0">(DE-588)4647152-2</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Text Mining</subfield><subfield code="0">(DE-588)4728093-1</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Maschinelles Lernen</subfield><subfield code="0">(DE-588)4193754-5</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="655" ind1=" " ind2="7"><subfield code="0">(DE-588)4113937-9</subfield><subfield code="a">Hochschulschrift</subfield><subfield code="2">gnd-content</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Maschinelles Lernen</subfield><subfield code="0">(DE-588)4193754-5</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="1" ind2="0"><subfield code="a">Data Mining</subfield><subfield code="0">(DE-588)4428654-5</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="1" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="2" ind2="0"><subfield code="a">Biomedizin</subfield><subfield code="0">(DE-588)4647152-2</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="2" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="3" ind2="0"><subfield code="a">Wissensrepräsentation</subfield><subfield code="0">(DE-588)4049534-6</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="3" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="4" ind2="0"><subfield code="a">Wissensextraktion</subfield><subfield code="0">(DE-588)4546354-2</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="4" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="5" ind2="0"><subfield code="a">Text Mining</subfield><subfield code="0">(DE-588)4728093-1</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="5" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="776" ind1="0" ind2="8"><subfield code="i">Erscheint auch als</subfield><subfield code="n">Online-Ausgabe</subfield><subfield code="a">Sänger, Mario</subfield><subfield code="t">Representation learning for biomedical text mining</subfield><subfield code="o">10.18452/30831</subfield><subfield code="o">urn:nbn:de:kobv:11-110-18452/31420-5</subfield><subfield code="w">(DE-604)BV050116086</subfield></datafield><datafield tag="856" ind1="4" ind2="1"><subfield code="u">http://edoc.hu-berlin.de/18452/31420</subfield><subfield code="x">Verlag</subfield><subfield code="z">kostenfrei</subfield><subfield code="3">Volltext</subfield></datafield><datafield tag="883" ind1="0" ind2=" "><subfield code="8">1\p</subfield><subfield code="a">emakn</subfield><subfield code="c">0,72892</subfield><subfield code="d">20250114</subfield><subfield code="q">DE-101</subfield><subfield code="u">https://d-nb.info/provenance/plan#emakn</subfield></datafield><datafield tag="883" ind1="0" ind2=" "><subfield code="8">2\p</subfield><subfield code="a">emasg</subfield><subfield code="c">0,46080</subfield><subfield code="d">20250114</subfield><subfield code="q">DE-101</subfield><subfield code="u">https://d-nb.info/provenance/plan#emasg</subfield></datafield><datafield tag="912" ind1=" " ind2=" "><subfield code="a">ebook</subfield></datafield><datafield tag="943" ind1="1" ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-035464917</subfield></datafield></record></collection> |
genre | (DE-588)4113937-9 Hochschulschrift gnd-content |
genre_facet | Hochschulschrift |
id | DE-604.BV050128157 |
illustrated | Illustrated |
indexdate | 2025-02-10T13:10:54Z |
institution | BVB |
language | English |
oai_aleph_id | oai:aleph.bib-bvb.de:BVB01-035464917 |
oclc_num | 1492108756 |
open_access_boolean | 1 |
owner | DE-11 |
owner_facet | DE-11 |
physical | XI, 162 Seiten Illustrationen, Diagramme (farbig) |
psigel | ebook |
publishDate | 2024 |
publishDateSearch | 2024 |
publishDateSort | 2024 |
record_format | marc |
spelling | Sänger, Mario Verfasser (DE-588)1353071162 aut Representation learning for biomedical text mining von M.Sc. Mario Sänger Berlin [2024?] XI, 162 Seiten Illustrationen, Diagramme (farbig) txt rdacontent n rdamedia nc rdacarrier Datum der Disputation: 25.11.2024 Der Text enthält eine Zusammenfassung in deutscher und englischer Sprache. Dissertation Humboldt-Universität zu Berlin 2024 Die Untersuchung von Beziehungen zwischen biomedizinischen Entitäten bildet einen Eckpfeiler der modernen Medizin. Angesichts der rasanten Zunahme der Forschungsliteratur wird es jedoch zunehmend schwieriger, durch bloßes Lesen umfassende Informationen über bestimmte Entitäten und deren Beziehungen zu gewinnen. Text-Mining Ansätze versuchen, die Verarbeitung dieser riesigen Datenmengen mit Hilfe von Maschinellen Lernen zu erleichtern. Wir tragen zu dieser Forschung bei indem wir Methoden zum Erlernen von Entitäts- und Textrepräsentationen auf Basis großer Publikations- und Wissensdatenbanken entwickeln. Als erstes schlagen wir zwei neuartige Ansätze zur Relationsextraktion vor, die Techniken des Representation Learnings nutzen, um umfassende Modelle biomedizinischer Entitäten und Entitätspaaren zu lernen. Diese Modelle lernen Vektorrepräsentationen, indem sie alle PubMed-Artikel berücksichtigen, die eine bestimmte Entität oder ein Entitätspaar erwähnen. Wir verwenden diese Vektoren als Eingabe für ein neuronales Netzwerk, um Relationen global zu klassifizieren, d. h. die Vorhersagen basieren auf dem gesamten Korpus und nicht auf einzelnen Sätzen oder Artikeln wie in konventionellen Ansätzen. In unserem zweiten Beitrag untersuchen wir die Auswirkungen multimodaler Entitätsinformationen auf die Vorhersage von Relationen mithilfe von Knowledge Graph Embedding Methoden. In unserer Studie erweitern wir bestehende Modelle, indem wir Wissensgraphen mit multimodalen Informationen anreichern. Ferner schlagen wir ein allgemeines Framework für die Integration dieser Informationen in den Lernprozess für Entitätsrepräsentationen vor. In unserem dritten Beitrag erweitern wir Sprachmodelle mit zusätzlichen Entitätsinformationen für die Identifikation von Relationen in Texten. [...] Englische Version: With the rapid growth of biomedical literature, obtaining comprehensive information regarding particular biomedical entities and relations by only reading is becoming increasingly difficult. Text mining approaches seek to facilitate processing these vast amounts of text using machine learning. This renders effective and efficient encoding of all relevant information regarding specific entities as one central challenge in these approaches. In this thesis, we contribute to this research by developing machine learning methods for learning entity and text representations based on large-scale publication repositories and diverse information from in-domain knowledge bases. First, we propose two novel relation extraction approaches that use representation learning techniques to create comprehensive models of entities or entity pairs. These models learn low-dimensional embeddings by considering all publications from PubMed mentioning a specific entity or pair of entities. We use these embeddings as input for a neural network to classify relations globally, i.e., predictions are based on the entire corpus, not on single sentences or articles as in prior art. In our second contribution, we investigate the impact of multi-modal entity information for biomedical link prediction using knowledge graph embedding methods (KGEM). Our study enhances existing KGEMs by augmenting biomedical knowledge graphs with multi-modal entity information from in-domain databases. We propose a general framework for integrating this information into the KGEM entity representation learning process. In our third contribution, we augment pre-trained language models (PLM) with additional context information to identify interactions described in scientific texts. [...] Data Mining (DE-588)4428654-5 gnd rswk-swf Wissensextraktion (DE-588)4546354-2 gnd rswk-swf Wissensrepräsentation (DE-588)4049534-6 gnd rswk-swf Biomedizin (DE-588)4647152-2 gnd rswk-swf Text Mining (DE-588)4728093-1 gnd rswk-swf Maschinelles Lernen (DE-588)4193754-5 gnd rswk-swf (DE-588)4113937-9 Hochschulschrift gnd-content Maschinelles Lernen (DE-588)4193754-5 s DE-604 Data Mining (DE-588)4428654-5 s Biomedizin (DE-588)4647152-2 s Wissensrepräsentation (DE-588)4049534-6 s Wissensextraktion (DE-588)4546354-2 s Text Mining (DE-588)4728093-1 s Erscheint auch als Online-Ausgabe Sänger, Mario Representation learning for biomedical text mining 10.18452/30831 urn:nbn:de:kobv:11-110-18452/31420-5 (DE-604)BV050116086 http://edoc.hu-berlin.de/18452/31420 Verlag kostenfrei Volltext 1\p emakn 0,72892 20250114 DE-101 https://d-nb.info/provenance/plan#emakn 2\p emasg 0,46080 20250114 DE-101 https://d-nb.info/provenance/plan#emasg |
spellingShingle | Sänger, Mario Representation learning for biomedical text mining Data Mining (DE-588)4428654-5 gnd Wissensextraktion (DE-588)4546354-2 gnd Wissensrepräsentation (DE-588)4049534-6 gnd Biomedizin (DE-588)4647152-2 gnd Text Mining (DE-588)4728093-1 gnd Maschinelles Lernen (DE-588)4193754-5 gnd |
subject_GND | (DE-588)4428654-5 (DE-588)4546354-2 (DE-588)4049534-6 (DE-588)4647152-2 (DE-588)4728093-1 (DE-588)4193754-5 (DE-588)4113937-9 |
title | Representation learning for biomedical text mining |
title_auth | Representation learning for biomedical text mining |
title_exact_search | Representation learning for biomedical text mining |
title_full | Representation learning for biomedical text mining von M.Sc. Mario Sänger |
title_fullStr | Representation learning for biomedical text mining von M.Sc. Mario Sänger |
title_full_unstemmed | Representation learning for biomedical text mining von M.Sc. Mario Sänger |
title_short | Representation learning for biomedical text mining |
title_sort | representation learning for biomedical text mining |
topic | Data Mining (DE-588)4428654-5 gnd Wissensextraktion (DE-588)4546354-2 gnd Wissensrepräsentation (DE-588)4049534-6 gnd Biomedizin (DE-588)4647152-2 gnd Text Mining (DE-588)4728093-1 gnd Maschinelles Lernen (DE-588)4193754-5 gnd |
topic_facet | Data Mining Wissensextraktion Wissensrepräsentation Biomedizin Text Mining Maschinelles Lernen Hochschulschrift |
url | http://edoc.hu-berlin.de/18452/31420 |
work_keys_str_mv | AT sangermario representationlearningforbiomedicaltextmining |