Title: | Learning Constructions of Natural Language: Statistical Models and Evaluations Luonnollisen kielen rakenteiden oppiminen: tilastollisia malleja ja evaluaatiomenetelmiä |
Author(s): | Virpioja, Sami |
Date: | 2012 |
Language: | en |
Pages: | 268 + app. 169 |
Department: | Tietojenkäsittelytieteen laitos Department of Information and Computer Science |
ISBN: | 978-952-60-4883-3 (electronic) 978-952-60-4882-6 (printed) |
Series: | Aalto University publication series DOCTORAL DISSERTATIONS, 158/2012 |
ISSN: | 1799-4942 (electronic) 1799-4934 (printed) 1799-4934 (ISSN-L) |
Supervising professor(s): | Oja, Erkki, Prof., Aalto University, Finland |
Thesis advisor(s): | Kurimo, Mikko, Doc., Aalto University, Finland; Lagus, Krista, Dr., Aalto University, Finland |
Subject: | Computer science |
Keywords: | morpheme segmentation, morphology induction, construction grammar, unsupervised learning, semi-supervised learning, probabilistic models, language models, vector space models, machine translation, speech recognition, morfeemipilkonta, morfologian oppiminen, konstruktiokielioppi, ohjaamaton oppiminen, osittain ohjattu oppiminen, todennäköisyysmallit, kielimallit, vektoriavaruusmallit, konekäännös, puheentunnistus |
OEVS yes | |
|
|
Abstract:Luonnollisen kielen automaattinen käsittely pohjautuu yhä suuremmassa määrin tilastollisten koneoppimismenetelmien käyttöön jatkuvasti lisääntyvälle elektroniselle teksti- ja puheaineistolle. Tyypillisiä sovelluksia tilatollisille menetelmille ovat esimerkiksi tiedonhaku, puheentunnistus ja konekäännös. Monet sovellusten osaongelmat ovat ratkaistavissa ilman kieliriippuvaisia resursseja, kuten annotoituja aineistoja, käyttämällä ohjaamatonta koneoppimista. Tämä väitöskirja keskittyy erityisesti yhteen tällaiseen ongelmaan: leksikaalisten perusyksiköiden valintaan. Käytettävien yksiköiden valinta on tekstiaineiston käsittelyn ensimmäinen askel ja edeltää esimerkiksi kielimallien estimointia tai vektoriesitysten laskemista. Perinteisiä ratkaisuja yksiköiden valintaan ovat yksinkertaiset heuristiikat sekä kieliopilliset sääntöpohjaiset työkalut. Niiden sijaan tässä työssä esitetään datalähtöistä, ohjaamattomaan oppimiseen perustuvaa lähestymistapaa yksiköiden valintaan. Sen etuina ovat joustavuus ja riippumattomuus siitä, mitä lingvistisiä resursseja halutulle kielelle ja sovellusalueelle on saatavilla. |
|
Parts:[Publication 1]: Vesa Siivola, Teemu Hirsimäki, and Sami Virpioja. On growing and pruning Kneser-Ney smoothed n-gram models. IEEE Transactions on Audio, Speech and Language Processing, 15(5):1617–1624, July 2007.[Publication 2]: Sami Virpioja and Mikko Kurimo. Compact n-gram models by incremental growing and clustering of histories. In Proceedings of 9th International Conference on Spoken Language Processing (Interspeech 2006 — ICSLP), Pittsburgh, Pennsylvania, USA, pages 1037–1040, September 2006.[Publication 3]: Sami Virpioja, Mari-Sanna Paukkeri, Abhishek Tripathi, Tiina Lindh-Knuutila, Krista Lagus. Evaluating vector space models with canonical correlation analysis. Natural Language Engineering, 18(03):399–436, July 2012.[Publication 4]: Sami Virpioja, Jaakko J. Vayrynen, Mathias Creutz, and Markus Sadeniemi. Morphology-aware statistical machine translation based on morphs induced in an unsupervised manner. Proceedings of the Machine Translation Summit XI, Copenhagen, Denmark, pages 491-498, September 2007.[Publication 5]: Adria de Gispert, Sami Virpioja, Mikko Kurimo, and William Byrne. Minimum Bayes risk combination of translation hypotheses from alternative morphological decompositions. Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, Boulder, Colorado, USA, pages 73-76, June 2009.[Publication 6]: Sami Virpioja, Ville T. Turunen, Sebastian Spiegler, Oskar Kohonen, and Mikko Kurimo. Empirical comparison of evaluation methods for unsupervised learning of morphology. Traitement Automatique des Langues, 52(2):45–90, 2011.[Publication 7]: Sami Virpioja, Minna Lehtonen, Annika Hulten, Riitta Salmelin, and Krista Lagus. Predicting reaction times in word recognition by unsupervised learning of morphology. In Artificial Neural Networks and Machine Learning—ICANN 2011, Espoo, Finland, June 14–17, 2011, Proceedings, Part I, volume 6791 of Lecture Notes in Computer Science, pages 275–282, June 2011.[Publication 8]: Sami Virpioja, Oskar Kohonen, and Krista Lagus. Unsupervised morpheme analysis with Allomorfessor. In Multilingual Information Access Evaluation I. Text Retrieval Experiments: 10th Workshop of the Cross-Language Evaluation Forum, CLEF 2009, Corfu, Greece, September 30 – October 2, 2009, Revised Selected Papers, volume 6241 of Lecture Notes in Computer Science, pages 609–616, September 2010.[Publication 9]: Sami Virpioja, Oskar Kohonen, and Krista Lagus. Evaluating the effect of word frequencies in a probabilistic generative model of morphology. In Proceedings of the 18th Nordic Conference of Computational Linguistics (NODALIDA 2011), Riga, Latvia, pages 230–237, May 2011.[Publication 10]: Oskar Kohonen, Sami Virpioja, and Krista Lagus. Semi-supervised learning of concatenative morphology. In Proceedings of the 11th Meeting of the ACL Special Interest Group on Computational Morphology and Phonology, Uppsala, Sweden, pages 78–86, July 2010.[Publication 11]: Krista Lagus, Oskar Kohonen, and Sami Virpioja. Towards unsupervised learning of constructions from text. In Proceedings of the Workshop on Extracting and Using Constructions in NLP of the 17th Nordic Conference on Computational Linguistics (NODALIDA), Odense, Denmark, SICS Technical Report T2009:10, pages 16–21, May 2009. |
|
|
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Page content by: Aalto University Learning Centre | Privacy policy of the service | About this site