Learning Centre

Applying machine learning to automatic incident detection from software log output

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Viitanen, Tuomas
dc.contributor.advisor Pitkäranta, Tapio
dc.contributor.author Rantala, Aapo
dc.date.accessioned 2019-06-23T15:06:15Z
dc.date.available 2019-06-23T15:06:15Z
dc.date.issued 2019-06-17
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/38952
dc.description.abstract In order to secure a profitable business, stores must have enough products on shelves to offer to customers but shelf life of the products as well as available inventory space should also be considered. Optimizing the product flow from stores to customers is a critical part in supply chain management and is necessary to retain a competitive edge. RELEX Solutions offers a software platform for supply chain management. The software offered by RELEX allows store managers to calculate demand forecasts and order proposals for each product. Calculations in the software produce log files that contain information about the current calculation. Occasionally there are errors in these calculations which are also logged in the log file. Currently a designated support team at RELEX goes through the error messages and decides what actions need to be taken according to the criticality of each error. This thesis investigates the possibility of using a machine learning system to separate critical and non-critical issues. The raw text data in the form of error messages is first preprocessed so it is suitable for a machine learning system. The preprocessing stage includes separating the text data into individual words and filtering out irrelevant terms. Two different feature representations were studied. Selected algorithms for the text classification were support vector machines and a naive Bayes classifier. A systematic testing approach was constructed in order to find the best performing classifier. It was found that the original data set had a strong class imbalance that deteriorated the results. A balanced data set was constructed and the models were able to obtain a better classification performance with this set. However even with a balanced data set the classifier accuracy was only around $60\%$ with both algorithms. This study concluded that the structure of the error messages makes the classification challenging. The error messages do not have enough separating features, they are too messy and the error messages can look similar even if they stem from a different issue. Future research should focus on improving the error messages. In this thesis the numerical data was filtered out but it could be interesting to study the effect of numbers on log classification. Different algorithms should also be researched in the future. en
dc.description.abstract Kannattavan liiketoiminnan varmistamiseksi kaupoissa pitää olla tarpeeksi tuotteita hyllyillä asiakkaille, mutta myös tuotteiden säilyvyysaika sekä käytettävissä oleva varaston tila pitää ottaa huomioon. Tuotevirran optimoiminen kaupoista asiakkaille on olennainen osa toimitusketjun hallintaa ja se on välttämätöntä kilpailuedun säilyttämiseksi. RELEX Solutions tarjoaa ohjelmistoalustan toimitusketjun hallinnalle. RELEXin tarjoamalla ohjelmistolla myymäläpäälliköt voivat laskea kysyntäennusteita sekä tilausehdotuksia jokaiselle tuotteelle. Laskutoimitukset ohjelmistossa tuottavat lokitiedostoja, joissa on tietoa kyseisestä laskutoimituksesta. Toisinaan näissä laskutoimituksissa tapahtuu virheitä, jotka kirjataan myös lokitiedostoon. Tällä hetkellä asiakastukitiimi RELEXillä käy läpi virheviestejä ja päättää minkälaisia toimia pitää tehdä, riippuen jokaisen virheen kriittisyydestä. Tämä diplomityö tutkii mahdollisuutta käyttää koneoppivaa järjestelmää kriittisten ja ei-kriittisten ongelmien erotteluun. Raaka tekstidata virheviestien muodossa esikäsitellään ensin niin, että se on sopivaa koneoppivalle järjestelmälle. Esikäsittelyvaihe sisältää tekstidatan erottelun yksittäisiin sanoihin sekä merkityksettömien termien poissuodattamisen. Kahta erilaista tapaa piirteiden esitysmuodoksi tutkittiin. Valitut algoritmit tekstiluokittelulle olivat tukivektorikoneet sekä naiivi Bayes-luokittelija. Testaukseen muodostettiin systemaattinen menettelytapa, jotta parhaiten suoriutuva luokittelija löydettäisiin. Tutkimuksessa saatiin selville, että alkuperäisessä tiedostossa oli vahva luokkaepätasapaino, joka heikensi tuloksia. Tasapainotettu joukko muodostettiin ja mallit pystyivät saavuttamaan paremman luokittelutehokkuuden tällä joukolla. Kuitenkin jopa tasapainotetulla joukolla luokittelutarkkuus oli vain noin $60\%$ molemmilla algoritmeilla. Tutkimuksessa havaittiin, että virheviestien rakenne tekee luokittelusta haastavaa. Virheviesteillä ei ole tarpeeksi erottavia piirteitä, ne ovat liian sotkuisia ja virheviestit voivat näyttää samalta, vaikka ne johtuisivatkin eri ongelmasta. Jatkotutkimuksen pitäisi keskittyä virheviestien parantamiseen. Tässä diplomityössä numeerinen data suodatettiin pois ja voisi olla mielenkiintoista tutkia numeroiden vaikutusta tekstiluokitteluun. Muita algoritmeja pitäisi myös tutkia tulevaisuudessa. fi
dc.format.extent 54+4
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.title Applying machine learning to automatic incident detection from software log output en
dc.title Koneoppimisen käyttäminen automaattisessa virheentunnistuksessa ohjelmiston lokitulosteesta fi
dc.type G2 Pro gradu, diplomityö fi
dc.contributor.school Sähkötekniikan korkeakoulu fi
dc.subject.keyword text classification en
dc.subject.keyword machine learning en
dc.subject.keyword support vector machines en
dc.subject.keyword naive Bayes classifier en
dc.subject.keyword Apache Spark en
dc.subject.keyword data mining en
dc.identifier.urn URN:NBN:fi:aalto-201906234018
dc.programme.major Translational engineering fi
dc.programme.mcode ELEC3023 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Solin, Arno
dc.programme AEE - Master’s Programme in Automation and Electrical Engineering (TS2013) fi
dc.location P1 fi
local.aalto.electroniconly yes
local.aalto.openaccess yes


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

Statistics