Tiedonlouhinta on nopeasti kasvava tieteenala, jolla on vahvat sidokset myös teollisuuteen.
Tiedonlouhinnan tavoitteena on löytää suurista data-joukoista uutta hyödyllistä informaatiota.
Käsin tutkimalla tämä olisi lähes mahdotonta tietokantojen suuren koon takia.
Tiedonlouhinnan tukena käytetään laskennallisia menetelmiä tilastotieteen ja hahmontunnistuksen aloilta.
Interaktiivisuus on myös tärkeä osa tiedonlouhintaa, sillä asiantuntijoiden taustatietämys ongelmasta täytyy yhdistää prosessiin, jotta saataisiin hyviä tuloksia.
Tässä diplomityössä pyritään kokoamaan joukko data-analyysityökaluja, joiden avulla voidaan tukea tiedonlouhintaprosessin kaikkia vaiheita.
Työkalujen täytyy olla helppokäyttöisiä, jotta tavalliset insinöörit voisivat käyttää niitä käytännön ongelmissa.
Tutkitut menetelmät toteutetaan Java-ohjelmointikieltä käyttäen.
Lisäksi luodaan prosessikaavioita erilaisia tehtäviä varten ohjaamaan etenemistä tiedonlouhintaprojekteissa.
Aluksi käydään läpi tiedonlouhintaan liittyviä peruskäsitteitä, ja esitellään erilaisia tekniikoita datan esikäsittelyyn, mallinnukseen sekä visual1ointiin.
Tämän jälkeen tiedonlouhintaprosessi käydään läpi CRoss Industry Standard Process for Data Mining (CRISP-DM) mallin avulla.
Samalla tutkitaan kuinka esiteltyjä työkaluja voidaan käyttää prosessin tukena.
Lopuksi kokeellisessa osuudessa tarkastellaan menetelmien toimivuutta käytännössä.
Koko tiedonlouhintaprosessi suoritetaan voimalaitoksesta kerättyä dataa käyttäen.
Toteutetut työkalut suoriutuvat hyvin yleisimmistä tiedonlouhintatehtävistä, ja luodut prosessikaaviot auttavat etenemistä tiedonlouhintaprojekteissa.