68
Institutionen f¨ or Fysik, Kemi och Biologi Examensarbete Analys av ljudspektroskopisignaler med artificiella neurala eller bayesiska n¨ atverk Petter Hagqvist LITH-IFM-A-EX–10/2282–SE IFM Link¨ opings universitet 581 83 Link¨ oping

Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Institutionen for Fysik, Kemi och Biologi

Examensarbete

Analys av ljudspektroskopisignaler med artificiellaneurala eller bayesiska natverk

Petter Hagqvist

LITH-IFM-A-EX–10/2282–SE

IFMLinkopings universitet

581 83 Linkoping

Page 2: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,
Page 3: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

ExamensarbeteLITH-IFM-A-EX–10/2282–SE

Analys av ljudspektroskopisignaler med artificiellaneurala eller bayesiska natverk

Petter Hagqvist

Handledare: David BrohallAcosense AB

Anders BjorkIVL Svenska Miljoinstitutet AB

Examinator: Martin HolmbergIFM

Linkoping, 29 april, 2010

Page 4: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,
Page 5: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Avdelning, InstitutionDivision, Department

Tillampad FysikDepartment of Physics, Chemistry and BiologyLinkopings universitet, SE-581 83 Linkoping, Sweden

DatumDate

2010-04-29

SprakLanguage

� Svenska/Swedish

� Engelska/English

RapporttypReport category

� Licentiatavhandling

� Examensarbete

� C-uppsats

� D-uppsats

� Ovrig rapport

ISBN

ISRN

Serietitel och serienummerTitle of series, numbering

ISSN

URL for elektronisk version

TitelTitle

Analys av ljudspektroskopisignaler med artificiella neurala eller bayesiska natverk

Analysis of Acoustic Spectroscopy Signals using Artificial Neural or BayesianNetworks

ForfattareAuthor

Petter Hagqvist

Sammanfattning

Vid analys av fluider med akustisk spektroskopi finns ett behov av att finna mul-tivariata metoder for att utifran akustiska spektra prediktera storheter sasomviskositet och densitet. Anvandning av artificiella neurala natverk och bayesis-ka natverk for detta syfte utreds genom teoretiska och praktiska undersokningar.Forbehandling och uppdelning av data samt en handfull linjara och olinjara mul-tivariata analysmetoder beskrivs och implementeras. Prediktionsfelen for de olikametoderna jamfors och PLS (Partial Least Squares) framstar som den starkastekandidaten for att prediktera de sokta storheterna.

Abstract

When analyzing fluids using acoustic spectrometry there is a need of finding mul-tivariate methods for predicting properties such as viscosity and density from ac-oustic spectra. The utilization of artificial neural networks and Bayesian networksfor this purpose is analyzed through theoretical and practical investigations. Pre-processing and division of data along with a handful of linear and non-linear mul-tivariate methods of analysis are described and implemented. The errors of pre-diction for the different methods are compared and PLS (Partial Least Squares)appear to be the strongest candidate for predicting the sought-after properties.

NyckelordKeywords

Akustisk spektroskopi, Multivariat statistisk analys, Artificiella neurala natverk,Bayesiska natverk, Acoustic spectroscopy, Multivariate Statistical Analysis, Arti-ficial Neural Networks, Bayesian Networks

http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-56429

LITH-IFM-A-EX–10/2282–SE

Page 6: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,
Page 7: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

”Any sufficiently advanced technology is indistinguishablefrom magic.”

Arthur C. Clarke, Profiles of The Future, 1961 (Clarke’s tredje lag)

Engelsk-lankesisk fysiker och science fiction-forfattare (1917 - 2008)

Page 8: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,
Page 9: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Abstract

When analyzing fluids using acoustic spectrometry there is a need of finding mul-tivariate methods for predicting properties such as viscosity and density from ac-oustic spectra. The utilization of artificial neural networks and Bayesian networksfor this purpose is analyzed through theoretical and practical investigations. Pre-processing and division of data along with a handful of linear and non-linear mul-tivariate methods of analysis are described and implemented. The errors of pre-diction for the different methods are compared and PLS (Partial Least Squares)appear to be the strongest candidate for predicting the sought-after properties.

Sammanfattning

Vid analys av fluider med akustisk spektroskopi finns ett behov av att finna mul-tivariata metoder for att utifran akustiska spektra prediktera storheter sasomviskositet och densitet. Anvandning av artificiella neurala natverk och bayesis-ka natverk for detta syfte utreds genom teoretiska och praktiska undersokningar.Forbehandling och uppdelning av data samt en handfull linjara och olinjara mul-tivariata analysmetoder beskrivs och implementeras. Prediktionsfelen for de olikametoderna jamfors och PLS (Partial Least Squares) framstar som den starkastekandidaten for att prediktera de sokta storheterna.

vii

Page 10: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,
Page 11: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Tack

Stort tack till alla som hjalpt mig pa olika satt med detta arbete; mina handledareAnders Bjork och David, min examinator Martin Holmberg, John Noble, minaforaldrar, Oscar Cardfelt, Felix Torner, personalen pa Gustaf Fagerberg AB iGoteborg, Janne Hellman och kanske framst Eva-Lena Grunden som stottat migmed god mat, karlek och kloka tankar.

ix

Page 12: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,
Page 13: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Innehall

1 Introduktion 1

1.1 Bakgrund . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Mal och syfte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Typografiska konventioner . . . . . . . . . . . . . . . . . . . . . . . 2

2 Metod 5

2.1 Explorativ dataanalys . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Undersokning av tidigare arbete inom omradet . . . . . . . . . . . 5

2.3 Studier av artificiella neurala natverk och bayesiska natverk . . . . 5

2.4 Utvardering av intressanta metoder . . . . . . . . . . . . . . . . . . 6

2.5 Implementation i LabVIEWTM . . . . . . . . . . . . . . . . . . . . 6

3 Teori 7

3.1 Aktiv akustisk spektroskopi . . . . . . . . . . . . . . . . . . . . . . 7

3.2 Passiv akustisk spektroskopi . . . . . . . . . . . . . . . . . . . . . . 7

3.3 Multivariat dataanalys . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.3.1 Multipel linjar regression, MLR . . . . . . . . . . . . . . . . 8

3.3.2 Principalkomponentsanalys, PCA och principalkomponents-regression, PCR . . . . . . . . . . . . . . . . . . . . . . . . 9

3.3.3 Partial Least Squares eller Projection to Latent Structures,PLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.3.4 Artificiella neurala nat, ANN . . . . . . . . . . . . . . . . . 11

3.3.5 Bayesiska nat, BN . . . . . . . . . . . . . . . . . . . . . . . 14

3.3.6 NN-PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

xi

Page 14: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

xii Innehall

3.3.7 Hybridmodell . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.3.8 Transformation av data . . . . . . . . . . . . . . . . . . . . 16

3.3.9 Uppdelning av material . . . . . . . . . . . . . . . . . . . . 17

3.3.10 Validering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.4 Insamling, behandling och strukturering av data . . . . . . . . . . 20

3.4.1 Datainsamling och behandling . . . . . . . . . . . . . . . . 20

3.4.2 Strukturering av data . . . . . . . . . . . . . . . . . . . . . 20

3.5 Tidigare arbete inom multivariat analys for akustisk spektroskopi . 21

4 Resultat 23

4.1 Explorativ dataanalys . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1.1 PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1.2 PLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.2 Bayesiska natverk . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.3 Jamforelse mellan PLS och NN-PCA . . . . . . . . . . . . . . . . . 27

4.3.1 Optimering av PLS . . . . . . . . . . . . . . . . . . . . . . . 27

4.3.2 Optimering av neurala natverk . . . . . . . . . . . . . . . . 27

4.3.3 Jamforelse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.4 Jamforelse mellan PLS och hybrid . . . . . . . . . . . . . . . . . . 29

4.4.1 Optimering av hybridmodellen . . . . . . . . . . . . . . . . 29

4.4.2 Jamforelse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.5 Jamforelse mellan PLS och MLR . . . . . . . . . . . . . . . . . . . 30

4.6 Jamforelse mellan PLS och PCR . . . . . . . . . . . . . . . . . . . 30

4.7 Oversikt over modeller . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.8 Implementation i LabVIEW . . . . . . . . . . . . . . . . . . . . . . 33

4.9 Anpassning av PLS till specifik matapplikation . . . . . . . . . . . 33

4.9.1 Prediktion av provtagningstider . . . . . . . . . . . . . . . . 33

4.9.2 Kalibrering och optimering . . . . . . . . . . . . . . . . . . 33

5 Diskussion 35

6 Slutsatser 39

A Oversikt over funktioner 45

Page 15: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Kapitel 1

Introduktion

1.1 Bakgrund

Inom processindustrin finns ett behov av att overvaka och kontrollera produk-tionsforlopp i realtid. Detta forenklar automatisering av processen, okar effekti-viteten och kan ge hogre kvalitet pa slutprodukten. Fermenterings och nedbryt-ningsreaktioner ar dock svara att overvaka kontinuerligt da bestamning av proces-sparametrarna i dagslaget ofta kraver sa kallad off-line analys. Dessa matningaroch provtagningar ar invasiva och kan paverka produktionen exempelvis genomintroduktion av bakterier. Offlinematningar utfors ofta manuellt av en operatoroch tar langre tid an in-line matningar. Nar prov tas fran ett flode riskerar manaven att detta inte ar representativt for hela flodet[18][3][19].

Chalmers School of Entrepreneurship (CSE), ABB och IVL Svenska MiljoinstitutetAB utvecklar en patenterad teknik for att med aktiva akustiska spektroskopi-metoder kunna utfora inlineanalys av processvatskor. Denna teknik har mangafordelar jamfort med traditionellt anvanda metoder. Processvatskan ar aldrig ikontakt med matinstrumentet. Instrumenteringen kan fastas utanpa existeranderor, installationen kraver alltsa inte att produktionen avbryts[18][19].

Tekniken kan anvandas for att bestamma olika variationer i mediet sasom visko-sitet, densitet, koncentration av kemiska foreningar och partikelstorlekar[5]. Ef-tersom analysen kan utforas i realtid mojliggors kontinuerlig overvakning och kon-troll. Detta forhindrar att processen utvecklas i en icke onskvard riktning medkvalitetsforsamringar, effektivitetsforsamringar eller till och med forlust av helaproduktionssatser till foljd[19].

Artificiella neurala och bayesiska natverk ar matematiska verktyg som kan anvandasvid icke-linjar multivariat analys av data. Fordelen med dessa bada konstruktio-ner ar att de kan tranas till att for vissa indata producera sarskilda utdata[32][4].Ett sadant natverk som tranats pa ratt satt skulle kunna anvandas for att tolka

1

Page 16: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

2 Introduktion

signalen fran ljudspektroskopi och vidare for att erhalla kvantitativa data sasomdensitet, viskositet etcetera[18].

1.2 Mal och syfte

Malet med studien ar att oversiktligt utreda forutsattningarna for att anvanda ar-tificiella neurala och bayesiska natverk vid analys av signaler fran ljudspektroskopi.Den eller de metoderna som anses lampligast skall jamforas med konventionellamultivariata metoder, exempelvis PCR, PLS och MLR.

Den metod som anses ha bast forutsattningar skall anpassas, undersokas och im-plementeras for anvandning i ett matsystem.

1.3 Typografiska konventioner

Programkod skrivs med med denna typsattning:

exempel pa hur

programkod kan

se ut

Tabell 1.1. Typer och typsnitt.

Beskrivning Typsattning ExempelSkalarer Kursiva gemener och versaler nMatriser Fet versal XVektorer Fet gemen y

Skattningar Circumflex accent yMedelvarde av vektor Streck/makron y

Transponat Upphojt versalt T XT

Invers av matris Upphojd i -1 X−1

Page 17: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

1.3 Typografiska konventioner 3

Tabell 1.2. Forkortningar som anvands i rapporten.

Namn BeskrivningANN Artificiellt Neuralt NatverkBN Bayesiskt Natverk

FFT Fast Fourier Transform, snabb fouriertransformMLR Multipel Linjar RegressionNiHL Noder i Hidden LayerPC Principalkomponent

PCA PrincipalkomponentanalysPLS Partial Least Squares, kallas aven Projection to Latent StructuresPRM Partial M-RegressionR2X Forklarad varians for X-matrisenR2Y Forklarad varians for Y-matrisen

RMSE Root Mean Square ErrorRMSEC Root Mean Square Error of Calibration

RMSECV Root Mean Square Error of Cross-ValidationRMSEP Root Mean Square Error of Prediction

WT-MRS Wavelet Transform - Multi Resolution Spectra

Page 18: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

4 Introduktion

Page 19: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Kapitel 2

Metod

Studien genomfors i ett antal steg beskrivna nedan i kronologisk ordning:

2.1 Explorativ dataanalys

I ett forsta steg analyseras existerande datamaterial fran akustiska spektrosko-pimatningar. Detta gors for att examensarbetaren skall kunna bekanta sig med da-tamaterialet och bilda sig en uppfattning om hur arbetet lampligen kan fortsattas.For att utforska datamaterialet anvands programvaran MATLAB fran MathWorkstillsammans med verktyget TOMCAT[13]. I samrad med examinator och handle-dare bestams vilka analysmetoder som skall anvandas under de senare delarna avstudien.

2.2 Undersokning av tidigare arbete inom omradet

Efter den initala analysen i det foregaende steget utfors en kort litteraturstudiemed syfte att kartlagga vilka metoder som tidigare anvants for att tolka akustiskaspektroskopisignaler.

2.3 Studier av artificiella neurala natverk och bay-esiska natverk

I detta steg studeras artificiella neurala natverk och bayesiska natverk med inrikt-ning pa en mojlig applicering for att analysera data fran akustiska spektroskopi-signaler.

5

Page 20: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

6 Metod

2.4 Utvardering av intressanta metoder

Nar intressanta metoder isolerats utvarderas de genom att befintligt datamaterialundersoks. Resultaten fran dessa undersokningar jamfors med befintliga analys-metoder.

2.5 Implementation i LabVIEWTM

Om en framtagen metod anses vara tillfredsstallande skall denna implemente-ras i National InstrumentsTMprogramvara LabVIEWTM. Metoden skall aven ommojligt kalibreras och optimeras med avseende pa en specifik tillampning.

Page 21: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Kapitel 3

Teori

3.1 Aktiv akustisk spektroskopi

Aktiv akustisk spektroskopi baseras pa interaktionen mellan akustiska vagor medfrekvenser under ultraljudsomradet, det vill saga under 20kHz och partiklar sus-penderade i en fluid. Med partiklar menas i detta sammanhang volymer av gas-,vatske- eller fastfas, foretradesvis i en annan fas an fluiden. Da akustiska signalersands in i en processfluid kommer de att utbreda sig som mekaniska vagor. Omvaglangden i fluiden ar storre an partiklarnas storlek och mellanrummet dem emel-lan kommer fasvinkeln forandras och en frekvensberoende absorption forekomma.Speciellt stora forandringar av vagorna forvantas upptrada da frekvensen pa signa-len matchar de suspenderade partiklarnas resonansfrekvenser. Resonansfrekvensenar beroende av partiklarnas egenskaper samt deras interaktioner med det omgi-vande mediet och med andra partiklar. Dessa resonansfrekvenser finns i nastanalla fall under 20kHz. Partiklarna i fluiden kommer sjalva ge upphov till akus-tiska signaler forutom de fran sandaren utsanda signalerna. Dessa partikelegnavibrationer emitteras fran de suspenderade partiklarna bland annat pa grund avkollisioner som uppstar pa grund av flodet i roret. Emitterade vibrationer oavsettuppkomst kan matas med en vibrationssensor for att ge en resulterande signal fransystemet. Tekniken beskrivs utforligt i det aktuella patentet[18].

3.2 Passiv akustisk spektroskopi

Om inget ljud skickas in i fluiden kommer endast vibrationer som uppstar spon-tant i fluiden kunna uppmatas. Fluidens rorelseenergi kommer att omvandlas tillmekaniska vagor som sedan kan uppmatas. Denna teknik benamns passiv akustiskspektroskopi[5]. I detta arbete kommer endast data fran passiv akustisk spektro-skopi anvandas.

7

Page 22: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

8 Teori

3.3 Multivariat dataanalys

For att uttolka onskad information fran frekvensspektra, se avsnitt 3.4.1, anvandsmultivariat dataanalys. I varje spektrum ses frekvenskomponenterna som vari-abler. Da en mangd matningar gjorts anvands dessa observationer for att ska-pa och kalibrera en matematisk modell for att prediktera partiklarnas eller pro-cessvatskans egenskaper. Denna modell verifieras mot ytterligare observationeroch anvands for att gora prediktioner av sokta egenskaper. En rad tekniker finnsfor att skapa sadana modeller[21]. Har foljer en kort beskrivning av grundlaggandetekniker samt tekniker som anvants i detta arbete.

3.3.1 Multipel linjar regression, MLR

Vid multipel linjar regression anvands de ursprungliga variablerna X for att skattamalvariabeln y. MLR ar en utokning av den monovariata linjara regressionsmo-dellen da x anvands for att bestamma y enligt

y = kx+m (3.1)

som kanske kanns igen fran hogstadiematematiken. I MLR utokas k och x till atttacka in fler variabler:

y =

K∑i=1

kixi +m (3.2)

dar K ar antalet variabler. Med vektornotation kan detta istallet skrivas som.

y = Xb + f (3.3)

dar y =

y1

y2

...yN

, X =

1 x11 . . . x1K

1 x21 . . . x2K

......

. . ....

1 xN1 . . . xNK

, b =

b1b2...bN

och f =

f1

f2

...fN

N ar antalet observationer,b ar en koefficientvektor och f ar en vektor innehallandesfelen.

For att skatta b enligt minsta-kvadratmetoden anvands foljande formel:

b = (XTX)−1XTy (3.4)

For att (XTX) skall kunna inverteras kravs antalet observationer ar minst likastort som antalet variabler. Aven om sa ar fallet uppkommer problem da tva ellerflera variabler ar kolinjara eller nara korrelerade. Om tva variabler ar kolinjarainnebar det att den ena kan skrivas som en produkt av den andra och en skalar. Idetta fall existerar inget unikt b. Utifall tva variabler ar nara korrelerade kommerberakningen bli numeriskt instabil och kan ge daliga prediktioner[20, 5].

Page 23: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

3.3 Multivariat dataanalys 9

3.3.2 Principalkomponentsanalys, PCA och principalkom-ponentsregression, PCR

For att kringga problemen med kolinearitet och det faktum att det ar vanligtatt antalet observationer understiger antalet variabler utformades principalkom-ponentsanalys, PCA. Detta ar en metod for att komprimera datamaterial medmanga dimensioner(variabler) till ett mindre antal icke-korrelerade, ortogonaladimensioner. Detta astadkoms genom att finna de linjara kombinationer av deursprungliga variablerna som tacker in sa mycket som mojligt av variansen i da-tamaterialet. Detta kan tankas som en rotation av enhetsvektorerna till att foljavariationerna i datat sa bra som mojligt. PCA ger en overblick over multidimen-sionellt data och kan underlatta tolkning och forstaelse av materialet. Ett vanligtforfarande, efter att ha transformerat det ursprungliga datat, ar att de forsta prin-cipalkomponenterna plottas mot varandra for visualisering av data. En intuitivbeskrivning av PCA och projicering till principalkomponenter finns i ”MultivariateCalibration and Classification” skriven av Næs och medforfattare[20, 22]. Ytterli-gare en egenskap vid PCA ar att den forsta principalkomponenten innehaller storstvarians, den andra nast mest och sa vidare[20].

Figur 3.1. Oversikt over PCA i tre dimensioner [15].

Om MLR appliceras pa de nya variabler som skapas vid PCA kallas detta forfarandeprincipalkomponentsregression, PCR (ej att forvaxlas av teknisk biolog med Po-lymerase Chain Reaction som anvands vid DNA-amplifiering, aven den forkortadPCR). Regressionsekvationen skrivs:

y = Tq + f (3.5)

dar T = XP, P ar principalkomponenternas enhetsvektorer, q ar regressionsko-efficienter och f ar en felvektor. T kallas ibland for ”score”-matrisen och P for”loading”-matrisen[5].

Eftersom malet med PCA bland annat ar att reducera antalet variabler anvandsbara de A forsta variablerna/komponenterna till att skapa regressionsmodellen.

Page 24: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

10 Teori

Om A valjs pa ett bra satt kommer PCR-metoden att ge stabilare regressionsko-efficienter och battre prediktioner an vanlig MLR[22].

Bestamning av A for PCA gors enligt Næs med flera lampligast genom att studeraegenvarden och darigenom sluta sig till hur stor inverkan komponenten har. For attbestamma antalet komponenter vid PCR kan aven ett valideringsset anvandas[22].

Da PCA/PCR ar beroende av enheten pa variablerna kan det vara klokt att stan-dardisera data innan PCA/PCR utfors. Detta utfors genom att samtliga variablerdivideras med dess standardavvikelse sa att alla variabler har standardavvikelse 1.Det kan ocksa underlatta att centrera variablerna kring deras medelvarde sa attde alla efter transformation har medelvarde 0 genom att subtrahera medelvardetfor samtliga variabler, kombinationen av dessa behandlingar kallas auto-skalning:

∀ i 6 K : Xautoskalad =xi − xiσ(xi)

(3.6)

dar i betecknar variabel i X-matrisen, K ar antalet variabler, xi ar en radvektoroch σ(xi) betecknar standardavvikelsen for xi. Xautoskalad ar den autoskaladeX-matrisen. Utifall att en variabel endast ger brus som signal kommer detta attviktas upp och viktiga variabler kan eventuellt viktas ned. Det ar darfor inte ettsjalvklart val att skala det ursprungliga datamaterialet[22, 20, 35, 5].

3.3.3 Partial Least Squares eller Projection to Latent Structu-res, PLS

Partial Least Squares-regression eller Projection to Latent Structures som detocksa kallas[35] ar en vidareutveckling av PCA/PCR. For att undvika problemetmed att valja ut lampliga komponenter anvands de riktningar i de observeradevariablerna X som bast forklarar variansen i malvariabeln y och maximerar ko-variansen mellan y och X. Detta leder till att den forsta PLS-komponenten intebeskriver maximal varians sasom den forsta PCA-komponenten, utan maximal ko-varians med malvariabeln. Pa detta satt riskerar man inte som i PCA att de forstakomponenterna modellerar varians som inte har med malvariabeln att gora[22, 2].

Malvariabeln y kan vid PLS ersattas av malvariablerna Y da det existerar algo-ritmer for att gora PLS med mer an en malvariabel, Næs och medforfattare re-kommenderar dock inte detta for prediktion[22]. Wold och medforfattare namneratt om malvariablerna kan antas vara korrelerade skall de predikteras ihop, annarsinte[35].

Algoritmerna for PLS ar relativt avancerade och kommer inte att beskrivas ingaendehar. For en introduktion till PLS rekommenderas referenserna [2] och [35], somaven ger en insikt i hur algoritmerna fungerar. De grundlaggande sambanden inomPLS beskrivs enklast genom att forst infora dessa definitioner:

T och U ar ”score”-matriser som innehaller information om observationerna ochderas likheter och olikheter. P och Q ar ”loading”-matriser som transformerar

Page 25: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

3.3 Multivariat dataanalys 11

T och U tillbaka till X respektive Y. E, F och G ar residual-, det vill sagafelmatriser. b betecknar relationen mellan U och T vid linjar PLS[5].

X = TPT + E (3.7)

Y = UQT + F (3.8)

U = bTT + G (3.9)

Relationen (3.9) kan bytas ut mot icke-linjara modeller. Aven en yttre relation:

Y = f(Y) (3.10)

kan anvandas for att ersattaY = Y (3.11)

med en icke-linjar relation sasom ett artificiellt neuralt nat[5].

3.3.4 Artificiella neurala nat, ANN

Uppbyggnad

Artificiella neurala nat (ANN) ar matematiska konstruktioner inspirerade av bi-ologiska neuronala funktioner. Grundelementet ar en sa kallad artificiell neuron(AN). Den fungerar enligt foljande (se figur 3.2):

• Elementen i en vektor om N varden x = (x1..xN ) skickas till lika manga”input” noder.

• Dar multipliceras de med vikter enligt w · x dar w =

w1

...wN

Detta steg kan aven ses som en rad multiplikationer av skalarer och en sum-mation, darav summationstecknet i skissen 3.2. Det ar dessa vikter som gervarje AN dess egenskaper. Vikterna anpassas under traningen av natverketoch definierar tillsammans med natverkets geometri ett ANN:s funktion.

• Ett sa kallat ”bias”-varde som kan ses som en ”input” node med konstantx = 1 adderas till den tidigare summan efter att ha multiplicerats med viktenb.

• Resultatet av foregaende operation anvands som argument for en respons-funktion σ. En vanlig responsfunktion ar den sigmoida funktionen[32]:

σ(z) =1

1 + ecz(3.12)

dar c ar en konstant som bestammer geometrin hos funktionen. Den sigmoidafunktionen kan ersattas med i princip vilken funktion som helst[23].

Page 26: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

12 Teori

Stimuli in

Stimulus ut

Insignaler

Utsignal

w

Σ

1 w2 wN

b

Figur 3.2. Schematisk skiss over biologisk respektive artificiell neuron, fritt utifran”Medical Physiology”[9] och ”An Introduction to Adaptive Algorithms and IntelligentMachines”[32].

• Det varde som erhalls ar neuronets utsignal

Da flera AN kopplas samman i ett natverk erhalls ett ANN. Detta natverk kanutformas pa olika satt. Nedan beskrivs ett ”layered feedforward neural network”(FFNN)[32], se figur 3.3.

IN, HN och ON betecknar ”input”,”hidden” respektive ”output”-noder dar endastHN och ON ar artificiella neuron, IN distribuerar endast information. Neuronendelas in i lager: ”input”- ”hidden”- och ”output”-lager dar alla lager som intetar emot information utifran eller presenterar information utat ar ”hidden”. EttANN kan vara av godtycklig storlek och ett storre natverk kan vara robustaregentemot brus an ett litet. For att skapa ett stort natverk med battre prediktiv

Page 27: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

3.3 Multivariat dataanalys 13

IN

IN

IN

ON

ON

HN

HN

HN

Figur 3.3. ”Layered feedforward neural network”, FFNN.

formaga och battre hantering av brus kravs dock fler observationer och som vidalla multivariata metoder tillater ett storre dataunderlag mer avancerade modeller.Det ar dock viktigt att inte skapa ett natverk med fler parametrar an vad som kanbestammas utifran tillgangliga observationer[32, 11].

Larande

Den stora fordelen med ANN ar att de kan tranas till att ge en onskad utsignal foren viss insignal aven om det modellerade systemet ar icke-linjart. I jamforelse medandra icke-linjara tekniker blir modellerna mindre komplexa[23] och kan kannasganska intuitiva for en person insatt i nervsystemets funktion. Bestamning av

Page 28: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

14 Teori

topologin (natverkets utseende) och validering av den skapade modellen ar mycketviktiga nar ANN anvands for att undvika overanpassning till data[11, 23]. Detfinns manga algoritmer for traning av artificiella neurala natverk, nedan beskrivsett par som ar relevanta for arbetet[14].

”Back-propagation”-algoritmen

Den mest kanda algoritmen for att trana ett FFNN ar ”back-propagation” tek-niken. Den fungerar genom att natverkets utdata efter varje berakning utifranindata jamfors med referensvarden. Skillnaden mellan beraknade malvariableroch referensvarden propageras bakat, ett lager i taget, for att anpassa vikterna tillatt minska detta fel. Denna process gors om for alla observationer som anvandsfor att trana natverket (se avsnittet ”Validering”, sidan 18). En sadan anpass-ning av vikter kallas for en epok eller traningscykel. Anpassningen fortsattertills regressionskoefficienterna (vikterna) konvergerar, Næs och medforfattare[23]namner att minst 10000 epoker kravs for att trana ett typiskt ANN. Algoritmenfor ”back-propagation” finns val beskriven i Wahdes ”An Introduction to AdaptiveAlgorithms and Intelligent Machines”[33]. Viktiga aspekter pa konstruktion ochvalidering av artificiella neurala natverk diskuteras i en oversiktsartikel skriven avDespagne och Massart[11].

Levenberg-Marquardts metod

I detta arbete anvands den implementation av Levenberg-Marquardts metod somfinns i ”Neural Networks Toolbox” for MATLAB. Denna metod ar avsedd attanvandas for sma natverk (minnesatgangen ar beroende pa kvadraten av antaletartificiella neuron) med endast en utvariabel. Algoritmen ar dokumenterat snabboch anvander sig av en linjar approximation av den underliggande funktionen foratt finna minimum for kvadratsumman av felen som da kan beraknas i ett en-da steg. Approximationen ar endast god nara minima och kan leda till hogrefel. For att balansera detta anvands en kompromiss mellan denna metod ochriktningen med den brantaste lutningen. En riktning och en steglangd bestamsoch vardet i den nya punkten utvarderas. En forbattring leder till att den nyapunkten anvands for nasta iteration. Vid forsamring forkastas den nya punk-ten. Algoritmen anvander sig av forbattringen eller forsamringen i tidigare stegfor att bestamma den nya steglangden, en dalig utveckling leder till en kortaresteglangd. Kombinationen av dessa metoder gor att iterationen kan konvergeramycket snabbt[14]

3.3.5 Bayesiska nat, BN

Ett bayesiskt natverk (BN) ar en grafisk representation av kunskapen kring ettsystem. Det bestar av noder som representerar var sin variabel och pilar somrepresenterar kausala samband dem emellan. Ett BN kan tranas pa ett liknande

Page 29: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

3.3 Multivariat dataanalys 15

satt som ett ANN med skillnaden att natverkets topologi inte ar givet fran borjan.Detta maste ocksa utronas fran traningsdata eller tidigare kunskap. Bayesiskanatverk ger typiskt information om sannolikheter inom systemet och tack varesina direkta kausala samband kan den simultana sannolikhetsfordelningen karak-teriseras med farre parametrar an med en modell dar sambanden inte ar riktade(dessa konstruktioner kallas Markovnatverk). ANN kan ses som specialfall avbayesiska natverk[8, 4].

Pa grund av detta arbetes avgransningar kommer inte Bayesiska natverk behandlasi detalj. For en bra introduktion till amnet rekommenderas Charniaks ”BayesianNetworks without Tears”[8] eller Ben-Gals ”Bayesian Networks”[4].

Under en intervju med Dr. John Noble, universitslektor pa Linkopings Universitetoch medforfattare till boken ”Bayesian Networks: An Introduction”[26], framkomatt bayesiska nat inte ar val lampade for den aktuella applikationen. Den existe-rande kunskapen om samband mellan olika variabler i systemet ar mycket liten ochdarigenom finns inte mycket att vinna genom att implementera bayesiska natverkfor prediktion. Det skulle vara mojligt att tillampa bayesiska nat pa systemet menvinsten skulle vara mycket begransad da de kausala sambanden mellan variablernaskulle vara mycket svara att bestamma[27].

3.3.6 NN-PCA

For att projicera ner det stora antalet variabler som ar aktuellt vid akustiskspektroskopi[5] kan ett antal av de mest betydande PCA-komponenterna anvandasfor att trana ett artificiellt neuralt natverk[11]. Detta minskar antalet noder i”input-layer” och darigenom antalet parametrar som maste bestammas. Dennametod benamns i detta arbete NN-PCA. Aven PLS-komponenter kan anvandaspa liknande satt men da dessa ar framtagna for att maximera endast den linjartkorrelerade informationen kan relevant icke-linjar information forkastas. Dennametod rekommenderas inte av Despagne och Massart[11] och kommer darfor inteatt undersokas.

3.3.7 Hybridmodell

Anders Bjork foreslog i samtal med forfattaren anvandningen av en hybridmodellsom baseras pa bade PLS och ANN, detta med forhoppningen att kunna kombinerarobustheten hos PLS med icke-lineariteten hos ANN. Modellen utformas genomatt en PLS-modell anpassas till datat. Residualen for X-matrisen E transformerasmed PCA och ”scores” for ett antal av de mest betydande komponenterna anvandsfor att tillsammans med ”scores” fran PLS-modellen trana ett ANN.

Y = ANN([TPLSTPCA]) + Rhybrid (3.13)

dar TPLS betecknar scores for PLS:en, TPCA betecknar scores for PCA:n ochRhybrid betecknar residualen for hybridmodellen.

Page 30: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

16 Teori

Figur 3.4. Hybridmodell, schematisk skiss.

3.3.8 Transformation av data

Vid PCA och PLS rekommenderar Despagne och Massart autoskalning av vari-abler, se ekvation 3.6[11]. Vid anvandning av ANN ar detta inte nodvandigt,forutom vid eventuella komprimeringssteg. Daremot rekommenderas skalning avvariablerna till den valda responsfunktionens omfang for att undvika att ”matta”denna. Om linjara overforingsfunktioner anvands vid ”output”-lagret ar det intenodvandigt att skala y[11]. Skalningen utfors enligt:

m =(x− xmin)

(xmax − xmin)(rmax − rmin) + rmin (3.14)

dar m ar en av k skalade variabler skapade fran den motsvarande ursprungligavariabelvektorn x. rmin och rmax betecknar andpunkterna i responsfunktionensomfang. For en sigmoid eller hypertangent funktion rekommenderas rmin = −1och rmax = 1 av Despagne och Massart for skalning av indata[11].

Nar matsystemet skall implementeras kommer endast ett spektrum at gangen attpredikteras. For att kunna autoskala dessa spektra en och en anvands samma para-metrar for autoskalning som for kalibreringssetet. Alternativet ar att kontinuerligtbilda medelvarden och rakna ut standardavvikelser efterhand som prediktionernagors. Vilken av dessa metoder som ar bast lampad har inte kunnat avgoras uti-fran det existerande datamaterialet. Det ar tankbart att den senare metoden kan

Page 31: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

3.3 Multivariat dataanalys 17

kompensera for drift i systemet men den kan ocksa dolja en dylik forandring somkraver atgard.

3.3.9 Uppdelning av material

Om tillrackligt datamaterial finns tillgangligt ar det tillradligt att anvanda sig avextern validering, i motsats till korsvalidering, se avsnittet 3.3.10. Det ursprungli-ga datat delas da upp i kalibrerings- och valideringsdata[5]. Detta kan utforas medslumpmassig fordelning, blockvis fordelning eller med en algoritm sasom Kennard-Stones metod eller duplexmetoden. Beroendet mellan dataseten vid anvandningav matematiska algoritmer ar nagot som bor tas i atanke vid anvandning av debada senare. De ger dock fordelen av att extrapolering i prediktionsdelen kanundvikas da dessa fangar upp en stor del av variansen i det ursprungliga datat.Kalibreringsdatat anvands for att anpassa den valda modellen och valideringsda-tat anvands for att utvardera modellen exempelvis genom att rakna ut RMSEP(se ekvation 3.17). Eftersom de bada seten bor vara oberoende av varandra ar detinte lampligt att anvanda sig av blockindelning enligt Despagne och Massart[11].I detta fall kan det dock finnas en mening i och med att man simulerar det verk-liga fallet da de predikterade punkterna alla kommer efter kalibreringspunkternatidsmassigt[11].

Om ANN anvands sa bor datamaterialet delas in i tre delar, forutom kalibrerings-och valideringsset bor aven ett overvakningsset skapas. Detta anvands vid traningav natverket for att undvika overanpassning. Felet for prediktionen av overvak-ningssetet anvands for att avbryta traningen av ett ANN. Despagne och Massartforeslar ett idealfall dar kalibreringssetet innehaller Nk punkter. Validerings och

overvakningsseten skall da innehalla mellanNk

2och Nk punkter vardera. Overvak-

ningssetet kan ses som en del av kalibreringssetet da det anvands for att anpassamodellen[11].

Uppdelning av datamaterial som anvants i detta arbete illustreras av figur 3.5.

Valideringssetet kommer att anvandas for att optimera parametrarna for de olikametoderna. Anledningen till detta ar att jamforelsen mellan metoderna ar central.Det som undersoks ar vilken metod som med kanda ”optimala” parametrar kange den basta prediktionen. Om ett set med data skulle anvandas till att optimeraparametrarna skulle antalet observationer som kan anvandas till kalibreringssetetbli annu farre och resultaten osakrare.

Kennard-Stones algoritm

Denna metod for att selektera ett kalibreringsset utifran ett antal datapunkterbaseras pa att for varje punkt valja den som maximerar det euklidiska avstandettill den senast valda. Detta ger ett kalibreringset som innehaller maximal variansifran datamaterialet[11].

Page 32: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

18 Teori

Figur 3.5. Uppdelning av material. Till vanster: uppelning for NN-PCA och hybrid.Till hoger: for alla andra modeller. Vitt avser kalibreringsset, ljusgratt valideringssetoch morkgratt overvakningssetet.

Duplexmetoden

Duplexmetoden bygger pa Kennard-Stones algoritm med en korrigering for att detdata som finns tillhands inte alltid svarar mot det som skall predikteras. Da ex-trapolering ar svart att undvika i verkligheten fordelar duplexmetoden de punktersom tas fram med Kennard-Stones algoritm till de olika seten pa ett alternerandesatt. Detta ger valideringsdata som aven testar metodens extrapolationsformaga.Skillnaden mot randomiserad uppdelning blir att en mojlig skev fordelning medstorre varians i valideringssetet undviks[11]. I detta arbete anvands duplexmeto-den for uppdelning av dataseten. Detta val gors for att minska beroendet mellanseten som finns vid blockindelning samt att blockindelning inte ar ett rekommen-derat forfarande[11].

3.3.10 Validering

Validering ar en mycket viktig del av den multivariata dataanalysen. I och medvalideringen utvarderas den konstruerade modellen med avseende pa antal kom-ponenter A, transformationer av data, kalibreringsmetod etcetera[24].

Korsvalidering

Korsvalidering ar ett satt att uppskatta modellens prediktionsformaga genom attstegvis eliminiera k varden fran det ursprungliga datat, bygga en modell for detaterstaende datat och validera med de k punkter som eliminerades. Detta upprepastills alla punkter nagon gang varit eliminerade. Denna metod rekommenderasinte vid prediktion med ANN da eliminering av en datapunkt kan innebara storaforandringar i modellens beteende enligt Despagne och Massart[11].

Page 33: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

3.3 Multivariat dataanalys 19

Matt pa modellerings och predikteringsformaga

Ett vanligt matt pa hur pass bra modellen predikterat calibreringsdatat ar ”RootMean Square Error”, RMSE

RMSE =√MSE(y) =

√E(y− y)2 (3.15)

dar E() betecknar vantevardet for ett uttryck, y ar de predikterade och y arde observerade vardena pa malvariabeln[24]. Ett empiriskt varde pa RMSE kanerhallas med ”Root Mean Square Error of Calibration”, RMSEC som beraknasenligt:

RMSEC =

√∑ (yk − yk)2

Nk − 1(3.16)

dar Nk ar antalet predikterade punkter i kalibreringssetet och yk och yk betecknarpredikterade och observerade varden i kalibreringssetet. RMSEC rekommenderasinte av Naes med flera i ”Multivariate Calibration and Classification” da detta felendast sager nagot om modelleringsfelet och inte om prediktionsfel[25].

Istallet advokeras uppdelning av materialet(se 3.3.9) och anvandning av ”RootMean Square Error of Prediction”, RMSEP[25]:

RMSEP =

√∑ (yv − yv)2

Nv(3.17)

dar yv och yv betecknar predikterade och observarade varden i valideringssetet.Nv ar antalet observationer i valideringssetet.

Vid korsvalidering anvands ”Root Mean Square Error of Cross Validation”, RM-SECV:

RMSECV =

√√√√ N∑i=1

(yCV i − yi)2

N, har visas RMSECV for k = 1 (3.18)

dar i betecknar den utelamnade observationen och yCV i ar prediktionen av yi franmodellen baserad pa de kvarvarande punkterna[25].

Detektion av ”outliers” bland predikterade punkter

Vid kontinuerlig prediktion av data kan det vara onskvart att finna punkter somar mycket olika de som anvandes for att kalibrera modellen. Detta for att attinte dessa punkter skall tolkas som lika palitliga som alla andra. I detta arbeteanvands storheten Hotellings T 2 for att finna sadana punkter. Denna storhet visarhur langt bort fran punktmolnets centrum en viss punkt ar. Det finns aven andrametoder for att identifiera outliers. T 2 valdes da den ar valdokumenterad ochtidigare anvand inom omradet[30, 1].

Page 34: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

20 Teori

T 2 = n(x− µ)TS−1(x− µ) (3.19)

Ovan uttrycks Hotellings T 2 for kolumnvektorn/observationen x i medelvardenfor de olika variablerna µ, antalet observationer n och kovariansmatrisen S[30].

En funktion som indikerade vilka punkter som med visst konfidens var ”outliers”skapades i LabVIEW for anvandning vid realtidsprediktion.

3.4 Insamling, behandling och strukturering avdata

3.4.1 Datainsamling och behandling

For att samla in signaler anvands ett program skrivet av Oscar Cardfeldt i Lab-VIEW. Den insamlade signalen overfors till frekvensdoman genom fouriertrans-formering (FFT) och medelvardesbildas over 100 matpunkter innan det bildademedelvardesspektrumet sparas i ASCII-filer[7]. Dessa filer lases in och strukture-ras upp av skript skrivna i MATLAB. Datat sparas i binar form som ”.mat”-filer.For att underlatta atkomst till datat har ytterligare skript skrivits som pa ett en-kelt satt laser in det onskade datasetet och returnerar det i en strukturerad form(se ”setDATA.m” i appendix A).

Da ett referensprov tas trycker en operator pa en strombrytare som leder till attden aktuella tidpunkten skrivs till en fil. Dessa filer anvands senare for att hamtaspektrumet innan den aktuella tidpunkten. Provtagningen i sig antas paverkaflodet i roret sa pass mycket att spektra inhamtade kort efter provtagning inte kananses vara representativa for fluiden i roret. Operatorerna skriver in de uppmattareferensvardena i en kalkylbladsfil med tiden angiven for analysen. Dessa filer lasesin till MATLAB och paras ihop med det spektrum som sparats narmast innanprovtagningstillfallet. Dessa spektra med tillhorande referensvarden anvands foratt skapa modellen.

3.4.2 Strukturering av data

Autoskalning och uppdelning i kalibrerings-, prediktions- och eventuella overvak-ningsset ar relativt berakningsintensiva operationer. Darfor anvands binara flaggorfor att indikera om dessa operationer utforts eller inte. Pa sa satt behover intesamma berakningar utforas flera ganger. Rutinerna for autoskalning och uppdel-ning kontrollerar om operationerna redan utforts och returnerar i sa fall det redanprocessade datat.

Den datastruktur som anvands i MATLAB beskrivs utforligare i appendix A:”initializeDATA.m”. Oversiktligt kan dock sagas att datamaterialet samt flaggorsom indikerar autoskalning och liknande lagras tillsammans med allmanna samtmetodspecifika parametrar i en hierarisk datastruktur.

Page 35: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

3.5 Tidigare arbete inom multivariat analys for akustisk spektroskopi21

3.5 Tidigare arbete inom multivariat analys forakustisk spektroskopi

Inom multivariat analys eller kemometri som det ocksa kallas[5] med inriktningmot akustisk spektroskopi och akustiska matningar ar PLS och varianter av PLSde vanligast forekommande metoderna nar ett urval av publicerade artiklar gasigenom[17, 16, 5, 28, 31]. Aven olika former av wavelettransformer har appliceratspa akustisk data och kombineras med PLS eller PCR[12, 5]. Forskningen som be-drivs parallellt rorande NIR-spektroskopi anvander liknande analysmodeller ochdet ar rimligt att kunskap spiller over fran detta falt. Detta var fallet med ”Ortho-gonal Signal Correction” som ursprungligentogs fram av Wold och medforfattarefor NIR[34] och senare applicerades pa akustiska matningar av Bjork[5].

Neurala natverk har anvants ihop med akustiska emissioner for att bestammavilket traslag som anvandes vid en flisraffinor[36] och det indikeras i patentet sombeskriver aktiv akustisk spektroskopi att neurala nat har kan vara en lampligmetod att anvanda:

”In real cases the situations are far more complicated and multivariatestatistical analysis or neural networks are for instance used to evaluatethe measured acoustic spectra.”[18]

Page 36: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

22 Teori

Page 37: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Kapitel 4

Resultat

4.1 Explorativ dataanalys

Data fran en processindustri anvandes for den explorativa dataanalysen. Ett sex-tiotal referensvarden fanns for temperatur, densitet, viskositet och flode, vardensom uppmatts manuellt genom off-line matning. Vidare fanns aven automatiskareferensmatningar av temperatur var 30:e sekund under en langre period. Da-tamaterialet behandlades med datorprogrammet MATLAB fran MathWorks till-sammans med verktyget TOMCAT[13]. Detta resulterade i en rad PCA- ochPLS-undersokningar varav ett urval presenteras har.

4.1.1 PCA

I en principalkomponentsanalys som baseras pa FFT:er fran 17278 matpunkter in-samlade under sex dagar kan grupperingar ses i rummet som spanns upp av forsta,andra och tredje principalkomponenten (se figur 4.1). De grupperingar som liggerlangst fran centrum bestar nastan enbart av data fran en viss dag. Detta tyderpa att signalen andras mycket over tiden och att olika produktionsforfaranden ochdarigenom spektralsignaturer ar aktuella olika dagar. Ingen referensdata fannsatt tillga for de aktuella dagarna. Vidare slutsatser kan inte dras utifran PCA-plottarna.

Genom att titta pa forklaringsgraderna i figur 4.2 ar det mojligt att se hur stordel av variansen som forklaras i de olika principalkomponenterna. I detta exempelkravs det 17 komponenter for att forklara 95% av variansen men bara 3 styckenfor att forklara 80%. Som jamforelse kan namnas att antalet principalkomponen-ter som senare anvandes vid PCR var 33 stycken och den forklarade variansenvar 100% baserat pa ett mindre dataset an vad som anvandes vid den explora-tiva dataanalysen. En enklare undersokning av eventuellt tidsberoende utfordesgenom att de olika principalkomponenterna plottades mot tiden (figur 4.3) och

23

Page 38: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

24 Resultat

Figur 4.1. PCA for data fran ett antal dagar.

genom linjarregression. Ingen av dessa metoder visade pa nagot tidsberoende hoskomponenterna.

Page 39: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

4.1 Explorativ dataanalys 25

Figur 4.2. Ackumulerad forklaringsgrad i principalkomponentsanalysen visualiserad ifiguren 4.1. Notera den logaritmiska skalan for antalet komponenter.

Figur 4.3. Plot av de fem forsta principalkomponenternas varden mot tiden.

4.1.2 PLS

I figuren 4.4 kan varden pa RMSEC, har kallat RMS, RMSECV samt RMSEPses. Utifran dessa figurer ar det mojligt att se att PLS kan modellera alla onskadeparametrar om an med varierande precision. For samtliga PLS-modeller anvandes

Page 40: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

26 Resultat

Figur 4.4. Predikterade och observerade varden. Vita rutor avser valideringsdata ochsvarta ”diamanter” ar kalibreringsdata.

atta latenta variabler, korsvalidering med k=1 och autoskalad in- och utdata.I plotten for flode ses att endast ett fatal punkter har anvants for att modellerahoga varden, dessa punkter kan vara outliers eller sa kan det helt enkelt vara sa atthoga floden inte ar sa vanliga. Med ett storre dataunderlag och riktlinjer gallandestorleken pa de floden som skall modelleras skulle beslut kunna tas huruvida dessapunkter kan betraktas som outliers eller modelleras for sig. Eftersom endast enexplorativ analys utfordes gjordes inga antaganden om detta i det aktuella fallet.

4.2 Bayesiska natverk

Efter vad som framkommit utifran artiklar[8, 4] och intervju[26] kommer inte bay-esiska natverk implementeras for prediktion. Se teoriavsnittet 3.3.5 for utforligareforklaring.

Page 41: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

4.3 Jamforelse mellan PLS och NN-PCA 27

4.3 Jamforelse mellan PLS och NN-PCA

For att i enlighet med arbetets mal kunna utvardera artificiella neurala natverksformaga att analysera signalerna fran aktiv ljudspektroskopi utfordes en jamforelsemellan sadana och PLS som tidigare anvants for detta syfte[5].

All data autoskalas innan den anvands for modellering. Vid bade PLS och NN-PCA anvands 40% av observationerna till validering. For natverken anvands 20%av observationerna aven till att overvaka traningen av natverket. En del av data-materialet kommer fran samma processindustri som den explorativa dataanalysenmen aven data fran en undersokning av partikelstorlekar anvands.

4.3.1 Optimering av PLS

For att bestamma lampligt antal latenta variabler sa att prediktionsfelet mini-meras beraknas RMSEP (baserat pa valideringssetet) for alla antal latenta vari-abler mellan 1 och 50. Det antal variabler som ger lagst fel anvands senare vidjamforelser med andra metoder. Pa grund av arbetets omfattning maste anta-gandet att lagt RMSEP indikerar en bra modell goras. Att utforma modeller artill stor del ett hantverk men da det var tvunget att automatisera arbetet kundeutformning och anpassning inte utforas for hand.

4.3.2 Optimering av neurala natverk

For att finna optimala topografier hos natverk anvandes en simpel iterativ processdar prediktionsfelet minimerades. Enligt Despagne och Massart behover endast ettdolt lager anvandas da detta ar tillrackligt for att astadkomma universal approx-imation och fler lager inte innebar ett forbattrat resultat[11]. Detta underlattarbestamningen av topografin betydligt da endast antalet noder i det dolda lagretoch antalet principalkomponenter maste bestammas. Dessa parametrar bestamdesenligt foljande algoritm dar en kvadrat anvands for att soka av det diskreta rum-met:

1. Satt antalet principalkomponenter till ett initialt varde

2. Satt antalet noder i dolda lagret till ett initialt varde

3. Felen i en tankt kvadrat med centrum i den initiala koordinaten raknasut. RMSEP for startpunkten, de omkringliggande 8 punkterna och for de 16punkter som omger dessa 8 beraknas. RMSEP raknas ut som ett medelvardefor 10 observationer.

4. Identifiera punkten med minsta RMSEP.

5. Om denna punkt har lagre RMSEP an startpunkten, satt den till ny start-punkt och upprepa steg 3-5.

6. Om startpunkten har lagst RMSEP sa ar parametrarna optimerade.

Page 42: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

28 Resultat

Figur 4.5. Predikteringsfel for ANN beroende av parametrar. Exempel fran prediktionav viskositet.

4.3.3 Jamforelse

Da en topografi bestamts utfors ett storre antal anpassningar av nat med dennatopografi. Prediktionsfelen sparas och presenteras i histogram tillsammans medprediktionsfelet for en PLS-modell for samma data. Antalet latenta variabler iPLS-modellen bestams iterativt for att finna det antal som ger ett minimeratprediktionsfel. I foljande histogram presenteras resultatet fran tva jamforelserbaserade pa samma datamaterial som den explorativa dataanalysen, i ena falletanvands viskositet som malvariabel och det andra den automatiskt genereradetemperaturinformationen. Det bor belysas att detta inte ar matningar dar ljudsands in i mediet utan passiva matningar dar endast ljud som uppkommer franmediet sjalvt uppmatts.

Samtliga jamforelser baserade pa data fran processindustrin uppvisar liknande ut-seende. Prediktionsfelet for PLS ar lagre an ett uppskattat vantevarde for histo-grammet. Da PLS-modellen visar sig vara battre lampad for prediktion an ANNanvands den som referens for jamforelse med andra metoder. Endast vid etttillfalle fanns att ett medelvarde av RMSEP fran 100 anpassade ANN var lagre anRMSEP for PLS. Vid detta fall var antalet observationer mycket stort, over 5000stycken observationer av partikelstorlekar anvandes.

Da matsystemet amnar ersatta manuell provtagning uppstar ett problem. De ma-nuella provtagningarna ar dyra och tidskravande och maste darfor minimeras men

Page 43: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

4.4 Jamforelse mellan PLS och hybrid 29

Figur 4.6. Predikteringsfel for ANN, tva olika dataset, rod streckad linje avser RMSEPfor PLS.

de maste ocksa vara tillrackligt manga for att ge god sakerhet vid kalibrering-en. Har maste en avvagning goras mellan kostnad for provtagningar och predik-tionsformaga. Da antalet tillgangliga kalibreringspunkter inte kommer att uppgatill tusental kommer troligtvis inte artificiella neurala natverk overtraffa PLS-modellers prediktionsformaga vid liknande matapplikationer med passiv akustiskspektroskopi.

4.4 Jamforelse mellan PLS och hybrid

En jamforelse liknande den mellan PLS och ANN utfors mellan PLS och hybrid-modellen.

4.4.1 Optimering av hybridmodellen

Da hybridmodellen skall anvandas kravs tre parametrar: antalet latenta variab-ler for PLS-delen, antalet principalkomponenter for PCA och antalet noder i HLfor natverket. Detta medfor ytterligare en dimension till optimeringsproblemetjamfort med att optimera for NN-PCA. Algoritmen anpassades for detta fall meden kub istallet for en kvadrat:

1. Satt antalet latenta variabler till ett initialt varde

2. Satt antalet principalkomponenter till ett initialt varde

3. Satt antalet noder i dolda lagret till ett initialt varde

4. RMSEP for startpunkten, de omkringliggande 26 punkterna och for de 98punkter som omger dessa 26 beraknas. RMSEP raknas ut som ett me-delvarde for 10 observationer.

Page 44: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

30 Resultat

5. Identifiera punkten med minsta RMSEP.

6. Om denna punkt har lagre RMSEP an startpunkten, satt den till ny start-punkt och upprepa steg 4-6.

7. Om startpunkten har lagst RMSEP sa ar parametrarna optimerade.

4.4.2 Jamforelse

Figur 4.7. Predikteringsfel for hybrid, rod streckad linje avser RMSEP for PLS.

Denna jamforelse utfordes med samma datamaterial som jamforelsen med ANN. Istort visar hybriden samma egenskaper som natverken da den mestadels ar samrean PLS och ger olika stora fel fran fall till fall. Vart att namna ar att i det endafall da ANN gav lagre prediktionsfel an PLS gav hybriden ett annu lagre medelfel.

4.5 Jamforelse mellan PLS och MLR

Det stora problemet vid skapandet av en MLR-modell ar att det kravs ett mycketstort antal observationer for att deras antal skall overstiga antalet variabler som arminst 2048. Att de dessutom kan antas vara nara korrelerade[5] (se ”MLR”, sidan8) kraver ett annu storre antal observationer. For att erhalla tillrackligt mycketdata anvandes automatiskt insamlad temperaturdata som malvariabel. Da enjamforelse gjordes mellan MLR och PLS fanns att RMSEP for metoderna var 1,04respektive 0,49. Detta i kombination med kravet pa antalet observationer gor attmultipel linjar regression passar daligt for andamalet.

4.6 Jamforelse mellan PLS och PCR

Da principalkomponentregression jamfordes med PLS anvandes samma data somvid jamforelsen med ANN. En optimeringsalgoritm liknande den for PLS framtogs

Page 45: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

4.7 Oversikt over modeller 31

dar antalet principalkomponenter anvandes som oberoende variabel. Da bada me-toderna optimerats med avseende pa det foreliggande materialet bestamdes RM-SEP for PCR till 0,51 och 0,56 for PLS. For PCR anvandes 33 principalkomponen-ter vars sammanlagda forklarande varians var 100%. For PLS anvandes 8 latentavariabler med 90% respektive 88% forklarad varians for X- och Y-matrisen.

Da all varians, vilken aven innefattar brus, anvands for PCR-modellen ar riskenstor att modellen endast kan prediktera under kalibreringstiden. Modellen blirinte stabil over tid och en modell med lagre forklarad varians ar att foredra[1].

4.7 Oversikt over modeller

I tabellen 4.7 presenteras en oversikt over de framtagna modeller som beskrivs itidigare avsnitt.

Page 46: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

32

Resu

ltat

FIXME!!!

Tabell 4.1. Oversikt over framtagna modeller. Asterisk indikerar ett medelvarde av RMSEP fran 100 st anpassningar.

Typ LV PC NiHL RMSEP R2X (%) R2Y (%) Antal referenspunkter Datamaterial MalvariabelPLS 8 - - 0,56 88,7 94,6 66 Processindustri Viskositet

NN-PCA - 4 1 0,81* - 56,8 66 Processindustri ViskositetHybrid 4 4 1 0,88* - 46,9 66 Processindustri ViskositetPCR - 33 - 0,51 99,5 73,3 66 Processindustri ViskositetPLS 27 - - 0,49 62,5 26,0 4197 Processindustri TemperaturMLR - - - 1,04 - 97,3 4197 Processindustri TemperaturPLS 18 - - 0,62 49,0 78,4 841 Processindustri Temperatur

NN-PCA - 20 1 0,91* - 17,7 841 Processindustri TemperaturHybrid 9 22 11 0,87* - 15,8 841 Processindustri Temperatur

Page 47: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

4.8 Implementation i LabVIEW 33

4.8 Implementation i LabVIEW

Utifran de Jongs algoritm for PLS, ”SIMPLS”[10] och den implementation avdenna som finns i TOMCAT[13] skrevs algoritmen om for National Instrumentsprogramvara LabVIEW. Identiska dataset anvandes i TOMCAT och LabVIEWfor att verifiera att samma resultat erholls fran de bada implementationerna.

4.9 Anpassning av PLS till specifik matapplikation

4.9.1 Prediktion av provtagningstider

Da det framkom att det vid vissa provtagningar inte registrerats nagon tidpunktmed strombrytaren utformades en PLS-modell som tranades med alla tillgangligaspektra. Som malvariabel anvandes nollor och ettor dar en etta betecknar en prov-tagning. Denna modell anvandes for att prediktera tidpunkter for provtagningar.Spektra fran 90 minuter innan fram till de angivna tiderna i kalkylbladsfilerna pre-dikterades for att finna tiden da provet faktiskt tagits fran roret. Denna modellgav i vissa fall klara och tydliga toppar omkring med en amplitud pa 0,2 samt enbredd pa en observation. I andra fall syntes inga klara toppar. Da metoden kravermanuell inspektion av topparna for att undvika felaktiga resultat anvandes intemodellen for att fa fram ytterligare kalibreringsdata.

4.9.2 Kalibrering och optimering

Da matapparaturen forandrades efter att datat som anvandes for studien insamlatskan inte de framtagna resultaten anvandas for att kalibrera eller optimera nagonmodell. Daremot kan rutinerna ateranvandas da nytt data finns tillgangligt. Tro-ligtvis kommer uppstallningen pa processindustrin anvandas till aktiva akustiskamatningar och da kommer ytterligare undersokningar kravas for att bestammaprediktionsmodellernas utformning.

Page 48: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

34 Resultat

Page 49: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Kapitel 5

Diskussion

Pa grund av oforutsedda omstandigheter kunde inte aktiv akustisk spektrosko-pi utvarderas inom detta examensarbete. Datamaterial fanns inte tillgangligt itillrackligt stor utstrackning i god tid. Tillgangen till datamaterial har visat sigvara en mycket viktig faktor for bestamma vilka metoder som kan anvandas. Dematningar som referensmaterialet baseras pa ar dyra och ar begransande for hurkomplexa modeller som ar lampliga.

Ett artificiellt neuralt natverk kan teoretiskt prediktera de sokta storheterna battrean PLS da det aven tar hansyn till icke-linjara samband. Det kravs dock ett myc-ket storre datamaterial for att trana ett natverk med tillracklig storlek da dettenderar att modellera brus om inte det forhallandevis stora antalet vikter och lo-adingmatrisen kan kalibreras tillrackligt. Om stora mangder kalibreringsdata finnstillgangligt skulle neurala natverk kunna anvandas men om data ar lattillgangligtar troligtvis nyttan med akustisk spektroskopi liten.

Resultatet fran detta arbete kan endast appliceras pa de matningar med passivakustisk spektroskopi som undersokts. De kan vara vagledande da de aktuellametoderna skall utvarderas infor anvandandet av akustisk spektroskopi i liknan-de situationer med avseende pa matsystemets utformning, matapplikation ochtillgang pa referensdata.

Det ar mojligt att aktiv akustisk spektroskopi skulle kunna introducera fler icke-linjara samband mellan akustiska signaler och sokta storheter som ett artificielltneuralt natverk skulle kunna prediktera battre an linjar PLS. Vid aktiva matningarkommer ytterligare ingaende variabler introduceras i form av det ingaende ljudet.Om detta ljud halls konstant kommer dessa variabler att elimineras och antaletvariabler vara lika stort som vid passiva matningar. Problemet med antalet ka-libreringspunkter kvarstar dock, eftersom komplexiteten hos systemet okar medintroduktionen av akustiska vibrationer till ror och fluid. Det ar darfor inte rim-ligt att antalet kalibreringspunkter som kravs for att uppna samma kvalitet paprediktionen minskar.

35

Page 50: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

36 Diskussion

Mojligheten for att med god tillgang till kalibreringsdata erhalla en battre pre-diktion okar med anvandandet av aktiv akustisk spektroskopi da den frekvens-beroende absorptionen och liknande effekter torde fa storre betydelse vid ana-lysen. Denna mojlighet maste dock stallas emot det eventuellt okade behovetav kalibreringsdata for att skapa en modell. En aktiv akustisk matuppstallningmed valdigt god tillgang till kalibreringsdata skulle kunna anvanda sig av olikafeedback-konstruktioner som varierar det ingaende ljudet och analyserar frekvens-spektra, fasforandringar och impulssvar dynamiskt. Komplexiteten pa ett sadantokar dock dramatiskt och de eventuella vinsterna i prediktionsformaga ar osakra.Det vore darfor intressant att utfora matningar pa ett valkant system dar kalibre-ringsdata genereras kontinuerligt for att undersoka sadana fragor som behovetav kalibreringsdata nar matningarna utfors med aktiv istallet for passiv akustiskspektroskopi.

Uppdelningen av datamaterialet kan ha paverkat resultaten i viss utstrackning.Duplexmetoden ger en uppdelning som ger goda matematiska forutsattningar foratt skapa valideringsset. Forhoppningen var att den eventuella tidskorrelationensinverkan skulle minskas. Nar tekniken skall implementeras kommer inga liknandeuppdelningar goras, all tillganglig information kommer att anvandas till att skapaen modell. Eventuellt kan korsvalidering anvandas for att bestamma antalet laten-ta variabler som skall anvandas. Scenariot kommer att likna en blockuppdelningdar tidskorrelationen inte kommer att kunna bortses fran. Att en blockuppdel-ning inte anvandes i detta arbete grundas i att malet med arbetet var att jamforametoder i allmanhet inte deras stabilitet gentemot ”nya” data. Resultatet franjamforelse med blockuppdelning skulle emellertid vara intressant utifran en imple-mentationssynvinkel for att undersoka uppdelningens inverkan pa prediktionsfeloch residualer.

Aven anvandningen av RMSEP och uppdelningen i kalibrerings- och valideringssetkan diskuteras da det inte kommer att anvandas for att utforma modeller inforslutlig implementering. Aterigen beror valet av arbetssatt pa att malet avser enutvardering av metoderna generellt och inte specifikt for en sarskild tillampning.

Det ar mojligt att artificiella neurala natverk eller hybridmodellen har lagre predik-tionsfel an PLS for just den storlek pa dataset och den malvariabel som anvandes.Detta kan inte uteslutas utan storre dataunderlag. Det som undersokningarnavisar ar endast att storleken pa kalibreringssetet inte ar tillrackligt stort for atttrana ett neuralt natverk till battre prediktiv formaga an en PLS-modell baseradpa samma antal observationer. Gransen for nar artificiella neurala nat ger battreprediktioner skulle kunna ligga mellan antalet kalibreringspunkter och det tota-la antalet observationer i datasetet. Alltsa skulle fler observationer behovas foratt utrona om gransen verkligen gar dar. Detta resonemang leder dock till ettstegvis okat behov av data anda tills datamaterialet ar tillrackligt omfattande foratt visa att natverket ar battre an PLS, om det ens nagon gang intraffar. De un-dersokningar som gjordes med temperatur som malvariabel antogs vara tillrackligtlika de for de andra malvariablerna sa att slutsatserna fran temperatur-modellernakan appliceras aven pa de andra. Om detta antagande ar sant sa kan gransenfor antalet nodvandiga observationer vid anvandandet av artificiella neurala nat

Page 51: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

37

hojas avsevart jamfort med storleken pa kalibreringsseten. I likhet med andrafragestallningar skulle fragan om likheten mellan prediktion av temperatur ochandra malvariabler kunna utredas narmre med storre tillgang till datamaterial.

Om framtiden pavisar en mojlighet att anvanda artificiella neurala natverk i ochmed nya matapplikationer finns en grund for att snabbt kunna utvardera om detar lampligt eller ej. Vidare kan framtagna strukturer och funktioner anvandasfor att med relativt liten arbetsinsats jamfora alternativa metoder for multivariatanalys av akustisk spektroskopidata.

Pa basis av de resultat som framkommit verkar PLS och liknande metoder varabast lampade for anvandning vid applikationer liknande de undersokta. Exempel-vis skulle ”Partial M-Regression”, PRM[29] eller ”Wavelet Transform-Multi Re-solution Spectra”, WT-MRS[6] undersokas med liknande metoder som anvantsi detta arbete. Valet av analysmodell kan bara till en viss del paverka helamatuppstallningens prestanda. Darfor ar det viktigt att instrumentet som hel-het utvarderas och forbattras utifran vilka forandringar som ger storst okningari prestanda och att inte fokusera alltfor mycket pa den multivariata statistiskaanalysen.

Page 52: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

38 Diskussion

Page 53: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Kapitel 6

Slutsatser

PLS visade sig vara battre lampat for prediktering av sokta egenskaper utifranakustisk spektroskopidata an alla andra metoder som undersoktes. Bayesiskanatverk visade sig inte vara lampliga for andamalet och undersoktes darfor in-te narmare. Vid en vidareutveckling av tekniken foreslas darfor att PLS ellerliknande metoder sasom PRM[29] eller WT-MRS anvands[6].

39

Page 54: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

40 Slutsatser

Page 55: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Litteraturforteckning

[1] Intervju med Dr. Anders Bjork, Goteborg, 26/11 2009.

[2] Herve Abdi. Encyclopedia of measurement and statistics, chapter Partial Le-ast Square Regression PLS-Regression. A Sage reference publication. SAGE,Thousand Oaks California, USA, 2007. ISBN 978-1-412-91611-0.

[3] Yvonne Aitomaki. Towards a Measurement of Paper Pulp Quality: Ultraso-nic Spectroscopy of Fiber Suspensions. Licentiatavhandling, Lulea TekniskaUniversitet, 2006.

[4] Irad Ben-Gal. Bayesian networks. Encyclopedia of Statistics in Quality andReliability, 2007.

[5] Anders Bjork. Chemometric and signal processing methods for real timemonitoring and modeling : Applications in the pulp and paper industry.PhD thesis, KTH, Chemistry, 2007.

[6] Anders Bjork and Lars-Goran Danielsson. Spectra of wavelet scale coefficientdfrom process acoustic measurements as input for pls modeling of pulp quality.Journal of Chemometrics, 16:521–528, 2002.

[7] Oscar Cardfeldt. Passive Acoustic Spectroscopy as a detection method ofviscosity and other process parameters. Master’s thesis, Chalmers tekniskahogskola, 2009.

[8] Eugene Charniak. Bayesian networks without tears. AI Magazine, 12:50–63,1991.

[9] Barry W. Connors. Medical Physiology, chapter 11 Physiology of Neurons,pages 280–294. Elsevier Saunders, 2005.

[10] S. de Jong. SIMPLS: an alternative approach to partial least squares regres-sion. Chemometrics and Intelligent Laboratory Systems, 18:251–263, 1993.

[11] Frederic Despagne and D. Luc Massart. Neural networks in multivariatecalibration. The Analyst, 123:157R–178R, 1998.

41

Page 56: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

42 LITTERATURFORTECKNING

[12] Erdal Dinc, Fatma Demirkaya, Dumitru Baleanu, Yucel Kadioglu,and Ekrem Kadioglu. New approach for simultaneous spectral ana-lysis of a complex mixture using the fractional wavelet transform.Communications in Nonlinear Science and Numerical Simulation, 15(4):812–818, 2010. ISSN 1007-5704. doi: DOI:10.1016/j.cnsns.2009.05.021. URL http://www.sciencedirect.com/science/article/

B6X3D-4W8VW2X-D/2/6eff6999108a76b716997344d559557d.

[13] Michal Daszykowski et al. TOMCAT: A MATLAB toolbox for multi-variate calibration techniques. Chemometrics and Intelligent Laborato-ry Systems, 85(2):269–277, 2007. ISSN 0169-7439. doi: DOI:10.1016/j.chemolab.2006.03.006. URL http://www.sciencedirect.com/science/

article/B6TFP-4JX9V38-1/2/00ff2babbcd6ff49edfd761b3a61a217.

[14] T. Hill and P. Lewicki. STATISTICS Methods and Applications. StatSoft,2007.

[15] Lydia E. Kavraki. Dimensionality reduction methods for molecular motion,May 2010. URL http://cnx.org/content/m11461/1.10.

[16] Andriy Kupyna, Elling-Olav Rukke, Reidar Barfod Schuller, Hakon Helland,and Tomas Isaksson. Partial least square regression on frequency shift appliedto passive acoustic emission spectra. Journal of Chemometrics, 21(3-4):108–116, 2007.

[17] Andriy Kupyna, Elling-Olav Rukke, Reidar Barfod Schuller, and TomasIsaksson. The effect of flow rate, accelerometer location and tempera-ture in acoustic chemometrics on liquid flow: Spectral changes and ro-bustness of the prediction models. Chemometrics and Intelligent Labo-ratory Systems, 93(1):87–97, 2008. ISSN 0169-7439. doi: DOI:10.1016/j.chemolab.2008.04.007. URL http://www.sciencedirect.com/science/

article/B6TFP-4SCD9WK-1/2/3e75d19a7c32a1ffe105b6bbd6a218f7.

[18] Thomas Liljenberg, Stefan Backa, Lennart Thegel, and Mats Abom. Activeacoustic spectroscopy. United States Patent No. 20040006409, January 2004.URL http://www.freepatentsonline.com/20040006409.html.

[19] Tobias Lindgren and Sven Hamp. Biomass monitoring using acousticspectroscopy. IEEE Sensors Journal, 6:1068–1075, 2006.

[20] Tormod Næs, Tomas Isaksson, Tom Fearn, and Tony Davies. MultivariateCalibration and Classification, chapter Appendix A, pages 285–315. NIRPublications, 2004.

[21] Tormod Næs, Tomas Isaksson, Tom Fearn, and Tony Davies. Multivaria-te Calibration and Classification, chapter 2 Introduction, pages 5–9. NIRPublications, 2004.

[22] Tormod Næs, Tomas Isaksson, Tom Fearn, and Tony Davies. MultivariateCalibration and Classification, chapter 5 Data compression by PCR and PLS,pages 27–38. NIR Publications, 2004.

Page 57: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

LITTERATURFORTECKNING 43

[23] Tormod Næs, Tomas Isaksson, Tom Fearn, and Tony Davies. Multivariate Ca-libration and Classification, chapter 12 Other methods to solve non-linearityproblems, pages 137–154. NIR Publications, 2004.

[24] Tormod Næs, Tomas Isaksson, Tom Fearn, and Tony Davies. MultivariateCalibration and Classification, chapter 13 Validation, pages 138–175. NIRPublications, 2004.

[25] Tormod Næs, Tomas Isaksson, Tom Fearn, and Tony Davies. MultivariateCalibration and Classification, chapter 6 Interpreting PCR and PLS solutions,pages 39–54. NIR Publications, 2004.

[26] John Noble and Timo Koski. Bayesian Networks: An Introduction. JohnWiley & Sons Ltd, Chichester, UK, 2009.

[27] John Noble and Timo Koski. Intervju med Dr. John Noble, Linkoping, 7/122009, 2009.

[28] R. Schaefer and P. Hauptmann. Acoustic Impedance Measurement usingPLSR based Analysis of Ultrasonic Signals. Ultrasonics Symposium, IEEE,1:178–181, 2005.

[29] Sven Serneels, Christophe Croux, Peter Filzmoser, and Pierre J. Van Espe-na. Partial robust M-regression. Chemometrics and Intelligent LaboratorySystems, 79:55–64, 2005.

[30] James R. Thompson and Jacek Koronacki, editors. Statistical Process Con-trol: The Deming Paradigm and Beyond, chapter Multivariate Approaches,pages 289–320. Chapman & Hall/CRC, second edition, 2002.

[31] Marc Valente, Riccardo Leardi, Guy Self, Giorgio Luciano, and Jean Pi-erre Pain. Multivariate calibration of mango firmness using vis/nirspectroscopy and acoustic impulse method. Journal of Food Enginee-ring, 94(1):7–13, 2009. ISSN 0260-8774. doi: DOI:10.1016/j.jfoodeng.2009.02.020. URL http://www.sciencedirect.com/science/article/

B6T8J-4VRP1YT-2/2/a05bf2848ea340bdd32fa61eb518d533.

[32] Mattias Wahde. An Introduction to Adaptive Algorithms and IntelligentMachines, chapter 2 Architectures for adaptive systems, pages 4–13. Biblio-tekets Reproservice, Chalmers University of Technology, 5th edition, 2006.

[33] Mattias Wahde. An Introduction to Adaptive Algorithms and IntelligentMachines, chapter 3 Methods for adaptation and learning, pages 18–94. Bib-liotekets Reproservice, Chalmers University of Technology, 5th edition, 2006.

[34] Svante Wold, Henrik Antti, Fredrik Lindgren, and Jerker Ohman. Orthogonalsignal correction of near-infrared spectra. Chemometrics and Intelligent Labo-ratory Systems, 44(1-2):175 – 185, 1998. ISSN 0169-7439. doi: DOI:10.1016/S0169-7439(98)00109-9. URL http://www.sciencedirect.com/science/

article/B6TFP-3VF9V1R-F/2/d952cea6aa6147e3b50790fff891c0e3.

Page 58: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

44 LITTERATURFORTECKNING

[35] Svante Wold, Michael Sjostrom, and Lennart Eriksson. PLS-regression:a basic tool of chemometrics. Chemometrics and Intelligent Laborato-ry Systems, 58(2):109–130, 2001. ISSN 0169-7439. doi: DOI:10.1016/S0169-7439(01)00155-1. URL http://www.sciencedirect.com/science/

article/B6TFP-44B4XN8-6/2/902049f55bd33375bb5ae90aac740e74.

[36] J. Yang and G.A Dumont. Classification of acoustic emission signals viaHebbian feature extraction. Proceedings. IJCNN-91-Seattle: InternationalJoint Conference on Neural Networks, pages 113–118, 1991.

Page 59: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

Bilaga A

Oversikt over funktioner

MLR.m

% ----------------

% function: DATA=MLR(DATA,exponents)

% ----------------

% Aim:

% Perform a MLR based on DATA.X to predict DATA.Y

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

% expontents, exponents for x exponents=[0 1 2] means [1 x

% x^2]

PCR.m

% ----------------

% function: DATA=PCR(DATA,h,exponents)

% ----------------

% Aim:

% Perform a Principal Component Regression based on DATA.X

% to predict DATA.Y

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

% h, number of principal components

% expontents, exponents for x exponents=[0 1 2] means [1 x

45

Page 60: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

46 Oversikt over funktioner

x^2]

PLS.m

% ----------------

% function:

% DATA=PLS(DATA,manualCrossvalidation,maxNumberOfPCs)

% ----------------

% Aim:

% Perform a PLS based on DATA.X to predict DATA.Y

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

% manualCrossvalidation, perform a manual crossvalidation

% (select a number latent variables manually)

% maxNumberOfPCs, maximum number of latent variables to use

% in crossvalidation

addNoise.m

% ----------------

% Function: X=addNoise(X,percentage)

% ----------------

% Aim:

% Add normally distributed random numbers with

% std=(percentage of (max-min)) and mean=0 for each variable

% ----------------

% Input:

% X, data matrix

% percentage, percentage of (max-min) to use as std for noise

% Output:

% X, data matrix

autoscale.m

% ----------------

% Function: DATA=autoscale(DATA)

% ----------------

% Aim:

% Autoscales (mean=0, std=1) predictors and predictand

% ----------------

Page 61: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

47

% Input:

% DATA, information container as decribed in

initializeDATA.m

% ----------------

% Output:

% DATA, information container as decribed in

% initializeDATA.m

createMonitoring.m

% ----------------

% Function: DATA=createMonitoring(DATA)

% ----------------

% Aim:

% use a fourth of the calibration observations for

% monitoring of training

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

% ----------------

% Output:

% DATA, information container as decribed in

% initializeDATA.m

divideDATA.m

%

% ----------------

% Function:

% DATA=divideDATA(DATA,fractionToValidation,setMonitoring)

% ----------------

% Aim:

% Divide the data into calibration-, prediction- and

% optionally a

% monitoring set

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

% fractionToValidation, fraction of the material use for

% validation

% setMonitoring, boolean, set monitoring set or not

Page 62: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

48 Oversikt over funktioner

% ----------------

% Output:

% DATA, information container as decribed in

% initializeDATA.m

hybrid.m

% --------------------------------------

% function: [DATA NN]=hybrid(DATA,latentVariables,numberOfPCs,sizeOfNN)

% --------------------------------------

% Aim:

% Prediction of DATA.Y from DATA.X based on a combination

% of PLS and ANN

% --------------------------------------

% Input:

% DATA, as described in initializeDATA.m

% latentVariables, number of latent variables to be used

% numberOfPCs, number of principal components to be used

% sizeOfNN, number of nodes in hidden layer of ANN

% -------------------------------

% Output:

% DATA, as described in initializeDATA.m

% NN, Neural net settings including MATLAB neural net

% object NN.net

initializeDATA.m

% ----------------

% Function: NN=initializeNN(DATA,sizeOfNN)

% ----------------

% Aim:

% This function initializes/resets information-container

% DATA to default

% values

% ----------------

% Output:

% DATA, information container as described in

% % initializeDATA.m

initializeNN.m

Page 63: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

49

% ----------------

% Function: NN=initializeNN(DATA,sizeOfNN)

% ----------------

% Aim:

% Initializes/resets neural net

% ----------------

% Input:

% DATA, information container as decribed in

% % initializeDATA.m

% sizeOfNN, size of hidden layer

% ----------------

% Output:

% NN, information container for neural network

nnPCA.m

% Perform a neural network prediction based on PCA

optimizeHybrid.m

% ----------------

% Function: [DATA,NN]=optimizeNN(DATA,NNsize,nPC)

% ----------------

% Aim:

% Optimize structure of hybrid model

% ----------------

% Input:

% DATA, information container as decribed in

% % initializeDATA.m

% NNsize, initial guess for size of hiddel layer

% nPC, initial guess for number of principal components

% lv, initial guess for number of latent variables

% ----------------

% Output:

% DATA, information container as decribed in

% initializeDATA.m

% NN, information container for neural network as described

% in initializeNN

optimizeNN.m

Page 64: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

50 Oversikt over funktioner

% ----------------

% Function: [DATA,NN]=optimizeNN(DATA,NNsize,nPC)

% ----------------

% Aim:

% Optimize structure of NN

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

% NNsize, initial guess for size of hiddel layer

% nPC, initial guess for number of principal components

% ----------------

% Output:

% DATA, information container as decribed in

% initializeDATA.m

% NN, information container for neural network as described

% in initializeNN

optimizePCR.m

% ----------------

% Function: DATA=optimizePCR(DATA,exponents)

% ----------------

% Aim:

% Optimize structure of hybrid model

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

% expontents, exponents for x exponents=[0 1 2] means [1 x x^2]

% ----------------

% Output:

% DATA, information container as decribed in

% initializeDATA.m

optimizePLS.m

% ----------------

% Function: [DATA ERRORR]=optimizePLS(DATA)

% ----------------

% Aim:

% Optimize number of latent variables for PLS-model

Page 65: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

51

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

% ----------------

% Output:

% DATA, information container as decribed in

% initializeDATA.m

% ERRORR, vector containing RMSEP-values for all tested

% number of lv:s

optimizePRM.m

performPCA.m

% ----------------

% function: DATA=performPCA(DATA)

% ----------------

% Aim:

% Perform a PCA on the X-matrix

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

plotIteration.m

% ----------------

% function: plotIteration(newCoord,oldCoord)

% ----------------

% Aim:

% Visualize the latest optimization iteration through a plot

% ----------------

% Input:

% newCoord, the new coordinate to plot

% oldCoord, the old coordinate to plot

Page 66: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

52 Oversikt over funktioner

plotYhatY.m

% ----------------

% function: plotYhatY(DATA,NN,hybrid)

% ----------------

% Aim:

% Plot predicted y versus observed y for the different

% models

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

% NN, information container for neural network as described

% in initializeNN

% hybrid, boolean for determining if to plot hybrid model

% or not

plotYhatYPCR.m

% ----------------

% function: plotYhatYPCR(DATA,NN,hybrid)

% ----------------

% Aim:

% Plot predicted y versus observed y for PCR model

% ----------------

% Input:

% DATA, information container as decribed in

% initializeDATA.m

projectOntoPCs.m

% ----------------

% Function: DATA=projectOntoPCs(DATA)

% ----------------

% Aim:

% Projects the X-data onto principal components

% for PCA model

% ----------------

% Input:

% DATA, information container as decribed in initializeDATA.m

% ----------------

% Output:

% DATA, information container as decribed in initializeDATA.m

Page 67: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

53

projectOntoPCsHybrid.m

% ----------------

% Function: DATA=projectOntoPCsHybrid(DATA)

% ----------------

% Aim:

% Projects the X-data onto principal components

% for hybrid model

% ----------------

% Input:

% DATA, information container as decribed in initializeDATA.m

% ----------------

% Output:

% DATA, information container as decribed in initializeDATA.m

projectOntoPCsPCR.m

% ----------------

% Function: DATA=projectOntoPCsPCR(DATA)

% ----------------

% Aim:

% Projects the X-data onto principal components

% for PCR model

% ----------------

% Input:

% DATA, information container as decribed in initializeDATA.m

% ----------------

% Output:

% DATA, information container as decribed in initializeDATA.m

setDATA.m

% ---------------------------

% function: DATA=setDATA(source,factor,whichOne,noise)

% ---------------------------

% Aim:

% Load data from file according to inputs

% ---------------------------

% Input:

% source, either ’anders’ or ’EKA’ depending on which data

to load

% factor, if specified every factor:th observation is used.

% if not specified for EKA, manual measurements are used

Page 68: Institutionen f or Fysik, Kemi och Biologiliu.diva-portal.org/smash/get/diva2:320591/FULLTEXT01.pdfTill ampad Fysik Department of Physics, Chemistry and Biology Link opings universitet,

54 Oversikt over funktioner

% whichOne, specifies lower boundary of particle-size

% interval to read

% noise, if true, noise will be added to X-matrix, see

% addNoise.m

% -----------------------

% Output:

% DATA, information is stored in the container DATA, see

% initializeDATA.m

% for details

% -----------------------