9
1 Data processing in CĐKT TS. TS. Lê Lê Văn Văn Đim Đim Khoa Khoa MTB MTB Pattern recognition - Applications

3.1 Data Mining - Regression Model

  • Upload
    kienhp

  • View
    213

  • Download
    0

Embed Size (px)

DESCRIPTION

Máy tàu thủy

Citation preview

Page 1: 3.1 Data Mining - Regression Model

1

Data processing in CĐKT

�� TS. TS. LêLê VănVăn ĐiểmĐiểm

�� KhoaKhoa MTBMTB

Pattern recognition - Applications

Page 2: 3.1 Data Mining - Regression Model

2

Function approximation/regression –Xấp xỉ hàm hay Phương pháp hồi quy

�� ĐặtĐặt vấnvấn đềđề: : TìmTìm quyquy luậtluật thaythay đổiđổi củacủa ápápsuấtsuất chỉchỉ thịthị bìnhbình quânquân theotheo thờithời giangian

Time 8105 8141 8230 8231 8232 8233 8824 8825 9077 9079

Pi (bar) 9.97 9.14 8.97 9 9.05 8.65 8.3 8.5 8.74 8.41

Ý tưởng ban đầu: Data plot

0 1000 2000 3000 4000 5000 6000 7000

5

5.5

6

6.5

7

7.5

8

8.5

9

9.5

10

Time (h)

Mea

n in

dica

ted

pres

sure

(ba

r)

Pi

Page 3: 3.1 Data Mining - Regression Model

3

Matching function – Phương pháp bình phương bé nhất (least square)

�� HàmHàm bậcbậc nhấtnhất: y = a: y = a00 + a+ a11xx

Matching function – Phương pháp bình phương bé nhất (least square)

�� XácXác địnhđịnh saisai sốsố bìnhbình phươngphương ((khoảngkhoảng cáchcách))

�� VớiVới điềuđiều kiệnkiện cựccực tiểutiểu

( )2

1

ˆmin)min( ∑=

−=n

i

ii yyR

Page 4: 3.1 Data Mining - Regression Model

4

Matching function – Phương pháp bình phương bé nhất (least square)

�� Linear modelLinear model

1000 2000 3000 4000 5000 6000

5

5.5

6

6.5

7

7.5

8

8.5

9

9.5

10

Time (h)

Mea

n in

dica

ted

pres

sure

(ba

r)Pi vs. Time

fit 1

Linear model Poly1: f(x) = p1*x + p2Coefficients (with 95% confidencebounds):p1 = -3.546e-005 (-0.0001329, 6.2e-005)p2 = 8.944 (8.466, 9.421)Goodness of fit: SSE: 62.57 R-square: 0.007053 Adjusted R-square: -0.006365 RMSE: 0.9195

Matching function – Phương pháp bình phương bé nhất (least square)

�� LoạiLoại bỏbỏ outliers (data exclusion)outliers (data exclusion)

1000 2000 3000 4000 5000 6000

5

5.5

6

6.5

7

7.5

8

8.5

9

9.5

10

Time (h)

Mea

n in

dica

ted

pres

sure

(ba

r)

Pi vs. Time

Outliers exclusion

Linear model Poly1: f(x) = p1*x + p2Coefficients (with 95% confidence bounds):p1 = -1.988e-005 (-6.357e-005, 2.38e-005) p2 = 9.088 (8.875, 9.301)Goodness of fit: SSE: 11.21 R-square: 0.01181 Adjusted R-square: -0.002511 RMSE: 0.4031

Page 5: 3.1 Data Mining - Regression Model

5

Matching function – Phương pháp bình phương bé nhất (least square)

�� SaiSai sốsố bìnhbình phươngphương (Residuals)(Residuals)

1000 2000 3000 4000 5000 6000

5

6

7

8

9

10

Data and Fits

1000 2000 3000 4000 5000 6000-1.5

-1

-0.5

0

0.5

1Residuals

Pi vs. Time

Outliers exclusion

Outliers exclusion

Data pre-processing

�� StandardizationStandardization

��CácCác biếnbiến dữdữ liệuliệu cócó đơnđơn vịvị vàvà độđộ lớnlớn kháckhácnhaunhau cócó thểthể so so sánhsánh vớivới nhaunhau

Page 6: 3.1 Data Mining - Regression Model

6

Data pre-processing

�� Smoothing (moving average)Smoothing (moving average)

��GiúpGiúp loạiloại bỏbỏ ảnhảnh hưởnghưởng củacủa nhiễunhiễu

Function approximation with neural network

Page 7: 3.1 Data Mining - Regression Model

7

Function approximation with neural networkThông sô đầu vào Thông sô đầu ra

Vị trí thanh răng, h Vòng quay động cơ, n

Nhiệt đô nước làm mát vào, tnv Công suất có ích, Ne

Nhiệt độ dầu bôi trơn vào, tdv Nhiệt đô khi xa, tkx

Nhiệt độ không khí nạp, ts Nhiệt độ nước làm mát ra, tnr

Áp suất không khí nạp, ps Nhiệt đô dầu bôi trơn ra, tdr

�� TồnTồn tạitại quanquan hệhệ hàmhàm sốsố: outputs = : outputs = f f (inputs)(inputs)

�� KhôngKhông tuyếntuyến tínhtính, , đađa chiềuchiều

�� KhôngKhông giảigiải đượcđược bằngbằng toántoán họchọc truyềntruyền thốngthống

Function approximation with neural network�� Training data setTraining data set

�� CrossCross--validation datavalidation data

�� Testing data setTesting data set

Chuẩn bị, xử lý dữliệu

Lựa chọn cấu trúcmạng và điều kiện đầu

Huấn luyện mạng

Kiểm tra mạngđã huấn luyện

Sử dụng để nhận dạngdữ liệu mới

Yes

No

Page 8: 3.1 Data Mining - Regression Model

8

Training/Cross-validation errors

Kết quả tính toán trên mô hình

0 10 20 30 40 50 60 70 80 90 100320

340

360

380

400

Exh

. ga

s te

mp.

0 10 20 30 40 50 60 70 80 90 100-10

-5

0

5

10

% P

ridic

tion

erro

r

desired

output

Page 9: 3.1 Data Mining - Regression Model

9

Bài tập thực hành

�� Cho Cho bảngbảng sốsố liệuliệu ápáp suấtsuất chỉchỉ thịthị bìnhbình quânquântheotheo thờithời giangian

Pi 9.97 9.14 8.97 9 9.05 8.65 8.3 8.5 8.74 8.41 9.05 9.21 9.27 9.3 9.28

Time 105 141 230 231 232 233 824 825 1077 1079 1135 1137 1139 1171 1172

Pi 9.52 8.91 4.84 9.25 9.36 9.28 9.25 9.7 9.25 8.87 9.5 8.86 9.15 8.7 8.51

Time 1469 1603 1800 2168 2474 2899 3302 3480 3830 4019 4556 5179 5362 5365 5386

Pi 7.74 9.05 9.1 9.03 8.85 8.72 6.15 6.16 9.3 9.28 9.13 9.13 8.88 8.79 8.8

Time 5388 5458 5482 5483 5484 5485 5578 5579 5635 5636 5640 5641 5712 5713 5714

Pi 8.75 8.08 8.55 8.58 9.21 9.24 9.01 9.38 9.12 9.8 9.02 9 9.07 9.03 7.85

Time 5716 5718 5782 5783 5801 5809 5833 5834 5883 5887 5911 5912 5913 5930 5936

Pi 6.55 5.05 9.22 9.3 9.27 9.15 9 9.34 9.12 9.22 9.22 8.85 8.91 9.02 9.04

Time 5940 5963 5980 5981 6072 6073 6078 6178 6179 6351 6352 6483 6486 6535 6536

Matlab curve fitting

�� SửSử dụngdụng MATLAB Curve fitting toolbox MATLAB Curve fitting toolbox đểđểtìmtìm quyquy luậtluật thaythay đổiđổi

��CácCác chứcchức năngnăng fitting fitting cơcơ bảnbản;;

��LọcLọc dữdữ liệuliệu (data smoothing, outliers (data smoothing, outliers exclusion, robust fit)exclusion, robust fit)