Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
1
ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA
1
REGRESSÃO LINEAR Verificado, pelo valor de “r”, que ocorre uma significante
correlação linear entre duas variáveis há necessidade de quantificar tal relação, o que é feito pela análise de regressão.
Cálculo da equação de uma reta que, disposta num sistema de eixos cartesianos, com valores de yi (variável dependente) na ordenada e xi (variável independente) na abcissa, a soma dos quadrados dos desvios verticais dos pontos em relação a ela seja mínima.
Y = a +bX, onde Y é o valor estimado para um específico valor xi; “b” revela
a inclinação da reta, ou seja o acréscimo ou decréscimo do valor de y em relação à x; “a” localiza o ponto de interseção da reta em relação ao sistema de coordenada retangulares.
2
3
VERIFICAÇÃO DO AJUSTE A UMA RETA PELO COEFICIENTE DE DETERMINAÇÃO (R2)
Proporção da variação total da variável dependente “zi” que é explicada pela variação da variável independente “xi”
Variação total dos dados: SQT = Z2 – (Z)2/n Variação devido à linha calculada: SQP = Z*2–(Z*)2/n Variação devido aos resíduos: SQR = SQT - SQP
Porcentagem de ajuste da linha: R2 = (SQP/SQT)100
O coeficiente de correlação “r” indica a relação entre variáveis
e “r2” indica o quanto uma variável “explica” a outra, ou quanto a linha calculada se ajusta aos dados originais.
4
REGRESSÃO CURVILÍNEA
• Variáveis independentes: potências crescentes de xi, • Cálculo dos coeficientes ai • Com potências crescentes de xi, curva mais complexa para ajuste • Processo por etapas (stepwise)
• O modelo para a regressão polinomial de grau k é
...3X3
a2X2
aX1
a0
a*Y
εki
Xkα...2
iX
2α
iX
1α
oαY 5
FUNÇÃO QUADRÁTICA
6
2
FUNÇÃO CÚBICA
7
REGRESSÃO LINEAR MÚLTIPLA
• Testa dependências cumulativas de uma única variável dependente (Y) em relação à diversas variáveis independentes (Xi)
• Y = a0 + a1X + a2X2 + a3X3 + a4X4 + ......+ e
• A variância total de Y é em parte "explicada" pelas diversas variáveis X's e o restante pela variabilidade devido ao erro (e)
• A proporção da variância dos Y observados "explicada" por uma equação de regressão ajustada é representada pelo coeficiente de determinação R², variando entre 0 e 1
• O termo "explicada" tem apenas um significado numérico não implicando necessariamente em um conhecimento causa-efeito sobre o porque da relação existente
8
• Os coeficiente “ai”, parciais de regressão, fornece a taxa de mudança na variável dependente correspondente à respectiva variável independente, mantendo constantes as demais variáveis independentes.
• Coeficientes de regressão parciais fornecem porcentagens explicadas da soma de quadrados de Y segundo 2k-1 combinações, onde k é o número de variáveis independentes.
• É verificada a contribuição pura de cada variável
independente por comparações sucessivas entre os diversos resultados.
• As relações entre as variáveis devem ser lineares
9
Evitar um número inferior de casos em relação ao número de variáveis consideradas; é recomendado que tal relação seja da ordem de 10 a 20 vezes superior
Evitar variáveis independentes redundantes, isto é, que tenham um alto coeficiente de correlação entre si
Verificar, utilizando resíduos, a presença de valores anomalos
10
• Regressão múltipla é multivariada no sentido de que mais de uma variável é medida simultaneamente em cada observação
• Trata-se, porem de uma técnica univariada, pois o estudo é em relação à variação da variável dependente Y, sem que o comportamento das variáveis independentes, Xs, seja objeto de análise.
11
CÁLCULO DOS COEFICIENTES AI
YX
YX
YX
Y
a
a
a
a
XXXX
XXXXX
XXXX
XXN
m
2
1
m
2
1
0
2mm1m
m2212
m1211
m1
[A] = [X]-1.[Y] 12
3
13 14
15 16
PEREIRA BARRETO/RESERVATÓRIO DE TRES IRMÃOS: LOCALIZAÇÃO DOS PONTOS DE AMOSTRAGEM
7714000
49
00
00
48
60
00
7722000
49
40
00
7718000
Cor
rego
Aze
da
Lara
nja
Cor
rego
Ponte
P
ensa
Rio Tiete
Pere
ira B
arr
eto
17
Qual variável condiciona mais o Nivel Hidrostático?
18
4
EQUAÇÕES E COEFICIENTES DE DETERMINAÇÃO (R2) H: VARIÁVEL DEPENDENTE
Variável / Equação (R2)
Topografia
H = 91.568 + 0.694*Z (m)
0,842
Topografia / Coordenada Y
H = - 49490.061 + 6.454E-03*Y (m)
0,881
Topografia / Coordenada Y / Coordenada X
H = - 15369.721 + 0.503*Z (m) + 1.941E-03*Y (m) + 1.114E-03*X (m)
0,890
Topografia / Coordenada Y / Coordenada X / Espessura da Formação
H = - 16597.215 + 0.493*Z (m) + 2.098E-03*Y (m) + 1.148E-03*X (m) -
8.751E-03*FM (m)
0,890
Topografia / Coordenada Y / Coordenada X / Espessura da Formação /
Topo Basalto
H = - 16687.963 + 0.588*Z (m) + 2.110E-03*Y (m) + 1.146E-03*X (m) -
9.567E-02*TB (m) - 0.105*FM (m)
0,890
19
CONTRIBUIÇÃO PERCENTUAL DE CADA VARIÁVEL INDEPENDENTE COM RELAÇÃO À VARIAVEL DEPENDENTE H (SUPERFÍCIE POTENCIOMÉTRICA DO AQÜÍFERO LIVRE).
Variável Contribuição
Topografia 84,2% (0,842)
Coord. Y 3,9% (0,881-0,842)
Coord. X 0,9% (0,890-0,881)
Espess. aqüífero 0,0% (0,890-0,890)
Topo basalto 0,0% (0,890-0,890) 20
SUPERFÍCIE POTENCIOMÉTRICA DO AQÜÍFERO LIVRE (NH)
21
MAPA TOPOGRÁFICO
22
ESPESSURA DA FORMAÇÃO AQÜÍFERA
23
CONTORNO DO TOPO DO BASALTO
24
5
TOPOGRAFIA E LENÇOL FREÁTICO
25
superfície potenciométrica topografia 26
y = 0.804x + 51.259
R2 = 0.8104
270
290
310
330
350
370
390
270 290 310 330 350 370 390
Cota do Terreno (m)
Co
ta d
o N
ível
d'Á
gu
a (
m)
27
APLICAÇÃO DO MODELO LINEAR MÚLTIPLO À CONFECÇÃO DE MAPAS: ANÁLISE DE SUPERFÍCIES DE TENDÊNCIA.
A análise de superfícies de tendência é simplesmente um tipo de análise de regressão múltipla em que as variáveis independentes são as coordenadas geográficas E-W e N-S.
Com a aplicação dessa análise consegue-se separar dados mapeáveis em duas componentes: uma de natureza regional, representada pela própria superfície, e outra que revela as flutuações locais, representadas pelos valores residuais. 28
)y,x(e]...yayxaxayaxaa[)Y,X(z iii2i5ii4
2i3i2i10i
]Z[]A[]XY[
yz
xz
z
2a
1a
0a
yyxy
yxxix
yxn
ii
ii
i
2
iiii
ii
2
i
ii
]Z[]XY[]A[ 1
29
Dados originais
Dados interpolados
Ajustando uma superfície de tendência de 1º grau
30
6
i
2
i
iii
i
2
i
ii
ii
i
1
4
i
3
ii
2
i
2
i
3
i
2
ii
2
i
3
ii
2
i
2
ii
3
i
2
ii
2
iii
2
i
2
ii
3
i
4
i
2
i
3
i
2
i
3
i
2
iii
2
i
2
iiii
2
iii
2
i
3
ii
2
ii
2
iii
2
iii
5
4
3
2
1
0
zy
zyx
zx
zy
zx
z
yyxyxyyxy
yxyxyxyxi
yxyx
yxyxxi
yxxx
yyxyxyyxy
yxyxxi
yxxx
yyxxyxn
b
b
b
b
b
b
Coeficientes para uma superfície de 2º grau
31
Amostragem: Rio Paraiba/plancton
0 500 1000 1500 2000 2500
0
50
100
Entrada de efluente 32
SUPERFÍCIE LINEAR
0 500 1000 1500 2000 25000
50
100
0 500 1000 1500 2000 25000
50
100
Superfície linear ou de 1º grau
33
RESÍDUOS DA SUPERFÍCIE DE TENDÊNCIA
0 500 1000 1500 2000 25000
50
100
Resíduos positivos e negativos da superfície linear
34
35
Bacia hidrográfica do Araquá, localizada na região centro-oeste do estado de São Paulo, distribuída entre os municípios de São Manuel e Botucatu . (SILVA, R. F. B., 2011)
36
64 pontos de amostragem. Variáveis medidas: areia, argila, fósforo (P), potássio (K) e saturação por bases (V%).
7
37 38
39
Areia
40
Argila
EXERCÍCIO 01 As matrizes de dados a serem analisadas são
compostas, cada uma, por 36 amostras provenientes de um levantamento de solos de parte do Horto Santa Terezinha, numa área de 1.573,96 ha, pertencente à Chamflora Agricola Ltda, localizado no município de Mogi-Guaçú/SP.
A primeira matriz contem amostras retiradas de uma profundidade de 0-20 cm, tendo sido obtidos valores de areia (%), silte (%), argila (%), pH, Ca2+ (meq 100 g-1), Mg2+ (meq 100 g-1), K+ (meq 100 g-1), Al3+ (meq 100 g-1), H+ (meq 100 g-1), Passimilável (ug cm-3), MO (%).
A segunda contem amostras retiradas de uma profundidade de 60-80 cm, tendo sido obtidos valores de areia (%), silte (%), argila (%), pH, Ca2+ (meq 100 g-1), K+ (meq 100 g-1), Al3+ (meq 100 g-1), H+ (meq 100 g-1), Passimilável (ug cm-3), MO (%).
4
1
XLSTAT:
Distribuição espacial dos pontos de amostragem (Visualização de dados/Scatter plots)
Histogramas e respectivo ajuste a uma distribuição normal (Modelagem de dados/Ajuste de uma distribuição).
Matriz de coeficientes de correlação entre as variáveis (Descrição de dados/Matrizes de similaridades/similaridades)
4
2
8
43