16
Facultad de Estad´ ıstica Proyecto de Grado Noviembre 2019 Modelamiento de la severidad para autom´ oviles asegurados en elgica por medio de mixturas finitas de distribuciones para el no 1997 Severity modeling for cars insured in Belgium through finite mixtures of distributions for the year 1997 Jessica Alexandra Cardona Rodriguez. a [email protected] Wilmer Pineda R´ ıos. b [email protected] Resumen En este trabajo se realiza un an´ alisis de la severidad para autom´ oviles asegurados, se pretende observar la relaci´ on con el tipo de autom´ ovil, cobertura de seguro, edad del autom´ ovil, edad de la persona, genero, seguro grupal, periodo de pago y tipo de combustible, por medio de una mixtura finita de distribuciones condicionada a la media. Se considerar´ an diferentes distribuciones continuas que permitan ajustar valores donde la severidad es alta, debido al tipo de autom´ ovil, cobertura y dem´ as factores que influyan al aumento de esta, se identifican las distribuciones o distribuci´ on que se ajuste a los datos obteniendo as´ ı los diferentes par´ ametros y estimaciones de la mixtura con sus respectivos pesos y umero de componentes. El algoritmo hope-maximization (EM) es un m´ etodo iterativo que se encarga de encontrar m´ aximos locales de la verosimilitud, en donde su funci´ on es hacer la estimaci´ on de m´ axima verosimilitud de los par´ ametros de la mixtura. Abstract In this work an analysis of the severity for insured cars will be carried out, it is intended to observe the relationship with the type of car, insurance coverage, age of the car, age of the person, gender, group insurance, payment period and type of fuel , by means of a finite mixture of distributions conditioned to the average. Different continuous distributions that allow adjusting values where the severit y is high, due to the type of car, coverage and other factors that influence the increase of this, will be considered distributions or distribution that fits the data thus obtaining the different parameters and estimates of the mixture with their respective weights and number of components. The hope-maximization algorithm (EM) is an iterative method which is responsible for finding local maximums of likelihood, where its function is to estimate the maximum likelihood of the parameters of the mixture. a Estudiante pregrado Estad´ ıstica, U. Santo Tom´ as, sede Bogot´ a b Docente Facultad de Estad´ ıstica, U. Santo Tom´as, sede Bogot´a 1

Modelamiento de la severidad para autom oviles asegurados

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modelamiento de la severidad para autom oviles asegurados

Facultad de EstadısticaProyecto de Grado

Noviembre 2019

Modelamiento de la severidad para automoviles asegurados enBelgica por medio de mixturas finitas de distribuciones para el

ano 1997

Severity modeling for cars insured in Belgium through finite mixtures of distributions forthe year 1997

Jessica Alexandra Cardona Rodriguez.a

[email protected] Pineda Rıos.b

[email protected]

Resumen

En este trabajo se realiza un analisis de la severidad para automoviles asegurados, se pretende observarla relacion con el tipo de automovil, cobertura de seguro, edad del automovil, edad de la persona,genero, seguro grupal, periodo de pago y tipo de combustible, por medio de una mixtura finita dedistribuciones condicionada a la media. Se consideraran diferentes distribuciones continuas que permitanajustar valores donde la severidad es alta, debido al tipo de automovil, cobertura y demas factoresque influyan al aumento de esta, se identifican las distribuciones o distribucion que se ajuste a losdatos obteniendo ası los diferentes parametros y estimaciones de la mixtura con sus respectivos pesos ynumero de componentes. El algoritmo hope-maximization (EM) es un metodo iterativo que se encargade encontrar maximos locales de la verosimilitud, en donde su funcion es hacer la estimacion de maximaverosimilitud de los parametros de la mixtura.

Abstract

In this work an analysis of the severity for insured cars will be carried out, it is intended to observe therelationship with the type of car, insurance coverage, age of the car, age of the person, gender, groupinsurance, payment period and type of fuel , by means of a finite mixture of distributions conditionedto the average. Different continuous distributions that allow adjusting values where the severit y is high,due to the type of car, coverage and other factors that influence the increase of this, will be considereddistributions or distribution that fits the data thus obtaining the different parameters and estimates ofthe mixture with their respective weights and number of components. The hope-maximization algorithm(EM) is an iterative method which is responsible for finding local maximums of likelihood, where itsfunction is to estimate the maximum likelihood of the parameters of the mixture.

aEstudiante pregrado Estadıstica, U. Santo Tomas, sede BogotabDocente Facultad de Estadıstica, U. Santo Tomas, sede Bogota

1

Page 2: Modelamiento de la severidad para autom oviles asegurados

2 Jessica Alexandra Cardona Rodriguez. & Wilmer Pineda Rıos.

1. Introduccion

Existen poblaciones que por su naturaleza se encuentran valores que son igual de frecuentes al puntode que se observa una bimodalidad o multimodalidad, por lo tanto, se obtienen multiples picos en sudistribucion, ası que la poblacion se puede fraccionar por cada moda para obtener subpoblaciones yhallar la distribucion que se ajusta a cada subpoblacion.

Se han realizado modelos para determinar el numero de siniestro para el seguro automovilıstico, Hiraldoy Guerrero (2015) realizaron un analisis econometrico realizando un modelo binomial negativo inflado deceros. La severidad es un factor importante para la industria aseguradora, en Barranquilla Dıaz (2017)realizo un estudio de los factores de riesgo que afectan la severidad aplicado a la ciudad de Cartagena,para este caso se realizaron modelos multinomiales, logit anidado y ordenados.

Por otra parte, los modelos de mixtura proporcionan un marco semiparametrico conveniente en el cualmodelar formas de distribucion desconocidas, independientemente del objetivo, ya sea puede ser, porejemplo, la estimacion de densidad (Mc Lachlan & Peel, 2000)

Ademas, las mixturas finitas de distribuciones han proporcionado un enfoque matematico para el mo-delado estadıstico de una amplia variedad de fenomenos aleatorios. Debido a su utilidad como metodoextremadamente flexible de modelado, los modelos de mixturas finitas han seguido recibiendo una aten-cion creciente a lo largo de los anos, tanto desde el punto de vista practico como teorico. (Mc Lachlan &Peel, 2000)

Por otro lado, se han realizado estudios de mixturas de distribuciones normales condicionado al modeladode la media y varianza (Roldan,2014), donde se evaluan diversos escenarios para la varianza y la media.Autores como Molina y Jimenez (2014), realizaron mixturas de distribuciones Weibull para la valoracionde derivados europeos, donde se toma esta distribucion por su asimetrıa ajustandose ası a los datos quese tienen en este estudio.

Del mismo modo, la empresa MAPFRE realizo un estudio en el cual se aplican mixturas de distribucionespara la siniestralidad, como alternativa a las aproximaciones clasicas que consideran, en el caso delnumero de siniestros y coste de cada uno de ellos. una unica funcion de distribucion, se pueden utilizarmixturas de distribuciones que consisten basicamente en construir una distribucion de probabilidad quees combinacion lineal de distintas componentes. (Cid, 1999).

En esa misma lınea, los modelos de mixtura finita sustentan una variedad de tecnicas en areas principalesde estadıstica, incluidos analisis de clase y de clase latente, analisis discriminante, analisis de imagenesy analisis de supervivencia, ademas de su papel mas directo en el analisis de datos e inferencia deproporcionar descripciones modelos para distribuciones. (Mc Lachlan & Peel, 2000)

Por consiguiente, este proyecto pretende identificar el comportamiento de los datos, para ası elegir lamixtura adecuada, obteniendo un buen ajuste , se busca identificar el numero de modas que se presentenen los datos para asi poder determinar el numero de componentes del modelo.

La organizacion de este documento es la siguiente, en la seccion 2 se abarca el marco teorico de lasmixturas de distribuciones y el algoritmo EM;en la tercera seccion se desarrolla el marco metodologicodonde se explica el tipo de estudios, base de datos y descriptivos;en la cuarta seccion se muestran losresultados obtenidos en el proceso;en la quinta seccion se muestran las conclusiones y trabajos futuros.

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 3: Modelamiento de la severidad para autom oviles asegurados

Modelamiento para la severidad de automoviles asegurados en Belgica 3

2. Marco Teorico

2.1. Mixtura de distribuciones

Una mixtura se encarga de descomponer una funcion densidad de probabilidad en la suma de variasfunciones de densidad ponderadas por un peso.

Las distribuciones mixtas se utilizan para la modelizacion de datos heterogeneos en multitud de situa-ciones experimentales, en donde aquellos pueden interpretarse como procedentes de dos o mas subpobla-ciones (componentes). La obtencion de estas componentes conduce a la estimacion de los parametros dela mixtura (Gomez, 2014).

En primero lugar, los modelos de mixturas finitas no condicionadas han sido aplicados y generado apro-ximaciones importantes en eventos considerados aleatorios. De manera que las mixturas finitas se ana-lizan como densidades que se componen de poblaciones subyacentes m que conforman una poblacionestadıstica. Estas poblaciones subyacentes se denominaran como componentes de la mixtura fi, dondei = 1, 2, ...,m, entonces cada poblacion que compone la mixtura son proporciones de la mixtura, es decir,es una fraccion αi, por lo que i = 1, 2, ...,m.

Por lo tanto, el modelo en su forma matematica se denota de la siguiente manera:

f(y) =

m∑j=1

pjfj(y; θj)

Dada una variable aleatoria Y, los modelos de mixtura finita descomponen una funcion de densidad deprobabilidad f(y) en la suma de m funciones de densidad de probabilidad. Si fj(y) es la j-esima funcionde densidad de probabilidad que compone la mixtura finita con m componentes y donde pj es la propor-cion de la mixtura o peso de la j-esima componente en la mixtura con la restriccion de que 0 6 pj 6 1 y∑mj=1 pj = 1 para j = 1, ..., m. La proporcion pj se puede interpretar como la probabilidad a priori de

observar una muestra de la componente j (Roldan,2014).

Por otra parte, los modelos de mixturas finitas condicionadas, hace referencia a que estan condicionadasa la media, y estos modelos de mixturas de regresiones lineales por medio del modelaje de distintasdistribuciones (Ding, 2006).

De manera que, se tiene el siguiente modelo:

µj = β0j + β1jx1 + a+ βkjxkµk = β′jx

Donde x′ = (x1,a, xk) es un vector de k variables independientes explicativas para la media de la j-esimacomponente de la mixtura, y β′j = (β0j , β1j , a, βkj) son los coeficientes del modelo de regresion de lamedia de la j-esima componente de la mixtura.

Para cada θ1 ,..., θg es un elemento del mismo espacio de parametros Θ. Entonces se puede pensar que:

π1 = (π1, ..., πg)T

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 4: Modelamiento de la severidad para autom oviles asegurados

4 Jessica Alexandra Cardona Rodriguez. & Wilmer Pineda Rıos.

La funcion H se llama distribucion de mixtura y esta dada por:

f(yj ;H) =∫f(yj ; θ)dH(θ)

Con g puntos se obtiene que la tasa optima de convergencia en la estimacion de H es n−14 .

A menudo, en la practica, donde el interes principal en ajustar un modelo de mixtura es estimar lasproporciones de mixtura, las densidades de los componentes se especifican o se pueden estimar porseparado de los datos clasificados disponibles.

Se evalua una funcion de gradiente simple que tan cerca esta de un estimador candidato H∗ de unasolucion ML H, esta funcion puede ser la base para utilizar el algoritmos EM.

2.2. Algoritmo EM

Los algoritmos de maximizacion de la esperanza (expectation-maximization, EM) son procedimientos quepermiten la maximizacion de una funcion LL cuando los procedimientos estandar son numericamentedifıciles o inviables.

El algoritmo EM se puede utilizar para estimar distribuciones de preferencias muy flexibles, incluidasespecificaciones no parametricas que pueden aproximar asintoticamente cualquier distribucion verdaderasubyacente(Train,K).

Para la estimacion de los parametro se denotan como θ, la probabilidad condicionada sobre la densidadesta dada por:

p(y|θ) =

∫p(y|z, θ)f(z|θ)dz.

La funcion LL que se busca maximizar es:

LL(θ) = log P (y|θ) = log

(∫P (y|z, θ) f(z|θ)dz

)El procedimiento alternativo es iterativo, comenzando con un valor inicial de los parametros y actua-lizandolos de una manera que se describira a continuacion. Denotemos el valor de prueba de los parame-tros en una iteracion dada como θt Definamos una nueva funcion en θt que se relacione con LL pero queutilice la distribucion condicionada h. Esta nueva funcion es:

ε(θ|θt) =

∫h(z|y, θt) log(P (y|z, θ)f(z|θ))dz

El procedimiento EM consiste en maximizar ε repetidamente. Empezando con un cierto valor inicial, losparametros se actualizan en cada iteracion a traves de la siguiente formula:

θt+1 = argmaxθε(θ|θt)

En cada iteracion, los valores actuales de los parametros,θt , se utilizan para calcular los pesos h, ya continuacion se maximiza la LL conjunta ponderada. El nombre EM proviene del hecho de que elprocedimiento utiliza una esperanza que es maximizada.

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 5: Modelamiento de la severidad para autom oviles asegurados

Modelamiento para la severidad de automoviles asegurados en Belgica 5

Enla siguiente tabla podemos observarla expansion del uso de datos en M-step del algoritmo EM para ajustarel modelo de mixtura de parametros comunes

Tabla 1: Algoritmo EM

i Mass ye xe p(r+1)

12...n

11...1

y x p(r+1)1

12...n

22...2

y x p(r+1)2

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.12...n

kk...k

y x p(r+1)k

Don-de los p

(r+1)k contiene los pesos (calculados internamente) en la iteracion (r + 1), la columna encabezada

MASS identifica los componentes de la mixtura K.

3. Marco Metodologico

3.1. Tipo de estudio

El tipo de estudio es descriptivo, se busca descubrir y analizar la relacion de las variables selecciona-das con la severidad, ademas es correlacionado donde se evalua el grado de relacion de las variablesproporcionando una explicacion a los resultados obtenidos.

3.2. Base de datos

La base de datos que se utilizo es este estudio es de Belgica del ano 1997, la cual contaba con 163.660registros de seguros de automoviles de gama alta, media-baja, se toman para el estudio las observacionesque contengan valores mayores a cero en la severidad debido a que este estudio esta enfocado en losseguros que presenten al menos un reclamo a la aseguradora, se toma una muestra de 6000 datos pararealizar el modelo las variables a trabajar son las siguientes:

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 6: Modelamiento de la severidad para autom oviles asegurados

6 Jessica Alexandra Cardona Rodriguez. & Wilmer Pineda Rıos.

Amount: Severidad.

Ageph: Edad de la persona.

Agec: Antiguedad del vehıculo.

Fuel: Tipo de combustible:

• 1 Gasolina.

• 2 Diesel.

Coverage: Cobertura del seguro:

• 1 TPL (Solo danos de terceras partes).

• 2 PO (TPL + danos parciales materiales propios).

• 3 FO (TPL + danos totales materiales propios).

Sport: Modelo del vehıculo sport:

• 1 Modelo sport.

• 2 Modelo no sport.

Sex: Genero de la persona donde:

• 1 Mujer.

• 2 Hombre.

Period : Pago en partes de la prima.

Fleet : Vehıculo que es parte de una flota.

• 1 Es parte de flota.

• 2 NO es parte de una flota.

Nclaims: Numero de reclamos

3.2.1. AMOUNT

La variable amount es la variable que mide la severidad la cual representa el costo del dano ocasionado porel asegurado, se presentaran algunos descriptivos de la variable para ası identificar el comportamiento.

Tabla 2: Elaboracion propiaMinimo 60maximo 20’166.618media 76.564,32

En la tabla 2 se puede observar un panorama de los datos donde el valor maximo se encuentra alejadode la media, estos valores son los que se quieren ajustar en la segunda componente del modelo.

se puede observar su comportamiento en la siguiente grafica:

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 7: Modelamiento de la severidad para autom oviles asegurados

Modelamiento para la severidad de automoviles asegurados en Belgica 7

Figura 1: Elaboracion propia

En la figura 1 podemos observar los valores de la severidad, no se logra identificar el comportamientodebido a los valores que se tienen para esto se va a realizar un acercamiento donde se filtra la variablecon los valores menores a 1’000.000

Menos de un millon Mas de un millon

Figura 2: Elaboracion propia

Al realizar el filtro se puede observar mejor la distribucion y el posible numero de componentes que setendran en la mixtura.

3.2.2. AGEPH

La variable Ageph representa la edad de las personas que adquieren el seguro para su automovil, esta va-riable se describe en la siguiente tabla:

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 8: Modelamiento de la severidad para autom oviles asegurados

8 Jessica Alexandra Cardona Rodriguez. & Wilmer Pineda Rıos.

Edad aseguradoMinimo 18maximo 91media 44Cuartil 1 32Cuartil 3 54

Tabla 3: Elaboracion propia

En la tabla 3 podemos observar que el maximo de la muestra tiene personas de todas las edades con unamedia de 44 anos y un maximo de 91 anos.

Figura 3: Elaboracion propia

En la Figura 3 se observa una asimetrıa positiva la cual se concentra en el rango de 25 a 50 anos, sepresentan frecuencias con picos altos lo cual puede ser un factor importante que afecte la severidad.

3.2.3. AGEC

La variable Agec nos indica la antiguedad de los vehiculos, observamos que hay autos que son nuevos, elauto con mayor antiguedad es de 27 anos.

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 9: Modelamiento de la severidad para autom oviles asegurados

Modelamiento para la severidad de automoviles asegurados en Belgica 9

AntiguedadMinimo 0maximo 27media 7,36

Tabla 4: Elaboracion propia

Figura 4: Elaboracion propia

En el anterior grafico se observa que la edad del vehıculo tiene una asimetria a la derecha, concentradoası sus valores entre 0 y 10 aproximadamente. Este grafico nos indica que los vehıculos que se van amodelar son en su mayoria menores de 15 anos.

3.2.4. COVERAGE

La variable Coverage nos indica la cobertura del seguro, podemos observar que en su mayorıa la muestratiene automoviles con cobertura 1 y 2. La cobertura Tipo 1 cuenta con mas del 50 % de la muestra.

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 10: Modelamiento de la severidad para autom oviles asegurados

10 Jessica Alexandra Cardona Rodriguez. & Wilmer Pineda Rıos.

Cobertura del seguro

Tipo Frecuencia

TPL 3.607PO 1.580FO 813

Tabla 5: Elaboracion propia

3.2.5. SEX

La variable Sex nos indica el genero, observamos que en la muestra la mayoria de personas pertenecenal genero masculino con un 71 %.

TABLA DE GENERO

ID GENERO FRECUENCIA PORCENTAJE1 Mujer 1.714 28,572 Hombre 4.286 71,43

Tabla 6: Elaboracion propia

3.2.6. SPORT

La variable Sport nos indica si el vehıculo es Sport o no, se observa una frecuencia mayor en los vehıculosque no son Sport contando con un 98,9 % de la muestra.

Figura 5: Elaboracion propia

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 11: Modelamiento de la severidad para autom oviles asegurados

Modelamiento para la severidad de automoviles asegurados en Belgica 11

3.2.7. NCLAIMS

La variable Nclaims contiene la informacion del numero de reclamos que han hecho los propietarios delos seguros, donde podemos observar que la mayoria ha realizado solo un reclamo con un 89,9 %

Figura 6: Elaboracion propia

4. Resultados

4.1. Prueba de normalidad

Se realiza una prueba de normalidad para comprobar que la muestra no proviene de una distribucionnormal, se evaluaran 4 pruebas la hipotesis a contrastar es la siguiente:

H0 = La muestra proviene de una distribucion normal.H1 = La muestra no proviene de una distribucion normal.

PRUEBAS DE NORMALIDADPRUEBA P-VALOR R

Anderson-Darling 2,2e-16 ad.test()Pearson chi-square 2,2e-16 pearson.test()

Jarque-Bera 2,2e-16 jb.norm.test()Lilliefors (Kolmogorov-Smirnov) 2,2e-16 lillie.test()

Tabla 7: Elaboracion propia

En la tabla ocho podemos observar los valores de cada prueba, las cuales nos indican que los datos nosiguen una distribucion normal por ello se van a probar diferentes distribuciones que cumplan con elrango requerido.

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 12: Modelamiento de la severidad para autom oviles asegurados

12 Jessica Alexandra Cardona Rodriguez. & Wilmer Pineda Rıos.

4.2. Modelo

4.2.1. Distribuciones

estas distribuciones cumplen con el rango son continuas positivas donde x > 0 las distribuciones que sevan a probar sonn las siguientes:

GAMMA

f(x) = 1αpΓ(p) .e

− xαxp−1

LOGNORMAL

f(x) = 1√2πσ

1x .e− (ln(x)−µ)2

2σ2

PARETO

f(x) =α xαmxα+1

WEIBULL

f(x) = kλ

(xλ

)k−1e−( xλ )k

A lo largo de los anos, se han utilizado una variedad de enfoques para estimar las distribuciones demixturas, uno de los problemas de las distribuciones con dos parametros es la asimetrıa y curtosis dela distribucion, estos son fijos; el modelo GAMLSS(modelo aditivo generalizado para ubicacion, escala yforma.) permite tener mayor flexibilidad por lo tanto se utiliza este modelo en el estudio.

El paquete que se va a utilizar para realizar la mixtura finita de distribuciones es gamlss.mx

Los parametros y enlaces de estas distribuciones son los siguientes:

DISTRIBUCION RANGO µ σGAMMA (0,∞) LOG LOGLOGNORMAL (0,∞) LOG LOGPARETO (0,∞) LOG LOGWEIBULL (0,∞) LOG LOG

Tabla 8: Elaboracion propia

4.2.2. Resultado modelos de las distribuciones

Al aplicar el metodo se tienen los siguientes criterios de informacion:

De manera que en la tabla 10 podemos observar los criterios de informacion y la probabilidad estimadapara cada componente del modelo, los AIC y deviance no tienen una diferencia significativa, por esto seanalizaran los modelos que presenten una probabilidad estimada que logre capturar el comportamientode los datos, debido a que los valores de severidad altos son pocos el componente que estime esta partedel modelo debe tener una probabilidad estimada pequena, por esto se analizaran los modelos Gamma,Lognormal y Pareto Normal.

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 13: Modelamiento de la severidad para autom oviles asegurados

Modelamiento para la severidad de automoviles asegurados en Belgica 13

DISTRIBUCION AIC DEVIANCE MODELO1 MODELO 2Gamma 141259 141209 0,03322167 0,9667783Lognormal 140769 140719 0,966191 0,3380897Pareto 140892 140842 0,3247549 0,6752451Weibull 142449 142399 0,02562316 0,9743768Pareto lognormal 140768 140718 0,03187405 0,968126Pareto Weibull 140833 140783 0,5562663 0,4437337Pareto Gamma 140893 140843 0,7193181 0,2806819

Tabla 9: Elaboracion propia

4.2.3. MODELO GAMMA

f(yi) = π1f1(µ1i, σ1) + π2f2(µ2i, σ2)

componente 1 : µ1 ln(µ1) = β0 + β1 Agephi + β2 Ageci + β3(si Fuel = 2) + β4(si Period = 1) − β5(si

Coverage = 2) + β6(si Coverage = 3) + β7(si Sport = 2) + β8(si F leet = 2) + β9 Nclaimi + ˆβ10(si Sex = 2)

ln(µ1) = −0, 0452 + 0, 0402 + 0, 2624 + 3, 6592(si Fuel = 2) + 2, 1777(si Period = 1) − 0, 2892(si Coverage = 2)+ 0, 3372(si Coverage = 3) + 4, 4575(si Sport = 2) + 5, 1514(si F leet = 2) + 0, 4676 + 0, 3349(si Sex = 2)

σ1 = e0,6681 = 1, 950528

π1 = 0, 03322167

componente 2 : µ1 ln(µ1) = γ0 + γ1 Agephi + γ2 Ageci + γ3(si Fuel = 2) + γ4(si Period = 1) − γ5(siCoverage = 2) + γ6(si Coverage = 3) + γ7(si Sport = 2) + γ8(si F leet = 2) + γ9 Nclaimi + ˆγ10(si Sex = 2)

ln(µ2) = 9, 3970 + 0, 0031 + 0, 0099 + 0, 0549(si Fuel = 2) + 0, 0425(si Period = 1) − 0, 1235(si Coverage = 2)+ 0, 2454(si Coverage = 3) + 0, 0055(si Sport = 2) + 0, 0188(si F leet = 2) + 0, 8108 − 0, 0223(si Sex = 2)

σ2 = e0,1348 = 1, 144308

π2 = 0, 9667783

En la primera componente del modelo Gamma se describe los automoviles que presentan valores deseveridad altos, la edad del automovil tiene un efecto positivo, indica que a mayor edad de la persona elvalor de la severidad aumenta 1,04 veces, por otro lado se observa un efecto negativo en la cobertura 2en comparacion con la cobertura 1.

La segunda componente tiene efectos similares a la primera, se observa una diferencia entre estas la cualesta dada por el genero, donde los hombres tienen un efecto positivo en la componente 1 a diferencia dela componente 2.

4.2.4. MODELO LOGNORMAL

f(yi) = π1f1(µ1i, σ1) + π2f2(µ2i, σ2)

componente 1 : µ1 ln(µ1) = β0 + β1 Agephi + β2 Ageci + β3(si Fuel = 2) + β4(si Period = 1) − β5(si

Coverage = 2) + β6(si Coverage = 3) + β7(si Sport = 2) + β8(si F leet = 2) + β9 Nclaimi + ˆβ10(si Sex = 2)

ln(µ1) = 9, 1035 + 0, 0025 + 0, 0066 + 0, 0029(si Fuel = 2) + 0, 0071(si Period = 1) − 0, 0692(si Coverage = 2)+ 0, 0889(si Coverage = 3) + 0, 0723(si Sport = 2) − 0, 0327(si F leet = 2) + 0, 5195 − 0, 0168(si Sex = 2)

σ1 = e0,3492 = 1, 4179

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 14: Modelamiento de la severidad para autom oviles asegurados

14 Jessica Alexandra Cardona Rodriguez. & Wilmer Pineda Rıos.

π1 = 0, 966191componente 2 : µ1 ln(µ1) = γ0 + γ1 Agephi + γ2 Ageci + γ3(si Fuel = 2) + γ4(si Period = 1) − γ50.28928(siCoverage = 2) + γ6(si Coverage = 3) + γ7(si Sport = 2) + γ8(si F leet = 2) + γ9 Nclaimi + ˆγ10(si Sex = 2)

ln(µ2) = 7, 7275 + 0, 0072 + 0, 0328 + 0, 1056(si Fuel = 2) + 0, 2679(si Period = 1) − 0, 2681(si Coverage = 2)− 0, 2738(si Coverage = 3) + 0, 7672(si Sport = 2) + 0, 7463(si F leet = 2) + 0, 5968 + 0, 0256(si Sex = 2)

σ2 = e1,219 = 3, 3838

π2 = 0, 03380897

En la componente 2 se observa la cobertura de tipo 3 la cual tiene un efecto menor que la componente1, esto no describe bien el comportamiento debido a que la cobertura con mayor valor promedio enseveridad es la cobertura 3.

Cobertura del seguro vs severidad

Tipo Promedio severidad

TPL 79.965PO 58.791FO 96.013

4.2.5. MODELO PARETO-LOG NORMAL

f(yi) = π1f1(µ1i, σ1) + π2f2(µ2i, σ2)

componente 1 : µ1 ln(µ1) = β0 + β1 Agephi + β2 Ageci + β3(si Fuel = 2) + β4(si Period = 1) − β5(si

Coverage = 2) + β6(si Coverage = 3) + β7(si Sport = 2) + β8(si F leet = 2) + β9 Nclaimi + ˆβ10(si Sex = 2) ln(µ1) =

7, 6549 + 0, 0076 + 0, 0344 + 0, 1159(si Fuel = 2) + 0, 2789(si Period = 1) − 0, 2774(si Coverage = 2)− 0, 2812(si Coverage = 3) + 0, 8030(si Sport = 2) + 0, 7870(si F leet = 2) + 0, 5990 + 0, 0257(si Sex = 2)

σ1 = e1,235 = 3, 4383

π1 = 0, 03187405

componente 2 : µ1 ln(µ1) = γ0 + γ1 Agephi + γ2 Ageci + γ3(si Fuel = 2) + γ4(si Period = 1) − γ50.28928(siCoverage = 2) + γ6(si Coverage = 3) + γ7(si Sport = 2) + γ8(si F leet = 2) + γ9 Nclaimi + ˆγ10(si Sex = 2)

ln(µ2) = 9, 1031 + 0, 0025 + 0, 0066 + 0, 0028(si Fuel = 2) + 0, 0073(si Period = 1) − 0, 0692(si Coverage = 2)+ 0, 0881(si Coverage = 3) + 0, 0727(si Sport = 2) − 0, 0324(si F leet = 2)+ 0, 5197 − 0, 0166(si Sex = 2)

σ2 = e0,3508 = 1, 4202

π2 = 0, 968126

Al realizar el analisis de los tres modelos propuestos, el modelo que da una mejor interpretabilidad es elmodelo gamma donde se observa para la componente 1 que entre mas edad de la persona la severidadaumenta 1,04 veces, al igual que la antiguedad del vehıculo, esto debido a que entre mas anos tengaun vehıculo puede tener mayor siniestralidad generando que la severidad aumente. Los automoviles queutilizan gasolina Diesel tambien tienen un efecto positivo esto se debe a que en el ano 1997 lo automovilesque utilizaban este tipo de combustible eran autos grandes de carga, por otro lado las personas que paganen mas de una cuota su seguro aumenta el valor de la severidad 8,82 veces, la cobertura de tipo 2 tieneun efecto negativo en comparacion con la cobertura tipo 1, debido a que la muestra cuenta con mas del50 % de los datos con cobertura 1, a diferencia de la cobertura 3 que por el tipo de cobertura aumentael valor, si el vehıculo no es sport aumenta el valor de la severidad debido a que los automoviles sport se

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 15: Modelamiento de la severidad para autom oviles asegurados

Modelamiento para la severidad de automoviles asegurados en Belgica 15

encuentran en un 1 % de la muestra, los hombres para este caso tiene un efecto positivo a comparacionde las mujeres.

5. Conclusiones y trabajos futuros

La mixtura de distribuciones gamma es el modelo que mejor interpretabilidad da, este modelo nosmuestra el comportamiento de las dos componentes donde podemos observar que para la muestra elcambio entre conclusiones es de genero. Las otras distribuciones que se ajustaban a estos datos nodan una buena interpretacion, el modelo Lognormal y Pareto-Lognormal nos dice que la cobertura1 es la cobertura que mas afecta en la componente de los automoviles con severidad alta, por estose descartan y se toma el modelo gamma.

En la muestra de estos datos se observa que en Belgica las personas en su mayoria prefieren pagaruna cobertura TPL, el 71 % de la muestra es del genero masculino, solo el 1 % de los automovilesson Sport.

Para futuros trabajos se puede proponer otro algoritmo de maximizacion diferente al EM, para asıpoder comparar si se obtienen mejores resultados debido a que este algoritmo tiene un alto costocomputacional.

6. Agradecimientos

A mis padres Carlos y Nancy por su apoyo incondicional, a mi tutor Wilmer Pineda por su disposiciony ayuda durante este proceso, a todos mis profesores y en especial a Deisy Camargo por su orientaciony apoyo en este trabajo; a todas las personas que me acompanaron en esta etapa, aportando a micrecimiento tanto profesional y como personal.

Facultad de Estadıstica Proyecto de Grado Noviembre 2019

Page 16: Modelamiento de la severidad para autom oviles asegurados

16 Jessica Alexandra Cardona Rodriguez. & Wilmer Pineda Rıos.

Referencias

[1] Cid,C(1999). Estudio de la siniestralidad y aplicaciones economicasen las entidades aseguradoras Resumen del texto de la be-ca concedida por la Fundacion MAPFRE[PDF],Recuperado dehttps://www.fundacionmapfre.org/documentacion/publico/i18n/catalogoimagenes

[2] Dıaz,C(2017). Factores de riesgo que afectan la severidad delos accidentes de trafico en areas urbanas. El caso de car-tagena, Colombia. Trabajo Master[PDF],Recuperado dehttp://manglar.uninorte.edu.co/bitstream/handle/10584/8207/130424.pdf?sequence=1isAllowed=y

[3] Ding,C.S(2006).Practical Assessment,Research & evaluationVol. 11.

[4] Gomez,L(2014). Modelos de mixturas finitas para la ca-racterizacion y mejora de la redes de monitorizacion dela calidad del aire Trabajo Master[PDF],Recuperado dehttps://www.masteres.ugr.es/moea/pages/curso201314/tfm1314/memoriagomezlosadaalvaroweb/!

[5] Guerrero,C & Hiraldo,M(2015). Los siniestros en el seguro delautomovil: un analisis econometrico aplicado vol.4,Recuperado de:https://www.redalyc.org/pdf/301/30123117.pdf

[6] Kenneth E. Train, Discrete Choice Methods with Simulation, segunda edicion,Cambridge University Press,Inglaterra,2009.

[7] McLachlan,G & Peel,D Finite Mixture Models,Primera edicion, Wiley-Interscience publication,2000.

[8] Mikis D. Stasinopoulos, Robert A. Rigby, Gillian Z. Heller, VlasiosVoudouris & Fernanda De Bastiani, Flexible Regression and Smoothing UsingGAMLSS in R, Primera edicion, Taylor & Francis Group,Inglaterra,2017.

[9] Molina & Jimenez (2014). Valoracion de derivados europeos conmixtura de distribuciones Weibull Articulo[PDF],Recuperado dehttps://www.scielo.org.co/pdf/ceco/v34n65/v34n65a04.pdf

[10] Roldan,F(2014). Mixtura de distribuciones normales incluyendo modelado conjuntode media y varianza desde un enfoque clasico Trabajo Master[PDF],Recuperadode https://www.http://bdigital.unal.edu.co/61129/1/80112212.2014.pdf

Facultad de Estadıstica Proyecto de Grado Noviembre 2019