Modele d Apprentissage

Embed Size (px)

Citation preview

  • 8/11/2019 Modele d Apprentissage

    1/34

    BULLETIN FRANAIS DACTUARIAT, Vol. 11, n22, juillet - dcembre 2011, pp. 49 - 81

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNEAPPROCHE PAR MODELE D'APPRENTISSAGE STATISTIQUE1

    Antoine PAGLIA2

    Martial V. PHELIPPE-GUINVARCH3

    Euro-Institut d'Actuariat - Groupama

    Abstract:

    Non-life actuarial researches mainly focus on improving Generalized Linear

    Models. Nevertheless, this type of model sets constraints on the risk structure and on the

    interactions between explanatory variables. Then, a bias between the real risk and the

    predicted risk by the model is often observed on a part of data. Nonparametric tools such as

    machine learning algorithms are more efficient to explain the singularity of the

    policyholder.

    Among these models, regression trees offer the benefit of both reducing the bias and

    improving the readability of the results of the pricing estimation. Our study introduces a

    modification of the Classification And Regression Tree (CART) algorithm to take intoaccount the specificities of insurance data-sets. It compares the results produced by this

    algorithm to these obtained using Generalized Linear Models. These two approaches are

    then applied to the pricing of a vehicle insurance portfolio.

    Rsum :

    Les dveloppements rcents en tarification de l'assurance non-vie se concentrent

    majoritairement sur la matrise et l'amlioration des Modles Linaires Gnraliss.

    Performants, ces modles imposent la fois des contraintes sur la structure du risque

    modlis et sur les interactions entre les variables explicatives du risque. Ces restrictions

    peuvent conduire dans certaines populations d'assurs une estimation biaise de la prime

    d'assurance. De par leur nature non paramtrique, les algorithmes d'apprentissage statistiques'affranchissent de ces contraintes. Nous cherchons donc dans cet article les dcrire et

    les tester.

    Mots-cls: tarification, apprentissage statistique, arbres de dcision

    1Cet article est le rsultat du mmoire d'Antoine Paglia pour le titre d'actuaire ralis l'EURIA. Une partie del'tude, notamment les dveloppements spcifiques l'algorithme CART-ANV, a fait l'objet d'une communication(Paglia et al., 2011). Ce travail a t encadr par Martial Phlipp-Guinvarc'h. Il a bnfici du soutien de PhilippeLenca, (Dpt. Logique des Usages, Sciences Sociales et de l'Information, Telecom Bretagne), de Franck Vermet etde Pierre Ailliot, (Dpartement de Mathmatiques, Universit de Bretagne Occidentale) que nous tenons remercier.2Actuaire, Euro Institut d'Actuariat, [email protected]

    Actuaire, Docteur, Groupama, [email protected]

  • 8/11/2019 Modele d Apprentissage

    2/34

    50 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    1. INTRODUCTION

    Les compagnies d'assurances utilisent quotidiennement des modles statistiques

    pour valuer les risques auxquels elles doivent faire face. En particulier, les modles de

    rgression permettent de quantifier les relations entre la valeur des contrats des risques

    assurs et les variables dcrivant ce risque. Les trente dernires annes ont t marques par

    la sophistication des modles de rgression utiliss pour quantifier ces risques. Largression linaire simple qui permettait de modliser par une droite les variations d'une

    variable cible - le risque tudi -, a t remplace partir des annes 1980 par les Modles

    Linaires Gnraliss mccullagh, nots GLM par la suite. Ces modles permettent la fois

    de modliser des comportements non linaires et des distributions de rsidus non gaussiens.

    Cela est particulirement utile en assurance non-vie o les cots des sinistres, quand ils se

    concrtisent, suivent une densit trs asymtrique clairement non gaussienne. Ils ont permis

    d'amliorer la qualit des modles de prdiction du risque et sont aujourd'hui largement

    utiliss par les compagnies d'assurance.

    Paralllement ces dveloppements, des quipes de chercheurs en informatique ont

    mis au point un grand nombre d'algorithmes dont l'objectif tait soit li la prdiction devaleurs soit la classification d'individus. Ces travaux ont donn naissance la thorie de

    l'apprentissage statistique - machine learning - dont les modles les plus connus sont les

    rseaux de neurones, les arbres de dcision ou encore les support vector machines (pour

    approfondir, voir Hastie et al. (2008) ou Mitchell (1997)). Ces mthodes ont t appliques

    avec succs dans les domaines de la gntique, de la dtection de maladies rares ou de

    l'cologie (Elith et al. (2008)) pour rsoudre des problmes complexes. Nanmoins, leur

    utilisation en assurance est cependant moins rpandue et/ou confidentielle, notamment en

    assurance de vhicule, notre domaine applicatif. La littrature est ainsi peu abondante. Nous

    renvoyons cependant le lecteur intress aux tudes de Apte et al. (1999), Dugas et al.

    (2003) et Christmann (2004). Les rsultats obtenus dans ces domaines montrent qu'il estpossible grce ces algorithmes d'extraire des structures de dpendance entre les donnes

    qui restaient jusque l non dtectes par les outils de rgression classique. Nous utilisons

    volontairement des algorithmes de rfrence dans le cadre de cet article pour faciliter la

    lecture de nos rsultats. Pour autant, la littrature sur l'extraction et la gestion des

    connaissances propose des dveloppements utiles en assurance non-vie o la probabilit

    d'avoir un sinistre est trs faible comparativement la probabilit oppose de ne pas en

    avoir. Le lecteur pourra se rfrer par exemple aux algorithmes spcifiques de Lenca et al.

    (2010) ou de Washio et al. (2008) .

  • 8/11/2019 Modele d Apprentissage

    3/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    51

    L'objectif de cet article est de prsenter les bnfices lis l'application d'un de ces

    algorithmes la tarification de produits d'assurance non-vie. Il expose une modification de

    l'algorithme CART (Classification And Regression Tree) pour prendre en compte les

    spcificits de l'assurance non-vie. La premire partie est consacre l'expos de l'tat de

    l'art et des enjeux mathmatiques, conomiques et stratgiques. Les modles d'estimation

    de la prime pure qui sont compars dans notre tude, en particulier l'algorithme CART ,

    sont ensuite prsents. La troisime partie prsente les lments clefs de la base de donnes.

    Enfin, la dernire partie est consacre l'tude des rsultats des modles statistiques.

    2. TAT DE L'ART ET ENJEUX

    L'objectif de cette section est de montrer les enjeux mathmatiques et conomiques

    de la tarification par l'apprentissage machine. La premire sous-section est consacre aux

    mthodes actuelles d'estimation de la prime actuarielle. Leurs limites sont ensuite

    prsentes. Ces limites conduisent la deuxime sous-section consacre au machine

    learning. La troisime sous-section illustre ces techniques en utilisant les donnes sur le brisde glace. Enfin, nous exposerons les enjeux de la comparaison entre les Modles Linaires

    Gnraliss et l'apprentissage machine pour l'assureur.

    2.1 Les limites des Modles Linaires Gnraliss

    Dans les annes 1960, des actuaires canadiens ont dvelopp une mthode de

    tarification connue sous le nom de minimum bias procedures,(Bayley et Simon, 1960). Le

    principe de cette mthode consiste dfinir arbitrairement un lien entre les variables

    explicatives (multiplicatif, additif), les classes de risques (par exemple les conducteurs de

    moins de 20 ans ayant une voiture de puissance comprise entre 70 et 100 chevaux) et une

    distance entre les valeurs prdites et les valeurs mesures. Une fois ces trois lments

    imposs, un algorithme itratif calcule le coefficient associer chaque classe de risques

    en minimisant le critre de distance.

    Bien que construits en dehors d'un cadre statistique existant, ces algorithmes se

    sont rvls par la suite tre des cas particuliers d'utilisation de Modles Linaires

    Gnraliss. Les modles GLM sont des extensions du modle linaire simple et

    permettent la fois de modliser des comportements non-linaires (grce aux fonctions de

    liens) et des distributions de rsidus non-gaussiens (McCullagh et Nelder (1989)).

    Par rapport aux techniques de minimum bias procedures, les modles GLM

  • 8/11/2019 Modele d Apprentissage

    4/34

    52 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    bnficient d'un cadre thorique dans lequel il est possible d'effectuer des tests statistiques

    pour valuer la qualit du modle produit. Toutefois, ces modles issus de la statistique

    paramtrique possdent deux limites qui sont de nature rduire leurs capacits prdictives.

    Ces limites concernent la dtection et la modlisation d'interactions entre les variables

    quantitatives ou qualitatives et la modlisation de la prime en fonction de variables

    quantitatives (l'ge, la puissance).Dans un modle GLM, les interactions doivent tre spcifies priori par le

    statisticien. Si celui-ci dispose de 6 variables explicatives prenant chacune 10 valeurs, il

    existe 1=106 million d'interactions possibles dont il faut tester la significativit. Ceci

    montre les limites de la statistique paramtrique dans laquelle les rsultats des modles sont

    produits avec une bonne prcision sur la valeur estime et son erreur mais pour des

    structures de risques qui ne correspondent pas forcment la ralit des donnes.

    2.2 Les apports du machine learning

    Contrairement la statistique classique qui ncessite de formuler des hypothses sur

    la structure et la distribution des donnes, la thorie de l'apprentissage statistique ne

    formule qu'une seule hypothse : les donnes prdire, que nous noterons Y, sont gnres

    de faons identiques et indpendantes par un processus P partir du vecteur des variables

    explicatives X.

    A partir de cette hypothse, le but est de construire un algorithme qui va apprendre

    prdire la valeur de Yen fonction des valeurs explicatives X(i.e. ]|[ XYE ). Le rsultat

    de cet apprentissage est une fonction note )( Xfw . Elle fait intervenir les variables Xet

    un paramtre de complexit w . Ce paramtre dsigne par exemple le nombre de neurones

    dans un rseau de neurones ou le nombre de nuds dans un arbre de dcision. Cette

    fonction qui devient de plus en plus complexe mesure que l'algorithme apprend permet demodliser les singularits de la structure des donnes (notamment des interactions ou des

    comportements non linaires). Le critre d'arrt de l'algorithme d'apprentissage correspond

    l'tape o la complexification du modle )( Xfw conduit diminuer ses performances de

    prdiction sur une autre base de donnes. Ce phnomne est appel surapprentissage et son

    effet en terme de mesure d'erreur est prsent dans la figure 2.

    Les performances d'un modle se mesurent aprs avoir dfini une fonction de risque

    ))(,( XfYR w . Celle-ci mesure la distance entre Y et son estimation )( Xfw . Des choix

    typiques pour la fonction de risque lorsque Y est une variable quantitative sont les

  • 8/11/2019 Modele d Apprentissage

    5/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    53

    suivants:

    absolueerreurXfY

    equadratiquerreurXfYXfYR

    w

    ww

    |)(|

    ))((=))(,(

    2

    L'erreur de gnralisation est l'erreur commise sur une base de donnes

    indpendante de la base ayant servie construire )( Xfw . Elle est dfinie comme tant

    l'esprance de l'erreur sur une base indpendante note testB :

    ]|))(,([= testwtest BXfYREErr

    Toutefois, lors de l'apprentissage, l'algorithme ne dispose que des N lignes de la

    base de donnes et c'est donc l'erreur empirique sur la base d'apprentissage qui est

    mesure :1

    ))(,(1

    =,

    iwi

    ageapprentissBiyixageapprentiss xfyRN

    Err

    La validation croise permet cependant d'ajuster des modles qui minimisent testErr

    pour un nombre fini de bases de donnes. Cette mthode consiste, lorsque la base de

    donnes est suffisamment volumineuse, la dcouper en trois parties (Cf. figure 1). La

    premire base appele base d'apprentissage est utilise pour construire )( Xfw . La seconde,

    appele base de validation, permet de dfinir le paramtre w qui minimise l'erreur

    ]|))(,([= validationwvalidation BXfYREErr . Enfin, la dernire base, appele base de test,

    permet de mesurer l'erreur sur une base qui n'a pas servie paramtrer le modle ( testErr )

    et est utile pour comparer les performances de plusieurs algorithmes d'apprentissage.

    Figure 1: 50% de la base servent l'apprentissage, 25% servent trouver le paramtre decomplxit w optimal du modle, les 25% restant permettent de comparer diffrents

    modles sur une base qui n'a pas servie paramtrer le modle.

    1La thorie de la Structural Risk Minimization dveloppe par Vapnik (1998) permet de trouver le

    paramtre w de )( Xfw qui minimise testErr par une quantit qui dpend de l'erreur sur la base d'apprentissageet d'un paramtre appel Vapnik Dimension (VC) qui dpend du paramtre .

    w

  • 8/11/2019 Modele d Apprentissage

    6/34

    54 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    Figure 2: L'volution de l'erreur en fonction de la complexit du paramtre w .

    La figure 2 illustre des comportements typiques rencontrs pour l'volution de

    l'erreur en fonction de la complexit du paramtre w . Les courbes en trait fort sont les

    valeurs moyennes de plusieurs apprentissages. Celles en trait plein reprsentent l'volution

    de l'erreur sur la base d'apprentissage ageapprentissErr et celles en trait discontinu

    reprsentent l'erreur sur une base de validation validationErr . L'erreur sur la base

    d'apprentissage diminue au fur et mesure que l'algorithme apprend. L'algorithme

    d'apprentissage doit s'arrter lorsque l'erreur augmente sur la base de validation. La

    complexit w optimale est celle qui minimise l'erreur sur la base de validation. Dans cet

    exemple, prsent dans la figure 2, le w qui minimise l'erreur est 10.

    Ainsi, les modles d'apprentissage statistique possdent deux qualits qui sont de

    nature amliorer la prdiction de la prime pure d'un contrat d'assurance non-vie. Tout

    d'abord, ils sont capables de modliser des structures de dpendances complexes partir

    des donnes, alors que ces dpendances doivent tre spcifies par le statisticien, dans le

    cas de la tarification par modles GLM . De plus, le modle produit )( Xfw est optimis,

    non pas pour donner le meilleur ajustement sur la base de donnes, mais pour rduire

    l'erreur de la valeur prdite sur une autre base, ce qui est de nature renforcer la robustesse

    des rsultats prdits.

    2.3 Illustration

    Pour illustrer les deux limites, nous prsentons les rsultats de l'estimation de la

    frquence de sinistres de la garantie bris de glace en fonction de l'ge et de la puissance du

  • 8/11/2019 Modele d Apprentissage

    7/34

    v

    eff

    est

    de

    tu

    po

    fig

    du

    c

    pa

    fo

    va

    mo

    TARIFICATIO

    icule qui so

    ets sur la frq

    imation. Le p

    la thorie du

    de et nous re

    r une explic

    ure 3 et perm

    vhicule sur l

    igure 3: L'

    pacits des

    t leur nature

    Le seco

    ction de vari

    iables Age

    dlise par u

    DES RISQUESD'

    t deux varia

    uence de sini

    remier modl

    machine lear

    nvoyons le l

    tion de l'alg

    ettent de visu

    a frquence

    ude de la fr

    odles rep

    paramtriqu

    s'a

    d modle es

    ance poisson

    t Puissance

    e rponse de

    =freq

    EN ASSURANAPPRENTISSA

    les quantitati

    stres. Nous a

    e est un mod

    ing. L'explic

    cteur Hasti

    rithme. Les

    aliser la form

    es sinistres.

    uence prdit

    senter l'infl

    , les deux mo

    apter aux sin

    t un Modle

    et une fonc

    du vhicule

    type :

    ( 10exp +

    CE NON-VIE,E STATISTIQ

    ves et qui pr

    ons retenu q

    le GAM. C'e

    ation de cet

    e et al. (200

    aleurs prdit

    e de l'influen

    selon deux

    ence jointe

    dles GLM p

    gularits des

    Linaire G

    ion de lien l

    ne sont pas

    2 PAge +

    NE APPROCHE

    sentent une

    atre modles

    st un modle

    lgorithme d

    ) ou Denuit

    es par ce mo

    ce jointe de l'

    imensions pe

    e deux variab

    sents ici m

    donnes.

    nralis -not

    ogarithmique

    iscrtises.

    )uissance

    PAR MODEL

    interaction d

    statistiques p

    on paramtr

    asse le cadre

    et Charpentie

    le sont mo

    ge et de la p

    rmet de mont

    les quantitati

    ontrent leurs

    GLM 1-

    . Dans ce m

    a frquence

    55

    ns leurs

    our cette

    que issu

    de cette

    r (2005)

    tres en

    uissance

    rer les

    ves. De

    limites

    vec une

    dle les

    est donc

  • 8/11/2019 Modele d Apprentissage

    8/34

    56

    sol

    sol

    mo

    mo

    poval

    cla

    l'al

    pr

    l'o

    no

    rep

    Les figur

    ution pour p

    ution la plus

    dlisation av

    ntrent que po

    r le modleeurs limites s

    Une solu

    sses et leurs

    gorithme des

    sentation de

    jet de cet arti

    Fig

    Les cour

    bre de niv

    rsentation p

    A.

    es 3&4 mont

    llier ce pr

    souvent utilis

    ec quatre cl

    ur ce modle

    LM 1 sansparant les cl

    tion ce pro

    limites en fo

    arbres de d

    cet algorith

    cle.

    re 4: Courb

    bes de nivea

    aux entre le

    us fidle du

    PAGLIA M. V

    rent que ceci

    blme consi

    e en assuran

    sses pour la

    , la reprsent

    iscrtisation.asses est souv

    lme serait

    nction de cri

    ision CART

    e et son ada

    s de niveaux

    ux prsente

    s modles

    isque. Ce gr

    . PHELIPPE-G

    n'est pas ada

    te discrtis

    ce. Le modl

    puissance e

    tion de la str

    Toutefois, leent arbitraire

    'avoir un alg

    tres statistiq

    qui est le qu

    ptation des

    des graphiqu

    s dans la fig

    LM 2 et C

    phique mont

    INVARCH

    t la struct

    er les variabl

    e appel GL

    six pour l'

    ucture du ris

    choix du noet non optim

    orithme qui c

    ues. C'est pr

    trime modl

    donnes d'a

    s prsents e

    ure 4 montr

    RT , il est

    e notamment

    ure des donn

    es continues.

    2 correspon

    ge. Les figu

    ue est plus fi

    bre de classl.

    hoisisse le no

    cisment ce

    e des figures

    surance non

    n figure 3

    nt qu'avec u

    possible d'a

    que le modl

    es. Une

    C'est la

    d cette

    res 3&4

    dle que

    es et des

    mbre de

    que fait

    3&4. La

    vie font

    n mme

    oir une

    e CART

  • 8/11/2019 Modele d Apprentissage

    9/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    57

    sgmente plus les risques dans la zone correspondant aux vhicules intressants l'assureur

    (i.e.vhicules rcents et de puissance moyenne) alors que le modle GLM 2 impose une

    segmentation uniforme sur le portefeuille.

    Ce premier exemple montre que les modles issus de la thorie de l'apprentissage

    machine permettent de dtecter et modliser des structures de dpendance entre les

    variables explicatives du risque sans devoir les spcifier priori. Le cadre gnral dans

    lequel sont construits ces modles non paramtriques est prsent dans la section suivante.

    2.4 Enjeux de la comparaison entre Modles Linaires Gnraliss et apprentissage

    machine

    Le premier enjeu de l'assureur est la bonne mesure du risque. L'article vise donc

    premirement comparer la performance globale des GLM par rapport aux diffrents

    algorithmes d'apprentissage machine. Dans le cadre de cette comparaison, nous

    prsenterons le fonctionnement de trois algorithmes de rfrence et prsenterons les

    rsultats obtenus sur notre base de donnes. Nous prsenterons plus en dtail l'algorithmeCART et son adaptation l'assurance non-vie, note CART-ANV.

    L'amlioration de la segmentation d'un portefeuille d'assurs constitue un enjeu

    conomique et stratgique majeur. En effet, l'assureur cherche dvelopper sa part de

    march sur les segments qui conduisent la fois un avantage concurrentiel et un profit.

    La qualit d'une segmentation par groupe de risques peut se mesurer selon quatre critres

    majeurs que sont l'quit, l'homognit, le caractre ralisable et le caractre incitatif

    (Feldblum (2006)). L'absence de biais entre le risque mesur et le risque prdit correspond

    au critre d'quit et stipule que les primes payes par le groupe doivent reflter les pertes

    occasionnes par ce groupe. Le critre d'homognit exprime le fait que les risques au sein

    d'un groupe sont homognes et qu'il n'est pas possible de subdiviser ce groupe en plusieurs

    sous groupes ayant des primes significativement diffrentes. Nous comparons donc

    galement la performance des deux approches par segment sur les deux principaux critres

    d'quit et d'homognit.

    Enfin, nous comparons galement les deux approches dans leurs aspects pratiques

    i.e. dans la prparation des donnes, la mise en uvre des outils, la fiabilisation des

    rsultats et leur lisibilit tant en communication interne qu'externe.

  • 8/11/2019 Modele d Apprentissage

    10/34

    58 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    3. MODELISATIONS MATHEMATIQUES

    La premire section a montr les limites de la statistique classique pour le problme

    de l'estimation de la prime pure, et les avantages qu'il est possible d'obtenir grce

    l'utilisation des mthodes d'apprentissage statistique. Cette section a pour objectif de

    prsenter les modles mathmatiques utiliss pour la tarification d'un portefeuille

    d'assurance non-vie.

    3.1 Prambule aux travaux de modlisation

    Nous faisons le choix de traiter sparment les valeurs extrmes et donc de

    dcomposer notre modlisation selon la formule suivante (Cf. graphique 8) :

    ],|[]

  • 8/11/2019 Modele d Apprentissage

    11/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    59

    segmentation, le caractre ralisable et le caractre incitatif correspondent un choix des

    variables explicatives insrer dans le modle. Par contre l'quit et l'homognit sont

    directement impacts par l'algorithme et peuvent se mesurer de manire mathmatique de la

    faon suivante.

    L'quit correspond l'absence de biais entre le risque mesur et le risque prdit

    dans un groupe de risques. Le biais moyen dans un groupe d'assurs G est not :

    iiwGiyix

    yxfG

    Gb

    )(||

    1=)(

    ,

    o || G dsigne le nombre d'individus dans G .

    L'homognit implique qu'aucun groupe d'assurs payant la mme prime ne peut

    tre subdivis en deux groupes dont la nouvelle prime serait significativement diffrente.

    Ceci revient minimiser la variance intra-groupe pour tous les groupes et donc minimiser

    la somme des variances intra-groupe qui est gale l'erreur de gnralisation. Comme

    mentionn dans la section sur les apports du machine learning, nous mesurerons cette erreur

    sur une base de test testB qui n'a pas servie paramtrer l'estimateur de la prime :2

    ,

    ))((||

    1= iiw

    testBiyixtest

    test yxfBErr

    Cette erreur est souvent appeleMean Square Error(MSE) dans la littrature. Une

    tude comparative des performances en terme de minimisation du MSE par divers

    algorithmes pour l'estimation de la prime pure est prsente dans Dugas et al. (2003). Ce

    papier montre la supriorit des algorithmes de machine learning en matire de rduction

    du MSE par rapport aux techniques classiques ( GLM ) mais ne prcise pas le traitement

    qui a t effectu sur les donnes (crtement des valeurs extrmes, traitement des variables

    quantitatives) ni les paramtres utiliss dans les modles (fonction de variance pour lesmodles GLM , nombre de nuds, nombre de rseaux de neurones).

    Nous avons donc effectu une tude similaire en appliquant le traitement sur la

    base de donnes de la section 4.2.5 rduite la seule garantie bris de glace (dont

    l'histogramme de la figure 7 avait montr que cette garantie tait celle qui avait la

    distribution de sinistres la plus homogne). Trois algorithmes d'apprentissage statistique

    issus des dix principaux algorithmes supports par la communaut scientifique Wu et al.

    (2008) ont t paramtrs puis compars aux rsultats produits par les mthodes classiques

    GLM.

  • 8/11/2019 Modele d Apprentissage

    12/34

    60 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    La mthodologie utilise pour estimer la prime pure a consist utiliser la fois

    l'approche directe et la dcomposition cot-frquence. Nous ne prsentons ici que les

    rsultats obtenus pour l'valuation du montant moyen (i.e. ]0,>|[ XYYE ) mais les

    conclusions sur les modles sont similaires pour les autres quantits. Les modles ont t

    ajusts sous le logiciel R.1

    3.2.1

    Rgression par arbre de dcision simple (CART)

    Un arbre de rgression simple (algorithme CART du package rpart Therneau et al.

    (2009)) a t ajust sur la base d'apprentissage. Le choix du critre d'arrt a t fix en

    choisissant le nombre de nuds qui minimise l'erreur sur la base de validation (42 nuds

    dans cet exemple). Cet algorithme est prsent en dtail dans la section 3.3.

    3.2.2 Rgression par arbre de dcision boost

    Un arbre de rgression boost (combinaison d'un grand nombre d'arbres de petites

    tailles) a t ajust sur la base d'apprentissage en utilisant le package gbr. L'explication de

    cet algorithme dpasse le cadre de cette tude. Le lecteur pourra par exemple se rfrer

    Elith et al. (2008) et Christmann (2004) pour plus de dtails. Le choix du critre d'arrt a

    t fix en choisissant le nombre d'arbres qui minimise l'erreur sur la base de validation. Le

    choix du taux d'apprentissage est crucial pour obtenir un modle qui apprend la bonne

    vitesse, sans construire trop d'arbres. La combinaison des deux paramtres, learning

    rate=0,006 et du nombre de nuds=13 a permis d'obtenir le MSE le plus faible (nombre

    d'arbres=900).

    3.2.3 Rgression par rseaux de neurones

    Un rseau de neurones une couche cache (package nnet) a t ajust sur la base

    d'apprentissage. Le lecteur pourra se rfrer Hastie et al. (2008) pour plus de dtails. Le

    choix du critre d'arrt a t fix en choisissant le nombre de neurones dans la couche

    cache qui minimise l'erreur sur la base de test. L'erreur minimale a t trouve pour un

    rseaux dix neurones dans la couche cache.

    3.2.4 Rgression par modle linaire gnralis

    Un modle linaire gnralis a t ajust sur la base d'apprentissage. La fonction de

    variance utilise est la fonction Gamma avec sa fonction de lien canonique (fonction

    inverse).

    1

    www.r-project.org

  • 8/11/2019 Modele d Apprentissage

    13/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    61

    La slection de modle a t effectue selon une stratgie de slection forward. Cette

    stratgie consiste partir du modle sans variable explicative puis ajouter la variable qui

    rduit le plus l'erreur sur la base de validation. Cette opration est ritre jusqu' ce que

    l'ajout de variables augmente l'erreur sur la base de validation. Le modle final est celui

    dont le choix des variables explicatives minimise l'erreur sur la base de validation. Cette

    stratgie de slection de modle est cohrente avec la stratgie utilise pour paramtrerl'algorithme CART-ANV et permet de comparer de manire objective les rsultats produits

    par l'algorithme CART-ANV et le modle GLM .

    Dans cet exemple, la suppression des variables nUtilisatio et vehiculeduGenre du

    modle a permis de rduire l'erreur sur la base de validation. Il convient de noter que dans

    cet exemple, la stratgie forward de slection de modle retenait le mme modle que dans

    une stratgie consistant ne retenir que les variables dont les coefficients sont

    statistiquement significatifs (au sens de la p-value infrieure 5% sous l'hypothse 0H que

    le coefficient est nul).

    3.2.5

    Comparaison des rsultats et choix de l'algorithme

    La table 1 montre les rsultats en terme de MSE pour les quatre algorithmes dans

    l'valuation du montant moyen de la garantie bris de glace. Les rsultats sur cet exemple

    montrent que l'arbre de rgression boost est le modle qui donne la meilleure prdiction en

    terme de MSE. Toutefois, le prix payer pour obtenir ces performances est d'avoir des

    rsultats de type boite noire dans lequel il est difficile d'identifier l'effet d'une variable sur le

    rsultat final. Cette remarque est valable pour les rseaux de neurones, mais pas pour les

    arbres de rgression simple qui offrent une lecture visuelle du modle.

    Algorithme MSEtraining MSEvalidation MSEtestRgression GLM (Gamma) 485685 551574 516501

    Rseaux de neurones 473112 555147 514836Arbre de rgression simple 474858 545724 511344Arbre de rgression boost 459099 536985 503793

    Table 1: MSE calcul sur les trois bases(class du moins bon au meilleur sur la base de test)

  • 8/11/2019 Modele d Apprentissage

    14/34

    62 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    Figure 5: Arbre de rgression simple appliqu sur la base de donne

    La figure 5 prsente le rsultat graphique produit par l'algorithme. Le graphique

    indique que la sinistralit moyenne du portefeuille est de 210,9 et concerne 874 423

    individus (valeurs au sommet de l'arbre). Parmi l'ensemble des variables explicatives de

    l'assur (l'ge du vhicule, la puissance du vhicule, la formule), la variable qui effectue la

    meilleure sparation binaire de la base de donnes est la variable ge. La meilleure

    sparation a lieu pour l'ge de 7,25 ans. L'algorithme cre alors deux nuds et cherche

    parmi ces deux nuds celui qui ncessite le plus d'tre spar en deux. Pour le nud de

    sinistralit 89,89 , la variable qui spare le mieux le risque est la formule tandis que pour

    le nud de sinistralit 470,70 , la variable qui spare le mieux le risque est la variable

    Puissance . L'algorithme arrte de crer des divisions binaires lorsqu'un critre d'arrt est

    rencontr. Cet exemple montre que l'algorithme peut s'arrter diffrents niveaux de

    l'arbre.

    C'est cette lecture visuelle associe au principe de l'algorithme - qui est de crer des

    groupes de risques homognes - et aux bonnes performances en terme de MSE de l'arbre dergression qui nous ont invit retenir ce modle pour l'estimation de la prime pure dans la

    suite de notre tude.

    3.3 Prsentation de la rgression par arbre simple CART

    Les mthodes d'arbres de dcision partitionnent l'espace des variables explicatives

    en diffrentes classes de risques et assignent ensuite cette classe la valeur moyenne prise

    par le montant de sinistre dans la classe. L'algorithme utilis est l'algorithme CART

    dvelopp dans Breiman et al. (1984) et Hastie et al. (2008). Il peut tre utilis pour des

  • 8/11/2019 Modele d Apprentissage

    15/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    63

    problmes de classification ou de rgression. Dans le cadre de l'estimation de la prime pure,

    le problme est li une rgression sur le montant et la frquence des sinistres.

    La section consacre aux apports du machine learning a montr que l'ajustement

    d'un algorithme d'apprentissage machine se faisait en deux tapes. La premire tape est

    l'ajustement de la fonction )( xfw sur la base d'apprentissage par minimisation de l'erreur

    sur cette base trainingErr et la deuxime tape consiste trouver le paramtre de complexitw qui minimise l'erreur de gnralisation testErr . La fonction wf est de la forme :

    }{=)( ,,1=

    wjwj

    w

    jw RxIYxf

    o w dsigne le nombre de nuds terminaux de l'arbre, }{ ,wjRxI est la fonction

    indicatrice associe au nud final wjR , et wjY , dsigne la moyenne empirique dans le

    groupe j .

    Dans le cadre des arbres de dcision, minimiser trainingErr pour la fonction )( xfw

    n'est gnralement pas rsolvable informatiquement puisqu'il faudrait tester toutes les

    combinaisons de tous les groupes de risque possibles. L'algorithme CART est un

    heuristique qui permet de s'approcher de la solution optimale et qui consiste minimiser

    trainingErr chaque cration d'un nud.

    L'heuristique procde ainsi. Dans la premire tape, l'algorithme sub-divise de

    manire rcurente la base d'apprentissage en deux. Chaque nud cr vise maximiser la

    rduction de dviance .R L'algorithme calcule pour chaque variable et pour chaque

    sparation possible la valeur de la dviance du nud parent, fils gauche et fils droit.

    Plusieurs fonctions de dviance peuvent tre dfinies. Dans le cas d'une minimisation de

    l'erreur quadratique, cette dviance a pour expression :

    2)(= iiNoeudi

    yyD L'algorithme calcule ensuite, pour chacune des sparations possibles, la valeur R de

    la rduction de dviance : )(= filsdroitfilsgaucheparent DDDR + . Le nud finalement retenu

    est la sparation qui maximise la rduction de dviance R . L'algorithme recommence

    ensuite la cration d'un nouveau nud jusqu' ce que le critre d'arrt sur le nombre

    minimum d'individu dans un nud soit rencontr.

    L'arbre produit de nombreux nuds. La deuxime tape, appele lagage, consiste

    retirer tous les nuds qui rsultent du surapprentissage en utilisant une deuxime base, la

    base de validation. mesure que le nombre de nud augmente, l'erreur sur la base de

  • 8/11/2019 Modele d Apprentissage

    16/34

    64 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    validation diminue puis atteind un minimum (Cf. figure 2). L'algorithme arrte d'ajouter des

    nuds lorsque ce minimum est atteint.

    3.4 Adaptation de l'algorithme pour l'assurance non-vie ( CART-ANV)

    Cette sous-section pose le problme li la prise en compte de la priode

    d'exposition dans le portefeuille. Si cette priode d'exposition n'est pas prise en compte,l'arbre identifie les vhicules prsents moins longtemps dans le portefeuille comme tant

    moins risqu ce qui conduit une sous-estimation de la prime pour ces groupes de risque.

    Dans son papier sur l'application des algorithmes de support vector machine

    l'estimation de la prime pure, Christmann (2004) propose de diviser les sinistres dans la

    base de donnes par leur priode d'exposition. Or, si un assur prsent 3 mois dans le

    portefeuille dclare un sinistre, cette mthode comptabilise 4 sinistres sur l'anne.

    Mathmatiquement, l'effet de cette transformation est prsent dans l'inquation suivante :

    i

    M

    i

    i

    M

    i

    i

    M

    ii

    iM

    i

    i

    M

    i

    YYtsoitYt

    Y

    Mt

    1=1=1=1=1=

    ~)

    1(

    o dsigne le nombre d'individus dans un groupe d'assurs payant la mme prime, iY

    dsigne le montant de sinistre et it la priode d'exposition. La dmonstration de cette

    inquation se fait par rcurrence. Cette approche conduit une surestimation de la prime

    (notamment dans les groupes de risque qui sont structurellement moins d'un an dans le

    portefeuille : les premires souscriptions des jeunes conducteurs).

    Afin d'obtenir l'galit entre les primes pures actuarielles et la sommes des sinistres

    rels tel que :

    i

    M

    ii

    M

    i

    YYt 1=1=

    =~

    il vient algbriquement que la quantit Y~ estime par l'algorithme dans un nud et la

    fonction de dviance D~

    deviennent :

    2

    1=

    1= )~(=~

    =~

    iiiNoeudi

    i

    M

    i

    i

    M

    i tyyDet

    t

    Y

    Y

    Nous avons donc intgr cette modification directement dans l'algorithme CART

    pour devenir l'algorithme CART-ANV. Cette approche permet de prendre en compte l'effet

    de la priode d'exposition sur la sinistralit du portefeuille et est quivalente

  • 8/11/2019 Modele d Apprentissage

    17/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    65

    mathmatiquement l'introduction d'un offset dans les modles GLM qui possdent une

    fonction de lien logarithmique. Le package rpart permet de recoder en langage R la fonction

    de cration des nuds de l'arbre.

    4. TUDE ET PREPARATION DES DONNEES

    Nous avons suivi une mthodologie proche de CRISP-DM 1(Shearer 2000), dontl'une des tapes les plus importantes consiste prparer les donnes. Face l'importance de

    cette tape prliminaire, nous avons dcid d'y consacrer une section. Nous dcrivons ci-

    dessous les principaux lments de la base de donnes brute et les transformations opres.

    Nous prcisons que nous utilisons une base de donnes relle, brute et volumineuse

    d'un assureur. Pour des raisons -videntes- de confidentialit, nous avons dpersonnalis la

    base. Par exemple, nous n'avons pas explicit des variables comme l'usage des vhicules

    (not usage1, usage2 ) et avons effectu des homothties des variables quantitatives comme

    le montant du sinistre.

    Par ailleurs, l'assureur est en charge de la mesure de son propre risque et donc devalider les modles sur sa propre base de donnes correspondant son business. Nous ne

    comparons donc les modles que sur une seule base de donnes. Une comparaison sur

    d'autres bases ne rpond pas l'objectif que nous poursuivons car leurs caractristiques

    seraient diffrentes. Par exemple, elles pourraient tre issues de processus mtier diffrents

    ou viseraient une cible diffrente.

    La premire section est consacre l'tude descriptive de la base de donnes

    regroupant les informations sur les vhicules et les sinistres d'un portefeuille de vhicules.

    La prparation des donnes en vue d'tre utilises pour paramtrer des modles statistiques

    est ensuite prsente. La troisime section traite de la prsence de sinistres extrmes dans la

    base de donnes et la manire dont ces sinistres doivent tre traits. Enfin, la dernire

    section prsente les caractristiques de la base de donnes aprs traitement et sur laquelle

    sera appliqu l'algorithme.

    4.1 Description de la base de donnes

    La base de donnes qui sert de support notre tude rassemble plusieurs exercices

    pour atteindre un peu plus de trois millions de contrats. Ce fichier contient 45 variables

    explicatives (l'ge du vhicule, sa puissance, le montant de la franchise) dont la majorit

    1

    http://www.crisp-dm.org

  • 8/11/2019 Modele d Apprentissage

    18/34

    66 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    sont discrtes et comportent de nombreuses modalits (le code postal, la Catgorie Socio-

    Professionnelle - CSP, la marque du vhicule).

    Figure 6 : L'histogramme restreint aux sinistres compris entre 0 et 30 000 montre unedistribution trs asymtrique et la prsence d'un pic

    Notre base contient environ 150 000 sinistres. Le montant enregistr est le montant

    d'indemnisation de l'assureur sur une garantie, ce qui correspond la valeur totale du

    sinistre diminue de la franchise. La frquence moyenne des sinistres est de 7,49% pour un

    montant moyen de 3 711 , soit une prime pure en ne tenant compte d'aucune variable

    explicative de 276 . La table 2 dtaille la rpartition des sinistres. Ainsi, 6,48% des assurs

    ont eu un sinistre compris entre 1 et 4 500 . Ces sinistres de faible montant contribuent

    39,30% de la charge totale des sinistres. Il est intressant de noter l'importance prise par les

    sinistres extrmes : seulement 0,01% des assurs ont eu un sinistre extrme mais la somme

    de ces sinistres contribue 19% du montant total des sinistres. Le montant maximum de

    sinistre est de 7,8M.

    Charge de sinistre % obs. % du montant total Moyenne Mdiane0 92,51 0 0 0

    ]0,4 500] 6,48 39,30 1 680 1 266]4 500,30 000] 0,92 28,00 8 394 6 762

    ]30 000,150 000] 0,06 13,78 60 705 50 682[150 000, max] 0,01 19,10 471 627 276 012

    Table 2: Rpartition de la charge de sinistre. Elle montre l'importance des valeursextrmes.

  • 8/11/2019 Modele d Apprentissage

    19/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    67

    L'cart entre le montant moyen et la mdiane dans une tranche de sinistres montre

    que la distribution des sinistres est trs asymtrique. Ceci est confirm par le coefficient

    d'asymtrie skewness- qui est de 3,2 et l'histogramme de la distribution des sinistres par

    contrats prsent dans la figure 6. La lecture de l'histogramme rvle un pic de sinistralit

    correspondant au montant du remboursement dans le cas d'une procdure IDA

    (Indemnisation Direct de l'Assur). Pour acclrer le remboursement des assurs, les

    assureurs ont mis en place cette procdure qui se traduit statistiquement par une

    dformation de la distribution des sinistres avec un pic et trs peu de sinistres autour de ce

    pic. La dformation est d'autant plus visible lorsque l'histogramme des sinistres est tudi

    garantie par garantie comme le montre la figure 7.

    Le premier histogramme de la figure 7 correspond la garantie responsabilit civile

    et montre l'importance de la distorsion lie au pic. Les autres histogrammes sont prsents

    afin de montrer les diffrences de distributions entre les garanties. La distribution de la

    garantie incendie apparat moins rgulire que la distribution de la garantie pour le bris de

    glace. Le dernier histogramme est associ la garantie sur la collision et montre aussi unpic, mais avec une influence moindre sur la distribution que pour la garantie RC.

    Ces histogrammes confirment le fait que les distributions entre garanties sont trs

    peu homognes. Cependant l'tude de l'histogramme des sinistres par vhicule de la figure

    6, montre une distribution des sinistres beaucoup plus rgulire et suggre que les modles

    dvelopps sur cette distribution seront moins perturbs par les donnes que les modles

    paramtrs sur les distributions des sinistres pris garantie par garantie.

    Figure 6: Histogrammes par garanties assures

  • 8/11/2019 Modele d Apprentissage

    20/34

    68 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    4.2 Prparation des donnes

    Les variables prsentes dans la base de donnes ne peuvent tre utilises par un

    modle statistique sans un traitement pralable. En effet, la prsence de valeurs non-

    cohrentes, de valeurs manquantes, de variables discrtes avec un trs grand nombre de

    modalits ou de valeurs extrmes posent certains problmes. Nous prsentons dans cette

    section les traitements les plus importants et leurs consquences ventuelles sur les rsultatsdu modle.

    4.2.1 Les valeurs non-cohrentes et extrmes pour les variables explicatives

    Les valeurs non-cohrentes doivent tre dtectes l'aide d'un expert sur le risque

    assur. Dans notre exemple, la connaissance des puissances et des ges des diffrents

    vhicules permet d'identifier les valeurs non-cohrentes. Une fois identifies, ces valeurs

    peuvent soit tre remplaces par la valeur la plus probable (aprs une rgression sur la

    variable remplacer) soit tre dfinies comme valeurs manquantes.

    4.2.2

    Regroupements

    Bien que les regroupements des variables qualitatives ne soient pas ncessaires pour

    CART-ANV, ils sont utiles dans le cadre d'une comparaison avec les modles GLM. En

    effet, les variables qualitatives sont transformes en variables binaires par la majorit des

    algorithmes statistiques (GLM, rseaux de neurones). Ainsi, une variable comme la CSP

    qui possde l'origine une centaine de modalits conduit la cration de 100 variables

    binaires. Un trop grand nombre de variables en entre des modles pose plusieurs

    problmes majeurs : les temps de calculs sont multiplis, les interactions entre variables

    sont plus difficiles modliser ou dtecter, les rsultats produits perdent de leur

    interprtabilit et de leur significativit statistique. La solution consiste oprer des

    regroupements, soit en utilisant des outils de classification statistique soit en utilisant l'avis

    d'experts.

    Dans notre tude, la variable iculeGenreduveh est issue d'un regroupement d'une

    cinquantaine de variables en 6 groupes dont les caractristiques sont prsentes dans le

    tableau 3.

  • 8/11/2019 Modele d Apprentissage

    21/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    69

    vehiculeduGenre %obs. frq. montant chargecharge150 000

    A 97,29 0,075 3636 273 222B 0,11 0,018 6462 117 117D 1,60 0,050 4680 237 71E 0,17 0,176 7140 1260 924G 0,45 0,102 11985 1121 570

    Autres 0,38 0,049 2538 126 126

    Table 3: Analyse univarie par rapport la variable genre du vhicule

    La variable Usage a galement t cre partir d'un regroupement d'une

    cinquantaine de catgories et possde 8 niveaux (Usage1, Usage2).

    Les variables quantitatives (Age et Puissance ) ne ncessitent pas d'tre regroupes

    pour tre traites par des algorithmes de machine learning. Ceci est un avantage face aux

    modles GLM qui ncessitent souvent de discrtiser les variables continues. En effet, dans

    ces modles, nous avons montr que si les variables quantitatives ne sont pas discrtises,

    l'effet de celles-ci sur le risque n'est paramtr que par un seul paramtre ce qui est

    gnralement insuffisant (Cf. section 2.1 sur les limites des Modles Linaires Gnraliss).

    4.2.3 Prise en compte de la priode d'exposition

    Suite la sous-section 3.4, nous savons que la dure de prsence du vhicule est

    ncessaire pour une juste valuation de l'algorithme CART-ANV. Nous calculons donc la

    variable Temps qui indique la dure de prsence du contrat dans le portefeuille. Sa valeur

    moyenne est de 0,84 an.

    4.2.4 Agrgation au niveau du vhicule

    Comme not en prambule de la section modlisation, nous proposons de modliser

    le tarif global d'un vhicule plutt que de modliser le risque de chaque garantie souscrite.Pour cela, nous avons dcid de crer deux nouvelles variables.

    La premire est le montant de sinistre annuel pour un vhicule et correspond la

    somme des sinistres pour toutes les garanties du vhicule.

    La seconde est une variable qui dcrit la formule thorique de garantie utilise par le

    vhicule. L'objectif de la cration de cette variable est de passer de l'ajustement d'un modle

    par garantie l'ajustement d'un seul modle mais qui prendrait en variable d'entre

    l'information sur les garanties souscrites par l'assur. Les modalits de cette variable sont

  • 8/11/2019 Modele d Apprentissage

    22/34

    70 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    prsentes dans la table 4. Lorsque la garantie1est entre parenthses cela signifie que la

    garantie peut tre prsente ou absente de la formule :

    Nom de la formule garanties associes % obs. prime pureformule 1 RC 25 % 45formule 2 RC+INC+BDG+(VOL) 10 % 51

    formule 3 RC+INC+BDG+(VOL)+DOE 6 % 91formule 4 formule 3+COL+TAC+(PNE) 45 % 321autres formules 14 % 132

    Table 4: Description de la variable formule.

    La catgorie autre formule correspond aux vhicules dont les combinaisons de

    garanties n'ont pas pu tre incluses dans l'une des quatre formules. Il s'agit le plus souvent

    de formules souscrites il y a longtemps, et qui ne figure plus dans la cible commerciale

    actuelle. Ces vhicules reprsentent 14 % du portefeuille et les informations sur ces

    vhicules ne pourront pas tre utilises pour la modlisation par l'approche vhicule.

    4.2.5

    Les sinistres extrmes

    La table 2 montre l'importance des sinistres extrmes dans le montant final de la

    prime puisque ces sinistres qui ne reprsentent que 0,01 % du nombre total d'assurs

    contribuent hauteur de 19 % du montant total des sinistres. Toutefois, ces sinistres ne

    peuvent pas tre directement modliss dans le calcul de la prime pure pour deux raisons.

    La premire est lie aux modles statistiques qui minimisent gnralement une

    distance quadratique et ne sont donc pas robustes la prsence de valeurs extrmes. La

    figure 8 montre le rsultat de la prdiction (rgression GLM avec fonction de variance

    gamma) en laissant les sinistres extrmes dans la base de donnes (courbe en trait plein)

    tandis que la courbe en trait discontinu est le rsultat de la prdiction en crtant le sinistreextrme. Cette dernire reprsente mieux la tendance gnrale de l'influence de la variable

    ge.

    Les sinistres extrmes sont essentiellement lis la garantie responsabilit civile.

    Cela constitue la deuxime raison pour crter les sinistres extrmes. Dans cette garantie, le

    montant du sinistre couvre les frais d'un tiers. Son montant ne dpend donc pas des

    caractristiques de l'assur ou de son vhicule. En revanche, la frquence de sinistres est

    directement lie aux caractristiques de l'assur et pourra tre modlise. Le tableau 5

    1Responsabilit Civile, INCendie, Bris De Glace, VOL du vhicule, DOmmage Electrique, COLlision,

    dommage Tous ACcidents, dommage aux PNEumatiques

  • 8/11/2019 Modele d Apprentissage

    23/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    71

    illustre cette caractristique en montrant que la charge finale due aux sinistres extrmes est

    davantage influence par une frquence sinistre leve (genre Eet G ) que par le montant

    de ces sinistres. La mme tude a t mene sur d'autres variables et confirme cette

    remarque. Ceci montre l'importance de pouvoir identifier les sinistres extrmes et justifie de

    crer un modle de frquence pour ces sinistres.

    Genre du vhicule % obs. frq. extrme montant charge 150 000A 97,29 0,000107 479 511 51D 1,60 0,000139 156 570 21E 0,17 0,001279 262 830 336G 0,45 0,001220 534 474 651

    Table 5: Analyse univarie des sinistres extrmes: cette analyse montre l'importance jouepar la frquence par rapport l'influence exerce par le montant moyen

    Le choix du seuil partir duquel un sinistre est dclar extrme peut tre calcul

    partir de considrations issues de la thorie des valeurs extrmes. Ce seuil peut tre fix

    pour l'ensemble du portefeuille ou fix au niveau de chaque classe de risques. Benlagha etal. (2009) comparent trois mthodes statistiques pour dterminer ce seuil au sein de chaque

    classe de risques. Cette approche possde l'avantage de fixer des seuils qui prennent en

    compte les caractristiques des classes de risques (le seuil est plus lev dans les classes

    risques).

    Figure 8 : Graphique montrant la distorsion introduite par la prsence d'un sinistreextrme.

  • 8/11/2019 Modele d Apprentissage

    24/34

    72 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    Dans notre approche, les classes de risques ne sont pas fixes priori ce qui

    ncessite de fixer un seuil d'crtement pour l'ensemble du portefeuille. En utilisant la

    mthode de la fonction moyenne des excs - mean excess loss- prsente dans Embrechts

    et al. (1997), on obtiendrait un seuil d'crtement de 300 000 pour le montant des sinistres

    agrgs au niveau du vhicule. Toutefois, il peut tre prfrable de fixer le seuil

    d'crtement selon d'autres critres en fonction du modle statistique utilis (en particulierpour les modles minimisant une distance quadratique). Le seuil Sest fix au quantile

    99 % de la distribution des montants des sinistres strictement positifs, soit 30 000 (parmi

    les 2,2 millions d'observations de la base, 1 600 observations sont suprieures ce seuil).

    4.3 Paramtrage de l'algorithme sous R

    Figure 9 : volution du MSE sur la base de validation en fonction du pourcentaged'individus minimum admis dans un nud. Le minimum est ralis dans cet exemple pour

    0,5% du nombre d'individus prsents dans la base d'apprentissage.

    Plusieurs packages existent sous R pour construire des arbres de dcision avec

    l'algorithme CART. Nous avons retenu le package de rfrence rpart de Therneau et al.

    (2009) car il nous permet de recoder les modifications apporter sur l'algorithme pour

    intgrer le temps d'exposition.La fonction rpart a 6 paramtres : xval, minbucket, maxcompete , temaxsurroga ,

    cp et maxdepth .

    Le paramtre xval dsigne le nombre de validations croises effectues par le

  • 8/11/2019 Modele d Apprentissage

    25/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    73

    modle ( 10=xval par dfaut). Pour un portefeuille d'assurance qui possde une forte

    variance dans la variable Y expliquer, la validation croise n'est pas trs adapte moins

    d'utiliser un faible nombre de validations croises de faon ce qu' chaque tape la

    proportion de la base utilise pour la validation contienne un grand nombre d'observations.

    Notre approche prconise donc de ne pas utiliser cette option ( 0=xval ) et de dcouper

    alatoirement, classiquement, la base de donnes en trois parties : 50% de la base servent

    l'apprentissage, 25% servent la validation et trouver le paramtre de complexit w

    optimal du modle, les 25% restant serviront de base de test permettant de comparer les

    diffrents modles. Les modles GLM et CART-ANV seront donc compars

    objectivement sur les mmes bases.

    Le paramtre minbucketdsigne le nombre minimum d'individus dans un groupe de

    risques final. Ce paramtre est un des deux critres d'arrt dans la construction de l'arbre.

    Une valeur trop grande ne permet pas de modliser les singularits des donnes. Une valeur

    trop petite cre des nuds trop spcifiques qui seront supprims par le second critre

    d'arrt. Dans notre cas, il est fix 1000 vhicules. En effet, l'ordre de grandeur de lafrquence de survenance d'un sinistre ( 10%< ) et l'importance de la variance et de

    l'asymtrie de ,Y font qu'une moyenne sur moins de 1000 vhicules a peu de chance d'tre

    significative. Les temps de traitement tant raisonnables, il n'tait pas utile d'optimiser ce

    paramtre une valeur suprieure.maxcompete impacte uniquement l'affichage mais pas les rsultats (il permet

    l'affichage des maxcompete meilleurs critres de rduction de dviance R du nud

    parent).

    temaxsurroga est le paramtre qui permet de dfinir le nombre de variables de

    substitution pour les variables prdictives ayant des valeurs manquantes dans la base de

    donnes. En effet, d'une part, CART ne supprime pas les observations ayant des valeurs

    manquantes et d'autre part, ne remplace pas les valeurs manquantes par des valeurs

    estimes. Une fois le nud cr, l'algorithme slectionne parmi les variables de substitution

    celles qui reprsentent le mieux le nud cr pour rpartir les observations o la variable

    est manquante. Par exemple, si la sparation du nud est cre sur l'ge et que la seconde

    variable, qui explique le mieux cette sparation est la puissance, l'algorithme va classer les

    observations o l'ge n'est pas renseign dans le nud en fonction de la puissance. Dans

    notre cas, deux variables de substitution sont suffisantes.

    cp est un critre d'arrt qui utilise le critre de complexit w et qui vise optimiser

  • 8/11/2019 Modele d Apprentissage

    26/34

    74 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    les temps de calcul. Nous l'avons fix zro pour ne pas retenir ce critre d'arrt.

    maxdepth dsigne la profondeur maximum de l'arbre, fixe 11 dans notre

    estimation car l'arbre, une fois lagu, a une longueur maximale de 10 nuds.

    5. EVALUATION DES RESULTATS

    Dans cette section, nous prsentons les rsultats pour l'valuation de la prime pure.La premire sous-section prsente les Mean Square Errors et la deuxime l'analyse des

    biais. La troisime dcrit les rsultats produits par l'algorithme CART-ANV. Enfin, les

    rsultats de l'estimation de la frquence des sinistres extrmes seront prsents.

    5.1 Le Mean Square Error

    Nous comparons d'abord les modles l'aide du Mean Square Error (MSE), un

    critre usuel de performance d'un modle. Nous constatons que, sur la base de test,

    l'algorithme CART-ANV sur-performe le modle GLM (Cf. tableau 6).

    Modle MSEapprentissage MSEtestRgression GLM (poisson) 1148103 1177830

    CART-ANV 1144881 1176777

    Table 7: MSE calcul sur la base d'apprentissage et sur la base de test

    Comme le MSE est intrinsquement trs lev en assurance, mme cette faible

    rduction du MSE est utile.1

    Figure 10 : Montrant l'erreur sur la base de validation.

    1Nous ne cherchons pas prouver que l'algorithme CART-ANV sur-performe la GLM de manire

    systmatique en assurance non-vie.

  • 8/11/2019 Modele d Apprentissage

    27/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    75

    Le graphique 10 compare les performances de l'algorithme sur la base de test. La

    courbe en trait plein montre que plus le nombre de nuds augmente dans l'arbre plus

    l'erreur commise par ce modle diminue. A partir d'un certain nombre de nuds, l'erreur

    devient infrieure celle du modle GLM .

    5.2

    Le critre d'quitNous cherchons illustrer graphiquement la performance des deux approches en

    terme d'quit en projetant les rsultats par segment ( i.e.groupe de vhicules homognes).

    Cette approche est prsente dans la figure 11. Les valeurs retenues pour la charge de

    sinistres et les primes prdites sont celles de la base de test testB .

    Raliser cette analyse pose le problme du choix de la taille du groupe dans lequel

    on mesure le biais. Si le segment est trop grand, les carts tendent s'effacer quelques

    soient leurs performances. Si au contraire, on cherche mesurer les carts dans des

    segments trop petits, le caractre alatoire de la sinistralit ne permet plus de comparer les

    carts produits par les modles.

    Figure 11 : graphique montrant les valeurs prdites et les montants de sinistres moyens enfonction de quatre variables explicatives.

    Ainsi que le montre la figure 11, l'algorithme CART-ANV et la GLM montrent des

    performances comparables en terme de biais lors d'une projection des rsultats sur une

  • 8/11/2019 Modele d Apprentissage

    28/34

    76 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    seule variable explicative (segments-unidimensionnels). En effet, les courbes CART-ANV

    et GLM pousent toutes les deux l'histogramme des sinistres.

    En revanche, la projection des rsultats sur deux variables explicatives (segments

    multi-dimensionnels) tend montrer que l'algorithme CART-ANV est moins biais que la

    GLM , tendance qu'il s'agirait de confirmer dans des travaux futurs, comme cela est illustr

    dans la figure 12. Elles montrent la projection sur la puissance du vhicule pour diffrentestranches d'ge. Dans ces quatre cas, nous observons que la courbe CART-ANV pouse

    beaucoup mieux l'histogramme des sinistres. Considrons par exemple les assurs dont

    l'ge des vhicules est compris entre 0 et 15 ans (partie en haut droite de la figure 12) et

    dont la puissance se situe entre 50 et 75 ch. Nous remarquons un cart significatif de la

    GLM qui inciterait ces assurs souscrire au juste prix chez un autre assureur.

    Figure 12 : Montant de sinistres en fonction de la puissance du vhicule pour leportefeuille global puis restreint diffrentes tranches d'ge

    Ainsi, l'tude du biais selon deux variables explicatives tend montrer que les

    rsultats produits par l'arbre de rgression sont moins biaiss que ceux produits par un

    modle de type GLM dont les limites des classes de risques sont fixes priori par le

    statisticien.

    5.3 Lecture des rsultats produits par l'arbre

    L'arbre ajust sur la base d'apprentissage puis lagu sur la base de validation

  • 8/11/2019 Modele d Apprentissage

    29/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    77

    possde un total de 65 nuds finaux. Pour des raisons de confidentialit, seule une partie de

    l'arbre est prsente dans la figure 13 (ge 24,5 an).

    Le premier constat est la possibilit d'avoir une vision la fois sur le montant des

    primes en fonction des variables explicatives et le nombre d'assurs concerns par le

    montant de prime modlis. En effet un nud terminal donne la fois le montant de la

    prime et le nombre d'assurs concerns. Ceci est comparer avec l'ensemble des autres

    modles statistiques qui produisent des rsultats issus de multiplications de plusieurs

    coefficients et dont il est impossible d'estimer la fois les effets des variables explicatives

    et le nombre d'assurs concerns.

    Cette lisibilit de la tarification permet ainsi de runir une mme table techniciens,

    responsables marketing et actuaires pour discuter des stratgies tarifaires mettre en place.

    Concernant cette stratgie, il peut par exemple tre dcid de supprimer une sparation

    finale en deux nuds si celle-ci segmente le risque d'une faon incompatible avec les prix

    de march. Le tarif appliquer aux deux nuds fils supprims est alors le tarif du nud

    parent. Si ce tarif est appliqu il y a encore quilibre entre primes et sinistres sur l'ensembledu portefeuille.

    La reprsentation graphique de l'arbre permet une lecture plusieurs niveaux. Elle

    permet tout d'abord de hirarchiser l'importance des variables expliquant le risque assur.

    En effet, plus la variable intervient haut dans l'arbre et plus son effet est discriminant dans

    l'explication du risque. Dans notre exemple, l'ge du vhicule est la variable la plus

    discriminante puisqu'elle est la premire variable intervenir (sparation 14,5 ans) puis

    intervient rgulirement dans la partie haute de l'arbre.

    De plus, l'arbre permet de montrer que certains critres de risques sont plus

    importants dans certaines sous-populations que d'autres. Ainsi, la seconde variabled'influence chez les vhicules rcents (l'ge est infrieur 14,5 ans) est la puissance alors

    que pour les vhicules anciens, la variable Puissance intervient beaucoup plus bas dans

    l'arbre pour discriminer les risques.

    Un autre avantage des arbres de rgression tient au fait que l'algorithme cherche

    chaque tape crer le nud qui engendre la rduction d'erreur quadratique la plus

    importante. Ainsi, CART-ANV produit un arbre dont le nombre de branches n'est pas

    uniforme, de 3 7 branches dans notre tude. Par exemple, pour les vhicules d'ge

    suprieur 24,5 ans qui reprsentent la moiti du portefeuille, seuls six tarifs sont produits

    par l'arbre sur une profondeur de deux ou trois nuds seulement (figure 13). La

  • 8/11/2019 Modele d Apprentissage

    30/34

    78 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    segmentation des risques sur cette partie du portefeuille n'ayant pas un grand intrt pour

    l'assur (les majorations/minorations de tarif tant faibles), cette proprit de l'algorithme

    apparat comme un avantage face aux mthodes statistiques qui segmentent uniformment

    le risque sur le portefeuille.

    Il convient de signaler que sur les huit variables potentiellement utilisables par

    l'algorithme, la variable vehiculeduGenre n'apparat jamais tandis que la variablenUtilisatio n'apparat que deux fois dans l'arbre. Ceci peut tre peru comme un

    inconvnient si l'assureur dcide de segmenter selon ces deux critres. Toutefois, ce choix

    ne serait pas judicieux puisque l'arbre indique que segmenter selon ces deux critres ne

    conduit pas la rduction d'erreur quadratique la plus importante.

    Figure 13 : Arbre de rgression pour la branche concernant les vhicules anciens.

    5.4 Les sinistres extrmes

    La section 3.1 consacr la mthodologie d'valuation de la prime pure a introduit

    l'utilit de ne modliser que la frquence de sinistres pour les sinistres extrmes. Un arbre a

    donc t ajust pour valuer la quantit ]|[ XSYPr avec un seuil S de 30 000

    correspondant au quantile 99% de la distribution des sinistres strictement positifs. Le

    rsultat graphique de cet arbre est prsent dans la figure 14.

  • 8/11/2019 Modele d Apprentissage

    31/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    79

    Figure 14: L'arbre de prdiction de la frquence des sinistres extrmes (frquence en % ).

    Le rsultat produit par l'algorithme est trs intressant pour l'identification des

    risques extrmes. En effet, il permet d'identifier les facteurs de risque qui expliquent une

    frquence de sinistres extrmes plus leve. Parmi les groupes les plus sinistrs, les

    vhicules du genre Eet G sont particulirement exposs ainsi que les CSP G et .H Ceciconfirme l'analyse univarie du tableau 5.

    Cependant, utiliser cette frquence de sinistres pour calculer le surplus de prime lie

    aux sinistres extrmes conduit des montants de prime relativement levs pour certaines

    classes de risques. Le montant moyen des sinistres suprieurs 30 000 tant de

    123 402 , la surprime lie aux risques extrmes pour les vhicules serait de 714

    ( 0,5808%402123 ). Ce chiffre est comparer aux 102 de surprime si l'ensemble des

    risques extrmes est mutualis sur l'ensemble des assurs du portefeuille.

    6. CONCLUSION

    Cette tude prsente une approche innovante de la tarification des risques

    d'assurance non-vie. Alors que les dveloppements rcents en actuariat de l'assurance

    dommage se sont focaliss sur la matrise et l'amlioration des Modles Linaires

    Gnraliss, nous proposons une version modifie de l'algorithme CART pour la

    rgression.

    De par leur nature non paramtrique, les algorithmes d'arbre de dcision utiliss

    dans cette tude ont permis de faire ressortir des informations nouvelles sur le risque tout

    en amliorant les mesures d'erreur entre le risque mesur et le risque modlis. De plus,

    contrairement aux Modles Linaires Gnraliss, nous avons vu que l'algorithme de

  • 8/11/2019 Modele d Apprentissage

    32/34

    80 A. PAGLIA M. V. PHELIPPE-GUINVARCH

    cration de l'arbre de dcision optimise ses rsultats en utilisant plusieurs bases de donnes.

    Cela le rend robuste en laguant les classes de risques dont le nombre de personnes assures

    n'est pas assez significatif (phnomne de surapprentissage).

    L'assureur trouve galement une relle plus-value dans la segmentation produite par

    l'algorithme. Les vhicules anciens, trs nombreux, mais qui ont un risque faible et peu

    d'enjeux commerciaux, sont modliss trs simplement sur six classes. Par contre, lasegmentation est beaucoup plus fine pour les vhicules rcents, tout en vitant de

    paramtrer le modle sur des classes de risques dont le nombre de personnes assures n'est

    pas significatif (vite donc le phnomne de surapprentissage). De plus, les tests raliss

    tendent montrer que l'algorithme CART est moins biais que la GLM sur les diffrents

    segments de la base.

    En outre, nous montrons comment cette approche vhicule, conjugue avec la

    lisibilit des arbres de dcision permet de runir une mme table techniciens, responsables

    marketing et statisticiens pour discuter des stratgies tarifaires mettre en place.

    7.

    REFERENCES

    C. APTE, E. GROSSMAN, E. PEDNAULT, B. ROSEN, F. TIPU et B. WHITE :

    Probabilistic estimation based data mining for discovering insurance risks.IEEE Intelligent

    Systems, 14:49-58, 1999.

    R.A. BAILEY et L.R.J. SIMON : Two studies in automobile insurance

    ratemaking.ASTIN Bulletin, 1(4):192-217, 1960.

    N. BENLAGHA, M. GRUN-REHOMME et O. VASECHKO : Les sinistres

    graves en assurance automobile : Une nouvelle approche par la thorie des valeurs

    extrmes.Revue MODULAD, 47:39, 2009.

    L. BREIMAN, JH FRIEDMAN, RA OLSHEN et CJ STONE : Classification and

    regression trees. Chapman & Hall/CRC, 1984.

    A. CHRISTMANN : An approach to model complex high-dimensional insurance

    data.Allgemeines Statistisches Archiv, 88(4):375-396, 2004.

    M. DENUIT et A. CHARPENTIER : Mathmatiques de l'assurance non-vie.

    Economica, 2005.

    C. DUGAS, N. CHAPADOS, Y. BENGIO, P. VINCENT, G. DENONCOURT et

    C. FOURNIER : Statistical learning algorithms applied to automobile insurance

    ratemaking.InCasualty Actuarial Society Forum-Arlington, pages 179-213, 2003.

  • 8/11/2019 Modele d Apprentissage

    33/34

    TARIFICATION DES RISQUES EN ASSURANCE NON-VIE, UNE APPROCHE PAR MODELED'APPRENTISSAGE STATISTIQUE

    81

    J. ELITH, JR LEATHWICK et T. HASTIE : A working guide to boosted

    regression trees.Journal of Animal Ecology, 77(4):802-813, 2008.

    P. EMBRECHTS, C. KLUPPELBERG et T. MIKOSCH : Modelling extremal

    events. Springer Berlin, 1997.

    S. FELDBLUM :Risk Classifications,Pricing Aspects. Encyclopedia of Actuarial

    Science. John Wiley and Sons, 2006.

    T M. HASTIE, R. TIBSHIRANI et J. FRIEDMAN : The Elements of Statistical

    Learning. Springer Series in Statistics, 2008.

    P. LENCA, S. LALLICH et B. VAILLANT : Construction of an off-centered

    entropy for the supervised learning of imbalanced classes : Some first results.

    Communications in Statistics - Theory and Methods, Taylor & Francis, 39(3):493-507,

    2010.

    P. MCCULLAGH et JA NELDER : Generalized linear models. UK : Chapman

    and Hall, 2 dition, 1989.

    Tom M. MITCHELL :Machine learning. WCB/McGraw-Hill, 1997.Antoine PAGLIA, Martial Vincent PHELIPPE-GUINVARC'H et Philippe

    LENCA : Adaptation de l'algorithme cart pour la tarification des risques en assurance non-

    vie. In 11e Confrence Internationale Francophone sur l'Extraction et la Gestion des

    Connaissances, EGC 2011, pages 611-622, Brest, France, janvier 2011. URL

    http://www.ensta-bretagne.fr/egc11/index.php/articles-longs/.

    Colin SHEARER : The crisp-dm model : The new blueprint for data mining.

    Journal of data Warehousing, 5(4):13-22, 2000. URL http://www.crisp-

    dm.org/News/86605.pdf.

    Terry M THERNEAU, Beth ATKINSON et Brian RIPLEY. : Rpart : RecursivePartitioning. CRAN, 2009. URL http://CRAN.R-project.org/package=rpart. R package

    version 3.1-45.

    V. VAPNIK : Statistical learning theory. Wiley, New York, 1998.

    T. WASHIO, E. SUZUKI, K. M. TING et A. INOKUCHI, diteurs.A comparison

    of different off-centered entropies to deal with class imbalance for decision trees, 5012,

    Osaka, Japan, May 2008. Springer.

    X. WU, V. KUMAR, J. ROSS QUINLAN, J. GHOSH, Q. YANG, H. MOTODA,

    G.J. MCLACHLAN, A. NG, B. LIU, P.S. YU et al. : Top 10 algorithms in data mining.

    Knowledge and Information Systems, 14(1):1-37, 2008.

  • 8/11/2019 Modele d Apprentissage

    34/34