31
FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration “R” in Finance Industry FK BCG Corp / R Tech Center www.facebook.com/rtechcenter [email protected]

“R” in Finance Industry

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration FKBCG Corp. Knowledge Integration

“R” in Finance Industry

FK BCG Corp / R Tech Center

김 민 정

www.facebook.com/rtechcenter

[email protected]

1 | © 2012 R Tech Center All rights reserved.

발표자 소개

김민정 / MJ Kim (현) FK BCG Corp. 신사업부문 대표 R Tech Center 대표 KRUG Committee Member (전) NEXTWAVE Inc. 스코어링사업부 팀장

RTechCenter

1990s Credit Scoring 기술의 국내 도입 주도

2000s

2010s

다양한 모형 (Revenue 모형, 대부업 모형 등) 및 전략시스템 도입 주도 최초의 Positive Credit Bureau 스코어 개발 주도적 참여 Transaction 모형, 콜센터 채널 최적화 기술 등 소개

Macro 경제 변수의 영향력 분석등 분석 고도화 프로젝트 수행 R Tech Ceter를 통한 Revolution Analytics의 프리미엄R 소개 ( ) 빅데이터 분석 플랫폼 Signal Hub 기술 도입 노력

“지니램프가 아닌, 새로운 환경 하에서의 부가적 가치 발견을 위한 선진 기술의 적용”

Table of Contents

1. Big Data 시대와 분석의 변화

2. Case Study : R의 금융권 적용 사례 (1) 로이드(Lloyd)의 보험분야에서의 R의 활용 (2) 신용 리스크 분석을 위한 ANZ의 R 활용 (3) 기타사례 3. 결어 : 데이터 사이언티스트를 위한 R

Table of Contents

1. Big Data 시대와 분석의 변화

2. Case Study : R의 금융권 적용 사례 (1) 로이드(Lloyd)의 보험분야에서의 R의 활용 (2) 신용 리스크 분석을 위한 ANZ의 R 활용 (3) 기타사례 3. 결어 : 데이터 사이언티스트를 위한 R

4 | © 2012 R Tech Center All rights reserved.

90% of the data in the world today has been created in the last 2 years

– IBM

More data will be created in the next three years than in the previous 40,000

– Berkeley School of Management

It’s a Big Data World….

The intensity of Big Data varies across sectors but has reached a critical mass in every sector

– McKinsey Global Institute

” “

1.Big Data 시대와 분석의 변화

5 | © 2012 R Tech Center All rights reserved.

엄청난 규모의 데이터 증가는 데이터의 다양성과 복잡성 촉진.

비즈니스 담당자들이 고려해야 할 사항이 늘어남

정보는 실시간으로 계속해서 발생하며 빠른 속도로 변화함 얼마나 빠른 속도로 ‘발견해 내는가’가 경쟁력의 차이

Complexity

Streaming 24/7

Unstructured 다양한 데이터 소스와 데이터 형식, 그리고 데이터 퀄리티의 다양성은

수많은 노이즈를 존재하게 하여, 의미있는 ‘시그널’을 발견할 비율을 낮춤

소셜 미디어의 성장으로 인해 점점 더 많은 참여자들이 자신의 경험을 외부와 공유하고, 정보를 제공함.

이들은 비즈니스 담당자들이 분석해야 할 향후 과제가 됨

Experience Externalization

The Challenge Today 1.Big Data 시대와 분석의 변화

6 | © 2012 R Tech Center All rights reserved.

빅데이터 시대의 가치창출을 위한 분석 접근의 변화

Historic

PREDICTIVE

Static Pond

FLOWING RIVER

Enterprise- Generated

WORLD- GENERATED

Predictable, Structured

WILD, UNSTRUCTURED

Data Mining

SIGNAL IDENTIFICATION

Low-level Analytics

ADVANCED ANALYTICS

Mind OR Machine

MIND + MACHINE

Static Models

LEARNING MODELS

One-Way Data Presentation

TWO-WAY INTERACTIVITY

The nature of data is changing… …and how we can extract its value is, as well

1.Big Data 시대와 분석의 변화

7 | © 2012 R Tech Center All rights reserved.

Symbolic

Iconic

Mind +

Machine

results in

Integrated Cognition

Indexic

Is/is not something

Ideas and concepts beyond space, time, or current reality

Things associated by space, time, or category

There are three levels of cognition . . .

Mind

Machine

Competitive Advantage

사람 or 기계? => 사람 + 기계 1.Big Data 시대와 분석의 변화

8 | © 2012 R Tech Center All rights reserved.

다양한 툴 사용의 필요성과 R의 부각

http://www.kdnuggets.com/2012/08/poll-analytics-data-mining-programming-languages.html

http://redmonk.com/dberkholz/2012/08/02/what-languages-win-for-data-mining-and-analysis/

http://revolution-computing.typepad.com/.a/6a010534b1db25970b01676908ecaf970b-pi

http://rexeranalytics.com/Data-Miner-Survey-Results-2011.html

1.Big Data 시대와 분석의 변화

9 | © 2012 R Tech Center All rights reserved.

참고 : 무료버전과 상용버전의 차이 – Revo R 소개

10 | © 2012 R Tech Center All rights reserved.

4,000 community packages and growing exponentially

R Engine Language Libraries

Community Packages

Technical Support

Web Services API

Big Data Analysis

IDE / Developer GUI

Build Assurance

Parallel Tools

Multi-Threaded Math Libraries

Cluster support

참고 : 무료버전과 상용버전의 차이 – Revo R 소개 (계속)

Revolution R Enterprise has Open-Source R Engine at the core

11 | © 2012 R Tech Center All rights reserved.

참고 : R Enterprise의 적용 사이트

Consumer & Info Svcs

Finance & Insurance Healthcare & Life Sciences

Manuf & Tech Academic & Gov’t

Table of Contents

1. Big Data 시대와 분석의 변화

2. Case Study : R의 금융권 적용 사례

(1) 로이드(Lloyd)의 보험분야에서의 R의 활용 (2) 신용 리스크 분석을 위한 ANZ의 R 활용 (3) 기타사례 3. 결어 : 데이터 사이언티스트를 위한 R

13 | © 2012 R Tech Center All rights reserved.

(1) 보험분야에서의 R의 활용 (Lloyd 사례)

로이드(Lloyd)는?

- 세계 보험시장의 선두 기업

- 약 200여 개 국가 및 지역내에서 사업영역 확보

- 새로이 대두되는 비일반적인 그리고 복합적인 위험요소에

대한 보험 적용

로이드 내에서의 R의 적용 분야

- 정보관리(Management information tools)

- Benchmarking

- Pricing

- Reserving

- Geographical Mapping)

- 데이터 분석 및 모델링

Source : lloyds.com/stats

2. Case Study

LLOYD’S AND R

14 | © 2012 R Tech Center All rights reserved.

로이드 내에 존재하는 80여 개에 달하는 신디케이트(Syndicate)를 관리하는 측면에서 각각의 신디케이트에 대한 맞춤형 분석보고자료를 완성하기 위한 효과적이고 유용한 방법 마련을 위한 레이텍과 R의 활용

2. Case Study (1) 보험분야에서의 R의 활용 (Lloyd 사례) - 계속

맞춤형리포팅 : R + 레이텍(LaTex)

Latex(레이텍)이란? 기술적 문서들의 조판에 사용되는 컴퓨터 프로그래밍 언어. 레이텍은 1985년 미국의 컴퓨터 과학자 레슬리 램포트가 텍(TeX) 조판 시스템에 추가 기능을 넣어 개발한 무료 소프트웨어 패키지이다. 레이텍은 텍 범위 안에서 다양한 형식의 책과 논문을 생산하는 데 도움을 주기 위해 개발되었다. 레이텍은 텍 조판 시스템을 확장한 것이기 때문에, 복잡한 수학 방정식이 포함된 기술적 문서들을 조판할 수 있는 텍의 기능을 갖고 있다. 이러한 특징 때문에 레이텍 과학자들과 엔지니어들 사이에서 인기가 높다. (브리태니커 백과사전 中)

15 | © 2012 R Tech Center All rights reserved.

2. Case Study (1) 보험분야에서의 R의 활용 (Lloyd 사례) - 계속

예 시

16 | © 2012 R Tech Center All rights reserved.

로이드의 과거 데이터에 근거한 각 리스크에 대한 손실 분포. Monte Carlo 시뮬레이션을 통해서 예상 손실 변동성을 계산. 각 분기별 성과 분석을 통해 각 신디케이트들에 대한 활동정보 파악.

시기별 성과 분석을 통해 로이드 자사의 Central Fund, 등급 및 브랜드 보호 조치 등 수행

2. Case Study

통계분석툴로서 R을 활용

density. default (x=A.Losses) density. default (x=B.Losses)

(1) 보험분야에서의 R의 활용 (Lloyd 사례) - 계속

17 | © 2012 R Tech Center All rights reserved.

시장 상황 및 개별 비즈니스 플랜을 고려하여 신디케이트 비교를 통한 실적 모니터링

2. Case Study

R을 활용한 성과 관리

(1) 보험분야에서의 R의 활용 (Lloyd 사례) - 계속

18 | © 2012 R Tech Center All rights reserved.

리스크 노출관리를 위해 재보험 및 재난 리스크를 분석 일반적으로 활용되는 R 패키지(Lattice, XML, plotrix, copula, RODBC, Hmisc, Rworldmap) 및 Google Earth KML 등 활용

Google Earth 3-D 뷰를 통한 각 로케이션 및 각기 다른 형태의 지역적 리스크 익스포져 분석을 위한 KML 파일을 생성하기 위해 R을 활용

2. Case Study

익스포져 분석 , 재보험 분석을 위한 R의 활용

키홀 마크업 언어(KML)은 구글 어스, 구글 지도 및 기타 응용 프로그램에 쓰이는 XML 기반의 마크업 언어 스키마이다. 지형 정보(annotation)를 모델링하고 표현하는 역할을 한다.

(1) 보험분야에서의 R의 활용 (Lloyd 사례) - 계속

19 | © 2012 R Tech Center All rights reserved.

예 시

(1) 보험분야에서의 R의 활용 (Lloyd 사례) - 계속 2. Case Study

20 | © 2012 R Tech Center All rights reserved.

R과 구글비스 패키지를 활용하여 로이드 자사의 Statistics Relating에 근거한 온라인 분석 툴을 개발하여 신디케이트 퍼포먼스를 시각화. 참조: lloyds.com/stats

https://docs.google.com/file/d/0By35Mtg9R9_RZTk5NzM1NGItYmUzMi00MmQ2LTk0MWYtYTY4YzZiNjg0ODc2/edit?hl=en_GB

2. Case Study

R과 구글비스(GOOGLEVIS)를 활용한 온라인 데이터 시각화

(1) 보험분야에서의 R의 활용 (Lloyd 사례) - 계속

21 | © 2012 R Tech Center All rights reserved.

예 시

2. Case Study (1) 보험분야에서의 R의 활용 (Lloyd 사례) - 계속

22 | © 2012 R Tech Center All rights reserved.

2. Case Study (2) 신용리스크 분석을 위한 ANZ의 R 활용

모델링 과정에 R을 적용

출처 : Hong Ooi, ANZ(Austrailia and New Zealand Banking Group), “Experiences with using R in Credit Risk”

• ANZ의 모기지 손실 모형의 성능 향상을 위한 분석 과정에 R을 활용 • 고유모델은 각 개별 론에 대한 PD값을 추정하기 위한 목적으로 개발되었으며, heave-

tailed T 분포 형성 • 기존에 SAS를 사용하였으며, SAS는 모델링을 위한 다양한 옵션을 가지고 있으나, 그 중

어떤 옵션도 R만큼 유연하고 파워풀 하지는 않았기 때문에, R을 도입하여 분석을 수행하였음

• 가장 편리했던 점은 R은 텍스트 아웃풋이 아닌 오브젝트 아웃풋을 생성하여, 모델러가새로운 모델링 과정에 이를 활용 가능하도록 하였다는 점

23 | © 2012 R Tech Center All rights reserved.

2. Case Study (2) 신용리스크 분석을 위한 ANZ의 R 활용 - 계속

Stress Test에 적용

• 시중 금융회사들은 경기침체가 자신들의 자산 건전성에 어떠한 영향을 초래하는지를 이해하기 위해 lone portfolio에 대한 스트레스 테스트를 시행

• 수학적 프레임워크는 Vasicek model과 유사. • 파라미터 x를 이용 경제적 상황 묘사 • 각각의 대출금은 x를 기준으로 움직이는 transition matrix이며, year t-1의 등급을

고려하여 year t의 리스크 등급을 결정 • 등급이 제일 하위에 닿을 경우 디폴트 발생

• 시나리오와 시뮬레이션에 기반한 접근방식을 채택: 스트레스 환경의 밸류를 X로 설정하고 N번 실행하여 평균값을 취함 • VaR과 대조: “일반적인 상황의 스트레스 결과값”이 아닌, “스트레스 상황에서의

평균값”

• 예제 데이터: Sub-portfolio에 의해 나뉘어진 100,000 건 정도의 comercial 대출 portfolio.

• 시뮬레이션 데이터 범위: ~3년

24 | © 2012 R Tech Center All rights reserved.

2. Case Study (2) 신용리스크 분석을 위한 ANZ의 R 활용 - 계속

• ANZ의 경우 비즈니스 유저가 Excel 인터페이스를 통해 스트레스테스트를 하도록 시스템이 구성되어 있는데, 그 주요 계산 엔진으로 R을 사용하여 2분만에 계산 수행(이전에 전체 계산을 다 SAS를 통해 수행했을 경우에는 실행에 4시간 가량 소요 되었고, 종종 계산 과정에서 디스크 용량 부족으로 다운됨)

• 데이터가 SAS로 적재되어 있었기 때문에 소스 데이터 생성을 위해 여전히 SAS 코드를 사용하였지만, R스크립트를 통해 이 과정을 자동화 함(SAS의 유연성의 한계 보완)

sas_all <- character() for(i in seq_along(tierdefs)) { tvars <- tierdefs[[i]] varnames <- lapply(varlist[tvars], `[[`, "name") this_tier <- which(celltable$tier == i) sas <- "if" for(j in seq_along(tvars)) { sas <- paste(sas, tvars[j], "=", as.numeric(celltable[this_tier, varnames[j]])) if(j < length(tvars)) sas <- paste(sas, "and") } sas <- paste(sas, sprintf("then do; tier2 = %d; ttc_pd = %s;", celltable$tier2[this_tier], celltable$ttc_pd[this_tier])) sas[-1] <- paste("else", sas[-1]) sas_all <- c(sas_all, sas, sprintf("else put 'ERROR: unhandled case, tier = %d n = ' _n_;", i)) } writeLines(sas_all, sasfile)

Stress Test에 적용 - Application

25 | © 2012 R Tech Center All rights reserved.

(3) 기타 금융 분야의 적용 케이스 2. Case Study

* 금융분야에서의 R의 활용 -금융데이터 1. 타임시리즈(Time series): S(Smoothing)언어, 즉 통계적 테크닉을 활용 산발적인 데이터의 흐름 파악 및, 둘 혹은 그 이상의

시간에 흐름에 따른 변동의 트랜드 비교 지원 (경제 관련 및 설문 분석에 있어 자주 활용되고 있는 툴) (참조: http://blog.revolutionanalytics.com/2010/03/smoothing-time-series-with-r.html) 2. 기타: 금융 캘린더, 데이터베이스 쿼리(Query)등 -금융상품 1. 포트폴리오: 금융 포트폴리오 관련 리스크 가능성을 줄이기 위한 일반적인 방법은 다양화. 하지만, 각 포트폴리오의 구성요소들의

서로간의 높은 연관성으로 위기 발생시 리스크 노출 가능성이 높아짐. 최근의 흐름은 전체 리스크를 최소화하기 보단 구성요소들 간 관계성을 최소화하는 것. (참조: http://blog.revolutionanalytics.com/2011/10/building-diversified-portfolios-with-r.html)

2. 수익률 곡선(Yield Curves): 특정 기간(예, 2개월, 2년, 20년)동안 특정 수익률 혹은 이자율과 같은 수치를 보여주는 곡선. (참조: http://en.wikipedia.org/wiki/Yield_curve) 이코노매트릭스(Econometrics) 1. 일반선형화모형(Generalized linear regression): 일반선형화모델을 위한 R의 glm함수의 강력함과 유연성. 모든 기본적인 모델 형태(binomial/logistic, Gamma, Poisson)를 지원. (참조: http://blog.revolutionanalytics.com/2012/06/big-data-generalized-linear-models-with-revolution-r-enterprise.html) 2. Microeconomic Model: 기본 패키지로서, 미시경제분석 및 미시경제 모델링을 위한 기본적인 툴 제공 (참조: http://www.micecon.org/) 금융분석 1. 백테스팅(Backtesting): 과거 특정기간 혹은 시장상황에 적용이 되어 전략을 마련하는 일종의 과거의 흐름을 테스팅하는 기법. 향

후 미래에 특정 전략의 효과 예측지원 대신 과거 상황에 대한 시뮬레이션 상황을 통해 전략의 취약성을 인식시켜주는 부분에 있어 강점 (참조: http://www.investopedia.com/terms/b/backtesting.asp#axzz2A5s3VnYq)

2. Copulas: Risk Factor 간에 의존성(Dependency)을 측정. 선형상관관계는 선형관계의 의존성을 나타내지만 실제금융시장간의 의존성은 비선형관계(Non-linear dependency)를 인식. E다변량 분포들은 Copula를 이용하면 쉽게 계산가능 (참조: http://www.quantkorea.com/xe/2664) 3. 기타: 랜덤행렬이론(Random matrix theory), 요인분석, 보험적방법(Actuarial methods), 조건부 최적화(Constrained optimization)

26 | © 2012 R Tech Center All rights reserved.

(3) 기타 금융 분야의 적용 케이스 2. Case Study

* R 관련 블로그 소개

http://blog.revolutionanalytics.com/

R Tech Center Blog

http://www.facebook.com/rtechcenter/

The Revolutions Blog

Table of Contents

1. Big Data 시대와 분석의 변화

2. Case Study : R의 금융권 적용 사례 (1) 로이드(Lloyd)의 보험분야에서의 R의 활용 (2) 신용 리스크 분석을 위한 ANZ의 R 활용

(3) 기타사례

3. 결어 : 데이터 사이언티스트를 위한 R

28 | © 2012 R Tech Center All rights reserved.

Drew Conway http://www.dataists.com/2010/09/the-data-science-venn-diagram/

Data Integration

Mashups

Applications

Models

Visualization

Predictions

Uncertainty

Problems

Data Sources

Credibility

Effective

Data

Applications

빅데이터 시대의 분석전문팀의 필요 역량 – Data Science Team 3. 결어

29 | © 2012 R Tech Center All rights reserved.

결어 : 보다 유연한, 젊은 데이터 과학자의 툴, R 3. 결어

• 오픈 소스 (또는 오픈 소스 기반의 저렴한 라이선스 Fee)

• 호환성/확장성

• 직관적인 언어

• 다양한 시각화

• 방대한 사용자/개발자 커뮤니티

• 최신 알고리즘 패키지

• 빠른 업데이트

Revolution Confidential

감사합니다

www.revolutionanalytics.com Facebook : rtechcenter Tel. +82-2-734-2673

Revolution Analytics, The leading commercial provider of software and support for the popular

open source R statistics language.

Korea Master Reseller

FK BCG / R Tech Center