19
DEALING WITH POOR DATA QUALITY OF OSINT DATA IN FRAUD RISK ANALYSIS MAURICE VAN KEULEN

Dealing with poor data quality of osint data in fraud risk analysis

Embed Size (px)

Citation preview

DEALING WITH POOR DATA QUALITY OF OSINT DATA IN FRAUD RISK ANALYSIS

MAURICE VAN KEULEN

Largest part [of money

to reclaim] is due to

payments to people who

were not entitled to it.

… earlier, it didn’t pay

off to reclaim the

money.

[Telegraaf Jan 2012]

Capelle a/d IJssel 2011

164 cases of fraud

yielded 1.2 million

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 2

“If a strong suspicion of fraud arises, social inspectors

start an investigation with the receiver of social security”

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 3

HOW DOES DIGITAL FRAUD DETECTION WORK?(IN CASE OF SOCIAL SECURITY FRAUD)

• Data from applicant

Application

• Data from governmental databases

Coupling• Extraction of

“indicators”

• Data mining: classification

Fraud risk analysis

• Selection of cases from risk classes

Investigation

Municipalities are responsible for fraud detection.

Inspection ISZW (department of Ministry) assists

them with training the classifiers.

Doesn’t work as well as expected

• Estimation of fraud risk not accurate enough

Main cause: the data represents a “paper reality”

Solution: Enrich data with other independent ‘data traces’

Independent indicators closer to real-world

Discrepancy indicators

Where can data traces from the real world also be found?

• Websites, social media

Open Source Intelligence (OSINT)

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 4

THE “BLIND SPOT”

Auditing (Unit-4)

• Fraudsters will disguise illegitimate transactions by keeping them “out of the books”

• If you look only in the books, you find nothing missing

• Solution = Find indications of missing transactions (involved people, goods, money) … all these leave data traces somewhere …

Asbestos removal (ISZW)

• Less obligatory protection measures for a lower price

• Official price vs. advertised price

• Bad experiences or suspicions mentioned in web forums

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 5

OTHER EXAMPLES

Enriched data

Databases /

Knowledge bases

Information on

websites

Text fragments from social

media

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 6

INFORMATION COMBINATION AND ENRICHMENT (ICE)

Web harvesting

• Search

• Navigate

• Extract

• Store

Information extraction

(NLP / IR)

• Entity extraction

• Entity disambig.

• Entity relationships

• Fact extraction

• Sentiment / class

Better indicators

Better risk analysis

Better fraud detection

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 7

WEB HARVESTING

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 4 0 4 /1 4 -0 3 7 /

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 4 0 4 /1 4 -0 3 3 /

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 1 1 /1 2 -1 7 2 /

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 9 /1 2 -1 2 6 /

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 9 /1 2 -1 1 9 /

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 9 /1 2 -1 2 4 /

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 4 /1 2 -0 4 8 /

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 4 /1 2 -0 5 4 /

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 6 /1 2 -0 8 0 /

http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 7 /1 2 -0 9 9 /

v id e o の検索結果 約1 1 ,9 0 3件中 1 - 1 0件を表示

W alkm an

VAIO

x-アプリ

FeliCa

KV-2 5 DA6 5

RC-S3 2 0

PS4

Xp eria

製品登録

Z2

video

Japanお問い合せ・ サポート サイト マップ ソニーについて

Sony Jap an | ニュースリ リース | プロフェ ッ ショ ナルディ スクに対応するXDCAM ™ 商品…

ソニーは、 2 /3型IT型CCDを搭載し 、 S/Nの向上(6 2 dB)など高画質化を実現したXDCAM HD 4

2 2 カムコーダー「 PDW -8 5 0 」 と 、 2 /3型FIT型CCDを搭載した「 PDW -7 5 0 」 を発売します。

Sony Jap an | ニュースリ リース | 眼科検査用の顕微鏡に対応し 、 前眼部の映像を高精細に…

ソニーは、 眼科検査用の顕微鏡(スリ ッ ト ランプ )に装着して、 顕微鏡を覗く 医師と同様の映像を

高精細なフルHDで撮影する、 CM OSフルHDビデオカメ ラ「 M CC-5 0 0 M D」 を発売します。

Sony Jap an | 5 ,2 0 0ルーメ ンの高輝度と設置自由度向上を実現 液晶データプロジェ クタ…

ソニーは、 6㎝未満のプロジェ クターとして業界最高輝度の5 2 0 0ルーメ ン/5 1 0 0ルーメ ンを実

現し 、 かつレンズシフト 調整機能を備え、 設置の自由度を向上した液晶データプロジェ クター「

VPL-CX2 7 5 」 「 VPL-CW 2 7 5 」 をはじめ、 データプロジェ クター計6機種を発売します。

Sony Jap an | ニュースリ リース | 業務用カメ ラに装着し映像・ 各種信号の長距離伝送が可…

ソニーは、 業務用カメ ラ /カムコーダーにカメ ラアダプターを装着し 、 接続ケーブルを介してカメ

ラコント ロールユニッ ト と接続することで映像・ 各種信号の長距離伝送を可能にし 、 ライブカメ

ラシステムを構築可能なカメ ラアダプターシステムを2機種発売します。 本システムは、 業務用H

Dカメ ラ「 HXC-D7 0 」 、 メ モリーカムコーダー「 PM W -5 0 0 /3 5

Sony Jap an | ニュースリ リース | 新開発のEマウント 電動ズームレンズを搭載 レンズ交換…

ソニーは、 Eマウント システムを採用し 、 総画素数1 6 7 0万画素APS-Cサイズのセンサーを搭載

した、 レンズ交換式 業務用NXCAMカムコーダー「 NEX-EA5 0 JH」 を発売します。

Sony Jap an | ニュースリ リース | 幅広い映像制作をサポート するXDCAM HD4 2 2シリー…

ソニーは、 放送・ 業務用映像制作機器のXDCAM HD4 2 2シリーズに、 1 /3型フルHD"Exm or" 3

CM OSイメ ージセンサーを搭載し 、 高感度で低ノ イズの高画質撮影が可能なメ モリーカムコーダ

ー『 PM W -1 6 0 』 と 、 バッ テリー駆動により ロケ先などでも使用できるフィ ールド レコーダー『

PM W -5 0 』 の2機種を発売します。

Sony Jap an | 放送局で広く 採用されている「 M PEG HD4 2 2フォーマッ ト 」 での高画質収…

ソニーは、 XDCAMカムコーダーシリーズとして、 既に放送局など映像制作の現場で広く 採用さ

れている「 M PEG HD4 2 2 (5 0 M b p s)フォーマッ ト 」 での高画質収録が可能で、 小型で軽量なXD

CAM HD4 2 2ハンディ カムコーダー「 PM W -1 0 0 」 を発売します。

Sony Jap an | 高画質4 K映画コンテンツの制作環境が拡充、 ハイエンド 映像制作機器メ ー…

ソニーは業界最高画質で4 K映像を撮影できるCineAltaカメ ラ F6 5の記録フォーマッ ト である「 S

RM ASTERフォーマッ ト (F6 5 RAW ファ イル及び2 K/HD M PEG4 SStP(Sim p le Stud io Profi le

))」 をオープンプラッ ト フォームな技術方式とすることを決め、 2 0 1 1年秋以来、 映像制作機器メ

ーカー各社へ

Sony Jap an | ニュースリ リース | 術野カメ ラ映像と生体情報画像を同時に長時間記録 3 D …

ソニーは、 豊富な入出力端子を装備し 、 アナログからフルハイビジョ ンカメ ラ映像まで様々な医

療現場での映像を長時間記録でき、 かつ新たに3 D映像の記録にも対応した3 D HDメ ディ カルレ

コーダー「 HVO-3 0 0 0 M T」 を発売します。

Sony Jap an | 1 /2型"Exm or"3 CM OSイメ ージセンサーを搭載した XDCAMメ モリーカム…

ソニーは、 1 /2型 "Exm or"3 CM OSイメ ージセンサーを搭載し 、 高解像度・ 高感度な撮影を可能

にした、 XDCAMメ モリ ーカムコーダー「 PM W -2 0 0 」 を、 業務用ハンディ カムコーダーのハイ

エンド モデルとして発売します。

1 2 3 4 5 6 7 8 9 1 0 次へ>>

video

OUT BNC ピン HD HDM I ソニー IN 映像 Unlim ited 端子 サービス

記録 ミ ニ 対応 SD DVD GENLOCK Vp ジャッ ク 可能

グループリ ンク ご利用条件 プライバシーポリ シー このサイト について Cop yrig h t 2 0 1 4 Sony Corp o ration

:

:

Computers don’t understand:

• Layout of a page

• Meaning of text fragments

• The entities & facts we’re

looking for

Advertising & visual techniques

are very confusing!

Errors in

extracted data

What is the name of the hotel?

“Essex House Hotel and Suites from $154 USD”

Where is the hotel located? >60 Paris’s in the world

“This Hilton hotel in Paris looks soooo nice;))”

Informal language

“Cancun is a MUST! Check this... Hotel Ocean Spa

Cancun 4d 3N w/2 adults from $199 usd”

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 8

INFORMATION EXTRACTION FROM UNSTRUCTURED TEXTCHALLENGING TASK BECAUSE COMPUTERS CAN’T READ

• Extraction ambiguity

• Structure ambiguity

• Reference ambiguity

Errors in

extracted data

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 9

COMBINING DATA

Keulen, M. (2012) Managing Uncertainty: The Road

Towards Better Data Interoperability. IT - Information

Technology, 54 (3). pp. 138-146. ISSN 1611-2776

Car brand Sales

B.M.W. 25

Mercedes 32

Renault 10

Car brand Sales

BMW 72

Mercedes-Benz 39

Renault 20

Car brand Sales

Bayerische Motoren Werke 8

Mercedes 35

Renault 15

Car brand Sales

B.M.W. 25

Bayerische Motoren Werke 8

BMW 72

Mercedes 67

Mercedes-Benz 39

Renault 45

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 10

… AND THE PROBLEM OF SEMANTIC DUPLICATES

Car brand Sales

B.M.W. 25

Bayerische Motoren Werke 8

BMW 72

Mercedes 67

Mercedes-Benz 39

Renault 45

Preferred customers …

SELECT SUM(Sales)

FROM CarSales

WHERE Sales>100

0

‘No preferred customers’

Finding You on the InternetInput: name, address(es), phone number(s), email address(es)

How to find your on-line accounts (twitter, ebay, facebook, runkeeper, …)

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 11

BACK TO FRAUD DETECTION

Persons

ByNameFinder

ByLocationFinder

KnownAccount

Enumerator

other

PersonUpdater

Person

data

Person Pipeline

ProfileExtractor

PhotoExtractor

MsgExtractor

AccountPersister

other

Account

data

Twitter

Accounts

Account Pipeline

EmailExtractor

PhoneExtractor

Language

Extractor

other

MsgPersister

Message

data

Message Pipeline

attributes

Experiment:

• 22 sign up subjects

• 12 with / 10 without

• 15 iterations

Avg 200 candidates

11 out of 12 found

• ISZW : 85 subjects

Candidate

accounts

Additional

info found

• All activities involved in coupling and integration of

information systemsData exchange, conversion, information extraction, integration,

analysis, cleaning, evolution, migration, etc.

• Focus: “in an imperfect world”Structural heterogeneity, data conflicts, semantic duplicates,

incompleteness, inexactness, ambiguity, errors, etc.

• Clean correct data is only a special case

• Treat data quality problems as a fact of life,

not as something to be repaired afterwards

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 12

RESEARCH FOCUS: DATA INTEROPERABILITY

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 13

MOST DATA QUALITY PROBLEMS

CAN BE MODELED AS UNCERTAINTY IN DATA

Car brand Sales

B.M.W. 25

Bayerische Motoren Werke 8

BMW 72

Mercedes 67

Mercedes-Benz 39

Renault 45

Mercedes 106

Mercedes-Benz 106

1

2

3

4

5

6

X=0

X=0

X=1 Y=0

X=1 Y=1

X=0 4 and 5 different 0.2

X=1 4 and 5 the same 0.8

Y=0 “Mercedes”

correct name

0.5

Y=1 “Mercedes-Benz”

correct name

0.5

B.M.W. / BMW / Bayerische Motoren Werke analogously

Example: semantic duplicates

Looks like ordinary database

Several “possible” answers or approximate answers

to queries

What I showed is discrete uncertainty only;

continuous uncertainty possible

Uncertainty orthogonal to data model

Relational (SQL) / XML (XPath) / RDF (SPARQL)

/ Reasoning (DataLog)

Important: Scalability (big data!)

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 14

IMPORTANT TOOL: PROBABILISTIC DATABASE

Sales of “preferred customers”

SELECT SUM(sales)

FROM carsales

WHERE sales≥ 100

Answer: 106

Analyst only bothered with

problems that matter

Risk = Probability * Impact

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis

INDETERMINISTIC DEDUPLICATIONQUERYING AND RISK ASSESSMENT

SUM(sales) P

0 14%

105 6%

106 56%

211 24%

Second most likely

answer at 24% with

impact factor 2 in

sales (211 vs 106)

Risk of substantially

wrong answer

15

Web harvesting: layout/navigation/extraction ambiguity Possible values with probabilities and dependencies

Information extraction: extr/structure/ref ambiguity Possible values with probabilities and dependencies

Candidate accounts in finding you on the internet Possible (PersonID,AccID) pairs with probabilities

Associated extracted data with dependencies

Combining / coupling all this data Just more possibilities and dependencies

Extraction of indicators = querying Probabilistic indicators: Possible values with probabilities

Risk analysis and data mining It’s just statistics; they can easily work with probabilistic data

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 16

PROBABILISTIC DATABASES IN FRAUD DETECTION

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 17

PUTTING IT ALL TOGETHER

Person/C

ompany

data

Web / Social

media

Probabilistic

Database

OSINT

harvester

Interpretation

Combination

Indicator

extraction

Fraud Risk

Analysis

Raw

Evidence

Make data quality and

trust issues explicit as

uncertainty in data

Adapted to

probabilistic indicators

Batch-wise

autonomous

harvesting

/ monitoring

Although data is public, one cannot use it for anything!

Cooperation with ethicist: Aimee van Wynsberghe

Generic guidelines for working with social network data

To use or not to use: guidelines for researchers

using data from online social networking sitesvan Wynsberghe, A. and Been, H. and van Keulen, M. (2013)

Value trade-off

People investigated

People whose account is false positive

The ISZW

All Dutch citizens

25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 18

INTERMEZZO ON ETHICS

OSINT additional data source with traces close to the real

world … but hard to extract and produces less quality data

OSINT requires more automation, autonomy and

robustness

Modeling data quality problems as uncertainty in data

Probabilistic database approach for scalability

In terms of the V’s of Big Data

Volume

Velocity

Variety

Veracity25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 19

CONCLUSIONS

my main object of study(while not forgetting

about the other two)