Upload
university-of-twente
View
637
Download
1
Tags:
Embed Size (px)
Citation preview
Largest part [of money
to reclaim] is due to
payments to people who
were not entitled to it.
… earlier, it didn’t pay
off to reclaim the
money.
[Telegraaf Jan 2012]
Capelle a/d IJssel 2011
164 cases of fraud
yielded 1.2 million
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 2
“If a strong suspicion of fraud arises, social inspectors
start an investigation with the receiver of social security”
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 3
HOW DOES DIGITAL FRAUD DETECTION WORK?(IN CASE OF SOCIAL SECURITY FRAUD)
• Data from applicant
Application
• Data from governmental databases
Coupling• Extraction of
“indicators”
• Data mining: classification
Fraud risk analysis
• Selection of cases from risk classes
Investigation
Municipalities are responsible for fraud detection.
Inspection ISZW (department of Ministry) assists
them with training the classifiers.
Doesn’t work as well as expected
• Estimation of fraud risk not accurate enough
Main cause: the data represents a “paper reality”
Solution: Enrich data with other independent ‘data traces’
Independent indicators closer to real-world
Discrepancy indicators
Where can data traces from the real world also be found?
• Websites, social media
Open Source Intelligence (OSINT)
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 4
THE “BLIND SPOT”
Auditing (Unit-4)
• Fraudsters will disguise illegitimate transactions by keeping them “out of the books”
• If you look only in the books, you find nothing missing
• Solution = Find indications of missing transactions (involved people, goods, money) … all these leave data traces somewhere …
Asbestos removal (ISZW)
• Less obligatory protection measures for a lower price
• Official price vs. advertised price
• Bad experiences or suspicions mentioned in web forums
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 5
OTHER EXAMPLES
Enriched data
Databases /
Knowledge bases
Information on
websites
Text fragments from social
media
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 6
INFORMATION COMBINATION AND ENRICHMENT (ICE)
Web harvesting
• Search
• Navigate
• Extract
• Store
Information extraction
(NLP / IR)
• Entity extraction
• Entity disambig.
• Entity relationships
• Fact extraction
• Sentiment / class
Better indicators
Better risk analysis
Better fraud detection
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 7
WEB HARVESTING
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 4 0 4 /1 4 -0 3 7 /
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 4 0 4 /1 4 -0 3 3 /
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 1 1 /1 2 -1 7 2 /
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 9 /1 2 -1 2 6 /
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 9 /1 2 -1 1 9 /
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 9 /1 2 -1 2 4 /
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 4 /1 2 -0 4 8 /
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 4 /1 2 -0 5 4 /
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 6 /1 2 -0 8 0 /
http ://www .sony.co .jp /SonyIn fo/News/Press/2 0 1 2 0 7 /1 2 -0 9 9 /
v id e o の検索結果 約1 1 ,9 0 3件中 1 - 1 0件を表示
W alkm an
VAIO
x-アプリ
FeliCa
KV-2 5 DA6 5
RC-S3 2 0
PS4
Xp eria
製品登録
Z2
video
Japanお問い合せ・ サポート サイト マップ ソニーについて
Sony Jap an | ニュースリ リース | プロフェ ッ ショ ナルディ スクに対応するXDCAM ™ 商品…
ソニーは、 2 /3型IT型CCDを搭載し 、 S/Nの向上(6 2 dB)など高画質化を実現したXDCAM HD 4
2 2 カムコーダー「 PDW -8 5 0 」 と 、 2 /3型FIT型CCDを搭載した「 PDW -7 5 0 」 を発売します。
Sony Jap an | ニュースリ リース | 眼科検査用の顕微鏡に対応し 、 前眼部の映像を高精細に…
ソニーは、 眼科検査用の顕微鏡(スリ ッ ト ランプ )に装着して、 顕微鏡を覗く 医師と同様の映像を
高精細なフルHDで撮影する、 CM OSフルHDビデオカメ ラ「 M CC-5 0 0 M D」 を発売します。
Sony Jap an | 5 ,2 0 0ルーメ ンの高輝度と設置自由度向上を実現 液晶データプロジェ クタ…
ソニーは、 6㎝未満のプロジェ クターとして業界最高輝度の5 2 0 0ルーメ ン/5 1 0 0ルーメ ンを実
現し 、 かつレンズシフト 調整機能を備え、 設置の自由度を向上した液晶データプロジェ クター「
VPL-CX2 7 5 」 「 VPL-CW 2 7 5 」 をはじめ、 データプロジェ クター計6機種を発売します。
Sony Jap an | ニュースリ リース | 業務用カメ ラに装着し映像・ 各種信号の長距離伝送が可…
ソニーは、 業務用カメ ラ /カムコーダーにカメ ラアダプターを装着し 、 接続ケーブルを介してカメ
ラコント ロールユニッ ト と接続することで映像・ 各種信号の長距離伝送を可能にし 、 ライブカメ
ラシステムを構築可能なカメ ラアダプターシステムを2機種発売します。 本システムは、 業務用H
Dカメ ラ「 HXC-D7 0 」 、 メ モリーカムコーダー「 PM W -5 0 0 /3 5
Sony Jap an | ニュースリ リース | 新開発のEマウント 電動ズームレンズを搭載 レンズ交換…
ソニーは、 Eマウント システムを採用し 、 総画素数1 6 7 0万画素APS-Cサイズのセンサーを搭載
した、 レンズ交換式 業務用NXCAMカムコーダー「 NEX-EA5 0 JH」 を発売します。
Sony Jap an | ニュースリ リース | 幅広い映像制作をサポート するXDCAM HD4 2 2シリー…
ソニーは、 放送・ 業務用映像制作機器のXDCAM HD4 2 2シリーズに、 1 /3型フルHD"Exm or" 3
CM OSイメ ージセンサーを搭載し 、 高感度で低ノ イズの高画質撮影が可能なメ モリーカムコーダ
ー『 PM W -1 6 0 』 と 、 バッ テリー駆動により ロケ先などでも使用できるフィ ールド レコーダー『
PM W -5 0 』 の2機種を発売します。
Sony Jap an | 放送局で広く 採用されている「 M PEG HD4 2 2フォーマッ ト 」 での高画質収…
ソニーは、 XDCAMカムコーダーシリーズとして、 既に放送局など映像制作の現場で広く 採用さ
れている「 M PEG HD4 2 2 (5 0 M b p s)フォーマッ ト 」 での高画質収録が可能で、 小型で軽量なXD
CAM HD4 2 2ハンディ カムコーダー「 PM W -1 0 0 」 を発売します。
Sony Jap an | 高画質4 K映画コンテンツの制作環境が拡充、 ハイエンド 映像制作機器メ ー…
ソニーは業界最高画質で4 K映像を撮影できるCineAltaカメ ラ F6 5の記録フォーマッ ト である「 S
RM ASTERフォーマッ ト (F6 5 RAW ファ イル及び2 K/HD M PEG4 SStP(Sim p le Stud io Profi le
))」 をオープンプラッ ト フォームな技術方式とすることを決め、 2 0 1 1年秋以来、 映像制作機器メ
ーカー各社へ
Sony Jap an | ニュースリ リース | 術野カメ ラ映像と生体情報画像を同時に長時間記録 3 D …
ソニーは、 豊富な入出力端子を装備し 、 アナログからフルハイビジョ ンカメ ラ映像まで様々な医
療現場での映像を長時間記録でき、 かつ新たに3 D映像の記録にも対応した3 D HDメ ディ カルレ
コーダー「 HVO-3 0 0 0 M T」 を発売します。
Sony Jap an | 1 /2型"Exm or"3 CM OSイメ ージセンサーを搭載した XDCAMメ モリーカム…
ソニーは、 1 /2型 "Exm or"3 CM OSイメ ージセンサーを搭載し 、 高解像度・ 高感度な撮影を可能
にした、 XDCAMメ モリ ーカムコーダー「 PM W -2 0 0 」 を、 業務用ハンディ カムコーダーのハイ
エンド モデルとして発売します。
1 2 3 4 5 6 7 8 9 1 0 次へ>>
video
OUT BNC ピン HD HDM I ソニー IN 映像 Unlim ited 端子 サービス
記録 ミ ニ 対応 SD DVD GENLOCK Vp ジャッ ク 可能
グループリ ンク ご利用条件 プライバシーポリ シー このサイト について Cop yrig h t 2 0 1 4 Sony Corp o ration
:
:
Computers don’t understand:
• Layout of a page
• Meaning of text fragments
• The entities & facts we’re
looking for
Advertising & visual techniques
are very confusing!
Errors in
extracted data
What is the name of the hotel?
“Essex House Hotel and Suites from $154 USD”
Where is the hotel located? >60 Paris’s in the world
“This Hilton hotel in Paris looks soooo nice;))”
Informal language
“Cancun is a MUST! Check this... Hotel Ocean Spa
Cancun 4d 3N w/2 adults from $199 usd”
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 8
INFORMATION EXTRACTION FROM UNSTRUCTURED TEXTCHALLENGING TASK BECAUSE COMPUTERS CAN’T READ
• Extraction ambiguity
• Structure ambiguity
• Reference ambiguity
Errors in
extracted data
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 9
COMBINING DATA
Keulen, M. (2012) Managing Uncertainty: The Road
Towards Better Data Interoperability. IT - Information
Technology, 54 (3). pp. 138-146. ISSN 1611-2776
Car brand Sales
B.M.W. 25
Mercedes 32
Renault 10
Car brand Sales
BMW 72
Mercedes-Benz 39
Renault 20
Car brand Sales
Bayerische Motoren Werke 8
Mercedes 35
Renault 15
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 10
… AND THE PROBLEM OF SEMANTIC DUPLICATES
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
Preferred customers …
SELECT SUM(Sales)
FROM CarSales
WHERE Sales>100
0
‘No preferred customers’
Finding You on the InternetInput: name, address(es), phone number(s), email address(es)
How to find your on-line accounts (twitter, ebay, facebook, runkeeper, …)
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 11
BACK TO FRAUD DETECTION
Persons
ByNameFinder
ByLocationFinder
KnownAccount
Enumerator
other
PersonUpdater
Person
data
Person Pipeline
ProfileExtractor
PhotoExtractor
MsgExtractor
AccountPersister
other
Account
data
Accounts
Account Pipeline
EmailExtractor
PhoneExtractor
Language
Extractor
other
MsgPersister
Message
data
Message Pipeline
attributes
Experiment:
• 22 sign up subjects
• 12 with / 10 without
• 15 iterations
Avg 200 candidates
11 out of 12 found
• ISZW : 85 subjects
Candidate
accounts
Additional
info found
• All activities involved in coupling and integration of
information systemsData exchange, conversion, information extraction, integration,
analysis, cleaning, evolution, migration, etc.
• Focus: “in an imperfect world”Structural heterogeneity, data conflicts, semantic duplicates,
incompleteness, inexactness, ambiguity, errors, etc.
• Clean correct data is only a special case
• Treat data quality problems as a fact of life,
not as something to be repaired afterwards
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 12
RESEARCH FOCUS: DATA INTEROPERABILITY
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 13
MOST DATA QUALITY PROBLEMS
CAN BE MODELED AS UNCERTAINTY IN DATA
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
Mercedes 106
Mercedes-Benz 106
1
2
3
4
5
6
X=0
X=0
X=1 Y=0
X=1 Y=1
X=0 4 and 5 different 0.2
X=1 4 and 5 the same 0.8
Y=0 “Mercedes”
correct name
0.5
Y=1 “Mercedes-Benz”
correct name
0.5
B.M.W. / BMW / Bayerische Motoren Werke analogously
Example: semantic duplicates
Looks like ordinary database
Several “possible” answers or approximate answers
to queries
What I showed is discrete uncertainty only;
continuous uncertainty possible
Uncertainty orthogonal to data model
Relational (SQL) / XML (XPath) / RDF (SPARQL)
/ Reasoning (DataLog)
Important: Scalability (big data!)
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 14
IMPORTANT TOOL: PROBABILISTIC DATABASE
Sales of “preferred customers”
SELECT SUM(sales)
FROM carsales
WHERE sales≥ 100
Answer: 106
Analyst only bothered with
problems that matter
Risk = Probability * Impact
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis
INDETERMINISTIC DEDUPLICATIONQUERYING AND RISK ASSESSMENT
SUM(sales) P
0 14%
105 6%
106 56%
211 24%
Second most likely
answer at 24% with
impact factor 2 in
sales (211 vs 106)
Risk of substantially
wrong answer
15
Web harvesting: layout/navigation/extraction ambiguity Possible values with probabilities and dependencies
Information extraction: extr/structure/ref ambiguity Possible values with probabilities and dependencies
Candidate accounts in finding you on the internet Possible (PersonID,AccID) pairs with probabilities
Associated extracted data with dependencies
Combining / coupling all this data Just more possibilities and dependencies
Extraction of indicators = querying Probabilistic indicators: Possible values with probabilities
Risk analysis and data mining It’s just statistics; they can easily work with probabilistic data
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 16
PROBABILISTIC DATABASES IN FRAUD DETECTION
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 17
PUTTING IT ALL TOGETHER
Person/C
ompany
data
Web / Social
media
Probabilistic
Database
OSINT
harvester
Interpretation
Combination
Indicator
extraction
Fraud Risk
Analysis
Raw
Evidence
Make data quality and
trust issues explicit as
uncertainty in data
Adapted to
probabilistic indicators
Batch-wise
autonomous
harvesting
/ monitoring
Although data is public, one cannot use it for anything!
Cooperation with ethicist: Aimee van Wynsberghe
Generic guidelines for working with social network data
To use or not to use: guidelines for researchers
using data from online social networking sitesvan Wynsberghe, A. and Been, H. and van Keulen, M. (2013)
Value trade-off
People investigated
People whose account is false positive
The ISZW
All Dutch citizens
25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 18
INTERMEZZO ON ETHICS
OSINT additional data source with traces close to the real
world … but hard to extract and produces less quality data
OSINT requires more automation, autonomy and
robustness
Modeling data quality problems as uncertainty in data
Probabilistic database approach for scalability
In terms of the V’s of Big Data
Volume
Velocity
Variety
Veracity25 Feb 2015Dealing with poor data quality of OSINT data in fraud risk analysis 19
CONCLUSIONS
my main object of study(while not forgetting
about the other two)