24
1 2017.3.16 高橋行雄 Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 〇高橋 行雄 ,周防 節雄 2 ,宮内 亨 3 1 BioStat 研究所(株), 2 兵庫県立大学, 3 (独)統計センター

Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

12017.3.16 高橋行雄

Let's データ分析コンテストに用いる新擬似ミクロデータの概要

〇高橋 行雄1,周防 節雄2,宮内 亨3

1BioStat 研究所(株),2兵庫県立大学,3(独)統計センター

Page 2: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

22017.3.16 高橋行雄

教育用擬似ミクロデータ

教育用擬似ミクロデータを用いてSASユーザー総会で「Let'sデータ分析コンテスト」を過去4回開催してきたが,2016年度末で提供打切りとなった

統計センターから新たな分析コンテストに用いる擬似ミクロデータが早急に提供される見込みはなく,「Let'sデータ分析コンテスト」の継続が極めて難しい状況なった

Page 3: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

32017.3.16 高橋行雄

新擬似ミクロデータ

統計センターから,匿名データを用いた擬似ミクロデータ作成について賛同が得られた

新擬似ミクロデータ作成は,匿名データ(47,797世帯分)から導いた複数の統計表のみから作成することが必須の条件

匿名化の観点から多次元クロス表でのセル度数が3以上となることが必須.セル度数が2以下となるデータにノイズを入れ69,131世帯分のデータ(集計乗率付き)を作成

Page 4: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

42017.3.16 高橋行雄

69,131世帯から統計表の作成

① 世帯に関する情報14 項目と集計乗率

② 14 次元クロス表のセル毎に収支に関する203

項目の対数変換した平均値と標準偏差

③ 年間収入3階級別の主要21項目間の相関行列

これらの統計表をウェブ上に公開

さらに,この公開情報のみから新擬似ミクロデータを作成し,ウェブ上に公開

新擬似ミクロデータ作成は,試行錯誤の連続であったので,SASではなくJMP(V13)を用いた

Page 5: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

52017.3.16 高橋行雄

年間収入は対数正規分布?

匿名データ

左側に長く裾を引いている

対数変換データに対して正規 分 位 点 プロ ッ ト で 点 が直線上に乗れば対数正規分布とみなすことができる

Page 6: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

62017.3.16 高橋行雄

多重正規混合分布

匿名データ

対数変換データに対し多重正規混合分布のあてはめを適用したところ低年収の母集団の存在が見出された

Page 7: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

72017.3.16 高橋行雄

母集団数を1から5まで変化

この構造を新疑似ミクロデータでも再現したい ‼

母集団数

(‐2)対数尤度

対数尤度の差

構成比対数

母平均母平均(万)

1 36995.97 - 100.0% 2.698 498.9

2 31081.06 -5914.91 13.4% 2.388 244.3

3 30585.67 -495.39 1.7% 2.040 109.6

4 30539.85 -45.82 0.021% 0.513 3.3

5 30539.84 -0.01 0.025% 0.587 3.9

χ2(df =2, 5%) 5.99

最 小 の 母 集 団

Page 8: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

82017.3.16 高橋行雄

正規乱数を用いた復元

14次元表の14,246レコードのセル度数分の複製

順次縦方向に連結.正規乱数を用いて擬似ミクロデータ

最終的には,セル度数の合計69,131レコードのファイル

14次元

番号繰り返し

番号複製 項目名

log10

平均

log10

SD

正規乱数

loga10

擬似疑似

年間収入

1 1 1 年間収入 2.192 0.005 -0.840 2.190 154.92

1 2 2 ″ ″ ″ -1.380 2.189 154.45

1 3 3 ″ ″ ″ 0.400 2.193 156.06

2 4 1 ″ 2.430 0.006 0.360 2.431 269.96

2 5 2 ″ ″ ″ -1.580 2.426 266.38

2 6 3 ″ ″ ″ -0.480 2.429 268.41

:14246 61311 1 ″ 3.112 0.011 0.31 3.114 1299.57

14246 61312 2 ″ ″ ″ -0.37 3.110 1288.84

14246 61313 3 ″ ″ ″ -0.61 3.109 1284.99

Page 9: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

92017.3.16 高橋行雄

互いに相関を持つ主要21項目

公表した主要21項目の年間収入3階級別に21×21の相関係数行列

互いに相関を持つ正規乱数の作成

相関係数行列をコレスキー分解した行列(21×21)と正規乱数行列(21×61,131)の積

結果は転置してJMPファイルとして保存

JMPのスクリプトを例示

Page 10: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

102017.3.16 高橋行雄

3×3 での例示roh(相関行列)

1 0.8 0.5

0.8 1 0.7

0.5 0.7 1

chol(コレスキー分解)

1 0 0

0.8 0.6 0

0.5 0.5 0.707

chol=Cholesky(roh);

ysnorm(正規乱数・相関 0)

0.274 -0.224 0.219 -0.420 0.246

0.908 1.485 1.663 -1.682 -0.761

0.629 1.432 0.360 -0.023 0.467

ymnorm

0.274 0.764 1.036

-0.224 0.712 1.643

0.219 1.173 1.196

-0.420 -1.345 -1.067

0.246 -0.260 0.073

ymnorm=(chol*ysnorm)`;

Page 11: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

112017.3.16 高橋行雄

互いに相関を持つ正規乱数

下位1/3階級用 69,131行 21列

Page 12: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

122017.3.16 高橋行雄

相関関係の例示

列1:年間収入

列8:消費支出

列9:食糧費

列10:住居費

Page 13: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

132017.3.16 高橋行雄

14次元番号=1 の平均とSD

14次元番号毎の主要21項目についての統計表から,69,131世帯分の統計表を作成

太線枠を転置,世帯番号毎に繰り返す

14次元

番号世帯番号

繰り返し

Y001_年間収入

Y040_消費支出

Y041_食料

Y083_住居

1 1 1 平均 500 200,000 50,000 10,0001 1 1 SD 50 20,000 5,000 1,0001 2 2 平均 500 200,000 50,000 10,0001 2 2 SD 50 20,000 5,000 1,0001 3 3 平均 500 200,000 50,000 10,0001 3 3 SD 50 20,000 5,000 1,000

:14,246 69,131

Page 14: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

142017.3.16 高橋行雄

年間収入3区分別の擬似データ

疑似データ = 平均+SD×年間収入区分別の正規乱数

年間世帯番号

繰り返し

項目名 平均 SD収入3区分

1低所得

2中所得

3高所得

疑似データ

1 1 年間収入 500 50 2 0.31 0.19 0.90 5101 1 消費支出 200,000 20,000 2 0.26 0.21 0.24 204,2001 1 食料 50,000 5,000 2 1.29 1.27 1.18 56,3501 1 住居 10,000 1,000 2 -0.02 -0.10 -0.09 9,9002 2 年間収入 500 50 2 -0.46 -0.49 -0.47 4762 2 消費支出 200,000 20,000 2 0.04 -0.07 0.20 198,6002 2 食料 50,000 5,000 2 1.82 1.80 1.68 59,0002 2 住居 10,000 1,000 2 1.82 1.56 1.71 11,5603 3 年間収入 500 50 2 -0.53 -0.76 -0.34 4623 3 消費支出 200,000 20,000 2 1.67 1.52 1.02 230,4003 3 食料 50,000 5,000 2 -0.93 -1.09 -0.12 44,5503 3 住居 10,000 1,000 2 -0.35 -0.30 0.10 9,700:

69,131

互いに相関/正規乱数

Page 15: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

152017.3.16 高橋行雄

階段状の分布:住居費

匿名データ

10万世帯比33,887世帯が支出 0 円

Page 16: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

162017.3.16 高橋行雄

尖りが大きい分布:教育費

匿名データ

10万世帯比71,460世帯が支出 0 円

Page 17: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

172017.3.16 高橋行雄

0 円 の割合を保持

Ni=5で,データ数nij =3, 世帯中2世帯は欠測値

一様乱数uijを発生,3/5=0.60 未満 擬似データあり

0.60以上 欠測値

世帯番号

14次元

番号

レコード

数 N i

繰返しj

項目名データ数

n ij

対数平均

対数SD

一様乱数

n ij /N i判定

扱い

9999 8888 5 1 教育費 3 4.00 0.10 0.70 0.60 × 欠測値

9999 8888 5 2 教育費 3 4.00 0.10 0.20 0.60 〇 採用

9999 8888 5 3 教育費 3 4.00 0.10 0.80 0.60 × 欠測値

9999 8888 5 4 教育費 3 4.00 0.10 0.39 0.60 〇 採用

9999 8888 5 5 教育費 3 4.00 0.10 0.50 0.60 〇 採用

Page 18: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

182017.3.16 高橋行雄

新擬似ミクロデータ:やや平坦化

10万世帯比n=61,832

10万世帯比n=29,066

Page 19: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

192017.3.16 高橋行雄

足し上げ構造(抜粋)

Page 20: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

202017.3.16 高橋行雄

乱れた足し上げ構造

元の匿名データ 47,797世帯の202項目には,足し上げ構造が確保されている

正規乱数を用いて擬似ミクロデータ化

足し上げ構造は,乱れてしまう

下位項目から足し上げると誤差が拡大

上位項目から下位に逆足し上げを行なう

上位の金額に一致するように,下位の項目の金額を一定比率で増減する

Page 21: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

212017.3.16 高橋行雄

逆足し上げの例示

穀類の下位項目の合計は360円,合計が400円になるように,下位の項目の金額に1.111倍する

魚介類の下位の金額に,0.833倍する

調整前

階層新擬似 Y名

項目名 区分足上

データ0の計

1の計

データ足し上げ

6 Y042 穀類 602 0 400 400 360 x 400 400 o7 Y043 米 602 1 200 400 360 2227 Y044 パン 602 1 100 400 360 1117 Y045 めん類 602 1 50 400 360 567 Y046 他の穀類 602 1 10 400 360 116 Y047 魚介類 603 0 250 250 300 x 250 250 o7 Y048 生鮮魚介 603 1 150 250 300 1257 Y049 塩干魚介 603 1 100 250 300 837 Y050 魚肉練製品 603 1 0 250 300 07 Y051 他の魚介加工品 603 1 50 250 300 42

調整後合計レベル 6

Page 22: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

222017.3.16 高橋行雄

匿名データ vs 新擬似ミクロ

Page 23: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

232017.3.16 高橋行雄

203項目のデータ数と平均の比較

変数 匿名 新擬似 差異% 匿名 新擬似log10

差異%逆対数差異%

Y001_年間収入 643 652 1.3 2.730 2.734 0.1 0.8Y002_収入総額 679,579 653,741 -3.8 5.852 5.848 -0.1 -1.0Y003_実収入 324,750 315,927 -2.7 5.497 5.495 0.0 -0.4Y004_経常収入 314,359 307,482 -2.2 5.512 5.503 -0.2 -1.9Y005_勤め先収入 261,033 259,507 -0.6 5.541 5.518 -0.4 -5.2Y006_世帯主の勤め先収入210,906 210,715 -0.1 5.509 5.485 -0.4 -5.2Y007_世帯主の配偶者の勤め先収入33,509 30,416 -9.2 5.008 4.984 -0.5 -5.3Y008_他の世帯員の勤め先収入16,618 18,375 10.6 4.991 4.946 -0.9 -9.7Y009_事業・内職収入 1,686 1,788 6.0 4.427 4.410 -0.4 -3.9Y010_農林漁業収入 354 325 -8.0 4.228 4.132 -2.3 -19.9

Y201_財産購入 3,186 2,271 -28.7 5.868 5.269 -10.2 -74.8Y202_その他の実支出以外の支出1,152 1,433 24.4 3.376 3.360 -0.5 -3.5Y203_繰越金 62,555 60,122 -3.9 4.656 4.655 0.0 -0.1総平均 28,794 27,923 -3.0 3.811 3.765 -1.2 -10.0

平均(データ) 平均(log10)

Page 24: Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 · 穀類の下位項目の合計は360円,合計が400円になるよう に,下位の項目の金額に1.111倍する

242017.3.16 高橋行雄

今後の展望

今年の第5回目コンテストの実施に間に合うように,新擬似ミクロデータを提供できたことに安堵している.

ただ,急造したために,一部にケアレスミスがあったことは,深くお詫びしたい

今回の2004年データに加え,1989年,1994年,1999年の全国消費実態調査についても,匿名データを用いて擬似ミクロデータを作成し,来年以降の「Let'sデータ分析コンテスト」に供したい