教師あり学習と教師なし学習と確率small-island.work/trial/ml2_5.pdfクラスタ)...

教師あり学習と教師なし学習と確率

教師あり学習（識別問題）と教師なし学習（クラスタリング）

大きさ

クラスタリング：データを複数の集合(クラスタ) に分離する問題

どちらがリンゴかミカンか教えなくとも二つの集団があることがわかる

大きさ

識別問題（第二回講義）：データをクラスに識別する問題

与えられた教師データからそれらを分離する境界を計算

確率の復習

(離散)確率変数 𝑋𝑋, 実現値 𝑥𝑥, 確率 𝑃𝑃(𝑋𝑋 = 𝑥𝑥)

𝑃𝑃(𝑋𝑋 = 𝑥𝑥,𝑌𝑌 = 𝑦𝑦)

𝑃𝑃(𝑌𝑌 = 𝑦𝑦) = Σ𝑥𝑥 𝑃𝑃(𝑥𝑥,𝑦𝑦)

𝑃𝑃 𝑋𝑋 = 𝑥𝑥 𝑌𝑌 = 𝑦𝑦 =𝑃𝑃 𝑋𝑋 = 𝑥𝑥,𝑌𝑌 = 𝑦𝑦

𝑃𝑃 𝑌𝑌 = 𝑦𝑦

𝑃𝑃 𝑌𝑌 = 𝑦𝑦 𝑋𝑋 = 𝑥𝑥 =𝑃𝑃 𝑋𝑋 = 𝑥𝑥 𝑌𝑌 = 𝑦𝑦 𝑃𝑃 𝑌𝑌 = 𝑦𝑦

𝑃𝑃 𝑋𝑋 = 𝑥𝑥

ベイズの定理

𝑋𝑋＼𝑌𝑌 0 10 40 101 20 30

𝑃𝑃 𝑋𝑋 = 0,𝑌𝑌 = 0 = 40/100

𝑃𝑃 𝑌𝑌 = 0 = 40/100 + 20/100

𝑃𝑃 𝑋𝑋 = 0 𝑌𝑌 = 0 =40/10030/50 = 2/3

𝑃𝑃 𝑌𝑌 = 0 𝑋𝑋 = 0 =2/3 ⋅ 3/5

1/2 = 1/5

同時確率

周辺確率

条件付確率

度数分布表

ナイーブベイズ識別器（教師あり学習）(1/3)スパムメールフィルタの問題：特定の単語がメールに含まれているかどうかでスパムメールを識別したい

𝑃𝑃 = 1 = 1𝑃𝑃 = 1 = 1

…….

スパムメール中の単語の出現確率

𝑃𝑃 = 1 =

スパムメールと非スパムメールの確率

非スパムメール中の単語の出現確率

今だけスパム【重要】スパム

𝑃𝑃 = 1 = 0𝑃𝑃 = 1 = 0

…….

今だけスパム【重要】スパム

スパム

𝑃𝑃 = 0 =スパム

単語がスパムメールに出現した回数全スパムメールの数

単語が非スパムメールに出現した回数全非スパムメールの数

スパムメールの数全メールの数

非スパムメールの数全メールの数

ナイーブベイズ識別器（教師あり学習）(2/3)

今、あるメールが来た時に知りたい確率𝑃𝑃 = 1 = 1, = 1今だけ【重要】スパム

=𝑃𝑃 = 1, = 1 = 1 𝑃𝑃 = 1

𝑃𝑃( = 1, = 1)

今、あるメールが来た時に知りたい確率𝑃𝑃 = 1 = 1, = 1今だけ【重要】スパム

スパムスパム今だけ【重要】今だけ【重要】

𝑃𝑃 𝑋𝑋 = 𝑥𝑥ベイズの定理

=𝑃𝑃 = 1, = 1 𝑃𝑃 = 1, = 1 𝑃𝑃 = 1

𝑃𝑃( = 1, = 1)

今、あるメールが来た時に知りたい確率𝑃𝑃 = 1 = 1, = 1

この計算をすれば新たに来たメールのスパム判定ができる

仮定：条件付き独立𝑃𝑃 𝑋𝑋 = 𝑥𝑥,𝑌𝑌 = 𝑦𝑦 𝐶𝐶 = 𝑐𝑐 = 𝑃𝑃 𝑋𝑋 = 𝑥𝑥 𝐶𝐶 = 𝑐𝑐 𝑃𝑃 𝑌𝑌 = 𝑦𝑦 𝐶𝐶 = 𝑐𝑐

=𝑃𝑃 = 1, = 1 = 1 𝑃𝑃 = 1

𝑃𝑃( = 1, = 1)

今だけ【重要】スパム

スパムスパム今だけ【重要】今だけ【重要】

スパム

𝑃𝑃 𝑋𝑋 = 𝑥𝑥ベイズの定理

ナイーブベイズ識別器の特徴の一つ：確率分布を用いているので様々な分布のものをデータの形式に合わせて選択できる

ガウス分布（連続値データ）

多項分布（カテゴリーデータ）

大きさ

識別問題：データをクラスに識別する問題

大きさ

ナイーブベイズクラスタリング

ナイーブベイズ識別器

クラス分けされた文書

𝑃𝑃(𝑋𝑋 = 𝑥𝑥|𝐶𝐶 = 𝑐𝑐)を計算する

文書のクラスの確率を計算できる𝑃𝑃(𝐶𝐶 = 𝑐𝑐|𝑋𝑋 = 𝑥𝑥)

𝑐𝑐: クラス（スパムかどうか）𝑥𝑥: 単語の有無

文書のクラスをランダムに割り当てる

𝑃𝑃(𝑋𝑋 = 𝑥𝑥|𝐶𝐶 = 𝑐𝑐)を計算する再度、文書のクラスを割り当てなおす

初期化（ナイーブベイズクラスタリング）

再度、文書のクラスを割り当てなおす

クラスをランダムに割り当てる

元データ

繰り返し1回目（ナイーブベイズクラスタリング）

clf = GaussianNB()clf.fit(X, Y)newY=clf.predict(X)

初期化の結果

Y=newYclf.fit(X, Y)newY=clf.predict(X)

1回目の結果

2回目の結果

3回目の結果

𝑃𝑃(𝑋𝑋 = 𝑥𝑥|𝐶𝐶 = 𝑐𝑐)を計算する再度、文書のクラスを確率を的に割り当てる

初期化（ナイーブベイズクラスタリング）

クラスをランダムに割り当てる

元データ

再度、文書のクラスを確率を的に割り当てる

初期化の結果

…clf.fit(X, Y)newY=clf.predict_proba(X)

1回目の結果

2回目の結果

まとめ

確率を使った識別問題とクラスタリングの例を紹介した

大きさ

＊今回紹介したクラスタリング法はHARD-EM法（前半）、EM法（後半：確率的なクラス割り当ての）と呼ばれる方法

教師あり学習と教師なし学習と確率small-island.work/trial/ml2_5.pdfクラスタ)...

Documents

ICT教育新しい教育とCreativity...2016/10/02 · ICT教育新しい教育とCreativity Point1 城北の考えるICT教育これからの未来の教育は知識偏重の一斉型授業だけではな

社会とのかかわり - RISO

「ビジからクシ「ビジョンからアクションへ！121.119.176.71/office/DiTTpanel010617.pdf米国NETP2010 デジタル教科書？葡・・ビジョンからアクションへ教育の情報化の課題

指導教官：田代信教授 - heal.phy.saitama-u.ac.jp(2011）からX 線残光と可視光残光の相関を得た。後者ではcoupled light curve とdecoupled light curve

コンピテンシーに基づく教育 - Asuka Academy2015/01/30 · コンピテンシーに基づく教育（CBE）とは？従来の時間を基本とした「単位」という概念からの脱却

教育の情報化と認知科学 - CGU · Web view教育の情報化と認知科学第Ⅰ部教育技術の進歩と人間第1章教育の情報化と教育方法の改革第2章

キリスト教教派早わかりarisada.bglb.jp/turkey/Greek_Orthodox.pdfTitle キリスト教教派早わかり Author arisada Created Date 6/9/2016 10:09:43 PM

宗教とインターネット・IT テレプレゼンスへの憧憬 · 1．宗教と情報化社会 2 宗教とインターネット・it 相違点は？共通点は？ 3 3 テレプレゼンスへの憧憬

神戸学院大学学科目履修規則（抄） - Kobe Gakuin University · 専門教育科目 1 導入専門教育科目から8単位以上を修得すること。 2 一般専門教育科目の主要専門教育科目から、14単位以上を修得すること。

臨床医学 Title との … · の問題」と向き合うことの重要性とそのための方法論を示す。医学教育への文化人類

Title 南方関与の多重性と教育の論理 - フィリピンとバギオ日 ......Title 南方関与の多重性と教育の論理 - フィリピンとバギオ日本人学校の混血二世教育

Mick's Page - リレーショナルとはどんなことかmickindex.sakura.ne.jp/database/pdf/ClubDB2_20100528.pdf · 2010. 5. 29. · 1 リレーショナルとはどんなことか

Title 「ゆとり教育」改革と学力琉球大学教育学部紀要(61): 79-92 …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/1070/1/Vol61p79.pdf · Title 「ゆとり教育」改革と学力

Title 『曙光』 (ニーチェ) における道徳の問題 [岐阜大学教養 …...(中略)伝統とは何か。ひとつの高い権威(Auto-ritat)のことである。それが有益なことを命令するからでなく,

【研究内容】 Looking rXjsOQ cTô T .ô...1 学校教育目標～確かな学力・豊かな心・健やかな体を育み、家庭・地域とともに歩む活気のある学校～

イングランドのカリキュラム改革と日本語教育 - Japan …...イングランドのカリキュラム改革と日本語教育－初等教育への外国語教育必修化を中心として－

「メディア・リテラシー」教育をめぐるヨーロッパ …...APRIL 2012 41 関に対して教育プログラムの開発や教師教育の充実，国際的な協力促進を呼びかけた。1990年代に入ると，マスメディアにとどまら

テーマストーリー › secure › 61525 › 02-4.pdf · ストーリーストーリー詳細詳細

Mongolia - JICA...・発表用ワークシート〔3〕授業の詳細 1・2時限目：【楽しかったことを、教え合おう】 ①今まで家族と一緒にやって楽しかったことを発表