Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
UD Japanese-BCCWJ:『現代日本語書き言葉均衡コーパス』
のUniversal Dependencies
大村舞(国立国語研究所)
Universal Dependencies (UD) とは
依存文法による言語横断的なアノテーション
他言語の言語処理および言語学の研究に資する言語資源
22018/6/16 UD公開研究会
単言語もしくは複数言語間の言語学的な分析の実現単言語もしくは複数言語横断の設定による依存構造解析器の開発
→ CoNLL-2018 shared tasks言語理解などの応用に必要な情報の整備
以下を目指すプロジェクトのこと、あるいは言語資源のことを指す
UD Japanese-BCCWJ
現代日本語書き言葉均衡
コーパス(BCCWJ)
を元に作ったUD
2018/6/16 UD公開研究会 3
グラフ表示
CoNLLフォーマットファイル
現代日本語書き言葉均衡コーパス(BCCWJ)
Balanced Corpus of Contemporary Written Japanese
• 日本語の全体をバランスよく反映した(均衡)コーパス
• そのうちのコアデータ(形態論情報などが人手修正済みの1980文章)を採用
2018/6/16 UD公開研究会 4
形態素情報・短単位・長単位
係り受け情報(BCCWJ-DepPara)
UD Japanese BCCWJのいいところ
データ量が多い
2018/6/16 UD公開研究会 5
複数のジャンルにまたがっている
約126万単語、57256文
と世界で2番目ぐらいの規模
新聞、雑誌、書籍、ヤフー知恵袋(Q&A)、
ヤフーブログ、白書といったジャンルにまたがって
提供している
UD JapaneseBCCWJ
語数 1265590語
文数 57256文
2018/6/16 UD公開研究会 6
ほかの日本語コーパスより圧倒的に多い!
※ 2018/6/14調べ(開発版)http://universaldependencies.org/
UD Japanese-BCCWJはどれくらい多いのか
UD Japanese-BCCWJはどれくらい多いのか
2018/6/16 UD公開研究会 7
おそらく世界で2番目に多い
参考:1番大きな量のコーパス
※ 2018/6/14調べ(開発版)http://universaldependencies.org/
UD Japanese BCCWJのいいところ
データ量が多い
2018/6/16 UD公開研究会 8
複数のジャンルにまたがっている
約126万単語、57256文
と世界で2番目ぐらいの規模
新聞、雑誌、書籍、ヤフー知恵袋(Q&A)、ヤフーブログ、白書といったジャンルにまたがって提供している
UD JapaneseBCCWJ
語数 1265590語
文数 57256文
UD Japanese BCCWJのジャンル分布
2018/6/16 UD公開研究会 9
知恵袋 白書 ブログ 書籍 雑誌 新聞 合計
文章数 938 62 471 83 86 340 1980
文数 6110 5825 7059 9678 12542 16042 57256
単語数 108565 221583 110246 231349 236067 357780 1265590
6分野にまたがるデータセット
UD Japanese BCCWJのいいところ
データ量が多い
2018/6/16 UD公開研究会 10
複数のジャンルにまたがっている
約126万単語、57256文
と世界で2番目ぐらいの規模
新聞、雑誌、書籍、ヤフー知恵袋(Q&A)、ヤフーブログ、白書といったジャンルにまたがって提供している
UD JapaneseBCCWJ
語数 1265590語
文数 57256文
複数分野かつ大規模な日本語コーパス
BCCWJをUD化するにあたり
2018/6/16 UD公開研究会 11
BCCWJ
UDとBCCWJには差異がある
UD
品詞がUnidic品詞
文節係り受け単語間係り受け
依存関係ラベルが少ない(数種
類)
品詞はUD PoS
依存関係ラベルが37種類
BCCWJをUD化するにあたり
2018/6/16 UD公開研究会 12
BCCWJ
UDとBCCWJには差異がある
UD
品詞がUnidic品詞
文節係り受け単語間係り受け
依存関係ラベルが少ない(数種
類)
品詞はUD PoS
依存関係ラベルが37種類
BCCWJをUD化するにあたり
2018/6/16 UD公開研究会 13
BCCWJ
UDとBCCWJには差異がある
UD
品詞がUnidic品詞
文節係り受け単語間係り受け
依存関係ラベルが少ない(数種
類)
品詞はUD PoS
依存関係ラベルが37種類
UD Japanese-BCCWJに変換するまでの工程
2018/6/16 UD公開研究会 14
BCCWJ
BCCWJ DepPara UD Japanese-BCCWJ
BCCWJ DepPara-PAS
変換プログラム
UD Japanese-BCCWJに変換するまでの工程
2018/6/16 UD公開研究会 15
BCCWJ
BCCWJ DepPara UD Japanese-BCCWJ
BCCWJ DepPara-PAS
変換プログラム
UDのPOS(UPOS)に
変換
文節係り受けを単語間係り受け
へ
UD依存間ラベルを付与する
単語単位をどうするか
現状短単位をベースに使っている
2018/6/16 UD公開研究会 16
国語研短単位(SUW)、国語研長単位(LUW)、文節
SUW(Short unit word): 語彙に基づく品詞体系LUW(Short unit word):構文的な機能に着目した品詞体系
• Unidic品詞
• 原型
• 用法
• 長単位のUnidic品詞
SUWからUPOSへ
現在以下の情報に基づいてマップしている
2018/6/16 UD公開研究会 17
短単位ではsyntax wordとして認定できない場合
• Unidic品詞
• 原型
• 用法
• 長単位のUnidic品詞
SUWからUPOSへ
現在以下の情報に基づいてマップしている
2018/6/16 UD公開研究会 18
短単位ではsyntax wordとして認定できない場合
アドバイス した
アドバイスした
短単位名詞-普通名詞-サ変可能 動詞-非自立可能
動詞-一般長単位
• Unidic品詞
• 原型
• 用法
• 長単位のUnidic品詞
SUWからUPOSへ
現在以下の情報に基づいてマップしている
2018/6/16 UD公開研究会 19
短単位ではsyntax wordとして認定できない場合
アドバイス した
アドバイスした
短単位名詞-普通名詞-サ変可能 動詞-非自立可能
動詞-一般長単位
動詞(VERB)に変更
SUWからUPOSへ 表1
2018/6/16 UD公開研究会 20
Unidic品詞 原型 用法 長単位のUnidic品詞 UPOS
^形容詞-非自立可能 助動詞 AUX
^形容詞-非自立可能 形容詞-一般 ADJ
^形容詞- ADJ
^形状詞-一般 ADJ
^形状詞-タリ ADJ
^形状詞-助動詞語幹 AUX
^連体詞 ^[こそあど此其彼]の DET
^連体詞 ^[こそあど此其] PRON
^連体詞 ADJ
^副詞 ADV
^感動詞 INTJ
^助詞-接続助詞 ^て$ SCONJ
^助詞-準体助詞 SCONJ
SUWからUPOSへ 表1
2018/6/16 UD公開研究会 21
Unidic品詞 原型 用法 長単位のUnidic品詞 UPOS
^.*接続助?詞 CCONJ
^助詞-[格副係]助詞 ADP
^助詞- PART
^助動詞 AUX
^接頭辞 NOUN
^接尾辞 NOUN
^動詞-非自立可能 助動詞 AUX
^動詞-非自立可能 為る AUX
^動詞- VERB
^名詞-助動詞語幹 AUX
^代名詞 PRON
^名詞-固有名詞 PROPN
SUWからUPOSへ 表1
2018/6/16 UD公開研究会 22
Unidic品詞 原型 用法 長単位のUnidic品詞 UPOS
^名詞-普通名詞-サ変可能
動詞-一般 VERB
^名詞-普通名詞-サ変可能
名詞-普通名詞-一般 NOUN
^名詞-普通名詞-形状詞可能
形状詞-一般 ADJ
^名詞-普通名詞-形状詞可能
名詞-普通名詞-一般 NOUN
^名詞-普通名詞-サ変形状詞可能
形状詞 ADJ
^名詞-普通名詞-サ変形状詞可能
動詞-一般 VERB
^名詞-普通名詞-サ変形状詞可能
NOUN
^名詞-普通名詞-副詞可能
副詞 ADV
^名詞-普通名詞-副詞可能
NOUN
^名詞-普通名詞-助数詞可能
助数詞 NUM
^名詞-普通名詞-助数詞可能
NOUN
^名詞-数詞 NUM
^名詞-普通名詞 NOUN
SUWからUPOSへ 表1
2018/6/16 UD公開研究会 23
Unidic品詞 原型 用法 長単位のUnidic品詞 UPOS
^補助記号-[句読括一] PUNCT
^補助記号 SYM
^記号 SYM
^空白 X
.* X
文節係り受けを単語間係り受けへ
2018/6/16 UD公開研究会 24
文節係り受けを単語間係り受けへ
2018/6/16 UD公開研究会 25
蓮舫さんに アドバイスした 文節係り受け
文節 文節
蓮舫 さん に
係り元 係り元
SUW SUW SUW SUW SUW
主辞
アドバイス した
文節係り受けを単語間係り受けへ
2018/6/16 UD公開研究会 26
蓮舫 さん に アドバイス した
SUW SUW SUW SUW SUW
主辞
蓮舫 さん に
SUW SUW SUW SUW SUW
アドバイス した
文節間:主辞にかける文節外:主辞同士
主辞はDepParaの情報を使う(一部修正
係り関係ラベルをつける
2018/6/16 UD公開研究会 27
ラベル
係り受けラベルのルール
• 文節位置
• 係り元UDPOS
• 係り先UDPOS
• 係り元の日本語品詞
• 係り先の日本語品詞
• 係り元の原形 品詞の活用
• etc.
2018/6/16 UD公開研究会 28
係り関係から得られる情報をもとにルール化
係り元 係り先
UD Japanese-BCCWJに変換するまでの工程
2018/6/16 UD公開研究会 29
BCCWJ
BCCWJ DepPara UD Japanese-BCCWJ
BCCWJ DepPara-PAS
変換プログラム
UDのPOS(UPOS)に
変換
文節係り受けを単語間係り受け
へ
UD依存間ラベルを付与する
配布
http://universaldependencies.org/
2018/6/16 UD公開研究会 30
現在dev版、都度修正中
https://bccwj-data.ninjal.ac.jp/mdl/
でも配布
アノテーションデータのみなので付属プログラムをうごかす必要あり
まとめ
UD-Japanese BCCWJを紹介
2018/6/16 UD公開研究会 31
約126万単語、57256文と世界で2番目ぐらいの規模
新聞、雑誌、書籍、ヤフー知恵袋(Q&A)、
ヤフーブログ、白書といったジャンルにまたがって
提供している
BCCWJから自動変換によるコーパスの実現