Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
早稲田大学グローバルエデュケーション 2016年12月14日
「初めて学ぶ計算言語学」
ー計算言語学+コーパス言語学ー
12月14日(水) 2時限 14号館603号室
近藤公久
現在工学院大学情報学部情報デザイン学科言語環境情報学研究室
2
言語:言葉を中心としたコミュニケーション環境:言葉が使われる場を含めた情報:情報処理を扱う(人間とコンピュータ)学 :学問
Information Science 情報科学of Language 言語
and Environment 環境
言語環境情報学って?
違いは?
• 計算言語学– 基礎・基盤思考
• 自然言語処理– 応用思考
• コーパス言語学– コーパスを解析して、言語の運用(する人)を理解する(心理)言語学
• 計量言語学– 統計を用いて言語(コーパス)を解析し、言語を理解する言語学
なにもかも初めて?
• 自然言語処理• 計算機科学• 人工知能• 認知科学• 認知心理学• 言語学• 心理言語学(言語心理学)• 社会学
5
広い関連領域• 生理学、物理学、神経科学• 音響学、音声学 +工学• 音韻論、言語学、心理学、言語心理学
– 視覚(心理学)、聴覚(心理学)• 認知心理学、認知言語学• 認知科学、脳科学、認知神経心理学• 情報学• HCI、HRI• 自然言語処理
– 自動翻訳、言語理解、要約– 音声認識・合成
• ビッグデータ、データベース、データマイニング– コーパス言語学
本日は
• 計算 ー 自然言語処理技術をツールとして– 頻度– nグラム– 共起確率– パタン(言語実態)ー>言語モデル、計算モデル
• コーパス– 言語資料– 生コーパス、タグ付きコーパス
• コーパスを自然言語処理技術を駆使して解析することで、言語モデルを構築する– 統計処理、機械学習
• ビッグデータ(事例、コーパス)を利用した言語学
教科書、参考書など
• 自然言語処理入門 オライリー– 原著 http://www.nltk.org/book/– NLTK http://www.nltk.org– 翻訳版の日本語に特化した部分– http://www.nltk.org/book-jp/ch12.html
• 自然言語処理の基礎– 奥村著 コロナ社
• 初めての自然言語処理– 土屋著 森北出版
• Rによるテキストマイニング入門– 石田基広 森北出版
• 言語処理のための機械学習入門– 高村大也 (著), 奥村学 (監修) コロナ社
• 講座日本語コーパス– 朝倉書店
• 講座 ITと日本語研究– 明治書院
本日の主題1
• 計算 といってもここでは数学だけではない
• 計算技術– コンピュータによる言語処理技術
• 統計• 機械学習
自然言語処理とは
• コンピュータが 自然言語を理解する–人工知能
• 対話システム• H{C,R}I (Human {Computer, Robot}, Interaction)
• コンピュータで 自然言語を扱う–知識工学
• 情報検索• ビッグデータ
既に身近な自然言語処理技術
• カナ漢字変換• 情報検索(ググる)
• 音声入力(siri, しゃべってコンシェル)• 機械翻訳
情報検索と抽出および要約、質問応答
• 情報検索– 膨大なテキスト集合から有用なものを正確に,なるべくたくさん取り出す。
• テキスト分類– テキストクラスタリング: 似たテキストをグルーフに゚まとめ,整理する。検索などを容易にする。
• 情報抽出– あらかじめ決められた(必要な情報を格納する)テンフレ゚ートを埋めることで,必要な情報をテキストから取り出す。
• テキスト要約– テキストの内容をより簡潔に表現したものに変換する
• テキストマイニンク(゙textmining)– 膨大なテキストデータの蓄積から,新しいあるいは特異的な,あるいは「おもしろい」情報を発掘しようとする。
• 質問応答– 自然言語の質問を入力として受理し,テキスト集合からその解答を見つけて出力する。
情報検索などの評価
• 再現率(recall) R–検索すべき対象全体に対して、検索できた数(割合)
• 適合率(precision) P–検索された対象に対して、正しく検索できた数(割合)
• F値(F-measure) 2*R*P/(R+P)
特徴(トピック性)評価
• TFIDF値
tfidf(t.d) = tf(t.d) log(N/df(t) + 1)
tf(t.d) : 文書dにおける単語tの頻度
df(t)文書集合中て語゙tを含む文書数
idf(t): log(N/df(t) + 1)
ここでの自然言語処理基盤技術、つまり、計算言語学技術は
• テキスト処理
• 形態素解析
• 構文解析
• 統計解析
• 機械学習
関連サイト 他多数あり
• 形態素解析– Mecab (前身は茶筅)
• http://taku910.github.io/mecab/– JUMAN
• http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN• 構文解析(係り受け解析)
– Cabocha• https://taku910.github.io/cabocha/
– KNP• http://lotus.kuee.kyoto-u.ac.jp/nl-resource/cgi-bin/knp.cgi
• KNP関連の省略・照応解析– http://lotus.kuee.kyoto-u.ac.jp/~ryohei/zero_anaphora/index.cgi– http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP
• 辞書比較(by MeCab)– http://www.mwsoft.jp/programming/munou/mecab_dic_perform.html
テキスト検索
正規表現とは
• 正規表現(regular expression)とは文字列のパターンのパターンを記述する記法– 元々形式言語理論で提案された概念で、それかゴンピュータのパターン照合に援用されたもの。
– 「正則表現」とも呼ばれる• そのパターンにマッチする文字列の集合を指定することができる
• 複雑な文字列のパターンの指定が可能– 「worthの後に、0語から3語挟んで、-ingで終わる語(但し、
thing, something, anything, everythingは除く)が続くもの」– ¥bworth
(¥S+ ){0,3}?(?!(some|any|every|no)?thing¥b)¥S+ing¥b
Wordでも正規表現とはちょっと異なる
検索対象 種類 例
任意の 1 文字 ? 「s?t」と入力すると "sat" や "set" を検索できます。
任意の長さの文字列 * 「s*d」と入力すると "sad" や "started" を検索できます。
単語の先頭 <「「(in)>」と入力すると "in" や "within" は検索できますが、"interesting" は検索できません。
指定した文字のいずれか [ ] 「w[io]n」と入力すると "win" と "won" の両方を検索できます。
指定した範囲内の任意の 1 文字 [-]「[r-t]ight」と入力すると "right" や "sight" を検索できます。範囲は昇順で指定します。
かっこ内の範囲に含まれる文字を除く任意の 1 文字 [!x-z]「t[!a-m]ck」と入力すると "tock" や "tuck" は検索できますが、"tack" や "tick" は検索できません。
直前の文字または式を n 個 {n}「fe{2}d」と入力すると "feed" は検索できますが、"fed" は検索できません。
直前の文字または式を n 個 {n,} 「fe{1,}d」と入力すると "fed" や "feed" を検索できます。
直前の文字または式を n ~ m 個 {n,m}「10{1,3}」と入力すると "10"、"100"、および "1000" を検索できます。
直前の文字または式を 1 個以上 @ 「lo@t」と入力すると "lot" や "loot" を検索できます。
Wordでやってみる
• ふりがなを検索 《[!》]@》
坊っちゃん夏目漱石
親譲《おやゆず》りの無鉄砲《むてっぽう》で小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰《こし》を抜《ぬ》かした事がある。なぜそんな無闇《むやみ》をしたと聞く人があるかも知れぬ。別段深い理由でもない。新築の二階から首を出していたら、同級生の一人が冗談《じょうだん》に、いくら威張《いば》っても、そこから飛び降りる事は出来まい。弱虫やーい。と囃《はや》したからである。小使《こづかい》に負ぶさって帰って来た時、おやじが大きな眼《め》をして二階ぐらいから飛び降りて腰を抜かす奴《やつ》があるかと云《い》ったから、この次は抜かさずに飛んで見せますと答えた。
Webでやってみるhttp://regexpal.com
正規表現が使える処理系
• テキストエディター– jEdit,Emacs;秀丸,EmEditor,サクラエディタ, JeditX,mi 等
• テキスト処理ツール– grep,sed,awk 等
• プログラミング言語等– Perl,Python,PHP,Ruby,Java,JavaS– ipt, R, 等
• ワープロソフト– OpenOffice.org Writer,MicrosoftWord 等
• 表計算ソフト– OpenOffice.org CalC 等
自然言語処理モジュール
• 形態素解析
• 構文解析
• 照応解析
• 意味解析
MeCabデモ
Cabochaデモ
先週本田がリーグ戦で大活躍しました
し
た
S
VPPP
本田
が
リーグ + 戦
で
PP
NP P
PNPN
tens
N大 活躍
N(do)Pre
VP
Post
V(do)
VP
Adv
先週
セリエAの
PNPN
NP NP
KNP デモサイト
入力:「ではみなさんは、そういうふうに川だと言われたり、乳の流れたあとだと言われたりしていた、このぼんやりと白いものがほんとうは何かご承知ですか」先生は、黒板につるした大きな黒い星座の図の、上から下へ白くけぶった銀河帯のようなところを指しながら、みんなに問いをかけました。
A cat ate a cake on the table.
奥村 自然言語処理の基礎より
The dog saw a man in the park.
奥村 自然言語処理の基礎より
John saw a girl with a telescope.
解釈1
土屋 初めての自然言語処理より
解釈2
土屋 初めての自然言語処理より
解釈3
土屋 初めての自然言語処理より
照応解析デモ(KNP)
格フレーム、意味フレーム
表層格
• 日本語では各格助詞に対応して–ガ格、ヲ格、ニ格、カラ格、ヘ格、ト格、ヨリ格、マデ格、デ格
• 英語では、–主格(Nominative), 目的格(Objective), 所有格
(Gentive)
深層格
• 動作主格(Agent):動作を引き起こすものを表す• 対象格(Object):移動したり変化したりする対象を表す• 目標格(Goal):対象の移動の終点,あるいは変化における最終的な状態結果を表す
• 源泉格(Source): 移動(変化)するものの元の場所(状態)• 場所格(Location):出来事が起こる場所を表す• 道具格(Instrument):出来事の原因や,反応の刺激を表す• 時間格(Time):出来事が起こる時間を表す• 経験者格(Experiencer): (主に心理)事象を経験したものを表す
格フレーム(case frame)
• 文中でともに出現する単語としてどのような単語が望ましいかを記述したもの
• 文において重要な役割を果たす動詞,形容詞などの用言,および名詞句において中心的な位置づけである名詞について通常用意されることが多い
動詞の例
take: (撮る(subj he, John 動作主)(obj photo, video 対象) ......
)(食べる(subj he, Mary 動作主)(obj apple, steak 対象)......
)(乗る(subj he, Tom 動作主)(obj bus, train 対象)......
).....
表層格 深層格
本日の主題2
• コーパス
–辞書との違い–データベースとの違い– コーパスに必須の情報– コーパスを使って何をするのか
辞書とコーパス
• 辞書–目的にあった正確な情報を専門家が作成–きちんとした構造、ルール
• コーパス–目的のために必要なデータを収集・蓄積したもの
辞書(dictionary)
• 辞書–国語辞典–漢和辞典–和英辞典–英和辞典
• 電子辞書–大抵の辞書は既に電子化
• 見出し語• 品詞• 発音、表記• 意味• 関連語(同義語、反対語)• 用例
• マルチメディア(音声、音、画像、ビデオ)
辞書の例
舟を編む
• 大渡海という国語辞典の編纂の物語原作:三浦しをん
• 三省堂大辞林がモデル?
• 語彙・用例収集から見出し語(24万語)の決定、語訳執筆、レイアウトから校正に至るまでの苦労
と恋愛 松田龍平と宮崎あおい– オダギリジョーがいい役を果たして。。。
右
• 語訳
右
• 西を向いたときの北の方向– 北を向いたときの東の方向
• これでいいんか。。とは思うが、基本語の説明は難しい
• 岩波「相対的な位置の一つ。東を向いた時、南の方、また、この辞書を開いて読む時、偶数ページのある側をいう」。
• 明鏡「人体を対称線に沿って二分したとき、心臓のない方」。
恋愛
参考
• 現代国語例解辞典(第四版)小学館– 特定の異性に特別の愛情を感じて恋い慕うこと。また、その状態。
• 明鏡国語辞典(第二版)大修館書店– 異性同士(まれに同性同士)が互いに恋い慕うこと。また、その感情。
• 三省堂国語辞典(第六版)三省堂– (男女の間で)恋をして、相手をたいせつに思う気持ち(を持つこと)。
• 新明解国語辞典(第六版)三省堂– 特定の異性に対して他の全てを犠牲にしても悔い無いと思い込むような愛情をいだき、常に相手のことを思っては、二人だけでいたい、二人だけの世界を分かち合いたいと願い、それがかなえられたと言っては喜び、ちょっとでも疑念が生じれば不安になるといった状態に身を置くこと。
コーパス (corpus)• 資料集
– 目的に合った言語資料• 言語資料としての情報を付与• 形態素解析済、自動解析だけでなく人手で修正• 言語タグ(品詞、構文情報、係り受け情報、意味、他)
– 意味、概念• ワードネット• 語彙体系
• 生コーパス(蓄積・収集データ)• テキスト(例えばweb) 平文• 音声と書き起こし• 対訳
• 解析結果データ• 自動形態素解析結果、自動構文解析結果 等
英語コーパス例
• Brown Corpus– 1964 均衡コーパスの先駆け– Kucera & Francis (1982)の頻度表は心理言語学の世界では標準的に使用されている
• 15のジャンルから500のサンプルを各2000語ずつ500×2000=100万語のコーパス
• The Lancaster-Oslo/Bergen Corpus of British English [LOB]– 1978完成 Brown Corpus のBritish英語版
英語コーパス例
• BNC Corpus– The British National Corpus–書き言葉、話し言葉両方のイギリス英語– 1億語規模の大規模コーパス
• Oxford Corpus– nearly 2.5 billion words of real 21st century English–世界中の英語のWebページ
英語コーパス例
• WordNet– 概念辞書(意味辞書)– 同義語のグループに分類(synset)– 約11万のsynsetに分類された約15万語を収録– 約20万の単語と意味の組み合わせ
• Penn Treebank– その名のとおり構文構造情報が収録– 構文木
• Switchboard– 電話の会話コーパス
日本語の電子(化)辞書 自然言語処理用EDR 1986年度~1994年度 (国のビッグプロジェクト)
EDR電子化辞書の構造┌─日本語単語辞書 ・・・・・・・・・・・ 27万語
┌─単語辞書────┤│ └─英語単語辞書 ・・・・・・・・・・・・ 19万語││ ┌─日英対訳辞書 ・・・・・・・・・・・・ 23万語│ │├─対訳辞書────┼─英日対訳辞書 ・・・・・・・・・・・・ 16万語│ ││ └─日中対訳辞書 ・・・・・・・・・・・・ 23万語│├─概念辞書──────概念体系辞書・概念記述辞書 ・・・・・ 41万概念│││ ┌─日本語共起辞書 ・・・・・・・・・・・ 90万句├─共起辞書────┤│ └─英語共起辞書 ・・・・・・・・・・・・ 46万句
EDR ───┤電子化辞書 │ ┌─日本語専門用語単語辞書(情報処理)・・ 11万語
│ │├─専門用語辞書──┼─英語専門用語単語辞書(情報処理)・・・ 7万語│ (情報処理) ││ └─その他(概念体系、対訳、共起の各辞書を含む)││ ┌──日本語コーパス ・・・・・・・・・・・ 20万文└─EDRコーパス─┤
└──英語コーパス ・・・・・・・・・・・・ 12万文
日本語コーパス例
• 国立国語研究所–均衡コーパス
• 書籍全般、雑誌全般、新聞、白書、ブログ、ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納。各ジャンルについて無作為にサンプルを抽出。
–少納言、中納言、大納言
各種タグ付き
日本語コーパス例
• 国立国語研究所–日本話話し言葉コーパス(CSJ)–転記テキスト 752万語
学会発表音声が中心
各種タグ付き(一部は手作業で修正)
談話構造、係り受け、時間、言いよどみ
日本語コーパス例
• NTT 日本語の語彙体系
–自然言語理解、機械翻訳システムのために構築された大規模日本語概念辞書
–シソーラス
• NTT 日本語ツリーバンク「檜」
その他
• 文学テキスト(青空文庫)• 新聞• 教科書テキスト• 会話音声• 感情音声• 評価用音声• ネット上テキスト(ブログやツイッター等)
ーー ビッグデータ
青空文庫http://www.aozora.gr.jp
• 文学作品(著作権が切れたものをボランティアで入力)
• http://www.satokazzz.com/airzoshi/
タグ付きコーパスの情報
• 単語、品詞、他関連の言語情報– 連接、構文、係り受け
• 表記と読み(発音)情報
• 音声 時間(区切り)情報、F0情報、書き起こし
• 状況(環境)– 場所、発話の目的(コミュニケーション状態)
<ー>自然言語処理技術を用いたコーパス構築• 形態素解析、構文解析• オートタギング• 機械学習
• パターン• 頻度、確率
コーパス(辞書)の形式• プレーンテキスト
– タグ埋め込み
• XML(かなり普及したデータ形式。ブラウザで見ると分かり易く表示される。)
• Json(JavaScript Object Notation) Pythonでそのまま読める)
ー>連接の表現 KWIC (Key Word in Context)
• 表形式EXCEL, CSV
• RDB(Relational Database)形式:言わずと知れたデータベース形式。SQLという専用言語で操作。
国研の少納言で検索してみると
• ある単語の前後を含めて検索–国語研 少納言
• http://www.kotonoha.gr.jp/shonagon/
KWIC (Key Word in Context)形式
• おもに、系列データを扱うための表現• 中心となる項目(item, word)とその前後をコンテクスト(文脈)として扱う
XML
Yamada Hanako
18
female
JSON
{"name": "羽生善治","age": 40,"titles": [
"王座","棋聖"
],"married": true
}
RDBMS (Rlational DataBaseManagement System)
• データの管理システム• 表ベースの集まり• 表間関連を用いて複数の表を操作・検索する手段を持つ– 階層型
• RDBMSは、データ保持とデータアクセスをトータルに管理
• SQLはデータベースの作成、データの追加・削除・変更、検索、表の結合など、RDBの操作を行う言語
コーパス必須条件
• 何の情報か = 出典• 量• 媒体(テキスト、音声、画像、他)• どんな情報がついているか
–信頼度(精度) 人手での入力や修正有りか–自動認識ならばどんなソフトを用いたか
• どんな形式(構造)で表現されているか
言葉は生き物ー 常に変化している ー
• 辞書はどうすればいい• コーパスはどうすればいい• データベースは?
–頻度–親密度
例
• 「国語に関する世論調査」• http://www.bunka.go.jp/tokei_hakusho_shup
pan/tokeichosa/kokugo_yoronchosa/
平成 25 年度「国語に関する世論調査」の結果
• おもむろに• 枯れ木も山のにぎわい• 小春日和• 天に唾(つば)する
徐に
データベース
76
日本語の語彙特性
• 第I期(第1-6巻)[1999] • 第II期(第7巻)[2000]• 第Ⅲ期(第8巻)[2005]• 第IV期(第9巻)[2008]
単語頻度
• 1985年から1998年までの14年間の朝日新聞記事データ
• 高速日本語形態素解析システム「すもも」(鷲坂,山崎,廣津,尾内,1997)
形態素解析における精度向上
• 辞書追加–全国町字データ–新郵便番号データ– 『日本語語彙大系』の中の名詞と感動詞–地名データ–アルファベット語、記号類(手作業)–高頻度未定義語
頻度分布
• 異なり語数34万語
年ごとの違い
82
親密度
• 親密度とは何か?
=「なじみ」の程度
主観的評定値
• 認知過程と非常に関連が深い
83
親密度評定実験• 手続き:マウスで評定値を選択• 被験者すべてが、すべてのモードに参加• 被験者すべてが、各モードですべての単語を評定
単語1 2 3 4 5 6 7
NEXT
84
雑音中の音声単語認知率
単語親密度
S/N
単語認知率%
頻度との違いは?
• 主観的評定値
• 頻度は客観か?–調査対象の選定–均衡コーパス
• 客観であればいいとも限らない事もある–心理実験 個人差
本日の主題3
• コーパスを用いた(心理)言語学
–実験心理学(心理言語学)との違い• 実験 ー> 統制された刺激• 仮説ベース
– コーパス言語学• 言語運用事例からの解析、推論• 探索的解析(もちろん仮説は必要)
コーパスを用いた言語学
• Corpus based linguistics
– Psycholinguistics = 心理的実験手法(結果)を中心にした言語学
*本日は二つの事例から
事例1
• 国語研究所 「話し言葉コーパス」 CSJ– Mecabによる形態素解析、Cabochaによる構文解析、+人手で修正、アノテーション
• 本日は、言語産出(語順研究)–実験でのコントロールは難しい研究対象– CSJを用いた研究
The Corpus of Spontaneous Japanese (CSJ)(National Institute for Japanese Language & National Institute of Information and
Communications Technology, 2004)
• Conference presentation & monologue portions• Conf. presentation
– 7.5 million words annotated (cf. Wall Street Journalcorpus, 1 million words)
– 0.5 million parsed, the rest annotated– Approx. 660 hours of speech
• Analyzed portion for the study (approx.) – 1.2/7.5 million words (parsed portion + coded
portion) of conference presentation– 100/660 hours of recording
研究目的
• 日本語の語順は比較的自由
• 規範的語順(Canonical order)はどれくらい強い?
– Scramblingはどれくらいの確率で起こっているか?
Examined Structures in Kondo & Yamashita (2011)"Why Speakers Produce Scrambled Sentences: An Analyss of a Spoken Language Corpus in Japanese"in Processing and Producing Head-final Structuires
Sentences with all relevant phrases were overtly present
(1) Transitive (TR) (ex. taberu ‘eat,’ yomu ‘read’)John-ga pizza-o tabeta.John-nom pizza-acc ate“John ate some pizza”
(2) Ditransitive (DTR) (ex. ageru ‘give,’ kau ‘buy,’ watasu ‘hand’)(John-ga/wa) Mary-ni pizza-o ageta. (John-nom/top) Mary-dat pizza-acc gave“John gave some pizza to Mary”
(3) Transitive with Locative ni (TRL) (ex. oku ‘put,’ tasu ‘add’)(change of position with a transitive verb, Sadakane & Koizumi, 1995)(John-ga/wa) teeburu-ni pizza-o oita. (John-nom/top) table – loc pizza-acc put“John put the pizza on the table.”
規範的語順とコーパス内の語順
他動詞文 主語 目的語 の順
二項動詞文 間接目的語 直接目的語 の順
他動詞 場所 直接目的語 の順
結果
• 文型によっては、語順の選好がみられないものがある(自由)
• (主語が) 物・事を 場所に 〜する
研究目的
• 日本語の語順は比較的自由
• 規範的語順(Canonical order)はどれくらい強い?
– Scramblingはどれくらいの確率で起こっているか?
• 長い節を先に言う?
長いフレーズを先に言う?
• 日本語は長い節を先に言う傾向がある
• 英語は逆
頻度の高い語を含むフレーズを先に言う?
• 頻度はその時々の頻度(Contextual Freq.)を指標として
• 気になるもの、主題を含むものを先に言うか?
• 節の長さとの関係
単語の頻度による語順のLogitモデル
Kondo and Yamashita, Same Human Nature, Different Linguistic Manifestations: Accesibility and Length-based Phrase-order Tendencies, AmLap 2010.
語順決定に影響
• 様々な特性– 既出– 係り受け(こそあど、代名詞。。)– Saliency 意図、強調– Accesibility 頻度、親密度– Animacy
• 直近の構造を踏襲– 構造的プライミング
• 頻度の高い構造を産出(確率的)– 規範性(Canonical)– 文型依存(動詞の種類:取りうる節)
今すぐできる
• 自然言語を扱う、使うことでできる、やりたいことがある• 研究目的として絞り込む• 目的にあったコーパスを探す
– コーパスの理解– 先行、関連研究– 自然言語処理技術を駆使して検索、処理– 技術の勉強
• 統計処理、機械学習的処理、モデル構築– 技術の勉強– 言語理論、モデル等の先行研究、関連研究
まとめ
• 自然言語処理技術、統計、機械学習技術を駆使して、
• コーパス(ビッグデータ)を解析し、• 言語モデルを構築する(人の言語運用を明らかにする)
•理論、実験手法との相互連携は依然必要