23
Title コーパス言語学 : 言語教育への応用と分析の実際 Author(s) 金城, 克哉 Citation 九州地区国立大学教育系・文系研究論文集, 2(1) Issue Date 2014-10 URL http://hdl.handle.net/20.500.12000/43387 Rights

Title コーパス言語学 : 言語教育への応用と分析の実際 九州地区国 …ir.lib.u-ryukyu.ac.jp/bitstream/20.500.12000/43387/1/Kinjo_2-1+2014.pdf · 量のデータ(コーパス)を利用した言語調査・研究が可能になり、教育へと応

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Title コーパス言語学 : 言語教育への応用と分析の実際

Author(s) 金城, 克哉

Citation 九州地区国立大学教育系・文系研究論文集, 2(1)

Issue Date 2014-10

URL http://hdl.handle.net/20.500.12000/43387

Rights

コーパス言語学:

言語教育への応用と分析の実際

金城 克哉

世紀が変わる前後から盛んに研究の場でも教育の場でも「コーパス」という

言葉を耳にするようになった。「コーパスに基づく○○の研究」といったものか

ら、「コーパスを利用した辞書」(『コウビルド英英辞典』・『ウィズダム英和・和

英辞典』等)、また国立国語研究所が構築を進めてきた「書き言葉均衡コーパス」

といったものまで様々な用いられ方をしている。また、NHK の英会話番組「 100

語でスタート!英会話」( 2003~2005 年放映)では「コーパスくん」というキ

ャラクターが登場し、この「コーパス」という言葉が一般に広く知られるよう

になった(投野 2006)。また世紀が改まって以降、現在までに様々なコーパス

関連の論文や書籍が世に出たが、あらためてこの「コーパス」とは一体何なの

かを問われると一般の人はもとより言語研究を専門としている者でさえ、答え

に困ってしまうことも少なくない。コーパスは言語研究や言語教育とどのよう

な接点を持つものなのであろうか。本論ではコーパスをめぐる基本的な事柄か

らその応用、簡単ではあるが実際の分析の手順までを概観することを目的とす

る。

1.コーパスとは何か?

Longman Active Study Dictionary では、 Corpus を “a large collection

of written or spoken language, used for studying the language”と定義

づけている。訳すと「言語研究に用いられる書き言葉・話し言葉双方の膨大な

集積(物)」となるであろうか。しかしながら、これだけでは大変大雑把な説明

で具体的にどういったものを指すのかわかりにくい。前川 (2009:7)は次のよう

にコーパスを特徴づけている:

言語研究のための大規模なデータ。対象とする言語において実際に用い

られた用例を、その言語の実情を正確に反映するように組織的に収集し

て、公開したもの。通常コンピュータで利用する。品詞情報などの検索

用情報を付加したものも多い。

コンピュータの普及以前の言語研究における用例収集は、書籍を購入し、その

中から用例を探し出し、ノートやカードに抜き書きや切り貼りをするという大

変労力の要る作業をしていた。しかしながら、パーソナル・コンピュータが個

人レベルで活用できるようになり、従来は個人で取り扱うことの難しかった大

量のデータ(コーパス)を利用した言語調査・研究が可能になり、教育へと応

用されるようになってきた(梅咲 2005)。

2.なぜコーパスを利用するのか?

Chomsky が言語研究の目標を言語能力の解明に設定して以来、理論言語学は

主に研究者の内省に基づいて文の適格性の判断がなされてきた。 Chomsky が非

文とした*Colorless green ideas sleep furiously という有名な文を目にした

ことがある方も多いと思う。このような例に限らず、文法の中心を成す統語論

の議論は、そのほとんどが研究者の内省によって作成した文をもとに構成され

てきた。しかしながら、このような文法性の判断は言語事実に反するデータを

是としたり、研究者の個人語 (idiolect)に影響されたりする恐れもある(赤野

他)。その一方、Chomsky の目指す言語理論との比較で言うならば、コーパスの

果たす役割は特定の文法理論の構築に貢献するというよりは、より「経験主義

的な言語記述」(齋藤他 2005:4)を目指した一つの方法論ということができる

だろう。研究という側面から言えば、具体的には当該言語の大量の運用サンプ

ルを収集し、コロケーション情報(後述)や文法情報、文体情報、社会言語学

的情報など様々な情報を容易に検索し得られる点にある(大曾 2006;砂川 2011;

真島 2011)。さらに、言語教育という視点からコーパスを見ると、実際の言語

の使用状況が把握できることで、それが教材開発や教材分析へとつながる(石

川 2008)。また学習者の産出したデータをもとに誤用の傾向を分析するばかり

でなく、学習者自らが主体的に学ぶという学びの変化へとつながっていく可能

性を持つと言える。

3.どのようなコーパスがあるのか?

新聞記事を CD-ROM 化したもの、また(利用は一部の者に限られているが)大

学図書館などを通じて利用できるオンラインの新聞記事データベースや雑誌デ

ータベースなどは「広義のコーパス」と呼ばれ、言語研究の目的のためにデザ

インされたコンピュータ処理が可能な大規模なデータという「狭義のコーパス」

とは区別される。では後者のコーパスにはどのようなものがあり、いかに活用

されているのだろうか。以下、代表的なコーパスを紹介しよう。

3.1 ブラウン・コーパス (Brown Corpus)

上述したように、コーパスからは様々な情報を得ることができるが、特定の

1 冊の本を対象とした語彙研究や索引作成等ではなく、広く当該言語の書き言

葉もしくは話し言葉の代表サンプルとしてのコーパスを構築するためにはどの

ようなジャンルからどの程度サンプリングを行うかという綿密な計画が必要と

なる。ブラウン・コーパスはそういった計画に基づいて構築された世界初の電

子コーパスで、 Brown 大学の W.N.Francis と H.Kucera によって 1964 年に完成

したものである。総語数は約 100 万語、1961 年の編集当時にアメリカで出版さ

れた書籍や新聞等 16 のテキストカテゴリーを代表する 500 のテキストからそ

れぞれ平均 2,000 語を抽出している。このように、単に入手可能な書籍から任

意に一定の語数を抽出するのではなく、明確な設計に基づくコーパスであると

いう点でもこのブラウン・コーパスの持つ意義は大きい(赤野 2006,後藤 2003)。

3.2 ブリティッシュ・ナショナル・コーパス (British National Corpus)

これは 1991 年に収集が始められ 1994 年に完成したイギリス英語の書き言

葉・話し言葉双方の様々なジャンルを代表する 1 億語からなる大規模なコーパ

スである。そのうち書き言葉は全体の 90%を占め、地方紙・全国紙の新聞を始

め、専門誌から一般大衆向けの雑誌・小説、手紙の類に至るまで様々なテキス

トから構成されている。話し言葉のデータは全体の 10%程度であり、社会階級

や年齢・地域の異なるボランティアが録音した会話資料、ビジネスシーンから

国会の会議、ラジオ番組まで、こちらも様々なテキストから成る。1994 年の完

成後は新しいテキストは加えられていないが、 2001 年と 2007 年に改訂が行わ

れている。最新版の BNC XML Edition(DVD 版)は個人でも法人でも購入できる

が 、 ウ ェ ブ 上 で も 簡 単 な 検 索 を 行 う こ と が で き る 。 BNC の ホ ー ム ペ ー ジ

(http://www.natcorp.ox.ac.uk/)を利用することもできるし、ブリガムヤン

グ大学の Mark Davies 氏が運営する BYU-BNC (http://corpus.byu.edu/bnc/)の

サイトを利用してもよい(石川他 2010)。

3.3 バンク・オブ・イングリッシュ(The Bank of English™)

The Bank of English™とは、約 6 億 5 千万語におよぶ、文語・口語英語のデ

ータベースである。このデータベースは 1990 年以降収集された何百種類もの

文語・口語の様々な情報から成り立っており、イギリス英語(約 40%)、アメ

リカ英語( 30%)、オーストラリア英語・ニュージーランド英語・カナダ英語

(30%)から 構成されている。文語は、おもに世界中の新聞、雑誌、テレビ、

ラジオ、文庫本に始まり、ウェブサイトやチラシ、カタログ、レポート、手紙

に至るまで、さまざまな素材を情報源としている。また、口語は日常会話やミ

ーティング、インタビュー、議論を始め、テレビやラジオの録音などを収録し

ている。全データベースのうち、約 4 千万語はこのような口語体である(参照引

用:Japan Knowledge サイト http://japanknowledge.com/, 2013 年現在)

3.4 コーパス・オブ・コンテンポラリー・アメリカン・イングリッシュ

(Corpus of Contemporary American English, COCA)

オンライン上で無料で利用できるコーパスとしては現在最大の均衡コーパス

(2011 年 8 月現在、総語数 4 億 2500 万語)。ブリガムヤング大学 (Brigham Young

University)で作成されているもので、1990 年から 2011 年 8 月(現在)までの

話し言葉、小説、一般雑誌、新聞、学術誌などから毎年 2000 万語を追加してい

る。ウェブサイトでは Erin M. Shaw 氏によるデータ駆動型語彙指導( Teaching

Vocabulary Through Data-driven Learning, 英文)も参考にすることができ

る(http://corpus.byu.edu/coca/)。

3.5 現代日本語書き言葉均衡コーパス

日本では、大学共同利用機関法人人間文化研究機構国立国語研究所と文部科

学省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で「現代

日本語書き言葉均衡コーパス」( BCCWJ: Balanced Corpus of Contemporary

Written Japanese)という大規模コーパスを開発している。これは約 1 億 480

万語からなる書き言葉を対象としたコーパスで、2013 年 8 月現在、ウェブ上の

「少納言」というサイト (http://www.kotonoha.gr.jp/shonagon/)でこのコーパ

スを利用し検索を行うことができる。また、2011 年夏からは形態論情報(形態

素解析情報)を利用した検索サイトも開設されている。

3.6 学習者コーパス

上述した 5 つのコーパスは母語話者の言語使用例を収集したものであるが、

学習者コーパスとは「外国語学習者によって実際に用いられた用例を集積した

もの」と考えていただければいい。つまり、外国語学習者が産出した言語を収

集したものを指す。学習者コーパスも学習レベルを統一するために単純均一な

タスクを学習者に課し横断的にサンプリングを行った General Learner Corpus

と、特定の目的に応じた多様なタスク・調査項目・学習者・サンプリングのデ

ザインを行い実証研究に生かそうとする Specific Learner Corpus がある(藤

田 1998)。

もっとも大規模なものはベルギーの Sylviane Granger 教授がコーディネー

ターを務める国際学習者英語コーパス (International Corpus of Learner

English, ICLE)であろう。現在、 Version2 の CD 付きハンドブックが発売され

ているが、これには日本を含む世界 16 か国の中上級レベル~上級レベル学習

者の 370 万語から成るライティングデータが収められている。その他、ロング

マン学習者コーパス(Longman Learners’ Corpus)は 1000 万語から成り、様々

な背景を持つ多様なレベルの学習者のデータを扱っている。日本では神戸大学

の石川慎一郎氏が構築したアジア圏英語学習者コーパス (CEEAUS、日本人と中国

人の英語学習者、英語母語話者の英語作文および日本語母語話者の日本語作文

から成る)や名古屋大学の杉浦正利氏による Nagoya Interlanguage Corpus of

English (NICE)などがある。日本語に関しては、OPI を利用した KY コーパスな

どがあるが、2013 年 8 月現在、東京外国語大学も E ラーニングを活用した日本

語学習者言語コーパスの作成および日本語学習者誤用コーパス作成を進めてい

る(http://cblle.tufs.ac.jp/llc/ja/index.php?menulang=ja)。

4.どのような研究がなされているのか

コーパスを用いた言語研究はコーパス言語学 (corpus linguistics)と呼ばれ、

「コンピュータで処理可能な電子コーパスを検索して言語分析・記述を行う言

語学一般」を指すとされる(齋藤他 2005:3)。言語研究には従来、理論言語学

の核を成すとされる音韻・形態・統語・意味のそれぞれの「論」があり、それ

とは別に社会言語学や歴史言語学などの名称が用いられてきた。それに対して

「コーパス言語学」という名称は比較的新しいもので、「コーパス」という言語

資料を名に冠するという点で従来の手法とは異なっており、パーソナル・コン

ピュータの普及・操作性や容量の向上といった背景も手伝って 1990 年代から

広まってきたものである(田野村 2010)。

4.1.コロケーション研究

ある語が現れる際に、その他の特定の語との結びつきがあると認められる場

合、言い換えれば語の現れ方に一定のパターンが認められる場合、そのパター

ンを「コロケーション」と言う(赤野 2006)。田野村(2009:22)はコロケーショ

ン研究は「言語の運用に関わる方面での応用的価値が期待される」としている。

これには、辞書の編纂、外国語教育ならびに学習、母国語の運用などの実用的

な分野での利用が含まれる。実際に、Lewis(2000)等の語彙中心の指導法では指

導項目の中でも中心的な役割を担っている(赤野 2006)。

国立情報学研究所はヤフー株式会社との契約に基づき 2004 年 4 月から 2005

年 10 月までに蓄積された「 Yahoo!知恵袋」のデータ質問約 311 万件・回答約

1,347 万件のデータを提供している。金城( 2011)では、この「Yahoo!知恵袋コ

ーパス第一弾」を利用し、「読みにくい」・「読みづらい」といった表現に現れる

「~にくい」と「~づらい」について調査を行い、(i)「~にくい」表現が「~

づらい」表現の約 5 倍多く用いられていること、 (ii)出現数に偏りがあるにも

かかわらず、存在動詞「居る」とのコロケーションでは「居づらい」が「居に

くい」を上回ること、(iii)従来の指摘に反して「~づらい」がコロケーション

として無意志動詞と結びつくケースがあることなどが明らかとなっている。

4.2.コーパス意味論

スタッブズ( 2006)に代表されるコーパスを用いた語彙意味論では、「意味は

使用である」という考え方をベースに、「語の意味は、それがいかに句の中に組

み込まれるか、それがいかに社会的状況の中で用いられるかによって決まる」

(2006:26)とし、「大規模な集成テクストから得られた観察データを主な証拠

として語や句の用法や意味を説明する」(2006:27)。

4.3.認知言語学研究

認知言語学の分野へのコーパス研究の応用として、アリス・ダイグナン (Alice

Daignan)のメタファー研究などがあげられる(ダイグナン 2010)。概念メタフ

ァー理論の先駆け的研究である Lakoff & Johnson(1980)ではメタファーが身体

的経験に基づき思考や知識を構成するものであり、それがイデオロギー的性格

を持つことなどが提唱されている。ダイグナンの研究では上述した The Bank

of English コーパスのうち、タグ付け・修正がされた 5600 万語を用いて、こ

れら概念メタファー理論の提唱する事柄がコーパスデータを通して実際に観察

できるかどうかを調査・検討している。

4.4.通時的研究(歴史言語学)

2010 年に公開された The Corpus of Historical American English(COHA)は

アメリカのブリガムヤング大学(Brigham Young University)で構築運営されて

いるものである。COHA は 1810 年代から 2000 年代までの過去 200 年のアメリカ

英語からなる 4 億 1 千万語の大規模コーパスであり、これによって英語の通時

的な変化を知ることが可能となる。柴崎( 2010)は COHA を用いて must need(s)

および must necessarily とその異形態( must nedes など)の使用状況を調査

し、これらの表現が 1830年代から 1840年代をピークに徐々に使用率が下がり、

1930 年代以降の頻度はかなり低く、現在ではほとんど用いられなくなっている

ことを明らかにしている。

一方、日本語においても国会会議録を用いた通時的研究がなされている。国

会会議録は 1947 年から現在までの 60 年余りの日本語の話し言葉の姿を捉えた

言語研究において貴重な資料である(話し言葉としての国会会議録の性格付け

に関しては松田( 2008)の議論を参照のこと)。田野村( 2008、2009)はこの国

会会議録を用いて、現在用いられている「十分な」・「個人的な」は過去におい

て「十分の」・「個人的の」という言い方がなされており、「の」から「な」への

移行が確認できること、「属しない>属さない」などの一字漢語複合サ変動詞の

活用の変化とゆれを詳細に追うことができ(五段化の率が高まっている)とし

ている。また、服部( 2007)は国会会議録データに基づき「全然」の用法を分

析し、遅くとも昭和 20 年代ごろまでに否定との共起の制約が強まるようにな

ったことを明らかにしている。

5.言語教育への応用

5.1.英語教育

梅咲(2011)はコーパス言語学と英語教育の関わりを表1のようにまとめて

いる。このうち、母語話者コーパスを利用した研究として上述したコーパスを

用いたコロケーション研究があるが、その核心は、「語はパターンを成す」とい

うことであった(赤野 2006)。Lewis(2000)等は語彙中心の指導法を提唱し、自

然で母語話者に近い表現を生み出すためには語に関するコロケーション能力

(collocational competence)が不可欠であるとする。コロケーションや文法パ

ターンは句表現 (phraseology)と呼ばれ、一定のフレーズが 1 つの単位として

意味を担い機能すると考える。コンピュータに例えるならば、文型や文法項目

といったハードウェアを持っていてもそれだけで文が成り立つわけではなく、

そこに単語というソフトウェアが必要となる。この 2 つが組み合わさってコン

ピュータが動くように、従来は文法・文型という枠組みを与え、その枠に組み

込むために、生徒・学生にできるだけたくさんの単語を覚えるよう指導がなさ

れてきた。だが、語にはそれぞれ共起しやすい仲間がおり、そういった仲間と

ともにフレーズとして語を習得させるようにする、そのような視点が必要なの

ではないかという提言がなされている。

母語話者コーパスを利用した言語研究については 4 章で既に述べた。非母語

話者(学習者)コーパスを利用した言語習得研究の代表的なものは誤用分析で

ある。International Corpus of Learner English のプロジェクトでは、11 の

異なる母語の英語学習者の作文データを収集し、エラー分析が行われている(藤

田 1998)。また、野地( 2008)は「彼は犬が好きだ」のような状態動詞での目的

格表示が初級 L2 英語において目的格ではなく主格表示になるエラーが起こる

のではないかとして発話コーパス (NICT JLE Corpus)を用いて調査を行ってい

る。この発話コーパスは全米外国語教育協会 (ACTFL)とアルク株式会社が開発し

た Standard Speaking Test の音声資料を書き起こしてタグ付けしたものであ

る。

表 1 コーパス言語学と英語教育との関わり(梅咲( 2011)より)

コーパスの間接利用としては、 OUP の Graded Reader シリーズや中高の教科

書をコーパス化し、コンコーダンスソフトを利用して目的とする語句をキーワ

ードとして KWIC (Key Words In Context)形式で出力し学習者に提示し、それ

によって帰納的学習が効果的であると考えられる文法項目・語法の帰能的・発

見的な学習を目指すという試みがあげられる。藤田(1998)は中学生に不定詞

母語話者コーパスを利用した言語研究

歴史言語学、社会言語学、語彙文法、ディスコース・音声音韻研究、第一言語習得

非母語話者(学習者)コーパスを利用した言語習得研究

第二言語習得(誤用分析)

間接利用教材・テスト作成、語彙リスト作成・教材評価

コーパス言語学教育目的

英語学習目的直接利用

コーパス自体の教育利用

コーパス分析による言語学的研究成果の英語教育への応用

の用法を整理させるために 400 語レベルの英語教材をコーパスにしてコンコー

ダンスソフトを利用した教材を作成し、帰能的学習を試みている。

コーパス自体の直接利用を教育に取り入れる試みとして、中條他( 2006)は

初級英語学習者を対象とした日英パラレルコーパスの利用を試み、 DDL(デー

タ駆動型学習)は CALLで対応できない部分をカバーでき、また「自分で調べて

理解する」方式の文法学習は英語の苦手意識の強い学習者の興味を引き出すこ

とがわかったとし、 remedial grammar(文法再学習)の指導方法として有効で

あるとしている。

また中島(2008)は、従来の短時間で効率的に学ばせる演繹的教授法が英語

を「暗記科目」として学習者に定着させてしまったのではないかとの反省から、

限られた時間内に Parole 的言語データから帰納的に言語システムや文法の仕

組みを抽象し自ら構築する疑似体験をさせるためにコーパス検索システムの活

用が有効ではないかと提唱している。さらに、石井(2010)では上級学習者向

け英英辞書の定義・用例データ約 900 万語を横断的に全文検索できるシステム

を開発し、教育目的での辞書利用の可能性について考察を加えている。

5.2.日本語教育

砂川(2010, 2011)は外国語教育においてはシラバスデザイン(何をどの順

序で教えるか)が重要であるとし、コーパスを利用した教育用の語彙表づくり

と文法シラバス評価を取り上げている。2010 年に改訂になった日本語能力試験

(2010 年度受験者数は国内外を含め 60 万人)では「場面に応じたコミュニケ

ーション能力」が能力評価の重要な指標となっているが、砂川は場面や話題に

即して語彙を分類し、さらに「各語彙の難易度や使用域を表示した語彙表が必

要」であるとする(砂川 2010:657)。この場面に応じた「コミュニケーション

能力」の育成は単に語彙を増やすということにとどまらない。小林( 2008)は

基本的な文法項目とは何かについて論じているが、我々の日常会話において頻

出の「い形容詞」では非過去肯定の用法が全体の 9 割以上を占め、否定形はほ

とんど用いられていないことが示されている。使用頻度が低いことをもって直

ちに文法シラバスで過去形や否定形を教えることを見直さなければならないと

いうことにはならないが、使用域に応じ、また学習者のニーズを考慮した文法

教育を改めて見直す契機になると考えられる。

日本人の日本語活用については林他(2008)の研究がある。近年理工系の大学

院では日本人学生の「誤字・脱字、主語と述語の不一致、文体の不統一、書き

言葉と話し言葉の混用、テニオハの間違い、同音異義語の誤用、修飾・被修飾

の関係の不明、語彙の不足」(2008:11-12、原文ママ)などが問題視され慶應

義塾大学や高知大学で「日本語技法」や「科学技術日本語」などの科目名で授

業が提供されているという。林他は大学院生が専門のディスコース・コミュニ

ティ(互いに専門用語を用いてコミュニケーションをする専門家集団)の一員

になるまでの過程に注目し、 3 人の博士課程進学者のプレゼンテーションの仕

方の変化について科学技術系に特徴的な内容・目的・形式をもった表現形式を

とりあげ、語彙・表現と論理性の面で進歩が見られていると報告している。

また、上述のコロケーションとの関連で言えば、「ただす」という動詞は「姿

勢」「元」「方針」などの名詞とともに多用されるという知識のほかに、「元をた

だす」という表現があり、これは「元をただせば」というバ形で用いられるの

が一般的であり、「私は昨日元をただしました」や「明日元をただしましょう」

といったふうには用いられないという用法上の知識も身に着ける必要があろう。

こういった気づかれにくいパターンなどは教師の直観や偶然の発見などに頼る

のではなく、コーパスに基づいた実証的なデータに裏打ちされた知識が必要と

なる(砂川 2010)。

橋本・河原( 2008)は「胸を打つ」や「足を洗う」など日本語慣用句の曖昧

性解消技術の確立にむけ慣用句コーパスの構築を進めている。英語の場合はコ

ーパスを活用した学習辞書の編纂がなされているが、日本語教育では日本語学

習者が利用できる類義語やコロケーション情報が盛り込まれた学習辞書はない。

今後の開発が望まれる。

6.分析の実際

6.1.日本語の分析

上述したように、オンライン上で既にあるコーパスデータを利用するケース

(「BYU-BNC」や「少納言」など)以外に、独自のデータを解析する場合には、

解析用のソフトウェアが必要となる。以下、日本語と英語いずれの言語にも対

応したソフトウェアを紹介し、実際の解析の進め方の手順を示す。読者も実際

に試してもらいたい。今回は立命館大学の樋口耕一氏が開発したテキストマイ

ニ ン グ 用 の フ リ ー ソ フ ト ウ ェ ア KH Coder を 用 い る 。 KH Coder は

http://khc.sourceforge.net/より入手可能。詳しい操作方法についてはこのサ

イトのチュートリアルやダウンロードの際に付属するマニュアルを参照のこと。

① 分析対象となるサンプルコーパスを作成する。

画面左隅のスタートメニュー→すべてのプログラム→アクセサリ→メモ帳と

進み、メモ帳に「兄が猫にえさをやった」と入力。これに test1と名称をつけて

保存する。(一般に用いられている Wordファイルを直接 KH Coderに読み込ませ

ることはできないため、テキストファイルの形式にしておく。データの量が大

きくなると上記のメモ帳では何かと不便になる。そこで、容量の大きいデータ

の場合は「さくらエディタ」などのこれもフリーで用いることのできるテキス

トエディタを用いるとよい。)

② KH Coderに対象ファイルを読み込ませる。

KH Coderを起動したら左上のプロジェクトをクリックし「新規」ボタンを押

す。新規プロジェクトのダイアログボックスが開いたら、「参照」ボタンを押

し、test1のファイルを選択し、 OKボタンを押す。

図1 KH Coderを立ち上げたところ

図2 新規プロジェクトの登録画面

③ 前処理の実行

現在のプロジェクトの部分に test1.txtと表示されているのを確認し、上部に

ある「前処理」から「分析対象ファイルのチェック」を選択し、クリックする。

「この処理には時間がかかる場合があります。続行してよろしいですか?」の

ダイアログボックスで OKを押す。再び「前処理」から今度は「語の取捨選択」

を選び、現れた品詞名が書いてあるボックスを下へたどり、「その他」にチェ

ックを入れる。 OKを押す。再度「前処理」から「前処理の実行」を選択し、 OK

を押す。

図3 前処理を実行した後の画面(総抽出語と異なり語数が示される)

④ 抽出語の確認

上部メニューの「ツール」から、抽出語→抽出語リストを選択すると、ダイ

アログボックスが開く。今回はそのまま OKを押す。すると、エクセルが立ち上

がり、分析対象となった文の解析結果が示される。

図4 「兄が猫にえさをやった」の解析結果(エクセル表示)

このように品詞ごとの語の出現頻度を示すこともできるし、頻出の上位 150語

を示すこともできる。また上記の例のように 1文だけではなく、大量の文を解析

し、KWIC(クイック)表示することもできる。次に示すのはあるデータにおけ

る「にくい」の KWIC表示例である:

図5 「にくい」の KWIC表示

このKWICコンコーダンスでは、一定の語(上記の場合は「にくい」)を中心に

揃え、左右の語を指定して頻度順に示した一覧を作成することもできる。

6.2.英語の分析

同じ KHCoderを用いて英語も分析できるようになった( 2011年 11月 26日更新

Ver. 2.beta.27)。以下でサンプル分析として 2008年当時上院議員だったオバ

マ氏が行った“A More Perfect Union”というスピーチを見てみよう。Yahooや

Googleなどの検索エンジンで Obama, race, speechという検索文字を入力し

Enterキーを押すと Obama Race Speech: Read the Full Textというサイトが

見つかる(2011年12月現在)。ここに掲載されている英文をコピーして、上記の

日本語の場合と同様にメモ帳に貼り付け任意のファイル名を付し、テキストフ

ァイルとして保存する(ここでは obama_race_speech.txtを作成した)。

日本語の手順と同様に、KHCoderを立ち上げ、出てきたウィンドウの左上にあ

る「プロジェクト」をクリックする。新規→分析対象ファイルと進み、「参照」

のボタンを利用して obama_race_speech.txtを選択し、「 OK」を押す。ここから

1つ日本語の場合とは異なる操作をする。同じ「プロジェクト」をクリックし、

設定を押すと、以下のようなウィンドウが現れる。

図6 設定の画面

ここでラジオボタンの 3つ目、Lemmatizationという項目を選択し「 OK」ボタン

を押して画面を閉じる。4番目のStemmingは動詞の -ing形や過去形を原形として

カウントするもので、Lemmatizationはより詳細な解析を行うという程度に理解

しておいてよいだろう(詳細は KHCoder付属のマニュアルを参照のこと)。

この画面を閉じ、最初に立ち上がったウィンドウに戻り、前処理をクリック

する。すると「分析ファイルのチェック」や「前処理の実行」などの項目がで

てくる。ここでは日本語のように「分析ファイルのチェック」が選択できない

ようになっている(この機能はもともと半角カタカナなどを検索し修正するた

めのものであり、英語では必要がないため)。「語の取捨選択」をクリックし、

現れたウィンドウの左側にある品詞を確認する。日本語よりもずっと品詞設定

が少ないことが確認できる。全ての語を検索するためにここでは「 OTHER」にも

チェックを入れ、「 OK」を押してウィンドウを閉じ、先ほどの「前処理の実行」

を行う。

結果、総抽出語数 5,472語、異なり語数 1,249語、文186、段落61といった情報

が現れる。頻出 150語を見るには、ツール→抽出語→抽出語リストと進み、現れ

たウィンドウで「頻出 150語」を選択するとExcelが立ち上がり、頻度順位表が

表示される。今回のスピーチは人種問題が主要テーマとなっている。では white

とblackという語の頻度はどうなっているであろうか。

表2 頻出上位15語

抽出語 出現回数be 161we 126have 69they 68not 59I 56that 39it 35black 34he 34who 34do 33my 31she 29white 27・・・ ・・・

be動詞やhaveなど、どのようなテクストでも頻出の語のほかに、代名詞では一

人称単数のIよりも複数の Weが2.5倍多く表れており、 blackがわずかだが white

の頻度を上回っていることがわかる。

また、たとえば whiteという語の前後のコンテクストを見るには KWIC表示を用

いる。ツール→抽出語→ KWICコンコーダンスと進み、表示されたウィンドウの

検索枠にwhiteと入力し Enterを押せば次のような KWIC画面が現れる。

この KWIC表示は検索語 whiteを中心に前後の文脈を一通り見渡せるようにな

っているが、さらに詳しくどのような語と共起しているかを見るには、右下に

ある集計ボタンを押し、コロケーション統計画面を表示させる。

図7 whiteのKWIC表示

図8 whiteのコロケーション統計(直近の右側の語の頻度順)

KH Coderは大変使い勝手のよいソフトウェアであるが、注意すべき点もある。

第一に言語分析用に開発されたソフトウェアではないため、ここで用いている

茶筌という形態素解析器が解析(形態素に分割)できない場合も生じる。話し

言葉などはエラーが起こりやすい。第二に、前処理の結果として総抽出語数や

異なり語数が表示されるが、上述のような問題点があるため、全体の語数を正

確に示すことが難しく、統計処理をする場合には注意が必要となる。第三に、

100MB程度の大容量のデータも解析することはできるが、非常に時間がかかるこ

と、また、用いるPC側に分析対象ファイルの 100倍程度の空き容量が必要となる

点などにも気を付けたほうがよい。大容量データの解析の場合は適切なサンプ

リングを行うとよいだろう。ここでは KH Coderを用いた分析方法を紹介したが、

分析方法はこれだけに限られるわけではない。これを端緒として各自が行いや

すい方法で分析を進めてもらいたい。

7.おわりに

セクション 6 で紹介した分析方法はコーパスを用いた分析のほんの一部でし

かない。語の頻度などを扱うにはやはり統計の基礎知識も必要となる。本格的

に複数のコーパスについてそれぞれ特定の語の頻度を調査しコーパスの特徴を

探るというような作業を視野に入れた研究をする場合には、石川慎一郎著『英

語コーパスと言語教育:データとしてのテクスト』(大修館書店)や齋藤俊雄・

中村純作・赤野一郎(編)『改訂新版 英語コーパス言語学 基礎と実践』と

いった本を読まれることをお勧めする。また、石川慎一郎・前田忠彦・山崎誠

(編)『言語研究のための統計入門』では主に日本語がとりあげられているが、

紹介されている分析手法(多変量解析を用いた分析)は大変参考になるため、

こちらも併せて読まれることを勧めたい。

参考文献

赤野一郎.2006.「英語コーパス言語学と英語教育」『日本語教育』130 号, 11-

21

石井康毅.2010.「学習者向け英英辞書データの教育目的コーパスとしての活用

可能性の考察」『東京理科大学紀要教養篇』 (43), 269-292

石川慎一郎.2008.『英語コーパスと言語教育:データとしてのテクスト』大修

館書店

石川慎一郎・前田忠彦・山崎誠(編). 2011.『言語研究のための統計入門』く

ろしお出版

梅咲敦子.2005.「コーパスとは何か」齋藤俊雄・中村純作・赤野一郎(編)『英

語コーパス言語学―基礎と実践―』(改訂新版)研究社, 21- 48

梅咲敦子.2011.「コーパス言語学の手法を英語教育に活かす (1)『辞書とコー

パスで自信をもって楽しく英語を使う』ための方策」 『言語と文化』 (14),

55-71

大曾美惠子. 2006.「日本語コーパスと日本語教育」『日本語教育』 130 号, 3-

10

金城克哉.2011.「コーパス分析に基づく『~にくい』・『~づらい』表現の研究」

琉球大学留学生センター『留学生教育』 (8),19-35

後藤斉.2003.「言語理論と言語資料-コーパスとコーパス以外のデータ」『日

本語学』第 22 巻 , 6-15

齋藤俊雄・中村純作・赤野一郎(編)『改訂新版 英語コーパス言語学 基礎

と実践』研究社

Shibasaki, Reijirou.2010.The Corpus of Historical American English

(COHA): A new tool for full-fledged studies of Late Modern English

(1810s-2000s). Southern Review (25), 11-27

スタッブズ,マイケル.南出康世・石川慎一郎(監訳)2006.『コーパス語彙意

味論』研究社

砂川有里子. 2009.「コーパスを活用した日本語教育研究」『人口知能学会誌』

24 巻 5 号, 656-664

砂川有里子. 2011.「日本語教育へのコーパスの活用に向けて」『日本語教育』

150 号, 4-18

ダイグナン,アリス.渡辺秀樹・大森文子・加野まきみ・小塚良孝(訳) 2010.

『コーパスを活用した認知言語学』大修館書店

田野村忠温.2008.「大規模な電子資料に見る現代日本語の動態」『待兼山論叢』

(文化動態論篇)( 42), 55-76

田野村忠温.2009.「コーパスからのコロケーション情報抽出―分析手法の検討

とコロケーションン辞典項目の試作―」『阪大日本語研究』(21), 21-41

田野村忠温.2010.「コーパスを用いた日本語研究の精密化と新しい研究領域・

手法の開発」『人口知能学会誌』 24 巻 5 号, 647-655

投野由紀夫. 2006.『コーパス超入門』小学館

中尾浩・赤瀬川史朗・宮川信悟.2002.『コーパス言語学の技法Ⅰ:テキスト処

理入門』夏目書房

中島浩二.2008.「正規表現を使った英語コーパス検索システムの開発と帰納的

言語教育の可能性」徳島大学『言語文化研究』 16, 151-163

中條清美・西垣知佳子・内山将夫・山崎淳史.2006.「初級英語学習者を対象と

したコーパス利用学習の試み」『日本大学生産工学部研究報告 . B, 文系』(39),

29-50

日本語教育学会(編)『日本語教育 特集:コーパスと日本語教育―現状と課題

―』130 号

野地美幸 2008.「L2 英語における目的格標示:日本人英語学習者の発話コーパ

ス研究」『上越教育大学研究紀要』 27, 173-180

橋本力・河原大輔.2008.「日本語慣用句コーパスの構築と慣用句曖昧性解消の

試み(語彙知識) 電子情報通信学会技術研究報告 . NLC, 『言語理解とコミュ

ニケーション』 108(141), 1-6

服部匡.2010.「『全く』と『全然』の使用傾向の変遷―国会会議録のデータよ

り―」『同志社女子大学 総合文化研究所紀要』第 27 巻, 162-167

林洋子・国吉ニルソン・野口ジュディ―・東條加寿子 2008.「若い研究者の言

語獲得(言語とコーパス ,思考と言語一般 )」『電子情報通信学会技術研究報告 .

TL, 思考と言語』 108(50), 11-16

藤田高弘 1998.「コーパスを応用した英語教育研究と英語学習 : 現状と可能性

の考察」『名古屋大学教育学部附属中高等学校紀要』 43, 169-174

真島知秀.2011.「日本語コーパス:概要から利用まで」沖縄県大学等日本語教

育研究会第 2 回研究会資料

松田謙次郎(編). 2008.『国会会議録を使った日本語研究』ひつじ書房

前川 喜久雄 「導入 コーパスとは何か」『国文学:解釈と鑑賞』 74(1), 6-14

Granger, Sylviane, Estelle Dagneaux, Fanny Meunier, Magali Paquot. 2009.

International Corpus of Learner English Version 2. Presses

Universitaires de Louvain

Lakoff, George and Mark Johnson 1980. Metaphors We Live By. Chicago:

University of Chicago Press

Lewis, Michael. (ed) 2000. Teaching Collocation: Further Developments

in the Lexical Approach. Hove: Language Teaching Publications

Corpus Linguistics:

An overview of itsapplication to language teaching and

Analytical procedures

Katsuya Kinjo

This paper, firstly, tries to show the overview of corpus linguistics, which

has been paid much attention in recent linguistic analysis. Definition of

corpus, the purpose of using corpus, and the kinds of corpus will be shown.

Also provided is the recent studies utilizing corpus as their database;

variety of fields such as collocation analysis, semantics, cognitive

linguistics, and historical linguistics are related to corpus studies. Second,

it will be discussed how these corpus studies are applied to la nguage

teaching, both teaching English and Japanese. Thirdly, it will be shown

how to analyze corpus data using a free software, KH Coder, which has

been developed by Dr. Koichi Higuchi at Ritsumeikan University.

注:これは既発表論文が査読により修正し掲載されるものである。