第1回「コーパスから有意義な情報を得るために必要なこと」| 公益財団法人日本台湾交流協会

更新日時

2006年 5月 19日作成

コンテンツ

去る5月6日、2006年度第1回日本語特別講演会を開催いたしました。今回は名古屋大学大学院教授・東呉大学客員教授の滝沢直宏氏を講師にお迎えし、「コーパスから有意義な情報を得るために必要なこと」というテーマでお話しいただきました。

日　時：2006年5月6日（土）15:00～18:00
参加者：台湾・日本の日本語教育関係者および大学院生　27名

　今回の講演会は、1.コーパスの概要、2.コーパスから情報を引き出すためのテキスト処理方法、3.コーパスを利用する際の注意点、という三部構成で進められました。

　まず、コーパスとは「電子化された大規模な言語の資料で、言語の記述や分析の便宜に供され（う）るもの」と定義した上で、現在公開されている様々なコーパスとそれぞれの特徴が紹介されました。

　次に、膨大なテキストデータであるコーパスから言語研究に必要な情報を引き出すためには、どのような操作が必要となるのかが説明されました。具体的には、テキストエディタを使い、「正規表現（資料p3参照）」を使った検索・置換を繰り返すことでデータを使いやすい形に整形し、有用なデータを抽出していく方法と、日本語形態素解析プログラム「茶筌」を用いたデータ処理の方法が、実演を通して紹介されました。データ処理に当たっては、対象となるテキストデータの特徴を把握した上で、単純な操作を積み重ねていくことが大切であることと、そのためにはある程度のコンピューターリテラシーを身につけておかなければならないことが述べられました。

　最後に、研究を進めていく際にコーパスだけに頼ってしまうことの危険性が指摘されました。コーパスは会話や新聞記事など実際に使われた言語を集めた資料であるため、誤用例を含んでいるなど、さまざまな問題や限界を内包していることが実例を挙げながら解説されました。そのため、使う人が言語研究上の知識と明確な方向性をもち、コーパスの特性をよく理解した上で適切に利用する必要があると強調されました。

　講演会終了後、参加者からは初心者には難しい印象のあるコーパスについて、理解を深めることができたといった声が寄せられました。

（講師の滝沢直宏先生）