もはある日記

岡山県の西端で、英日翻訳をしています。ここに「も」ステキなもの「は」いっぱい「ある」よ!

読書:『ベーシックコーパス言語学』

翻訳に関係するセミナーやニュースで、「コーパス」という言葉に遭遇することがよくあります。

 

機械翻訳には対訳コーパスが~」とか、「コーパスを使って、使用頻度の高い表現を調べる」とか、「この辞書はコーパスを活用して編纂された」とか。

 

頻繁に耳にするものの、そういえば詳しくは知らなかったので、この機会に『ベーシックコーパス言語学』を読むことにしました。

本書は、大学でコーパスを使って言語学研究をする学生のための教科書として使えるよう、前半でコーパスの定義と作成/検索方法、後半でコーパスを使った研究の実例までをカバーしています。

読むために必要な前提知識はありません。研究で活用するにはプログラミングの知識や統計の知識が必要になるでしょうが、コーパスについて理解を深めるだけであれば、いきなり読み始めて OK です。前半に当たる「第 1 部 コーパス研究の基礎」を読めば、どんなコーパスがあるかや、コーパス内の検索方法のヒントなどを知ることができます。

 

読み進めていて面白かったのは、コーパスと翻訳 (特に CAT ツールを使った翻訳) との関係がかなり深いと分かったことです。

 

まず、コーパスの定義を見てみます。

(1) 書き言葉や話し言葉などの現実の言語を、(2) 大規模に、(3) 基準に沿って網羅的・代表的に収集し、(4) コンピュータ上で処理できるデータとして保存し、(5) 言語研究にしようするもの (本書 13 ページ)

これを踏まえると、CAT ツールで使用する TM (Translation Memory) は、おそらく研究に使われることはないですが、規模の大きい言語データベースという意味でコーパスであると言えます (なお、原文と対訳を収録したものを「2 言語コーパス」や「パラレルコーパス」と呼びます)。

 

次に、コーパスの検索方法について。

コーパス言語学では、コーパスを縦横に検索して分析することが研究の中心となります。その検索に使われるのがコンコーダンサと呼ばれるソフトウェアです。

CAT ツールには、「コンコーダンス検索 (Concordance Search)」という機能があります (「訳語検索」とか、単に「検索」という名前の場合もあります) が、この名称はコーパスに関連していたのですね。

一般的な (ブラウザーワープロソフトなどの) 「検索」と CAT ツールの「コンコーダンス検索」の違いは、前者は  1 つのページやファイルを対象にして検索語に一致したところをハイライトするものですが、後者は複数の言語データベース (コーパス) を対象にして検索語を含むレコードを抜き出して一覧にするという点です。

 

このコンコーダンス検索は、専用のソフトウェアを使う以外にも、汎用的なソフトウェアで行うこともできます。

本書で紹介されているソフトウェアの 1 つが秀丸です。業務で使っている翻訳者さん、けっこういますよね?

秀丸の「grep 検索」という機能を使うと、複数のファイルから検索語を含む行を抜き出して一覧にすることができます。

顧客から用語集として製品別に複数の Excel ファイルが提供された場合に grep 検索を使うと複数のファイルを一度に検索できて便利なので、私はよく活用しています (※grep 検索できるのはテキストファイルのみなので、前準備として csv ファイルに変換しておく必要があります)。

この 10 年ほど grep とはどんな意味なのかと思っていたのですが、global regular expression print の略なんだとか。初めて知った~。

 

最後に、辞書に関する驚き?を。

英日/日英翻訳をしている人なら使っているであろう  COBUILD (コウビルド) 英英辞典。Collins Birmingham University International Language Database を略したもので、コーパスを使用した初めての辞典だそうです。辞典のタイトルにそのまんま Database って入ってるじゃん~~~!