シソ改

~~ 『日本語大シソーラス』の全語彙検索EPWING化 ~~

更新履歴

1. はじめに

山口翼氏による『日本語大シソーラス』(大修館書店)は、約千個の意味のカテゴリから語彙を検索することを主目的として作られているようです。これは、跋語にある

ロジェズ・シソーラス三版の冒頭の言葉に辿り着く。
 「普通の辞書では言葉から始まりその正しい意味を見つけ出す。
 ロジェズ・シソーラスはまず意味から始まりその意味を最もふさわしい形で表現する語句を見つけ出す。」
これがシソーラスの定義と言ってよく、私の日本語シソーラスもそれを唯一の指針に作ってきたつもりである。

からも窺えます。

また「この辞典の使い方」には

索引の見出し語は31,700語なので、大抵の語句は見つかる。しかし、見つからない場合もある。その時は、意味の似た語句を思い出してもう一度索引にあたっていただきたい。

とあります。

しかし、私が欲しいのは意味からでなく、今頭に浮かんだ語から3万語の縛りもなく自在に類語検索できるシソーラスです(シソーラスと呼ばないのかも知れません)。CD-ROM版で条件検索か全文検索すればよいのですが、それでは他の国語辞典と串刺し検索になりません。特殊な辞書とはいえ、これは不便ではないでしょうか。

全語彙検索が出来るようなデータ変換を思い立ってから、最初のそれらしいEPWINGデータが出来るまでの作業は、ほんの3時間ほどでした。所詮、電子データの並び替えにすぎないので、ちょっとしたプログラムを書けば、変換そのものは数分の作業です。ですが、見えてくるものは全く異なります。各カテゴリの各行をそこに出てくる全ての語彙毎にコピーして並べ直したため、見出し語彙数は約22万、辞書データは元の10倍以上(176MB)に膨れあがりました。紙辞書では、例えば「全語彙索引付、10巻セットで10万円」は営業上あり得ないにしても、電子データなら「たったの」176MBでしかありません。

故・山岡洋一氏による「翻訳の道具 - 辞書をめぐる3つの話」の中に、日本語のシソーラスの話が出てきます。

だが、大きな不満がひとつ残っている。『類語大辞典』も『日本語大シソーラス』もロジェズに範をとった分類型の類語辞典だ。語を意味によって分類し、類語を並べていく方式である。
類語辞典にはこれ以外に非分類型のものがある。英語のシソーラスは非分類型の方が多いようだが、手元にある日本語の類語辞典のうち、非分類型は前述の『類語の辞典』だけだ。『類語の辞典』では、国語辞典と同じ順番に並んだ語にひとつずつ、類語が紹介されている。それも若干の語義がついて大量の類語が並んでいる。この方式の類語辞典で、反対語、関連語、連想される表現、諺、決まり文句などが入っているのもがあればと思う。

本サイトのデータ変換により、氏の書かれた理想にわずかでも近づいたのであれば、私には望外の喜びです。各語彙の意味まではさすがに掲載できませんが、EPWINGビューアー上で、他の国語辞典を検索することは出来ます。

シソーラスの原義は古典ギリシャ語のθησαυρός(「貯蔵室、宝庫、財宝」など - 『ギリシャ語辞典』)です。古典ラテン語ではthēsaurus「宝庫、宝(物)、財宝」など - 『古典ラテン語辞典』。ついでに書けばOED v.4.0.0.3 CD-ROMの語源欄では "L., a. Gr. θησαυρός a store, treasure, storehouse, treasury"。CD-ROM版と当サイトの全語彙検索版と、どちらが「言葉の宝庫」に見えるでしょうか。

なお、大きさでも検索方法でも、辞書がどういう形態であるべきかは利用目的によって全く異なり、一つの正解があるわけではありません。私にとって便利なものは他人にとって不便かも知れません(逆もあるでしょう)。安易な辞書批判は無意味ですし慎みたいものです。念のため。

2. 検索画面例

2.1 全語彙検索版の検索画面例

辞書前半に出てくる語句(●で始まる文例は除く)毎に、それが出てくるカテゴリの該当行の一覧が出ます。

こういう検索結果が欲しかった!という方には、当サイトの変換ツールをお薦めします。

改良版の画面例1

続いて「日本」の検索例の一部です。「日本晴れ」は辞書後半の索引に掲載されていないため、紙版では検索不可能(!)ですし、CD-ROM版では条件検索で「日本」ではなく「日本晴れ」で検索しなければなりません

これはおそらくLogoVista辞書ブラウザの仕様です。EPWING変換せずにEBWin(LogoVista辞書データもそのまま利用できます)で条件検索すると「日本」は73件見つかりますが(日本人離れ、日本一、日本三景・・・)、LogoVista辞書ブラウザでは1件しか見つかりません。条件検索が検索語の前方一致か完全一致かの違いです。どちらがよいかは利用目的によって変わります。当サイトの変換版では、前方一致と完全一致を切り替えて検索出来ます(逆に条件検索で検索できるものはありません)。

これを見るまで、「日本晴れ」に「胸がすく」の意味があるとは思いもしませんでした。『広辞苑』には「疑念などの全く晴れること」とありました。なるほど。

例文が広辞苑にも無かったので、青空文庫の全作品を一つのEPWINGにした青空WINGで(これも私が作りました)、「日本晴れ」を全文検索したところ、「胸がすく」の意味と思われる用例が数件ありました。
久生十蘭『顎十郎捕物帳 02 稲荷の使』に「庄兵衛老は、日本晴れの上機嫌で、自慢の鼻をうごめかし」など。

改良版の画面例2

各行の先頭に、「- カテゴリ名 行番号:」があり、カテゴリ名をクリックすると、そのカテゴリにジャンプします。行番号は、変換時に自動追加しました。ときに数十~数百行にもなるカテゴリがあるので、たとえ「検索語を強調表示」していていも、どこら辺にあるかが分からないと見つかるものも見つかりません。

改良版の画面例3

2.2 CD-ROM版の検索画面例

前方一致検索では、カテゴリ名の検索になります。語彙で類語検索をするには条件検索になります。

ぱっと見、なにか寂しい気がします。『日本語大シソーラス』は優れた語彙の集積なのに、そういう風には見えません。やはり、著者の「何を見せたいか」と私の「何を見たいか」で齟齬があるように思います。辞書の出版目的にそぐわない形での利用がうまく行かないのは仕方がありませんし、そのことを批判する気はありません(フェラーリに燃費が悪いと言うようなものでしょう)。

オリジナルの画面例

条件検索結果(画面左半分)は、その語が出てくるカテゴリ名で、それぞれクリックするとそのカテゴリが表示されます。これでは各カテゴリに出てきた用例を覚えるか書き留めるかしないと、検索した語の類語はわかりません(意味から言葉を検索するという目的ではこれで正しいのかも知れません)。私には、まず検索した語句(この例では「言葉」)にもっとも関連深い語句が(別に何度もクリックすることなく)ずらっと並んで欲しいのです。

オリジナルの画面例2

表示される内容は結局同じなのですが、一般的な辞書と同じように前方一致検索で、以下のような表示の方が私には便利だと思いました

改良版の画面例3

3. 変換に必要なもの

動作確認環境:Windows XP、Intel i5-2500 (3.3GHz)、2GBメモリ。EBDump 1.28, EBStudio 1.70b、EBWin 3.05

4. 変換方法

<概要>

  1. EBDumpで日本語大シソーラスのデータをテキストとして取り出す(約10秒)
  2. 全語彙検索EPWING化ツールで、そのテキストから辞書本体と全語彙索引のHTMLファイルを作成する(約20秒)
  3. EBStudioで、そのHTMLファイルをEPWINGに変換する(約1分)

4.1 準備

  1. EBDumpを日本語大シソーラスがインストール済みのWindows PCにインストールします。
  2. Javaをインストールします。スタート→すべてのプログラム→アクセサリ→コマンドプロンプト を開き、"java -version"を入力すると、javaのバージョン情報が表示されることを確認します。「java・・・認識されていません」と出たらjavaへのパスを通します
  3. EPWING化ツールを適当なところに解凍します。
  4. EBStudioをインストールします。

この変換のためにJavaをインストールされた方は、作業終了後にJavaをアンインストールすることをお薦めします。

4.2 テキストデータの取り出し

  1. EBDumpを起動します(スタート→全てのプログラム→EB series→EBDump)
  2. 「入力ファイル名」として、日本語大シソーラスの辞書ファイル名(デフォルトでは "C:\Program Files\LogoVista\LVEDBRSR\DIC\JSSAURUS\JSSAURUS.IDX")を設定します。
    [2016/03/27追記] JSSAURUS.IDXを選択してください。ほかのIDXファイルでは正しく動きません。
  3. 「書籍構成要素」の「[00] 本文」を選択します
  4. 「出力ブロック数」に、その上の blks の値を入力します(私の辞書データでは 6813 でした)
  5. 「テキストダンプ:記述子」を選択します
  6. 「メモ帳で開く」と「終了後に削除」のチェックを外します
  7. 「出力ファイル名」として、「EPWING化ツールを解凍したフォルダ\output.txt」を設定します
  8. 以上を確認の上、「テキストダンプ」をクリックします
  9. 10秒ほどで、出力ファイルに辞書本文の全テキストが出力されます。出来るファイルはやや大きいので、メモ帳などで開くと、開くまでに10秒以上かかることがあります。
EBDumpの出力設定

4.3 EPWING化ツールによるHTMLファイル作成

  1. コマンドプロンプトを開きます
  2. EPWING化ツールを解凍したフォルダに移動します
  3. makehtml.batを実行します。20秒ほどで、body.html, index.html が出来ます
    C:...>cd "EPWING化ツールを解凍したフォルダ"
    C:...>makehtml.bat
    creating "body.html"
    100 200 300 400 500 600 700 800 900 1000
    creating "index.html"
    loaded 27231 kanji-kana entries
    .........1
    .........1.........2.
    Done!

4.4 EBStudioによるEPWING化

  1. EBStudioを起動し(スタート→全てのプログラム→EB series→EBStudio)、EPWING化ツールにある thesaurusex.ebs を開きます
  2. 「基準ディレクトリ」を、EPWING化ツールを解凍したフォルダ(HTMLファイルの出来たディレクトリ)に設定します
  3. 「入力ファイル名」「出力先」を正しく設定します
  4. 【任意:EBStudioプロフェッショナルのみ】後方一致表記検索、後方一致かな検索、クロス検索をチェックすると、それらの検索も出来るようになります。
  5. 「ファイル→実行」でEPWING化します。変換は約1分で終わります。index.htmlが100MBほどあるため、ウイルスチェックが行われると EBStudio でファイルを読めずにエラーとなる事があります。そういう場合は、ウイルスチェックの完了を待つか、一時的にチェックを止めてください。

5. 全語彙検索版の検索について

5.1 ふりがな検索

変換して出来た全語彙検索版では、できるだけ ふりがな でも検索できるようにしています。ただし、ふりがな がない見出しもあるため、残念ながら完全ではありません。

紙辞書の後半の索引に掲載されている約3万語については、見出し全体の ふりがな が付いています(ひらがな・カタカナだけの数千語は除く)。これらの語彙は、漢字かな混じりの原表記でも、ふりがな でも検索できます。語彙検索したとき「言葉【ことば】」と表示されるような語(後半に【かな】が付いている見出し)がそれに当たります。

索引に掲載されていないおよそ18万語については、一部の漢字に ( ) でふりがなが付いていることがあります。しかし機械的に全ての漢字に正しくふりがなを割り当てることが出来ないため、実際には誤りとなることがあります。例えば「言葉費(つい)え」という見出しの かな は「ついえ」になります(「ことばついえ」では見つかりません)。「京詞(ことば)」も「京詞」「ことば」で見つかるものの「きょうことば」では見つかりません。「言葉に角(かど)がある」は、「言葉に角(かど)がある」「言葉に角がある」「言葉にかどがある」のいずれかで見つかります(「ことばにかどがある」では見つかりません)。

EBStudioのProfessional版を使うとクロス検索用の見出しを追加できます。ただしEBStudioの仕様上、登録されるのは、見出し語の中の、漢字・カタカナ・英数字だけで、ひらがな は登録されません。「猫に小判」という見出しに対するクロス検索見出しは「猫」と「小判」だけです。「猫に」「に小判」は登録されず、それで見つけることは出来ません。ただし後方一致検索(これもEBStudio Professional版のみ)では ひらがな も見出しに含まれるので、「に小判」の後方一致検索で、「犬に小判」「猫に小判」「猫に木天蓼(またたび)お女郎(じょろ)に小判」も見つかります。

どこにも ふりがな 情報のない見出しについては、残念ながら ふりがな 検索は出来ません。

どうしても ふりがな で検索したい見出しがある場合は、自動生成した index.html を手作業で修正して、見出し語を追加してから、EPWING化するしかありません。ただし、index.html は約100MB, 600万行ほどの巨大ファイルですので、編集には巨大ファイルに対応したエディタ(秀丸エディタなど)が必要です。以下のように修正すると、「ことばにかどがある」でも検索できるようになります。

    <dt>言葉に角(かど)がある</dt><key type="表記">言葉に角がある</key><key type="表記">言葉にかどがある</key><dd>・・・・
        ↓
    <dt>言葉に角(かど)がある</dt><key type="表記">言葉に角がある</key><key type="表記">言葉にかどがある</key><key type="かな">ことばにかどがある</key><dd>・・・・

5.2 メニュー検索

オリジナル版と同様、メニュー検索でカテゴリ名を検索できます。

前方一致検索では、例えば「0471 言葉」とカテゴリ番号を除いた「言葉」の両方で見つけられます。カテゴリ名に漢字の仮名が含まれている場合は、上記の ひらがな 検索と同じ扱いになります。

EBStudioで、入力ファイルを2つ指定していますが、先にindex.html(全語彙検索の見出し)、後にbody.html(辞書本体)としています。入力ファイルを選択して、Ctrlと↑か↓を押せば、順番を入れ替えられます。

5.3 その他

「~」で始まる語は、「~」なしでもありでも見つかるようにしました。例えば「~なので」「なので」のどちらでも検索できます。

語彙に「[論語]」のように引用元情報や語句の種別が付いている事があります。それらの語でも検索できるようにしました。辞書本体での出現回数が100回以上の語句については、見出し語の後に「出現回数: 168」などと表示します。多い順に、夏(2122回)、秋(1622)、冬(1605)、春(1505)、新(707)、医(500)、B[聖書](361)、部分(311)、陰(308)、枕詞(308)、論語(168)、古(111)でした。

連絡先

謝辞

素晴らしいシソーラスを出版してくださった山口翼氏と大修館書店のみなさまに深くお礼申し上げます。

EPWING関係のソフトを精力的に開発されているhishida様に深くお礼申し上げます。

著作権とライセンス

CD-ROM、全文テキスト、EPWINGデータの不正利用は厳に慎んでください。

EPWING化ツールは、大久保が作成したものです。これらはパブリックドメイン扱いとします。


お ま け



関連プロジェクト

私が行っているEPWING開発プロジェクトは、他にもあります。

(C) 大久保克彦, 2013