かんなメモ

Tips

ローマ字かな変換

ローマ字かな変換定義ファイル

ローマ字かな変換のルールを記述したソースファイルは*.kpdefで, これを 専用プログラム(mkromdic)でバイナリ変換して*.kpを作成して使用していたが, 最新バージョン(3.5beta)ではソースファイル*.ctdから バイナリの*.cbp を作成するように変更されている(mkromdic *.kpdefとすると*.cbpが作成されてしまう).

これはWindows版のCannaと互換性をとるための変更らしい (といいつつ,Windows版でなんでこんな仕様になっているのかしらないんだけども).

記号がはさまった単語のローマ字かな変換

ローマ字かな変換する際に長音は正しく変換されてほしいので,半角ハイフン(-)は長音(ー)に変換するように定義しておく. ハイフンのほかにもスラッシュ(/)が中黒(・)に変換されるように定義することもあるだろう. しかし,このように定義してしまうと“CD-ROM”のような間に記号がはさまった単語 を入力した場合に“CDーROM”のように期待されない結果になってしまう.

これを防ぐために変換定義ファイルに“D-”をそのまま“D-”にするように定義をつけくわえておく. かんなはデフォルトでは大文字アルファベットはそのままになるので, これだけでCD-ROMがAS-ISで入力されるようになる.

リセット --- canna-reset

Emacsでcannaを使用中に.cannaやローマ字かな変換テーブルに変更を施して, その変更をすぐに反映したい場合,canna-resetコマンドを使えばよい.

慣用句

きゅうきょ
「急遽」の遽は常用漢字ではないため,通常「急きょ」のようにひらいておくが, ひらがなの表記では読みにくい場合もあると思われるので,登録しておい た.
辞書では遽のしんにゅう(しんにょう[之・繞])の点は2個になっているが, 点の数は1個でも2個でも同じ漢字のようだ(パソコンではフォントの関係で変化する).
こく
国語辞典で調べると, 「こく [名詞](1)濃い味わい.「こくのある酒」 (2)深みのある内容.「こくのある話」」となっていて,ひらがなで表記されるように書いてある. しかし,現実には(読みやすさを優先して)カタカナでコクと表記されることが多いように思われるので, カタカナとひらがなの両方を登録しておいた.
しんにゅう・しんにょう
「しんにゅう」「しんにょう」(之・繞)はどちらも同じ意味だが, 「しんにょう」という単語は1つだが,「しんにゅう」のほうは「侵入」など たくさんの候補がありこれを優先したいので,登録は「しんにょう」の方にしておいた.
しんぶんし
「新聞紙」が標準辞書には登録されていなくて登録したのはいいのだけど, 「雑誌」や「週刊誌」などは「誌」なのに,新聞だけ「紙」なのはどうしてだろう. 辞書を調べてみても「新聞紙」で間違っていないようだし….
新聞紙 [名詞] (1)新聞 (2)新聞を印刷した紙
すりよる
すりよる [擦(り)寄る] [自動詞5段活用] (1)すりひざで近寄る. (2)いざりよる.
「すりよる」「すり寄る」「擦り寄る」「擦寄る」の4種類を登録しておいた.
たかねのはな
国語辞典で調べると「高根の花」が正しく,「高嶺」は宛て字らしい. かんな の標準辞書には高根の花の方だけが登録されていたが,高嶺の花という表記も一般的に使われているので登録しておいた.
ちょうこうぜつ
国語辞典によれば,「長広舌」が正しく,「長口舌」は明確に誤りであるため, 長口舌は登録しないことにした. かんなの標準辞書には長広舌が登録されてい る.
つど
国語辞典によれば,「つど [都度] [名詞]そのたびごと.毎回『そのつど注意する』」となっていて, 名詞扱いである.しかし,実際には辞書の例にあるように「そのつど(その都度)」という表現でしか使われていないような気がする. 「つど」だけが独立して使われる可能性は低いと思われるので,「そのつど」と「その都度」の2種類を普通名詞として登録しておいた.
ゆうぎ
遊技はパチンコやビリヤードのような上手・下手・勝ち・負けをきそう遊びのことで, 遊戯は幼稚園で行うような運動と楽しみをかねた遊びのことらしい. パチンコは「遊技場」で行い,幼稚園児は「遊戯室」で遊ぶということ.
ある
「指摘がある」のような「ある」はラ行5段活用の自動詞である. 動詞の活用 形を調べるために「〜ない」をつけてみるとき,「指摘があらない」はおかしいような気がするのだが, 国語辞典によるとこの表現は文法的には正しいようだ.
実生活では「指摘がある」の否定表現は「指摘は『ない』」のようになるはずで, 「あらない」という表現を使う機会がないわけだが,文法的には「あらない」で正解である. (そういわれてみれば,文語では“さにあらん”みたいなことをいうなぁ)
したがって,かんなの辞書に登録する際には「ある」のつく単語は全てラ行5段活用(#R5)に分類する.
する
かんなの品詞分類には「サ変活用動詞」(#SX)があるのに,canna.elcanna-touroku{,-region}ではサ変活用の動詞をうまく登録することができない (質問に適切に答えても間違った登録が行われてしまう).
例えば「敵にする」は「適にする」のように変換されたくないので,登録したくなる. そこでcanna.elcanna-touroku{,-region}を使って「動詞」として登録しようとすると, まず「敵にすらない は正しいですか?」と質問される. これは当然正しくないのでNoと答えると,登録はされるものの, 「適にす」という古典のような表現しか通さない (「てきにする」を変換すると,あいかわ らず「敵に / する」と2文節に分けられてしまう). 仕方がないので対策として, と書いたテキストファイルを用意して,addwordsコマンドを使って次のように登録を行う (登録したい単語を書いたテキストファイルの名前をword.txt,登録するユーザー辞書の名前をuserとする). かんなを利用していてユーザー辞書に登録したくなる単語のほとんどは名詞(およびその類)なのだが, 上記のような方法でしかうまく登録されない動詞や連体詞に分類される語もときどき出てきて,けっこうわずらわしい.
この,その…
「この」「その」のような指示代名詞が付加された名詞も登録しておいた方がよい場合が多い. 例えば,かんなの標準辞書を使って「このはなし」を変換しようとすると (もちろん「この話」となることを期待しているのだが), 標準辞書に「此花」(このはな)という人名が登録されているため,「此花氏」と誤変換されてしまい, いちいち文節を区切りなおさなければならなくなる. ほかにも「このような」が「個のような」や「子のような」のように誤変換されてしまうなど, このような現象は非常に頻繁に見られる. これはおそらく,かんな の変換規則が最長一致を優先しているためだと考えられ,「この」「その」と いった非常に短い単語が正しく変換される確率は極めて低い.
この対策として,たとえば「この話」のようによく使われる表現を一括して登録しておくとよい.

NEC EWS4800の かんな標準辞書・付属辞書

beta hatai$ ls -l /usr/lib/canna/dic/canna
総ブロック数 3998
-rw-rw-r--   1 bin      bin         6491  9月  8日   1995年 bushu.fq
-r--r--r--   1 bin      bin          333  4月 27日   1995年 dics.dir
-rw-rw-r--   1 bin      bin        35271  9月  8日   1995年 fuzokugo.d
-rw-rw-r--   1 bin      bin           17  9月  8日   1995年 hojomwd.t
-rw-rw-r--   1 bin      bin         1314  1月  8日 16時30分 hojoswd.t
-rw-rw-r--   1 bin      bin      1923826  9月  8日   1995年 iroha.d
-rw-rw-r--   1 bin      bin        64101  1月  8日 18時10分 iroha.fq
-rw-rw-r--   1 bin      bin         1888  9月  8日   1995年 yuubin.fq

Canna35b2のドキュメント類


Takashi HATAI
Jan. 01, 1999