普段.cannaファイルに追加しているけど、その辞書そのものがどういう語彙を含んでいて語彙数がいくらかというのについてまでは気にしていなかったので調査。そのときのメモ。
cannaの辞書の調査 @ Debian 辞書ファイルは テキスト形式辞書 *.ctd (*.tなどもあり) バイナリ形式辞書 *.cbd バイナリ形式辞書 *.cld (学習頻度ファイル) がある。 テキスト辞書 → バイナリ辞書への変換には mkbindic を使用 バイナリ辞書 → テキスト辞書への変換には dpbindic を使用 (詳細はman mkbindic, man dpbindicを参照のこと) Debianの場合、Cannaのシステム辞書は /var/lib/canna/dic/canna にある。 作業用ディレクトリにコピーしてバイナリ辞書をテキストに変換。 $ dpbindic pub.cbd pub.mwd > pub.mwd のように指定。
各辞書ファイルの語彙数 $ wc -l *.mwd
4278 | basho.mwd | 80275 | canadamed.mwd | 1 | fuzokugo.mwd | 86127 | gcanna.mwd | 1 | gcannaf.mwd | 2884 | henkaku.mwd | 26976 | iroha.mwd | 1008 | keisan.mwd | 3889 | medinst.mwd | 11659 | medx.mwd | 318 | oldchar.mwd | 104010 | pub.mwd | 27534 | scien.mwd | 17676 | sup.mwd | 138433 | yubin7.mwd | 505069 | total |
各辞書の内容 $ head -3 *.mwd ==> basho.mwd <== あいお #CN 秋穂 あいおい #CN 相生 あいかわ #CN 合川 #JCN 愛川 相川 ==> canadamed.mwd <== あーかいぶ #T30 アーカイブ あーきてくちゃー #T35 アーキテクチャー あーくこうげん #T35 アーク光源 ==> gcanna.mwd <== ー #KJ ー − 「 #KJ 「 『 〈 《 【 「」 #KJ 「」 『』 【】 〈〉 《》 ==> henkaku.mwd <== あいて #KX 厭いて 開いて 空いて 飽いて 明いて あいてき #kxi 厭いて来 開いて来 空いて来 飽いて来 明いて来 あいてくる #kxuru 厭いて来る 開いて来る 空いて来る 飽いて来る 明いて来る ==> iroha.mwd <== ー #SUC ー あ #aru あ #W5 会 #CJ あ #K5r 空 #PRE 亜 #W5 合 #aru 有 #M5 編 #W5 あ #KJ 阿 #W5 逢 #aru 在 #KJ 唖 #W5 遭 #KJ 亜 娃 #K5r 開 #KJ 吾 #K5r あ 飽 明 あーかいば #T35 アーカイバ ==> keisan.mwd <== あーかいば #T35 アーカイバ あーかいぶ #T30 アーカイブ あーきてくちゃ #T35 アーキテクチャ ==> medinst.mwd <== あいおいしいしかい #KK 相生市医師会 あいかわほけんじょ #KK 相川保健所 あいざわひふかくりにっく #KK 相澤皮フ科クリニック ==> medx.mwd <== ( #KJ [ ( ( 〔 [ { 〈 《 「 『 【 ) #KJ ] ) ) 〕 ] } 〉 》 」 』 】 、 #KJ , . ==> oldchar.mwd <== あくせい #T15 惡性 あくせいど #T35 惡性度 あた #R5r 當 ==> pub.mwd <== ! #T35 ! 感嘆符 !! #T35 !! != #T35 ≠ ==> scien.mwd <== あーかいぶ #T30 アーカイブ あーく #T35 アーク あーくこうげん #T35 アーク光源 ==> sup.mwd <== あーかいう゛ #T30 アーカイヴ あーかんそー #CN アーカンソー あーけーど #T35 アーケード ==> yubin7.mwd <== 0010000 #CN 北海道札幌市北区以下に掲載がない場合 0010010 #CN 北海道札幌市北区北十条西(1〜4丁目) 0010011 #CN 北海道札幌市北区北十一条西(1〜4丁目)
音楽/DTMシーケンサのrosegardenがKDEベースになってなかなかよさげ。woodyやsargeに現行で入っているUIはかなり使いにくくてアレだった..。Linuxで動画/音楽というのもだいぶ敷居が下がってきて良いなあ。
Rosegarden (音楽/DTMシーケンサ) http://rosegardenmusic.com/
間違えてファイルを上書きしてしまうわ、SLを走らせてしまうわ、さんざん。今もし鯖管の作業やったら素敵なことになるだろうなあ(愚
なんで医学辞書の二重読み込みの設定にしているんだろ? (「4) canna辞書の登録」のとこ)
なにか依存関係でもあるとか、ロードに失敗しても2度目で大丈夫というフェールセーフなんだろうか。教えて、エラい人。
最近読み飛ばしていたd-uを読んでみたら、あまりのアレさにツッコミまくり。初心者なのはともかくとして、自分で調べる態度から始めないとねぇ。