トップ «前の日記(2005-02-16) 最新 次の日記(2005-02-18)» 編集

ORCA愉快日記

2004|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|10|11|12|
2012|01|02|09|
2013|04|

2005-02-17 canna辞書メモ

_ canna辞書メモ

普段.cannaファイルに追加しているけど、その辞書そのものがどういう語彙を含んでいて語彙数がいくらかというのについてまでは気にしていなかったので調査。そのときのメモ。

cannaの辞書の調査 @ Debian
 
辞書ファイルは
テキスト形式辞書   *.ctd  (*.tなどもあり)
バイナリ形式辞書   *.cbd
バイナリ形式辞書   *.cld (学習頻度ファイル)
がある。
  
テキスト辞書 → バイナリ辞書への変換には mkbindic を使用
バイナリ辞書 → テキスト辞書への変換には dpbindic を使用
(詳細はman mkbindic, man dpbindicを参照のこと)
  
Debianの場合、Cannaのシステム辞書は /var/lib/canna/dic/canna にある。
  
作業用ディレクトリにコピーしてバイナリ辞書をテキストに変換。
$ dpbindic pub.cbd pub.mwd > pub.mwd
のように指定。
各辞書ファイルの語彙数
$ wc -l *.mwd
4278basho.mwd
80275canadamed.mwd
1fuzokugo.mwd
86127gcanna.mwd
1gcannaf.mwd
2884henkaku.mwd
26976iroha.mwd
1008keisan.mwd
3889medinst.mwd
11659medx.mwd
318oldchar.mwd
104010pub.mwd
27534scien.mwd
17676sup.mwd
138433yubin7.mwd
505069total
各辞書の内容
  
$ head -3 *.mwd
==> basho.mwd <==
あいお #CN 秋穂
あいおい #CN 相生
あいかわ #CN 合川 #JCN 愛川 相川
  
==> canadamed.mwd <==
あーかいぶ #T30 アーカイブ
あーきてくちゃー #T35 アーキテクチャー
あーくこうげん #T35 アーク光源
  
==> gcanna.mwd <==
ー #KJ ー −
「 #KJ 「 『 〈 《 【
「」 #KJ 「」 『』 【】 〈〉 《》
  
==> henkaku.mwd <==
あいて #KX 厭いて 開いて 空いて 飽いて 明いて
あいてき #kxi 厭いて来 開いて来 空いて来 飽いて来 明いて来
あいてくる #kxuru 厭いて来る 開いて来る 空いて来る 飽いて来る 明いて来る
  
==> iroha.mwd <==
ー #SUC ー
あ #aru あ #W5 会 #CJ あ #K5r 空 #PRE 亜 #W5 合 #aru 有 #M5 編 #W5 あ #KJ 阿 #W5 逢 #aru 在 #KJ 唖 #W5 遭 #KJ 亜 娃 #K5r 開 #KJ 吾 #K5r あ 飽 明
あーかいば #T35 アーカイバ
  
==> keisan.mwd <==
あーかいば #T35 アーカイバ
あーかいぶ #T30 アーカイブ
あーきてくちゃ #T35 アーキテクチャ
  
==> medinst.mwd <==
あいおいしいしかい #KK 相生市医師会
あいかわほけんじょ #KK 相川保健所
あいざわひふかくりにっく #KK 相澤皮フ科クリニック
  
==> medx.mwd <==
( #KJ [ ( ( 〔 [ { 〈 《 「 『 【
) #KJ ] ) ) 〕 ] } 〉 》 」 』 】
、 #KJ , .
  
==> oldchar.mwd <==
あくせい #T15 惡性
あくせいど #T35 惡性度
あた #R5r 當
  
==> pub.mwd <==
! #T35 ! 感嘆符
!! #T35 !!
!= #T35 ≠
  
==> scien.mwd <==
あーかいぶ #T30 アーカイブ
あーく #T35 アーク
あーくこうげん #T35 アーク光源
  
==> sup.mwd <==
あーかいう゛ #T30 アーカイヴ
あーかんそー #CN アーカンソー
あーけーど #T35 アーケード
  
==> yubin7.mwd <==
0010000 #CN 北海道札幌市北区以下に掲載がない場合
0010010 #CN 北海道札幌市北区北十条西(1〜4丁目)
0010011 #CN 北海道札幌市北区北十一条西(1〜4丁目)

_ rosegardenなかなかよさげ

音楽/DTMシーケンサのrosegardenがKDEベースになってなかなかよさげ。woodyやsargeに現行で入っているUIはかなり使いにくくてアレだった..。Linuxで動画/音楽というのもだいぶ敷居が下がってきて良いなあ。

Rosegarden (音楽/DTMシーケンサ)
http://rosegardenmusic.com/

_ 朝からだめスギ

間違えてファイルを上書きしてしまうわ、SLを走らせてしまうわ、さんざん。今もし鯖管の作業やったら素敵なことになるだろうなあ(愚

_ canna辞書の読み込み

なんで医学辞書の二重読み込みの設定にしているんだろ? (「4) canna辞書の登録」のとこ)
なにか依存関係でもあるとか、ロードに失敗しても2度目で大丈夫というフェールセーフなんだろうか。教えて、エラい人。

_ あらら

最近読み飛ばしていたd-uを読んでみたら、あまりのアレさにツッコミまくり。初心者なのはともかくとして、自分で調べる態度から始めないとねぇ。


トップ «前の日記(2005-02-16) 最新 次の日記(2005-02-18)» 編集