トップ «前の日記(2007-10-19) 最新 次の日記(2007-10-26)» 編集

ORCA愉快日記

2004|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|10|11|12|
2012|01|02|09|
2013|04|

2007-10-23 Anthyのコーパス収集に協力&Etch向けパッケージのビルド

_ [Linux] Anthyのコーパス収集に協力&Etch向けパッケージのビルド

いくやさんが「いくやの斬鉄日記」でコーパスを収集していたので、そのためにEtch向けAnthyをビルドしたときのメモ。ネット上に転がっている文章を統計的に処理して収集できれば、たくさんのコーパスを集められますが、著作権の問題が関ってくるので、実質的に使いものになりません。Anthyの変換効率を良くするには、コーパスをライセンス的に問題ない形で提供するユーザが増えないと、どうしようもないので、その一人として提供しています。Anthyの変換効率向上には期待もしていますし、個人的にもメリットがありますし。

lennyからetchに持ってきて作ったパッケージは、今のところ手元の環境では問題は起きていません。良ければどうぞ。

□ Anthyコーパス集めのためのパッケージ作成@Etch
  
lennyからパッケージを借りてくることにする。
  
1.作業用ディレクトリの作成
$ mkdir work
$ cd work
  
2.anthyのビルドに必要なパッケージの取得
# apt-get build-dep anthy
その他の開発用のパッケージをインストール
# apt-get install devscripts fakeroot
  
3.ソースコードの取得
# vi /etc/apt/sources.list
  
etchとなっている箇所をlennyに変更。もしくは、全体をコメントアウトして
deb-src http://cdn.debian.or.jp/debian/ lenny main
を追加しても良い。
  
$ apt-get source anthy
$ cd anthy-9100
  
4.バイナリパッケージの作成
$ dpkg-buildpackage -rfakeroot -us -b
これで1つ上のディレクトリにdebパッケージが作成される。
  
5.Anthyパッケージのインストール
$ cd ..
# dpkg -i anthy_9100-3_i386.deb libanthy0_9100-3_i386.deb
  
6.apt-lineの書き戻し
3.の手順でlennyに変更した/etc/apt/sources.listを元に戻す。
  
□ 作成したパッケージ
Debian Etch向けanthy 9100-3。 
anthy-el_9100-3_all.deb     /35KB  (md5sum :f3640d7dea95a5b8dd7c5ff5100a382c)
anthy_9100-3_i386.deb     /3.3MB  (md5sum :4034f601f2c6a58c8a6b5d5882f32f07)
libanthy0_9100-3_i386.deb   /160KB  (md5sum :290dee0ef21c11a7f2d095e372f7b2aa)
   
□ 参考URL
いくやの斬鉄日記 - Anthyのコーパス収集のお願い 
http://blog.goo.ne.jp/ikunya/e/c6ca6bfc6c622c69d7cd3fbacb36cbaf
下の方にあるリンクの "追加その1"と"追加その2"も参照のこと。
  
Wikipedia - Text Corpus
http://en.wikipedia.org/wiki/Text_corpus
@IT - コトバのインフラ整備、著作権処理で法外なコスト  国立国語研究所が大規模コーパスを試験公開
http://www.atmarkit.co.jp/news/200705/28/kotonoha.html

_ [ネタ] チキン偽装以前の問題

なんか、ニュースを見ていたらどこかで見たようなパッケージを見かけましたよ。そう、食品偽装されていた比内地鶏のくんせい。このパックは以前に購入したことがありました。まあ、偽装していた点について、これ以上どうこう言うつもりはないんですが、それ以前にこいつはマズかった。鳥は好きなんですが、こいつはあっためてもダメで、少し食べ残してしまいましたねー。確かに言われるように、肉が硬かったし旨味が少なかったです。それとは反対に、写真に写っている隣のチキンは、かなりイケてて美味しいのに。

有名どころになってしまって、金が絡んだり"安定供給"しようとすると、やはり悪事に手を染めやすいですね。全検査なんて考えず、検査機関がランダムな抜き打ちで検査して、実社名で客観データを公開すれば、効果ありそうな気がするんだけど。どうも、日本では食文化を守ろうとする仕組みが弱いらしい。

毎日 - 比内地鶏偽装:秋田・大館の加工会社、10年前から使わず
http://mainichi.jp/select/jiken/news/20071021k0000m040070000c.html
毎日 - 比内鶏偽装:30年前から商品12種で 会社が会見 秋田
http://mainichi.jp/select/wadai/news/20071023k0000m040109000c.html
  
左が、問題の偽装チキンと思われるくんせい。反対に、右はかなり美味しいチキン。


トップ «前の日記(2007-10-19) 最新 次の日記(2007-10-26)» 編集