いくやさんが「いくやの斬鉄日記」でコーパスを収集していたので、そのためにEtch向けAnthyをビルドしたときのメモ。ネット上に転がっている文章を統計的に処理して収集できれば、たくさんのコーパスを集められますが、著作権の問題が関ってくるので、実質的に使いものになりません。Anthyの変換効率を良くするには、コーパスをライセンス的に問題ない形で提供するユーザが増えないと、どうしようもないので、その一人として提供しています。Anthyの変換効率向上には期待もしていますし、個人的にもメリットがありますし。
lennyからetchに持ってきて作ったパッケージは、今のところ手元の環境では問題は起きていません。良ければどうぞ。
□ Anthyコーパス集めのためのパッケージ作成@Etch lennyからパッケージを借りてくることにする。 1.作業用ディレクトリの作成 $ mkdir work $ cd work 2.anthyのビルドに必要なパッケージの取得 # apt-get build-dep anthy その他の開発用のパッケージをインストール # apt-get install devscripts fakeroot 3.ソースコードの取得 # vi /etc/apt/sources.list etchとなっている箇所をlennyに変更。もしくは、全体をコメントアウトして deb-src http://cdn.debian.or.jp/debian/ lenny main を追加しても良い。 $ apt-get source anthy $ cd anthy-9100 4.バイナリパッケージの作成 $ dpkg-buildpackage -rfakeroot -us -b これで1つ上のディレクトリにdebパッケージが作成される。 5.Anthyパッケージのインストール $ cd .. # dpkg -i anthy_9100-3_i386.deb libanthy0_9100-3_i386.deb 6.apt-lineの書き戻し 3.の手順でlennyに変更した/etc/apt/sources.listを元に戻す。 □ 作成したパッケージ Debian Etch向けanthy 9100-3。 anthy-el_9100-3_all.deb /35KB (md5sum :f3640d7dea95a5b8dd7c5ff5100a382c) anthy_9100-3_i386.deb /3.3MB (md5sum :4034f601f2c6a58c8a6b5d5882f32f07) libanthy0_9100-3_i386.deb /160KB (md5sum :290dee0ef21c11a7f2d095e372f7b2aa) □ 参考URL いくやの斬鉄日記 - Anthyのコーパス収集のお願い http://blog.goo.ne.jp/ikunya/e/c6ca6bfc6c622c69d7cd3fbacb36cbaf 下の方にあるリンクの "追加その1"と"追加その2"も参照のこと。 Wikipedia - Text Corpus http://en.wikipedia.org/wiki/Text_corpus @IT - コトバのインフラ整備、著作権処理で法外なコスト 国立国語研究所が大規模コーパスを試験公開 http://www.atmarkit.co.jp/news/200705/28/kotonoha.html
なんか、ニュースを見ていたらどこかで見たようなパッケージを見かけましたよ。そう、食品偽装されていた比内地鶏のくんせい。このパックは以前に購入したことがありました。まあ、偽装していた点について、これ以上どうこう言うつもりはないんですが、それ以前にこいつはマズかった。鳥は好きなんですが、こいつはあっためてもダメで、少し食べ残してしまいましたねー。確かに言われるように、肉が硬かったし旨味が少なかったです。それとは反対に、写真に写っている隣のチキンは、かなりイケてて美味しいのに。
有名どころになってしまって、金が絡んだり"安定供給"しようとすると、やはり悪事に手を染めやすいですね。全検査なんて考えず、検査機関がランダムな抜き打ちで検査して、実社名で客観データを公開すれば、効果ありそうな気がするんだけど。どうも、日本では食文化を守ろうとする仕組みが弱いらしい。
毎日 - 比内地鶏偽装:秋田・大館の加工会社、10年前から使わず http://mainichi.jp/select/jiken/news/20071021k0000m040070000c.html 毎日 - 比内鶏偽装:30年前から商品12種で 会社が会見 秋田 http://mainichi.jp/select/wadai/news/20071023k0000m040109000c.html 左が、問題の偽装チキンと思われるくんせい。反対に、右はかなり美味しいチキン。