UNIX に出る英単語の履歴

最新: Build No.72 at Thu Nov 25 00:36:53 JST 2010

Build No.70 at Tue Mar 9 10:59:41 JST 2004

Build No.65 at Fri Sep 6 22:30:30 2002

Build No.54 at Fri Aug 30 10:18:59 2002

Build No.28 at Wed Aug 1 10:20:39 JST 2001

Build No.26 at Sun Jun 3 22:10:37 JST 2001

Build No.3 at 23 May 2001

最初の版を作ってSRA社内の人に見てもらう。

構想段階

1998年頃
2時間ほどの quick hack で、man pages の単語の出現頻度リストを作ってみた。 当初、せいぜい半日も作業すれば満足するものができるだろうと思っていた。 ところが、名詞の単数形複数形・活用した動詞・形容詞の比較級最上級などが 別々の項目として数えられてしまうのが気に入らず、放り投げてしまう。
2000年春
辞書検索に使われる stemming という技術を笠原基之君に教わる。 これは、hackers → hacker のように、 変化した語から、変化しない語幹部分を取りだす操作である。 一瞬これは頻度リストの作成に使えるかと思えたが、 例えば specified → specifi となってしまうために応用をあきらめる。
2001年春
英語の corpus を漁っているうちに lemmatisation あるいは taggin という技術を発見し、 これを応用して頻度表を作ってみる。 ざっと目を通すと、理想の8割程度の出来であった。 手作業である程度洗練することで9割程度の結果を得たので、 一段落させて公開することにした。

渡邊克宏

katsu@watanabe.name