UNIX に出る英単語の履歴
最新:
Build No.72 at Thu Nov 25 00:36:53 JST 2010
- 単語の意味を表示するページで参照している辞書や事典のリンク先を、現在の事情に合わせた。
- 各所の英文を校正と推敲。
Build No.70 at Tue Mar 9 10:59:41 JST 2004
- 単語に関する情報のページで、FOLDOCとThe Jargon Fileへのリンクが切れていたので張りなおした。
- 自分のページへのリンクとメールアドレスが古いものだったので修正した。
Build No.65 at Fri Sep 6 22:30:30 2002
- 単語の順位の検索で、入力された文字列を小文字に変換して検索することにした。
- 自明な単語として取り除いた語のリストを公開した。
- 単語の順位表示のページから、単語の意味表示のページへのリンクをはった。
Build No.54 at Fri Aug 30 10:18:59 2002
- 表のソースが巨大になりがちなので、順位表の各単語から辞書や man page類へのリンクを張るのをやめ、各単語ごとのページにまとめる形にした。
- 単語に関する情報に自前の man page の表示を含めるのをやめた。他サイトへのリンクに頼ることにした。
Build No.28 at Wed Aug 1 10:20:39 JST 2001
- man page のライセンスに関する記述を追加。
- 表の分割を 100 単語ごとから 50 単語ごとに減らした。HTMLソースが大きくなりすぎ、読み込むのに時間がかかるようになったため。
Build No.26 at Sun Jun 3 22:10:37 JST 2001
- es → '褪re' のような奇妙な lemmatisation を止めた。
- フレームを利用する版を用意した。
- 単語から順位を検索できるようにした。
- man page を引くのに失敗したら、whatis(1) を試して代替の man を表示するようにした。
- apropos(1) の出力各項目から man page へ link をはった。
- jargon file を項目毎に分割した。
original の jargon file があまりに大きいせいか、
IE5 など一部のブラウザで適当なアンカーの項目を表示できないため。
- この履歴のページを作った。
- HTML 文法の誤りを多数削減した。
Build No.3 at 23 May 2001
最初の版を作ってSRA社内の人に見てもらう。
構想段階
- 1998年頃
- 2時間ほどの quick hack で、man pages の単語の出現頻度リストを作ってみた。
当初、せいぜい半日も作業すれば満足するものができるだろうと思っていた。
ところが、名詞の単数形複数形・活用した動詞・形容詞の比較級最上級などが
別々の項目として数えられてしまうのが気に入らず、放り投げてしまう。
- 2000年春
- 辞書検索に使われる stemming という技術を笠原基之君に教わる。
これは、hackers → hacker のように、
変化した語から、変化しない語幹部分を取りだす操作である。
一瞬これは頻度リストの作成に使えるかと思えたが、
例えば specified → specifi となってしまうために応用をあきらめる。
- 2001年春
- 英語の corpus を漁っているうちに
lemmatisation あるいは taggin という技術を発見し、
これを応用して頻度表を作ってみる。
ざっと目を通すと、理想の8割程度の出来であった。
手作業である程度洗練することで9割程度の結果を得たので、
一段落させて公開することにした。
渡邊克宏
katsu@watanabe.name