UNIXに出る英単語

Build No.72 at Thu Nov 25 00:36:53 JST 2010

高校生向けの英語参考書:「試験に出る英単語」(青春出版社版) いわゆる「出る単」をもじって、 「UNIX に出る英単語」を作ってみました。 これは UNIX 関係の free な文書に現れる英単語を、出現頻度順にならべたものです。 現在のところ、Linux 編だけが存在します。

英語の勉強に、あるいは UNIX の英文文書に慣れるためにお役立て下さい。

Linux編

・頻度順位を指定して見る

頻度が位の単語から 位ごと

・単語を検索

単語は何位か?
(大文字小文字の区別なし)

第32768位ぐらいまでの一覧ファイル(gzip で圧縮,200KB 弱)


どうやってこのリストを作ったか?

1.単語抽出

主として Vine Linux 2.1.4CR の環境において、 以下のテキストのうちで、英文を思われる文書ファイルを識別します。

それらのファイルから英単語を抽出して、 各単語ごとに頻度を求めます。 現在のところ、アルファベットのみが続く文字列を英単語としています。 (don't は don と t という奇妙な2単語として識別されている。 ハイフンを含む単語も同様) 大文字小文字の違いも無視しています。

2.自明な単語の削除

冠詞・代名詞・前置詞・ go や love など日本語の文章にも広く使われて十分親しまれている単語 等を自明な単語とみなして、頻度一覧から削除します。 一部手動です。

3.原形化(lemmatisation)

名詞の複数形→単数形、変化した動詞・形容詞→原形、等の変換をします。 一部手動です。

4.ソート

頻度順にならべ、HTML 文書として編集します。

わかっている問題点

履歴

謝辞

Lemmatisation には、 Cogitex社online サービス を利用させていただきました。 Cogitex 社には、サーバーを落としてしまうというご迷惑をおかけしてしまいました。


渡邊克宏

katsu@watanabe.name