Build No.72 at Thu Nov 25 00:36:53 JST 2010
高校生向けの英語参考書:「試験に出る英単語」(青春出版社版) いわゆる「出る単」をもじって、 「UNIX に出る英単語」を作ってみました。 これは UNIX 関係の free な文書に現れる英単語を、出現頻度順にならべたものです。 現在のところ、Linux 編だけが存在します。
英語の勉強に、あるいは UNIX の英文文書に慣れるためにお役立て下さい。
主として Vine Linux 2.1.4CR の環境において、 以下のテキストのうちで、英文を思われる文書ファイルを識別します。
それらのファイルから英単語を抽出して、 各単語ごとに頻度を求めます。 現在のところ、アルファベットのみが続く文字列を英単語としています。 (don't は don と t という奇妙な2単語として識別されている。 ハイフンを含む単語も同様) 大文字小文字の違いも無視しています。
冠詞・代名詞・前置詞・ go や love など日本語の文章にも広く使われて十分親しまれている単語 等を自明な単語とみなして、頻度一覧から削除します。 一部手動です。
名詞の複数形→単数形、変化した動詞・形容詞→原形、等の変換をします。 一部手動です。
頻度順にならべ、HTML 文書として編集します。
Lemmatisation には、 Cogitex社 の online サービス を利用させていただきました。 Cogitex 社には、サーバーを落としてしまうというご迷惑をおかけしてしまいました。