Sender: katsu@FLAGSHIP.katsu.watanabe.name Newsgroups: fj.chat Subject: =?iso-2022-jp?b?YW5jaWVudCBmaiAbJEIlVyVtJTglJxsoQg==?= =?iso-2022-jp?b?GyRCJS8lSEM7Py4bKEIgTm8uNQ==?= From: WATANABE Katsuhiro Date: 23 Feb 2005 21:33:46 +0900 Message-ID: Organization: An individual person. User-Agent: Gnus/5.09 (Gnus v5.9.0) Emacs/21.3 MIME-Version: 1.0 Content-Type: text/plain; charset=iso-2022-jp Lines: 37 Xref: FLAGSHIP mine:476 引き続き WIDE の CD-ROM の中身を少しずつ見ています。記事を 読んでいるのではなく、規格から外れたものがないか、衛生検査の ようなことをしています。 ancient fj では、規格外の記事をみつけても、なるべく修正を しない方針でいます。歴史家がどこに目を付けるかわかりません。 いや、歴史家だったら二次的なアーカイブよりも原本にあたろうと 努力してくれるかな?修正する際は、なるべくヘッダに修正メモを 残しています。 現在のアーカイブは、荒れたデータを基に記事を再構成したので、 不本意な修正箇所が多くなってしまいました。データの壊れ方が 不規則なので、壊れている部分の発見が大変で、発見のためだけに 年単位の長い時間がかかったようなものです。 WIDE の CD-ROM はおおむね綺麗です。文字化けのようなものの ために、Message-ID 中にスペースが入っている記事を1個発見 しました。これの Message-ID はつけかえることになるでしょう。 Date: フィールドは、一部に何年もずれているものがあります。 それでも全部 parse できたのだからキレイでしょう。現在の アーカイブの元データでは、そもそも parse できない Date: が 続出でした。確か JAIST のアーカイブでも、parse できない ものがあったと思います。JAIST のものは、記事を月ごとに .tar.gz にまとめてありますが、parse できないと 1900 年 あたりに分類してたんだっけかな? WIDE CD-ROM 中の記事の順番は、Date: フィールド順ではなく、 記事が実際に流通した順番のようです。Date: フィールドが大きく ずれている記事も、当該スレッドの中途にそしらぬ顔で納まって います。しかし、他のアーカイブとの併合の際に Date: フィールド で並べ替えてしまうと、きっとその記事だけ遠い遠い所に順番が 飛ばされるでしょう。いたしかたありません。 -- 渡邊克宏 http://katsu.watanabe.name