Sender: katsu@FLAGSHIP.katsu.watanabe.name Newsgroups: fj.chat Subject: =?iso-2022-jp?b?YW5jaWVudCBmahskQiVXJW0lOCUnJS8bKEI=?= =?iso-2022-jp?b?GyRCJUhDOz8uGyhCIE5vLjQ=?= From: WATANABE Katsuhiro Date: 02 Feb 2005 23:52:56 +0900 Message-ID: Organization: An individual person. User-Agent: Gnus/5.09 (Gnus v5.9.0) Emacs/21.3 MIME-Version: 1.0 Content-Type: text/plain; charset=iso-2022-jp Lines: 42 Xref: FLAGSHIP mine:475 WIDE の CD-ROM (をまとめた太田さんのファイル)を展開しました。 まずは、記事の重複具合をみてみました。 元の CD-ROM は、 (1) 開始〜 1990 年7 月、東京工業大学(titcca) (2) 1989 年7 月〜 1991 年12 月、NTT (3) 1992 年1 月〜 1992 年12 月、NTT の3枚に分かれています。時期が重なっている(1)と(2)では、記事が 重複して収録されているようです。しかし、同一サイトで時期に 重なりのない(2)と(3)の間では、記事に重なりはないでしょうか? 結論:記事に重なりはないようです。しかし、Message-Id: は 重なっていました。つまり、Message-Id: の再利用をしていた サイトがありました。(RFC が uniqueness を要求している 2年間の間においてでも。) 困ったなあ。アーカイブを利用する段においては、個々の記事を 同定する方法(identity, 主キー)が絶対必要です。「この記事」 って指差せなきゃね。通常は Message-Id: が使えて、現在の ancient fj でも幸いに uniqueness が保たれていたので そうしています。ところが今後はそうはいかなくなりました。 どうしようかなあ。 重複の理由は、古いニュースリーダ(readnews, rn, etc.)が Message-Idを生成する方法のせいと推測します。昔は、Message-Id のローカルな部分(@ より左の部分)は通し番号になっていました。 この番号は素朴に /usr/lib/news/seq というファイルに収められて いたと記憶してます。ニュースシステム(当時は Bnews)の再インス トールでは、これを消さないで保持するようになってはいました。 しかし、OS から入れなおしたり、別な機械へインストールしなおして ニュースシステムを置き換えれば、通し番号が再び 1 から始まって 容易に Message-Id の重複が起きてしまいます。 ... ということだったはず。 Xref: が残っている記事と残っていない記事が混在していることも わかりました。このことは、後に細かい所に影響するかもしないかも。 -- 渡邊克宏 http://katsu.watanabe.name