Sender: katsu@FLAGSHIP.katsu.watanabe.name Newsgroups: fj.chat Subject: =?iso-2022-jp?b?UmU6IGFuY2llbnQgZmobJEIlVxsoQg==?= =?iso-2022-jp?b?GyRCJW0lOCUnJS8lSEM7Py4bKEIgTm8uMw==?= From: WATANABE Katsuhiro Date: 26 Jan 2005 00:07:18 +0900 Message-ID: Organization: An individual person. User-Agent: Gnus/5.09 (Gnus v5.9.0) Emacs/21.3 MIME-Version: 1.0 Content-Type: text/plain; charset=iso-2022-jp Lines: 40 Xref: FLAGSHIP mine:471 ancient fj NetNews archive は、発案後、うまく構成が できるまでには期間がかかりました。 元データは某 Web サーバから野性的に wget で取って来た ものです。しかし、そのサーバでは検索や研究の都合で記事に 色々と手を入れていたのです。 http://katsu.watanabe.name/ancientfj/galaxy-format.html http://katsu.watanabe.name/ancientfj/asks-format.html 作業を始める前は、1週間程度の作業と感じていました。 HTML のマークアップを外して、ファイル名を揃えて、 tar|gzipするぐらいと見ていました。ところが、記事が 原本と異なっていて、しかも不規則な乱れが多かったの です。そもそも、どのような変化をしているのかさえ 不明だったので、まずは原本が残っている記事を拾い集め、 それと比較して調べることから始めました。まっとうな アーカイブが構成できるまでは、2年以上かかりました。 make にかかる時間は、50時間だったか、70時間だったか。 記事数は40万本だけなのに。秒あたり2〜3記事程度しか 処理できていません。私が悪い。対象が画像や動画な わけでもなく、しかも記事の長さって、せいぜい http://katsu.watanabe.name/article/220.txt 上のような感じなんですよ。 最近発掘された WIDE の CD-ROM(*) は、ニュースの スプールとして置けるほどに整理されているようなので、 扱いは楽なのではないかと期待しています。 CD-ROM 3巻に分かれているので、3巻の間で Message-ID: に 重なりがないか(巻をまたがってクロスポストされている記事が ないか)から調べていこうかな。 (*)これ、正確には何て呼ぼうかな。WIDE 自身は、 「fj ニュースCD-ROM」というマンマでベタな書き方してるし。 -- 渡邊克宏 http://katsu.watanabe.name