Path: coconuts.jaist!wnoc-tyo-news!tokyonet.ad.jp!tokyonet.ad.jp!taurus!dtinews!imci3!imci4!newsfeed.internetmci.com!news.dacom.co.kr!usenet.seri.re.kr!news.imnet.ad.jp!ripspost.aist.go.jp!news.tisn.ad.jp!zion.phys.s.u-tokyo.ac.jp!news.nc.u-tokyo.ac.jp!makino
From: makino@chianti.c.u-tokyo.ac.jp (Jun Makino)
Newsgroups: fj.comp.parallel
Subject: Re: Cho-Sairyudo (was Re: parallel)
Date: 29 Apr 1996 16:47:04 GMT
Organization: College of Arts and Sciences, Univ. of Tokyo
Lines: 43
Distribution: fj
Message-ID: <MAKINO.96Apr30014704@muscat.c.u-tokyo.ac.jp>
References: <KAZUKI-J.96Apr2232415@alpha414.is.aist-nara.ac.jp>
	<wwtlok4zsn2.fsf@jedi.seg.kobe-u.ac.jp>
	<KAZUKI-J.96Apr4172803@alpha414.is.aist-nara.ac.jp>
	<4kid1h$l5d@Faramir.isl.rdc.toshiba.co.jp>
	<KAZUKI-J.96Apr5220845@alpha414.is.aist-nara.ac.jp>
	<4kktj3$ef3@Faramir.isl.rdc.toshiba.co.jp>
	<KAZUKI-J.96Apr13160135@alpha414.is.aist-nara.ac.jp>
	<4ktgdn$mvg@Faramir.isl.rdc.toshiba.co.jp>
	<4ktgib$mvg@Faramir.isl.rdc.toshiba.co.jp>
	<4ktgok$mvg@Faramir.isl.rdc.toshiba.co.jp>
	<KAZUKI-J.96Apr16035552@alpha414.is.aist-nara.ac.jp>
	<4l5de8$m7h@Faramir.isl.rdc.toshiba.co.jp>
	<KAZUKI-J.96Apr19161810@alpha414.is.aist-nara.ac.jp>
	<4li1dh$e51@isnews.is.s.u-tokyo.ac.jp>
	<4lfve0$bhe@Faramir.isl.rdc.toshiba.co.jp>
	<4liggi$t6m@Faramir.isl.rdc.toshiba.co.jp>
	<4liopl$2q2@isnews.is.s.u-tokyo.ac.jp>
	<4lkphc$qm0@Faramir.isl.rdc.toshiba.co.jp>
	<4lmtq8$1ma@isnews.is.s.u-tokyo.ac.jp>
NNTP-Posting-Host: muscat.c.u-tokyo.ac.jp
In-reply-to: hiraki@is.s.u-tokyo.ac.jp's message of 25 Apr 1996 04:07:36 GMT

>>>>> On 25 Apr 1996 04:07:36 GMT, hiraki@is.s.u-tokyo.ac.jp (HIRAKI Kei) said:

> 高い性能を得るためのプロセッサ数の増加は自然な方向性であり、例えば２０
> ０５年位に１０万を越える予想をすることは難しくありません。しかしながら、
> 私自身が過去主張したこともある、問題の持つ並列度（実際には並列度出現の
> 形態も色々あるので大雑把すぎるいい方ですが）とプロセッサ台数が近くなる
> 状態での並列処理が本当に必要かということに、現在は疑問を持っています。
> 台数が多くなった場合におけるReduction 操作の時間が長くなることは明らか
> ですが、それが隠せない状況での並列処理に向かうとは考えられません。

> つまり、プログラムの割り付けで、各PEに数点のデータを割り当てることはな
> く、少なくとも数十点が割り当てる計算を考えればよいということです。これ
> だけのことで、ハードウェアレベルまで立ち入る必要のあるプロセッサチェイ
> ニングは避けられるのではないでしょうか？ また、PEあたりデータセットサ
> イズが非常に小さい状況での計算は、長いタイムステップでのシミュレーショ
> ンなどを連想しますが、問題が大きいのでなく繰り返しが大きい場合は、シス
> テムを分割使用して並行に違う入力データセットに対して計算を行なっても十
> 分並列システムとして機能を発揮するのではないかと考えています。

うーん、わりとそうでない問題というのはあるような気がしますが、、、
一応私の専門であるところの球状星団のN体シミュレーションでは、タイ
ムステップ数が粒子数に比例して増えるので通常の（現在使われている）
計算法では計算量がN^3で増えます。

また、タンパクのMD計算などでは、現在ピコセカンド／ナノセカンドあ
たりの時間をやっているのを、ミリセカンドくらいまで伸ばしたいそう
です。

こういった問題では、「系の熱力学的な緩和時間」自体が長いので、並
行に違う入力について計算すればいいというわけにはいきません。とり
あえず上にあげたような問題では 10^6プロセッサになったときに 10^8
粒子を扱うというのはまったく不可能です。

そもそもこの手の問題は現在の MPP で、通信オーバーヘッドのために満
足な性能がでないので、「現在の MPP で効率的に実行されているアプリ
ケーション」を考えれば

> 台数が多くなった場合におけるReduction 操作の時間が長くなることは明らか
> ですが、それが隠せない状況での並列処理に向かうとは考えられません。

ということに確かになるのですが、、、

牧野＠東大駒場