Path: coconuts.jaist!wnoc-tyo-news!spinnews!spin-hsd0-tky!news-relay.jpn!yan.hp.com!hpujjpo!hpscit.sc.hp.com!sdd.hp.com!swrinde!howland.reston.ans.net!news.sprintlink.net!news.gdbnet.ad.jp!sinetnews!newssinet!news.nc.u-tokyo.ac.jp!komaba!makino
From: makino@chianti.c.u-tokyo.ac.jp (Jun Makino)
Newsgroups: fj.comp.arch
Subject: Re: Effect of out-of-order execution (Re:How many ports do registers have?
Date: 04 Sep 1995 05:04:25 GMT
Organization: Dept. of Earth Science & Astronomy, College of Arts & Sciences,
	Univ. of Tokyo
Lines: 50
Distribution: fj
Message-ID: <MAKINO.95Sep4140425@tache.c.u-tokyo.ac.jp>
References: <ITOU.95Sep4121958@volga.mfd.cs.fujitsu.co.jp>
NNTP-Posting-Host: tache.c.u-tokyo.ac.jp
In-reply-to: itou@volga.mfd.cs.fujitsu.co.jp's message of 4 Sep 95 12:19:58

>>>>> On 4 Sep 95 12:19:58, itou@volga.mfd.cs.fujitsu.co.jp said:

>>> えっと、理屈はそうなのですが、例えば Cray X-MPから T/J-90 にいた
>>> る系列の機械というのはすべて浪費できるだけのメモリバンド幅を持た
>>> せていますよね。XMPの場合CPU1個あたり4ポートあったはずで、その後
>>> 基本的には変わっていないと思います。各ポートがクロックサイクル当
>>> たり1語の転送能力を持つので、実効的に memory-to-memory でピークに
>>> 近い性能を出せます。Cray-1 とか Cray-2 はそうではなくて、このメモ
>>> リバンド幅の違いはかなり実効性能に影響しているはずです。（まあコ
>>> ンパイラが貧弱なだけかもしれないのですが、、、）
>>> 
>>> どうせ浪費できるだけのメモリバンド幅を持たせるならば、ベクトルレ
>>> ジスタがなくたっていけなくはないのではという気がします。


> ベクトルプロセッサには詳しくないのですが、最近のベクトルプロセッサは
> 演算よりもメモリの方がボトルネックではないのですか？

えっと、だから、 Cray は（比較的）そうじゃないっていう、いいたかっ
たことはそれだけなのですが、、、日本の会社のベクトルプロセッサは
演算よりもメモリの方がボトルネックになっています。

> SX-4の１PEモデルを例にとると、性能２GFLOPSで主記憶スループット１６GB／s
> （２Gダブルワード／s）とのことですが、これは「ロードと同じペースで演算
> するのがピーク性能」ということだと解釈していたのですが、違うのでしょうか。
> だとするとメモリがボトルネックになっているのだと思えるのですが。

> ＃VXの１PEモデルでも2.2GFLOPS,18.2GB/sec(=2.27ダブルワード／s)ですね。

上の数字はあってると思います。ただ、 SX-4 とかだと load/store の
関係がどうなってるかは良くわかりません。（バンド幅全部を load に
使えるかどうかわからない）

ついでにいえば、「最近の」というのはちょっと？です。日本のベクト
ルプロセッサは伝統的にメモリの方がボトルネックになってます。
VP-200はちょっと違ったような記憶があるのですが、 S-810とか SX-2は
今の機械と基本的には変わらない構成だったと思います。

設置台数でいえば Cray がやはり多いでしょうから、「大半のベクトル
プロセッサ」でメモリがボトルネックではないといえなくもないかも知
れません。

ただ、memory-to-memory にしちゃうとショートベクトルの性能には響く
でしょうから、メモリのバンド幅さえあればベクタレジスタなしでいい
といってしまえるものではないというのは確かだと思います。

牧野＠東大駒場