Path: coconuts.jaist!wnoc-tyo-news!spinnews!spin-hsd0-tky!news-relay.jpn!yan.hp.com!hpujjpo!hpscit.sc.hp.com!sdd.hp.com!swrinde!tank.news.pipex.net!pipex!news.sprintlink.net!news.gdbnet.ad.jp!sinetnews!newssinet!news.nc.u-tokyo.ac.jp!komaba!makino
From: makino@chianti.c.u-tokyo.ac.jp (Jun Makino)
Newsgroups: fj.comp.arch
Subject: memory-to-memory vector architecture (Re: Effect of out-of-order execution)
Date: 05 Sep 1995 08:57:32 GMT
Organization: Dept. of Earth Science & Astronomy, College of Arts & Sciences,
	Univ. of Tokyo
Lines: 26
Distribution: fj
Message-ID: <MAKINO.95Sep5175732@tache.c.u-tokyo.ac.jp>
References: <ITOU.95Sep4121958@volga.mfd.cs.fujitsu.co.jp>
	<MAKINO.95Sep4140425@tache.c.u-tokyo.ac.jp>
	<42eej1$iq0@Faramir.isl.rdc.toshiba.co.jp>
	<MAKINO.95Sep4202612@tache.c.u-tokyo.ac.jp>
	<42gn3t$d06@Faramir.isl.rdc.toshiba.co.jp>
NNTP-Posting-Host: tache.c.u-tokyo.ac.jp
In-reply-to: tanabe@isl.rdc.toshiba.co.jp's message of 5 Sep 1995 05:27:25 GMT

>>>>> On 5 Sep 1995 05:27:25 GMT, tanabe@isl.rdc.toshiba.co.jp (Noboru
Tanabe) said:

Subject を変えてみました
> よって「最低でも3.0が必要」を「最低でも1.5が必要」と訂正します。し
> かし大筋で「足りない」という主張まで訂正するものではありません。

> その理由はV=V+V,V=V*Vのようなオペランドがベクトルのみのベクトル命令
> では、ベクトルレジスタがあるとチェイニングによって中間結果のロード
> ストアが減る場合が多く、アプリ全体を通して平均すれば1.0位で良くなる
> のに対し、この種の命令ではmemory-to-memoryだと3.0が必要になり性能低
> 下を免れません。

このへん、特に 1.0 という数字の根拠になるような定量的な研究があれば紹
介していただけるとあり難いのですが。理屈はもちろんおっしゃる通りなので
すが、現実にどれくらい違いがでるんでしょうね。

これはちょっと話がずれるかもしれませんが、XMP/416 のメモリバンク数が 
64, VP-200, SX-2 が 256 なんですね、、、これで XMP/416 の方が大きなス
ループットを持つのはなんか不思議ですね。メモリの速度はそんなにちがわな
いでしょうから。日本のベクタプロセッサが必要以上のバンク数を持つのは 
constant stride とか random access の時の性能低下を嫌ったためだと思う
のですが、それにしても多い。load/store パイプの数に比べてバンク数はあ
まりコストに効かないのでしょうか？

牧野＠東大駒場