Path: coconuts.jaist!wnoc-tyo-news!spinnews!spin-hsd0-tky!news-relay.jpn!yan.hp.com!hpujjpo!hpscit.sc.hp.com!sdd.hp.com!swrinde!tank.news.pipex.net!pipex!news.sprintlink.net!news.gdbnet.ad.jp!sinetnews!newssinet!news.nc.u-tokyo.ac.jp!komaba!makino From: makino@chianti.c.u-tokyo.ac.jp (Jun Makino) Newsgroups: fj.comp.arch Subject: memory-to-memory vector architecture (Re: Effect of out-of-order execution) Date: 05 Sep 1995 08:57:32 GMT Organization: Dept. of Earth Science & Astronomy, College of Arts & Sciences, Univ. of Tokyo Lines: 26 Distribution: fj Message-ID: References: <42eej1$iq0@Faramir.isl.rdc.toshiba.co.jp> <42gn3t$d06@Faramir.isl.rdc.toshiba.co.jp> NNTP-Posting-Host: tache.c.u-tokyo.ac.jp In-reply-to: tanabe@isl.rdc.toshiba.co.jp's message of 5 Sep 1995 05:27:25 GMT >>>>> On 5 Sep 1995 05:27:25 GMT, tanabe@isl.rdc.toshiba.co.jp (Noboru Tanabe) said: Subject を変えてみました > よって「最低でも3.0が必要」を「最低でも1.5が必要」と訂正します。し > かし大筋で「足りない」という主張まで訂正するものではありません。 > その理由はV=V+V,V=V*Vのようなオペランドがベクトルのみのベクトル命令 > では、ベクトルレジスタがあるとチェイニングによって中間結果のロード > ストアが減る場合が多く、アプリ全体を通して平均すれば1.0位で良くなる > のに対し、この種の命令ではmemory-to-memoryだと3.0が必要になり性能低 > 下を免れません。 このへん、特に 1.0 という数字の根拠になるような定量的な研究があれば紹 介していただけるとあり難いのですが。理屈はもちろんおっしゃる通りなので すが、現実にどれくらい違いがでるんでしょうね。 これはちょっと話がずれるかもしれませんが、XMP/416 のメモリバンク数が 64, VP-200, SX-2 が 256 なんですね、、、これで XMP/416 の方が大きなス ループットを持つのはなんか不思議ですね。メモリの速度はそんなにちがわな いでしょうから。日本のベクタプロセッサが必要以上のバンク数を持つのは constant stride とか random access の時の性能低下を嫌ったためだと思う のですが、それにしても多い。load/store パイプの数に比べてバンク数はあ まりコストに効かないのでしょうか? 牧野@東大駒場