NAL TR-1430

ISSN 0389-4010 UDC 681.31

# 航空宇宙技術研究所報告

TECHNICAL REPORT OF NATIONAL AEROSPACE LABORATORY

TR-1430

# SX - 3R システムにおける宇宙推進系プログラムの 自動並列化による並列処理

中 村 絹 代 ・ 高 橋 政 浩

2001年8月

# 独立行政法人 航空宇宙技術研究所

NATIONAL AEROSPACE LABORATORY OF JAPAN

NAL TR-1430

2

₣ 目 支 行

开究斤及

5

| 目 | 次 |  |
|---|---|--|
|   |   |  |

| 概    | 要                                            | 1  |
|------|----------------------------------------------|----|
| 1.   | はじめに                                         | 1  |
| 2.   | SX - 3R <b>システム及び並列処理の概要</b>                 | 2  |
|      | 2.1 SX - 3R システム                             | 2  |
|      | (1)概要                                        | 2  |
|      | (2)演算プロセッサ                                   | 2  |
|      | (3) ソフトウェア                                   | 3  |
|      | (4)評価に使用したシステム                               | 3  |
|      | 2.2 <b>並列処理の概要</b>                           | 3  |
|      | 2.2.1 SX - FORTRAN による並列処理機能                 | 5  |
|      | (1)マクロタスク機能                                  | 5  |
|      | (2)マイクロタスク機能                                 | 6  |
|      | 2.2.2 SX - FORTRAN による自動並列化機能                | 7  |
| 3.   | 推進系プログラムの概要                                  | 9  |
|      | 3.1 <b>プログラム の概要</b>                         | 9  |
|      | 3.2 プログラム の概要                                | 10 |
| 4    | 堆准をプログラムの並列加理研究の分析                           | 12 |
| ۰. ۲ |                                              | 13 |
|      | (1) 測定環境                                     | 13 |
|      | (2) 测定条件                                     | 13 |
|      | (3) 測定手順                                     | 14 |
|      |                                              | 1/ |
|      | 4.2 ノロノノム ジェリシュ                              | 1/ |
|      | (1) フリチプロセッチ処理                               | 15 |
|      | (3)シングルプロセッシュー (3)シングルプロセッサ及びマルチプロセッサ処理結果の検討 | 15 |
|      | 4.3 プログラムの並列処理                               | 18 |
|      | (1)シングルプロセッサ処理                               | 18 |
|      | (2)マルチプロセッサ処理                                | 19 |
|      | (3)シングルプロセッサ及びマルチプロセッサ処理結果の検討                | 19 |
|      | 4.4 まとめ                                      | 21 |
| 5.   | おわりに                                         | 24 |
| 参    | 考文献                                          | 24 |

# SX - 3R システムにおける宇宙推進系プログラムの 自動並列化による並列処理\*

中 村 絹 代\*1 高 橋 政 浩\*2

Parallel Processing of Space Propulsion System Programs by Automatic Parallelization of SX-3R System \*

Kinuyo NAKAMURA \* 1 Masahiro TAKAHASHI \* 2

# ABSTRACT

An automatic parallelization function is effective for the reduction of parallel program coding problems. In a shared-memory vector-parallel computer, Fortran program DO loops are automatically parallelized, generally, but this does not occur in a distributed-memory vector-parallel computer.

This report describes the comparison and the investigation of the parallel processing time of two programs on space propulsion system by an automatic parallelization function of the SX-3R system. As a result, the following is quantitatively obtained.

- The performance efficiency of a program parallelized relatively highly and efficiently is large.
- The memory conflict time is the longest in the difference between an estimated time and a measured time. And a ratio of the memory conflict time per the difference time of a highly parallelized program is higher than for a low one.

Keyword: parallel vector computer, Fortran program, automatic parallelization

# 概要

並列ベクトル計算機の自動並列化機能はユーザーのプログラムコーディングの負担を軽減するのに有効 である。共有メモリ方式の並列ベクトル計算機では主にDOループを対象に自動並列化が行われている。し かし、分散メモリ方式の並列ベクトル計算機では実現されていない。

本報告は、その自動並列化機能を用いて2本の宇宙推進系プログラムの並列処理を行い、それらの実行結果の比較・検討を行ったものである。結果として、以下のことが定量的に得られた。

・相対的に並列化率が大きく、並列効率のよいプログラムは、性能向上率が大きい。

・使用したPE台数に対する予測値と実測値との差に最も影響を与えたものはメモリ競合時間であった。また、メモリ競合時間の割合は並列化率の高いプログラムの方が低いプログラムより高い。

## 第1章 はじめに

ベクトル計算機が開発されて25年、そして並列ベクト

- \* 平成 13 年 4 月 5 日受付 (received 5 April 2001)
- \*1 CFD 技術開発センター(CFD Technology Center)
- \* 2 角田宇宙推進技術研究所 (Kakuda Space Propulsion Laboratory)

ル計算機が稼働開始して約20年が経つ。これらの計算機 の有効性については科学技術分野における計算機の発展 がそれを物語っている。

当初は数台のベクトル計算機を並列にしたものにすぎ なかった並列ベクトル計算機も、現在では航空宇宙技術 研究所で要素計算機数 166台、ピーク性能280GFLOPSの 数値風洞が稼働し数百GFLOPSの同様の並列ベクトル計 算機が国内外で稼動している。1 TFLOPS 級の並列ベク トル計算機が稼働開始となるのも時間の問題と言えよう。



XMU …… 拡張記憶裝置 IOP …… 入出力処理装置

図 2.1 SX - 3R システム構成図

また、科学技術計算においてこれら計算機で使用され るプログラム言語はFORTRAN 言語である。ベクトル計 算機においてはFORTRAN コンパイラは自動ベクトル化 機能を備えており、この機能は現在かなり成熟した段階 にあると言ってよい。

並列ベクトル計算機においては命令及びデータの分割 /要素計算機への割り付けが重要であり、これらは自動 並列化機能と密接に関係する。現在、自動並列化は共有 メモリ方式の並列ベクトル計算機において DO ループを 対象に行われているのが一般的である。サブルーチン等 を対象とした比較的タスク粒度(複数プロセッサの並列 処理における仕事の大きさ)の大きいものを対象とした 並列処理に関しては自動並列化は殆ど行われていない。

本報告は、並列ベクトル計算機 SX-3R システムの自動 並列化機能を使用して2本の宇宙推進系プログラムの並 列処理を行い、プロセッサ数1台、2台及び4台での実行 結果の比較・検討を行ったものである。

以下、2章ではSX-3Rシステムの概要及びSX-3Rシステムにおける並列処理の概要を述べ、3章では2本の宇宙推進系プログラムの概要について述べる。また、4章では宇宙推進系プログラムを並列処理し、シングルプロセッサ及びマルチプロセッサにおける処理結果の検討を行う。 最後に、5章では本報告で得られたこと及び今後の課題について述べる。

第2章 SX - 3R システム及び並列処理の概要 2.1 SX - 3R システム (1)概要 SX-3R システムは、日本電気株式会社製の主記憶共有 型マルチプロセッサ構成のベクトルスーパーコンピュー タシステムである。ハードウェアの全体構成を図2.1に示 す。最大4台の演算プロセッサを備え、最大ベクトル演 算性能は 25.6GFLOPS である。

演算プロセッサ(AP)は、科学技術計算を高速に処理 するベクトル演算パイプライン機構、スカラ演算パイプ ライン機構、キャッシュ機構などから構成されている。 制御プロセッサ(CP)はディスクなどの周辺装置との入 出力処理を制御する。

主記憶装置(MMU)は最大1024ウェイのインターレー ス機能のサポートにより高速なデータ供給能力を実現し ており、最大51.2GB/秒のデータ供給能力をもつ。また、 最大8GBの容量をもち、大規模データを使用するプログ ラムを効率よく実行させることが出来る。拡張記憶装置 (XMU)は、最大64GBの容量を持ち、最大3.2GB/秒の転 送速度を実現した高速大容量の半導体記憶装置である。

(2) 演算プロセッサ(AP)

演算プロセッサの構成を図2.2 に示す。演算プロセッサ はペクトルユニットとスカラユニットから成り、2.5ナノ 秒のマシンサイクルで動作する。

アーキテクチャは前機種 SX-2 の RISC アーキテクチャ (SX アーキテクチャ)を継続し、これを強化している。範 囲の広い数値を扱えるように、浮動小数点データ形式と して、SX-2 の標準形式 (IBM 形式)に加えて拡張形式 (CRAY形式)の採用、固定小数点データに於ける64 ビッ ト整数の採用、並列処理を高速にするためのコミュニ



図 2.2 SX-3R シリーズの演算プロセッサ構成

ケーションレジスタ(CR)の採用などが主なものである。

ベクトルユニット

ベクトル演算パイプラインは、加減算/シフト演算 パイプライン及び乗算/論理演算パイプラインをそれぞ れ2本、合計4本を基本構成としている。この4本のベク トル演算パイプラインにより同時に4つの浮動小数点演 算が実行できる。この構成を1セットとし、演算プロセッ サ当たり最大4セットをもつベクトルユニットでは、合 計16本のベクトル演算パイプラインを同時に動作させる ことが可能である。144KBの大容量ベクトルレジスタの 活用とともに単一プロセッサで6.4GFLOPSのベクトル性 能を実現している。

スカラユニット

命令の単純化によって基本性能を向上させるRISCアー キテクチャを採用し、これを効果的に動作させるために 128個のスカラレジスタを用意している。また、容量 64KBのキャッシュ機構を備え、さらにハードウェアによ るリオーダリング機能(命令の発行順に関わらず、デー タの揃った命令から実行すること)により、スカラ用パ イプライン演算器の有効活用を図っている。

### (3) ソフトウェア

オペレーティングシステムはUNIX ベースの SUPER-UX である。SUPER-UX は、UNIX System に準拠し、 4.3BSD (Berkley Softwear Distribution)機能を取り込ん で、オープンシステム環境を提供している。また、高速 入出力機能などを追加して高速化を図り、システム運用 管理機能、自動運転機能、RAS (Reliability Abailability Servicebility)機能などを強化したスーパーコンピュー ターセンター向けのオペレーティングシステムである。

さらに、高速化を図る最適化プリプロセッサ、自動ベ クトル化/自動並列化機能を持つFORTRAN 77/SX コン パイラ、自動ベクトル化C/SX コンパイラを初めとして、 C++プリコンパイラ、その他各種の高速化支援ツール、デ パッグツール、科学技術計算ライブラリ ASL/SX を備え た、使い易いシステムとなっている。

また、並列処理機能としては、単一プロセッサでの多 重並列パイプラインによる処理の並列化に加え、マルチ プロセッサではマルチタスク方式による並列処理をサ ポートしている。これは、マルチプロセッサ環境におい て複数のプログラムを各演算プロセッサで処理してシス テムのスループットを向上させるだけでなく、一つのプ ログラムを複数の演算プロセッサに割り付け、同時並列 処理するものである。これによりプログラムのターンア ラウンドタイムの短縮を図っている。

#### (4)評価に使用したシステム

SX-3R シリーズには、表 2.1(a)のようなモデルがある。 本報告においてプログラム処理に使用したモデルは、 プロセッサ当たり 6.4GFLOPS、4 プロセッサ構成で総合 25.6GFLOPS のモデル 44R、主記憶 4GB、拡張記憶 6GB の構成の SX-3R システムである。これを表 2.1 (b)に示 す。

#### 2.2 並列処理の概要

1本のプログラムは同時実行可能な部分と可能でない 部分に分けることができる。同時実行可能な部分をいく つかの部分に分割し、複数のプロセッサに割り振り、そ

| モデル                        |            | €7#44R              | <del>17</del> 142R  | €7#41R              | <b>₹7</b> #34R       | ₹ <b>7</b> #24R      | €7#22R              | ₹7 <b>ル</b> 21R     | €71/14R            | ŧ7N12R              | €7µ11R              | ŧ7n1LR           |               |   |
|----------------------------|------------|---------------------|---------------------|---------------------|----------------------|----------------------|---------------------|---------------------|--------------------|---------------------|---------------------|------------------|---------------|---|
| 最大小小演算性能                   |            |                     | 25.6<br>GFLOPS      | 12.8<br>GFLOPS      | 6.4<br>GFLOPS        | 19, 2<br>GFLOPS      | 12.8<br>GFLOPS      | 6.4<br>GFLOPS       | 3.2<br>GFLOPS      | 6.4<br>GFLOPS       | 3.2<br>GFLOPS       | 1.6<br>GFLOPS    | 0.8<br>GFLOPS |   |
|                            | 台数         |                     | 台数 4台               |                     | 3台 2台                |                      |                     | 1台                  |                    |                     |                     |                  |               |   |
|                            | ,          |                     | ペクトルレジスタ            | 144KB<br>× 4        | 72KB<br>× 4          | 36KB<br>× 4          | 144KB<br>×3         | 144KB<br>×2         | 72KB<br>×2         | 36KB<br>×2          | 144KB<br>×1         | 72KB<br>×1       | 36K<br>× 1    | В |
|                            | レジスタ       | 49 F.W.729<br>15729 | 256ピット<br>×8個<br>×4 | 128ピット<br>×8個<br>×4 | 64ビット<br>×8個<br>×4   | 256ビット<br>×8個<br>×3  | 256ビット<br>×8個<br>×2 | 128ピット<br>×8個<br>×2 | 64ёヵト<br>×8個<br>×2 | 256ピット<br>×8個<br>×1 | 128ビット<br>×8個<br>×1 | 64<br>× 8<br>× 1 | ピット<br>3個     |   |
| 演算プ                        |            | スカラレジスタ             | 64Ľット >             | <128 個>             | < 4                  | 64ビット<br>×128<br>個×3 | 64Ľ71 >             | <128 個>             | <2                 | 64៥71 >             | <128 個>             | <1               |               |   |
| 101                        | デー         | 固定小数点               |                     |                     |                      |                      | 3 2 /               | 64ビ                 | ット                 |                     |                     |                  |               |   |
| ピッサ                        | タ形         | 浮動小数点               |                     |                     |                      |                      | 32/64               | 4/128               | 3* Ľ⊽ł             |                     |                     |                  |               |   |
| ĺ,                         | 鈓          | 論理                  |                     | _                   | _                    |                      | (                   | 54671               |                    |                     |                     |                  |               |   |
|                            | ベクト        | 「演算パイライン            | 16本<br>×4           | 8本<br>×4            | 4本<br>×4             | 16本<br>× 3           | 16本<br>× 2          | 8本<br>×2            | 4本<br>×2           | 16本<br>×1           | 8本<br>×1            | 4本<br>×1         | 2本<br>×1      |   |
|                            | スカラ        | 演算パイライン             | 4                   | セット                 |                      | 3t7}                 |                     | 2セット                |                    |                     | 14                  | ット               |               |   |
|                            | マスク        | 付約加迎理               | 피                   |                     |                      |                      |                     |                     |                    |                     |                     |                  |               |   |
|                            | リストヘクトル 処理 |                     | <u>न</u>            |                     |                      |                      |                     |                     |                    |                     |                     |                  |               |   |
|                            | ŧ#7        | シュメモリ               | 6 4 KB× 4           |                     | $^{6}_{	imes3}$ 4 KB | 6 4 KB× 2            |                     | 6 4 KB× 1           |                    |                     |                     |                  |               |   |
| 主記檣                        | 容量         |                     | 1 GB~<br>8 GB       | 512MB ~             | ~ 8 GB               | 1GB ~<br>8 GB        | 512MB<br>~8GB       | 512MB<br>~4GB       | 256MB -            | ~4GB                | 128MB<br>~4GB       | 128MB ~          | ~2GB          |   |
| 応装置                        | インターレース    |                     | 1024<br>Way         | 512/102             | 4WAY                 | 1024<br>WAY          | 512/102             | 4WAY                | 256/512<br>WAY     | /1024               | 128/256             | /512/102         | 4WAY          |   |
| 入出                         | 台数         | 友                   |                     | 1~4台                |                      |                      |                     |                     |                    |                     |                     |                  |               |   |
| 力処理                        | 最力<br>転送   | └総合データ<br>送能力       |                     |                     |                      |                      |                     | IGB∕₹               | \$                 |                     |                     |                  |               |   |
| 珪装置                        | 最力<br>チャ   | └入出力<br>ァネル本数       |                     |                     |                      |                      |                     | 256本                |                    |                     |                     |                  |               |   |
| 超高速                        | 最大連邦       | トチャネル<br>実          |                     |                     |                      |                      | 1 (                 | 0 0 M B /           | /秒                 |                     |                     |                  |               |   |
| 迷科祕                        | 最力<br>本数   | トチャネル<br>文          |                     |                     |                      |                      |                     | 40本                 |                    |                     |                     |                  |               |   |
| 拡張                         | 容量         | ning.               |                     |                     |                      |                      | 1 G I               | 3~64(               | GВ                 |                     |                     |                  | 1GB ~<br>32GB |   |
| 記<br>憶<br>長大転送速度<br>蓋<br>置 |            |                     |                     |                     |                      |                      |                     |                     |                    |                     |                     |                  |               |   |
| 制御加                        | 台数         | 文                   |                     |                     |                      |                      |                     | 1~2台                |                    |                     |                     |                  |               |   |
| 加<br>も 制御プロセッサ<br>サ メモリ    |            |                     |                     | 6 4 M B ~ 2 5 6 M B |                      |                      |                     |                     |                    |                     |                     |                  |               |   |

表 2.1(a) SX - 3R シリーズのシステム諸元

\*スカラ命令のみ

れらを並列に処理することにより、プログラムの実行時間(経過時間)を減少させることができる。同時実行可能であるとは2つの処理において、片方の処理結果をもう一方の処理において必要としないことである。プログラムを並列処理することができるような形にすることを並列化という。

また、プログラムの全処理時間に対する並列処理可能 な部分の処理時間の割合を並列化率といい、百分率で表 す。

並列処理可能である部分も可能でない部分も、順番に 実行することを逐次処理という。

図2.3の(a)は1本のプログラムの逐次処理を示す。(b) は(a)のプログラムの並列処理可能部分を3台のプロ セッサで処理することを示す。図中、sn,pnのs,pはそれぞれ逐次処理、並列処理を示し、nはプログラムの分割 部分を示す。また、tnはプログラム分割部分nの実行時間を示す。

(a) **の場合のプログラム実行時間(経過時間)** Taは、

Ta = t1 + t2 + t3 + t4 + t5

である。(b)の場合のプログラム実行時間 Tb は、

Tb = t1 + max(t2, t3, t4) + t5 +

= t1 + t4 + t5 +

である。 は並列化に伴う種々のオーバーヘッドである。 ここで、t4 > t2 > t3 であることから、分割部分2及び3 を実行するプロセッサは分割部分4を実行するプロセッ

| モデル                  |        | ミデル         | モデル44R               |  |  |
|----------------------|--------|-------------|----------------------|--|--|
| 最大演算性能               |        | 寅算性能        | 2 5. 6 GFLOPS        |  |  |
|                      | 台数     | 夊           | 4 台                  |  |  |
|                      | レ      | ベクトルレジスタ    | 1 4 4 KB× 4          |  |  |
|                      | ンスタ    | ベクトルマスクレジスタ | 2 5 6 ビット × 8個×4     |  |  |
| 餌算                   | 9      | スカラレジスタ     | 6 4 ビット × 1 2 8 個× 4 |  |  |
|                      | デ      | 固定小数点       | 3 2 / 6 4 Ľット        |  |  |
| セッム                  | ータ形式   | 浮動小数点       | 32/64/128* ビット       |  |  |
| + <del>у</del><br>АР |        | 論理          | 6 4 Kur              |  |  |
|                      | ベクト    | N演算パイプライン   | 16本×4                |  |  |
|                      | スカラ    | 演算パプライン     | 4 セット                |  |  |
|                      | マスク    | 付ベクトル処理     | न]                   |  |  |
|                      | リスト    | ベクトル 処理     | <u>[1]</u>           |  |  |
|                      | キャッ    | シュメモリ       | 6 4 KB× 4            |  |  |
| 主記                   | 容量     | I.          | 4 GB                 |  |  |
| 128<br>置<br>MMU      | インタ    | L-X         | 1 0 2 4 WAY          |  |  |
| 拡張                   | 容量     | aitt        | 6 GB                 |  |  |
| 記憶<br>装置<br>XMU      | 最大転送速度 |             | 3. 2 GB /秒           |  |  |

表 2.1(b) 評価に使用したシステム

\*スカラ命令のみ

サが実行を終了するまで待つ。t2 = t3 = t4の場合にはプロセッサに均等に仕事が割り当てられており、ワークロードバランスが良いという。

これらから分かるように並列化率が100%、 が0、 ワークロードバランスが均等であれば、使用したプロ セッサ数倍の高速化倍率を得ることができる。しかし、 実際にはこういった状況にはならない。

従って、並列化率をできるだけ大きく、種々のオー バーヘッドをできるだけ少なく、ワークロードバランス をできるだけ均等にするように努力することが並列化に よる高速化倍率の向上につながる。

以下、本節では、SX-FORTRAN によるプログラムの並 列処理の概要を示す。

#### 2.2.1 SX - FORTRAN による並列処理機能

マルチスレッド型の並列処理機能をSX-FORTRANでは マルチタスク機能<sup>1)</sup>と呼んでいる。本機能にはマクロタ スク機能とマイクロタスク機能の二つがある。前者はサ ブルーチンやサブルーチンの集合を並列処理の単位とし、 後者はDOループ(外側ループ、内側ループ)、文の集合、 文を並列処理の単位として並列化を行う。本節では、マ クロタスク機能及びマイクロタスク機能の概略及び利用 例について説明する。

#### (1)マクロタスク機能

マクロタスク機能は並列実行可能なサブルーチンやサ ブルーチン群で構成される複数のマクロタスクに対して、 各々別のプロセッサにタスクを割当、並列実行を行う。 プログラムに対するこれらの指示はライブラリの呼び出 しにより行われる。

マクロタスク処理を行うために、タスク制御機能、排 他制御機能、イベント制御機能及びパリア制御機能の4 つの制御機能が用意されている。タスク制御とはプログ





図2.3 プログラムの処理

表2.2 マクロタスク制御ルーチン一覧表

|          | ルーチン名・関数名     | 機能                                |
|----------|---------------|-----------------------------------|
|          | PTFORK        | マクロタスクの生成                         |
|          | ΡΤΙΟΙΝ        | 子タスクの終了待ち合わせ                      |
| タフ       | PTPARAM       | タスクパラメータの取り出し                     |
| ヘク制      | ΙΡΤSΤΑΤ       | 子タスクの状態調査                         |
| 御        | IPTID         | タスク識別番号の返却                        |
|          | IPTNAP        | 演算プロセッサ台数の返却                      |
| テン       | PTLIST        | タスクの状態を示すリストの出力                   |
|          | PSTUNE        | タスクスケジューラのパラメータの変更                |
|          | IPSMAX        | 最大物理タスク数の返却                       |
| tat:     | PLASGN        | ロックの割当                            |
| 他        | PLLOCK        | ロックを掛ける                           |
| 制御ルーチ    | PLUNLOCK      | ロックを外す                            |
|          | PLFREE        | ロックの解放                            |
| アン       | IPLSTAT       | ロックの状態の調査                         |
|          | IPLSTATL      | ロック状態を調査しロックが掛かっていなければロック<br>を掛ける |
|          | PEASGN        | イベントの割当                           |
| トベン      | PEWAIT        | イベントの通知待ち                         |
| トル       | PEPOST        | イベントの通知                           |
| 回日期チョン   | PECLEAR       | イベントのクリア                          |
| 間ノ御      | PEFREE        | イベントの解放                           |
|          | 1 P E S T A T | イベントの状態の調査                        |
| バー       | PBASGN        | バリアの割当                            |
| アル       | PBSYNC        | タスクの待ち合わせタスクの再開                   |
| 回り<br>期チ | PBFREE        | バリアの解放                            |
| 間ン御      | IPBSTAT       | バリアの状態の調査                         |

ラムの一部を複数のタスクに分割したときに、それらの タスクや生成の起動を指示したり、現在のタスクの状態 を調べるなど、タスクを管理するための機能である。タ スク制御により並列実行されるタスク間では、データ共 有したり、サブルーチンの実行結果を他のサブルーチン で利用するなど、サブルーチンの実行順序が結果に影響 を与える場合がある。このような場合、排他制御機能、イ ベント制御機能、パリア制御機能を用いて矛盾なくプロ グラムの実行を行うことができる。排他制御機能は、複 数タスクの排他的な実行を指示する。イベント制御機能 は、複数タスクを同期をとって実行することを指示する。 パリア制御機能は、イベント制御機能と同様に同期をと ることを指示し、同時に実行を開始したいタスクの数を 指定することにより、同時実行開始する。表2.2 にマクロ タスク制御ルーチンの一覧表を示す。

理解を容易にするために、表2.2の制御ルーチンを用い たプログラムの並列処理を図2.4 にマクロタスク使用例 として示す。図2.4(a)はオリジナルプログラムである。 (b)は組み込みルーチンを用いた並列処理プログラムで ある。アンダーラインのある文はタスク制御ルーチンで ある。(c)は並列動作を示したものである。

#### (2)マイクロタスク機能

マイクロタスク機能は、DO ループ及び文の集合を対 象に並列化指示行を挿入することにより並列処理を行う 機能である。

並列化指示行は、並列化を行う場所の直前に挿入し並 列処理の指示を行う。並列化指示行は、



(c)

図2.4 タスク制御ルーチンを用いたマクロタスク使用例

\* PDIR 並列化制御オプション の形式をとる。並列化制御オプションを表2.3 に示す。こ れらの並列化制御オプションは次節の「SX-FORTRAN に よる自動並列化機能」と関係するので、本節での使用例 の説明は冗長となるので省き、次節において説明する。

#### 2.2.2 SX - FORTRAN による自動並列化機能

SX-FORTRAN の自動並列化機能<sup>1)</sup>は、FORTRAN コン パイラの最適化プリプロセッサ (fopp;fortran optimized pre-processor)を起動することにより実現される。

foppはループの繰り返し間のデータ依存解析等を解析 して、オリジナルプログラム中に並列化指示行を自動挿 入する。また、必要に応じてオリジナルプログラムを局 所的に変形する。

foppにより生成されたプログラムにさらにオプション や並列化指示行などにより並列化の指定を行い手を加え ることが可能である。

foppにより自動的に生成される指示行を表2.3に示す。 foppの自動並列化のためのオプションを指定して実行す ることにより、表に示す指示行が自動生成される。

図 2.5 に PARDO を挿入する場合の例を示す。

(a)はオリジナルプログラムであり、(b)は自動変換後のプログラムである。

図2.6 にオリジナルプログラムの並列実行可能な部分 に PARCASE 群を自動挿入した例を示す。

(a)はオリジナルプログラムであり、(b)は自動変換後 のプログラムである。

図2.7に条件並列化による自動並列化の例を示す。(a) はオリジナルプログラムであり、(b)は自動変換後のプ ログラムである。多重DOループの繰り返し数M×Nが ある値(この例では2000)を越えれば並列処理を行い、越 えなければオリジナルプログラムの並列化されない多重

| 並列化制御オプション                                                                      | 機能                                                                                      | 自動並列化<br>制御オプシ<br>ョン |
|---------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------|----------------------|
| R E S E R V E = n                                                               | 最大n個のマイクロタスクからなるマイクロタス<br>クグループを生成することを指示する。                                            | 0                    |
| RELEASE                                                                         | マイクロタスクグループの解放を指示する。                                                                    | 0                    |
| $\begin{array}{ccc} P A R D O & B Y = n \\ P A R D O & F O R = n \end{array}$   | DOループの繰り返しを並列に実行することを指<br>示する。BY及びFORはDOループの繰り返し<br>の量を指定するのに用いる。                       | 0                    |
| PARCASE(配列名)<br>CASE<br>END CASE                                                | これらの制御オプションで囲まれた部分を並列に<br>実行することを指示する。                                                  | 0                    |
| SERIAL<br>END SERIAL                                                            | この2つの制御オプションに囲まれた部分をマス<br>タタスクで実行することを指示する。                                             | 0                    |
| $\begin{array}{c} C R I T I C A L = n \\ E N D C R I T I C A L = n \end{array}$ | この2つの制御オプションで囲まれた部分をマイ<br>クロタスク間で排他的に処理することを指示する<br>。                                   | 0                    |
| POST (=n)<br>WAIT (=n)                                                          | DOループ内又はPARCASEブロックに属す<br>る文の間で実行順序に依存関係がある場合に、こ<br>れらの制御オプションを用いて実行順序を保証す<br>ることを指示する。 |                      |
| ΕΧΙΤ                                                                            | PARDO及びPARCASEにおいてEXIT<br>の位置に到達した時点以降、全てのタスクでまだ<br>処理されていない実行の中止を指示する。                 |                      |
| PRIVATE(変数名)                                                                    | 指定した変数を、あるPARDOループまたは<br>PARCASEグループの中でだけローカル領域<br>に割り当てられた作業用変数で置き換えることを<br>指示する。      |                      |

#### 表2.3 マクロタスク並列化制御オプション及び自動並列化制御オプション一覧表

COMMON /X/ A (1000, 1000), B (2000, 1000) DO 300 J=1, 1000 DO 300 I=1, 1000 K=1+L T=SQRT (A (I, J)) 300 B (K, J)=T+1. 0/T ( a ) CALL LOOP300\$1 (A, B, L) SUBBOUTINE LOOP300\$1 (A P. L)

SUBROUTINE LOOP300\$1 (A, B, L) REAL A (1000, 1000), B (2000, 1000), T INTEGER J, I, L \*PDIR PARDO FOR=4 DO 300 J=1, 1000 \*VDIR NODEP DO 1=1, 1000 T=SQRT (A (1, J)) B (1+L, J) =T+1. 0/T ENDDO 300 CONTINUE RETURN END

(b)

#### 図 2.5 PARDO を使用した自動並列化

DO 202 J=1, M DO 201 I=1, N A (I, J) = (A (I-1, J) +A (I, J-1)) \*0.5 201 CONTINUE 202 CONTINUE NK=N-K ML=M+L DO 302 J=1, ML DO 301 I=1, NK C (I, J) = (C (I-1, J) +C (I, J-1)) \*0.5 301 CONTINUE 302 CONTINUE

( a )

\*PDIR PARCASE DO 202 J=1,M DO 201 I=1, N A(I, J) = (A(I-1, J) + A(I, J-1)) \* 0.5201 CONTINUE 202 CONTINUE **\***PDIR CASE NK=N-K ML=M+L DO 302 J=1, ML DO 301 I=1, NK C(I, J) = (C(I-1, J) + C(I, J-1)) \* 0.5CONTINUE 301 302 CONTINUE **\*PDIR ENDCASE** 

#### (b)

#### 図 2.6 PARCASE 群を使用した自動並列化

DO 50 J=1.M DO 40 I=1, N A(1, J) = 0.040 CONTINUE 50 CONTINUE (a) IF (M\*N. GT. 2000) THEN CALL T\$1 (M, N, A) ELSE DO J=1, M **\*VDIR** NODEP DO 1=1, N A(1, J) = 0.0ENDDO ENDDO ENDIF . . . . . . . . . . . . SUBROUTINE T\$1 (M, N, A) INTEGER M, N, I, J REAL A (999, 999) \*PDIR PARDO DO 50 J=1, M \*VDIR NODEP DO 40 I=1, N A(1, J) = 0.0CONTINUE 40 **50 CONTINUE** RETURN END

DO ループを実行する。図中、

\* VDIR NODEP

の指示行は、後に続くDOループをベクトル化することを示す。

この他、総和、累積などのマクロ演算に対する自動並列化、最内側 DO ループの自動並列化等を行うための変換なども fopp で行うことができる。

# 第3章 推進系プログラムの概要

3.1 プログラム の概要

プログラム は、スクラムジェットエンジンの2次元 燃焼器流れを解析するプログラムである。

一般座標系ナビエ・ストークス方程式

Q / t + F / + G / = F<sub>v</sub> / + G<sub>v</sub> / Q,F,G,F<sub>v</sub>,G<sub>v</sub>:4次元ペクトル

にKRCスキーム<sup>2)</sup>を適用して差分方程式を求めIAF解法 を用いて解いている。この方程式は次のように書くこと ができる。

(b)

#### 図2.7 作業量を基準にした条件並列化による自動並列化



— PLOTOUT (write F23, F06)

図 3.1 プログラム のプログラム構造



図3.2 サブルーチン単位の並列処理構造

A A Q<sup>n+1</sup> =(L + L )Q<sup>n</sup> L , L , A , A :オペレータ

図 3.1 にプログラム構造及びサブルーチンの処理内容を 示す。

本プログラムでは、方程式の右辺を計算し、方程式を 解き、 Q<sup>n+1</sup>を求める操作を指定回数、繰り返す。プロ グラム構造図に示す機能をもつサブルーチンのうち、 FDKSI, FDETA, EDYVIS, FVKSI, FVETA は図3.2 に示す 形式でサブルーチン単位での並列処理が可能である。

本プログラムで用いられる配列は1次元配列、2次元配 列及び4次元配列であり、その殆どが2次元配列である。 特に、複数のサブルーチン間で用いられるグローバルな 配列は全て2次元配列であり、約50個ある。そのほか、 サブルーチン内でのみ使用されるローカルな配列は約 170個ある。1データ当たり倍精度(8バイト)で計算す ると約100MBのデータ量となる。 また、各サブルーチンのDOループは1重DOループと 2重DOループから構成されている。2重DOループの最 内DOループの個数は1つまたは2つであり、その殆どは 1つである。それらの数と並列性の有無を表3.1 に示す。 本表で並列処理可能とは、DOループの処理の内容から 基本的に並列処理できるものをいう。従って、並列ベク トル計算機のコンパイラでは、ベクトル対象とならない read文 / write文などを含むDOループも並列処理可能と なっている。表に示すように殆どのDOループは並列処 理可能であるが、IAFKSI及びIAFETAサブルーチンの2 重DOループの内、半分のDOループについては解法上、 1方向は逐次処理となっている。

本プログラム実行条件は格子点数601 × 101、反復回数 2000 回である。

#### 3.2 プログラム の概要

プログラム は、高温衝撃風洞の軸対称2次元化学反

|          | DON | ープ数 | DOループの並列性                             |          |  |
|----------|-----|-----|---------------------------------------|----------|--|
| サブルーチン名  | 2重  | 1重  | 2重DOループ                               | l重DOループ  |  |
| MAIN*    | 3   | 0   | 両方向並列処理可能                             |          |  |
| PRELUD*  | 9   | 0   | 両方向並列処理可能                             | <u> </u> |  |
| EDYVIS   | 4   | 6   | 両方向並列処理可能                             | 並列処理可能   |  |
| FDKSI    | 20  | 3   | 両方向並列処理可能                             | 並列処理可能   |  |
| FDETA    | 20  | 3   | 両方向並列処理可能                             | 並列処理可能   |  |
| FVKSI    | 2   | 0   | 両方向並列処理可能                             |          |  |
| FVETA    | 2   | 0   | 両方向並列処理可能                             |          |  |
| IAFKSI   | 4   | l   | 2:1方向並列処理可能<br>他方向逐次処理<br>2:両方向並列処理可能 | 並列処理可能   |  |
| IAFETA   | 4   | 1   | 2:1方向並列処理可能<br>他方向逐次処理<br>2:両方向並列処理可能 | 並列処理可能   |  |
| EVOLUT   | 1   | 0   | 両方向並列処理可能                             |          |  |
| СНЕСК    | 1   | 0   | 両方向並列処理可能                             |          |  |
| BC       | 1   | 8   | 両方向並列処理可能                             | 並列処理可能   |  |
| EXTOUT   | 1   | 4   | 両方向並列処理可能                             | 並列処理可能   |  |
| PLOTOUT* | 2   | 0   | 両方向並列処理可能                             |          |  |

表3.1 プログラム の DO ループの並列性

\*印は反復処理外サブルーチンである。

応流・非定常流れを解析するプログラムである。基礎方 程式は以下の一般座標系ナビエ・ストークス方程式であ る。

これを、Strung's Time Splitting により、対流項+粘性項 (+軸対称項)と化学反応生成項の式に時間分割し、対流 項+粘性項(+軸対称項)に対しては陽的2次Runge-Kutta 法を、そして化学反応生成項には陰的Crank-Nicolson 法を適用し、時間2次のオペレータにより計算 する。これにより、Uを求める。

$$L_{f}$$
: U / t + F / + G /  
=  $F_{v}$  / +  $G_{v}$  / +  $S_{r}$ 

 $L_s$ : U / t =  $S_s$ 

U<sup>n+1</sup> = L<sub>f</sub>( t / 2)L<sub>s</sub>( t)L<sub>f</sub>( t / 2)U<sup>n</sup> L<sub>f</sub>:陽的2次Runge-Kutta法による 時間積分オペレータ L<sub>s</sub>:陰的Crank-Nicolson法

なお、空間差分については、対流項には2次精度KRCス キーム<sup>2</sup>、粘性項には中心差分法を用いている。

図3.3 にプログラム構造及びサブルーチンの処理内容 を示す。図において、MAIN プログラムの前処理は初期 設定及び格子生成のサブルーチン群である。後処理は本 プログラムで求められた数値解や基本的な配列の磁気 ディスクへの出力処理である。煩雑のため、プログラム 構造図への記載は省略する。

本プログラムはプログラム構造図に示すような一連の サプルーチン群の連続処理となっている。これらのサプ ルーチンの内、FDKSI2及びFDETA2はサプルーチン単



図3.3 プログラム のプログラム構造

位で並列処理することが可能である。

本プログラムに用いられる配列は1次元配列、2次元配 列及び3次元配列である。これらの配列の内、複数のサ ブルーチンで使用されるグローバルな配列は約250個、 サブルーチン内でのみ使用されるローカルな配列も約 250個ある。1データ当たり倍精度(8バイト)で計算す ると約130MBのデータ量となる。

また、サブルーチンのDOループは1重DOループと2 重DOループから構成されており、2重DOループの最内 DOループの個数は1~11個と巾広いが、その殆どは1個 である。最内 DO ループの個数が多いサブルーチンは SIMPLC, FDKSI2, FDETA2 および TCALCU である。

DO ループの種類及びその並列性の有無を表 3.2 に示 す。本表において並列処理可能であるとは DO ループの 処理内容から基本的に並列処理できるものをいう。表に 示すように殆どの DO ループは並列処理可能であるが、 SIMPLC サブルーチンの2 重 DO ループ3つの内、2つの 2 重 DO ループについては解法上、1 方向は逐次処理と なっている。このように、本プログラムは行列反転を除 く DO ループについては全て並列処理可能である。

本プログラムの実行条件は格子点数 801 × 51、反復回数 1000 回である。

#### 表3.2 プログラム の DO ループの並列性

| サブルーエンタ  | DON | ープ数 | DOループの並列性                             |            |  |
|----------|-----|-----|---------------------------------------|------------|--|
| サブルーサブ石  | 2重  | l重  | 2 重D O ループ                            | l 重D O ループ |  |
| TIMEINT  | 6   | 0   | 両方向並列処理可能                             |            |  |
| FDKSI2   | 1   | 0   | 両方向並列処理可能                             |            |  |
| FDETA2   | 1   | 0   | 両方向並列処理可能                             |            |  |
| AXISYM   | 1   | 0   | 両方向並列処理可能                             |            |  |
| ВC       | 0   | 4   |                                       | 並列処理可能     |  |
| МІЅС     | 5   | 0   | 両方向並列処理可能                             |            |  |
| TCALCU   | 2   | 0   | 両方向並列処理可能                             |            |  |
| SOURCE71 | 0   | 5   |                                       | 並列処理可能     |  |
| SIMPLC   | 3 * | 1   | 2:1方向並列処理可能<br>他方向逐次処理<br>1:両方向並列処理可能 | 並列処理可能     |  |
| EXTOUT   | 1   | 0   | 両方向並列処理可能                             |            |  |

(反復処理内サブルーチン)

(反復処理外サブルーチン)

| サブルーチンタ | DOループ数 |    | DOループの並列性   |            |  |
|---------|--------|----|-------------|------------|--|
| ッフルーテン石 | 2重     | l重 | 2 重 D O ループ | l 重D O ループ |  |
| MAIN    | 3      | 0  | 両方向並列処理可能   |            |  |
| PRELUD  | 1      | 0  | 両方向並列処理可能   |            |  |
| EQCOMP7 | 0      | 4  |             | 並列処理可能     |  |
| QUDRATC | 0      | 1  |             | 逐次処理       |  |
| QUARTIC | 0      | 1  |             | 逐次処理       |  |
| LOWTEMP | 0      | 1  |             | 逐次処理       |  |
| CHARAC  | 0      | 6  |             | 並列処理可能     |  |
| GRIDRD  | 7      | 2  | 両方向並列処理可能   | 並列処理可能     |  |
| SETVISC | 1      | 1  | 両方向並列処理可能   | 並列処理可能     |  |

\*: DOループはその一部に3重DOループとなる部分を含む。

# 第4章 推進系プログラムの並列処理性能の分析

#### 4.1 測定方法

- (1) 測定環境
  - ・使用ハードウェア:SX-3/44R
    - **主記憶** 4GB

・使用ソフトウェア:
 オペレーティングシステム: SUPER-UX (R4.2)
 コンパイラ: FORTRAN77/SX R082

最適化プリプロセッサ:FOPP4.07J3 解析ツール:ANALYZAR-P/SX R154

(2) **測定条件** 

測定条件は以下のとおりである。

・拡張記憶装置(XMU)は使用しない。これは、プロ グラム上、拡張記憶を使用する指示が入らないこと を示す。

・コンパイルオプションはサブルーチン単位で指定を

行った。

- ・オリジナルプログラムを修正せずに評価対象プログ ラムとした。ただし、プログラム に含まれるサブ ルーチンCHECK内のDOループ中のWRITE 文はベ クトル化を極端に阻害しており、機能的にも中間結 果の出力のみを行っており、最終結果に影響を与え ないので省き、そのDOループをベクトル化された DOループとして処理を行った。
- ・基本的に自動ベクトル / 自動並列化機能を用いて チューンアップを行った。
- ・並列化に関しては DO ループの並列化、即ち、マイ クロタスク処理のみ適用した。

#### (3) 測定手順

プログラムのチューニングにおいては、基本的には最 適化プリプロセッサとコンパイラによる、ソース・コー ドとオブジェクト・コードの最適化が主たる作業であり、 以下の手順を繰り返す。

最適化プリプロセッサはベクトル化や並列化の対 象となる一連の DO ループを最適化の対象にし、オ リジナルプログラムをベクトル化や並列化に最適な プログラムへと変形する。

最適化プリプロセッサの並列化に関するソース コードの修正とは、多くの場合並列化の対象となる ループをサプルーチン化してそれを呼び出す形に変 形する事である。例えば以下のようになる。

オリジナルプログラム

DO 10 I=1, N DO 10 J=1, M

• • •

**10 CONTINUE** 

ループ削除 ルーチン新規作成

変形プログラム

CALL SUB1

SUBROUTINE SUB1 DO 10 I=1, N DO 10 J=1, M

10 CONTINUE

次に、コンパイラ FORTRAN77/SX により、並列 化及びベクトル化の最適オブジュクトコードを生成 する。

測定結果により、ベクトル化状況、並列化状況、 CPUコスト分布、キャッシュ・ミスヒット時間、バ ンク競合時間等のバランスを鑑みて、ソースコード に最適化プリプロセッサやコンパイラに対する指示 行を適宣挿入して、性能を向上させる。

#### 4.2 プログラム の並列処理

(1)シングルプロセッサ処理

プログラム のサブルーチン単位のCPU 負荷分布を図 4.1 に示す。

上位6ルーチンで全経過時間の94%の経過時間を占め、 特にIAFKSI,FDETA,FDKSI,IAFETAの4ルーチンは ほぼ均等に分布している。メインルーチンには最初と最 後で生じるファイル入出力時間、約18秒が含まれてい



図 4.1 プログラム の CPU 負荷分布

る。

プログラム の平均ベクトル化率は 99.5%であるが、 最も負荷の大きい EDYVIS ルーチンのベクトル化率は 95.3%でありやや低い。これは EDYVIS ルーチンの CPU 負荷の大きい、又は CPU 時間を多く消費する(以下、高 コストという) ループに4つの条件文と GOTO 文がある ためにベクトル化されない部分があることによる。

EDYVIS ルーチンに続く FDETA, FDKSI, IAFETA, IAFKSI ルーチンについては各ルーチンとも表3.1 に示す ように、ループは沢山あるがすべて最深ループがベクト ル処理されている。

プログラムの平均ループ長は170.2と長い方であり、 良い性能が得られている。

#### (2) マルチプロセッサ処理

プログラム のマルチプロセッサ処理においては、全 てのサプルーチン内の DO ループにマイクロタスク処理 を適用した。以下に示すルーチンを並列化した。

- EDYVIS
- FDETA
- FDKSI
- IAFETA
- IAFKSI
- MAIN
- BC
- FVETA
- FVKSI
- ・ EVOLUT (並列効果は小)
- ・ CHECK (並列効果は小)
- ・ PRELUD (並列効果は小)
- ・ PLOTOUT (並列効果は小)

並列化は基本的に自動並列化を行っている。並列処理 可能であるが、最適化プリプロセッサによる並列処理指 示行の自動挿入がなされない DO ループに対しては、並 列化指示行を挿入した。本プログラムにおいては、表4.1 に示す DO ループがその対象となった。 以上のように、本プログラムに並列化を適用した結果 を表4.2 に示す。高コストルーチンを代表として、その ルーチンの中の高コストループのループ長及びベクトル / 並列演算状況を示す。

最高コストルーチンEDYVISの中で最も時間のかかる DOループ内において、2次元配列の第2添字についての データの引用があり、同時に最小値計算のための条件/ GOTO文がある。こうした場合、ベクトル化が困難であ るためスカラー演算で計算を行うこと、及びキャッシュ ミス(キャッシュメモリにアクセスデータが存在しない 状況)が起こり易いために最もCPUコストのかかるルー チンとなっている。

IAFETA及びIAFKSIルーチンにおいてはルーチン内の 最高コストループは2重ループであり、内側のループは ベクトル化されているが、外側のループは漸化式計算と なるため、ベクトル化も並列化も不可能である。した がって、並列処理による性能向上がそれほど期待できな い。

FDETA及びFDKSIルーチンはすべてのループに関して、内側ループがベクトル化、外側ループが並列化されている。

3章の表3.1 と表4.1 を比較すると高コストループにお いて、並列処理可能な部分は全て並列処理又はベクトル 処理されることがわかる。

# (3)シングルプロセッサ及びマルチプロセッサ処理結果 の検討

以下に示す測定結果の時間は、いずれもプログラムの 経過時間を示す。

並列処理の経過時間の分析を行うためには、オリジナ ルプログラムをいくつかのパージョンに変形させたプロ グラムの目的別オブジェクトプログラムを作成し、必要 なプロセッサ数を使用して実行する必要がある。それら をケースとしてまとめ表4.3 に示す。

表中、ケース名として示すOPV11はシングルプロセッ サ対応のロードモジュールを1プロセッサで実行する場 合を示す。PPV11は最適化プリプロセッサがオリジナル プログラムを並列処理用プログラムに書き換えたものを、

| サブルーチン名 | 修正内容                                      | 修正箇所               |
|---------|-------------------------------------------|--------------------|
| EDYVIS  | 並列化指示行によるDOループの並列化<br>(*PDIR PARDO FOR=2) | DO 30 ループ<br>直前に挿入 |

表4.1 プログラム のチューニング

| サブルーチン | 高コストループ                 | ループ長                                              | ベクトル<br>/並列 | 備考                                                            |
|--------|-------------------------|---------------------------------------------------|-------------|---------------------------------------------------------------|
| EDYVIS | DO 30<br>DO 31<br>DO 32 | 601<br>99<br>101                                  | P<br>V<br>V | 最小値計算部分で、部分ベクトル化である。                                          |
| FDETA  | DO 10<br>DO 10          | $\begin{array}{c}1 & 0 & 1\\5 & 9 & 9\end{array}$ | P<br>V      | 本サブルーチン内の他の2重DOループも<br>DO 10 ループと同処理される。                      |
| FDKSI  | DO 10<br>DO 10          | 99<br>601                                         | P<br>V      | 本サブルーチン内の他の2重DOループも<br>DO 10 ループと同処理される。                      |
| ΙΑΓΕΤΑ | DO 100<br>DO 30         | 98<br>599                                         | V           | 本2重DOループの他の最内DOループも同<br>様にベクトル化。外側DOループは添え字の<br>繰上のため並列化出来ない。 |
| IAFKSI | DO 100<br>DO 30         | 598<br>99                                         | v           | 本2重DOループの他の最内DOループも同<br>様にベクトル化。外側DOループは添え字の<br>繰上のため並列化出来ない。 |

表4.2 プログラム の並列処理

注) P:並列化可能 V:ベクトル化可能

表4.3 各種ケース一覧表

| ケース名        | ソースプログラム   | オブジェクト<br>プログラム       | 実行時使用<br>プロセッサ数 |
|-------------|------------|-----------------------|-----------------|
| 0 P V 1 1   | オリジナルプログラム | シングルプロセッサ用<br>ベクトル化のみ | 1台              |
| PPVII       | 並列処理用プログラム | シングルプロセッサ用<br>ベクトル化のみ | 1台              |
| P P V P 2 1 | 並列処理用プログラム | 2 プロセッサ用<br>ベクトル化+並列化 | 1台              |
| PPVP22      | 並列処理用プログラム | 2 プロセッサ用<br>ベクトル化+並列化 | 2 台             |
| PPVP44      | 並列処理用プログラム | 4 プロセッサ用<br>ベクトル化+並列化 | 4 台             |

1 プロセッサのベクトル演算のみで実行するようにコン パイルしたロードモジュールを1 プロセッサで実行する 場合を示す。PPVP21は2 プロセッサ用の並列処理プログ ラムを1プロセッサで実行する場合を示す。PPVP22及び PPVP44はそれぞれ2プロセッサ及び4プロセッサ用の並 列処理プログラムのロードモジュールを2台または4台

| <b>ケーフタ</b> |      | 測定値  | 理論値               |      |      |
|-------------|------|------|-------------------|------|------|
| クース石        | 経過時間 | 倍率   | キャッシュ・ミスヒット<br>時間 | 経過時間 | 倍率   |
| OPV11       | 232  | 1.00 | 5                 | _    |      |
| PPV11       | 237  |      | 5                 | 237  | 1.00 |
| PPVP21      | 244  |      | 6                 |      | _    |
| PPVP22      | 169  | 1.37 | 9                 | 151  | 1.57 |
| PPVP44      | 152  | 1.53 | 16                | 108  | 2.19 |

表4.4 プログラム の測定値分析結果(1)経過時間一覧表(単位:秒)

のプロセッサで実行する場合を示す。

ここで、PPV11は並列化率から理論性能倍率を計算す る目的で、ソースプログラム種別を統一するためのもの である。また、PPVP21の処理により並列処理を行ったこ とによるオーバーヘッド時間を経過時間積算として計測 する。

本プログラムの並列化率は並列処理プログラムのFOR-TRAN アナライザの実行結果より 72.5%であった。本プ ログラムの1プロセッサでの実行時間のうち、並列実行 可能部分の実行時間が 72.5%あることを示す。

並列化率から並列化による実行時間の理想的な理論性 能倍率を求める。プロセッサ数nで並列処理する場合の 理論性能倍率 r<sub>n</sub> を次式により求める。

r<sub>n</sub> = 1 **/{**p **/** n **+ (**1 - p **)}** n**:並列台数** 

p:並列化率の実数表示

これにより理論性能倍率は、2プロセッサの場合1.57倍、 4プロセッサの場合2.19倍である。

表4.4 に5 つのケースの実行結果及び理論性能を示す。 理論性能倍率から算出した理論予測値は2 プロセッサで は151 秒であり、4 プロセッサでは108 秒である。

表4.4より実測による並列化効果は、2プロセッサの理 論性能倍率1.57 に対し実測性能倍率1.37 であり、4 プロ セッサの理論性能倍率2.19 に対し1.53 である。ここで理 論と実測では、倍率のペースとなるロードモジュールが 異なるので、厳密には比較できないものであるが、実際 には大差ないので比較しても良いであろう。 図 4.2 に各ケースの経過時間及び理論性能倍率による 経過時間を示す。PPV11 と OPV11 の経過時間の差を  $t_1$ 、 PPVP21 と PPV11 の経過時間の差を  $t_2$ 、 PPVP22 及び PPVP44 とそれぞれの理論性能倍率による経過時間の差 を  $t_3$ 、  $t_4$  で表す。それぞれ、 $t_1 = 5$  秒、 $t_2 = 7$  秒、 $t_3 = 18$ 秒、 $t_4 = 44$  秒である。

t<sub>1</sub>は最適化プリプロセッサにより作成された並列処理 用ソースプログラムの書き換えられることにより増大し た部分の経過時間を表す。

t<sub>2</sub> は各プロセッサとの並列処理命令やデータをやり取 りする際の前処理と後処理時間である並列処理に関する オーバーヘッド時間積算分及びキャッシュ・ミスヒット 時間である。

- t₃**及び**t₄は
- (a) ソースプログラムの書換えによる増加時間
- (b) 並列処理に関するオーバーヘッド時間
- (c)負荷分散(並列に実行するプロセスの実行時間のば らつき)による増加時間
- (d) キャッシュ・ミスヒット時間
- (e) メモリ競合時間(異なるプロセスが共有メモリを同時にアクセスしたときの待ち合わせ時間)

であると考えられる。

分析結果の詳細を表4.5 に示す。ここで並列処理オー パーヘッド及び負荷分散の情報はアナライザー等の情報 からの推定値である。表より2プロセッサにおいても4プ ロセッサにおいても理論予測値と実測値との差に最も大 きく影響を与えるのがメモリ競合時間である。これはSX-3Rのメモリスループット性能が、2プロセッサの場合で も4プロセッサの場合でも同じであることがその原因で

#### 航空宇宙技術研究所報告 1430 号



図4.2 プログラム のケース毎の経過時間

| L 74        | 経過時間<br>の差       | 経過時間の差の内訳 |                 |      |                    |           |  |
|-------------|------------------|-----------|-----------------|------|--------------------|-----------|--|
| リース名        |                  | ソース<br>修正 | 並列処理<br>オーバーヘッド | 負荷分散 | キャッシュ・ミス<br>ヒット 時間 | メモリ<br>競合 |  |
| 0 P V 1 1   | 0 * <sup>1</sup> | _         |                 | _    |                    |           |  |
| PPVII       | 5 *1             | 5         |                 | _    |                    |           |  |
| PPVP21      | 1 2 *1           | 5         | $3 \times 2$    |      | 1                  |           |  |
| P P V P 2 2 | 18*2             | 5         | 3               | 1    | 4 / 2              | 7         |  |
| PPVP44      | 44*2             | 5         | 3               | 1    | 1 1 / 4            | 32        |  |

表4.5 プログラム の測定値分析結果(2)経過時間詳細分析(単位:秒)

\*1:OPV11の経過時間との差である。

\*2:各々の理論値の経過時間との差である。

注) 並列処理オーバーヘッド及び負荷分散の情報はアナライザ等の情報からの推定値である。

ある。本プログラムの並列処理において2プロセッサの 場合、プログラム処理の経過時間のメモリ競合時間の占 める割合は全体の4%程度であるが、4プロセッサになる と全体の21%にものぼり、理論値と実測値の差の時間の 70%以上を占めている。SX-3Rの4プロセッサ時のメモリ スループット性能が2プロセッサ時のそれの2倍のメモ リスループットを持てば、メモリ競合による実行時間の 低下は数%程度と予想されるので、4 プロセッサ時の性 能倍率は1.53から1.8程度に上がることが推測される。 4.3 プログラム の並列処理

(1)シングルプロセッサ処理

プログラム のサブルーチン単位のCPU負荷分布を図 4.3 に示す。

高負荷ループのループ長は平均200程度(50~800程 度)と大きく、効率的なベクトル演算を行っている。ベ クトル演算率も99.5%と十分ベクトル化されている。た だし、最もコストの高いFDETA2ルーチンの最内側DO ループのループ長が平均50程度であることが、唯一ベク トル性能の効率を下げる要因となっている。



図 4.3 プログラム の CPU 負荷分布

#### (2) マルチプロセッサ処理

本プログラムのマルチプロセッサ処理においては、プ ログラム の全てのサプルーチン内のDOループにマイ クロタスクによる並列処理を適用した。

以下に示すCPUコストの高い上位8ルーチンを並列化した。

- FDETA2
- FDKSI2
- SIMPLC
- MISC
- TCALCU
- SOURCE71
- MAIN
- TIMEINT

自動並列化機能を適用したが、表4.6 に示す FDETA2, FDKSI2 ルーチンのそれぞれの DO ループにおいては表 に示す並列化指示行の挿入を行った。

高コストルーチンの中の高コストループについて、各 ループ長とベクトル/並列演算状況を表 4.7 に示す。 FDETA2 ルーチンでは、並列化対象となる外側 DO ルー プのループ長は 799 と大きく、並列処理における粒度の 大小はこの大きさで決まる。また、内側の10個のDOルー プが一括して並列演算できるので、一層粒度が大きく、 処理効率の良いものとなっている。

表4.7 のその他のルーチンにおいても、ループ長が長 く、ベクトル化又は並列化にとって効果的である。また、 表3.2に示すようにSIMPLCルーチンのDOループにおい て一方向しか並列化可能でないDOループがあるが、並 列化可能な最深 DOループのループ長が約4万と非常に 大きいループ長となっているので、並列ベクトル化が可 能となり、並列化を促進している。

# (3)シングルプロセッサ及びマルチプロセッサ処理結果 の検討

以下に示す測定結果の時間はいずれも経過時間を示す。 また、ケース名については表4.3にて説明したものと同様 である。

本プログラムの並列化率は、PPVP21の並列処理プロ グラムのFORTRANアナライザの実行結果より95.1%で あった。これより並列化による実行時間の理想的な理論 性能倍率を求めると、2プロセッサの場合1.91倍、4プロ セッサの場合3.49倍である。

表4.8に5つのケースの実行結果と理論性能の経過時間 及び倍率を示す。理論性能倍率より算出した理論予測値

| サブルーチン名 | 修正内容                                       | 修正箇所              |
|---------|--------------------------------------------|-------------------|
| FDETA2  | 並列化指示行による外側ループでの並列化<br>(*PDIR PARDO FOR=2) | DO 1 ループ<br>直前に挿入 |
| FDKSI2  | 並列化指示行による外側ループでの並列化<br>(*PDIR PARDO FOR=2) | DO l ループ<br>直前に挿入 |

表4.6 プログラム のチューニング

表4.7 プログラム の並列処理

| サブルーチン       | 高コストループ                                                                         | ループ長                                                 | ベクトル<br>/並列                      | 備考                                                                |
|--------------|---------------------------------------------------------------------------------|------------------------------------------------------|----------------------------------|-------------------------------------------------------------------|
| F D E T A 2  | DO 1<br>DO 10<br><br>DO 300                                                     | 799<br>51<br>49                                      | P<br>V<br>V                      | サブルーチン全体をループ1で並列化した。<br>ループ1内に10個のベクトル化ループがあ<br>る。                |
| FDKS12       | DO 1<br>DO 10<br><br>DO 300                                                     | 49<br>801<br>799                                     | P<br>V<br>V                      | サブルーチン全体をループ1で並列化した。<br>ループ1内に10個のベクトル化ループがあ<br>る。                |
| SIMPLC       | $ \begin{array}{c ccccccccccccccccccccccccccccccccccc$                          | $\begin{array}{cccccccccccccccccccccccccccccccccccc$ | PV<br>PV<br>PV<br>PV<br>PV<br>PV | 本サブルーチン内でループ長の明白な定義が<br>ある。そのループ長が40000程度で十分<br>大きいので、「PV」で処理される。 |
| TCALCU       |                                                                                 | 49<br>801                                            | P<br>V                           | DO 100 内の5個の内側ループを自動<br>融合し、ひとつの内側DOループとした。                       |
| MISC         | $ \begin{array}{c}     DO 1 \\     DO 1 \\     DO 11 \\     DO 11 \end{array} $ | 5 1<br>8 0 1<br>5 1<br>8 0 1                         | P<br>V<br>P<br>V                 | DO 1と DO 11 はループ融合され<br>1つのDOループとなっている。                           |
| SOURCE<br>71 | DO 1                                                                            | 39247                                                | ΡV                               | サブルーチン内の他の5個のDOループも同<br>様に同時並列・ベクトル化する。                           |

注) P:並列化 V:ベクトル化 PV:並列ベクトル化

は、2プロセッサでは256秒であり、4プロセッサでは140 秒である。実測による並列化効果は、2プロセッサの理論 性能倍率 1.91 に対し、実測性能倍率 1.75、4 プロセッサ の理論性能倍率 3.49 に対し、2.36 である。

図4.4 に各ケースの経過時間及び理論性能倍率による 経過時間を示す。OPV11とPPV11の経過時間に差がない 事から、並列処理のためのプログラム修正におけるオー バーヘッドはないことがわかる。したがって、理論値と 実測値の差の原因は次の通りであることがわかる。 t<sub>1</sub>は11秒であり、これは並列処理に関するオーバーヘッド時間積算値及びキャッシュ・ミスヒット時間である。

T<sub>2</sub>及びT<sub>3</sub>はそれぞれ24秒、67秒であり、これは(a) 並列処理に関するオーバーヘッド時間、(b)負荷分散、 (c)キャッシュ・ミスヒット時間、(d)メモリ競合時間 である。

分析結果の詳細を表4.9に示す。表において、並列処理 オーバーヘッド及び負荷分散の情報はアナライザー等の 情報からの推定値である。

| <b>に、</b> フタ |      | 測定値  | 理論値               |      |      |
|--------------|------|------|-------------------|------|------|
| ケース名         | 経過時間 | 倍率   | キャッシュ・ミスヒット<br>時間 | 経過時間 | 倍率   |
| 0 P V 1 1    | 489  | 1.00 | 24                |      |      |
| PPV11        | 489  |      | 24                | 489  | 1.00 |
| PPVP21       | 500  |      | 27                |      |      |
| PPVP22       | 280  | 1.75 | 32                | 256  | 1.91 |
| PPVP44       | 207  | 2.36 | 4 4               | 140  | 3.49 |

表4.8 プログラム の測定値分析結果(1)経過時間一覧表(単位:秒)



**経過時間(単位:秒)** 



図4.4 プログラム のケース毎の経過時間

表からはプログラム と同様に、メモリ競合時間に最 も負荷のかかっていることがわかる。2 プロセッサの場 合、プログラム全経過時間の5%、4 プロセッサでは全体 の27%もあり、理論値と実測値の差の時間の80%以上を 占めている。原因はプログラム で述べたことと同様に メモリスループット性能によるものである。4 プロセッ サの場合のメモリスループットが2 プロセッサの2 倍で あれば、メモリ競合による実行時間の低下は数%程度と 予想されるので、4 プロセッサ時の性能倍率は2.36 から 3.0 に上ることが推測される。

## 4.4 まとめ

表4.10は、プログラム 及びプログラム のベクトル

化率及び並列化率をまとめたものである。図4.5は両プロ グラムのプロセッサ数毎の測定値及び理論値を図示した ものである。また、図4.6は両プログラムの速度向上率を 示したものである。これらの図から、並列化率の大きい プログラム程並列化率から求めた理論倍率及び実測倍率 がいずれのプロセッサ数の場合も大きいことがわかる。 また、並列化率には関係なく、いずれのプロセッサ数の 場合も実測倍率は理論倍率より小さい。

図4.7 は両プログラムの測定値と理論値との経過時間 の差の内訳を2 プロセッサ及び4 プロセッサについて百 分率表示したものである。理論値と測定値との差は、並 列化によるオリジナルプログラム修正によるもの、並列 処理オーバーヘッド時間、負荷分散、キャッシュ・ミス

| ケース名      | 経過時間<br>の差       | 経過時間の差の内訳 |                 |      |                    |           |  |
|-----------|------------------|-----------|-----------------|------|--------------------|-----------|--|
|           |                  | ソース<br>修正 | 並列処理<br>オーバーヘッド | 負荷分散 | キャッシュ・ミス<br>ヒット 時間 | メモリ<br>競合 |  |
| 0 P V 1 1 | 0 *1             |           |                 |      |                    |           |  |
| PPV11     | 0 *1             | 0         | _               |      |                    |           |  |
| PPVP21    | 11*'             | 0         | $4 \times 2$    |      | 3                  |           |  |
| PPVP22    | 24*2             | 0         | 4               | 3    | 8 / 2              | 13        |  |
| PPVP44    | 67* <sup>2</sup> | 0         | 4               | 3    | 2 0 / 4            | 55        |  |

表4.9 プログラム の測定値分析結果(2)経過時間詳細分析(単位:秒)

\*1:0PV11の経過時間との差である。

\*2:各々の理論値の経過時間との差である。

並列化率

注) 並列処理オーバーヘッド及び負荷分散の情報はアナライザ等の情報からの推定値である。

|        |        | /        |
|--------|--------|----------|
| プログラム  | プログラムI | プログラム II |
| ベクトル化率 | 99.5%  | 99.5%    |
|        |        |          |

95.1%

72.5%

表4.10 ベクトル化率及び並列化率





図4.6 プログラム 及びプログラム の速度向上率



図4.7 プログラム 及び の経過時間詳細分析

ヒット時間、メモリ競合時間等により説明される。

表4.10 及び図4.7 からは、並列化率やプロセッサ数に 関係なく経過時間の差の内訳はメモリ競合時間の割合が 最も大きいことがわかる。また、メモリ競合時間はプロ セッサ数が増大すると大きくなる。また、並列化率の大 きいプログラムの方がプロセッサ数を増大させるほどメ モリ競合による負荷が増大する。

プログラム 及びプログラム の並列化率はそれぞれ 72.5%、95.1%であり、プログラム の方がプログラム より並列化率が小さい。この理由として以下のことが言 える。

プログラム はプログラム に比較して、以下の特徴 がある。

漸化式計算がある。

実行頻度の多いDOループの中に条件文判定による GOTO文を含むものがあり、完全にはベクトル化され ない。

入出力命令の負担が大きい。

全体的に粒度の小さい DO ループが多い。

の添え字繰り上げの漸化式計算を行う DO ループ処 理において、2重ループの場合、SX-3R システムでは通常 外側ループを並列化するが、外側ループが添え字の繰り 上げなどを行っている場合は並列化ができない。この場 合、2つのループの入れ替えによって並列化はできるが、 入れ替えの結果ベクトル化が阻害される場合は入れ替え をせず、ベクトル化のみで並列化しない方式が選ばれる。 すなわち、ベクトル化しないで並列化するか、ベクトル 化はするが並列化しないかのどちらかの選択になる。

この問題は2次元の数値シミュレーションを対象とす る場合、避けて通れない。しかし、2次元問題であっても ベクトル化可能なループ長が十分長ければ、内側ループ をベクトル化と同時に並列化することで、性能向上でき る場合がある。

また、3次元問題を対象とする数値シミュレーション であれば3重DOループとなり、3つのループの内2つの ループがベクトル化、または、並列化可能になり、効率 の良い処理ができる。

の条件文判定によるGOTO文を含むループの回避に

ついては、以下のことが言える。

サブルーチン EDYVIS においては、高コストループが 条件文判定による GOTO 文を含んだループになってお り、ほとんどベクトル化されていない。こうしたスカラ 演算を行うループでは、配列参照の際のアドレスの飛び が大きいとキャッシュミスが起こり易いことから、なる べく連続にメモリを参照するようなコーディングが望ま しい。

また、一般にGOTO文を含んだDOループはベクトル 化は可能であるが、ネストが深いとベクトル化が困難に なるので、ネストの深さは2か3程度が望ましい。(この 場合、もし最終結果に影響がなければ判断文を外してベ クトル化ができれば、余分な演算を行ったとしても速度 向上が望める場合がある)

の入出力命令の実行に関しては、次のことが言える。 入出力文は並列化対象外であるのでこれの使用は並列化 率を引き下げる。これを使用する場合には必要最小限に、 そして、書式つき入出力文に比較して実行速度の速い書 式なし入出力文を用いて頻度少なく行われることが望ま しい。

の粒度の大小に関しては以下のことが言える。SX-3R システムの最適化プリプロセッサは可能な限りループの 融合を行う。これはベクトル化や並列化の対象となる ループ内の演算量の増大により、粒度を高め、効率よく ベクトル/並列演算を行うためである。オリジナルプロ グラムがある程度の粒度を持っている方が効率よく最適 化が出来ることから、独立かつ一括計算できる部分を大 きくするようなプログラム設計が望ましい。これはベク トル化と並列化の両方に効果的である。

以上述べてきたように、プログラム はプログラム に比較して並列処理を阻害する要因や並列効率を引き下 げる特徴をもっている。裏返せば、プログラム はプロ グラム に比較して並列化の単位を示すDOループ内の 演算数が多く、またループ長が長く、粒度が大きく、並 列計算向きのプログラムであるといえる。

以上のように、プログラムはそれぞれ特徴があり、そ れらは並列処理や計算機アーキテクチャと共に処理性能 を左右する。従って、プログラムの特徴について解析す る必要性が生じる。

### 第5章 おわりに

本報告では、並列ベクトル計算機 SX-3R システムの自 動並列化機能を使用して、宇宙推進系プログラム2本の 並列処理プログラムを作成し、プロセッサ数1台、2台及 び4台での実行結果の比較・検討を行った。並列ベクト ル計算機における自動並列化機能は、ユーザーのプログ ラムコーディングの負担が少なく、共有メモリ方式の並 列ベクトル計算機においては、DOループを対象に実現 されているが、分散メモリ方式のそれにおいては、未だ 実現されていない。その自動並列化機能を用いて、以下 の結果を得た。

2本のプログラムの内、並列化率が95.1%と高いプログ ラム においては、4台のプロセッサ使用の場合、2.4倍 の性能向上を、また、プログラム においては、1.5倍の 性能向上を得た。理論予測値と実測値との差に最も影響 を与えたものはメモリ競合時間であった。

また、プログラムの並列処理における性能向上は計算 機アーキテクチャとともに、プログラムの性質及び実行 条件に左右される。今後、これらプログラムの特徴と計 算機の性能との関係を分析する上でも、プログラム解析 を行い、プログラムの特徴を把握する必要が生じよう。

最後に、本研究は、航空宇宙技術研究所角田宇宙推進 技術研究センターと日本電気株式会社との間で、平成5 年7月から平成6年12月までに行われた共同研究「宇宙 推進系の研究開発に関する並列処理技術の研究」の成果 の一部であることを補足する。また、本共同研究及び報 告書執筆にあたり、日本電気株式会社、松本寛氏並びに NECソフトウェア、村瀨匡氏のご協力に感謝の意を表す る。

#### 参考文献

- (1) SX システムソフトウェア: SUPER-UX FORTRAN/ SX 並列処理機能利用の手引き
- (2)伊藤勝宏、高橋政浩、平岩徹夫; Pointweise Nonoscillator スキームの開発と非定常・定常超音速流問 題への応用、第6回数値流体力学シンポジウム、1992

# 航空宇宙技術研究所報告 1430 号

平成 13 年 8 月発行

| 発行所 | 独立行政法人 航空宇宙技術研究所<br>東京都調布市深大寺東町 7 · 44 · 1             |
|-----|--------------------------------------------------------|
|     | <b>電話(</b> 0422 <b>)</b> 40 · 3935 <b>〒</b> 182 · 8522 |
| 印刷所 | 株式会社 実業公報社                                             |
|     | 東京都千代田区九段北 1·7·8                                       |

# C 2001航空宇宙技術研究所

本書(誌)の一部または全部を著作権法の定める範囲を超え、無断で 複写、複製、転載、テーブ化およびファイル化することを禁じます。 本書(誌)からの複写、転載等を希望される場合は、情報技術課資料 係にご連絡下さい。 本書(誌)中、本文については再生紙を使用しております。

当当官主议在多点幸会。

Ê

11/-1400



Printed in Japan