@techreport{oai:jaxa.repo.nii.ac.jp:00002231, author = {坂下, 雅秀 and 松尾, 裕一 and 村山, 光宏 and Sakashita, Masahide and Matsuo, Yuichi and Murayama, Mitsuhiro}, month = {Nov}, note = {3次元ハイブリッド非構造格子有限体積法Euler/Navier-StokesソルバJTAS(JAXA Tohoku university Aerodynamic Simulation code)は、元来、ベクトル計算機用に開発されたものであるが、ここでは主にメモリアクセスの効率化によるスカラ性能の向上を図る変更を加えることにより、JTASスカラ版を開発した。このスカラ版について、大規模SMP(Symmetric Multiple Processor)クラスタ計算機であるJAXAスーパーコンピュータシステム(富士通製PRIMEPOWER HPC2500)を使用してテストデータによる計算性能測定を行い、JTASオリジナル版と比較して約1.8から1.9倍の性能が得られることを確認した。次に、スレッド並列化の可能性を確認する目的で、JTASスレッド並列版を開発した。JTASオリジナル版は、スレッド並列による実行が可能ではあるが、時間積分計算の部分で、8スレッド実行によるスレッド並列加速率が約5倍と、理論値(8倍)の7割を下回る性能しか得られていなかった。また、スカラ版は再帰参照を含むため、スレッド並列化は困難であった。そこで、再帰参照を含まないスレッド並列化可能なJTASスレッド並列版を開発した。このスレッド版について、同様にテストデータによる性能測定を行った結果、時間積分計算部分で、8スレッド実行によるスレッド並列化加速率が約6.2倍と、理論値の7割を越える性能が得られることが確認された。一方で、全体の実行時間(経過時間)については、同じCPU数を使用した場合のスカラ版の性能に及ばず、JTASオリジナルに比べて約1.5倍の性能向上にとどまることも確認された。本研究を通じて、JTASのような非構造格子ソルバの特性に対する知見と計算性能向上に対するコーディング指針が得られた。, A scalar version of the three-dimensional hybrid-unstructured-grid finite-volume method Euler/Navier-Stokes solver JTAS (JAXA Tohoku-university Aerodynamic Simulation code) is developed to improve the scalar computing performance by optimizing the memory access pattern because the original JTAS code was developed for a vector system. The efficiency of this optimization is confirmed on a large scale SMP cluster system consisting of Fujitsu PRIMEPOWER HPC2500. The speedup ratio is more than 1.8 from the performance measurement with practical data. In addition, a thread parallel version of JTAS is also developed to confirm the possibility of the unstructured grid CFD (Computational Fluid Dynamics) solver. The thread parallel execution of the JTAS original version can be done naturally. But, under the two process and eight thread hybrid execution condition, the thread parallel speedup ratio is only about five, which is less than 70 percent of the theoretical speedup for the time-integration part. Generally speaking, a scalar version with some recursive references cannot be efficiently executed by the thread parallel. Thus, a thread version without recursive references is developed to get a higher performance under the thread parallel execution. The thread parallel acceleration ratio for the time-integration part of this version is about 6.2, which is more than 70 percent of the theoretical speedup. Then, the efficiency of thread parallel optimization is confirmed. However, total elapsed time is longer than a scalar version under execution used same number of CPUs, and only 1.5 times of performance gain as compared with a JTAS original version and this. Through the study, the understanding to the features of the unstructured flow solver like JTAS is deepened and the coding strategy for the performance speedup to JTAS is obtained., 資料番号: AA0063160000, レポート番号: JAXA-RR-06-004}, title = {非構造格子Euler/Navier-StokesソルバJTASの計算性能最適化}, year = {2006} }