36
2020.07.03 改訂版 1 スーパーコンピュータ「不老」 基本マニュアル

スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

2020.07.03 改訂版

1

スーパーコンピュータ「不老」基本マニュアル

Page 2: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

改訂履歴

• 2020.06.末初版

• 2020.07.03 ホームディレクトリ・ストレージの容量、インストールされているソフトウェアの使い方、について追加。その他、細かい修正。

2

Page 3: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

掲載内容

• スーパーコンピュータ「不老」紹介

• 各計算サブシステムの特徴と利用するサブシステムの選び方

• ストレージの使い方

• 利用制度について

• 負担金制度について

• 利用登録から初めてのログインまで

• HPC PortalとUNCAI

• バッチジョブシステムの基本的な使い方

• サブシステムごとのマニュアルはHPC Portal上から入手することができます

– アクセス方法については「利用登録から初めてのログインまで」をご確認ください

3

とにかくスパコンにログインしたい、という方はここから

Page 4: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

4

スーパーコンピュータ「不老」紹介

Page 5: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

名大情報基盤センターのスパコンの歴史

5

96 00 05 09 13 15 20

Fujitsu M-1800 Fujitsu GP7000F/90Fujitsu HX600,

M9000Fujitsu CX400

Fujitsu VPP500 Fujitsu VPP5000 Fujitsu FX1Fujitsu

FX10

Fujitsu HPC2500メインフレーム系

ベクトル型スパコン

スカラー型スパコン

アプリケーションサーバ

スーパーコンピュータ

CX400

FX100

複合型「不老」

Fujitsu CX2570

Fujitsu FX1000

HPE ProLiant DL560

GPUサーバ

超並列

大規模共有メモリ

クラウド

HPE Super Dome Flex

次期不老へ

◆ これまで約5年間隔でリプレイス◆ 様々な計算需要に応えるため、超並列型、クラスタ型、大規模共有メモリ型、

クラウド型による複合型システムを採用

Page 6: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

全体構成

6

特徴の異なる4つの計算サブシステム(Type I, II, III, クラウド)と2種類のストレージシステムを中心とした複合型システム

SINET5

ホットストレージDDN SFA18KE30 PB

コールドストレージSony ODA PetaSiteライブラリPhase1 484 TBPhase2 9.5 PB (2021年2月Upgrade)

Sony ODAドライブ

Type III サブシステムHPE Superdome Flex ×2ノード

8K 185inchiタイルドディスプレイSamsung 46inchi Display×16

InfiniBand HDR/EDR

インターネット

学内LAN (NICE)

NICE スーパーコアスイッチ

フロントエンドサーバ(ログインノード群)FUJITSU PRIMERGY RX2530M5 ×18ノードFUJITSU PRIMERGY RX2540M5 ×7ノード

Type I サブシステムFUJITSU PRIMEHPC FX1000 ×2304ノード

クラウドシステムHPE ProLiant DL560 ×100ノード

10G

オンサイト利用装置FUJITSU PRIMERGY RX2530M5×2

画像処理装置Lenovo P920(デスクトップPC)

Type II サブシステムFUJITSU CX2570M5 ×221ノード

円偏光立体視システム(プロジェクタ×2、円偏光メガネ)

全天周映像視聴システムPanoviewer

Page 7: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

7

各計算サブシステムの特徴と利用するサブシステムの選び方

Page 8: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

各サブシステムの特徴から選ぶ

• Type Iサブシステム

– 特徴:FX100の後継機、「富岳」と同じアーキテクチャ、ノード数が多い

– 主な対象利用者:FX100や「富岳」で実績のあるプログラムを動かしたい、富士通コンパイラを使いたい、大規模分散(MPI)並列実行したい

• Type IIサブシステム

– 特徴:Intel CPU + NVIDIA GPU 、ローカルSSD搭載

– 主な対象利用者:GPUを使いたい、高いI/O性能が欲しい

• Type IIIサブシステム

– 特徴:大容量メモリ環境、可視化システムと接続

– 想定される利用者:大容量メモリを使いたい、可視化システムを使いたい

• クラウドシステム

– 特徴:インタラクティブ実行、Intel CPU×4ソケット搭載

– 想定される利用者:インタラクティブ処理がしたい、高いノード内CPU並列演算性能が欲しい、研究室のワークステーション・小規模クラスタの代わりに使いたい

Page 9: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

用途から選ぶ(1/3)

• 旧システム利用者はどのシステムを使うのがオススメ?

– 旧FXシステム → Type Iサブシステム

– 旧CXシステム → Type IIサブシステム または クラウドシステム

– 旧UVシステム → Type IIIサブシステム

Page 10: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

用途から選ぶ(2/3)

• 対象プログラムの属性とサブシステムの対応

– 大規模分散(MPI)並列 → Type Iサブシステム

– GPU、高速I/O → Type IIサブシステム

– 可視化、大容量メモリ → Type IIIサブシステム

– ノード内CPU並列実行で高い計算性能 → クラウドシステム

• OpenMP並列化は行えているがMPI並列化は行えていない場合など

– 機械学習 → Type Iサブシステム または Type IIサブシステム

• 対象プログラム(利用するフレームワークなど)がGPU向けに最適化されているならType II、「富岳」向けに最適化されているならType I

– インタラクティブ実行 → 大容量メモリも必要ならType IIIサブシステム、それ以外はクラウドシステム

– 研究室のワークステーションや小規模PCクラスタ(Core i, Xeonなどx86系のCPUを搭載)の代わりに使いたい、高速化・大規模化したい → GPUを使いたいならType IIサブシステム、それ以外はクラウドシステム

Page 11: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

用途から選ぶ(3/3)

• 「○○というソフトウェアを使いたいが、どのサブシステムを使えば良い?」

– 以下の表に名前があるソフトウェアについては、◎または○がついているシステムのいずれかで実行することを優先的に考えると良い

• http://www.icts.nagoya-u.ac.jp/ja/sc/overview.html#software

– それ以外は、利用実績を元に考えると良い

• 「富岳」での利用実績がある → Type Iサブシステム

• GPUを用いた利用実績がある → Type IIサブシステム

• それ以外 → クラウドシステム、大容量メモリが必要であればType IIIサブシステム

– 各サブシステムに適したコンパイラの違いも参考に

• Type I:富士通、LLVM

• Type II:Intel、LLVM、GNU、PGI

• Type III/クラウド:Intel、LLVM、GNU

※OSSとして公開されているソフトウェア等を自分でコンパイルして利用する場合は、対応するコンパイラや関係するライブラリの情報も確認してサブシステム選択に役立ててください

Page 12: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

インストールされている各種ソフトウェアの使い方

• Linuxシステムで良く用いられているmodulefilesによりインストール済みソフトウェアは提供されている

• module availで一覧、module loadで利用、module unloadで利用取りやめ、など

12

Page 13: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

13

ストレージの使い方

Page 14: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

ストレージの種類

• ホットストレージ

– 一般的な共有ストレージ

– 全サブシステムから共通に利用可能

• ログインノードからも計算ノードからも同様に読み書きできる

– 1TBまでは課金なし、1TBを超えると課金される(1GBにつき1日あたり0.01のポイントを消費)

• コールドストレージ

– 追記のみ可能な光ディスク・アーカイブ

– 専用のコマンドによって読み書きを行う

– 50TB(10カートリッジ)単位で購入して利用する

• 購入したディスクカートリッジはシステムから取り出して持ち帰ることも可能

• ディスクカートリッジを購入して持ち込んで利用することも可能

– 具体的な手続きについてはご相談ください

14

Page 15: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

/homeと/dataの使い分けについて

• ホットストレージは性能や耐障害性の都合により複数の領域(主に/homeと/data)に分けて運用されています

• /home、/dataともにログインノードと計算ノードの両方から利用できます

– ストレージ容量課金(1TBを超えると課金)の対象容量は/homeと/dataの合算です

– 容量を簡単に確認する方法は現在準備中

• /homeの役割と制限

– ユーザのホームディレクトリが作られる場所(例:/home/a49999a)

– 1ユーザあたり1TB・1千万ファイルの容量制限有り

– 総I/O性能は/dataより低い

• /dataの役割と制限

– 大容量のファイルを扱うための場所(例:/data/group1/a49999a)

– 総I/O性能が/homeより高い

– 並列ジョブの実行時には/dataを使うことを推奨

15

※大容量のファイルや高いI/O性能を必要とする利用者の方には異なるパーティションをご案内していることがあります

Page 16: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

16

利用制度について

Page 17: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

主な利用制度

• 一般利用、グループ利用

– 一般的な学術利用。大学や研究期間に所属している方向け。

– グループ利用ではグループ内で利用ポイントの融通が可能。

• ノード準占有利用

– ノード占有に近い利用制度。 1時間以内にジョブが実行されることが保証される。

– Type IIサブシステムおよびクラウドシステムのみ。

• トライアルユース

– 1ユーザにつき1回限り、最長一ヶ月間、無料でシステムを利用可能。

• リテラシー利用

– 学部・大学院の講義・演習にてスーパーコンピュータを格安で利用可能。

– 名古屋大学以外でも利用可能。

• 民間利用

– 非アカデミックユーザ向けの利用制度。書類審査有り。

– 企業名・課題名・報告書が公開される「公開型」と、公開されない「非公開型」がある。

17

Page 18: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

18

負担金制度について

Page 19: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

共通のポイントに基づく利用制度(1/2)

• はじめにポイントを購入し、ポイントを消費して各サブシステムやストレージを利用する

– 基本負担金:1アカウント登録に10,000円必要だが、登録することで10,000ポイントが得られる

– 追加負担金:1回の入金額が500,000円未満の場合は1円当たり1ポイント、500,000円以上の場合は1円あたり1.25ポイント、1,000円単位で入金可能

– 民間利用の場合

• 公開型:10アカウント=200,000円で100,000ポイント

• 非公開型:10アカウント=400,000円で100,000ポイント

• ストレージの利用にもポイントが消費される

– 1TB未満の利用=無料

– 1TB以上の利用=1GBにつき1日あたり0.01のポイントを消費

19

Page 20: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

共通のポイントに基づく利用制度(2/2)

• 入手したポイントは全サブシステムで共通して使用、ポイントの変換手続き等は不要

– サブシステムごとにポイントの消費具合が異なる

• バッチ処理

– Type I:1秒につき0.0056×ノード数

– Type II:1秒につき0.007ポイント×使用GPU数、ただしCPUのみ使う場合は0.01ポイント×使用CPU数

– Type III/クラウド:1秒につき0.0001ポイント×使用CPUコア数

• 会話型処理

– ログインノード:CPUコアの演算時間1秒につき0.002ポイント

– Type III:CPUコアの演算時間1秒につき0.002ポイント

– クラウド(時刻指定インタラクティブ実行):1秒につき0.0001ポイント×使用CPUコア数

» ログインしていなくても確保した時間分だけ消費されます

• その他詳細はWebに掲載されている負担金規定をご参照ください

– http://www.icts.nagoya-u.ac.jp/ja/sc/riyou/kitei_futankin.html

20

Page 21: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

基本負担金10,000円=10,000ポイントでどのくらい使えるのか

• Type Iのバッチジョブ実行(1秒につき0.0056×ノード数)

– 1ノード実行で10,000/0.0056=1,785,714秒=29,761分=496時間=20日間

• Type IIのバッチジョブ実行(1秒につき0.007ポイント×使用GPU数)

– 1GPU実行で10,000/0.007=1,428,571秒=23,809分=396時間=16日間

– 4GPU実行では4分の1

• Type IIIのバッチジョブ実行・クラウド(1秒につき0.0001ポイント×使用CPUコア数)

– 1CPUコアあたり、10,000/0.0001=100,000,000秒=1,666,666分=27,777時間=1,157日

– Type IIIは1CPUソケット当たり28コア→41日間利用可能

– クラウドは現在最小設定で1CPUソケット(20コア)単位の利用→57日間利用可能

• (10,000円で20コアCascade Lake 96GiBメモリが57日間利用できるということ)

21

※計算は全て整数未満切り捨て

Page 22: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

22

利用登録から初めてのログインまで

Page 23: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

手順

1. 利用登録

– 「申請書類一覧」のページから申請書をダウンロードして記入押印し郵送

– http://www.icts.nagoya-u.ac.jp/ja/sc/riyou/apps.html

2. パスワード入手

– 郵送されるのを待つ

– ペーパーレス化については検討中です

3. WebポータルへのログインとSSH公開鍵の登録

4. SSHアクセス・HPCポータルへのブラウザアクセス

23

Page 24: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

SSH公開鍵の準備

• ssh公開鍵の作成方法が分からない方は、本資料と同じページに置いてある「SSH接続とコンパイル環境の整備」という資料を読み、鍵ファイルを用意してください

• http://icts.nagoya-u.ac.jp/ja/sc/usage.html

24

Page 25: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

HPC PortalへのログインとSSH公開鍵の登録

25

• https://portal.cc.nagoya-u.ac.jp/ へアクセス

– 郵送されたユーザ名とパスワードでログインする

– 旧システムからの継続利用者はいままでのユーザ名とパスワードが使えます

Page 26: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

• 初めてログインした場合はパスワードの変更が必要です

26

Page 27: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

SSH公開鍵の登録画面

27

作成した公開鍵をコピー&ペーストで入力する

入力後にボタンで登録

Page 28: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

28

入力した公開鍵情報がおかしい場合(正しくコピー&ペーストできているか確認してください)

正しく登録できた場合

Page 29: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

SSHログイン

• 使いたい計算サブシステムに合わせてログインノードを選択してsshアクセスしてください

• 接続先一覧

– 接続例:ssh [email protected]

– ログインノードが複数台あるサブシステムについては、ラウンドロビンで振り分けられます

29

対象計算サブシステム SSH接続先 備考

Type Iサブシステム flow-fx.cc.nagoya-u.ac.jp

Type Iサブシステム(HPCI) hpcifx.cc.nagoya-u.ac.jp

Type IIサブシステム flow-cx.cc.nagoya-u.ac.jp GPU搭載

Type IIサブシステム(HPCI) hpcicx.cc.nagoya-u.ac.jp GPU搭載

Type IIIサブシステム flow-lm.cc.nagoya-u.ac.jp GPU搭載

Type IIIサブシステム(可視化用) post.cc.nagoya-u.ac.jp リモート可視化用

クラウドシステム flow-cloud.cc.nagoya-u.ac.jp

Page 30: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

30

HPC PortalとUNCAI

Page 31: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

HPC Portal

• https://portal.cc.nagoya-u.ac.jp/

• HPC Portalの役割

– HPC Portal/UNCAIのパスワード変更、SSH公開鍵登録、マニュアル閲覧

– Webからのジョブ実行やファイル操作など高機能なポータルを提供しているセンターもあるが、本システムでは上記の機能のみ提供

31

Page 32: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

UNCAI

• https://portal.cc.nagoya-u.ac.jp/reserve/

• UNCAIの役割

– クラウドシステムの「時刻指定バッチジョブ実行」と「時刻指定インタラクティブ実行」を行う為の予約システム

– パスワードはHPC Portalと共通

– 具体的な使い方は利用手引書を参照

32

Page 33: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

33

バッチジョブシステムの基本的な使い方

Page 34: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

バッチジョブシステム

• (スパコンでは一般的ですが)計算ノードにジョブを実行させるには、内容と実行方法を記述したジョブスクリプトと、ジョブ制御用のコマンドを使います

• Type I, II, III, クラウドの各計算サブシステムで共通のジョブ制御用コマンドが使えます

• 主なジョブ制御用コマンド

– pjsub:ジョブを投入する(プログラムの実行を指示する)

– pjstat, pjstat2:ジョブの投入状況を確認する

– pjdel:投入したジョブを削除する

– 各コマンドの詳細や指定できる引数についてはmanコマンドや--helpオプションで確認してください

34

Page 35: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

基本的なバッチジョブスクリプトの例(Type Iサブシステムの例)

35

#!/bin/bash -x#PJM -L elapse=1:00:00#PJM -L rscunit=fx#PJM -L rscgrp=fx-small#PJM -L node=2#PJM --mpi proc=4#PJM -j#PJM -S

module availmodule list

export OMP_NUM_THREADS=24mpiexec ./a.out

最大実行時間を1時間に指定リソースユニット(利用するサブシステム)名をfx=Type Iに指定リソースグループ名をfx-smallに指定2ノード実行合計4プロセス実行標準エラー出力を標準出力に統合実行時の統計情報を出力する

利用できるmodulefilesを確認ロードしてあるmodulefilesを確認

プロセス当たりのスレッド数を24に指定MPIを用いてプログラムを実行

job.sh

pjsub job.sh でバッチジョブを投入

Page 36: スーパーコンピュータ「不老」 基本マニュアル2020/07/03  · Phase1 484 TB Phase2 9.5 PB (2021年2月Upgrade) Sony ODAドライブ Type III サブシステム HPE

• バッチジョブスクリプトの書き方はサブシステムによっても多少異なります

• 詳細は各サブシステムの利用手引書をご確認ください

• サブシステムごと・実行形態ごとの書き方をまとめた資料も公開予定です

36