8と9のリビジョン間の差分
2018-08-24 06:55:34時点のリビジョン8
サイズ: 3557
編集者: KanaeAsai
コメント:
2018-08-24 06:55:51時点のリビジョン9
サイズ: 3557
編集者: KanaeAsai
コメント:
削除された箇所はこのように表示されます。 追加された箇所はこのように表示されます。
行 49: 行 49:
バッチ・キューにあるジョブの削除は次のコマンドでできる。オプションは[[ここ|http://research.cs.wisc.edu/htcondor/manual/current/condor_rm.html]]を参照。 バッチ・キューにあるジョブの削除は次のコマンドでできる。オプションは[[http://research.cs.wisc.edu/htcondor/manual/current/condor_rm.html|ここ]]を参照。

CERN Batch System (HTCondor)

バッチ・システム

大量のデータを解析する必要がある場合、あるいは計算に時間が掛かる場合は一つのプログラムを延々と走らせ続けるよりも、 プログラムを複数同時に走らせた方が短い時間で結果を得られる。素粒子実験のデータ解析においてはデータが独立な事象ごとに 分かれているため、簡単に並列化ができる。 CERN lxplusは多くのユーザーが作業をする共用のコンピュータなので、ここで重い計算をすることは避けるべきで、lxplusでは30分(?) 以上走り続けているプログラムは強制終了される。

多数のプログラムを同時に走らせたい場合や処理時間の長いプログラムを走らせる必要がある場合のために、作業用のコンピュータではなく プログラムを走らせるためだけの専用のコンピュータが多数用意されている。このようなコンピュータ・システムをバッチ・システムといい、 そこでプログラムを走らせることを通常「バッチ・システムにジョブを投げる」という表現をする。

バッチ・システムには直接ログインできないため、

  • 実行するプログラム
  • 入力ファイル
  • 出力ファイル
  • 標準出力に表示されるメッセージを保存するファイル

等を指定してバッチ・システムに知らせる必要がある。

CERN batch system: http://information-technology.web.cern.ch/services/batch
Quick start guide: http://batchdocs.web.cern.ch/batchdocs/local/quick.html

ジョブの設定

バッチ・システムにジョブを投げるには通常、実行したいプログラムやそれに必要な環境設定や後処理をまとめたスクリプトを用意する。 そして、CERNで使っているHTCondorというバッチ・システムでは、その他にプログラムを実行して結果を得るために必要なジョブの内容を設定ファイルに記述する。 スクリプト(sayhello.sh)と設定ファイル(job1.sub)の例を載せてある。

ジョブのsubmit

ジョブを投げる準備が整ったら、以下のコマンドでジョブを投げる。

condor_submit job1.sub

これをやると、ジョブはバッチ・システムのキューに入る。バッチ・システムに大量のジョブが溜まっている場合は、実行されるまでにしばらく待たなくてはいけないが、 通常は数10秒程度で実行が開始される。

ジョブのモニター

バッチ・キューにあるジョブのリストは次のコマンドで確認できる。

condor_q

出力ファイルの確認

バッチ・システム上のコンピュータからで作成したファイルは、lxplusからアクセスできる領域にコピーする必要がある。 HTCondorでは、バッチ・システムのコンピュータ上で作成したファイルは自動的にジョブをsubmitしたディレクトリに コピーされるようである。

ジョブの削除

バッチ・キューにあるジョブの削除は次のコマンドでできる。オプションはここを参照。

condor_rm

CernBatchSystem (最終更新日時 2018-08-24 07:17:58 更新者 KanaeAsai)