クラウド型GPUのコスト比較

前回GPUの強化・更新について悩みました。
今回買う場合と借りる場合を比較してみます。
クラウド型GPUとは、いわゆるレンタルサーバのGPUです(今名付けました)

自分で買うのをためらう理由はいくつかあります。

自分で買う場合のデメリット

  1. 実質的にPCをもう一台組まないといけない
  2. フル稼働している時の、騒音(フアン等)が不安
  3. 連続フル稼働している時の電気代や稼働維持も考慮する必要がある
  4. 不要になった時の処分が大変

レンタルの場合のメリット

  1. 騒音・電気代の心配がいらない
  2. 稼働維持の心配がいらない(停電やサーバダウン等)
  3. 研究が終了(飽きたとかw)した場合に、処分が不要
  4. 経費として計上しやすい(と思われる)

デメリットの4が個人的にとても面倒くさいのです(自作PCの場合)

逆にもし研究が成果を得て通常運用するようになった場合には、メリットの4を含めてクラウド型での運用がベストと思います。(不慮の停止とか考慮しなくても良いので)

というわけで、クラウド型GPUの簡単なコスト比較をしてみました。

条件が完全には同一にできませんが、基本的にTesla V100(16GB)で計算してあります。

1.さくらインターネット高火力
2.Amazon EC2
3.Google Cloud Platform

会社(名称) /時間 /月 CPU   svメモリ 備考
さくら高火力
TeslaV100(16GB)モデル
\99,000 E5-2623V3
4corex2
  128GB 初期費用あり
Amazon EC2
p3.2xlarge
$3.06 $2,088 E5-2686V4
4core
  61GB オンデマンド
Amazon EC2
p3.2xlarge
$2.098 $1,524 同上   同上 リザーブ1年

Google Cloud Platform 
TeslV100+n1-highcpu-4
$2.62 $1,267 Broadwell
2core
  3.6GB 通常料金

Google Cloud Platform 
TeslV100+n1-highcpu-4
$0.74 $540 同上   同上 プリエンプティブ

注)
・1か月は730時間で計算
・Amazonはオハイオ、GCPはオレゴンで計算(一番安いリージョン)
・GCPはGPUのみなので、適当なサーバと組み合わせた

上記の単価をもとに、一定の想定で比較してみました。

名称 1時間当たり 730時間/月 243時間/月
さくら高火力 \99,000 \99,000
AmazonEC2オンデマンド \339 \247,411 \82,479
AmazonEC2リザーブ1年 \231 \168,822 \168,822
GCP通常料金 \290 \140,361 \70,668
GCPプリエンプティブ \82 \59,831 \19,946

注)ドル円レートは110.758で計算、Amazonのリザーブは前払い無し

1日24時間ずっと稼働させるわけではないので、1日8時間稼働(243時間/月)も追加してみました。(計算間違っていたらごめんなさい)

さくら高火力

V100の時間貸しがないので、候補からはずれます。(なお、初期費用が別途92万かかります)
あくまでハードを資産として保有したくない法人向けですね。
極力国内にお金を落としたいのですが、残念です。

AmazonEC2

1年リザーブの方が時間単価は安いのですが、実はオンデマンドで17時間/日の稼働でようやく互角の価格になります。
従って、想定した使い方だとオンデマンドの方が安くなります。
3年リザーブもありますが、ハードが陳腐化しそうです・・・
スポットインスタンスだと安くなると思いますが、幅広すぎて今回は除外しました。

GCP

今回初めてまじめに調べたのですが、かなり低価格になっています。
GPUとサーバがセットになっていない(別々に選べる)のが特徴です。
V100使いたいけど、サーバのメモリ61GBもいらないよ!等のケースにピッタリですね。
通常料金でもAmazonより安いのですが、さらに低価格のプリエンプティブコースがあります。

プリエンプティブ VM は、通常のインスタンスよりはるかに低価格で作成、実行できるインスタンスです。ただし、このインスタンスは、他のタスクのリソースへのアクセスが必要な場合に、Compute Engine によって終了(プリエンプト)される可能性があります。プリエンプティブ インスタンスは Compute Engine の余剰のキャパシティを利用する機能であり、使用できるかどうかは利用状況に応じて異なります。

プリエンプティブ インスタンスとは

要は”いつ止まるか断言できないけど、その分安いですよ”というサービスです。

もちろんオンラインシステムでは許容できない話ですが、ディープラーニングの学習等のバッチシステムにはうってつけに見えます。
もちろん途中の停止でリセットされないことが大前提です。
また、止まりっぱなしのケースもなく、過去実績だとそこそこの稼働ができそうです。

ちなみに、Tesla V100を買うと、120万円以上します・・・、元を取ろう(?)とすると、

GCPプリエンプティブで60ヵ月(5年)分、GCP通常料金で17ヵ月分(ランニングコスト他除く)

研究が失敗に終わる可能性も高いわけで、やはり購入するのは無しで必要になったタイミングでGCPにしようと思います。

コメントを残す

メールアドレスが公開されることはありません。