2019-06-04

(論文読み)Memishi et al 2019: Cold Storage Data Archives: More Than Just a Bunch of Tapes

松岡先生RTの論文読んでみました。
https://twitter.com/Underfox3/status/1115839932168396801/

https://arxiv.org/pdf/1904.04736.pdf

2.応用分野

・D-SDAはドイツ航空宇宙センターの地球観測DB。アクティブアーカイブの典型例。
・LOFARはユーリッヒ・スーパーコンピュータセンターに置かれた電波望遠鏡観測アーカイブ。スタティックアーカイブの典型例。
・気象分野ではECMWFのECFSとMARSを挙げる。ECFSは汎用のファイルアーカイブであり、MARSは専用クエリ言語を有するドメイン固有のデータベース(日本気象庁でいえばNAPS長期保存のNuSDaSをパンドラ経由で見ているようなもの)。どちらかというとMARSはアクティブアーカイブ、ECFSはスタティックアーカイブ。

3.分析

・全体サイズは10ペタバイト級。年間増加率は15〜65%であり、長期的にはサステイナブルではない。記録技術の革新がない限り、いずれは収蔵データを選別することを迫られるだろう。
・ファイルサイズ統計を見ると、小さなファイルが突出して多く、フロントディスクは不可欠。フロントディスク比率は1:17〜1:30。
・データの鮮度(liveliness)についてみると、ECFSやMARSでは収蔵されたデータの20%だけが後から参照されたことがわかっている。このようなデータについてはテープが有利である(バイト単価、非マウント時消費電力、メディア寿命など)。結果として4つのアーカイブではいずれも長期保存をテープに頼っている。

・パブリッククラウドのストレージ価格は、Azureの例をみるように、「オンラインな」ストレージ、「ニアラインアーカイブ」と順に安くなり、「ディープアーカイブ」では価格が一桁違う(42.20 USD/TB/Mo〜 4.50 USD/TB/Mo)。スタティックアーカイブの80%のデータが二度と読みだされることがないことを踏まえれば、ディープアーカイブの価格はオンプレミスと比べて魅力的に映る。
・ストレージ=アクセストレードオフ: ニアラインアーカイブやディープアーカイブに保存したデータは「解凍」(読み出し)にコストがかる。BLOB長が十分長い前提で、課金構造のうちデータ保管料金と読み出し料金のどちらが卓越するかは、データの読み出し頻度に依存する。Azureのアーカイブブロブの例では、年に1回しか読みださないなら読み出しコストは27%、月に1回読み出すなら82%となる。
・ベンダーロックイン: クラウドから撤退するときにも読み出し経費がかかる。撤退時の読み出し経費は5か月分の保管コストに匹敵する。実際には読み出しだけでなくクラウド外への持ち出し通信にも課金されて経費が3倍くらいになる。

・上記の考察に基づき、アーカイブデータの一式はローカルに持ち、コピーをクラウドに持つのが適切と思われる。読み出しはローカルで済むし、スクラブもローカルで実施して結果だけ書き込めばいい。それにベンダーロックインも解消できる。
 (それ、安いのか???)

4.議論

・アクティブアーカイブについては、ドメイン固有のデータ構造をふまえたカタログと検索が必要。MARSの例では、頻繁にアクセスされるデータはMARSがキャッシュしておりヒット率が95%と報告されているが、残り5%のミスキャッシュはテープロボットへの負荷たるに十分である。このため研究者は(MARS開発者が研究者と呼ばれていることに注意。J.Atmos.Sci.に書くだけが研究じゃないよ)MARSに固有のテーププリフェッチと要求スケジュール機構によって性能を改善したという。

まあ、MARS の話は伝聞だから、一次資料にあたらないとだめですね。日本でいうと NuSDaS とテープライブラリ管理機構が合体したみたいなものなので、誰か調べて教えてくれる人がいるといいんだけどなあ、と日本語で書いて反応がある可能性は限りなくゼロだろうなあ。

0 件のコメント:

コメントを投稿