2018-01-05

Bagale et al (2015) EXI (Efficient XML Interchange format) は結局使われていないのかな(計算量とストレージ圧縮のトレードオフ)

他の調べものの間で見つけてしまったのでメモ。

XMLはデータ量的に非効率(情報量に比してデータサイズが大きい)という問題があって、じゃあ圧縮しろよという話になるわけですが、
そのさまざまな方法を比較した論文。

http://dl.ifip.org/db/conf/ifip6-3/sustainit2015/BagaleMKR15.pdf

実用で技法を比較というとき、バカの一つ覚えで「圧縮率が大きければ大きいほどよい」といった単独パラメタで選択をするのは必ず悲しい結果に結びつきます。
データ圧縮をすることによる損益のトレードオフをみるのが、まっとうな工学です。

じゃあどういうトレードオフに仕立て上げるか。
この論文ではセンサーネットワークを念頭に、圧縮による計算量による電力消費増と、伝送量の減少による電力消費減を比べています。なるほどね。

このほかの選択としては、リアルタイムレスポンスが必要な大規模DBを念頭に、比較する量を時間(遅延)にすることが考えられますね。
圧縮・伸張するために要する時間だけ、処理が遅れるわけですが、たとえば伝送量の減少によって伝送に要する時間が減れば、トータルで勝利することもあるかもしれません。

トレードオフの理論的綺麗さとしては次善ですが、たとえば一定範囲の情報を載せるためのキャッシュの確保を金銭価値に換算して、処理遅延が許容範囲な範囲でなるべく安くあげようとするといったことも実務ではあるかもしれません。

まあいずれにしても計算量重要。

で、 Bagale 2015 に戻ると、EXI や XML + gzip は圧縮効率のわりに計算量がデカいのでお勧めじゃないんだということです。もちろん個別の実装を前提とした話ですが。

0 件のコメント:

コメントを投稿