2013-10-15

尺度水準とデータベースのキー、あるいはハッシュ・二分木・配列の使い分け

あたりまえっていえば、あたりまえなんだけど。

量的指標の尺度水準というものがある。実数でなにかを表わそうとするときの表現の仕方を分類したもので、扱いがこれにより異なる。定義はウィキぺを見てもらうとして、これらは記号に許される2項演算子のセットに根がある。
  • 名義尺度
    • 2つの値の比較が↑できない↓できる
  • 順番尺度
    • 2つの値の差を計算すること(減算)が↑できない↓できる
  • 間隔尺度
    • 2つの値の比を計算すること(除算)が↑できない↓できる
  • 比率尺度
データベースのキーというか、少量データのキーで他の(典型的には多量の)データをあらわすやり方にも、似たような階梯があらわれるんだけど、
  •  ハッシュが使える
    • 2つの値の比較が↑できない↓できる
  • 二分木が使える
    • 次の3つが仮定↑できない↓できる
      • 2つの値の差を計算できる
      • その間にいくつの他の値が入りうるか算出できる
      • 値の分布を最大値から最小値まで見たときに「空き地」がもったいないと思うほどは多くない
  • 配列にいれておける
てな感じになってしまう。

説明するまでもなく、配列モデルの適用条件が美しくない。なにかまったく違った整理をすれば美しい数理が見えてくるのかもしれないと数日考えていたが、とりあえず今の私にゃ無理だ。



2013-10-03

表題・概要の指針、つづき

(ちょっとまとまりが悪くなります。)

記入項目の再検討


前回みたように、内容は充実していたほうがいいが、適切な長さというものがある。また、一群の類似したデータには一貫した命名がなされることが望ましいので、つまりは分野ごとに一貫した命名法を作ってほしい。既にテーブルの上にある案はそのたたき台であり、いくらか取捨選択がなされるべきである。

案というのはこういうもの:
  • 表題はwhat, where, who, when から構成すべし
    • when は予報期間と有効期間を混同しているように思われる
    • 語順は厳密でない
    • 長さ制約については、内容を迅速に把握できるように、との一言がいちおうある。
    • それに対して、内容充実については、重複回避について言及していないが、 多義語を避けるべきとの言葉はある。
  • 概要は
    • 冒頭1文1パラがwhat
    • 中パラが詳細(内容、精度、作成組織など)
    • 末尾1文1パラがデータフォーマット
一見すると薄い思いつきのようにも見えるが、それなりに現実をふまえているのではあろう。
  • 安易に 5W1H といわず、why と how を省いている。強いていえば why はデータ作成の根拠となる国際計画にあたり、how は提供方法といえなくもないが、それは表題にあるべきではない、ということを暗黙にいっていることになる。計画間でデータ再活用を促進するための学際計画なんだし、提供方法自由度や流通範囲をデータに強く紐づけせず、拡大すべきだからである。
  • 残る4Wをすべて概要で繰り返すのではなく、what に力点を置き、おそらくそこから漏れたフォーマット情報を末尾に置かせるなど、工夫の形跡がある。
このうえアプリオリな原理で化粧することに今興味はない。むしろ、現実をちゃんと見ているかチェックしたほうがいいだろう。

運用メタデータの title に現れる語を抽出し、出現回数順でトップ150まで手作業で分類してみた
むろん主観的であることは免れないが、何か見落としはないかチェックするという意義はあるだろう。提案済みの4分類、それから ISO 19115 の構造とキーワード種別、さいごに Volume C1 の列との対比を考えるとこのようになる


要は、4Wのそれぞれについて、もっとも典型的な類型ではない語を追加する余地があるのと、GTSヘッダのようなデータ名略号については4Wでなくても追加を検討しうるということがいいたい。

ただ、RTH については書かない方がいいと思うんだけど。

指針案まとめ

まとめるとこういうことになると思う。

  1. 表題
    • 次の4項からなるとよい
      • What - データのカテゴリ
      • Where - 水平位置
      • When - 予報時間(あれば)
      • Who - データ管理者(発信センター)
    • データの種類によっては次のようなものを用いてもよい
      • What - データ作成プロセス、測器、物理量、水平解像度
      • Where - 鉛直位置
      • When - 一日の中の時間(観測時刻、初期値時刻、発信周期)、データの期間(有期の場合)
      • 他 - データ名略号
    • 長さ
      • 複数の異なるメタデータレコードが同じ表題を持たないように、表題に多くの項目を盛り込むことが望ましい。
      • しかし、通常は表示用途であることと、短時間で把握すべきことをかんがみて、概ね160字以下にすべき
      • 個々の項目は、意味不明にならない程度にコンパクトであることが望ましい。略語説明のカッコ書きや、「詳細はアブストラクト参照」などの冗長語は避ける。
    • 次のようなことは書かない方がいい
      • データフォーマット(アブストでよい)
      • ディストリビュータ(替わりうる)
  2. 概要
    • 次の3段落からなるとよい(それ以上であっても差し支えない)
      • 冒頭段落 - 表題の what を1行程度で説明したもの。略語を避ける。
      • 中間段落 - 表題のその他の事項を1000~2000字程度で説明する。
      • 末尾段落 - データフォーマットを1行程度で説明する。
    • 説明は、次のようなことが期待される
      • 盛り込めなかった項目の説明
      • 略語あるいは一般的でない術語の説明