データカタログの書誌情報(メタデータ・レコード)には、通例2つのフリーテキストの必須要素がある。ISO 19115 でいえば title, abstract であり、ダブリンコアでいえば title, description である。
これらは機械でなく人間が読むための文字列であり、どう書くかは現状では常識にゆだねられている。自由文について、XMLスキーマのバリデータのような簡単な仕掛けで機械的に不適切な記述を検出することはできない。
だからといってこれらを野放しにして、まちまちの書法(スタイル)が用いられたり、極端にいえば "dummy", "tbd", "data 123" でさえ許容するならば、メタデータ作製は容易になるかもしれないが、データカタログの品質は著しく劣化してしまう。個人や少人数ならば暗黙知に頼ることも許されようが、WIS のような組織的取り組みにおいては、なんらかの明示的な指針・ガイドラインが求められる。
しかし、良いテキストという言葉は実に曖昧模糊・感覚的に聞こえる。安易に指針を書くと、あまりに抽象的で用をなさないか、または具体例に頼るならば射程が狭くなりかねない。それを超えて、真に学際的な基盤として、メタデータ作者の助けになることができるのだろうか。私の考える力が問われている。
何かを設計するとき、しばしば私は2つの主義を唱える:
- オペレーショナリズム: 人工物は、まずその用途によって評価されるべきである。「意味」や、内在的構造の美しさなどを優先すべきでない。
- 中庸: 単一の指標を際限なく片方に振りさえすればよい、というような指針は、しばしば暗黙の前提を忘れており、それが破れたところで酷い結果をもたらす。なんらかの指標で相矛盾する複数の要件を見出して、それらの間の妥協点を探すといった書き方に改めると、よりましになる。
- 用途: メタデータは、第一にデータ発見のために作られると考えられている(他の用途もあるが後の議論を覆すものでない)。それは2段階で行われる。
- 検索: まずは keyword 欄が検索のために用意されているが、かならずしも全ての情報がキーワードに盛り込めない。表題や概要についてもフリーテキスト検索が求められている。
- 検索結果の評価: 検索結果は人間に呈示され、人間が適切なものを選択する。このとき(キーワードなどではなく)まず表題が、次いでスペースが許せば(あるいは個別のレコードの画面で)概要が表示されることになるであろう。
- これら2つの段階に共通することは、選択であるということ。つまり、テキストの意味を機械的に判断できなくても、異なる多数のレコードにしばしば同一または類似の表題・概要がつけられるようでは用をなさない、ということは機械的にいえる。
- 中庸: テキスト(文字列)にとって自明に重要な量的指標は、長さ(字数)である。
- 前項の議論も、情報が多いほうがよい、つまり、テキストは長いほうがよいという方向である。巷間でみられる散文的な指針も基本的には同様。
- では無限に長いほうがよいか、というとそうではあるまい。表示しきれないほど長い表題や、読み切れないほど長い概要は、逆効果となる。
まず表題の長さのヒストグラムはこうである。(横軸は対数目盛)
際立った2峰性の分布であるが、これは、メタデータレコードを生成するソフトウェアの数がまだ少数だからであろう。文字数が110~119の時だけ特別に不都合となる理由はない。
現時点では、次のような観察にとどめて置くのが安全だろう:
- 95%のレコードが45文字以上である
- 中央値は88文字
- 95%のレコードが153文字以下である
- 最大値は208文字
もうちょっと言うと、あまりに短い表題(たとえば40文字以下)や、あまりに長い表題(たとえば160文字以上)を頻繁に生じるような命名法は、良いとはいえないだろう。
ついで、概要の長さのヒストグラムはこうである。
今度はまったく違って、片方に裾野を引いた分布である。極めて短い例が多数ある、というか、実をいうと <abstract/> が空要素になっているレコードが12%も存在する。それは流石に推奨するわけにはゆかないけれど。
- 中央値は280文字
- 95%のレコードが1351文字以下である
- 99%のレコードが1443文字以下である
- 最大値は5312文字
長くなったのでここでいったん切る。
0 件のコメント:
コメントを投稿