ホーム
超ロバストをさぐる 1
Bell不等式による量子性判定での超ロバスト性
CFTP を用いた Perfect Sampling
制御における(超)ロバスト性
超ロバストとKM2O-ランジュヴァン方程式論に基づく時系列解析
ロバスト符号化
超ロバストをさぐる 2
ロバスト構造化文書処理技術
幾何計算に求められるロバスト性
ロバスト分子計算
統計的諸手法に現れるロバスト性の概念
超ロバスト並列処理の未来に向けて
超ロバストとは何か?
ロバストと超ロバスト
発端:超ロバスト幾何計算
超ロバストとメタヒューリスティクス
超ロバスト制御の可能性
ロバスト構造化文書処理技術がもたらすもの
実験数学-時系列データの超ロバストな評価法
統計から見た超ロバスト
組合せ最適化と超ロバスト
分子計算機と超ロバスト
超ロバスト並列処理

超ロバストとは何か?

統計から見たロバストと超ロバスト

I.統計が本質的にもつロバスト性

統計的手法には、そもそもいろいろな問題に対応できる、というロバスト性がある。20世紀前半に登場した「推測統計」は、数学的な仮定をおいて何かの予測をすると同時に、その予測自体のよさを評価する。何かの現象に統計的なモデルを適用したときに、「必ずしもうまくいかない」ことを評価に入れているといってもよい。手法自身の信頼性を含めて結果を評価するのが、統計の基本的な考え方である。

  • 例:「平均」と「分散」。算出された平均の値について、ばらつきはこのくらいある、ということを分散で示す。
あるデータを取っただけで、結論が確実に分かる(因果がはっきりしている)場合には、統計的手法は必要ない。常にあいまいさが残る、という現象が統計の対象。例えばある病気に対する薬の効き目を調べる場合のように、データが多く取れない。そういう不確実性があるところに統計的手法を使う。

II.統計のロバスト化(その1):新しい確率モデル

初期の統計は数学的に扱いやすい(解析的に解ける、という意味)確率的なモデル化、例えば正規分布などの確率分布を使って、その基で精度評価をしていたが、そういう扱いやすい分布ではなく、計算機でないと解けないような確率モデルを使う。現象に対するフィットや誤差評価を現実に近づけられる可能性が高い。正規分布を中心とするモデルに比べ、モデルの仮定をもっと緩めることで、広い対象を扱える。(例:ベイズ統計)。

すでに起きた現象や得ているデータ(インサンプル)に対してはうまく説明がついても、次に来る現象(アウトサンプル)に対してその説明が合わないことがある。例えば去年のことに「後知恵」をつけるのはいくらでもできるけれど、来年のことを予測するのは難しい。(学習理論の用語では、手元にある過去のデータの説明とそこから出てくる結論が、他の状況においても適用できることを「汎化」という。)

一方で手元にあるデータに対して最適化し過ぎてしまうと、違った状況に対応できなくなることもある。いわゆるオーバーフィッティングである。手元のデータにフィットしすぎると、新しいデータに対して適用できないことがある(実験室内で非常にうまく動いたものが、その外に出るともう動かない、など)

モデルを複雑にすると、その評価も難しくなる。それならあまり最適化しないほうがいい。そのほうが単純で、ある意味ロバストになる。 モデルを柔軟にするとロバスト性は向上するかというと、実はそうでもない。例えばあまり複雑な処理をする(複雑なモデルを考える)と、一般化できない場合がある(ヒューリスティックスと似たことが起きる。特定のケースには使えるが、別のケースに使えるかは分からない)。

III.統計のロバスト化(その2):検証方法の精緻化

検証のために、既に得たデータの一部を使わないでモデルを作り、統計的な推測をして、残りのデータで検証する(クロスバリディーション)。例えばロボットに人間の動作を認識させるという研究では、その成果をチェックするために非常によく使われている。

もう一つは統計的処理によって出た結果を再度確認評価すること。(「多重性に関する確率計算」などという。)

例えば、ある病気について、何が原因でその病気になったのか。病気になった人100人を調べて、病気にならなかった人100人を調べたとする。そして統計的な処理の結果、その病気が、

  • ある県の人に多い
  • チョコを食べる人に多い

という結果が出たとする。この結果(「後知恵」)をそのまま受け入れてよいかどうか。たまたまそういう結果が出てしまった、ということもある。(特定の県でその病気の発生率が一番高いからといって、普通はそれが直接の原因ではなく、より掘り下げる必要がある。)

このほかにも、まったく原因がないのにどこかに特徴があるように見えることがある。

  • 例1:紙の上に無作為に点をプロットしていくと、どこかにかたまりがあるように見えたり、パターンが見えることがある。
  • 例2:ある病気になった人とそうでない人に対して、血液型とか年齢とかいろいろな項目を聞いてみると、質問項目の中にはまったく原因に関係する項目がないのに、それらしく見える結果が出ることがある。

こうした後知恵が本当に正しいかどうかを疑い検証する、またはそれを修正するにはどうするかが、多重性の問題。原因として考えられる項目がたくさんある場合にそれぞれの項目(ステートメント)の強さを修正する、ということが多重性の問題の一つ。

IV.超ロバスト計算原理プロジェクトを通じて発した問題意識:

  • そもそも確率とは何か、なぜ確率という考えが出てくるか
  • 不確実性があったときになぜ確率でモデリング化すべきなのか

ホーム > 7-basic.html