統計編概要 †応用測定編では、一つの試料に複数の磁性鉱物成分が入っているとき、その成分を取り出す工夫があることを見た。ここでは少し観点を変え、複数の試料に共通の磁性鉱物成分が入っているときに、それらを同時に眺めることで成分を取り出すというアプローチを紹介する。 低次元線形混合 †最も簡単な例は、試料が少数の量で表現されており、かつ成分の混合と磁性とが線形に対応する場合である。例えばS比の分析がそれにあたる(図1)。2つの試料a, bのS比をSa, Sb、それぞれのIRMをMa、Mbとすると、二つの試料を足し合わせたもののS比は、 となり、結局IRM強度に比例した線形混合となる。この場合、Sa, Sbのクロスプロット上では直線となる。
図1の例では、深度プロットでは7 m付近に特異な層が存在することが分かるが、S比のクロスプロットをとると、5.5 m付近を境に異なる磁気2成分の混合が起こっていて、全体では3成分の混合であることが分かる。ちなみにこの例ではその他の分析により、左下に向かうものが陸源の磁性鉱物、右上、左上が二種類の生物源磁鉄鉱であることが分かっている。 図1でも明らかなとおり、一般に統計解析的に成分を推定する場合には「混合トレンド」が得られる。「端成分」を得るためには何らかの仮定を置くか、別の測定から制約をかけなければいけない。例えばデータの中で最も距離の遠いものを端成分にしたり、混合の統計的分布を仮定したりする。また、端成分を推定したとしても、それも複数の鉱物の混合である可能性がある。 高次元測定と次元圧縮 †上の例は2つのS比を比較しており、2次元(平面)のグラフで表示することで混合の様子がすぐに分かった。しかし、磁気測定の多くは高次元と言えるもので、その解析はより複雑である。例えばヒステリシス測定やIRM着磁、FORCなどでは、数百点以上の測定値が得られる(図2).
上の図を見て三成分ということはなんとなく予想できるかもしれないが、その混合トレンドや端成分の取りうる形は自明ではない。こういった場合、線形代数的にデータの次元を下げるアプローチが有効である場合がある。実は、2成分混合であれば2次元、3成分混合であれば3次元の空間でデータを表現することができる(上の例のようにデータを規格化するとさらに次元が下がる)。測定エラーやマイナーな成分の存在があると数学的に厳密に低次元化できるわけではないが、低次元で近似することを次元圧縮 (dimensionality reduction) という。 データ空間 †次元圧縮の第一歩はデータを高次元で表現することである。図4-2は2次元的なグラフである。しかし各試料に対応するグラフは、各測定磁場に対する磁化の組み合わせ(ここでは100点)でできている。言い換えれば、一つ一つのカーブは100個の数の組(ベクトル)と同値である。そこで100次元空間を考えれば、一つ一つのデータはそのベクトルの指す点とみなせる。これを図4-1の高次元版だと考えればよい。データが点として表現される空間を、データ空間と呼ぶ。 線形混合の場合は、データ空間上での振る舞いは極めて単純である。二つのデータの足し合わせはベクトルの和に他ならない。ここで2成分混合を考えてみよう。端成分を表す点と原点を通るベクトルをv1, v2とすると、全てのデータはv1, v2の足し合わせ(一次結合)で書けるはずである。これはv1, v2が張る平面であり、データ空間が100次元であっても、データは平面上に分布している。ここでv1, v2は元の座標系で直交しているとは限らないことに注意。なので、結局適当な座標変換を施すことで、全てのデータは2次元で表現できることになる。もちろん実際の場合には端成分がわからない。そこで、統計的データ解析の主題は、データが100次元空間の中でばらばらにあるのではなく、平面など低次元空間に限定して分布しているか?を調べることである。 このことを数式を用いて書いてみよう。地球科学に限らず多くのデータ解析の論文は数式を用いて書いてあり、その書き方のクセのようなものを捉えておくことは有用である。まず一つの試料の測定点がn個あるとして、それを適当に(例えば印加磁場の弱い順に)並べたベクトルをとする。m個の試料を測ったとして、という行列をXと書く。これを2次元に次元圧縮するということは、次のように表される ここでSは行列で、各行が端成分を表す。Aは混合行列と呼ばれる 2行列である。文で書くとややこしいが、実際には各測定点(磁場)で、 などとなっているだけに過ぎない。 実際上は機械の精度の問題や、そもそも測定プロトコルが違うなどの理由で、測定磁場が試料によって異なるという場合もある。こういった場合には内挿によってデータを同じデータ空間に入れる必要があるが、内挿によるエラー伝搬は非常に複雑であり、岩石磁気分野で真剣な取り扱いはないと思われる。幸いなことに、たいていの磁気測定においてエラーは極めて小さく抑えられる 具体例:主成分分析 †解析手法は調べればいくらでも見つけることができるので(例えばHeslop, 2015。この他に膨大にあるデータ科学系の文献でも良い)、ここでは主成分分析を用いてこれまで述べたことをビジュアルに紹介する。ちなみに主成分分析は古地磁気方位の決定にも使われているが、古地磁気方位も3次元の測定データを直線(1次元)あるいは平面(2次元)に次元圧縮した表現と考えることができる(複数試料よりなるデータ空間を考えると消磁ステップ分の次元を持った空間での解析が可能だが、ここではこれ以上述べない)。 図2のように、多くの場合実際のデータは明らかに似通っていて、そもそも分類に100次元、1000次元もの変数を必要としないことは明らかである。主成分分析では最小二乗法の意味で最も良い低次元近似を与えるため、2-3次元でデータの分布を可視化したり、必要となる端成分の数の予測を行うことができる。 下は図2のデータを3つの主成分X, Y, Zで表現したものである。ここでデータが3次元的に分布しているため、少なくとも3つの端成分が必要であることが見て取れる。一方、データの分布はX, Y, Zに平行ではないことに注意が必要である。一般に、主成分分析は形式的には式(1)と同じだが、主成分が端成分そのものになるわけではなく、あくまで部分空間を張るベクトルとして無数にあるものの一つを選び出すに過ぎない。
参考文献 †
執筆者・改訂履歴 †
|