ISO クラスタ(Iso Cluster)ツールの詳細
[ISO クラスタ(Iso Cluster)] ツールは、改良した反復最適化クラスタリング手法を使用します。これは、平均値移行手法とも呼ばれます。このアルゴリズムは、すべてのセルを入力バンドの多次元空間内の個別の単一モード グループ(ユーザが数を指定)に分離します。このツールは、一般的に、教師なし分類の準備に使用されます。
ISO クラスタ(Iso Cluster)アルゴリズムの接頭辞「iso」は、クラスタリングの実行方法である Iterative Self Organizing の略称です。このタイプのクラスタリングは、反復されるたびに、すべてのサンプルが既存のクラスタの中心に割り当てられ、すべてのクラスについてそれぞれ新しい平均値が再計算されるプロセスを使用します。クラスの数として最適な値が最初からわかっていることは通常ありません。したがって、まず控えめに大きい値を入力して、結果として生成されるクラスタを分析してから、より少ない数のクラスで関数を再実行することをお勧めします。
ISO クラスタ アルゴリズムは、反復的なプロセスであり、それぞれの候補のセルをクラスタに割り当てるときに最短ユークリッド距離を計算します。このプロセスでは、まず、ソフトウェアによって任意の平均値がクラスタごとに 1 つ割り当てられます(クラスタの数はユーザが指定します)。すべてのセルがそれぞれ最も近い平均値に割り当てられます(これらはすべて多次元属性空間に含まれています)。新しい平均値が、最初の反復の後にクラスタに属するセルの属性距離に基づいて、クラスタごとに再計算されます。このプロセスは繰り返され、再び、各セルが多次元属性空間の最も近い平均値に割り当てられ、前の反復で決定されたセルの所属に基づいて新しい平均値がクラスタごとに再計算されます。[処理の反復数] を使用して、プロセスの反復の数を指定できます。この値は、指定した数の反復が実行された後に、セルの別のクラスタへの移行が最小限になること(すべてのクラスタが安定するようになること)が確保されるために十分大きい値である必要があります。クラスタの数を増やすとき、反復の数も増やす必要があります。
[クラス数] で指定する値は、クラスタリング プロセスによって生成されることが可能なクラスタの最大数です。ただし、出力シグネチャ ファイルのクラスタの数は、クラスの数として指定した数と必ずしも同じではありません。このような状況は、次のような場合に生じます。
- データの値と最初のクラスタの平均値は均等に配分されません。これらのクラスタの出現頻度がほぼ 0 であるセル値の範囲があることも考えられます。したがって、元のあらかじめ定義されているクラスタの平均値の中には、十分なセルを吸収することがないものがある場合もあります。
- [最小クラス サイズ] に指定した値よりも少ないセルで構成されるクラスタは、反復の終了時に排除されます。
- クラスタは、クラスタが安定するようになった後に統計値が似ていれば、隣接するクラスタとマージされます。近接し、よく似た統計情報を持つ複数のクラスタを分離したままにしておくことはデータの不要な分割であるためです。
例
[ISO クラスタ(Iso Cluster)] ツールによって作成されるシグネチャ ファイルのサンプルを次に示します。このファイルの先頭には、ISO クラスタリングを実行するときに使用されるパラメータの値を示すコメント化されたヘッダーがあります。
クラス名を指定するかどうかはオプションであり、テキスト エディタを使用してファイルを作成した後に入力します。クラス名を入力する場合、クラス名はそれぞれ 14 文字(英数字)以下の単一の文字列である必要があります。
# Signatures Produced by Clustering of # Stack redlands # number_of_classes=6 max_iterations=20 min_class_size=20 # sampling interval=10 # Number of selected grids /* 3 # Layer-Number Grid-name /* 1 redlands1 /* 2 redlands2 /* 3 redlands3 # Type Number of Classes Number of Layers Number of Parametric Layers 1 4 3 3 # =============================================================== # Class ID Number of Cells Class Name 1 1843 # Layers 1 2 3 # Means 22.8817 60.7656 34.8893 # Covariance 1 169.3975 -69.7444 179.0808 2 -69.7444 714.7072 10.7889 3 179.0808 10.7889 284.0931 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 2 2495 # Layers 1 2 3 # Means 38.4894 132.9775 61.8104 # Covariance 1 414.9621 -19.0732 301.0267 2 -19.0732 510.8439 102.8931 3 301.0267 102.8931 376.5450 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 3 2124 # Layers 1 2 3 # Means 70.3983 82.9576 89.2472 # Covariance 1 264.2680 100.6966 39.3895 2 100.6966 523.9096 75.5573 3 39.3895 75.5573 279.7387 # ------------------------------------------------------------ # Class ID Number of Cells Class Name 4 2438 # Layers 1 2 3 # Means 105.8708 137.6645 130.0886 # Covariance 1 651.0465 175.1060 391.6028 2 175.1060 300.8853 143.2443 3 391.6028 143.2443 647.7345
参考文献
Ball, G. H., and D. J. Hall, A Novel Method of Data Analysis and Pattern Classification, (Menlo Park, California: Stanford Research Institute, 1965)
Richards, J. A., Remote Sensing Digital Image Analysis: An Introduction., (Berlin: Springer–Verlag, 1986).