8月 122009
 

*注意* 研究の話です.面白くも何ともありません.しかし,役に立つ人には無茶苦茶役に立つでしょう.

多変量統計的プロセス管理(MSPC)とは?

何であっても構わないが,ある対象が正常であるか異常であるかを,測定したデータから判断したいことがある.例えば,半導体製品や鉄鋼製品を製造している工場において,製造設備の運転データから,設備の異常の有無を調べたいというようなケースだ.このように異常を見付ける作業を異常検出というが,従来は,測定されている変数それぞれに対して個別に上限や下限を設定し,その上下限(管理限界という)を測定値が超えたら異常が発生したと判断するという方法が用いられてきた.この方法を統計的プロセス管理(Statistical Process Control: SPC)という.

ところが,変数を個別に管理する従来の統計的プロセス管理(SPC)では,うまくいかないことも多い.特に,管理すべき変数の数が増えると悲惨な状況になる.ここで詳しく説明する気はないので,興味がある人は,「多変量統計的プロセス管理(Multivariate Statistical Process Control)の情報源」を参考にして欲しい.ポイントは,従来法では変数間の相関関係が無視されているということだ.

そこで登場したのが,多変量統計的プロセス管理(Multivariate Statistical Process Control: MSPC)だ.その起源は1950年代にまで遡り,当時既に,主成分分析(Principal Component Analysis: PCA)を用いる方法が提案されている.現在広く利用されている実施形態が提案されたのは1970年代.計算機能力が低かったこともあり,その後10年以上も大して実用化されなかった.ところが,1990年代以降,化学プロセスの異常検出方法として脚光を浴び,今や,多変量統計的プロセス管理(MSPC)はありとあらゆる業界で使用される方法となっている.

多変量統計的プロセス管理(MSPC)の基礎勉強方法

多変量統計的プロセス管理(MSPC)の基盤は,とにもかくにも,主成分分析(PCA)だ.先日,「品質問題を解く技術−多変量統計的プロセス管理: SONAR研究会」にも書いたとおり,

主成分分析(PCA)を理解できない人は,多変量統計的プロセス管理(MSPC)も理解できません.このため,多変量統計的プロセス管理を使いこなすことができずに,たとえ適用しても失敗するでしょう.だから,主成分分析だけは数式が嫌いでも勉強しないといけません.そして,主成分分析を理解するためには,線形代数,その中でも固有値問題がわかっていれば十分です.是非,勉強して下さいね.

ということだ.話はこれで終わりなのだが,「でも,どうやって勉強したら良いの?」という質問があるので,答えておこう.

書店に行けば,「多変量解析」に関するテキストが無茶苦茶たくさんあることに気付く.主成分分析(PCA)は多変量解析の中でも重回帰分析に並んで最も有名な解析方法の1つなので,どの本を選んでも解説されているはずだ.基本的には,どの本でもいい.人によって読みやすいと感じる本は異なるので,自分の好きなテキストを選ぶのがよい.別に,猫耳&萌え系でも構わない.

しかし,1つだけ注意しておきたいことがある.主成分分析(PCA)を理解することと,データから主成分を計算できることとは,全く異なるということだ.

主成分分析を理解する ≠ 主成分を計算できる

大切なので繰り返す.主成分分析(PCA)を実行できても,主成分分析(PCA)を理解したことにはならない.これだけは忘れるな.何も主成分分析(PCA)に限らない.他の手法でも同様だ.このため,計算方法だけをウダウダと丁寧に説明してある本には手を出さないほうがよい.そんな本をいくら読んでも,計算はできるようになっても,本質を理解することはできないからだ.特に初学者向けの本には要注意だ.そうかと言って,玄人向けの本に手を出すと,簡単なことでも難しく書いてあって全く分からない危険性がある.こちらも要注意だ.

主成分分析(PCA)を理解するためには,線形空間をイメージできなければならない.「100次元線形空間の中に5次元の部分空間があって,あるベクトルをその部分空間に射影するんだよ」と言われたら,その意味するところを瞬時にイメージできないと話にならない.我々は空間的には3次元の世界に住んでいるので,なかなか4次元以上をイメージすることが難しい.しかし,主成分分析(PCA)を理解するためには,4次元以上の空間が頭の中にイメージできないといけない.

このイメージを持てるように書かれていて,かつ自分の好みに合うテキストを探すのがよいだろう.

本格的に,多変量統計的プロセス管理(MSPC)を使おう,あるいは勉強しようと思っているなら,線形代数の復習はしておきたい.特に大切なのは,固有値問題だ.主成分分析(PCA)に限らない.数多くの多変量解析手法の基礎をなすのが固有値問題である.逆に,固有値・固有ベクトルが理解できていれば,数多くの多変量解析手法がみんな似たものに見えることだろう.どれか1つを理解すれば,他のものも容易に理解できる.ただし,ここでも,固有値・固有ベクトルを計算できることと,固有値・固有ベクトルを理解していることとは全く異なるということを指摘しておく.

お勧めのテキスト!?

次に来る質問はおおよそ決まっている.「お勧めのテキストはありますか?」だ.正直,これに答えるのは難しい.

多変量統計的プロセス管理(MSPC)については,私の知る限り,日本語のテキストはない.仕方がないので,ウェブ上で公開されている資料を紹介しておこう.「多変量統計的プロセス管理(Multivariate Statistical Process Control)の情報源」の「解説・書籍・テキスト」に,「多変量統計的プロセス管理」と題した資料がPDF形式で公開してある.まずは,これで勉強するのが良いだろう.

主成分分析(PCA)については,とにかく書店で好きなテキストを選んで欲しい.次は,それを読破してから考えよう.それでも,どうしてもという人には,再び,ウェブ上で公開されている資料を紹介しておこう.「初心者向けテキスト: データ解析」に「主成分分析」と題した資料がPDF形式で公開してある.

最後に,線形代数については,「研究室の数学ゼミ(線形代数)」でも紹介した「線型代数と固有値問題」(笠原著,現代数学社)を挙げておく.プロセスシステム工学研究室の公認テキストだ.

なお,英語でも大丈夫という人なら,”Fault Detection and Diagnosis in Industrial Systems” (L.H. Chiang, E.L. Russell, R.D. Braatz, Springer, 2001)というテキストがある.主成分分析(PCA)だけでなく,判別分析(FDA)やPartial Least Squares (PLS)についても書かれてあるので,これ1冊で色々わかる.

あるいは,中身がほとんど同一の”Data-driven Methods for Fault Detection and Diagnosis in Chemical Processes” (Evan L. Russell, Leo H. Chiang, Richard D. Braatz, Springer, 2000)か.

 Leave a Reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>