~複雑現象の計測と数理モデリングをつなぐ新たな指針に~
ポイント
・複雑現象の理解には所与の計測データを過不足なく表す関数や方程式(数理モデル)が有用
・データの質や量に応じて最良の数理モデルを選択するベイズ推定のスケーリング則を解明
・データに根ざした数理モデルの簡略化や複雑現象の計測を効率化する指針につながると期待
概要
古くは惑星の運動を司るケプラーの法則が象徴するように、単純な関数や方程式を用いて計測データを表す数理モデリングは様々な現象に対する理解を深めてきました。ベイズ情報量規準(BIC)は所与のデータを過不足なく単純に表す数理モデルを選ぶための指標であり、近年のデータ駆動科学を支える標準的なツールの一つです。IT分野などで幅広く用いられているベイズ推定※1を数学的に近似した統計学の公式として、BICは導かれます。しかし、同近似はデータの量や質による影響を無視しており、本来それらがベイズ推定にどう影響するかはBICの発見から40年以上に渡り未解決問題のままでした。
九州大学情報基盤研究開発センターの徳田悟助教、東京大学大学院新領域創成科学研究科の岡田真人教授らの共同研究グループはベイズ推定と統計物理学の数学的な対応に着目し、理論解析を進めることで、計測データの量や質に対するベイズ推定のスケーリング則※2を初めて明らかにしました。これを元にした数値シミュレーションを行うことで、ベイズ推定が計測データの質や量に応じた複数の「状態」を取り、状態毎に異なる数理モデルを最良とみなす性質を発見しました。データの量が多く質が高い状態であるほど、より多くのパラメータを持つ複雑な数理モデルを最良とみなすこともわかりました。これらはBICでは説明がつかず、今回発見したスケーリング則によって初めて明らかになった性質です。
今回の発見はこれまで研究者の洞察に頼ってきた数理モデルの簡略化を計測データに根ざして客観化・自動化することを可能にし、様々な複雑現象の実態を捉えるために役立つと期待されます。見方を変えれば、所与の数理モデルの妥当性を実証するために「どれくらいの量や質の計測データが必要か?」という問いに答えるものでもあり、計測の効率化の指針につながることも期待されます。
本研究成果は米国物理学会発行の学術誌「Physical Review Research」に米国東部時間2022年12月6日(火)に掲載されました。
用語解説
(※1) ベイズ推定
パラメータ推定は計測データを表す数理モデルを立て、モデルのパラメータの値をデータに合うように求めるデータ分析の一つである。特に、計測データとパラメータが共にランダムに値が決まるもの(確率変数)とみなし、計測データが与えられた下でパラメータが従う条件付き確率分布を求める手続きをベイズ推定と呼ぶ。パラメータの値だけでなく、その値の不確かさを定量化できることが一つの特徴である。ベイズ推定は条件付き確率の連鎖律(ベイズの定理)をその基礎とし、数理モデルの不確かさも定量化できる。ベイズ情報量規準(BIC)は計測データが与えられた下で数理モデルが従う条件付き確率分布(モデルの事後分布)を近似することで導出される。今回、この近似で無視される計測データの量や質に応じたモデルの事後分布の変化を明らかにした。
(※2) スケーリング則
2つ以上の興味のある量の間に成立する変換則。例えば、球の半径rと体積Vに着目すると、その間にはV=(4πr^3)⁄3という関係が成立する。つまり、これはVがr^3に比例するという変換則である。このことから、rを2倍するとVは23=8倍になることがわかる。今回、新たに定義した「ベイズ比熱」という量Cと計測データの量(計測点の個数)n、計測データの質(計測ノイズの小ささ)βの間にC=f(nβ)という関係が成立することを、それを満たす関数fの詳細と共に明らかにした。
詳細
詳細はこちらをご参照ください。