前回に引き続きMaterialsInfomaticsの話となる。いわゆるAIあるいは機械学習を用いて新しい材料を開発する分野で、米国ではMaterials Genome Initiative(材料ゲノム計画)の名のもとにオバマ大統領時代から進められているものでもある。
実験データを基に、ある特性に着目してその特性を目的変数としてそれを支配する因子(組成や製造条件等)を説明変数とする。目的変数を説明変数の組合せで精度良く記述できるモデルを作成することで、目的変数をより向上させる説明変数の組合せを得ることができる。
この目的のためには2つ重要なことがあり、1つはどのようなモデルを使用するかということ、もう1つはどのような説明変数を使用するかということである。モデル化に関しては、機械学習の進歩に伴い沢山の回帰分析の手法が開発されている。Excelでも重回帰分析は可能であるし、Pythonを使用すればライブラリでランダムフォレスト(RF)などの代表的な回帰分析手法は使用できる。機械学習の代表的なライブラリであるscikit-learnだけでも28種類も実装されているようだ。

もう1つの説明変数について、材料開発をするうえでは材料の要素を説明変数という形にしていく必要がある。一言で材料と言ってもその中には色々なものがあり、大きく分けると有機物を主体とする材料と無機物を主体とする材料に分けられる。この中で前者については、RDKitというオープンソースのライブラリが無料で提供されており、分子構造を説明変数に変換することが可能となっている。分子内の元素の並び方や二重結合、三重結合を記述していくことで分子を表現するような手法である。下のサイトにRDKitのインストール方法やその使用方法がまとめられている。

これに対して無機物を主体とする材料については、説明変数とするのが比較的難しい。有機物はその構成元素がC、H、Oが殆どであるのに対して無機物は元素の種類が遥かに多くなることが原因と思われる。
米国の材料ゲノム計画の影響か、日本でも情報統合型物質・材料開発イニシアティブというプロジェクトが2015-2020年で行われ、ここで有機物、無機物を含む材料全体の説明変数(記述子とも言う)を開発してきた。その結果XenonPyというライブラリが開発された。
XenonPyについては次回詳細に紹介したい。しかし、やはり無機系の化合物を説明変数化することはまだ不十分な段階で、このためか日本国内でも化学系の会社のMaterialsInfomaticsの取組みは進みつつあるが、無機系の材料を扱う会社の取組みは遅いように感じられる。下は住友化学の取組みの例となる。これまで日本の素材系の会社は世界で存在感を示してきたが、今後もそれを継続できるか否かの境目にきているのかもしれない。

#MaterialsInfomatics #RDKit #SKlearn #XenonPy

コメント