いわゆるAIあるいは機械学習を活用して新規な物質を開発する試みが広がっている。その手順について前回、前々回と紹介した。何らかの優れた特性をもつ物質を開発するためには、目的とする特性に影響する種々の因子を抽出して説明変数として、目的変数と説明変数の関係を機械学習でモデリングする。このとき目的変数をうまく説明できるような説明変数を選択することが重要となる。説明変数の選択については、特に特徴量エンジニアリングなどと呼ばれることもある。
材料の中でも無機化合物は構成する元素の数も多く、その組合せも無限に近いほど大きいことから特に難易度が高くなる。元素単体あるいはその化合物を説明変数化するために、XenonPyというライブラリが開発されている。開発元は日本の機構で、下はそのサイトであるが英語版となっている。
このXenonPyを使用するためには、XenonPyをインストールする前にRDKit、Pymatgen、Pytorchの3つをインストールしておかなければならず、少し面倒な作業となる。しかしこれらをインストールすることで化合物の化学式を入力するだけで説明変数を作成してくれる。説明変数は記述子、特徴量とも呼ばれることがある。下のブログにXenonPyを用いて具体的な記述子を作成するまでが記載されている。ただ、使用して実際に学習させてみると、まだもう1つという感はする。
ここでPymatgenというライブラリが出てきているが、これは米国のMaterials Projectで開発されたライブラリで、これを使用することでMaterials Projectのデータを読込むことができる。Materials Projectは第一原理計算のデータベースで、これを元に物質の結晶構造、熱力学的データ、バンド構造等を計算するものである。状態図やプルべダイアグラム等も計算可能である。しかし温度の因子がないので状態図としてはまだ不十分ではある。常温のプルべダイアグラムはそれなりのものができているように見える。
材料開発としてのMaterials Infomaticsを考えたとき、大きくは説明変数の選択と説明変数と目的変数の関係のモデリングの2つが重要である。後者については最近の機械学習の進歩で新しいものが出てきているが、前者についてはまだ不十分であるためここをうまく乗り越えることができると夢のような化合物が生まれる可能性もある。まだまだ勉強中の身ではあるが、精進していきたい。
#MaterialsInfomatics #XenonPy #Pymatgen

コメント