AIを用いて新しい物質を開発する(2)

前回に引き続きMaterialsInfomaticsの話となる。いわゆるAIあるいは機械学習を用いて新しい材料を開発する分野で、米国ではMaterials Genome Initiative(材料ゲノム計画)の名のもとにオバマ大統領時代から進められているものでもある。

実験データを基に、ある特性に着目してその特性を目的変数としてそれを支配する因子(組成や製造条件等)を説明変数とする。目的変数を説明変数の組合せで精度良く記述できるモデルを作成することで、目的変数をより向上させる説明変数の組合せを得ることができる。

この目的のためには2つ重要なことがあり、1つはどのようなモデルを使用するかということ、もう1つはどのような説明変数を使用するかということである。モデル化に関しては、機械学習の進歩に伴い沢山の回帰分析の手法が開発されている。Excelでも重回帰分析は可能であるし、Pythonを使用すればライブラリでランダムフォレスト(RF)などの代表的な回帰分析手法は使用できる。機械学習の代表的なライブラリであるscikit-learnだけでも28種類も実装されているようだ。

sklearnの回帰モデルを片っ端から試す - Qiita
はじめに sklearnの回帰モデルを28種類試し,精度のグラフを生成します. 機械学習モデルを大量に試すツールとしてはAutoML系や, 最近ではPyCaretのように素晴らしく便利なものが巷に溢れていますが,自前でモデルを用意したいこと...

もう1つの説明変数について、材料開発をするうえでは材料の要素を説明変数という形にしていく必要がある。一言で材料と言ってもその中には色々なものがあり、大きく分けると有機物を主体とする材料と無機物を主体とする材料に分けられる。この中で前者については、RDKitというオープンソースのライブラリが無料で提供されており、分子構造を説明変数に変換することが可能となっている。分子内の元素の並び方や二重結合、三重結合を記述していくことで分子を表現するような手法である。下のサイトにRDKitのインストール方法やその使用方法がまとめられている。

RDKitでケモインフォマティクスに入門
ケモインフォマティクスとは化学情報学とも呼ばれる分野で,コンピュータ・情報科学を用いて化学上の問題を取り扱う学問領域になります.そのためにはコンピュータで化合物の構造・性質などを取り扱う必要がありますが,人間とコンピュータでは化合物の認識方...

これに対して無機物を主体とする材料については、説明変数とするのが比較的難しい。有機物はその構成元素がC、H、Oが殆どであるのに対して無機物は元素の種類が遥かに多くなることが原因と思われる。

米国の材料ゲノム計画の影響か、日本でも情報統合型物質・材料開発イニシアティブというプロジェクトが2015-2020年で行われ、ここで有機物、無機物を含む材料全体の説明変数(記述子とも言う)を開発してきた。その結果XenonPyというライブラリが開発された。

XenonPyについては次回詳細に紹介したい。しかし、やはり無機系の化合物を説明変数化することはまだ不十分な段階で、このためか日本国内でも化学系の会社のMaterialsInfomaticsの取組みは進みつつあるが、無機系の材料を扱う会社の取組みは遅いように感じられる。下は住友化学の取組みの例となる。これまで日本の素材系の会社は世界で存在感を示してきたが、今後もそれを継続できるか否かの境目にきているのかもしれない。

MIで先陣を切る住友化学、材料開発で驚きの効率化
住友化学がマテリアルズ・インフォマティクス(MI)を活用した材料開発で成果を出し始めた。研究者の経験に頼っていたこれまで方法からMIの導入によるデータに基づく(データ駆動の)手法に変えることで、材料開発の効率化や高度化を実現しつつあるのだ。...

#MaterialsInfomatics #RDKit #SKlearn #XenonPy

コメント

タイトルとURLをコピーしました