(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-19
(45)【発行日】2024-03-28
(54)【発明の名称】機械学習を使って分子の嗅覚特性を予測するためのシステムおよび方法
(51)【国際特許分類】
G16C 20/30 20190101AFI20240321BHJP
G16C 20/70 20190101ALI20240321BHJP
【FI】
G16C20/30
G16C20/70
(21)【出願番号】P 2021546345
(86)(22)【出願日】2020-02-10
(86)【国際出願番号】 US2020017477
(87)【国際公開番号】W WO2020163860
(87)【国際公開日】2020-08-13
【審査請求日】2021-10-06
(32)【優先日】2019-02-08
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】523174538
【氏名又は名称】オズモ ラブズ, ピービーシー
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】アレクサンダー・ウィルチコ
(72)【発明者】
【氏名】ベンジャミン・サンチェス-レンゲリン
【審査官】山崎 誠也
(56)【参考文献】
【文献】特開2019-060870(JP,A)
【文献】米国特許出願公開第2017/0364605(US,A1)
【文献】国際公開第2019/198644(WO,A1)
【文献】WU,Zonghan ,A Comprehensive Survey on Graph Neural Networks,JOURNAL OF LATEX CLASS FILES,2019年01月03日,p.1-22
【文献】DUVENAUD,David,Convolutional Networks on Graphs for Learning Molecular Fingerprints,NIPS 2015 [online],2015年,p.1-9,インターネット:<URL:http://papers.nips.cc/paper5954-convolutional-networks-on-graphs-for-learning-molecular-fingerprints>
【文献】林 健司,匂いイメージセンサーの開発と匂いの可視化,光学,2014年,43巻 3号,p.117-123
【文献】Deeply learning molecular structure-property relationships using attention- and gate-augmented graph convolutional network,The Royal Society of Chemistry,2018年10月08日,p.1-11
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
1つまたは複数の予測される嗅覚特性を記述するデータを予測するためのシステムを動作させる方法であって、
前記システムは、1つまたは複数のコンピューティングデバイスを備え、前記方法は、
前記1つまたは複数のコンピューティングデバイス
が、分子に関連付けられた化学構造データに少なくとも部分的に基づいて、前記分子の嗅覚特性を予測するようにトレーニングされた機械学習済みグラフニューラルネットワークを取得する
ことと、
前記1つまたは複数のコンピューティングデバイス
が、選択された分子の化学構造をグラフィカルに記述するグラフを取得する
ことと、
前記1つまたは複数のコンピューティングデバイス
が、前記選択された分子の前記化学構造をグラフィカルに記述する前記グラフ
を前記機械学習済みグラフニューラルネットワーク
への入力として提供することと、
前記1つまたは複数のコンピューティングデバイス
が、前記機械学習済みグラフニューラルネットワークを用いて、前記選択された分子の1つまたは複数の予測される嗅覚特性を記述す
るデータを
予測することと、
前記1つまたは複数のコンピューティングデバイス
が、前記選択された分子の前記1つまたは複数の予測される嗅覚特性を記述する前記予測
されたデータを出力として
提供することと
を含む
、方法。
【請求項2】
前記1つまたは複数のコンピューティングデバイス
が、前記機械学習済みグラフニューラルネットワークを取得する
ことは、
前記1つまたは複数のコンピューティングデバイス
が、複数の例示的化学構造を含むトレーニングデータを取得する
ことであって、各例示的化学構造は、前記例示的化学構造の嗅覚特性を記述する1つまたは複数の嗅覚特性ラベルでラベルづけされる、
ことと、
前記1つまたは複数のコンピューティングデバイス
が、前記取得されたトレーニングデータに部分的に基づいて分子の嗅覚特性を予測するように
前記機械学習済みグラフニューラルネットワークをトレーニングする
ことと
を含む、請求項1に記載
の方法。
【請求項3】
前記方法は、
前記1つまたは複数のコンピューティングデバイス
が、前記選択された分子に関連付けられた、前記予測される嗅覚特性に対する、前記選択された分子の化学構造の1つまたは複数の構造単位の相対重要度を記述する視覚化データを生成する
ことと、
前記1つまたは複数のコンピューティングデバイス
が、前記視覚化データ
を前記1つまたは複数の嗅覚特性を示す前記予測
されたデータ
に関連付けて提供する
ことと
をさらに含む、請求項1
~2のいずれか一項に記載
の方法。
【請求項4】
前記方法は、前記1つまたは複数のコンピューティングデバイス
が、前記選択された分子の前記化学構造に対する構造変化が、前記選択された分子に関連付けられた前記予測される嗅覚特性にどのように影響するかを示すデータを生成する
ことをさらに含む、請求項1
~3のいずれか一項に記載
の方法。
【請求項5】
前記選択された分子の前記1つまたは複数の嗅覚特性を示す前記予測
されたデータは、特定の嗅覚特性の強度を含む、請求項1
~4のいずれか一項に記載
の方法。
【請求項6】
前記方法は、
前記1つまたは複数のコンピューティングデバイス
が、第2の選択された分子の第2の化学構造をグラフィカルに記述する第2のグラフを取得する
ことと、
前記1つまたは複数のコンピューティングデバイス
が、前記第2の選択された分子の前記第2の化学構造をグラフィカルに記述する前記第2のグラフ
を前記機械学習済みグラフニューラルネットワーク
への入力として提供することと、
前記1つまたは複数のコンピューティングデバイス
が、前記機械学習済みグラフニューラルネットワークを用いて、前記第2の選択された分子に関連付けられた1つまたは複数の第2の嗅覚特性を記述する第2
のデータを予測
することと、
前記1つまたは複数のコンピューティングデバイス
が、前記選択された分子についての前記予測
されたデータ
と前記第2の選択された分子についての前記
予測された第2
のデータ
との比較に基づいて、前記選択された分子と前記第2の選択された分子との間の1つまたは複数の嗅覚差を
決定することと
をさらに含む、請求項1
~5のいずれか一項に記載
の方法。
【請求項7】
前記方法は、
前記機械学習済みグラフニューラルネットワークまたは追加機械学習済みグラフニューラルネットワークへの、前記選択された分子の前記化学構造をグラフィカルに記述する前記グラフの入力を通して、前記1つまたは複数のコンピューティングデバイス
が、
前記選択された分子の光学特性、
前記選択された分子の味覚特性、
前記選択された分子の生分解性、
前記選択された分子の安定性、または
前記選択された分子の毒性、のうちの1つまたは複数を示すデータを
決定することをさらに含む、請求項1
~6のいずれか一項に記載
の方法。
【請求項8】
前記選択された分子の前記化学構造をグラフィカルに記述する前記グラフは、前記選択された分子の前記化学構造の2次元表現を示す2次元グラフ構造を含む、請求項1
~7のいずれか一項に記載
の方法。
【請求項9】
前記選択された分子の前記化学構造をグラフィカルに記述する前記グラフは、前記選択された分子の前記化学構造の3次元表現を示す3次元グラフ構造を含み
、
前記方法は、前記1つまたは複数のコンピューティングデバイス
が、1つまたは複数の量子化学的計算を実行することにより、前記選択された分子の前記化学構造の前記3次元表現を識別する
ことをさらに含む、請求項1~8のいずれか一項に記載
の方法。
【請求項10】
前記方法は、前記1つまたは複数のコンピューティングデバイス
が、反復探索プロセスを
実行することにより、1つまたは複数の所望の嗅覚特性を呈する追加分子を識別する
ことをさらに含み、
前記反復探索プロセスは、複数の反復の
それぞれについて、
前記1つまたは複数のコンピューティングデバイス
が、候補分子の候補化学構造をグラフィカルに記述する候補分子グラフを生成する
ことと、
前記1つまたは複数のコンピューティングデバイス
が、前記候補分子の前記候補化学構造をグラフィカルに記述する前記候補分子グラフ
を前記機械学習済みグラフニューラルネットワーク
への入力として提供することと、
前記1つまたは複数のコンピューティングデバイス
が、前記機械学習済みグラフニューラルネットワークを用いて、前記候補分子の1つまたは複数の予測される嗅覚特性を記述す
るデータを
予測することと、
前記1つまたは複数のコンピューティングデバイス
が、前記候補分子の前記1つまたは複数の予測される嗅覚特性
と前記1つまたは複数の所望の嗅覚特性と
を比較する
ことと
を含む、請求項1
~9のいずれか一項に記載
の方法。
【請求項11】
前記選択された分子の前記1つまたは複数の予測される嗅覚特性を示す前記予測
されたデータは、数値埋込みを含み、
前記方法は、前記1つまたは複数のコンピューティングデバイス
が、前記数値埋込み
と前記機械学習済みグラフニューラルネットワークによって他の分子用に出力された他の数値埋込みと
を比較することによって、前記選択された分子の前記予測される嗅覚特性と同様の嗅覚特性を有する他の分子を識別する
ことをさらに含む、請求項1
~10のいずれか一項に記載
の方法。
【請求項12】
前記選択された分子の前記1つまたは複数の予測される嗅覚特性を示す前記予測されたデータは、数値埋込み空間で表された数値埋込みを含む、請求項1~11のいずれか一項に記載
の方法。
【請求項13】
前記1つまたは複数のコンピューティングデバイス
が、前記選択された分子のための予測された前記数値埋込みと1つまたは複数の他の分子のための前記機械学習済みグラフニューラルネットワークによって出力された1つまたは複数の他の数値埋込みとの間の距離の測度を
決定することと、
前記1つまたは複数のコンピューティングデバイス
が、前記選択された分子のための予測された前記数値埋込みと前記1つまたは複数の他の分子のための前記機械学習済みグラフニューラルネットワークによって出力された前記1つまたは複数の他の数値埋込みとの間の
決定された距離の測度に基づいて、前記選択された分子の前記予測された嗅覚特性と同様の嗅覚特性を有する前記1つまたは複数の他の分子の少なくとも1つを識別する
ことと
を含む、請求項12に記載
の方法。
【請求項14】
コンピューティングデバイスであって、前記コンピューティングデバイスは、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されると
、動作を
実行することをコンピューティングデバイスに行わせる命令
を記憶する1つまたは複数の非一時的
なコンピュータ
読み取り可能な媒体とを備えるコンピューティングデバイス
と
を備え、
前記動作は、
分子に関連付けられた化学構造データに少なくとも部分的に基づいて、前記分子の1つまたは複数の嗅覚特性を予測するようにトレーニングされた機械学習済みグラフニューラルネットワークを取得することと、
選択された分子の化学構造を表すグラフデータを取得することと、
前記化学構造を表す前記グラフデータ
を前記機械学習済みグラフニューラルネットワーク
への入力として提供することと、
前記機械学習済みグラフニューラルネットワークを用いて、前記選択された分子に関連付けられた1つまたは複数の嗅覚特性を記述す
るデータを
予測することと、
前記選択された分子の前記1つまたは複数の予測される嗅覚特性を記述する前記予測
されたデータ
を出力として
提供すること
と
を含む、コンピューティングデバイス。
【請求項15】
分子の1つまたは複数の嗅覚特性を予測するようにトレーニングされた前記機械学習済みグラフニューラルネットワークを取得することは、
複数の例示的化学構造を含むトレーニングデータを取得することであって、各例示的化学構造は、前記例示的化学構造の嗅覚特性を記述する1つまたは複数の嗅覚特性ラベルでラベルづけされる、ことと、
前記取得されたトレーニングデータに部分的に基づいて嗅覚特性を予測するように
前記機械学習済みグラフニューラルネットワークをトレーニングすること
と
をさらに含む、請求項14に記載のコンピューティングデバイス。
【請求項16】
前記動作は、
前記選択された分子の前記化学構造に対する構造変化が、前記選択された分子に関連付けられた前記予測される嗅覚特性にどのように影響するかを示すデータを生成することをさらに含む、請求項14または請求項15のいずれか一項に記載のコンピューティングデバイス。
【請求項17】
前記動作は、
前記選択された分子に関連付けられた、前記予測される嗅覚特性に対する、前記選択された分子の1つまたは複数の構造単位の相対重要度を記述する視覚化データを生成することと、
前記視覚化データ
を1つまたは複数の嗅覚特性を記述する前記予測
されたデータ
に関連付けて提供すること
と
をさらに含む、請求項14
~16のいずれか一項に記載のコンピューティングデバイス。
【請求項18】
前記選択された分子の前記1つまたは複数の嗅覚特性を示す前記予測
されたデータは、特定の嗅覚特性の強度を含む、請求項14
~17のいずれか一項に記載のコンピューティングデバイス。
【請求項19】
前記動作は、
第2の選択された分子の化学構造を表すグラフデータを取得することと、
前記第2の選択された分子の前記化学構造を表す前記グラフデータ
を前記機械学習済みグラフニューラルネットワーク
への入力として提供することと、
前記機械学習済みグラフニューラルネットワークを用いて、前記第2の選択された分子に関連付けられた1つまたは複数の嗅覚特性を記述す
るデータを
予測することと、
前記選択された分子と前記第2の選択された分子との間の1つまたは複数の知覚差を
決定することとをさらに含む、請求項14
~18のいずれか一項に記載のコンピューティングデバイス。
【請求項20】
前記動作は、前記化学構造を表すグラフデータに少なくとも部分的に基づいて、
前記選択された分子の光学特性、
前記選択された分子の味覚特性、
前記選択された分子の生分解性、
前記選択された分子の安定性、または
前記選択された分子の毒性、のうちの1つまたは複数を示すデータを
決定することをさらに含む、請求項14
~19のいずれか一項に記載のコンピューティングデバイス。
【請求項21】
前記選択された分子の前記化学構造を表す前記グラフデータは、前記選択された分子の2次元構造を示すグラフ構造を含む、請求項14
~20のいずれか一項に記載のコンピューティングデバイス。
【請求項22】
前記選択された分子の前記化学構造を表す前記グラフデータは、前記選択された分子の前記化学構造の3次元表現を示す3次元グラフ構造を含み、前記動作は、
1つまたは複数の量子化学的計算を実行することにより、前記選択された分子の前記化学構造の前記3次元表現を識別する
ことをさらに含む、請求項14
~21のいずれか一項に記載のコンピューティングデバイス。
【請求項23】
前記選択された分子の前記1つまたは複数の予測される嗅覚特性を示す前記予測
されたデータは、数値埋込み空間で表された数値埋込みを含む、請求項14
~22のいずれか一項に記載のコンピューティングデバイス。
【請求項24】
前記動作は、
前記選択された分子のための予測された前記数値埋込みと1つまたは複数の他の分子のための前記機械学習済みグラフニューラルネットワークによって出力された1つまたは複数の他の数値埋込みとの間の距離の測度を
決定することと、
前記選択された分子のための予測された前記数値埋込みと前記1つまたは複数の他の分子のための前記機械学習済みグラフニューラルネットワークによって出力された前記1つまたは複数の他の数値埋込みとの間の
決定された距離の測度に基づいて、前記選択された分子の前記予測された嗅覚特性と同様の嗅覚特性を有する前記1つまたは複数の他の分子の少なくとも1つを識別することとを含む、請求項23に記載のコンピューティングデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は概して、機械学習に関する。より詳細には、本開示は、分子の嗅覚特性を予測するための、機械学習済みモデルの使用に関する。
【背景技術】
【0002】
分子の構造とその嗅覚器知覚特性(たとえば、人間によって観察される分子の匂い)との間の関係は複雑であり、これまで、概して、そのような関係についてはほとんどわかっていない。たとえば、調味料および芳香剤業界は概して、所望の嗅覚特性を有する、商業的に有用な製品を提供するために、試行錯誤、ヒューリスティック、および/または天然物採掘に依拠する。概して、嗅覚環境を整えるための有意義な原理が欠如しているが、分子構造と匂いとの間のマッピングは、分子のわずかな変化が嗅覚品質の大きな変化をもたらし得るように、非常に非線形的であり得ることが知られている。さらに、逆も成り立つ場合があり、ここで、分子の多様な群はすべて、同じにおいがし得る。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の実施形態の態様および利点が、以下の記述において部分的に説明され、または記述から学ぶことができ、または実施形態の実践を通して知ることができる。
【0004】
本開示の1つの例示的態様は、分子の嗅覚特性を予測するためのコンピュータ実装方法を対象とする。この方法は、1つまたは複数のコンピューティングデバイスによって、分子に関連付けられた化学構造データに少なくとも部分的に基づいて、分子の嗅覚特性を予測するようにトレーニングされた機械学習済みグラフニューラルネットワークを取得するステップを含む。方法は、1つまたは複数のコンピューティングデバイスによって、選択された分子の化学構造をグラフィカルに記述するグラフを取得するステップを含む。方法は、1つまたは複数のコンピューティングデバイスによって、選択された分子の化学構造をグラフィカルに記述するグラフを、入力として機械学習済みグラフニューラルネットワークに与えるステップを含む。方法は、1つまたは複数のコンピューティングデバイスによって、選択された分子の1つまたは複数の予測される嗅覚特性を記述する予測データを、機械学習済みグラフニューラルネットワークの出力として受信するステップを含む。方法は、1つまたは複数のコンピューティングデバイスによって、選択された分子の1つまたは複数の予測される嗅覚特性を記述する予測データを出力として与えるステップを含む。
【0005】
本開示の別の例示的態様は、コンピューティングデバイスを対象とする。コンピューティングデバイスは、1つまたは複数のプロセッサと、命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含む。命令は、1つまたは複数のプロセッサによって実行されると、コンピューティングデバイスに動作を実施させる。動作は、分子に関連付けられた化学構造データに少なくとも部分的に基づいて、分子の1つまたは複数の嗅覚特性を予測するようにトレーニングされた機械学習済みグラフニューラルネットワークを取得することを含む。動作は、選択された分子の化学構造を表すグラフデータを取得することを含む。動作は、化学構造を表すグラフデータを、入力として機械学習済みグラフニューラルネットワークに与えることを含む。動作は、選択された分子に関連付けられた1つまたは複数の嗅覚特性を記述する予測データを、機械学習済みグラフニューラルネットワークの出力として受信することを含む。動作は、選択された分子の1つまたは複数の予測される嗅覚特性を記述する予測データを、出力として与えることを含む。
【0006】
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
【0007】
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照してより良く理解されよう。添付の図面は、本明細書に組み込まれるとともにその一部を成し、本開示の例示的実施形態を示し、記述とともに、関連原理を説明するのに役立つ。
【0008】
当業者を対象とする、実施形態の詳細な考察が本明細書において説明され、本明細書は、添付の図面を参照する。
【図面の簡単な説明】
【0009】
【
図1A】本開示の例示的実施形態による例示的コンピューティングシステムのブロック図である。
【
図1B】本開示の例示的実施形態による例示的コンピューティングデバイスのブロック図である。
【
図1C】本開示の例示的実施形態による例示的コンピューティングデバイスのブロック図である。
【
図2】本開示の例示的実施形態による例示的予測モデルのブロック図である。
【
図3】本開示の例示的実施形態による例示的予測モデルのブロック図である。
【
図4】本開示の例示的実施形態による、分子嗅覚特性の予測のための例示的動作のフローチャート図である。
【
図5】本開示の例示的実施形態による、予測される嗅覚特性に関連付けられた構造的寄与を可視化するための例解を示す図である。
【
図6】本開示の例示的実施形態による例示的モデル概略およびデータフローを示す図である。
【
図7】本開示の例示的実施形態による例示的学習済み埋込み空間の大域構造を示す図である。
【発明を実施するための形態】
【0010】
複数の図面にわたって繰り返される参照番号は、様々な実装形態において同じ特徴を識別することを意図している。
【0011】
概要
本開示の例示的態様は、分子化学構造データとともに機械学習済みモデル(たとえば、グラフニューラルネットワーク)を含むか、またはそうでなければ、分子の1つもしくは複数の知覚(たとえば、嗅覚、味覚、触覚など)特性を予測するのに活用するシステムおよび方法を対象とする。特に、本開示のシステムおよび方法は、分子の化学構造に基づいて、単一分子の嗅覚特性(たとえば、「甘い」、「松の香り」、「梨」、「腐敗」などのようなラベルを使って表される、人間が知覚する臭気)を予測することができる。本開示の態様によると、いくつかの実装形態では、機械学習済みグラフニューラルネットワークが、分子の化学構造をグラフィカルに記述するグラフを処理して、分子の嗅覚特性を予測するようにトレーニングされ、使われ得る。特に、グラフニューラルネットワークは、分子の嗅覚特性を予測するために、分子の化学構造のグラフ表現に直接働きかける(たとえば、グラフ空間内で畳み込みを実施する)ことができる。一例として、グラフは、原子に対応するノードと、原子の間の化学結合に対応する辺とを含み得る。したがって、本開示のシステムおよび方法は、機械学習済みモデルの使用を通して、以前評価されなかった分子のにおいを予測する予測データを与えることができる。機械学習済みモデルは、たとえば、分子について評価されている嗅覚特性の記述(たとえば、「甘い」、「松の香り」、「梨」、「腐敗」などのような臭気カテゴリのテキスト記述)で(たとえば、専門家によって手作業で)ラベルづけされている分子の記述(たとえば、分子の構造的記述、分子の化学構造のグラフベースの記述など)を含むトレーニングデータを使ってトレーニングされ得る。
【0012】
したがって、本開示の態様は、定量的構造臭気関係(QSOR)モデリングのためのグラフニューラルネットワークの使用を提案することを対象とする。本明細書に記載するシステムおよび方法の例示的実装形態は、嗅覚専門家によってラベルづけされた新規データセットに対する従来の方法を大幅にしのぐ。追加分析は、グラフニューラルネットワークからの学習済み埋込みが、構造と臭気との間の基底関係の有意義な臭気空間表現をキャプチャすることを示す。
【0013】
より具体的には、分子の構造とその嗅覚器知覚特性(たとえば、人間によって観察される分子の匂い)との間の関係は複雑であり、これまで、概して、そのような関係についてはほとんどわかっていない。したがって、本開示のシステムおよび方法は、目に見えない分子の嗅覚器知覚特性の予測を取得するために、深層学習および使用率の低いデータソースの使用を可能にし、したがって、所望の知覚特性を有する分子の識別および開発を向上させ、たとえば、商用調味料、芳香剤、または化粧品において有用な、新たな化合物の開発をできるようにし、単一分子からの薬剤の精神活性効果の予測における専門技術を向上する、などのことを行う。本明細書に記載する、分子の嗅覚器知覚特性の予測のための改良型システムは、所望の知覚特性を有する分子の識別および開発、ならびに新たな有用化合物の開発を大幅に向上させることができる。
【0014】
より具体的には、本開示の一態様によると、グラフニューラルネットワークモデルなどの機械学習済みモデルは、分子の化学構造の入力グラフに基づいて、分子の知覚特性(たとえば、嗅覚特性、味覚特性、触覚特性など)の予測を与えるようにトレーニングされ得る。たとえば、機械学習済みモデルには、たとえば、分子の化学構造の標準化記述(たとえば、簡略化分子入力線形記法(SMILES:simplified molecular input line entry system)文字列など)に基づいて、分子の化学構造の入力グラフ構造が与えられてよい。機械学習済みモデルは、たとえば、分子が人間にとって何に似たにおいがするかを記述する嗅覚器知覚特性のリストなど、分子の予測される知覚特性の記述を含む出力を与え得る。たとえば、酢酸イソアミルの化学構造についてのSMILES文字列「O=C(OCCC(C)C)C」などのSMILES文字列が与えられてよく、機械学習済みモデルは、その分子が人間にとって何に似たにおいがするかという記述、たとえば、「果物、バナナ、りんご」など、分子の臭気特性の記述を出力として与えればよい。特に、いくつかの実施形態では、SMILES文字列または化学構造の他の記述の受信に応答して、本開示のシステムおよび方法は、文字列を、分子の2次元構造をグラフィカルに記述するグラフ構造にコンバートしてよく、グラフ構造を、グラフ構造またはグラフ構造から導出された特徴のいずれかから、分子の嗅覚特性を予測することができる機械学習済みモデル(たとえば、トレーニング済みグラフ畳み込みニューラルネットワークおよび/または他のタイプの機械学習済みモデル)に与えればよい。2次元グラフに対する追加または代替として、システムおよび方法は、たとえば量子化学的計算を使って、機械学習済みモデルへの入力のために、分子の3次元グラフ表現を作成できるようにしてもよい。
【0015】
いくつかの例では、予測は、分子が特定の所望の嗅覚器知覚品質(たとえば、ターゲット匂い知覚など)を有するかどうかを示し得る。いくつかの実施形態では、予測データは、分子の予測される嗅覚特性に関連付けられた1つまたは複数のタイプの情報を含み得る。たとえば、分子についての予測データは、分子を、1つの嗅覚特性クラスに、および/または複数の嗅覚特性クラスに分類できるようにし得る。いくつかの事例では、クラスは、人間が与えた(たとえば、専門家)テキストラベル(たとえば、酸っぱい、サクランボ、松の香り、など)を含み得る。いくつかの事例では、クラスは、匂い連続体上でのロケーションなどのような、匂い/臭気の非テキスト表現を含み得る。いくつかの事例では、分子についての予測データは、予測される匂い/臭気の強度を記述する強度値を含み得る。いくつかの事例では、予測データは、予測される嗅覚器知覚特性に関連付けられた信頼性値を含み得る。
【0016】
分子についての特定の分類に対する追加または代替として、予測データは、2つ以上の埋込みの間の距離の測度に基づいて、2つ以上の分子の間の類似性探索、クラスタ化、または他の比較を可能にする数値埋込みを含み得る。たとえば、いくつかの実装形態では、機械学習済みモデルは、トリプレットトレーニング方式を使って機械学習済みモデルをトレーニングすることによって、類似を測定するのに使うことができる埋込みを出力するようにトレーニングされてよく、ここで、モデルは、類似化学構造のペア(たとえば、アンカー例および肯定的例)のための埋込み空間中で比較的近い埋込みを出力するように、ならびに非同類化学構造のペア(たとえば、アンカーおよび否定的例)のための埋込み空間中で比較的離れている埋込みを出力するようにトレーニングされる。
【0017】
したがって、いくつかの実装形態では、本開示のシステムおよび方法は、機械学習済みモデルへの入力のために、分子を記述する特徴ベクトルの生成を必要としない場合がある。そうではなく、機械学習済みモデルは、元の化学構造のグラフ値の形の入力とともに直接与えられてよく、したがって、嗅覚特性予測を行うのに要求されるリソースを削減する。たとえば、分子のグラフ構造を、機械学習済みモデルへの入力として使用できるようにすることによって、新たな分子構造が、知覚特性を判断するためにそのような分子構造の試作を要求せずに概念化され、評価されてよく、そうすることによって、新たな分子構造を評価する能力を大幅に加速し、多大なリソースを節約する。
【0018】
本開示の別の態様によると、分子の嗅覚特性の予測を与えるように、1つまたは複数の機械学習済みモデル(たとえば、グラフ畳み込みニューラルネットワーク、他のタイプの機械学習済みモデル)をトレーニングできるようにするために、複数の知られている分子を含むトレーニングデータが取得され得る。たとえば、いくつかの実施形態では、機械学習済みモデルは、分子の1つまたは複数のデータセットを使ってトレーニングすることができ、ここでデータセットは、各分子についての化学構造および知覚特性のテキスト記述(たとえば、人間専門家によって与えられた分子のにおいの記述、など)を含む。一例として、トレーニングデータは、たとえば、化学構造およびそれらに対応する臭気からなる香水産業リストなどの産業リストから導出され得る。いくつかの実施形態では、いくつかの知覚特性が珍しいということにより、機械学習済みモデルをトレーニングするとき、よくある知覚特性と珍しい知覚特性とを釣り合わせるためのステップがとられてよい。
【0019】
本開示の別の態様によると、いくつかの実施形態では、システムおよび方法は、分子構造に対する変化が、予測される知覚特性にどのように影響し得るかを示せるようにし得る。たとえば、システムおよび方法は、分子構造に対する変化が、特定の知覚特性の強度にどのように影響し得るか、分子の構造の変化が、所望の知覚品質にとってどれだけ壊滅的であるか、などの指示を与えることができる。いくつかの実施形態では、システムおよび方法は、1つまたは複数の原子および/または原子のグループを、分子の構造から追加および/または削除して、1つまたは複数の所望の知覚特性に対するそのような追加/削除の影響を判断できるようにし得る。たとえば、化学構造に対する反復および異なる変化が実施されてよく、次いで、結果が、そのような変化が分子の知覚特性にどのように影響するかを理解するために評価されてよい。さらに別の例として、機械学習済みモデルの分類関数の勾配が、(たとえば、機械学習済みモデルを通る逆伝搬により)入力グラフの各ノードおよび/または辺において、(たとえば、特定のラベルに関して)評価されて、(たとえば、入力グラフの各ノードおよび/または辺が、そのような特定のラベルの出力のためにどれだけ重要だったかを示す)感度マップを生成することができる。さらに、いくつかの実装形態では、対象のグラフが取得されてよく、グラフにノイズを追加することによって類似グラフがサンプリングされてよく、次いで、各サンプリングされたグラフについての得られた感度マップの平均が、対象のグラフのための感度マップとしてとられてよい。同様の技法が、異なる分子構造の間の知覚差を判断するために実施されてよい。
【0020】
別の態様によると、本開示のシステムおよび方法は、分子の構造のどの様相が、分子の予測される臭気品質に最も寄与するかを解釈および/または可視化できるようにし得る。たとえば、いくつかの実施形態では、分子の構造のどの部分が分子の知覚特性にとって最も重要であるか、および/または分子の構造のどの部分が分子の知覚特性にとって比較的重要でないかの指示を与える、分子構造に重ねるためのヒートマップが生成されてもよい。いくつかの実装形態では、分子構造に対する変化が嗅覚にどのように影響を与えることになるかを示すデータが、予測される嗅覚品質に構造がどのように寄与するかの視覚化を生成するのに使われ得る。たとえば、上述したように、分子の構造に対する反復変化(たとえば、ノックダウン技法など)およびそれらに対応する帰結が、化学構造のどの部分が嗅覚に最も寄与するかを評価するのに使われ得る。別の例として、上述したように、勾配技法が、化学構造についての感度マップを生成するのに使われてよく、感度マップは次いで、視覚化を(たとえば、ヒートマップの形で)生じるのに使われてよい。
【0021】
本開示の別の態様によると、いくつかの実施形態では、機械学習済みモデルが、1つまたは複数の所望の知覚特性を与えることになる分子化学構造の予測を生じる(たとえば、特定の匂い品質を生じることになる分子化学構造を生成する、など)ようにトレーニングされ得る。たとえば、いくつかの実装形態では、1つまたは複数の所望の知覚特性(たとえば、ターゲットにされた匂い品質、強度など)を呈することが予測される提案された分子を識別するために、反復探索が実施されてよい。たとえば、反復探索は、機械学習済みモデルによって評価され得るいくつかの候補分子化学構造を提案することができる。一例では、候補分子構造は、進化論的または遺伝的プロセスを通して生成され得る。別の例として、候補分子構造は、生成された候補分子構造が1つまたは複数の所望の知覚特性を呈するかどうかに応じる報酬を最大限にするポリシーを学習することを求める強化学習エージェント(たとえば、回帰型ニューラルネットワーク)によって生成され得る。
【0022】
したがって、いくつかの実装形態では、各候補分子の化学構造を記述する複数の候補分子グラフ構造が、機械学習済みモデルへの入力として使用するために生成され(たとえば、反復して生成され)得る。各候補分子についてのグラフ構造は、評価されるべき機械学習済みモデルに入力されてよい。機械学習済みモデルは、候補分子の1つまたは複数の知覚特性を記述する、各候補分子についての予測データを生じることができる。候補分子予測データは次いで、候補分子が所望の知覚特性(たとえば、存続可能な分子候補など)を呈することになるかどうかを判断するために、1つまたは複数の所望の知覚特性と比較されてよい。たとえば、比較は、(たとえば、強化学習方式で)報酬を生成するように、または候補分子を保持するか、それとも(たとえば、進化論的学習方式で)破棄するかを判断するように実施されてよい。総当たり探索手法が利用されてもよい。上述した進化論的または強化学習構造を有する場合も、有していない場合もある、さらなる実装形態では、1つまたは複数の所望の知覚特性を呈する候補分子の探索は、各所望の特性について定義された最適化に対する制約のあるマルチパラメータ最適化問題として構造化されてよい。
【0023】
本開示の別の態様によると、システムおよび方法は、所望の嗅覚特性とともに、分子構造に関連付けられた他の特性の予測、識別、および/または最適化をできるようにし得る。たとえば、機械学習済みモデルは、光学特性(たとえば、透明性、反射性、色など)、味覚特性(たとえば、「バナナ」、「酸味」、「スパイシー」などのような味がする)、保存性、特定のpHレベルでの安定性、生分解性、毒性、産業上の利用可能性などのような、分子構造の特性を予測または識別し得る。
【0024】
本開示の別の態様によると、本明細書に記載する機械学習済みモデルは、広範囲の候補を、分子のより小さいセットに狭め、小さいセットは次いで、手作業で評価されるための能動的学習技法において使うことができる。本開示の他の態様によると、システムおよび方法は、反復的な設計、テスト、精製(design-test-refine)プロセスにおける、特定の特性をもつ分子の合成を可能にし得る。たとえば、機械学習済みモデルからの予測データに基づいて、開発用に分子が提案されてよい。分子は次いで、合成されてよく、次いで、特殊試験を受ければよい。試験からのフィードバックは次いで、所望の特性をより良好に達成することなどのように分子を精製するために、設計フェーズに戻されてよい。
【0025】
本開示のシステムおよび方法は、いくつかの技術的効果および利益を提供する。一例として、本明細書に記載するシステムおよび方法は、分子が所望の知覚品質を与えることになるかどうかを判断するのに要求される時間およびリソースを削減することを可能にし得る。たとえば、本明細書に記載するシステムおよび方法は、モデル入力を与えるために分子を記述する特徴ベクトルの生成を必要とすることよりもむしろ、分子の化学構造を記述するグラフ構造を使うことを可能にする。したがって、システムおよび方法は、モデル入力を取得し、分析するのに要求されるリソースにおける技術的向上を与え、モデル予測出力を生じる。さらに、嗅覚特性を予測するための、機械学習済みモデルの使用は、(たとえば、嗅覚特性を予測する)実用的アプリケーションへの機械学習の統合を表す。つまり、機械学習済みモデルは、嗅覚特性を予測する特定の技術的実装に適合される。
【0026】
ここで図面を参照して、本開示の例示的実施形態についてさらに詳しく論じる。
【0027】
例示的デバイスおよびシステム
図1Aは、本開示の例示的実施形態による、分子の、嗅覚器知覚特性などの知覚特性の予測を容易にすることができる例示的コンピューティングシステム100のブロック図を示す。システム100は、一例としてのみ与えられる。異なる構成要素を含む他のコンピューティングシステムが、システム100に対する追加または代替として使われてよい。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニング用コンピューティングシステム150を含む。
【0028】
ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、ゲーム機もしくはコントローラ、装着可能コンピューティングデバイス、埋め込み型コンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、どのタイプのコンピューティングデバイスであってもよい。
【0029】
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ114は、データ116と、ユーザコンピューティングデバイス102に動作を実施させるようにプロセッサ112によって実行される命令118とを記憶することができる。
【0030】
いくつかの実装形態では、ユーザコンピューティングデバイス102は、本明細書において論じる嗅覚特性予測機械学習済みモデルなど、1つまたは複数の機械学習済みモデル120を記憶するか、または含むことができる。たとえば、機械学習済みモデル120は、ニューラルネットワーク(たとえば、ディープニューラルネットワーク)または非線形モデルおよび/もしくは線形モデルを含む他のタイプの機械学習済みモデルなど、様々な機械学習済みモデルであってよく、またはそうでなければ、それらの機械学習済みモデルを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、回帰型ニューラルネットワーク(たとえば、長短期メモリ回帰型ニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形のニューラルネットワークを含み得る。例示的機械学習済みモデル120については、
図2および
図3を参照して論じる。
【0031】
いくつかの実装形態では、1つまたは複数の機械学習済みモデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、次いで、1つまたは複数のプロセッサ112によって使われ、またはそうでなければ実装され得る。いくつかの実装形態では、ユーザコンピューティングデバイス102は、単一機械学習済みモデル120の複数の並列インスタンスを実装することができる。
【0032】
追加または代替として、1つまたは複数の機械学習済みモデル140は、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含まれ、またはそうでなければ、サーバコンピューティングシステム130によって記憶され、実装され得る。たとえば、機械学習済みモデル140は、ウェブサービスの一部分として、サーバコンピューティングシステム130によって実装され得る。したがって、1つまたは複数のモデル120が、ユーザコンピューティングデバイス102において記憶され、実装されてよく、かつ/または1つもしくは複数のモデル140が、サーバコンピューティングシステム130において記憶され、実装されてよい。
【0033】
ユーザコンピューティングデバイス102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122も含み得る。たとえば、ユーザ入力構成要素122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感な、タッチ感応構成要素(たとえば、タッチ感応表示画面またはタッチパッド)であってよい。タッチ感応構成要素は、仮想キーボードを実装するのに役立ち得る。他の例示的ユーザ入力構成要素は、マイクロフォン、従来のキーボード、カメラ、またはユーザがユーザ入力を与えることができる他の手段を含む。
【0034】
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ134は、データ136と、サーバコンピューティングシステム130に動作を実施させるようにプロセッサ132によって実行される命令138とを記憶することができる。
【0035】
いくつかの実装形態では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、サーバコンピューティングデバイスによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、順次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。
【0036】
上述したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習済みモデル140を記憶することができ、またはそうでなければ、モデル140を含む。たとえば、モデル140は、嗅覚特性予測機械学習済みモデルなど、様々な機械学習済みモデルであってよく、または、そうでなければそれらを含んでよい。例示的機械学習済みモデルは、ニューラルネットワークまたは他のマルチレイヤ非線形モデルを含む。例示的ニューラルネットワークは、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、回帰型ニューラルネットワーク、および畳み込みニューラルネットワークを含む。例示的モデル140については、
図2~
図4を参照して論じる。
【0037】
ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されるトレーニング用コンピューティングシステム150との対話により、モデル120および/または140をトレーニングすることができる。トレーニング用コンピューティングシステム150は、サーバコンピューティングシステム130とは別個であってよく、またはサーバコンピューティングシステム130の一部分であってよい。
【0038】
トレーニング用コンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ154は、データ156と、トレーニング用コンピューティングシステム150に動作を実施させるようにプロセッサ152によって実行される命令158とを記憶することができる。いくつかの実装形態では、トレーニング用コンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、サーバコンピューティングデバイスによって実装される。
【0039】
トレーニング用コンピューティングシステム150は、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130において記憶された機械学習済みモデル120および/または140を、たとえば、誤差逆伝播など、様々なトレーニングまたは学習技法を使ってトレーニングするモデル訓練器160を含み得る。いくつかの実装形態では、誤差逆伝播を実施することは、時間をかけて短縮逆伝播を実施することを含み得る。モデル訓練器160は、トレーニングされるモデルの汎化能力を向上するために、いくつかの汎化技法(たとえば、重み減衰、ドロップアウトなど)を実施することができる。
【0040】
特に、モデル訓練器160は、トレーニングデータのセット162に基づいて、機械学習済みモデル120および/または140をトレーニングすることができる。トレーニングデータ162は、たとえば、分子について評価されている嗅覚特性の記述(たとえば、「甘い」、「松の香り」、「梨」、「腐敗」などのような臭気カテゴリのテキスト記述)で(たとえば、専門家によって手作業で)ラベルづけされている分子の記述(たとえば、分子の化学構造のグラフィカル記述)などを含み得る。
【0041】
モデル訓練器160は、所望の機能性を提供するのに使用されるコンピュータ論理を含む。モデル訓練器160は、汎用プロセッサを制御するハードウェア、ファームウェア、および/またはソフトウェアで実装することができる。たとえば、いくつかの実装形態では、モデル訓練器160は、記憶デバイス上に記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデル訓練器160は、RAMハードディスクまたは光学もしくは磁気媒体などの有形コンピュータ可読記憶媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。
【0042】
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど、どのタイプの通信ネットワークであってもよく、任意の数のワイヤードまたはワイヤレスリンクを含み得る。概して、ネットワーク180を介した通信は、非常に様々な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使って、どのタイプのワイヤードおよび/またはワイヤレス接続を介しても搬送することができる。
【0043】
図1Aは、本開示を実装するのに使うことができる1つの例示的コンピューティングシステムを示す。他のコンピューティングシステムが使われてもよい。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイス102は、モデル訓練器160およびトレーニングデータセット162を含み得る。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102においてローカルにトレーニングされることと使われることの両方が可能である。デバイス102、システム130、および/またはシステム150のうちの1つに含まれるものとして示されているどの構成要素も、代わりに、デバイス102、システム130、および/またはシステム150のうちの他のものの一方または両方において含まれてよい。
【0044】
図1Bは、本開示の例示的実施形態による例示的コンピューティングデバイス10のブロック図を示す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。
【0045】
コンピューティングデバイス10は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、それ自体の機械学習ライブラリおよび機械学習済みモデルを含む。たとえば、各アプリケーションは、機械学習済みモデルを含み得る。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
【0046】
図1Bに示すように、各アプリケーションは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサ、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使って、各デバイス構成要素と通信することができる。いくつかの実装形態では、各アプリケーションによって使われるAPIは、そのアプリケーションに固有である。
【0047】
図1Cは、本開示の例示的実施形態による例示的コンピューティングデバイス50のブロック図を示す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。
【0048】
コンピューティングデバイス50は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、中央インテリジェンスレイヤと通信する。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通API)を使って、中央インテリジェンスレイヤ(およびその中に記憶されるモデル)と通信することができる。
【0049】
中央インテリジェンスレイヤは、いくつかの機械学習済みモデルを含む。たとえば、
図1Cに示すように、それぞれの機械学習済みモデル(たとえば、モデル)が、各アプリケーションに与えられ、中央インテリジェンスレイヤによって管理され得る。他の実装形態では、2つ以上のアプリケーションが、単一の機械学習済みモデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンスレイヤは、アプリケーションすべてに単一モデル(たとえば、単一モデル)を提供することができる。いくつかの実装形態では、中央インテリジェンスレイヤは、コンピューティングデバイス50のオペレーティングシステムに含まれるか、またはそうでなければ、オペレーティングシステムによって実装される。
【0050】
中央インテリジェンスレイヤは、中央デバイスデータレイヤと通信することができる。中央デバイスデータレイヤは、コンピューティングデバイス50向けのデータの集中型リポジトリであってよい。
図1Cに示すように、中央デバイスデータレイヤは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサ、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、中央デバイスデータレイヤは、API(たとえば、プライベートAPI)を使って、各デバイス構成要素と通信することができる。
【0051】
例示的モデル配置
図2は、本開示の例示的実施形態による例示的予測モデル202のブロック図を示す。いくつかの実装形態では、予測モデル202は、入力データ(たとえば、分子化学構造グラフデータなど)のセット204を受信し、入力データ204の受信の結果として、出力データ206、たとえば、分子についての嗅覚特性予測データを与えるようにトレーニングされる。
【0052】
図3は、本開示の例示的実施形態による例示的機械学習済みモデル202のブロック図を示す。機械学習済みモデル202は、
図3の機械学習済みモデル202が、嗅覚特性予測モデル302および分子構造最適化予測モデル306を含む1つの例示的モデルであることを除いて、
図2の予測モデル202と同様である。いくつかの実装形態では、機械学習済み予測モデル202は、分子の化学構造(たとえば、グラフ構造の形で与えられる)に基づいて、分子についての1つまたは複数の嗅覚器知覚特性を予測する嗅覚特性予測モデル302と、分子構造に対する変化が、予測される知覚特性にどのように影響し得るかを予測する分子構造最適化予測モデル306とを含み得る。したがって、モデルは、嗅覚器知覚特性と、分子構造がそれらの予測される嗅覚特性にどのように影響するかの両方を含む出力を与える可能性がある。
【0053】
例示的方法
図4は、本開示の例示的実施形態による、嗅覚特性を予測するための例示的方法400のフローチャート図を示す。
図4は、説明および考察のために、具体的順序で実施されるステップを示すが、本開示の方法は、具体的に示す順序または並びには限定されない。方法400の様々なステップは、本開示の範囲から逸脱することなく、様々に省かれ、並べ替えられ、組み合わされ、かつ/または適応されてよい。方法400は、
図1A~
図1Cに示すコンピューティングデバイスのうちの1つまたは複数など、1つまたは複数のコンピューティングデバイスによって実装され得る。
【0054】
402において、方法400は、1つまたは複数のコンピューティングデバイスによって、分子に関連付けられた化学構造データに少なくとも部分的に基づいて、分子の嗅覚特性を予測するようにトレーニングされた機械学習済みグラフニューラルネットワークを取得するステップを含み得る。特に、機械学習済み予測モデル(たとえば、グラフニューラルネットワークなど)が、分子の化学構造をグラフィカルに記述するグラフを処理して、分子の嗅覚特性を予測するようにトレーニングされ、使われ得る。たとえば、トレーニング済みグラフニューラルネットワークは、分子の嗅覚特性を予測するために、分子の化学構造のグラフ表現に直接働きかける(たとえば、グラフ空間内で畳み込みを実施する)ことができる。機械学習済みモデルは、分子について評価されている嗅覚特性の記述(たとえば、「甘い」、「松の香り」、「梨」、「腐敗」などのような臭気カテゴリのテキスト記述)で(たとえば、専門家によって手作業で)ラベルづけされている分子の記述(たとえば、分子の化学構造のグラフィカル記述)を含むトレーニングデータを使ってトレーニングされ得る。トレーニング済み機械学習済み予測モデルは、以前評価されなかった分子のにおいを予測する予測データを与えることができる。
【0055】
より具体的には、ほとんどの機械学習モデルが、規則的形状の入力(たとえば、ピクセルのグリッド、または数のベクトル)を入力として要求する。ただし、GNNは、機械学習アプリケーションにおいて直接使われるべき、グラフなど、不規則な形状の入力の使用を可能にする。したがって、本開示の態様によると、原子をノードと、および結合を辺と見なすことによって、分子がグラフとして解釈され得る。例示的GNNは、ノードおよび辺における学習可能な順列不変変換であり、これらは、完全接続ニューラルネットワークによってさらに処理される固定長ベクトルを生じる。GNNは、専門家が作った一般的特徴とは対照的に、タスクに特化された学習可能特徴化器(featurizer)と見なすことができる。
【0056】
いくつかの例示的GNNは、1つまたは複数のメッセージ受渡しレイヤを含み、各々には還元-和(reduce-sum)演算が続き、その後にいくつかの完全接続レイヤが続く。例示的な最終完全接続レイヤは、予測される臭気記述子の数に等しいいくつかの出力を有する。例示的モデル概略およびデータフローを示す1つの例示的モデルを、
図6に示す。
図6に示す例では、各分子が最初に、その構成原子、結合、および接続性によって特徴化される。各グラフニューラルネットワーク(GNN)レイヤは、前のレイヤからの特徴を変換する。最終GNNレイヤからの出力はベクトルに還元され、ベクトルは次いで、完全接続ニューラルネットワークを介して臭気記述子を予測するために使われる。いくつかの例示的実装形態では、グラフ埋込みは、モデルの最後から2番目のレイヤから取り出すことができる。4つの臭気記述子のための埋込み空間表現の例が、右下に示されている。
【0057】
再度
図4を参照すると、404において、方法400は、1つまたは複数のコンピューティングデバイスによって、選択された分子の化学構造をグラフィカルに記述するグラフを取得するステップを含み得る。たとえば、分子の化学構造(たとえば、以前評価されなかった分子など)の入力グラフ構造が、分子の1つまたは複数の知覚(たとえば、嗅覚)特性を予測する際に使用するために取得されてよい。たとえば、いくつかの実施形態では、簡略化分子入力線形記法(SMILES)文字列などのような、分子の化学構造の規格化された記述に基づいて、グラフ構造が取得され得る。いくつかの実施形態では、SMILES文字列または化学構造の他の記述の受信に応答して、1つまたは複数のコンピューティングデバイスは、文字列を、分子の2次元構造をグラフィカルに記述するグラフ構造にコンバートしてよい。追加または代替として、1つまたは複数のコンピューティングデバイスは、たとえば量子化学的計算を使って、機械学習済みモデルへの入力のために、分子の3次元表現を作成できるようにしてもよい。
【0058】
406において、方法400は、1つまたは複数のコンピューティングデバイスによって、選択された分子の化学構造をグラフィカルに記述するグラフを、入力として機械学習済みグラフニューラルネットワークに与えるステップを含み得る。たとえば、404において取得された、分子の化学構造を記述するグラフ構造は、グラフ構造またはグラフ構造から導出された特徴のいずれかから、分子の嗅覚特性を予測することができる機械学習済みモデル(たとえば、トレーニング済みグラフ畳み込みニューラルネットワークおよび/または他のタイプの機械学習済みモデル)に与えられてよい。
【0059】
408において、方法400は、1つまたは複数のコンピューティングデバイスによって、選択された分子の1つまたは複数の予測される嗅覚特性を記述する予測データを、機械学習済みグラフニューラルネットワークの出力として受信するステップを含み得る。特に、機械学習済みモデルは、たとえば、分子が人間にとって何に似たにおいがするかを記述する嗅覚器知覚特性のリストなど、分子の予測される知覚特性の記述を含む出力予測データを与え得る。たとえば、酢酸イソアミルの化学構造についてのSMILES文字列「O=C(OCCC(C)C)C」などのSMILES文字列が与えられてよく、機械学習済みモデルは、その分子が人間にとって何に似たにおいがするかという記述、たとえば、「果物、バナナ、りんご」など、分子の臭気特性の記述を出力として与えればよい。
【0060】
いくつかの例示的実施形態では、予測データは、分子が特定の所望の嗅覚器知覚品質(たとえば、ターゲット匂い知覚など)を有するかどうかを示し得る。いくつかの例示的実施形態では、予測データは、分子の予測される嗅覚特性に関連付けられた1つまたは複数のタイプの情報を含み得る。たとえば、分子についての予測データは、分子を、1つの嗅覚特性クラスに、および/または複数の嗅覚特性クラスに分類できるようにし得る。いくつかの事例では、クラスは、人間が与えた(たとえば、専門家)テキストラベル(たとえば、酸っぱい、サクランボ、松の香り、など)を含み得る。いくつかの事例では、クラスは、匂い連続体上でのロケーションなどのような、匂い/臭気の非テキスト表現を含み得る。いくつかの例示的実施形態では、分子についての予測データは、予測される匂い/臭気の強度を記述する強度値を含み得る。いくつかの例示的実施形態では、予測データは、予測される嗅覚器知覚特性に関連付けられた信頼性値を含み得る。いくつかの例示的実施形態では、分子についての特定の分類に対する追加または代替として、予測データは、2つの埋込みの間の距離の測度に基づいて、2つの分子の間の類似性探索、または他の比較を可能にする数値埋込みを含み得る。
【0061】
410において、方法400は、1つまたは複数のコンピューティングデバイスによって、選択された分子の1つまたは複数の予測される嗅覚特性を記述する予測データを出力として与えるステップを含み得る。
【0062】
図5は、本開示の例示的実施形態による、予測される嗅覚特性に関連付けられた構造的寄与を可視化するための例解を示す。
図5に示すように、いくつかの実施形態では、本開示のシステムおよび方法は、分子の構造のどの様相が、分子の予測される臭気品質に最も寄与するかを解釈および/または可視化するのを容易にするために、出力データを与え得る。たとえば、いくつかの実施形態では、分子の構造のどの部分が分子の知覚特性にとって最も重要であるか、および/または分子の構造のどの部分が分子の知覚特性にとって比較的重要でないかの指示を与える、視覚化502、510、および520などの分子構造に重ねるためのヒートマップが生成されてもよい。例として、視覚化502などのヒートマップ視覚化は、予測される知覚特性にとって原子/結合504が最も重要であってよく、予測される知覚特性にとって原子/結合506が中程度に重要であってよく、予測される知覚特性にとって原子/結合508が比較的重要でない可能性があるという指示を与え得る。別の例では、視覚化510は、予測される知覚特性にとって原子/結合512が最も重要であってよく、予測される知覚特性にとって原子/結合514が中程度に重要であってよく、予測される知覚特性にとって原子/結合516および原子/結合518が比較的重要でない可能性があるという指示を与え得る。いくつかの実装形態では、分子構造に対する変化が嗅覚にどのように影響を与えることになるかを示すデータが、予測される嗅覚品質に構造がどのように寄与するかの視覚化を生成するのに使われ得る。たとえば、分子の構造に対する反復変化(たとえば、ノックダウン技法など)およびそれらに対応する帰結が、化学構造のどの部分が嗅覚に最も寄与するかを評価するのに使われ得る。
【0063】
例示的学習済みグラフニューラルネットワーク埋込み
本明細書に記載するいくつかの例示的ニューラルネットワークアーキテクチャは、それらの中間レイヤにおいて、入力データの表現を組み立てるように構成され得る。予測タスクにおけるディープニューラルネットワークの成功は、しばしば埋込みと呼ばれる、それらの学習済み表現の品質に依拠する。学習済み埋込みの構造は、タスクまたは問題エリアに対する洞察につながる場合さえあり、埋込みが研究自体の目的である場合さえある。
【0064】
いくつかの例示的コンピューティングシステムは、最後から2番目の完全接続レイヤのアクティブ化を、固定次元「臭気埋込み」として保存し得る。GNNモデルは、分子のグラフ構造を、分類に有用な固定長表現に変換し得る。臭気予測タスクにおける学習済みGNN埋込みは、嗅覚分子の、意味論的に有意義であり有用な組織を含み得る。
【0065】
臭気の間の常識関係を反映する臭気埋込み表現は、大域的にと局所的に、の両方で、構造を示すはずである。具体的には、大域構造の場合、知覚的に類似する臭気は、埋込みの中で近くにあるべきである。局所的構造の場合、類似臭気知覚対象を有する個々の分子は、一緒にクラスタ化し、したがって埋込みの中で近くにあるべきである。
【0066】
各データ点の例示的埋込み表現は、例示的トレーニング済みGNNモデルの最後から2番目のレイヤ出力から生じられ得る。たとえば、各分子が、63次元ベクトルにマップされてよい。定性的に、この空間を2Dで可視化するために、主成分分析(PCA)が任意選択で、その次元性を削減するのに使われてよい。類似ラベルを共有するすべての分子の分散は、カーネル密度推定(KDE)を使って強調表示されてよい。
【0067】
埋込み空間の1つの例示的大域構造を、
図7に示す。この例では、個々の臭気記述子(たとえば、ムスク、キャベツ、百合およびグレープ)が、それら自体の特定の領域においてクラスタ化する傾向にあることに気づく。頻繁に共起する臭気記述子について、埋込み空間は、臭気記述子において暗黙である階層構造をキャプチャすることに気づく。ジャスミン、ラベンダーおよびすずらんという臭気ラベル用のクラスタは、フローラルという、より広い臭気ラベル用のクラスタの内側に見られる。
【0068】
図7は、GNNモデル埋込みの2D表現を、学習済み臭気空間として示す。分子は個々の点として表される。陰影付きおよび輪郭エリアは、ラベルづけされたデータの分散のカーネル密度推定値である。A.共起が低い4つの臭気記述子は、埋込み空間中で低いオーバーラップを有する。B.3つの一般的臭気記述子(フローラル、肉、アルコール)は各々、それらの境界内に、より具体的なラベルを大きく包含する。生成された埋込みは、源分子と知覚的に同様である分子を(たとえば、埋込みにわたる最近傍探索を使って)取り出すのに使われ得ることを、例示的実験が示している。
【0069】
例示的転移学習
臭気記述子が、新たに創案されるか、または精製されてよい(たとえば、梨という記述子をもつ分子は後で、より具体的な、梨の皮、梨の果柄、梨の果肉、梨の芯という記述子に帰属されてもよい)。有用な臭気埋込みが、限られたデータのみを使って、この新たな記述子への転移学習を実施することが可能になる。このシナリオに近づくために、例示的実験は、データセットから、一度に1つの臭気記述子を除去する。(N-1)個の臭気記述子からトレーニングされた埋込みを特徴化として使って、ランダムフォレストが、以前差し出された臭気記述子を予測するようにトレーニングされた。cFPおよびMordred特徴を、比較のためのベースラインとして使った。GNN埋込みは、このタスクにおいてMorganフィンガープリントおよびMordred特徴を大幅にしのぐが、予想通り、依然として、ターゲット臭気に対してトレーニングされたGNNよりもわずかに性能が劣っている。このことは、GNNベースの埋込みが、新しいが関連する臭気を予測するように一般化し得ることを示す。
【0070】
別の例では、提案されたQSORモデリング手法は、隣接知覚タスクに一般化し、異なる方法論で、異なるコンテキストにおいて測定されるときであっても、人間の嗅覚についての有意義であり有用な構造をキャプチャし得る。
【0071】
追加開示
本明細書において論じた技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに行われるアクションおよびそのようなシステムとの間で送られる情報を参照する。コンピュータベースのシステムの固有柔軟性により、構成要素の間でのタスクおよび機能性の非常に様々な可能構成、組合せ、および分割ができるようになる。たとえば、本明細書において論じるプロセスは、組合せで動く、単一のデバイスもしくは構成要素または複数のデバイスもしくは構成要素を使って実装することができる。データベースおよびアプリケーションは、単一のシステム上で実装されるか、または複数のシステムに分散されてよい。分散構成要素は、順次、または並行して動作することができる。
【0072】
本主題を、その様々な具体的な例示的実施形態に関して詳しく記載したが、各例は、本開示の限定ではなく、説明として与えられている。当業者は、上記内容を理解すると、そのような実施形態に対する改変、変形、および等価物を容易に生じることができる。したがって、本開示は、当業者には容易に明らかであろうように、本主題へのそのような修正、変形および/または追加を含めることを排除しない。たとえば、一実施形態の一部として示され、または記載される特徴は、またさらなる実施形態をもたらすために、別の実施形態とともに使われてよい。したがって、本開示は、そのような改変、変形、および等価物をカバーすることが意図される。
【符号の説明】
【0073】
10 コンピューティングデバイス
50 コンピューティングデバイス
100 コンピューティングシステム、システム
102 ユーザコンピューティングデバイス、デバイス
112 プロセッサ
114 メモリ、ユーザコンピューティングデバイスメモリ
122 ユーザ入力構成要素
130 サーバコンピューティングシステム、システム
132 プロセッサ
134 メモリ
150 トレーニング用コンピューティングシステム、システム
152 プロセッサ
154 メモリ
160 モデル訓練器
180 ネットワーク