(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024144380
(43)【公開日】2024-10-11
(54)【発明の名称】光学イメージング装置の画像を処理するための方法、システムおよびコンピュータプログラム、ならびに1つまたは複数の機械学習モデルをトレーニングするための方法、システムおよびコンピュータプログラム
(51)【国際特許分類】
G16C 20/70 20190101AFI20241003BHJP
【FI】
G16C20/70
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024054220
(22)【出願日】2024-03-28
(31)【優先権主張番号】23165026
(32)【優先日】2023-03-29
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】511079735
【氏名又は名称】ライカ マイクロシステムズ シーエムエス ゲゼルシャフト ミット ベシュレンクテル ハフツング
【氏名又は名称原語表記】Leica Microsystems CMS GmbH
【住所又は居所原語表記】Ernst-Leitz-Strasse 17-37, D-35578 Wetzlar, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】コンスタンティン カッペル
(57)【要約】 (修正有)
【課題】光学イメージング装置の画像から、標識となり得る候補分子の埋め込みを予測し、候補分子を選択する方法、システムおよびコンピュータプログラムを提供する。
【解決手段】光学イメージング装置の画像を処理する方法は、複数の候補分子の埋め込みを取得すること(110)と、それぞれの候補分子ごとに1つまたは複数の画像を取得すること(140)と、画像を機械学習モデルに入力して、それぞれの候補分子ごとに予測される埋め込みを生成すること(160)と、候補分子の埋め込みを候補分子の予測される埋め込みと比較すること(170)と、比較に基づいて1つまたは複数の候補分子を選択すること(180)と、を含む。画像は、生物学的サンプル中の候補分子によって提示される標的特性の視覚的表現を表示する。
【選択図】
図1a
【特許請求の範囲】
【請求項1】
光学イメージング装置(240;520)の画像を処理するための方法であって、前記方法は、
複数の候補分子の埋め込み(215)を取得すること(110;200)と、
それぞれの候補分子ごとに、前記光学イメージング装置の1つまたは複数の画像(250)を取得すること(140)であって、前記1つまたは複数の画像は、生物学的サンプル(230)中の候補分子によって提示される標的特性の視覚的表現を表示すること(140)と、
機械学習モデルを使用してそれぞれの候補分子ごとに、前記候補分子の予測される埋め込み(270)を生成するために、前記1つまたは複数の画像および/または前記1つまたは複数の画像から導出された情報を処理すること(160;260)であって、前記機械学習モデルは、前記1つまたは複数の画像および/または前記1つまたは複数の画像から導出された前記情報を含んでいる入力に対する前記予測される埋め込みを出力するようにトレーニングされていること(160;260)と、
前記候補分子の埋め込み(215)を前記候補分子の前記予測される埋め込み(270)と比較すること(170;680)と、
前記比較に基づいて1つまたは複数の候補分子を選択すること(180)と、
を含む方法。
【請求項2】
前記標的特性は、空間分布、時空間分布、強度分布および細胞運命のうちの1つである、
請求項1記載の方法。
【請求項3】
前記候補分子は、1つまたは複数のペイロードを標的領域へと輸送するまたは滞留させるための分子である、
請求項1または2記載の方法。
【請求項4】
前記1つまたは複数のペイロードは、蛍光物質、遺伝子発現に影響を及ぼすための薬剤、リガンドとして受容体または酵素に結合するための薬剤、酵素のアロステリック調節剤として機能する薬剤および拮抗薬として結合部位を得るために拮抗的に作用する薬剤のうちの1つまたは複数を含む、
請求項3記載の方法。
【請求項5】
前記方法は、前記候補分子の前記標的特性に基づいて前記1つまたは複数のイメージングパラメータを決定すること(120)と、決定された前記1つまたは複数のイメージングパラメータに基づいて前記1つまたは複数の画像を取得することと、を含み、
かつ/または
前記方法は、それぞれの候補分子ごとに、それぞれの候補分子を有するサンプルを調製するためのサンプル調製(220)に関する1つまたは複数のパラメータを決定すること(130)と、前記サンプル調製に関する前記1つまたは複数のパラメータを出力することと、を含む、
請求項1から4までのいずれか1項記載の方法。
【請求項6】
2つ以上の時点における前記生物学的サンプルを表示する画像の集合を処理して、前記候補分子の前記予測される埋め込みを出力するように、前記機械学習モデルがトレーニングされる、
請求項1から5までのいずれか1項記載の方法。
【請求項7】
前記方法は、前記1つまたは複数の画像または前記1つまたは複数の画像から導出された前記情報に基づいて前記候補分子の前記予測される埋め込みを出力するように、教師あり学習を使用して、かつトレーニングデータの集合を使用して、前記機械学習モデルをトレーニングすること(320)を含む、
請求項1から6までのいずれか1項記載の方法。
【請求項8】
前記方法は、
第2の機械学習モデルを使用して、複数の分子の埋め込みを生成すること(520)と、
前記複数の分子の埋め込みから選択基準に従って複数の候補分子および対応する埋め込みを選択すること(530)と、
を含む、
請求項1から7までのいずれか1項記載の方法。
【請求項9】
前記方法は、前記分子の埋め込みを、前記標的特性に関する所望の品質を有する1つまたは複数の分子の1つまたは複数の埋め込みと比較することと、前記比較に基づいて複数の候補分子および対応する埋め込みを選択することと、を含み、
または
前記第2の機械学習モデルは、前記標的特性に関する分子の品質を示す出力を有し、前記複数の候補分子および対応する埋め込みを選択することは、前記標的特性に関する分子の品質を示す出力に基づく、
請求項8記載の方法。
【請求項10】
前記第2の機械学習モデルを使用して、分子の一部を表現するスタータトークンに基づいて、分子の1つまたは複数の追加的な部分を表現する1つまたは複数の追加的なトークンを選択し、それぞれのスタータトークンを対応する1つまたは複数の追加的なトークンと組み合わせることによってそれぞれの埋め込みを生成することによって、前記複数の埋め込みが自己回帰的に生成される、
請求項8または9記載の方法。
【請求項11】
前記方法は、種々異なる分子のトークン化された表現からなるコーパスを使用して前記第2の機械学習モデルをトレーニングすること(510)を含み、
前記トレーニングは、ノイズ除去標的を使用して実施され、かつ/または
前記第2の機械学習モデルは、前記1つまたは複数のスタータトークンが与えられた場合に1つまたは複数の追加的なトークンを予測するようにトレーニングされる、
請求項8から10までのいずれか1項記載の方法。
【請求項12】
前記分子の少なくとも一部の表現を含んでいる入力に基づいて前記分子の埋め込みを出力するように、前記第2の機械学習モデルがトレーニングされる、
請求項8から11までのいずれか1項記載の方法。
【請求項13】
機械学習モデルをトレーニングするための方法であって、前記方法は、
トレーニングデータの集合を取得すること(310)であって、前記トレーニングデータの集合は、複数のトレーニングサンプルの集合を含み、それぞれのトレーニングサンプルは、トレーニング入力データとして、a)生物学的サンプル中の候補分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像、またはb)前記1つまたは複数の画像から導出された情報および所望のトレーニング出力として前記分子の埋め込みを含むこと(310)と、
前記1つまたは複数の画像または前記1つまたは複数の画像から導出された前記情報に基づいて前記候補分子の予測される埋め込みを出力するように、教師あり学習を使用して、かつ前記トレーニングデータの集合を使用して、前記機械学習モデルをトレーニングすること(320)と、
を含む方法。
【請求項14】
1つまたは複数のプロセッサ(1014)と、1つまたは複数のストレージ装置(1016)と、を含んでいるシステム(1010)であって、
前記システムは、請求項1から12までのいずれか1項記載の方法および請求項13記載の方法のうちの少なくとも1つを実施するように構成されている、
システム(1010)。
【請求項15】
プロセッサ上で実行された場合に、請求項1から12までのいずれか1項記載の方法または請求項13記載の方法を実施するためのプログラムコードを有する、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
各例は、光学イメージング装置の画像を処理するための方法、システムおよびコンピュータプログラムと、1つまたは複数の機械学習モデルをトレーニングするための方法、システムおよびコンピュータプログラムと、に関する。
【背景技術】
【0002】
ライフサイエンス顕微鏡法の分野では、コントラストを作成するために標本中の特定の構造に特異的に付着する分子である、非常に特異的な標識またはタグを有することに関心が持たれている。
【0003】
例えば、そのような標識またはタグは、蛍光物質を担持する低分子量の化学物質であってよく、この蛍光物質は、可視光スペクトルにおける分子軌道の電子エネルギ遷移を有し、かつ光によって励起されると容易に可逆的遷移を起こす分子の残基または一部である。通常、これらの蛍光物質(簡略化のために、その意味する部分は、分子全体の代わりにパルス・プロ・トトの方式で参照されている)は、免疫グロブリン(すなわち、抗体)に共有結合されるか、または例えば、細胞構造に選択的に結合される。そのような標識/タグの一般的な商品名は、DNA(デオキシリボ核酸)に標識するために使用されるDAPI(4’,6-ジアミジノ-2-フェニルインドール)である。蛍光物質は、オリゴヌクレオチドにも結合可能であり、その場合、オリゴヌクレオチドは、例えば遺伝子座を標識するためにDNAの特定の範囲に特異的にハイブリダイズし、これは、蛍光in situハイブリダイゼーション(fluorescence in situ hybridization:FISH)として知られる技術である。
【0004】
択一的に、そのような標識またはタグは、ポリペプチド(すなわち、タンパク質)であってよく、このポリペプチドは、自発的に折り畳まれ、折り畳まれたタンパク質の内部に蛍光物質を効果的に作成するアミノ酸側鎖に対して化学反応を起こす。そのような蛍光タンパク質のクラス全体が存在し、これらの蛍光タンパク質は、通常、分子生物学(例えば、DNA融合技術)によってトランスジェニック生物に導入され、次いで、内因性プロモータの下で発現するか、または外因性プロモータの下で過剰発現する。これにより、関心のあるタンパク質と蛍光タンパク質とを担持した人工融合タンパク質が作成される。
【0005】
択一的に、そのような標識またはタグは、低分子量から中分子量の化合物であってよく、低分子量から中分子量の化合物は、関心のあるタンパク質と「タグ付けを行う」ペプチドとの間の融合として操作される短鎖ペプチドに結合する。ペプチドそのものは、それ自体蛍光性ではないが、特定の蛍光物質は、ペプチドに特異的に結合して、ペプチドが付着または局在する先の標本の内部の構造を視覚化することができる。
【0006】
上記の全ては、一般的に、本質的に困難であるフォワードエンジニアリングによって識別されるか、またはより一般的には、多数の候補分子を生成し、次いで、適切な特性を選択するためにこれらの候補分子をスクリーニングすることによって識別される。(生物学的)顕微鏡法の文脈では、この結果、多数の化学物質、ポリペプチド、またはポリヌクレオチド(「ライブラリ」)が生成される可能性があり、次いで、それらを細胞培養物、組織、またはこれらに類するものの中で染色または発現させることによって、それらがスクリーニングされる。臨床的に関連する新興の分野では、蛍光マーカーが手術中の患者に導入される。この場合には、このようなスクリーニングは、実行不可能であることが多く、これにより、コントラストを生成するための高い量子収率を有する新たな無毒性のタグを発見するために網羅することができる潜在的な化学的空間が制限される可能性がある。
【0007】
標識またはタグとして使用することができる分子を識別するための改善されたコンセプトを提供することが望ましいだろう。
【発明の概要】
【課題を解決するための手段】
【0008】
この要望は、独立請求項の主題によって対処される。
【0009】
本開示の種々異なる例は、意味論的空間内での候補分子の位置を示す分子の埋め込みを計算することによって、候補分子の化学的特性を意味論的空間内にマッピングすることができるという発見に基づく。例えば、機械学習モデルを使用して、分子のトークン化された表現に基づいて埋め込みを計算し、これにより、分子を意味論的空間内にマッピングすることができる。それと同時に、タグ/標識として既に使用されている分子のような既存の分子に関する知識、特に画像を使用して、分子の埋め込みを、その分子が生物学的サンプルに対して及ぼす影響に基づいて予測するように、機械学習モデルをトレーニングすることができる。これにより、分子評価パイプラインを作成することが可能となり、この分子評価パイプラインでは、既知の埋め込みを有する分子が生物学的サンプルに対して適用され、その生物学的サンプルの1つまたは複数の画像が(分子によって提示される標的特性を表示する画像と共に)撮影され、機械学習モデルを使用して、1つまたは複数の画像から分子の埋め込みが予測される。既知の埋め込みと、予測される埋め込みとが十分に類似している場合には、分子が、標的特性に関して予期される通りに挙動しているということが示される。ここで、この分子評価パイプラインを、既知のタグ/標識に類似して挙動することが予期される候補分子に対して適用することができる。これらの候補分子は、例えば、既知の標識またはタグである分子の埋め込みに類似した埋め込みを有する分子を選択することによって決定可能である。これにより、候補分子の標的特性の検証を、大部分が自動化された方式で実施することができるだけでなく、関心のある候補を識別するために候補分子のde novo選択を実施することもできる。
【0010】
本開示のいくつかの態様は、光学イメージング装置の画像を処理するための方法に関する。本方法は、複数の候補分子の埋め込みを取得することを含む。本方法は、それぞれの候補分子ごとに、光学イメージング装置の1つまたは複数の画像を取得することを含む。1つまたは複数の画像は、生物学的サンプル中の候補分子によって提示される標的特性の視覚的表現を表示する。本方法は、機械学習モデルを使用してそれぞれの候補分子ごとに、候補分子の予測される埋め込みを生成するために、1つまたは複数の画像および/または1つまたは複数の画像から導出された情報を処理することを含む。機械学習モデルは、1つまたは複数の画像および/または1つまたは複数の画像から導出された情報を含んでいる入力に対する予測される埋め込みを出力するようにトレーニングされている。本方法は、候補分子の埋め込みを候補分子の予測される埋め込みと比較することを含む。本方法は、比較に基づいて1つまたは複数の候補分子を選択することを含む。これらの技術を使用して、予期される通りに挙動する候補分子を選択することができる。
【0011】
概して、種々異なる標的特性を、本提案の技術を使用して検証することができる。好ましくは、これらの標的特性は、1つまたは複数の画像内において観察可能であるべきであるか、または1つまたは複数の画像から導出可能であるべきである。例えば、標的特性は、空間分布(例えば、1つまたは複数の画像内の分子またはペイロードの存在の証拠がどこにあるか)、時空間分布(例えば、1つまたは複数の画像内の分子またはペイロードの分布が時間の経過に伴ってどのように進化するか)、強度分布(例えば、1つまたは複数の画像内の分子またはペイロードの存在が、例えば空間および/または時間にわたってどのように集中的であるか)、および細胞運命(例えば、分子によって引き起こされるまたは影響を受ける可能性のある細胞運命)のうちの1つであり得る。前述の特性は、1つまたは複数の画像内において観察可能であるか、または1つまたは複数の画像から導出可能である。
【0012】
例えば、候補分子は、1つまたは複数のペイロードを標的領域へと輸送するまたは滞留させるための分子であり得る。このような分子は、標識/タグとして有用であり、通常、1つまたは複数の画像内において観察可能な影響も有する。
【0013】
いくつかの例では、1つまたは複数のペイロードは、蛍光物質を含む。追加的または択一的に、1つまたは複数のペイロードは、遺伝子発現に影響を及ぼすための薬剤、リガンドとして受容体または酵素に結合するための薬剤、酵素のアロステリック調節剤として機能する薬剤および拮抗薬として結合部位を得るために拮抗的に作用する薬剤のうちの1つまたは複数を含む。このような種類の分子は、通常、1つまたは複数の画像内において観察可能な影響を有する。
【0014】
候補分子の標的特性が既知である場合には、この標的特性が、それぞれの1つまたは複数の画像内において観察可能となるように、またはそれぞれの1つまたは複数の画像から導出可能となるように、光学イメージング装置、または光学イメージング装置によって提供される画像に対して適用される後処理ワークフローを調整することができる。したがって、本方法は、候補分子の標的特性に基づいて1つまたは複数のイメージングパラメータを決定することと、決定された1つまたは複数のイメージングパラメータに基づいて1つまたは複数の画像を取得することと、を含み得る。これらの1つまたは複数のイメージングパラメータは、例えば、光学イメージング装置のパラメータ化(例えば、露光、照明等)のために、または1つまたは複数の画像の後処理のために使用可能である。
【0015】
さらに、適切な画像を生成するタスクによるだけでなく、標的特性が1つまたは複数の画像から観察可能または導出可能となるようにサンプルを調製するタスクによっても、操作者を補助することができる。例えば、本方法は、それぞれの候補分子ごとに、それぞれの候補分子を有するサンプルを調製するためのサンプル調製に関する1つまたは複数のパラメータを決定することと、サンプル調製に関する1つまたは複数のパラメータを出力することと、を含み得る。これらの1つまたは複数のパラメータは、操作者がサンプル調製を実施することを支援することができるか、またはサンプル調製機をパラメータ化するために使用可能である。
【0016】
多くの場合、分子が生物学的サンプルに対して及ぼす影響は、静的ではなく、時間の経過に伴って変化する。したがって、複数の時点において撮影された複数の画像を使用して、時間の経過に伴う標的特性を追跡することができる。したがって、2つ以上の時点における生物学的サンプルを表示する画像の集合を処理して、候補分子の予測される埋め込みを出力するように、機械学習モデルをトレーニングすることができる。このことは、特に、標的特性の「時空間分布」、「細胞運命」および「強度分布」に関して有用である。
【0017】
上記で概説したように、いくつかの場合には、機械学習モデルを使用して1つまたは複数の画像を処理する代わりに(または機械学習モデルを使用して1つまたは複数の画像を処理することに加えて)、1つまたは複数の画像から情報を導出するために、1つまたは複数の画像を前処理することができる。例えば、本方法は、1つまたは複数の画像から導出された情報を生成するために、画像処理ワークフローを使用して1つまたは複数の画像を前処理することを含み得る。例えば、1つまたは複数の画像から導出された情報は、分子またはペイロードの推定された空間分布、分子またはペイロードの推定された時空間分布、分子またはペイロードの推定された強度分布および分子またはペイロードによる影響を受ける少なくとも1つの細胞の細胞運命のうちの1つまたは複数を含み得る。例えば、機械学習ベースのアプローチは、(例えば、画像セグメンテーションを使用して)それぞれの分布を計算するため、(例えば、強度マップを計算して)強度分布を計算するため、または(例えば、画像分類を使用して)細胞運命を計算するために使用可能である。
【0018】
本提案のコンセプトでは、使用されている構成要素のうちの1つは、候補分子の埋め込みを予測するために使用される機械学習モデルである。いくつかの例では、本提案の方法の一部として、このモデルをトレーニング(または改善)することができる。例えば、本方法は、1つまたは複数の画像または1つまたは複数の画像から導出された情報に基づいて候補分子の予測される埋め込みを出力するように、教師あり学習を使用して、かつトレーニングデータの集合を使用して、機械学習モデルをトレーニングすることを含み得る。機械学習モデルをトレーニングすることによって、手元の特定のユースケースのための機械学習モデルを作成することができる。
【0019】
先の各例では、本方法の焦点は、候補分子を検証することにあった。しかしながら、いくつかの場合には、本方法は、新たな候補分子を提案することを含んでいてもよく、この新たな候補分子は、続いて、本発明の方法を使用して検証される。例えば、本方法は、第2の機械学習モデルを使用して、複数の分子の埋め込みを生成することと、複数の分子の埋め込みから選択基準に従って複数の候補分子および対応する埋め込みを選択することと含み得る。このことは、候補分子の事前選択を自動化することができ、これらの候補分子は、次いで、上記の例を使用して検証される。
【0020】
適切な候補を事前選択するために、種々異なるアプローチを使用することができる。例えば、上記で概説したように、分子の化学的特性を意味論的空間内に投影するために、埋め込みを使用することができる。意味論的空間内で互いに類似する分子同士は、例えばタグまたは標識としての、類似する化学的特性も有しているということが判明した。したがって、(例えば、タグ/標識として使用することができる)所望の特性を有する分子に類似する分子を、これらの分子の埋め込みの類似度に基づいて、候補分子として事前選択することができる。したがって、本方法は、分子の埋め込みを、標的特性に関する所望の品質を有する1つまたは複数の分子の1つまたは複数の埋め込みと比較することと、比較に基づいて複数の候補分子および対応する埋め込みを選択することと、を含み得る。
【0021】
択一的または追加的に、第2の機械学習モデルは、分子の埋め込みを出力するだけでなく、標的特性に関する分子の品質を示す出力を出力することもでき、この出力を使用して、所望の品質を有する候補分子を事前選択することができる。したがって、第2の機械学習モデルは、標的特性に関する分子の品質を示す出力を有することができる。例えば、複数の候補分子および対応する埋め込みを選択することは、標的特性に関する分子の品質を示す出力に基づいていてもよい。例えば、分子の品質を示す出力は、第2の機械学習モデルに含まれる分類器または回帰器の出力であり得る。この場合には、既知の分子によって提示されるような標的品質との比較を省略することができ、このことは、候補分子を事前選択するための労力を削減することができる。さらに、所望の品質を有する既知の分子とは類似していない候補分子を識別することができる。
【0022】
いくつかの場合には、第2の機械学習モデルは、埋め込みを生成するためだけでなく、分子埋め込みをde novo生成するためにも使用可能である。例えば、第2の機械学習モデルを使用して、分子の一部を表現するスタータトークンに基づいて、分子の1つまたは複数の追加的な部分を表現する1つまたは複数の追加的なトークンを選択し、それぞれのスタータトークンを対応する1つまたは複数の追加的なトークンと組み合わせることによってそれぞれの埋め込みを生成することによって、複数の埋め込みを自己回帰的に生成することができる。したがって、第2の機械学習モデルは、大規模言語モデルからのテキスト生成のために使用される技術に類似して、分子(またはそれどころか、分子を構成するトークン)を「オートコンプリート」するために使用可能である。
【0023】
例えば、第2の機械学習モデルは、種々異なる分子のトークン化された表現からなるコーパス上でトレーニングされている大規模言語モデル(LLM)であり得る。(大規模)言語モデルを、ノイズ除去標的を使用してトレーニングしてもよいし、かつ/または(大規模)言語モデルを、1つまたは複数のスタータトークンが与えられた場合に1つまたは複数の追加的なトークンを予測するようにトレーニングしてもよい。したがって、分子(またはそれどころか、分子を構成するトークン)は、大規模言語モデルからのテキスト生成のために使用される技術に類似した技術を使用して生成可能である。例えば、第2の機械学習モデルを、本提案の方法の一部としてこのようにトレーニングすることができる。換言すれば、本方法は、種々異なる分子のトークン化された表現からなるコーパスを使用して第2の機械学習モデルをトレーニングすることを含んでいてもよく、トレーニングは、ノイズ除去標的を使用して実施され、かつ/または第2の機械学習モデルは、1つまたは複数のスタータトークンが与えられた場合に1つまたは複数の追加的なトークンを予測するようにトレーニングされる。これにより、既知の分子のコーパスに基づいて、任意であるが実行可能である分子を生成するために使用することができる(第2の)機械学習モデルを得ることができる。
【0024】
上記で概説したように、第2の機械学習モデルは、分子のトークン化された表現のような分子の別の表現から埋め込みを生成するために(も)使用可能である。例えば、分子の少なくとも一部の表現を含んでいる入力に基づいて分子の埋め込みを出力するように、第2の機械学習モデルをトレーニングすることができる。
【0025】
本開示のいくつかの態様は、機械学習モデルをトレーニングするための(第2の)方法に関する。(第2の)方法は、トレーニングデータの集合を取得することを含む。トレーニングデータの集合は、複数のトレーニングサンプルの集合を含む。それぞれのトレーニングサンプルは、トレーニング入力データとして、a)生物学的サンプル中の候補分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像、またはb)1つまたは複数の画像から導出された情報および所望のトレーニング出力として分子の埋め込みを含む。(第2の)方法は、1つまたは複数の画像または1つまたは複数の画像から導出された情報に基づいて候補分子の予測される埋め込みを出力するように、教師あり学習を使用して、かつトレーニングデータの集合を使用して、機械学習モデルをトレーニングすることを含む。上記の(第1の)方法に関連して既に概説したように、機械学習モデルをトレーニングすることにより、候補分子の検証および選択を支援するために、手元の特定のユースケースのための機械学習モデルを作成することができる。
【0026】
例えば、(第2の)方法は、トレーニングデータの集合の少なくとも一部を生成することを含み得る。例えば、生物学的サンプル中の分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像の集合を生成し、分子のための対応する埋め込みを生成することによって、トレーニングデータの集合の少なくとも一部を生成することができる。例えば、トレーニングデータの集合は、1つまたは複数の画像の集合、または1つまたは複数の画像の集合から導出された情報の集合と、分子のための対応する埋め込みと、を含み得る。このことは、所望の品質を有することが知られている分子を用いて機械学習モデルをトレーニングするために役立つことができ、このことは、類似の分子に関する機械学習モデルの精度を改善することができる。
【0027】
択一的または追加的に、(第2の)方法は、生物学的サンプル中の分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像の集合を生物学的データベースから取得し、分子のための対応する埋め込みを生成することによって、トレーニングデータの集合の少なくとも一部を生成することを含み得る。例えば、トレーニングデータの集合は、1つまたは複数の画像の集合、または1つまたは複数の画像の集合から導出された情報の集合と、分子のための対応する埋め込みと、を含み得る。このことは、広範囲の分子を網羅するトレーニングデータを自動的に生成するために役立つことができる。
【0028】
択一的または追加的に、(第2の)方法は、生物学的サンプル中の分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の生成された画像の集合を、生成的な機械学習モデルを使用して生成し、分子のための対応する埋め込みを生成することによって、トレーニングデータの集合の一部を生成することを含み得る。例えば、トレーニングデータの集合は、1つまたは複数の生成された画像の集合、または1つまたは複数の生成された画像の集合から導出された情報の集合と、分子のための対応する埋め込みと、を含み得る。例えば、トレーニングデータの集合のこの部分は、データ拡張技術を使用して生成可能である。
【0029】
本開示の別の態様は、1つまたは複数のプロセッサと、1つまたは複数のストレージ装置と、を含んでいるシステムに関する。本システムは、上記の方法のうちの少なくとも1つを実施するように構成されている。
【0030】
本開示の1つの態様は、プロセッサ上で実行された場合に、上記の方法のうちの少なくとも1つを実施するためのプログラムコードを有する、コンピュータプログラムに関する。
【0031】
以下では、装置および/または方法のいくつかの例を、添付の図面を参照しながら単なる例として説明する。
【図面の簡単な説明】
【0032】
【
図1a】光学イメージング装置の画像を処理するための方法の各例のフローチャートである。
【
図1b】光学イメージング装置の画像を処理するための方法の各例のフローチャートである。
【
図2】オプションのファインチューニングを伴う、タグ候補のような候補分子を検証するためのアッセイの全体的なフローを示す図である。
【
図3】機械学習モデルをトレーニングするための方法の一例のフローチャートである。
【
図4】アッセイにおけるタグ候補の自動化された検証のための画像認識モデルのトレーニングの一例のフローチャートである。
【
図5】候補分子を選択するための方法の一例のフローチャートである。
【
図6】大規模言語モデルを、配列データを有するコーパス上でトレーニングするためのフローの一例のフローチャートである。
【
図7】適切な候補のin silicoでの選択を伴う、新たなタグ配列の自己回帰的なde novo生成のためのフローの一例のフローチャートである。
【
図8】分類標的または回帰標的を使用して、自己回帰的なde novo生成の前のファインチューニングを行うためのフローの一例のフローチャートである。
【
図9】潜在的な埋め込み空間内におけるタグ候補のような候補分子をスコア化するためのフローの一例のフローチャートである。
【
図10】本明細書で説明する方法のうちの1つを実施するためのシステムの一例の概略図である。
【
図11】光学イメージング装置とコンピュータシステムとを含んでいるシステムの一例の概略図である。
【発明を実施するための形態】
【0033】
次に、いくつかの例が示されている添付の図面を参照しながら、種々異なる例をより完全に説明する。図面では、線の太さ、層の厚さおよび/または領域の大きさは、見やすくするために誇張されている場合がある。
【0034】
以下では、本開示で説明するコンセプトに対して適用することができるいくつかの定義が与えられている。
【0035】
本明細書で使用されるタグとは、任意の種類のタンパク質/ポリペプチド、オリゴヌクレオチド/ポリヌクレオチド、化学物質(炭水化物、脂質を含む)、または薬物であり得る。
【0036】
遺伝子座は、以下のように定義可能である:タグは、多タンパク質複合体、細胞小器官、細胞、オルガノイド、組織および器官に局在することができる。前述の用語の間には、登場順に部分的な関係性が存在することが多い。遺伝子座(L)という用語は、タグが局在する先の多タンパク質複合体、細胞小器官、細胞、オルガノイド、組織、または器官に対する総称として使用可能である。
【0037】
ペイロードYは、以下のように定義可能である:本開示の文脈におけるタグの(主な)役割は、蛍光物質または蛍光物質によって標識可能な配列を、化学結合または化学会合(すなわち、共有結合、配位結合、静電相互作用、ヌクレオチドハイブリッド化、またはタンパク質-タンパク質会合およびタンパク質-リガンド会合)を介して担持することである。タグは、遺伝子座の可視化に加えて、薬物、調節剤、阻害剤、活性化剤として機能する、遺伝子発現に影響を及ぼす、または別の分子の結合特性を変更するなどの代替的な機能を有する分子に結合可能または関連付け可能である。この代替的な分子は、ペイロードと称される。この代替的な分子を、タグに共有結合してもよいし、またはタグに関連付けてもよい(したがって、この代替的な分子は、本発明によって予測される同一の配列であり得る)。
【0038】
本明細書で使用される配列とは、ポリペプチド、ポリヌクレオチド、または化学物質の表現である。ポリペプチドは、ポリペプチドの一次構造、すなわちアミノ酸配列によって決定される。同様に、ポリヌクレオチドは、ヌクレオチドの配列として表現される。化学物質の場合には、SMILESのようなIUPAC(国際純粋応用化学連合)に準拠したテキスト表現が存在しており、これについては、D. Weininger, “SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules,” J. Chem. Inf. Comput. Sci., vol. 28, no. 1, pp. 31-36, Feb. 1988, doi: 10.1021/ci00057a005を参照のこと。このような表現を使用して、分子(例えば、タグまたはペイロード)を文字列として表現することができ、これにより、大規模言語モデルを使用して密な表現を生成/発見することができる。
【0039】
細胞運命(F)は、以下のように定義可能である:細胞は、増殖する(すなわち、有糸分裂を起こす)可能性があるか、死ぬ(組織内での壊死、またはアポトーシス(制御された細胞死)、または細胞レベルでの詳細不明な細胞死を起こす)可能性がある。その他の細胞運命には、遊走性および静的のものが含まれる。細胞運命は、時間分解された強度分布D(r)から導出可能であり、この導出は、それぞれのオブジェクトインスタンスが既知である場合、D(r)において関心のあるオブジェクトを識別することによって行われ、かつ/または一粒子追跡法(オブジェクトは、移動可能、静止可能、分割可能、併合可能)の場合のように、個々のオブジェクトに追従することによって行われ、かつ/または(オプションとして)遺伝子座および移動パターン(例えば、自由拡散、有向運動、束縛運動)ならびにアンサンブル統計の統計分析を実行することによって行われる。
【0040】
分布D(r)は、イメージングされた媒体(細胞、細胞小器官、組織)中の分子濃度に比例する強度の時空間マップである。ベクトルrは、単純化のために3つの空間次元を時間と連結する。したがって、D(r)は、xにおけるEの濃度に比例する、時間tでの(“rでの”)位置xにおける特定のエンティティEに遭遇する確率マップを表す。xは、Rn,n∈{2,3}の座標であり、ここで、nは、2~3の空間座標を含み得る。Dは、チャネル(発光波長または窓)座標、励起波長、蛍光寿命および微分値、振動スペクトル特性(例えば、波数)、ならびにイメージング装置によって記録される多光子励起蛍光、第2高調波または第3高調波、偏光、または電磁放射の他の物理的特性などの空間分解可能なその他の特性のような、イメージング装置にとって利用可能である追加的な次元に依存し得る。
【0041】
分布Dのような任意の観察可能量は、1つまたは複数の条件、1つまたは複数の関係R、1つまたは複数のエンティティEの存在の、2つ以上の変数を持つ条件(joint condition)に依存し得る。したがって、P(Dp|(E1;R;E2,K1,K2,・・・,Kn)のようなケースが存在する可能性があり、この場合、例えばタンパク質の分布E2は、化学物質E1が、E2(その活性化剤など)および特定の培養条件K1,・・・,n(温度、特定の濃度での培養容器内のE1の存在など)と関係があることを考慮して観察される。
【0042】
DNNは、MLP(多層パーセプトロン)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、またはTransformer(主としてAttention機構に基づくニューラルネットワーク)のような任意のアルゴリズムを含み得る深層ニューラルネットワークである。
【0043】
ファインチューニング(Fine-tuning:微調整)は、深層学習モデルのトレーニングの1つの形態であり、このファインチューニング中には、いくつかのモデルパラメータのみが変化し、その一方で、その他のモデルパラメータは、固定されたままであるか、または格段に(桁違いに)より小さい学習率を使用してトレーニングされる。
【0044】
画像は、例えば、次元XY(すなわち、2つの横方向次元XおよびY)、XYZ(すなわち、2つの横方向次元X+Yに加えて、深さ次元Z)、XY+T(XY+時間)、XYZ+C(XYZ+チャネル)、XYZ+T(XYZ+時間)、XYZCT(XYZ+チャネル+時間)、XYZCT+他のモダリティ、を有するデジタル画像である。換言すれば、2DまたはnDのデジタル画像(テンソル)であり、ただし、n∈Nである。
【0045】
本開示の種々異なる例は、細胞、オルガノイド、または組織内細胞における細胞小器官を特異的に標的とする化学物質またはマクロ分子を生成するためのコンセプト(例えば、方法、システムおよび/またはコンピュータプログラム)に関する。
【0046】
図1aおよび
図1bは、(
図2に示されているような)光学イメージング装置240の画像を処理するための方法の各例のフローチャートを示す。本方法は、複数の候補分子の埋め込み215(
図2に図示)を取得すること110を含む。本方法は、それぞれの候補分子ごとに、光学イメージング装置の1つまたは複数の画像250(
図2に図示)を取得すること140を含む。1つまたは複数の画像は、生物学的サンプル230(
図2に図示)内の候補分子によって提示される標的特性の視覚的表現を表示する。本方法は、機械学習モデルを使用してそれぞれの候補分子ごとに、候補分子の予測される埋め込み270(
図2に図示)を生成するために、1つまたは複数の画像および/または1つまたは複数の画像から導出された情報を処理すること160を含む。機械学習モデルは、1つまたは複数の画像および/または1つまたは複数の画像から導出された情報を含んでいる入力に対する予測される埋め込みを出力するようにトレーニングされている。本方法は、候補分子の埋め込み215を候補分子の予測される埋め込み270と比較すること170と、比較に基づいて1つまたは複数の候補分子を選択すること180と、を含む。例えば、本方法は、コンピュータシステムによって、例えば、
図10に関連して紹介するシステム1010によって、かつ/または
図11に関連して紹介するコンピュータシステム1120によって実施可能である。
【0047】
本開示は、生物医学的イメージングに関し、特に化学的なタグの検証および設計に関する。この文脈において、タグとは、細胞小器官または別の生物化学的に定義可能な構造を特異的に標的とする化学物質またはマクロ分子(ポリペプチド、ポリヌクレオチドなど)である。本提案のコンセプトは、(
図1a~
図4に関連して説明する)このようなタグの検証と、(主に
図5~
図9に関連して説明する)このようなタグの設計との両方に関する。以下では、このようなタグの設計について言及するが、タグの設計は、
図1aおよび
図1bの方法に関する1つのオプションの態様であると考えられる。このようなタグの設計については、
図5~
図9に関連して説明する。いくつかの例では、タグの設計および検証の両方が、本方法の一部である。この場合には、
図5の方法の1つまたは複数の操作を、
図1aおよび/または
図1bの方法に含めることができる。いくつかの例では、タグを生成するために使用される(第2の)機械学習モデルのトレーニングでさえも、
図1aおよび/または
図1bの方法の一部とすることができる。
【0048】
いくつかの例では、(埋め込みを予測するために使用される)機械学習モデルのトレーニングを、
図1aおよび/または
図1bの方法の一部とすることができる。この場合には、
図3の方法の1つまたは複数の操作を、
図1aおよび/または
図1bの方法に含めることができる。
【0049】
以下では、上記の態様の全てを、互いに関連させて説明する。しかしながら、候補分子(およびその埋め込み)の生成と、機械学習モデル(および第2の機械学習モデル)のトレーニングとの両方は、
図1aおよび/または
図1bの方法に関してオプションである。
【0050】
図1a~
図2に関連して示されているような本提案のコンセプトは、(化学的)分子を、意味論的タンパク質空間または意味論的ヌクレオチド空間のような意味論的空間内において、または化学的空間内において単語として表現することができるという発見に基づく。意味論的空間とは、単語の意味を、これらの単語の互いの関係を測定することによって表現するために使用される数学的構造である。意味論的空間は、それぞれの単語がベクトルによって表現される空間上に、単語をマッピングし、ベクトルは、それぞれの単語の意味を、これらの単語と空間内の他の単語との類似度または相対度に基づいて捕捉する。意味論的空間は、単語の意味を分析および理解するために、かつテキスト分類、情報検索および機械翻訳のようなタスクを実施するために、自然言語処理および計算言語学において一般的に使用される。本明細書の場合には、意味論的空間は、通常の意味での単語を表すために使用されているのではなく、それぞれの分子の文字列表現を表すために使用されている。例えば、分子の上述した文字列表現は、分子のSMILE記法に基づいていてもよい。分子の“Simplified Molecular Input Line Entry System”を意味するSMILE記法は、文字列を使用して分子の構造を表現する手法である。文字列中のそれぞれの文字が、分子中の原子または結合を表現する。SMILE記法は、分子構造を表現および検索するために、化学データベースおよびソフトウェアアプリケーションにおいてよく使用されている。
【0051】
本文脈において、意味論的空間とは、意味論的タンパク質空間、意味論的ヌクレオチド空間、または意味論的化学空間であってよく、分子は、それぞれの意味論的空間内で、それぞれの分子の文字列表現に基づいて表現される。それぞれの分子を意味論的空間内に投影するために、それぞれの分子の文字列表現から埋め込みが作成される。例えば、分子を、化学レベルで(化学物質を個々のヌクレオチド/アミノ酸と化学残基とに細分することによって)、または文字列レベルで(例えばバイト対符号化またはWordPieceトークン化を使用して、分子の文字列表現を部分文字列に細分することによって)関与させて、トークンとして符号化することができる。それぞれのトークンごとに、例えば以下でより詳細に紹介する第2の機械学習モデルを使用して、意味論的空間内の対応する埋め込みを計算することができる。分子の埋め込みを取得するために、例えばグローバル最大プーリングまたはグローバル平均プーリングを使用して、トークンの埋め込みをプーリング処理することができる。
【0052】
本提案のコンセプトでは、前述の埋め込みが、種々異なる目的のために使用される。
図1aおよび
図1bの方法に関して、埋め込みは、比較ループのために使用され、この比較ループでは、例えば遺伝子座または細胞運命に関して候補分子が生物学的サンプルに対して及ぼす影響に基づいて埋め込みが予測される。類似した特性を有する分子が、近接した埋め込みに対応するように、埋め込み空間、すなわち意味論的空間が連続的であることを保証するように、注意を払うことができる。連続性は、このように設計されたBPE(バイト対符号化)およびWordPieceのような方法を使用して文字列表現をトークン化することによって助長される。また、連続性は、出力に線形(密)層を通過させることによって(分類のための)学習コンテキストを促進するマスクされた言語モデリング(masked language modeling)と、予測を確率分布として扱うソフトマックス非線形性とによっても助長される。
【0053】
図1aおよび
図1bの方法は、複数の候補分子の埋め込みを取得すること110によって開始する。簡単な実装形態では、埋め込みは、候補分子の所定の埋め込みをメモリまたはストレージから読み出すことによって、または候補分子の文字列表現から埋め込みを計算することによって取得可能である。例えば、前述の第2の機械学習モデルに対応する大規模言語モデル(LLM)を使用して、例えば前述のトークン化を使用して、候補分子の文字列表現の埋め込みを計算することができる。例えば、
図5~
図9に関連してより詳細に説明するように、分子のトークン化された表現が大規模言語モデル(LLM)に供給される場合には、この大規模言語モデル(LLM)のTransformerブロックの最後の隠れ層の出力を、埋め込みとして使用することができる。したがって、分子の少なくとも一部の表現を含んでいる入力に基づいて、例えば分子のトークン化された表現の1つまたは複数のトークンを含んでいる入力に基づいて分子の埋め込みを出力するように、第2の機械学習モデルをトレーニングすることができる。
【0054】
しかしながら、いくつかの例では、本提案のコンセプトは、候補分子の所定の集合の埋め込みを計算することに限定されるわけではなく、候補分子自体を(事前)選択することに限定されている。特に、本開示のいくつかの例は、蛍光タグのための大規模な候補ライブラリのスクリーニングをin silicoで(すなわち、実験的を意味するin vivo/in vitroとは対照的に、計算によって)大幅に加速させるために、多数の深層学習モデルを使用する手順および実施形態に関する。次いで、
図1aおよび
図1bの方法の後者の態様、すなわち候補分子の検証を、前述のLLMを使用して生成された候補に対して適用することができる。
図1aおよび
図1bの方法を使用して、顕微鏡のようなイメージング装置を使用して、多数のin silicoで検証された候補分子を試験することができ、以下では、これらの候補分子を、以下で明らかとなるようにタグ候補とも称する。
【0055】
複数の候補分子に含められるべき候補分子の生成について説明するために、本開示の種々異なる例の中心にある分子の種類に関して少々話を脱線することとする。上記で概説したように、本開示の種々異なる例は、タグの設計および検証に関する。タグとは、細胞小器官または別の生物化学的に定義可能な構造を特異的に標的とする化学物質またはマクロ分子(ポリペプチド、ポリヌクレオチドなど)である。このようなタグは、種々異なる目的のために使用可能である。種々異なる例では、サンプルの標的位置での標的結果に対して影響を及ぼすために使用することができるタグが検索される。例えば、第1の用途は、これらのタグを、光マイクロコピーにおける造影剤として蛍光物質に結合することであり得る。第2の潜在的な用途は、タグを、薬剤または薬剤デリバリーシステムとして機能することができる化学物質に結合することである。両方のケースにおいて、タグは、蛍光物質または薬剤のようなペイロードをサンプルの標的位置へと輸送するまたは滞留させるために使用される。したがって、候補分子は、1つまたは複数のペイロードを標的領域へと輸送するまたは滞留させるための分子であり得る。上記で概説したように、1つまたは複数のペイロードは、蛍光物質を含み得る。追加的または択一的に、1つまたは複数のペイロードは、遺伝子発現に影響を及ぼすための薬剤、リガンドとして受容体または酵素に結合するための薬剤、酵素のアロステリック調節剤として機能する薬剤および拮抗薬として結合部位を得るために拮抗的に作用する薬剤のうちの1つまたは複数を含み得る。
【0056】
本開示の種々異なる例は、以下の特性のいずれかまたは組み合わせを有する「タグ」を生成することができる。例えば、タグは、直接的に標本中の標的構造に選択的または特異的に結合する1つまたは複数の低分子量の化学物質または蛍光物質を含み得る。択一的または追加的に、タグは、抗体またはFISHプローブのようなデリバリーシステムに共有結合することができる1つまたは複数の低分子量の蛍光物質を含み得る。択一的または追加的に、タグは、少なくとも1つのポリペプチドを含むことができ、この少なくとも1つのポリペプチドは、蛍光タンパク質へと折り畳まれ、生体標本において発現するように操作可能である。択一的または追加的に、タグは、細胞内のペプチドまたはヌクレオチドに特異的に結合する1つまたは複数の低分子量から中分子量の蛍光物質を含み得る。蛍光物質および標的配列の両方を、本提案のコンセプトを使用して予測および試験することができる。択一的または追加的に、タグは、1つまたは複数のアダプタ分子を含むことができ、このアダプタ分子の唯一の目的は、蛍光物質または薬剤として機能することができる別の分子を標本中の標的に輸送して特異的に付着させることである。上記のタグの全てが、蛍光物質または薬剤のようなペイロードを標的領域へと輸送するまたは滞留させるという上記の記載に適合することは明らかである。
【0057】
したがって、本提案のコンセプトの1つの態様を使用して、蛍光物質を標的領域へと、すなわち特定の遺伝子座へと輸送する(または滞留させる)適切なタグを予測することができ、この標的領域において、すなわちこの特定の遺伝子座において、バイオイメージング装置(例えば、蛍光顕微鏡)によってこれらの適切なタグを検出することができる。この意味で、タグは、蛍光物質または他の「ペイロード」を標的へと輸送するシャトルとして見なされてもよい。タグ/シャトルは、効果的には、細胞標的分子と蛍光物質/ペイロードとの間の化学的なアダプタである。タグ/シャトルの構造に起因して、細胞は、タグ/シャトルを(例えば、タンパク質の標的化を使用して)特定の区画へと標的化する。本提案のコンセプトのこの態様の二次的な目当ては、分子(ペイロード)を、択一的または追加的に蛍光物質へと(オプションとして)輸送することであり得る。この二次的なペイロードは、薬物として機能することができ、すなわち、遺伝子発現に影響を及ぼし(例えば、アップレギュレータ、ダウンレギュレータとして)、リガンドとして受容体または酵素に結合し、酵素のアロステリック調節剤として機能し、または拮抗薬として結合部位のために拮抗的に作用することができる。二次的なペイロードの背後にある主な着想は、バイオイメージングシステム(例えば、顕微鏡)を使用して代謝、シグナル伝達、細胞生物学、または神経生物学を研究するために、生物学的実験において生細胞、オルガノイド、または組織を操作することである。したがって、ペイロードは、細胞培養物または他の標本に市販の消耗品として追加することができる研究ツールとして機能することが期待され得る。原則として、このコンセプトは、医薬品用途にも適用可能である。
【0058】
適切なタグを発見する際の目当ては、標的領域での所望の成果に対して影響を及ぼす分子を識別することである。したがって、タグとして使用するための分子の適性は、そのタグが標的領域において所望の成果を有するかどうかに依存する。このことは、タグの適性を検証するために画像が使用されるという本明細書で使用される方法論を可能にする。生物学的サンプルの画像を撮影することによって、分子が生物学的サンプルに対してどのような影響を及ぼすかについての情報を収集することができる。特に、画像は、分子および/またはペイロードが生物学的サンプルにわたってどのように分布しているか、または分子またはペイロードの分布によって細胞の運命に対してどのような影響が引き起こされるかを表示することができる。したがって、本明細書で観察される標的特性は、空間分布(例えば、1つまたは複数の画像内の分子またはペイロードの存在の証拠がどこにあるか)、時空間分布(例えば、1つまたは複数の画像内の分子またはペイロードの分布が時間の経過に伴ってどのように進化するか)、強度分布(例えば、1つまたは複数の画像内の分子またはペイロードの存在が、例えば空間および/または時間にわたってどのように集中的であるか)、および細胞運命(例えば、分子によって引き起こされるまたは影響を受ける可能性のある細胞運命)のうちの1つであり得る。標的特性は、候補分子を検証するための、かつ所望の品質を有する可能性のある候補分子を事前選択するための両方の目的で使用可能である。
【0059】
複数の候補分子を生成するために、大規模言語モデルを使用して、候補分子(例えば、「タグ」)を予測することができる。大規模言語モデル(LLM)は、テキスト生成、機械翻訳、感情分析等のような自然言語処理タスクのために使用される一種の人工知能モデルである。LLMは、人間の言語パターンを模倣するように設計されており、典型的にはテキストの形態である大量の言語データに基づいてトレーニングされる。LLMは、文脈的に適切な一貫性のある文を生成することができ、多くの場合、人間によって生成されたものと見分けがつかない出力を生成することができる。一般的なLLMの例には、GPT-3(Generative Pre-trained Transformer 3)およびBERT(Bidirectional Encoder Representations from Transformers)が含まれる。本明細書の場合には、上記で概説したように、大規模言語モデルは、自然言語処理または自然言語生成のタスクのために使用されるのではなく、むしろ、分子の文字列表現から埋め込みを計算するタスクのために使用され、また、潜在的に候補分子として使用される可能性のある(配列および埋め込みとして)有効な分子を生成する目的のためにも使用される。
【0060】
候補分子を生成するため、または複数の分子にそのうちのいくつかを含めることができる分子を生成するために、前述のLLMを使用することができる。例えば、ヌクレオチド配列、タンパク質配列、化学物質のテキスト表現(SMILE、SELFIEなど)、または分子のグラフ表現の密な埋め込みを作成するように、LLMを事前トレーニングすることができる。例えば、第2の機械学習モデルは、種々異なる分子のトークン化された表現からなるコーパス上でトレーニングされている大規模言語モデルであり得る。例えば、分子を表現する配列(例えば、文字列として、または候補分子を表現するトークンの配列として)と、分子の埋め込みとを出力するように、第2の機械学習モデルをトレーニングすることができる。いくつかの場合には、第2の機械学習モデルを、本方法の一部としてトレーニングすることができる。したがって、いくつかの例では、本方法は、種々異なる分子のトークン化された表現からなるコーパスを使用して第2の機械学習モデルをトレーニングすること510を含み得る。特に、言語モデルを、ノイズ除去標的を使用してトレーニングしてもよいし、かつ/または言語モデルを、1つまたは複数のスタータトークンが与えられた場合に1つまたは複数の追加的なトークンを予測するようにトレーニングしてもよい。LLMのトレーニングと、適切な候補分子の選択とに関する例は、
図5~9に関連して与えられている。LLMをトレーニングする代わりに、ヌクレオチド配列、タンパク質配列、化学物質のテキスト表現、または分子のグラフ表現の密な埋め込みを作成するようにトレーニングされている既製のLLMモデルを使用してもよいし、または本明細書で説明する方法を実施するエンティティとは異なるエンティティによってトレーニングを実施してもよい。
【0061】
次いで、このLLMを使用して、(オプションとして、
図7に関連して示されている遺伝子座の予測目標へのファインチューニングの後の)タグ候補の自己回帰的なde novo合成を行うことができる。したがって、
図5に示されているように、本方法は、第2の機械学習モデルを使用して、複数の分子の埋め込みを生成すること520を含み得る。モデルの出力は、配列と、タグ候補の潜在ベクトルとしてのモデルの隠れ表現である、モデルのTransformerブロックの最後の隠れ層によって出力される活性化関数と、を含んでいる出力と共に、格納可能である。この潜在ベクトルは、本開示の文脈において(分子)埋め込みとも称される。
【0062】
候補分子(および候補分子の埋め込み)の生成を、例えば、
図6および
図7に関連してより詳細に示す。簡単な要約として、第2の機械学習モデルに(分子の一部を表現する)スタータトークンを供給し、停止条件が満たされるまで、スタータトークンと組み合わせられるべき追加的なトークンを第2の機械学習モデルに繰り返し選択させることによって、候補分子(および特に候補分子の埋め込み)を自己回帰的に生成することができる。換言すれば、第2の機械学習モデルを使用して、分子の一部を表現するスタータトークンに基づいて、分子の1つまたは複数の追加的な部分を表現する1つまたは複数の追加的なトークンを選択し、それぞれのスタータトークンを対応する1つまたは複数の追加的なトークンと組み合わせることによってそれぞれの埋め込みを生成することによって、複数の埋め込みを自己回帰的に生成することができる。実際には、このプロセスは、BERTのようなLLMによるテキストの生成に類似している。
【0063】
図5にさらに示されているように、本方法は、複数の分子の埋め込みから選択基準に従って複数の候補分子および対応する埋め込みを(事前)選択すること530を含み得る。明確にするために、選択基準に従って複数の候補分子を選択すること530は、分子の埋め込みと予測される埋め込みとの比較に基づいて1つまたは複数の候補分子を選択すること180とは異なる。この段階で実施される(事前)選択は、生物学的サンプル中で試験されるべき候補分子を(事前)選択するために使用される。
【0064】
(事前)選択を実施するために、以下のアプローチのうちの一方または両方を使用することができる。第1のアプローチでは、生成された分子埋め込みが、既知の望ましい品質を有する分子の埋め込みと比較される。モデルの出力(すなわち、埋め込み、ひいては意味論的空間内の位置)を使用して、タグ候補の埋め込み(すなわち、候補分子の埋め込み)と、遺伝子座のような既知の生物学的特性を有する既知の色素の埋め込みと、の間の距離を計算することができる。距離メトリックを使用して、所望の特性のためのタグ候補をin silicoで効果的に試験することができる。したがって、本方法は、分子の埋め込みを、標的特性に関する所望の品質を有する1つまたは複数の分子の1つまたは複数の埋め込みと比較することと、比較に基づいて複数の候補分子および対応する埋め込みを選択することと、を含み得る。
【0065】
図8に関連して示されている第2のアプローチでは、配列(すなわち、候補分子の文字列またはトークン表現)および埋め込みに加えて、標的特性に関する分子の品質を示す出力を出力するように、第2の機械学習モデルをトレーニングすることができる。換言すれば、第2の機械学習モデルは、標的特性に関する分子の品質を示す出力を有することができる。例えば、分子の品質を示す出力は、第2の機械学習モデルに含まれる分類器または回帰器の出力であり得る。この場合には、複数の候補分子および対応する埋め込みを選択することは、標的特性に関する分子の品質を示す出力に基づいていてもよい。例えば、ある分子が標的特性に関する所望の品質を提示していることを、標的特性に関する分子の品質を示す出力が示している場合には、それらの分子を、複数の候補分子のために選択することができる。
【0066】
この時点まで、本提案のコンセプトのこの態様は、所望の特性(すなわち、所望の品質)を有する尤もらしいタグ候補(すなわち、分子候補)を生成しており、これにより、コストのかかる化学合成および顕微鏡法による検証のための探索空間を狭めている。さらに検証を自動化する目的で、視覚的モデル(すなわち、機械学習モデル)をトレーニングするために、マッチングするタグ埋め込みを有する画像のペアからなるトレーニングコーパスを作成することができる。a)タグ候補の成功した遺伝子座(または他の可視の特性/品質)をスコア化するために顕微鏡写真を検証する目的で、b)所望の特性を有する時空間分布のための画像のリポジトリを検索する(例えば、既存の分子/タグを発見する)目的で、かつ/またはc)タグ候補の予測と合成と顕微鏡法とにわたるエンドツーエンド方式で、本提案のコンセプトにおいて使用される深層学習モデルをトレーニングする際に知覚損失関数として機能する目的で、このような視覚的モデルを使用することができる。したがって、本開示の種々異なる例は、化学的なタグを設計するために、生物医学的イメージング装置と組み合わせた深層学習による大規模言語モデルおよび画像生成を使用するシステムに関する。このような機械学習モデルのトレーニングについては、
図3および
図4に関連して説明する。
【0067】
図1aおよび/または
図1bの方法では、a)タグ候補の成功した遺伝子座(または他の可視の特性/品質)をスコア化するために顕微鏡写真を検証する目的で、このような機械学習モデルが使用される。この目的のために、本方法は、それぞれの候補分子ごとに、光学イメージング装置の1つまたは複数の画像250を取得すること140を含み、1つまたは複数の画像は、生物学的サンプル230中の候補分子によって提示される標的特性(すなわち、空間分布、時空間分布、強度分布および細胞運命)の視覚的表現を表示する。例えば、1つまたは複数の画像250は、顕微鏡、例えば
図10に示されている顕微鏡1020の光学イメージングセンサから取得可能である。例えば、1つまたは複数の画像は、種々異なるイメージングモード(例えば、1つまたは複数の波長帯域における白色光イメージングおよび蛍光イメージング)を使用して、または種々異なる照明モード(例えば、白色光照明および蛍光励起照明)を使用して撮影された画像を含み得る。例えば、1つまたは複数の画像(またはそれどころか2つ以上の画像)を、(実験の)2つ以上の異なる時点において撮影することができる。追加的または択一的に、1つまたは複数の画像を、光学イメージング装置の種々異なる光学イメージングセンサによって撮影してもよい。
【0068】
いくつかの場合には、1つまたは複数の画像は、そのままの状態で機械学習モデルによって処理される。しかしながら、いくつかの場合には、1つまたは複数の画像に対していくらかの量の前処理を適用することができ、この前処理の結果を、機械学習モデルによって処理することができる。したがって、
図1bにさらに示されているように、本方法は、1つまたは複数の画像から導出された情報を生成するために、画像処理ワークフローを使用して1つまたは複数の画像を前処理すること150を含み得る。例えば、画像処理ワークフローは、1つまたは複数の決定論的な画像処理ステップ(コントラスト増強、波長帯域フィルタリングなど)と、1つまたは複数の機械学習ベースの画像分析ステップ(画像セグメンテーション、オブジェクト検出、回帰および分類など)と、の両方を含み得る。特に、1つまたは複数の画像の前処理は、それぞれの標的特性の推定値を決定するために実施可能である(例えば、1つまたは複数の画像内の分子またはペイロードの位置/広がりを識別するための画像セグメンテーションもしくはオブジェクト検出、または細胞運命を分類するための分類のような、機械学習ベースの画像分析ステップを使用して)。例えば、前処理を使用して、分子またはペイロードの推定された空間分布、分子またはペイロードの推定された時空間分布、分子またはペイロードの推定された強度分布および分子またはペイロードによる影響を受ける少なくとも1つの細胞の細胞運命のうちの1つまたは複数を決定することができる。したがって、1つまたは複数の画像から導出された情報は、分子またはペイロードの推定された空間分布、分子またはペイロードの推定された時空間分布、分子またはペイロードの推定された強度分布および分子またはペイロードによる影響を受ける少なくとも1つの細胞の細胞運命のうちの1つまたは複数を含み得る。例えば、1つまたは複数の画像から導出された情報は、画像として提供されてもよいし、または1つまたは複数の画像から導出された値を有する二次元マップとして提供されてもよい。例えば、1つまたは複数の画像から導出された情報が、推定された空間分布を含んでいる場合には、この推定された空間分布を、モノクロ画像として提供することができ、その場合、それぞれのピクセルの色(黒または白)は、1つまたは複数の画像のうちの1つの画像の対応するピクセルにおいてペイロードまたは分子が検出されたかどうかを示す。1つまたは複数の画像から導出された情報が、推定された時空間分布を含んでいる場合には、この推定された空間分布を、一連のモノクロ画像として提供することができ、その場合、それぞれのモノクロ画像は、実験中の2つ以上の時点のうちの1つにおける空間分布を表す。1つまたは複数の画像から導出された情報が、強度分布を含んでいる場合には、結果的に得られる画像における強度分布の視覚的表現、例えば、結果的に得られる単一チャネル/グレースケール画像のグレースケール上または色勾配上の位置が、1つまたは複数の画像のピクセルにおいて検出された分子またはペイロードの数を反映することができる。1つまたは複数の画像から導出された情報が、マップとして提供される場合には、マップによって示される値を、画像に類似して選択することができ、例えばモノクロ画像の代わりに0および1を選択することができ、強度分布の場合には、値の範囲、例えば0~255を選択することができる。本願の文脈では、1つまたは複数の画像から導出されたそのような情報は、強度分布D(r)(強度分布の場合には、時空間強度分布であり得る)、または細胞運命Fとも称される。
【0069】
標的特性の分析を補助するために、画像処理ワークフローおよび/または光学イメージングセンサによる画像獲得を、分析されている標的特性に従って調整することができる。例えば、さらに示されているように、本方法は、候補分子の標的特性に基づいて1つまたは複数のイメージングパラメータを決定すること120と、決定された1つまたは複数のイメージングパラメータに基づいて1つまたは複数の画像を取得することと、を含み得る。例えば、標的特性に応じて、種々異なる照明波長帯域、種々異なる波長帯域フィルタリングパラメータ、種々異なる画像分析モデル等を使用することができる。
【0070】
機械学習モデルは、1つまたは複数の画像および/または1つまたは複数の画像から導出された情報を含んでいる入力に対する予測される埋め込みを出力するようにトレーニングされている。トレーニングに関する詳細は、
図3および
図4に関連して与えられている。簡単な要約として、教師あり学習ベースのトレーニングを使用して、1つまたは複数の画像または1つまたは複数の画像から導出された情報を含んでいる入力に対する埋め込みを出力するように、機械学習モデルをトレーニングすることができる。機械学習モデルのトレーニングを本方法の一部として実施することができるので、本方法は、1つまたは複数の画像または1つまたは複数の画像から導出された情報に基づいて候補分子の予測される埋め込みを出力するように、教師あり学習を使用して、かつトレーニングデータの集合を使用して、機械学習モデルをトレーニングすること320を含み得る。特に、時間の経過に伴う分子またはペイロードの広がりに関心が持たれているので、実験中の2つ以上の時点にわたって撮影された2つ以上の画像(または2つ以上の画像の画像からそれぞれ導出された2つ以上の情報の集合)を、機械学習モデルに入力することができる。したがって、2つ以上の時点における生物学的サンプルを表示する画像の集合(または画像の集合から導出された情報の集合)を処理して、候補分子の予測される埋め込みを出力するように、機械学習モデルをトレーニングすることができる。例えば、いくつかの場合には、画像の集合(または2つ以上の情報の集合)を、機械学習モデルの2つ以上の別個の入力を介して機械学習モデルに入力することができる。択一的に、機械学習モデルは、画像または画像から導出された情報を「記憶」するために、長・短期記憶、すなわちLSTMのような「メモリ」を含み得る。この場合には、単一の入力で十分であり得る。
【0071】
機械学習モデルを使用して、候補分子の予測される埋め込みを生成するために、1つまたは複数の画像および/または1つまたは複数の画像から導出された情報が処理160される。換言すれば、1つまたは複数の画像に基づいて、機械学習モデルは、何/どの分子が、意味論的空間内の点(すなわち、予測される埋め込み)として生物学的サンプルに(標的特性に関して)影響を及ぼしたのかを予測する。次いで、結果として得られた予測される埋め込みが、候補分子の埋め込みと比較170され、これらの候補分子170が標的特性に関して予期される影響を有しているかどうかが判定される。例えば、ある候補分子に関して、生物学的サンプル中の候補分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像に基づいて予測された埋め込みが、この候補分子に対して(第2の機械学習モデルを使用して)計算された埋め込みに類似している場合には、1つまたは複数の候補分子に関して、この候補分子を選択すること180ができる。なぜなら、この候補分子は、予期されるように挙動しているからである。しかしながら、ある候補分子に関して、生物学的サンプル中の候補分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像に基づいて予測された埋め込みが、この候補分子に対して(第2の機械学習モデルを使用して)計算された埋め込みに類似していない場合には、1つまたは複数の候補分子に関して、この候補分子を選択すること180ができない可能性がある。なぜなら、この候補分子は、予期されたように挙動していないからである。
【0072】
以下では、
図2には、候補分子の埋め込みのde novo生成から、予測される埋め込みとde novo生成された候補分子に対して計算された埋め込みとの比較280までの全体的なフローが示されている。操作215、250、260および280が、
図1aおよび/または
図1bの方法の核心部分であることに留意されたい。事前トレーニングされたLLM200を使用した候補分子の埋め込みの生成、化学合成220、サンプル調製230およびイメージング250のような追加的な操作は、オプションであるか、または完全に
図1aおよび/または
図1bの方法の範囲外にある。
【0073】
図1aおよび/または
図1bの方法のさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図2~
図11)。本方法は、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0074】
図2は、オプションのファインチューニングを伴う、タグ候補のような候補分子を検証するためのアッセイの全体的なフローを示す。
図2は、とりわけ予測されたタグを、イメージング装置を使用して試験することを示す。潜在的なタグ候補の有効性を試験するために、それぞれの分子を合成することができ、サンプルを生成(例えば、染色、トランスジェニック化)して、イメージングすることができる。
【0075】
事前トレーニングされた大規模言語モデル200(すなわち、第2の機械学習モデル)は、de novoタグ候補(すなわち、候補分子)210と、その意味論的埋め込み215と、を予測する。それぞれの候補分子を有する生物学的サンプルのサンプル調製230と同様に、候補分子の化学合成220も、可能な限り自動化することができる。したがって、
図1bの方法は、それぞれの候補分子ごとに、それぞれの候補分子を有するサンプルを調製するためのサンプル調製220に関する1つまたは複数のパラメータを決定すること130と、サンプル調製に関する1つまたは複数のパラメータを出力することと、をさらに含み得る。化学合成は、細菌または後生動物の細胞系におけるタンパク質の発現および精製、DNA/RNAの合成および増幅、ペプチドの直接合成、コンビナトリアル化学合成と、それに後続する追加的な精製および品質管理のような操作を含み得る。サンプル調製は、2Dまたは3D細胞培養物、オルガノイド、球状体の培養、組織の切片化、または(例えば、解剖、清浄化による)器官の調製、またはin vivoイメージングのための動物全体(例えば、マウス大脳皮質イメージングにおける頭蓋窓)の調製を含み得る。サンプル調製は、顕微鏡法のための適切な容器内でのサンプルの生成と、それぞれのタグ分子の存在下でのサンプルの染色、電気穿孔、固定、トランスフェクション、または洗浄と、をさらに含み得る。
【0076】
データ記録部240の設計は、発見されるべき新たなポリマーまたは化合物の目当て(すなわち、標的特性)に依存する。例えば、標的(標的特性)が局在性である場合には、イメージング装置が使用される。結合アッセイ(リガンドおよびタンパク質など)が実施される場合には、光学検査、すなわち任意の形態の分光光度測定を使用することがより実用的である。後者の場合には、関心のある分子を、化学開裂または酵素反応の際にその発色性または蛍光レポーター特性を発現する原発色団に化学的に結合させることができる。後者のリードアウトは、イメージングよりも容易にスケールアップ可能である。光学試験におけるレポーターのリードアウトは、UV光、吸収または蛍光における可視光、赤外吸収、光偏光、旋光分散、静的光散乱および動的光散乱、蛍光寿命分光法、ならびに蛍光相関分光法のうちの1つまたは複数を含み得る。イメージング240は、典型的には顕微鏡法、高含分スクリーニングおよび/または(器官全体または生物全体のような大型の標本をin vivoで観察するための)メソスコピーを含み得る。イメージングモダリティは、可視光およびUV(紫外)光、赤外光(コヒーレント抗ストークスラマン散乱、すなわちCARS、または誘導ラマン散乱、すなわちSRSのような振動顕微鏡法を含む)、多光子励起顕微鏡法および他の形態の非線形顕微鏡法、蛍光寿命イメージング、蛍光相関分光法、画像相関顕微鏡法、偏光顕微鏡法、位相コントラストと微分干渉コントラストと強度変調コントラストとが含まれる無標識コントラスト、アッベ限界未満の光学ナノスコピー、またはそれらの組み合わせのうちの1つまたは複数を含み得る。しかしながら、データ記録モダリティに関係なく、それぞれの情報を、画像または画像のようなデータ構造(例えば、2次元マップ)として取得することができる。
【0077】
操作のうちのいくつか、特に化学合成220、サンプル調製230およびデータ記録240は、労力がかかり、高コストであり、ある程度まで手動介入を必要とする。したがって、このアッセイによってin vitroまたはin vivoで検証されるタグ候補の数を削減することが望ましい場合がある。タグ候補の埋め込みは、意味論的空間内で近接して局在することが予期されるので、タグ候補の集合の確率論的なサンプルを取得することができ、これらの確率論的なサンプルのみをin vitroで検証することができる。
図4に関連して説明するように、操作220~240を、条件付き生成ニューラルネットワークアプローチを使用した生成モデルに置き換えることにより、他のタグ候補をin silicoで(すなわち、計算によって)アッセイすることができる。実際には、サンプルに対して候補分子が及ぼす影響を予測するための「デジタルツイン」を生成することができる。このようなモデルは、タグ埋め込みを入力として受け取り、尤もらしい画像を出力として生成する。後者は、画像認識モデル260を順方向に通過することができる。遺伝子座のような1つの所望の特性を考慮するだけでなく、毒性または生物学的活性または化学的特性(このような特性については実施形態3も参照のこと)のような他の分子特性も考慮した場合には、このアプローチの精度を高めることが可能である。
図8に示されているように、複数のそのような特性を予測するために、大規模言語モデル200をファインチューニングすることができる。このアプローチは、in vitro/in vivoでの実際のアッセイの実行可能性が増加するに至るまで、候補の数を削減するために役立つことができる。
【0078】
データ記録240を使用して、または生成モデルを使用して生成された複数の画像250は、時空間分布D(r)または細胞運命(F)のような観測可能量を表示する。典型的には、これらの観測可能量は、次元X,Y,Z,T,CH(3つの空間次元、時間およびスペクトル発光波長帯域の代理である「チャネル」)を有する画像スタックである。他の次元は、(x次元およびy次元における)ステージ位置、サンプルキャリア上の論理的位置(「ウェル」、「生検コア数」、「オブジェクト数」)、ライトシートイメージングのための照明の方向、偏光および連続表現またはゲート表現での蛍光寿命のうち1つまたは複数を含み得る。成功のためのリードアウトとしての顕微鏡法的に可視である時空間分布D(r)は、(温度、pHおよびイオン強度の関数としての)溶解度、または細胞培養物、オルガノイド、もしくは動物全体に対する毒性のような、予測および合成されたタグの物理化学的特性を試験するための追加的な実験室器具によって補完可能である。特に、毒性は、培養物(すなわち、顕微鏡標本)中のタグ濃度の関数としての生細胞対死細胞の比率を介して顕微鏡法によって評価可能である。
【0079】
画像(および/または画像から導出された情報)と、オプションとして上記で説明した追加的なリードアウトとが、トレーニングされた(画像認識)モデル260(すなわち、機械学習モデル)に入力されて、可能性のあるタグ埋め込み270が推論される。後者のタグ埋め込み270は、埋め込み空間内におけるde novo予測されたタグに近接していることが予測される。タグ埋め込み270とde novo予測されたタグとの近接度は、距離メトリックを使用して測定可能である。その時点で、定量的な検証を完了することができ、潜在的な候補タグのランキングを生成することができる。オプションとして、微分可能な損失を計算する280ことができ、この微分可能な損失は、アッセイに含まれる深層学習モデルの全てまたは一部、特にde novo予測のための大規模言語モデル(すなわち、第2の機械学習モデル)200と、スコア化のために使用される(画像認識)機械学習モデル260とを、エンドツーエンド方式でファインチューニングするために使用可能である。いくつかの場合には、機械学習モデル260のパラメータを、固定されたままにすることができ、第2の機械学習モデル200をファインチューニングしている間に、1つまたは複数の層からの活性化関数を抽出することができる。この場合には、機械学習モデル260は、第2の機械学習モデル200をトレーニングするための知覚損失関数として効果的に機能する。機械学習モデル260からだけでなく第2の機械学習モデル200からの予測、損失関数、または抽出された活性化関数/隠れ表現も、制御フローを修正するため、かつ/または制御フローにおける機械学習モデルのパラメータを修正するために、化学合成220、サンプル調製230、またはデータ記録240でのように実験室器具およびイメージング装置にフィードバックすることができる。
【0080】
本提案のコンセプトを使用して、(所望の遺伝子座を有する)タグを設計することができるだけでなく、各自のそれぞれの特性(生物活性または薬物活性など)を有する他の「ペイロード」分子を設計することもできる。例えば、タグ分子は、特異的に標的とされるべきペイロード分子のためのシャトル(シグナル配列を決定する遺伝子座など)および/またはアダプタ分子として機能する。後者の場合には、本提案のコンセプトは、2つのそのような分子(タグ、ペイロード)を共同で最適化するために使用可能である。その結果、第2の機械学習モデル200および機械学習モデル260の両方は、1つの出力ではなく2つの出力を有することができ、それぞれの出力が、損失関数290によってファインチューニングされる。
【0081】
図2における損失勾配の逆伝播法は、実験室器具またはイメージング装置の制御フローに影響を及ぼすために使用可能である。これらの装置の制御フローが機械学習モデルによって管理されている場合には、機械学習モデルのパラメータも同様にファインチューニングすることができる。このようにして、de novo予測されたタグ候補と、これらのタグ候補によって顕在化させられた実際の観測可能量の推論された埋め込みと、の間の最小誤差(損失)を達成するように、アッセイの全ての構成要素を適合させることができる。
【0082】
図2のフローのさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図1b、
図3~
図11)。本フローは、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0083】
図3は、機械学習モデルをトレーニングするための方法、すなわち、
図1a~
図2に関連して説明したような、1つまたは複数の画像または1つまたは複数の画像から導出された情報を処理するための機械学習モデルをトレーニングするための方法の一例のフローチャートを示す。本方法は、トレーニングデータの集合を取得すること310を含む。トレーニングデータの集合は、複数のトレーニングサンプルの集合を含む。それぞれのトレーニングサンプルは、トレーニング入力データとして、a)生物学的サンプル中の候補分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像と、b)1つまたは複数の画像から導出された情報および所望のトレーニング出力として分子の埋め込みと、のうちの少なくとも1つを含む。本方法は、1つまたは複数の画像または1つまたは複数の画像から導出された情報に基づいて候補分子の予測される埋め込みを出力するように、教師あり学習を使用して、かつトレーニングデータの集合を使用して、機械学習モデルをトレーニングすること320を含む。例えば、本方法は、コンピュータシステムによって、例えば、
図10に関連して紹介するシステム1010によって、かつ/または
図11に関連して紹介するコンピュータシステム1120によって実施可能である。例えば、本方法は、
図1aおよび/または
図1bの方法ならびに
図5の方法と同じコンピュータシステムによって、または異なるコンピュータシステムによって実施可能である。
【0084】
図1a~
図2は、主に機械学習モデルの適用に関し、その一方で、
図3および
図4は、機械学習モデルのトレーニングに関する。(画像認識)機械学習モデルは、以下の操作を使用して生成可能である。以下では、機械学習モデルは、「画像認識」機械学習モデルとも称される。しかしながら、このことは、必ずしも機械学習モデルが画像データに対して認識(例えば、オブジェクト認識)を実施することを示すというわけではない。このことは、単に機械学習モデルが画像または画像から導出された情報を処理するということを示しているに過ぎない。この用語は、機械学習モデルと、第2の機械学習モデル(すなわち、(大規模)言語モデル)と、を区別するために選択されたものである。
【0085】
以下では、
図3および
図4に関連して説明するように、機械学習モデルのトレーニングに関連して機械学習の簡単な紹介が与えられている。機械学習は、モデルおよび推論に依存する代わりに、コンピュータシステムが、明示的な命令を使用することなく、特定のタスクを実行するために使用し得るアルゴリズムおよび統計モデルを参照してもよい。例えば、機械学習では、ルールに基づくデータ変換の代わりに、過去のデータおよび/またはトレーニングデータの分析から推論されるデータ変換が使用されてもよい。例えば、画像コンテンツは、機械学習モデルを用いて、または機械学習アルゴリズムを用いて分析されてもよい。機械学習モデルが画像コンテンツを分析するために、機械学習モデルは、入力としてのトレーニング画像と出力としてのトレーニングコンテンツ情報を用いてトレーニングされてもよい。多数のトレーニング画像および/またはトレーニングシーケンス(例えば単語または文)および関連するトレーニングコンテンツ情報(例えばラベルまたは注釈)によって機械学習モデルをトレーニングすることによって、機械学習モデルは、画像コンテンツを認識することを「学習」するので、トレーニングデータに含まれていない画像コンテンツが機械学習モデルを用いて認識可能になる。同じ原理が、同じように他の種類のセンサデータに対して使用されてもよい:トレーニングセンサデータと所望の出力を用いて機械学習モデルをトレーニングすることによって、機械学習モデルは、センサデータと出力との間の変換を「学習し」、これは、機械学習モデルに提供された非トレーニングセンサデータに基づいて出力を提供するために使用可能である。提供されたデータ(例えばセンサデータ、メタデータおよび/または画像データ)は、機械学習モデルへの入力として使用される特徴ベクトルを得るために前処理されてもよい。
【0086】
機械学習モデルは、トレーニング入力データを用いてトレーニングされてもよい。上記の例は、「教師あり学習」と称されるトレーニング方法を使用する。教師あり学習では、機械学習モデルは、複数のトレーニングサンプルを用いてトレーニングされ、ここで各サンプルは複数の入力データ値と複数の所望の出力値を含んでいてもよく、すなわち各トレーニングサンプルは、所望の出力値と関連付けされている。トレーニングサンプルと所望の出力値の両方を指定することによって、機械学習モデルは、トレーニング中に、提供されたサンプルに類似する入力サンプルに基づいてどの出力値を提供するのかを「学習」する。教師あり学習の他に、半教師あり学習が使用されてもよい。半教師あり学習では、トレーニングサンプルの一部は、対応する所望の出力値を欠いている。教師あり学習は、教師あり学習アルゴリズム(例えば分類アルゴリズム、回帰アルゴリズムまたは類似度学習アルゴリズム)に基づいていてもよい。出力が、値(カテゴリー変数)の限られたセットに制限される場合、すなわち入力が値の限られたセットのうちの1つに分類される場合、分類アルゴリズムが使用されてもよい。出力が(範囲内の)任意の数値を有していてもよい場合、回帰アルゴリズムが使用されてもよい。類似度学習アルゴリズムは、分類アルゴリズムと回帰アルゴリズムの両方に類似していてもよいが、2つのオブジェクトがどの程度類似しているかまたは関係しているかを測定する類似度関数を用いた例からの学習に基づいている。
【0087】
図3の方法では、機械学習モデルをトレーニングするために、教師あり学習も使用される。機械学習モデルの出力は、埋め込みの予測、すなわち意味論的空間内の位置であるので、意味論的空間内の位置を指し示す(1つまたは複数の)数として埋め込みを出力するための回帰器として、機械学習モデルをトレーニングすることができる。
【0088】
機械学習モデルをトレーニングするためのトレーニングデータとして、トレーニングデータの集合が使用される。機械学習モデルは、1つまたは複数の画像および/または1つまたは複数の画像から導出された情報に対して適用されるべきであるので、トレーニングデータは、
図1aおよび/または
図1bの方法に関連して使用される1つまたは複数の画像および/または1つまたは複数の画像から導出された情報に類似した画像および/または1つまたは複数の画像から導出された情報を含み得る。したがって、それぞれのトレーニングサンプルは、トレーニング入力データとして、a)生物学的サンプル中の候補分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像と、b)
図1aおよび/または
図1bの方法に関連して使用されるフォーマットに類似したフォーマットを有する、1つまたは複数の画像から導出された情報と、のうちの少なくとも1つを含む。例えば、いくつかの例では、トレーニングデータの集合に含まれる画像を取得するために同じ光学イメージング装置を使用してもよいし、または使用されている画像を、
図1aおよび/または
図1bの方法のために使用された光学イメージングシステムによって出力された画像に類似させるために処理してもよい。同様に、1つまたは複数の画像から導出された情報を計算/決定するために同じ画像処理パイプラインを使用してもよい。同様に、所望の出力として使用される埋め込みは、
図1a~
図2に関連して紹介する候補分子の埋め込みのために使用されたフォーマットに類似したフォーマットを有する。
【0089】
まず始めに、(例えば、D(r)に対応する)画像とそれぞれのタグ埋め込みとのペアからなるトレーニングコーパスを作成することができる。どのような種類の配列S(例えば、どのような種類の分子)が予測されるべきかが明らかになると、トレーニングコーパス(すなわち、トレーニングデータの集合)を作成することができる。トレーニングコーパスは、標識としての既知の遺伝子座(すなわち、標的特性は、1つまたは複数の遺伝子座であり得る)を有する分子の配列埋め込みと、入力としての分布D(r)または細胞運命F(1つまたは複数の画像として、または1つまたは複数の画像から導出された情報として)と、を含み得るか、またはそれらから構成され得る。これらのペアは、続いて、(教師あり)トレーニングのために使用される。
【0090】
以下では、トレーニングデータの集合のためのトレーニングサンプルを収集するための3つのアプローチを紹介するが、トレーニングデータの集合を取得するために、これら3つのアプローチを単独で使用してもよいし、または互いに組み合わせて使用してもよい。
【0091】
例えば、トレーニングコーパスは、顕微鏡法および既知のタグのバンクを使用して、イメージング装置を使用して画像を記録することによって、かつ特異的に既知のタグを用いて特定の構造を染色することによって作成可能である。したがって、本方法は、生物学的サンプル中の分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像の集合を生成し、分子のための対応する埋め込みを生成することによって、トレーニングデータの集合の少なくとも一部を生成すること312を含み得る。この場合には、トレーニングデータの集合は、1つまたは複数の画像の集合、または1つまたは複数の画像の集合から導出された情報の集合と、分子のための対応する埋め込みと、を含み得る。例えば、それぞれの特性、例えば時空間強度分布D(r)または細胞運命Fは、関心のある遺伝子座を表示するサンプルを有するイメージング装置を使用して測定可能である。サンプルは、それぞれのD(r)/Fごとに既知の遺伝子座のタグを用いて標識可能である。入力と(タグ)埋め込みとのそれぞれのペアごとに、複数のインスタンスを記録することができる。典型的には、特定のサンプルの遺伝子座における多数のタグをスクリーニングすることを可能にするため、かつそれらの対応する観察可能量(D(r)/F、すなわち標的特性)を自動的に記録するために、イメージング装置と、リキッドハンドリング機器およびサンプルハンドリング機器のような実験室器具と、をセットアップすることができる。
【0092】
択一的または追加的に、(トレーニングコーパスの少なくとも一部)を作成するために、記録された画像の1つまたは複数の公的に利用可能なアトラスを使用することができる。したがって、本方法は、生物学的サンプル中の分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の画像の集合を生物学的データベースから取得し、分子のための対応する埋め込みを生成することによって、トレーニングデータの集合の少なくとも一部を生成すること314を含み得る。この場合には、トレーニングデータの集合は、1つまたは複数の画像の集合、または1つまたは複数の画像の集合から導出された情報の集合と、分子のための対応する埋め込みと、を含み得る。ライフサイエンスにおける科学研究コミュニティは、生物学的サンプルの画像を有する大量のデータを公開している。通常、これらのデータは、既知の起源のタグを用いて標識され、同じデータベースに、標識プロトコルが記録される。そのような公的にアクセス可能なデータリポジトリが利用可能である場合には、これらのデータリポジトリを使用して、グランドトゥルースを提供することができる。他の点では、イメージング装置によって記録された画像(上記を参照のこと)を用いて、または条件付き生成ニューラルネットワークを使用して生成された画像(下記を参照のこと)を用いて、この公的に利用可能なデータを補完することができる。
【0093】
択一的または追加的に、条件として候補タグ埋め込みを使用するようにトレーニングされた条件付き生成ニューラルネットワークを使用することによって(例えば、合成データを用いた半教師ありトレーニングの場合)、予測された強度分布として、トレーニングコーパスのための画像を生成することができる。したがって、本方法は、生物学的サンプル中の分子によって提示される標的特性の視覚的表現を表示する1つまたは複数の生成された画像の集合を、生成的な機械学習モデルを使用して生成し、分子のための対応する埋め込みを生成することによって、トレーニングデータの集合の一部を生成すること316を含み得る。この場合には、トレーニングデータの集合は、1つまたは複数の生成された画像の集合、または1つまたは複数の生成された画像の集合から導出された情報の集合と、分子のための対応する埋め込みと、を含み得る。分子と、分子がタグ付けされたサンプルと、からなる大規模なライブラリのスクリーニングにはコストがかかるので、生成ニューラルネットワークを使用して、トレーニングコーパス(の一部)を生成することができる。タグ埋め込みは、既知であるか、または(
図5~
図9に関連して説明したように)トレーニングされた大規模言語モデルを用いて容易に作成可能であるので、所与のタグ埋め込みに対して予期される観察可能量を予測することができる。しかしながら、変分オートエンコーダは、画像(D/F)およびタグ埋め込みの両方を作成するためには適していないようである。文献からは、条件付き敵対的生成ネットワーク(cGAN)の形態が知られており、この条件付き敵対的生成ネットワーク(cGAN)は、確率分布のサンプリングが不正確、トレーニングが困難、またはモード崩壊のような欠点を有し得る。しかしながら、それでもなお、コーパスの一部を生成するためにそのようなcGANを使用することも可能であろう。
【0094】
択一的に、所望のタグ埋め込みを条件とし、予期される観察可能量D(r)/Fを作成する正規化されたフローモデル(DNNの形態でもある)を用いて、画像を作成してもよい。このようなモデルを使用して、予測される観察可能量の視覚的表現を、実験室データ分析、品質管理および文書化のために人間が理解可能なフォーマットで作成することができ、また、半教師ありトレーニングのための追加的なデータを追加することによって、機械学習モデルをトレーニングするためのトレーニングコーパスを拡張することができる。
【0095】
例えば、この文脈において、以下のベイズの規則を使用することができる。ベイズの定理またはベイズの法則としても知られるベイズの規則は、事前知識または事前情報に基づいて事象の確率を計算するために使用される数学的な公式である。本明細書の場合には、事後確率P(S|D)は、特定の画像Dが与えられた場合におけるタグ(埋め込み)である確率であり、ここで、Sは、タグ埋め込みであり、Dは、強度分布D(r)である。尤度P(D|S)は、サンプルがタグ(埋め込み)Sを用いて染色されている場合における画像Dが見える確率である。事前知識P(S)は、全ての可能なタグ(すなわち、化学物質)のコーパス全体が与えられた場合におけるタグ(埋め込み)Sを発見する確率である。
【0096】
続いて、細胞または組織におけるこのタグの尤もらしい分布の画像が与えられた場合にタグ埋め込みを予測するように構成された画像認識深層ニューラルネットワークとして、機械学習モデルをトレーニングすることができる。
【0097】
次いで、イメージング装置を使用して、
図1a~
図2に関連して示されているように、生細胞、オルガノイドまたは組織、もしくはイメージングに適した別のセットアップにおける予測および合成されたタグを試験し、トレーニング画像に示されているようにこのタグが局在することを確認することができる。この後者の画像認識ニューラルネットワークは、完全にトレーニングされている場合には、in vivo/in vitroでイメージングされた合成された/発現したタグの画像を評価するために使用可能である。この評価により、この画像認識モデルによって予測されたタグ埋め込みと、大規模言語モデル(すなわち、
図1a~
図2、
図5~
図9に関連して紹介した第2の機械学習モデル)によって計算されるような、既知の特性のタグ埋め込みと、の間の距離メトリックを適用することにより、画像タグ候補の自動化された検証またはスコア化が可能となる。
【0098】
さらに、言語モデル(すなわち、第2の機械学習モデル)をファインチューニングするため、かつ場合によっては顕微鏡と、タグ候補の合成、サンプルハンドリングおよびリキッドハンドリング、ならびにイメージングに関与する他の実験室自動化器具と、の制御フローに影響を及ぼすために、知覚損失関数としてトレーニングされた画像認識モデルを使用することによって、タグ候補の検証の自動化を実施することができる。
【0099】
図3の方法のさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図2、
図4~
図11)。
図3の方法は、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0100】
図4には、機械学習モデルのトレーニングの一例が与えられている。
図4は、アッセイにおけるタグ候補の自動化された検証のための(画像認識)機械学習モデルのトレーニングの一例のフローチャートを示す。トレーニングは、所望の局在性パターンを有するタグを予測するように、機械学習モデルをトレーニングするために使用される。画像と対応するタグ埋め込みとのペアを含んでいる、上記のようにコンパイルされたトレーニングコーパス400は、入力として画像を有する(画像認識)機械学習モデル410と、出力420において提供される対応するタグ埋め込みへの回帰と、をトレーニングするために使用される。トレーニングのために損失勾配430を計算して逆伝播させるために、L1ノルムまたはL2ノルムのような適切な目的関数を使用することができる。
【0101】
このようにトレーニングされた機械学習モデル410は、今や(観察可能量D(r)またはFの)所与の入力画像に対して最も尤らしいタグ埋め込みを予測するように構成(すなわち、トレーニング)されている。例えば、このようにトレーニングされたモデルを使用して、アッセイからの画像を検証し、合成されて標本に適用されてイメージングされた、予測されたタグ埋め込みを試験することができる。次いで、モデル出力を、それぞれのタグのde novo予測のタグ埋め込みと比較することができる。これにより、新たに設計されたタグの自動化された検証が可能となる。追加的または択一的に、機械学習モデルを使用して、適切な目的関数を使用して、de novo予測と、実際の観察可能量(例えば、遺伝子座、強度分布、細胞運命)に対応する埋め込みと、の間の誤差を測定することができる。画像認識モデルおよび大規模言語モデルの両方または一方をトレーニングまたはファインチューニングするために、エンドツーエンド方式で誤差を逆伝播させることができる。
【0102】
図4のフローのさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図3、
図5~
図12)。
図4のフローは、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0103】
図5は、候補分子を選択するための方法の一例のフローチャートを示す。本方法は、第2の機械学習モデルを使用して、複数の分子の埋め込みを生成すること520を含む。本方法は、複数の分子の埋め込みから選択基準に従って複数の候補分子および対応する埋め込みを選択すること530を含む。この選択プロセスは、
図1a~
図2に関連して前に説明されている。追加的な例は、
図8および
図9に関連して与えられている。いくつかの例では、本方法は、種々異なる分子のトークン化された表現からなるコーパスを使用して第2の機械学習モデルをトレーニングすること510をさらに含む。特に、言語モデルを、ノイズ除去標的を使用してトレーニングしてもよいし、かつ/または言語モデルを、1つまたは複数のスタータトークンが与えられた場合に1つまたは複数の追加的なトークンを予測するようにトレーニングしてもよい。(LLMとしての)第2の機械学習モデルのトレーニングと候補分子の選択との両方について、今から
図6~
図9に関連してより詳細に説明する。
【0104】
例えば、本方法は、コンピュータシステムによって、例えば、
図10に関連して紹介するシステム1010によって、かつ/または
図11に関連して紹介するコンピュータシステム1120によって実施可能である。例えば、本方法は、
図1aおよび/または
図1bの方法ならびに
図3の方法と同じコンピュータシステムによって、または異なるコンピュータシステムによって実施可能である。
【0105】
図5の方法のさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図4、
図6~
図11)。
図5の方法は、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0106】
以下の説明は、分子埋め込みのための大規模言語モデルの事前トレーニングに関する。
図6は、大規模言語モデル(すなわち、第2の機械学習モデル)を、配列データ(例えば、ヌクレオチド、ペプチド、または化学マークアップ言語による配列データ)を有するコーパス上でトレーニングするためのフローの一例のフローチャートを示す。適切な記法(例えば、SMILE)におけるヌクレオチド配列、タンパク質配列、または化学物質を含んでいるデータの大規模コーパス600を、出発点として使用することができる。コーパスにおける項目のトークン化610は、トークンとしての個々のヌクレオチド/アミノ酸(ポリヌクレオチド/ポリペプチドのみ)、ポリペプチドのためのバイト対符号化またはWordPieceトークン化のようなサブワードトークン化、トークンとしてのポリヌクレオチドまたは低分子量の化学物質および化学残基(主にSMILEとして表現される低分子量の化学物質のため)のうちの1つとして可能である。注記:ヌクレオチド配列(DNA、RNA)の場合には、1つのトークンとして個々のヌクレオチドの代わりに三核体(ヌクレオチドの三量体)を符号化することが生物学的に最も理に適っている。なぜなら、この三核体は、アミノ酸に翻訳することができる最小の生物学的単位であるからである。
【0107】
LLM(例えば、第2の機械学習モデル)620は、マスクされた言語モデリングのような一種のノイズ除去標的を使用して、上記のような大規模コーパス上でトレーニングされ、これについては、J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”を参照のこと。択一的に、事前トレーニングの標的は、トランケートされた入力配列が与えられた場合に後続するトークンを予測することである。
【0108】
次いで、事前トレーニングされたモデルを使用して、実質的に意味論的な(サブ)分子の埋め込みである潜在的なベクトル630の形態で、特徴を抽出することができる。これらの特徴は、最後のTransformerブロックの最後の隠れ層の後の事前トレーニングされたモデルによって計算された活性化関数から抽出可能であり、これについては、A. Vaswani et al., “Attention Is All You Need”を参照のこと。例えば、活性化関数は、トークンごとの埋め込みとして計算可能である。これらの活性化関数をプーリングして、分子(全体)ごとの埋め込みを取得することができる。このプーリングは、例えばグローバル最大プーリングまたはグローバル平均プーリングであり得る。
【0109】
図6のフローのさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図5、
図7~
図11)。
図6のフローは、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0110】
事前トレーニングされたモデルは、今や、予測されたタグ埋め込みを用いた配列生成のため(すなわち、複数の分子の埋め込みを生成するため)に使用可能である。
図7は、適切な候補のin silicoでの(すなわち、計算による)選択を伴う、新たなタグ配列(すなわち、候補分子)の自己回帰的なde novo生成のためのフローの一例のフローチャートを示す。特に、配列埋め込みの大量のde novo生成を、ゼロショット生成を介して実施することができる。
【0111】
言語モデルとしてトレーニングされた、上記(
図6、620)で概説したように事前トレーニングされた(第2の機械学習)モデルは、自己回帰的な方式でde novo配列710を作成することが可能である。このことはつまり、モデルが、1つまたは複数のトークンを用いてシード処理され、残りのトークンをループ内に1つずつ作成するということを意味する。1つのトークンを用いたシード処理は、特定の<スタート>トークンを使用して実施可能である。複数のトークンを用いたシード処理は、<スタート>トークンと、ランダムに選択された固定数のトークン(例えば、アミノ酸、ヌクレオチド)と、を用いて開始可能である。ループのそれぞれの反復において、時間ステップtにおける入力要素は、出力o(t)をもたらすことができる。次いで、出力o(t)が、次の時間ステップt+1に入力され、出力o(t+1)をもたらす。ループは、配列の最後のトークンが生成されるか、または最大長さに到達すると終了する。生成された配列を、トークン埋め込みの配列として表現することができる。これらの生成された配列から、「総タンパク質」の埋め込みを算術平均として計算することができる。タンパク質の埋め込みは、画像モデル400,410をトレーニングするため(
図4を参照のこと)に、または埋め込み空間970における比較のため(
図9を参照のこと)に、後々使用可能である。予測された配列(すなわち、分子の文字列またはトークン表現)を、タンパク質の埋め込みと共に保存および格納することができる。
【0112】
完全なアーキテクチャを使用することによる「複式簿記(double book-keeping)」は、以下のように改善可能である:テキスト生成のための大規模言語モデルは、通常、エンコーダ-デコーダのパラダイムに従っている。Transformerは、このクラスに分類される。したがって、一旦トレーニングされると、(自然言語における文と同等である)タンパク質/ポリヌクレオチド/化学化合物の埋め込み全体を用いてデコーダ部分をシード処理する(だけ)でよくなる。このことは、以下の操作を使用して実施可能である:事前トレーニングされた変換されたデコーダをロードすることができる。次いで、
図7に示されているde novo配列710から、文埋め込みベクトルを定義またはロードすることができる。次いで、文埋め込みを用いてデコーダ状態を初期化することができ、生成された文配列を初期化することができる。続いて、停止基準が満たされるまで、デコーダから次の単語の確率を取得し、確率分布から次の単語をサンプリングし、生成された配列に単語を追加し、新たに生成された単語を用いて状態を更新することによって、単語を生成することができる。単語の生成が終了した後、最終的に生成されたテキスト配列を返却することができる。
【0113】
このようにして、多数の新たな候補化合物710を生成することができ、次いで、これらを試験することができる。第一に、所望の遺伝子座730または他の所望の特性に関してin silicoで(すなわち、計算によって)候補を選択720して、(複数の分子の埋め込みから選択基準に従って複数の候補分子および対応する埋め込みを選択すること530ができ)、それらの埋め込み740を出力することができる。したがって、選択基準は、標的特性に関連することができ、特に、分子が標的特性に関する所望の品質を有することが予期されるかどうかに関連することができる。第二に、化学合成およびイメージングを使用して、in vitroで(
図1a~
図2に関連して説明したように実験的に、すなわち「試験管内で」)候補を試験することができる。
【0114】
図7のフローのさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図6、
図8~
図11)。
図7のフローは、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0115】
図8は、ファインチューニングを介して標的とするde novo生成を達成するために、分類標的または回帰標的を使用して、自己回帰的なde novo生成の前のファインチューニングを行うためのフローの一例のフローチャートを示す。生成されるタグ候補の所望の特性に関してより多くの制御を与えるために、分類800または回帰810の目標を追加することによって、(第2の機械学習)モデル620をファインチューニングすることができる。
図8の場合には、分類または回帰の目標は、複数の候補分子に関して分子を選択するために使用可能である。特定の所望の遺伝子座の場合には、トレーニング集合を作成することができ、このトレーニング集合は、既知の遺伝子座を有する配列と、適切な方式(例えば、ワンホット)で符号化された遺伝子座と、を含むか、またはこれらから構成されている。次いで、分類器ヘッドを、モデル出力に追加することができる。最も単純な場合には、これは、モデル出力を関心のあるクラスにわたる確率分布に変換するための、ソフトマックス非線形性を有するロジスティック回帰層(深層学習では、多くの場合「線形」または「全結合」と称される)であり得る。
【0116】
例えば、時空間分布D(r)の代わりに、本提案のコンセプトは、タグを最適化するための観察可能量として細胞運命Fを使用することができる。例えば、遺伝子座に加えて、予測される毒性、水もしくは疎水性媒体(リン脂質二重層など)への溶解度、量子収率(蛍光物質の場合)、または阻害剤、活性化剤、アロステリック調節剤、リガンド結合親和性、酵素活性としての結合親和性もしくは生物学的活性などの他の特性のような、1つまたは複数の追加的な目標を使用することができる。これらのさらなる目標は、予測される標的分子(タグ、ペイロード)の数を絞り込むための制約として機能することができる。多くの分子は同じ遺伝子座に局在し得るので、この追加的な制約は、評価される必要のある候補分子の空間を制限するために有益である。
【0117】
モデル800を、このトレーニング集合を用いて教師あり方式でファインチューニングした後、次いで、モデルは、(埋め込みを有する)候補分子810をde novoで作成することによって、
図7の上記のようなde novo配列を自己回帰的に作成することができ、所望の遺伝子座830に対するいくつかの候補分子を選択820する(ひいては、複数の候補分子に関して選択基準に従って、すなわち所望の遺伝子座に従って候補分子を選択する)ことができる。今や、モデルは、所望の遺伝子座を有する配列を特異的に生成することができる。
【0118】
遺伝子座のワンホット符号化の代替として、既知の遺伝子座(または他の既知の特性)を有する配列を作成し、この配列に事前トレーニングされたモデルを通過させることができる。最後の隠れ層の出力は、事前トレーニング中にモデルが学習した、例えば遺伝子座を含んでいる全ての特性を捕捉する埋め込みである。次いで、(配列;埋め込み)のペア810を使用してモデルをファインチューニングすることができ、これにより、関心のある遺伝子座を有する新たな配列を後々より選択的に生成するように、モデルにバイアスがかけられる。
【0119】
de novo生成された分子埋め込みは、以下の一般的な特性を有することができる。トレーニングされた言語モデルによって予測される分子埋め込みは、意味論的分子空間(意味論的タンパク質空間またはヌクレオチド空間または化学空間など)内のベクトルであるので、以下の特性を予期することができる。例えば、それぞれの空間内における空間的近接性は、分子特性の類似度を符号化することができる。したがって、特定の分子またはタグに対応するこの空間内の点を、視覚的なデータ検査のために教師なし方式でクラスタリングすることができる。例えば、類似した特性、例えば遺伝子座を有するタグの分子埋め込みは、類似していない特性を有するタグの分子埋め込みよりも短い距離を有することができる。したがって、距離メトリックを使用して候補のグループを識別し、既知の望ましい特性を有する分子までの距離が短い候補分子を選択することができる。簡単な算術を使用して、分子特性を互いに組み合わせてもよいし、または互いに排除してもよい。例えば、1つの分子は、2つ(またはn個)の遺伝子座に局在することができ、このことは、これら2つ(またはn個)の遺伝子座に対応する分子埋め込みのベクトルを合計することによって行われる。同様に、異なっている特性を省いてもよい。毒性のある既知の配列または分子残基が存在する場合には、この特性を抑制するために、それらの既知の配列または分子残基のそれぞれの埋め込みを、それ以外の望ましい候補から差し引くことができる。
【0120】
図8のフローのさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図7、
図9~
図11)。
図8のフローは、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0121】
図9は、潜在的な埋め込み空間内における(予測された)タグ候補のような候補分子をスコア化するためのフローの一例のフローチャートを示す。既知の特性を有する既知のタグ900のリポジトリは、これらの埋め込みを計算するために、トレーニングされた大規模言語モデル(すなわち、第2の機械学習モデル)910を順方向に通過することができる。埋め込みのこの新たなリポジトリ920は、対応する意味論的空間内の点の集合930を表す。所望の特性の部分集合を選択することができ、その中心を、例えばメドイドを使用して計算することができる。並行して、(自己回帰的に)(場合によって上記のようにファインチューニングされた)大規模言語モデルを使用して、de novoタグ候補の埋め込み950を予測940(したがって、複数の分子の埋め込みを生成520)し、de novo候補と、既知の特性のクラスターと、の間の距離を計算することにより930,970、所望の特性を有する候補(候補分子)の部分集合960を識別(したがって、複数の分子の埋め込みから選択基準に従って複数の候補分子および対応する埋め込みを選択530)することができる。距離メトリックは、ドット積、コサイン類似度、ベクトルノルム等を含み得る。
【0122】
上記のことが機能するための考えられる前提条件は、埋め込み空間が連続的である(類似する特性を有する分子が、近接した潜在的なベクトルに対応する)ことである。連続性は、このように設計されたBPE(バイト対符号化)およびWordPieceのような方法を使用して語彙をトークン化することによって助長される。また、連続性は、出力に線形(密)層を通過させることによって(分類のための)学習コンテキストを促進するマスクされた言語モデリングと、予測を確率分布として扱うソフトマックス非線形性と、によっても助長される。
【0123】
本提案のコンセプトの1つの態様は、候補タグを予測するためだけではなく、標本中での候補タグの分布がどのように見えるようになるかを予測するためのメカニズムである。現在、例えば細胞内局在性に関して手作業で厳選されるカテゴリは、標本[1]中でのタグの時空間分布D(r)のニュアンスを完全に捕捉するためには粗過ぎる可能性があるという証拠が増えてきている。(これについては、H. Kobayashi, K. C. Cheveralls, M. D. Leonetti, and L. A. Royer, “Self-Supervised Deep-Learning Encodes High-Resolution Features of Protein Subcellular Localization.” bioRxiv, p. 2021.03.29.437595, Mar. 29, 2021. doi: 10.1101/2021.03.29.437595を参照のこと)。本提案のコンセプトを使用して、予期される分布を予測し、次いで、予期されたものを、観察されたものD(r)と比較することにより、顕微鏡法を使用して試験することができる。したがって、手作業で厳選される標識は、これらが結果を視覚化および解釈するために役立つ可能性があるとしても、明示的には必要ない。
【0124】
図9のフローのさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図8、
図10~
図11)。
図9のフローは、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0125】
図10は、上記の方法のうちの少なくとも1つを実施するために適したシステムの一例を示す。
図10は、システム1010の一例と、システム1010およびイメージング装置1020(例えば、実験室顕微鏡のような顕微鏡)を含んでいるイメージングシステム1000の一例と、の概略図を示す。システム1010は、1つまたは複数のプロセッサ1014と、1つまたは複数のストレージ装置1016と、を含む。オプションとして、システム1010は、1つまたは複数のインターフェース1012をさらに含む。1つまたは複数のプロセッサ1014は、1つまたは複数のストレージ装置1016と、1つまたは複数のインターフェース1012と、に結合されている。概して、システム1010の機能は、(イメージング装置1020の1つまたは複数の光学イメージングセンサ、別のシステム(例えば、クラウドベースのシステム)、またはイメージングシステムのディスプレイ装置のような、イメージングシステムのおよびイメージングシステムの外部の1つまたは複数の他の構成要素とデータ/情報を交換するための)1つまたは複数のインターフェース1012と、(1つまたは複数のプロセッサによって実行されるコンピュータプログラムの機械可読命令のような情報を格納するための)1つまたは複数のストレージ装置1016と連携して、1つまたは複数のプロセッサ1014によって提供可能である。概して、1つまたは複数のプロセッサ1014の機能は、機械可読命令を実行する1つまたは複数のプロセッサ1014によって実装可能である。したがって、1つまたは複数のプロセッサ1014に帰属する任意の特徴を、複数の機械可読命令のうちの1つまたは複数の命令によって定義することができる。システム1010は、例えば1つまたは複数のストレージ装置1016の内部に、機械可読命令を含み得る。
【0126】
このようなシステムは、種々異なるタスクを実施するために使用可能である。例えば、本システムは、
図1aおよび/または
図1bに関連して示された方法を実施するように構成可能である。択一的または追加的に、本システムは、
図3に関連して示された方法を実施するように構成可能である。択一的または追加的に、本システムは、
図5に関連して示された方法を実施するように構成可能である。
【0127】
種々異なる例では、システム1010は、イメージングシステムの光学イメージング装置1020と共に使用される。特に、システム1010は、実験室顕微鏡であってよい光学イメージング装置1020と同一場所に配置されてよい。択一的に、システム1010は、サーバ(例えば、クラウドノード)の一部であってもよく、コンピュータネットワークを介して(例えば、インターネットを介して)光学イメージング装置1020に結合されてもよい。概して、光学イメージング装置は、処理される画像の集合を生成するように構成可能である。明らかなことだが、本システムによって上記の方法のどの態様が実施されるかに応じて、本システムを異なるように実装してよい。例えば、本システムは、サーバ、クラウドコンピューティングノードおよびワークステーションコンピュータのうちの1つであり得る。
【0128】
システム1010の1つまたは複数のインターフェース1012は、指定されたコードに即したデジタル(ビット)値であってよい情報を、モジュール内、モジュール間、または種々異なるエンティティのモジュール間で受信および/または送信するための1つまたは複数の入力および/または出力に対応することができる。例えば、1つまたは複数のインターフェース1012は、情報を受信および/または送信するように構成されたインターフェース回路を含み得る。システム1010の1つまたは複数のプロセッサ1014は、1つまたは複数の処理ユニットを使用して、1つまたは複数の処理装置を使用して、相応に適合されたソフトウェアと共に動作可能であるプロセッサ、コンピュータ、またはプログラマブルハードウェア構成要素のような任意の処理手段を使用して実装可能である。換言すれば、1つまたは複数のプロセッサ1014の上記の機能は、ソフトウェアにおいても実装可能であり、その場合、このソフトウェアは、1つまたは複数のプログラマブルハードウェア構成要素上で実行される。そのようなハードウェア構成要素は、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、マイクロコントローラ等を含み得る。システム1010の1つまたは複数のストレージ装置1016は、磁気ストレージ媒体または光学ストレージ媒体、例えばハードディスクドライブ、フラッシュメモリ、フロッピーディスク、ランダムアクセスメモリ(RAM)、プログラマブル読み出し専用メモリ(PROM)、消去可能プログラマブル読み出し専用メモリ(EPROM)、電子消去可能プログラマブル読み出し専用メモリ(EEPROM)、またはネットワークストレージのような、コンピュータ可読ストレージ媒体のグループのうちの少なくとも1つの要素を含み得る。
【0129】
図10のシステムのさらなる詳細および態様は、本提案のコンセプトに関連して、または前述または後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図9、
図11)。
図11のシステムは、本提案のコンセプトの1つまたは複数の態様に対応する、または前述または後述の1つまたは複数の例に対応する1つまたは複数の追加的なオプションの特徴を含み得る。
【0130】
本明細書で使用されるように、用語「および/または(かつ/または)」は、関連する記載項目のうちの1つまたは複数の項目のあらゆる全ての組み合わせを含んでおり、「/」として略記されることがある。
【0131】
いくつかの態様を装置の文脈において説明してきたが、これらの態様が、対応する方法の説明も表していることが明らかであり、ここではブロックまたは装置がステップまたはステップの特徴に対応している。同様に、ステップの文脈において説明された態様は、対応する装置の対応するブロックまたは項目または特徴の説明も表している。
【0132】
実施形態は、機械学習モデルまたは機械学習アルゴリズムの使用に基づいていてもよい。
【0133】
上記の例では、機械学習モデルと第2の機械学習モデルとのトレーニングを、「教師あり学習」トレーニング技術に従って説明した。
【0134】
教師あり学習または半教師あり学習の他に、機械学習モデルをトレーニングするために教師なし学習が使用されてもよい。教師なし学習では、入力データ(だけ)が供給される可能性があり、教師なし学習アルゴリズムは、(例えば、入力データをグループ化またはクラスタリングすること、データに共通性を見出すことによって)入力データにおいて構造を見出すために使用されてもよい。クラスタリングは、複数の入力値を含んでいる入力データを複数のサブセット(クラスター)に割り当てることであるので、同じクラスター内の入力値は1つまたは複数の(事前に定められた)類似度判断基準に従って類似しているが、別のクラスターに含まれている入力値と類似していない。
【0135】
強化学習は機械学習アルゴリズムの第3のグループである。換言すれば、強化学習は機械学習モデルをトレーニングするために使用されてもよい。強化学習では、1つまたは複数のソフトウェアアクター(「ソフトウェアエージェント」と称される)が、周囲において行動を取るようにトレーニングされる。取られた行動に基づいて、報酬が計算される。強化学習は、(報酬の増加によって明らかにされるように)累積報酬が増加し、与えられたタスクでより良くなるソフトウェアエージェントが得られるように行動を選択するように、1つまたは複数のソフトウェアエージェントをトレーニングすることに基づいている。
【0136】
さらに、いくつかの技術が、機械学習アルゴリズムの一部に適用されてもよい。例えば、特徴表現学習が使用されてもよい。換言すれば、機械学習モデルは、少なくとも部分的に特徴表現学習を用いてトレーニングされてもよい、かつ/または機械学習アルゴリズムは、特徴表現学習構成要素を含んでいてもよい。表現学習アルゴリズムと称され得る特徴表現学習アルゴリズムは、自身の入力に情報を保存するだけでなく、多くの場合、分類または予測を実行する前の前処理ステップとして、有用にするように情報の変換も行ってもよい。特徴表現学習は、例えば、主成分分析またはクラスター分析に基づいていてもよい。
【0137】
いくつかの例では、異常検知(すなわち、外れ値検知)が使用されてもよく、これは、入力またはトレーニングデータの大部分と著しく異なることによって疑念を引き起こしている入力値の識別を提供することを目的としている。換言すれば、機械学習モデルは、少なくとも部分的に異常検知を用いてトレーニングされてもよく、かつ/または機械学習アルゴリズムは、異常検知構成要素を含んでいてもよい。
【0138】
いくつかの例では、機械学習アルゴリズムは、予測モデルとして決定木を使用してもよい。換言すれば、機械学習モデルは、決定木に基づいていてもよい。決定木において、項目(例えば、入力値のセット)に関する観察は、決定木のブランチによって表されてもよく、この項目に対応する出力値は、決定木のリーフによって表されてもよい。決定木は、出力値として離散値と連続値の両方をサポートしてもよい。離散値が使用される場合、決定木は、分類木として表されてもよく、連続値が使用される場合、決定木は、回帰木として表されてもよい。
【0139】
相関ルールは、機械学習アルゴリズムにおいて使用され得る別の技術である。換言すれば、機械学習モデルは、1つまたは複数の相関ルールに基づいていてもよい。相関ルールは、大量のデータにおける変数間の関係を識別することによって作成される。機械学習アルゴリズムは、データから導出された知識を表す1つまたは複数の相関的なルールを識別してもよい、かつ/または利用してもよい。これらのルールは、例えば、知識を格納する、操作するまたは適用するために使用されてもよい。
【0140】
機械学習アルゴリズムは通常、機械学習モデルに基づいている。換言すれば、用語「機械学習アルゴリズム」は、機械学習モデルを作成する、トレーニングするまたは使用するために使用され得る命令のセットを表していてもよい。用語「機械学習モデル」は、(例えば、機械学習アルゴリズムによって実行されるトレーニングに基づいて)学習した知識を表すデータ構造および/またはルールのセットを表していてもよい。実施形態では、機械学習アルゴリズムの用法は、基礎となる1つの機械学習モデル(または基礎となる複数の機械学習モデル)の用法を意味していてもよい。機械学習モデルの用法は、機械学習モデルおよび/または機械学習モデルであるデータ構造/ルールのセットが機械学習アルゴリズムによってトレーニングされることを意味していてもよい。
【0141】
例えば、機械学習モデルは、人工ニューラルネットワーク(ANN)であってもよい。ANNは、網膜または脳において見出されるような、生物学的ニューラルネットワークによって影響を与えられるシステムである。ANNは、相互接続された複数のノードと、ノード間の、複数の接合部分、いわゆるエッジを含んでいる。通常、3種類のノードが存在しており、すなわち入力値を受け取る入力ノード、他のノードに接続されている(だけの)隠れノードおよび出力値を提供する出力ノードが存在している。各ノードは、人工ニューロンを表していてもよい。各エッジは、1つのノードから別のノードに、情報を伝達してもよい。ノードの出力は、その入力(例えば、その入力の和)の(非線形)関数として定義されてもよい。ノードの入力は、入力を提供するエッジまたはノードの「重み」に基づく関数において使用されてもよい。ノードおよび/またはエッジの重みは、学習過程において調整されてもよい。換言すれば、人工ニューラルネットワークのトレーニングは、与えられた入力に対して所望の出力を得るために、人工ニューラルネットワークのノードおよび/またはエッジの重みを調整することを含んでいてもよい。
【0142】
択一的に、機械学習モデルは、サポートベクターマシン、ランダムフォレストモデルまたは勾配ブースティングモデルであってもよい。サポートベクターマシン(すなわち、サポートベクターネットワーク)は、(例えば、分類または回帰分析において)データを分析するために使用され得る、関連する学習アルゴリズムを伴う、教師あり学習モデルである。サポートベクターマシンは、2つのカテゴリのいずれかに属する複数のトレーニング入力値を伴う入力を提供することによってトレーニングされてもよい。サポートベクターマシンは、2つのカテゴリのいずれかに新しい入力値を割り当てるようにトレーニングされてもよい。択一的に、機械学習モデルは、確率有向非巡回グラフィカルモデルであるベイジアンネットワークであってもよい。ベイジアンネットワークは、有向非巡回グラフを用いて、確率変数とその条件付き依存性のセットを表していてもよい。択一的に、機械学習モデルは、検索アルゴリズムと自然淘汰の過程を模倣した発見的方法である遺伝的アルゴリズムに基づいていてもよい。
【符号の説明】
【0143】
110 複数の候補分子の埋め込みを取得する
120 1つまたは複数のイメージングパラメータを決定する
130 サンプル調製に関する1つまたは複数のパラメータを決定する
140 1つまたは複数の画像を取得する
150 1つまたは複数の画像を前処理する
160 予測される埋め込みを生成するために、1つまたは複数の画像または1つまたは複数の画像から導出された情報を処理する
170 埋め込みを予測される埋め込みと比較する
180 1つまたは複数の候補分子を選択する
200 事前トレーニングされた大規模言語モデル
210 タグ候補
215 意味論的埋め込み
220 化学合成
230 サンプル調製
240 データ記録
250 画像
260 トレーニングされた画像認識モデル
270 予測された/可能性のあるタグ埋め込み
280 比較
290 ファインチューニング
310 トレーニングデータの集合を取得する
312~314 トレーニングデータの一部を生成する
320 機械学習モデルをトレーニングする
400 コーパスをトレーニングする
410 画像認識機械学習モデル
420 埋め込み
430 損失勾配
510 第2の機械学習モデルをトレーニングする
520 複数の分子の埋め込みを生成する
530 複数の候補分子を選択する
600 データの大規模コーパス
610 トークン化
620 トレーニングされた大規模言語モデル
630 潜在的なベクトル/埋め込み
710 de novo作成された配列
720 候補を選択する
730 所望の遺伝子座
740 埋め込み
800 分類目標を用いてトレーニングする
810 回帰目標を用いてトレーニングする
820 候補を選択する
830 所望の遺伝子座
900 既知の特性を有するタグ
910 大規模言語モデル
920 埋め込みのリポジトリ
930 意味論的空間内の点の集合
940 埋め込みを予測する
950 予測される埋め込み
960 所望の特性を有する候補の部分集合
970 距離
1000 イメージングシステム
1010 システム
1012 インターフェース
1014 プロセッサ
1016 ストレージ装置
1020 光学イメージング装置/顕微鏡
1100 システム
1110 顕微鏡
1120 コンピュータシステム
【外国語明細書】