(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024113681
(43)【公開日】2024-08-22
(54)【発明の名称】第1および第2の機械学習モデルを調整するための、および画像セットを処理するための方法、システムおよびコンピュータプログラムならびに撮像システム
(51)【国際特許分類】
G06N 3/045 20230101AFI20240815BHJP
G06N 20/00 20190101ALI20240815BHJP
【FI】
G06N3/045
G06N20/00
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024017918
(22)【出願日】2024-02-08
(31)【優先権主張番号】23155841
(32)【優先日】2023-02-09
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】511079735
【氏名又は名称】ライカ マイクロシステムズ シーエムエス ゲゼルシャフト ミット ベシュレンクテル ハフツング
【氏名又は名称原語表記】Leica Microsystems CMS GmbH
【住所又は居所原語表記】Ernst-Leitz-Strasse 17-37, D-35578 Wetzlar, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ルチアノ アンドレ ゲレーロ ルーカス
(72)【発明者】
【氏名】コンスタンティン カッペル
(57)【要約】 (修正有)
【課題】生物学的プロセスの観察に使用される撮像システムの画像分析ワークフローの構成を改善する。
【解決手段】方法は、生物学的プロセスを表す画像230セットを、画像分析ワークフロー260を実行または画像分析ワークフローをパラメータ化するためのパラメータ250を生成するようにトレーニングされる第1の機械学習モデル240に入力するステップと、画像分析ワークフローの出力270を、生物学的プロセスを使用して評価される仮説290の予測を出力するようにトレーニングされる第2の機械学習モデル280に入力するステップと、生物学的プロセスを使用して評価される仮説の予測と、生物学的プロセスを使用して評価される実際の仮説と、の間の差分に基づいて、損失関数が基準を満たすまで、かつ/または損失関数の結果に基づいて、第1および/または第2の機械学習モデルをフィードバック経路295によって調整するステップと、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
第1の機械学習モデルおよび第2の機械学習モデルを調整するための方法であって、前記方法は、
生物学的プロセスを表す画像セット(230)を前記第1の機械学習モデル(240)に入力するステップ(110)であって、前記第1の機械学習モデルは、画像分析ワークフローを実行するように、または画像分析ワークフロー(260)をパラメータ化するためのパラメータ(250)を生成するようにトレーニングされるステップと、
前記画像分析ワークフローの出力(270)を前記第2の機械学習モデル(280)に入力するステップ(140)であって、前記第2の機械学習モデルは、前記生物学的プロセスを使用して評価される仮説の予測(290)を出力するようにトレーニングされるステップと、
前記生物学的プロセスを使用して評価される仮説の予測と、前記生物学的プロセスを使用して評価される実際の仮説(130)と、の間の差分に基づいて損失関数を計算するステップ(160)と、
前記損失関数の結果に基づいて、前記第1の機械学習モデルおよび/または前記第2の機械学習モデルを調整するステップ(170)と、
を含む方法。
【請求項2】
前記第1の機械学習モデルおよび/または前記第2の機械学習モデルは、前記仮説の予測が一致基準に従って前記実際の仮説と一致するまで調整される、
請求項1記載の方法。
【請求項3】
前記方法は、前記第1の機械学習モデルおよび/または前記第2の機械学習モデルをトレーニングするために、トレーニング入力画像としての複数の画像セットと、前記第2の機械学習モデルによって予測された前記仮説との比較のための複数の対応する実際の仮説と、を使用して、複数の反復にわたって実行される、
請求項1または2記載の方法。
【請求項4】
前記第1の機械学習モデルおよび前記第2の機械学習モデルは、エンドツーエンド方式で一緒に調整および/またはトレーニングされる、
請求項1から3までのいずれか1項記載の方法。
【請求項5】
前記第1の機械学習モデルおよび前記第2の機械学習モデルは、現場で調整される事前トレーニングされた機械学習モデルである、
請求項1,2または4記載の方法。
【請求項6】
前記第1の機械学習モデルは、前記画像分析ワークフローをパラメータ化するためのパラメータ(250)を生成するようにトレーニングされ、前記方法は、前記画像分析ワークフローを使用して前記画像セットを処理するステップ(120)を含み、前記画像分析ワークフローは、前記第1の機械学習モデルの出力に基づいてパラメータ化される、
請求項1から5までのいずれか1項記載の方法。
【請求項7】
前記第1の機械学習モデルは、画像分析ワークフローのために、1つまたは複数の画像処理ステップの使用、1つまたは複数の画像処理ステップの1つまたは複数の数値パラメータ、および、1つまたは複数の画像処理ステップの1つまたは複数のカテゴリーパラメータのうちの少なくとも1つを選択するようにトレーニングされている、
請求項6記載の方法。
【請求項8】
前記画像セットまたは前記画像セットの処理されたバージョンは、前記第2の機械学習モデルへのさらなる入力として使用される、
請求項1から7までのいずれか1項記載の方法。
【請求項9】
前記第2の機械学習モデルは、前記仮説の予測の形式的な表現と実際の仮説の形式的な表現との間の比較に基づいて計算される損失関数を用いて、前記仮説の予測の形式的な表現を出力するようにトレーニングされる、
請求項1から8までのいずれか1項記載の方法。
【請求項10】
前記方法は、実際の仮説の形式的な表現を生成するためにユーザー入力(300;350;360)を処理するステップ(150)を含み、前記ユーザー入力は、音声テキストと構造化されていない記述テキストとのうちの一方を含み、前記方法は、自然言語処理を使用して前記ユーザー入力を処理するステップ(310;330)を含み、あるいは、前記ユーザー入力は、構造化された入力を含む、
請求項9記載の方法。
【請求項11】
前記各形式的な表現は、2つの実体間の関係、条件に依存する2つの実体間の関係、条件に依存する細胞運命、条件に依存する細胞種類の分布、条件に依存する2次元または3次元の幾何形状および条件に依存する非数値実体の実体分布のうちの少なくとも1つを表す、
請求項9または10記載の方法。
【請求項12】
生物学的プロセスを表す画像セットを処理するための方法であって、前記方法は、
前記生物学的プロセスを表す前記画像セットを機械学習モデルに入力するステップ(410)であって、前記機械学習モデルは、請求項1から11までのいずれか1項記載の方法に従って、画像分析ワークフローを実行するように、または画像分析ワークフローをパラメータ化するためのパラメータを生成するようトレーニングされるステップと、
前記画像分析ワークフローを使用して前記画像セットを処理するステップ(420)と、
前記画像分析ワークフローの出力を提供するステップ(430)と、
を含む方法。
【請求項13】
1つまたは複数のプロセッサ(514)と、1つまたは複数のストレージデバイス(516)と、を含むシステム(510)であって、請求項1から11までのいずれか1項記載の方法および/または請求項12記載の方法を実行するように構成されている、
システム(510)。
【請求項14】
請求項13記載のシステム(510)と、科学的撮像装置(520)と、を含む撮像システム(500)であって、前記科学的撮像装置は、画像セットを生成するように構成されている、
撮像システム(500)。
【請求項15】
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサ上で実行されるときに、請求項1から11までのいずれか1項記載の方法または請求項12記載の方法を実行するためのプログラムコードを備えている、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
複数の例は、第1および第2の機械学習モデルを調整するための方法、システムおよびコンピュータプログラムに関し、画像セットを処理するための方法、システムおよびコンピュータプログラム、撮像システムに関し、さらに撮像システムに関している。
【背景技術】
【0002】
生物医学研究では、生物学的プロセスは、顕微鏡などの撮像システムを使用して監視される。多くの研究手法では、このような生物学的プロセスが長期にわたって観察され、これらの観察を使用してそれらがそれぞれの仮説と一致するかどうかを結論付けることで仮説が検証される。一般に、この生物学的プロセスの監視は、生物学的プロセスを示す画像データのさまざまな態様を分析するために使用される画像分析ワークフローの支援を用いた観察を評価することによって、改善することができ、またある程度までは自動化が可能である。しかしながら、そのような画像分析ワークフローを設計することには、各撮像システムの操作者に相当量のスキルが求められる場合がある。
【0003】
それらは、生物学的プロセスの観察に使用される撮像システムの画像分析ワークフローを構成するための改善された構想が提供されるための要望になり得よう。
【発明の概要】
【課題を解決するための手段】
【0004】
この要望は、独立請求項の保護対象によって対処される。
【0005】
本開示のさまざまな例は、確認すべき仮説が既知である場合、仮説の検証に必要な情報を提供できるようにするために、機械学習を、画像分析ワークフローの調整のために使用することができるという知見に基づいている。この目的のために、2つの機械学習モデル、すなわち、画像分析ワークフローを構成する(または画像分析ワークフローを実装する)ための第1の機械学習モデルと、検証される仮説を予測するための第2の機械学習モデルと、が一緒にトレーニングされる。第1および第2の機械学習モデルをエンドツーエンドでトレーニングすることにより、第1の機械学習モデルの出力は、仮説の予測に適し、したがって仮説の評価にも適した画像分析ワークフローに向かって集約される。したがって、画像分析ワークフローは、操作者による手動調整を必要とすることなく構成または実装することができ、これは特に経験の浅い操作者にとってプロセスを容易にさせる。
【0006】
本開示のいくつかの態様は、第1および第2の機械学習モデルを調整するための方法に関する。本方法は、生物学的プロセスを表す画像セットを第1の機械学習モデルに入力するステップを含む。この第1の機械学習モデルは、画像分析ワークフローを実行するように、または画像分析ワークフローをパラメータ化するためのパラメータを生成するようにトレーニングされる。本方法は、画像分析ワークフローの出力を第2の機械学習モデルに入力するステップを含む。この第2の機械学習モデルは、生物学的プロセスを使用して評価される仮説の予測を出力するようにトレーニングされる。本方法は、生物学的プロセスを使用して評価される仮説の予測と、生物学的プロセスを使用して評価される実際の仮説と、の間の差分に基づいて損失関数を計算するステップを含む。本方法は、損失関数の結果に基づいて、第1および/または第2の機械学習モデルを調整するステップを含む。上記で概説したように、結果として生じる画像分析ワークフローは、操作者による手動調整を必要とすることなく仮説の予測に適した画像分析ワークフローに向かって集約され、これは特に経験の浅い操作者にとってプロセスを容易にさせる。
【0007】
さまざまな例では、提案された手順の目的は、仮説を確認または反証するのに適した画像分析パイプラインの構成または実装を識別することである。したがって、第2の機械学習モデルによる予測仮説が、確認されるべき実際の仮説と一致するまで、第1および/または第2の機械学習モデルの調整を継続することができる。換言すれば、第1および/または第2の機械学習モデルは、仮説の予測が一致基準に従って実際の仮説と一致するまで調整されてよい。
【0008】
提案されたスキームは、任意の画像セットおよび対応する仮説にゼロから適用することができるが、集約は、機械学習モデルを最初にトレーニング段階でトレーニングし、次いで、適用段階で微調整を実行するだけでスピードアップする場合がある。いくつかの例では、本方法は、第1および/または第2の機械学習モデルをトレーニングするために、トレーニング入力画像としての複数の画像セットと、第2の機械学習モデルによる予測仮説との比較のための複数の対応する実際の仮説と、を使用して、複数の反復にわたって実行されてよい。これは、異なる画像セットおよび仮説に広く適用可能な機械学習モデルを取得するためにトレーニング段階で行うことができる。適用段階では、調整は、画像分析ワークフローが確立される画像セットおよび仮説ではあるが継続されてよい。
【0009】
提案された方法の一部である機械学習モデルのトレーニングに対する代替として、機械学習モデルのトレーニングは、例えば、提案された方法が適用されるべき撮像システムの製造業者などの異なる実体によって先験的に実行されてよい。例えば、第1および第2の機械学習モデルは、現場で調整される事前トレーニングされた機械学習モデルであってよい。
【0010】
提案された構想は、第1の機械学習モデル、第2の機械学習モデルおよび第1の機械学習モデルによってまだ実装されていない場合には画像分析ワークフローを含むパイプライン全体に機械学習、例えば教師あり学習を適用することによって機能する。トレーニング中、損失関数(または報酬関数)は、パイプラインの出力と実際の仮説との間の差分に基づいている。第1の機械学習モデルの出力を評価するための別個のやり方は存在しないので、両方の機械学習モデルは、エンドツーエンド手法で一緒にトレーニングされてよい。換言すれば、第1および第2の機械学習モデルは、エンドツーエンド方式で一緒に調整および/またはトレーニングされてよい。
【0011】
上記で概説したように、第1の機械学習モデルを実装するための2つの広範な実装カテゴリが存在する。第1の実装カテゴリでは、第1の機械学習モデルは、別個の画像分析ワークフローをパラメータ化するために使用されるが、第2の実装カテゴリでは、第1の機械学習モデルは、画像分析ワークフローを含む。第1の実装カテゴリでは、第1の機械学習モデルは、画像分析ワークフローをパラメータ化するためのパラメータを生成するようにトレーニングされてよい。このケースでは、本方法は、画像分析ワークフローを使用して画像セットを処理するステップを含む。その上さらに、画像分析ワークフローは、第1の機械学習モデルの出力に基づいてパラメータ化される。
【0012】
本明細書では、画像分析ワークフローのパラメータ化は、(必ずしも)画像処理/分析ステップの固定されたセットに対するパラメータの生成に限定されるものではない。また、選択された画像処理/分析ステップをパラメータ化するために使用されるパラメータに対して付加的に、使用される画像処理/分析ステップを選択することを意味する場合もある。例えば、第1の機械学習モデルは、画像分析ワークフローのために、1つまたは複数の画像処理ステップの使用、1つまたは複数の画像処理ステップの1つまたは複数の数値パラメータ、および1つまたは複数の画像処理ステップの1つまたは複数のカテゴリーパラメータのうちの少なくとも1つを選択するようにトレーニングされてよい。特に、画像分析ワークフローは、1つまたは複数の決定論的画像処理ステップおよび1つまたは複数の機械学習ベースの画像処理ステップのうちの少なくとも1つを含むことができる。これらの画像処理ステップは、第1の機械学習モデルによって選択および/またはパラメータ化されてよい。
【0013】
機械学習モデルの調整/トレーニング中、第2の機械学習モデルの出力は、損失関数を計算するために使用されるが、パイプラインの適用中、画像分析ワークフローの出力は、仮説の手動のもしくは自動化された評価を可能にするために所望の出力であってよい。したがって、本方法は、画像分析ワークフローの出力を提供するステップを含むことができる。
【0014】
いくつかの例では、第2の機械学習モデルが(画像を含まない可能性もある)画像分析ワークフローの出力を受信するだけでなく、画像(またはそれらの処理されたバージョン)も受信する場合、第2の機械学習モデルの性能にとって有用となる場合がある。例えば、画像セットまたは画像セットの処理されたバージョンは、第2の機械学習モデルへのさらなる入力として使用されてよい。これは、機械学習モデルのトレーニングおよび/または調整中の機械学習モデルの集約を加速させることができる。
【0015】
名前が示唆するように、生物学的プロセスは、何らかの変換(すなわち展開)を含む。そのような生物学的プロセスが撮像システムを使用して監視される場合、この変換は、生物学的プロセスを記録する画像からも識別可能である。したがって、画像セットは、長期にわたる生物学的プロセスの展開を示す画像シーケンスを含むことができる。
【0016】
機械学習は、(主に)自動化されたプロセスであり、これは、調整/トレーニング中に機械学習モデルに適用される変換の品質を表す損失関数(または報酬関数)の決定に基づいている。本ケースでは、そのような損失関数が計算できるようにするために、それぞれの仮説が形式的な表現でコード化されてよく、それにより、2つの仮説は、損失関数の計算のために比較することができる。例えば、第2の機械学習モデルは、仮説の予測の形式的な表現を出力するようにトレーニングされてよい。損失関数は、仮説の予測の形式的な表現と実際の仮説の形式的な表現との間の比較に基づいて計算されてよい。形式的な表現は、損失関数の自動化された計算を可能にし、あるいは容易にすることができる。
【0017】
トレーニング中、使用される仮説は、複数の画像セットを含むトレーニングコーパスから取られてよい。しかしながら、そのようなコーパスを準備するために、または提案された構想を画像および仮説の新たなセットに適用する間、仮説は、ユーザー入力から導出されてよい。例えば、本方法は、実際の仮説の形式的な表現を生成するためにユーザー入力を処理するステップを含むことができる。例えば、これは、画像分析ワークフローを構成するためのウィザードの一部であってよく、これは、撮像装置(顕微鏡など)を使用して画像セットを取得し、仮説を入力することによって開始することができる。
【0018】
形式的な表現の仕様は、高度に複雑なタスクである。しかしながら、形式的な表現の構造化された特性は、テンプレートの空白を充填することによって効率的に充填できるテンプレートを定義する。これは、ユーザー入力の空白の内容を認識することによって行うことができる。例えば、ユーザー入力は、音声テキストと、構造化されていない記述テキストと、のうちの1つを含むことができる。本方法は、自然言語処理を使用してユーザー入力を処理するステップを含むことができる。これは、仮説の入力を大幅に容易にすることができる。代替的に、ユーザー入力は、構造化された入力を含むこともできる。
【0019】
以下では、そのような仮説の形式的な表現の例示的な実装についての詳細が挙げられる。以下では、仮説のテンプレートを示す。例えば、各形式的な表現は、2つの実体間の関係、条件に依存する2つの実体間の関係、条件に依存する細胞運命、条件に依存する細胞種類の分布、条件に依存する2次元または3次元の幾何形状、および条件に依存する非数値実体の実体分布のうちの少なくとも1つを表すことができる。例えば、2つの実体間の関係を表す形式的な表現のケースでは、テンプレートにおける「空白」には、関係のタイプ、第1の実体および第2の実体を含めることができる。例えば、細胞運命を表す形式的な表現が条件に依存するケースでは、テンプレートにおける「空白」には細胞運命および条件などを含めることができる。
【0020】
以下では、「実体」、「関係」および「条件」についての例を挙げる。例えば、実体は、化学物質、タンパク質、ヌクレオチド、炭水化物、脂質、薬物および疾患の種類であってよい。例えば、関係は、第2の実体の活性化因子として作用する第1の実体、第2の実体の阻害因子として作用する第1の実体、第2の実体の拮抗因子として作用する第1の実体、第2の実体の上方制御因子として作用する第1の実体、第2の実体の下方制御因子として作用する第1の実体、第2の実体の基質として作用する第1の実体、第2の実体の生成物である第1の実体のうちの1つを含むことができる。付加的または代替的に、関係は、化学物質-タンパク質関係、薬物-薬物相互作用および遺伝子-疾患相互作用、ならびに参加者-介入者-比較者-出力関係のうちの1つであってよい。例えば、条件は、摂動物質濃度条件、培養条件、共培養条件、細胞組成条件および近接条件のうちの1つであってよい。テンプレート、実体、関係および条件の適切なリストを定義することにより、それぞれの仮説は、例えば自然言語処理を使用して、特に名前付き実体認識を使用して容易に構築されてよい。
【0021】
いくつかの例では、機械学習モデルのトレーニングおよび/または調整は、1つのシステムによって実行されてよいが、結果として生じる画像処理ワークフローは、別のシステムで使用される。本開示のいくつかの態様は、生物学的プロセスを表す画像セットを処理するための方法に関する。本方法は、生物学的プロセスを表す画像セットを機械学習モデルに入力するステップを含む。機械学習モデルは、上記の方法に従って、画像分析ワークフローを実行するように、または画像分析ワークフローをパラメータ化するためのパラメータを生成するようにトレーニングされる。本方法は、画像分析ワークフローを使用して画像セットを処理するステップを含む。本方法は、画像分析ワークフローの出力を提供するステップを含む。
【0022】
上記で概説したように、いくつかのケースでは、画像処理ワークフローの出力が、仮説を評価するために(直接的に)使用される。いくつかの例では、処理ワークフローの出力に対して付加的に、または代替的に、第2の機械学習モデルの出力(すなわち、予測仮説)が、画像処理ワークフローの評価の一部として使用されてよい。例えば、本方法は、画像分析ワークフローの出力を第2の機械学習モデルに入力するステップを含むことができ、第2の機械学習モデルは、生物学的プロセスを使用して評価される仮説の予測を出力するようにトレーニングされる。本方法は、生物学的プロセスを使用して評価される仮説の予測を提供するステップを含むことができる。
【0023】
本開示の別の態様は、1つまたは複数のプロセッサと1つまたは複数のストレージデバイスとを含むシステムに関する。本システムは、上記の方法のうちの少なくとも1つを実行するように構成されている。一般に、そのようなシステムは、異なる場所に配置されてよく、すなわち、提案された構想のトレーニングおよび用途は、異なる場所において実行されてよい。例えば、システムは、サーバー、クラウドコンピューティングノード、ワークステーションコンピュータおよび組み込まれたデバイスのうちの1つであってよい。
【0024】
本開示の1つの態様は、コンピュータプログラムがプロセッサ上で実行されてよいときに、上記方法の1つに従って、本方法を実行するためのプログラムコードを有するコンピュータプログラムに関する。
【0025】
本開示の別の態様は、上記のシステムと顕微鏡などの科学的撮像装置とを含む撮像システムに関する。例えば、科学的撮像装置は、画像セットを生成するように構成されている。例えば、システムは、科学的撮像装置と同位置に配置されてよい。換言すれば、提案された構想は、科学的撮像装置において局所的に適用されてよい。
【0026】
以下では、装置および/または方法のいくつかの例を、単なる例として添付の図面を参照して説明する。
【図面の簡単な説明】
【0027】
【
図1a】第1および第2の機械学習モデルを調整するための方法の例のフローチャートである。
【
図1b】第1および第2の機械学習モデルを調整するための方法の例のフローチャートである。
【
図2】仮説予測パイプラインをトレーニングするためのフローの一例を示す概略図である。
【
図3】ユーザーからの仮説の入力を取得するためのフローの一例を示す概略図である。
【
図4】生物学的プロセスを表す画像セットを処理するための方法の一例を示すフローチャートである。
【
図5】システムの一例ならびにシステムおよび科学的撮像装置を含む撮像システムの一例を示す概略図である。
【
図6】撮像装置およびコンピュータシステムを含むシステムの一例を示す概略図である。
【発明を実施するための形態】
【0028】
次に、いくつかの例が示されている添付の図面を参照して、さまざまな例をより完全に説明する。図中、線の太さ、層の厚さおよび/または領域の大きさは、見易くするために誇張されている場合がある。
【0029】
本開示のさまざまな例は、ユーザー入力に基づいて、例えば、科学的仮説のユーザー入力に基づいて、適切な画像分析ワークフローを選択するための構想(例えば、方法)に関している。
【0030】
本開示は、生物医学的撮像に関し、特に、ユーザーが定義した仮説を支持する情報を予測するように改善または最適化された画像分析ワークフローを自動的に選択し、構成するシステムに関する。以下では、変換が行われ、そこから情報が抽出された生物医学的画像によって解答できる仮説をどのように定式化することができるかについて、また、画像分析と機械学習とを用いて画像から情報へのマッピングならびに情報から仮説へのマッピングをどのように見出すかについて論じる。例えば、本構想は、ユーザーが定義した仮説に応じて画像分析ワークフローを選択し、構成し、修正するために使用されてよい。
【0031】
他のシステムでは、画像分析ワークフローの選択および構成は、典型的には、ユーザーにより手動で行われる。そのようなシステムでは、ユーザーは、適切な画像分析ワークフローを選んだり作成したりするために、画像分析や顕微鏡検査に関する多くの技術的専門知識を必要とする。仮説は正確に定式化する必要があり、次いで、実験を設計して画像分析ワークフローを作成する必要がある。ここで提案する構想は、後者のタスクを支援するものである。
【0032】
提案された構想では、与えられた科学的仮説を支持するまたは反証するという目標から逆戻りの経路が使用される。ここでは、この仮説を支持する画像から関連情報を抽出するためのパイプラインをどのように構築しトレーニングするかを論じる。画像分析ワークフローの選択および構成は、学習されたパラメータに基づいており、それゆえ、適切な生物医学的画像、明確に定式化された仮説、およびそれらの間のマッピングを見出す可能性が与えられれば、自動化することが可能である。
【0033】
提案された構想は、画像分析ワークフローの構成およびトレーニングと、ユーザーによる仮説の入力および定式化(任意選択事項)と、の2つの態様を含む。前者(画像分析ワークフローの構成およびトレーニング)については、画像分析ワークフローは、ユーザー入力、撮像装置、またはデータ格納場所からの画像を使用して、問題となる仮説の観察に適した画像情報の抽出を改善または最適化するように構成および/またはトレーニングされてよい。後者(ユーザによる仮説の入力および定式化)については、発声を構造化されていないテキストに変換する音声インタフェース、ユーザーが仮説を構造化されていないテキストとして入力できるようにする標準テキスト入力、またはユーザーが案内されたダイアログから可観測量、実体および関係を選択するエキスパートインタフェースのうちの少なくとも1つが使用されてよい。
【0034】
以下では、システムがこの仮説と顕微鏡画像とに基づいて適切なワークフローをどのように選択するか、また、ユーザーが科学的仮説をどのように定式化するかという2つのタスクについて個別に説明する。
【0035】
最初に、適切な画像分析ワークフローの構成について論じる。これは、機械学習モデル対の支援を用いて行われる。
図1aおよび
図1bは、第1および第2の機械学習モデルを調整するための方法の例のフローチャートを示し、それらは、画像分析ワークフローを構成または実装するために一緒に使用されている。本方法は、生物学的プロセスを表す(
図2に示されている)画像セット230を、(
図2に示されている)第1の機械学習モデル240に入力するステップ110を含む。第1の機械学習モデルは、画像分析ワークフローを実行するように、または(
図2に示されている)画像分析ワークフロー260をパラメータ化するための(
図2に示されている)パラメータ250を生成するようにトレーニングされる。本方法は、画像分析ワークフローの(
図2に示されている)出力270を(
図2に示されている)第2の機械学習モデル280に入力するステップ140を含む。第2の機械学習モデルは、生物学的プロセスを使用して評価される仮説の(
図2に示されている)予測290を出力するようにトレーニングされている。本方法は、生物学的プロセスを使用して評価される仮説の予測と、生物学的プロセスを使用して評価される(
図3に示されている)実際の仮説330と、の間の差分に基づいて損失関数を計算するステップ160を含む。本方法は、損失関数の結果に基づいて、第1および/または第2の機械学習モデルを調整するステップ170を含む。
【0036】
図1aおよび
図1bの方法は、機械学習モデルの少なくとも1つ(通常は両方)の調整に関する。以下では、機械学習についての簡単な紹介が挙げられ、続いて、本文脈における機械学習の使用が述べられる。
【0037】
機械学習は、一般に、モデルおよび推論に依存する代わりに、コンピュータシステムが、明示的な命令を使用することなく、特定のタスクを実行するために使用し得るアルゴリズムおよび統計モデルを参照する。例えば、機械学習では、ルールに基づくデータ変換の代わりに、過去のデータおよび/またはトレーニングデータの分析から推論されるデータ変換が使用されてよい。例えば、機械学習の一般的な例では、画像コンテンツは、機械学習モデルを使用して、または機械学習アルゴリズムを使用して分析されてよい。機械学習モデルが画像コンテンツを分析するために、機械学習モデルは、入力としてのトレーニング画像と出力としてのトレーニングコンテンツ情報とを使用してトレーニングされてよい。多数のトレーニング画像および/またはトレーニングシーケンス(例えば単語または文章)および関連するトレーニングコンテンツ情報(例えばラベルまたは注釈)によって機械学習モデルをトレーニングすることにより、機械学習モデルは、画像コンテンツを認識することを「学習」するので、トレーニングデータに含まれていない画像コンテンツが機械学習モデルを使用して認識可能になる。同じ原理が、他の種類のセンサデータに対して使用されてもよいし、より一般的なデータに対して同様に使用されてもよい。すなわち、トレーニングセンサデータと所望の出力とを使用して機械学習モデルをトレーニングすることにより、機械学習モデルは、センサデータと出力との間の変換を「学習し」、これは、機械学習モデルに提供された非トレーニングセンサデータに基づいて出力を提供するために使用可能である。提供されたデータ(例えばセンサデータ、メタデータおよび/または画像データ)は、機械学習モデルへの入力として使用される特徴ベクトルを得るために前処理されてよい。
【0038】
多くのケースでは、機械学習モデルは、トレーニング入力データを使用してトレーニングされてよい。上記の例は、「教師あり学習」と称されるトレーニング方法を使用する。教師あり学習では、機械学習モデルは、複数のトレーニングサンプルを使用してトレーニングされ、ここで各サンプルは、複数の入力データ値と複数の所望の出力値とを含んでいてよく、すなわち各トレーニングサンプルは、所望の出力値と関連付けられている。トレーニングサンプルと所望の出力値の両方を指定することによって、機械学習モデルは、トレーニング中に、提供されたサンプルに類似する入力サンプルに基づいてどの出力値を提供するのかを「学習」する。教師あり学習の他に、半教師あり学習が使用されてよい。半教師あり学習では、トレーニングサンプルの一部は、対応する所望の出力値を欠いている。教師あり学習は、教師あり学習アルゴリズム(例えば分類アルゴリズム、回帰アルゴリズムまたは類似度学習アルゴリズム)に基づいていてよい。出力が、値(カテゴリー変数)の限られたセットに制限される場合、すなわち入力が値の限られたセットのうちの1つに分類される場合、分類アルゴリズムが使用されてもよい。出力が(範囲内の)任意の数値を有していてよい場合、回帰アルゴリズムが使用されてよい。類似度学習アルゴリズムは、分類アルゴリズムと回帰アルゴリズムの両方に類似していてもよいが、2つのオブジェクトがどの程度類似しているかまたは関係しているかを測定する類似度関数を使用した例からの学習に基づいている。教師あり学習または半教師あり学習の他に、機械学習モデルをトレーニングするために教師なし学習が使用されてよい。教師なし学習では、入力データ(だけ)が供給される可能性があり、教師なし学習アルゴリズムは、(例えば、入力データをグループ化またはクラスタリングすること、データに共通性を見出すことによって)入力データにおいて構造を見出すために使用されてよい。クラスタリングは、複数の入力値を含んでいる入力データを複数のサブセット(クラスター)に割り当てることであるので、同じクラスター内の入力値は1つまたは複数の(事前に定められた)類似度判断基準に従って類似しているが、別のクラスターに含まれている入力値と類似していない。
【0039】
強化学習は、機械学習アルゴリズムの第3のグループである。換言すれば、強化学習は、機械学習モデルをトレーニングするために使用されてよい。強化学習では、1つまたは複数のソフトウェアアクター(「ソフトウェアエージェント」と称される)が、周囲において行動を取るようにトレーニングされる。取られた行動に基づいて、報酬が計算される。強化学習は、(報酬の増加によって明らかにされるように)累積報酬が増加し、与えられたタスクでより良くなるソフトウェアエージェントが得られるように行動を選択するように、1つまたは複数のソフトウェアエージェントをトレーニングすることに基づいている。
【0040】
本明細書では、より複雑な設定が使用され、そこでは2つの機械学習モデルが、パイプラインの一部として一緒に使用され、2つの機械学習モデルの間に挿入される画像分析ワークフローが用いられる(画像分析ワークフローが既に第1の機械学習モデルに含まれていない場合)。生物学的プロセスを表す画像セット230は、当該画像セットを第1の機械学習モデルに入力することによってパイプラインに入力される。パイプラインの他端では、予測仮説が第2の機械学習モデルによって出力される。2つの機械学習モデルが個別にトレーニングされる場合、結果として生じる画像分析ワークフローの品質を評価するために、適切な損失関数が定義されなければならない。しかしながら、画像分析ワークフローの目的に関する知識がなければ、画像分析ワークフローの品質を自動的に評価することは容易ではない可能性がある。その結果、専門家が手動で画像分析ワークフローの品質を判断するか、少なくとも手動で所望の画像分析ワークフローを指定しなければならない可能性があり、その結果、第1の機械学習モデルのトレーニングに多大な労力を要することになる。提案された構想では、第2の機械学習モデルは、ある意味で、画像分析ワークフローの品質を評価するために使用される。第2の機械学習モデルが、画像分析ワークフローの出力から、どの仮説が検証されているかを予測できるのであれば、画像分析ワークフローは、この仮説を確認または反証するための適切な情報を得たことになる。したがって、第2の機械学習モデルが、生物学的プロセスを使用して評価される実際の仮説と同じ(または非常に類似した)仮説を予測するならば、画像分析ワークフローの出力は、仮説を確認または反証するのにもほとんど適している。事実上、パイプライン全体が、予測仮説と実際の仮説との間の差分を低減するようにエンドツーエンド手法でトレーニングされ、その結果、パイプラインの一部である画像分析ワークフローは、目下の仮説に適したやり方で構成または実装される。換言すれば、第1および第2の機械学習モデルは、エンドツーエンド手法で一緒に調整および/またはトレーニングされる。この目的のために、教師あり学習は、(画像セットおよび任意選択的な実際の仮説と共に)トレーニング入力、所望の出力としての実際の仮説、および損失関数として使用されてよい。代替的に、強化学習が使用されてもよく、このケースでは、損失関数が報酬を計算するのに使用される。
【0041】
トレーニングのタスクは、特定の仮説の観察を支援できる情報を抽出するような画像分析ワークフローを構成することである(
図2も参照)。
図2は、上述した仮説予測パイプラインをトレーニングするためのフローの一例の概略図を示す。
【0042】
入力画像230は、ユーザー200によってロードされるか、撮像装置210によって記録されるか、またはデータ格納場所220からロード/ストリーミングされる。
図1aおよび
図1bに示されているように、画像は、画像セット230として、第1の画像分析モデル240(すなわち、第1の機械学習モデル)に入力110される。これらの画像は、生物学的プロセスを示し、これは通常、例えば、初期状態から任意選択的に1つまたは複数の中間状態を介して目標状態への変換を含むことができる。
【0043】
画像は、生物学的プロセスを表し、したがってその状態も表す。例えば、画像は、生物学的プロセス、したがって変換を記録すべく長期にわたって規則的な間隔または不規則な間隔で取られる。例えば画像セットは、長期にわたる生物学的プロセスの展開を示す画像シーケンスを含むことができる。例えば、画像セットは、反射率画像、蛍光画像、高スペクトル画像などのさまざまな種類の画像を含むことができる。例えば、画像セットによって表される時間間隔の各時点について、(1つまたは複数の撮像モダリティを使用して取られた)1つまたは複数の画像が画像セットに含まれていてよい。例えば、本方法は、画像セットを、トレーニングデータのコーパスから(トレーニングが実行されるケース)、あるいは撮像システムの撮像装置(例えば、顕微鏡)から取得するステップを含むことができる。例えば、画像セットは、顕微鏡画像、すなわち、顕微鏡によって取られた画像セットであってよい。
【0044】
第1の画像分析モデル240(すなわち、第1の機械学習モデル)は、画像を処理するようにトレーニングされる。以下で詳述するいくつかの例では、第1の画像分析モデルは、画像分析ワークフローを予測し、その初期パラメータ250を予測するように(すなわち、画像分析ワークフロー260をパラメータ化するためのパラメータ250を生成するように)トレーニングされる。代替的に、画像分析ワークフローは、ディープラーニングモデルによって完全に置き換えることができ、このケースでは、モデル240は、どのようなワークフローパラメータも予測する必要はないが、所望の情報(すなわち、画像処理ワークフローの出力)270を直接予測し、すなわち、画像分析ワークフローを実装する。したがって、第1の画像分析モデル240は、画像分析ワークフローを実行するようにトレーニングされてよい。
【0045】
前者のケースでは、第1の画像分析モデル240(すなわち、第1の機械学習モデル)は、画像分析ワークフローをパラメータ化するためのパラメータ250を生成するようにトレーニングされる。このケースでは、画像分析ワークフローは、複数の画像処理および分析ステップを含む。例えば、画像分析ワークフロー内で、画像処理および/または分析ステップの任意のシーケンスが使用されてよい。特に、画像処理ワークフローは、順次連続して実行される複数の画像処理または分析ステップ、すなわち、少なくとも2つの画像処理/分析ステップを含む。一例を挙げれば、画像分析ワークフローは、デバイヤリング、ノイズ除去、鮮鋭化、コントラスト調整、バンドパスフィルタリングなどの1つまたは複数の汎用の画像処理ステップを含むことができる。付加的に、1つまたは複数の画像分析ステップが、処理された画像データに適用されてもよい。例えば、画像分析ワークフローの1つの分岐において、特定の化学物質、タンパク質、または疾患を示す波長範囲(例えば、色範囲)を分離する画像処理ステップが適用されてよい。
【0046】
後続の画像分析ステップでは、特定の化学物質、タンパク質、または疾患が発生する領域を画定するために画像セグメンテーションが実行されてよい。最後に、特定の化学物質、タンパク質、または疾患が発生する全体的な領域の割合を推定するためにさらなる画像分析ステップが適用されてよく、あるいは化学物質、タンパク質、または疾患の発生の2Dもしくは3D幾何形状に関する情報を出力するために適合化が使用されてもよい。別の分岐では、細胞運命を示す波長範囲(例えば色範囲)を分離するために画像処理ステップが適用されてよい。後続の画像分析ステップでは、分離された波長範囲に基づいて細胞運命を出力するようにトレーニングされた分類器が使用されてよい。別の分岐では、実体の存在および/または位置特定のために画像セグメンテーションまたは画像分類が使用されてよい。
【0047】
そのような画像処理ステップは、異なる技術を使用して実装されてよく、例えば、ノイズ除去は、(ワンパス)決定論的フィルタ(例えば、同じ色/チャネルの隣接ピクセルの内容に基づいて異常値を除去する)を使用して、または反復的かつ決定論的フィルタ(すなわち、マルチパス)決定論的フィルタ(例えば、隣接ピクセルの内容に基づいて徐々に差分を低減する)を使用して、または機械学習ベースの(ワンパス)フィルタ(例えば、画像を一度、ノイズが低減されるようにトレーニングされた機械学習モデルを通過させる)を使用して、または反復的な機械学習ベースのフィルタ(例えば、敵対的生成ネットワークに基づく、または強化学習に基づく)を使用して実行されてよい。換言すれば、画像処理ワークフローは、1つまたは複数の決定論的画像処理ステップ、および1つまたは複数の機械学習ベースの画像処理ステップのうちの少なくとも1つを含むことができる。
【0048】
画像分析ワークフローを構成するためのパラメータを生成する第1の機械学習モデルのケースでは、パラメータの生成は、固定されたセットの画像処理/分析ステップのためのパラメータの生成を含むだけでなく、むしろ画像処理/分析ステップの選択も含む可能性がある。例えば、第1の機械学習モデルは、画像分析ワークフローのために、1つまたは複数の画像処理ステップの使用、1つまたは複数の画像処理ステップの1つまたは複数の数値パラメータ、および1つまたは複数の画像処理ステップの1つまたは複数のカテゴリーパラメータのうちの少なくとも1つを選択するようにトレーニングされてよい。このケースでは、第1の機械学習モデル240の出力は、以下のように符号化されてよい。すなわち、(各々が画像変換を表す)1つまたは複数の画像処理/分析ステップを含むまたはこれらから成るすべての画像分析ワークフローは、一義的な識別子(UID)を伴って格納することができ。このUIDは、例えば、スパース符号化またはワンホット符号化を使用して、ベクトルの一部になるように適切に符号化することができ、これは、
図2においてω
iで示される。画像分析ワークフローは、パラメータ化されたディープニューラルネットワークのような0以上の機械学習モデルの1つまたは複数の決定論的画像分析ステップを含むことができる。ワークフローがパラメータを有する決定論的画像分析ステップを含むケースでは、カテゴリーパラメータα
jと数値パラメータβ
kとが区別されてよい。したがって、モデル240は、2つの出力を有することができ、すなわち、1つは数値パラメータβ
kを予測する回帰ヘッドを有し、1つはカテゴリーパラメータ、典型的にはω
iとα
jとの連鎖を予測する分類器ヘッドを有する。同じモデル240の予測250は、画像分析ワークフロー260を構成するために使用されてよい。
【0049】
画像分析ワークフロー260は、画像230からの所望の情報270(分類、セグメント化など)を予測するために使用される1つまたは複数の決定論的画像分析ステップまたは1つまたは複数の機械学習モデルを含んでいるか、またはそれらから成る。そのような別個の画像分析ワークフローが使用される場合、本方法は、第1の機械学習モデルの出力に基づいてパラメータ化される画像分析ワークフローを使用したり、それを用いたりして画像セットを処理するステップ120を含むことができる。
【0050】
画像分析ワークフローの出力270は、例えば、画像230と共に、仮説を出力する第2の機械学習モデル280への入力である。したがって、
図1aおよび
図1bの方法は、画像分析ワークフローの出力270を第2の機械学習モデル280に入力するステップを含む。
【0051】
画像分析ワークフローの出力は、別個の画像分析ワークフローが使用されるかどうか、または画像分析ワークフローが第1の機械学習モデルの一部であるかどうかにかかわらず、異なる種類の情報を含むことができる。一般に、画像分析ワークフローの出力は、画像セットを特徴付ける情報セットを含むことができる。例えば、画像分析の出力は、画像セットを特徴付ける数値データ(例えば、1つまたは複数の実体のそれぞれの濃度、または実体が占める全体領域の割合など)、画像セットを特徴付けるバイナリデータ(例えば、実体の有無、条件が真か偽など)、画像セットを特徴付けるカテゴリデータ(例えば、細胞運命が死滅、生存、遊走性、静的性などの1つである)、または空間データ(例えば、バウンディングボックスの座標、またはセグメンテーションマップ)のうちの1つまたは複数を含むことができる。画像分析ワークフローの出力は、画像セットを特徴付ける埋め込みとして(例えば、ベクトルとして)提供されてよい。いくつかの例では、画像分析ワークフローの出力は、画像データ、例えば、画像セットのトリミングされた部分および/または処理された部分を含むことができる。
【0052】
画像分析ワークフローによる出力に対して付加的に、画像セットまたは画像セットの処理バージョンが、第2の機械学習モデルへのさらなる入力として使用されてよい。換言すれば、第2の機械学習モデル280は、ワークフローにより予測された情報270と画像セット230の両方を入力として受け入れることができる。第2の機械学習モデルによって出力される情報および画像も一緒に前処理することができる。例えば、第2の機械学習モデルによって出力される情報がバウンディングボックスを含んでいる場合、これらのバウンディングボックスは、画像230からオブジェクトをトリミングするために使用することができ、それらは第2の機械学習モデル280への入力として使用される。同様に、情報270がセグメンテーションワークフローからのバイナリーセマンティックマップもしくはインスタンスセグメンテーションマップまたは確率マップを含んでいる場合、これは、元の入力230をトリミングまたは変調するために乗算することができ、そのような変調信号は第2の機械学習モデル280への入力として使用される。
【0053】
次いで、第2の機械学習モデルが、生物学的プロセスを使用して評価される仮説の予測290を出力するようにトレーニングされる。予測仮説は、損失関数を決定するときに実際の仮説と比較されるため、仮説は、a)第2の機械学習モデルによって効率的に出力でき、かつb)実際の仮説と客観的に比較できる形式で提供してよい。特に、第2の機械学習モデルは、仮説の予測の形式的な表現と実際の仮説の形式的な表現との間の比較に基づいて計算される損失関数を用いて、仮説の予測の形式的な表現を出力するようにトレーニングされてよい。例えば、以下で説明されるように、仮説は、(
図3に示されている)自然言語処理モデル330と同じ符号化(すなわち、形式的な表現)を使用して出力されてよい。同様に、実際の仮説(すなわち目標)もモデル330から取得されてよい。以下では、仮説の形式的な表現を、仮説の音声テキストベースもしくは構造化されていないテキストベースの定義に関連して論じる。これは主に、第1および第2の機械学習モデルのトレーニングの後で、例えば提案された構想の適用中に適用可能である。しかしながら、使用される形式的な表現は、トレーニング中に使用されるものと同じである。トレーニング中、この形式的な表現は、トレーニングデータのコーパスから取得されてよい。いくつかの例では、トレーニングデータのコーパスを調製するために、仮説の同じ音声テキストベースもしくは構造化されていないテキストベースの定義が使用されてよい。代替的に、(トレーニングデータのコーパスに含まれる)形式的な表現は、グラフィカルユーザーインタフェースを使用して入力されてよく、あるいは各画像セットと共に含まれるメタデータのデータベースから導出されてもよい。
【0054】
(少なくとも)提案された構想の適用中、本方法は、実際の仮説の形式的な表現を生成するために(
図3に示すような)ユーザー入力300,350,360を処理するステップ150を含むことができる。特に、ユーザー入力は、音声テキストと、構造化されていない記述テキストと、のうちの1つを含むことができる。したがって、本方法は、自然言語処理を使用してユーザー入力を処理するステップ310,330(
図3参照)を含むことができ、あるいはユーザー入力は、構造化された入力を含むことができる。
図3は、ユーザーから仮説の入力を取得するためのフローの一例の概略図を示す。
図3は、音声インタフェース(300)を有するユーザーを示す。ステップ310では、機械学習モデルが、ボーカル発声をテキストに変換するようにトレーニング/構成される。テキスト出力320(例えば、「5mMノコダゾールを用いた3時間の治療の下でアクチンがどのように挙動するかを見出す」)は、生物医学的自然言語を処理し、仮説340を(仮説の形式的な表現として)出力するように構成された機械学習モデル330に通される。例えば、結果として生じる形式的な表現は、「P(D
t(@PROT$,x,t)|(@CHEMICAL$;$INHIB$;$PROT$),K1)」であってよい(異なる成分は以下で論じる)。
図3は、さらに、テキストの入力(350)、または実体、関係、条件、細胞運命などを選択するためのグラフィカルユーザーインタフェースの使用などの代替的な入力フォームを示す(360)。
【0055】
上記で論じた形式的な表現は、テンプレートスキームに基づいており、ここでのテンプレートの全体構造は、それぞれの情報が挿入される「空白」を含む。以下では、最初に、空白を充填する異なる項目、すなわち、実体、関係、条件、細胞運命および分布が導入される。
【0056】
以下では、仮説の形式的な定義を定式化するためのいくつかの定義を挙げる。仮説では、実体Eは、任意の種類の生物学的または医学的実体、非公式には生物学または医学の専門用語である任意の固有名詞であり得る。特に、これらは、タンパク質、化学物質、薬物、疾患の種類であり得る。要約すると、実体は、化学物質、タンパク質、ヌクレオチド、炭水化物、脂質、薬物および疾患の種類であり得る。
【0057】
関係Rは、条件が任意選択的に与えられた2つの実体間に存在し得る。一般的な関係には、化学-タンパク質関係が含まれる。それらは、活性化因子、阻害因子、作用因子、拮抗因子、上方制御因子、下方制御因子、それらの基質、それらの生成物のうちの1つであり得る。他の関係には、薬物-薬物相互作用、遺伝子-疾患関連が含まれる。エビデンスに基づく医療、例えばEBM PICOのようなコーパスには、参加者、介入者、比較者および成果の系列下の単語レベルの注釈が含まれる。したがって、参加者、介入者、比較者および成果を含む関係によって、エビデンスに基づく医療の経験的結果を顕微鏡レベルで調査することができる。要約すると、関係は、第2の実体に対する活性化因子として作用する第1の実体、第2の実体に対する阻害因子として作用する第1の実体、第2の実体に対する拮抗因子として作用する第1の実体、第2の実体に対する上方制御因子として作用する第1の実体、第2の実体に対する下方制御因子として作用する第1の実体、第2の実体の基質として作用する第1の実体、第2の実体の生成物である第1の実体、のうちの1つを含むことができ、かつ/または関係は、化学物質-タンパク質関係、薬物-薬物相互作用、および遺伝子-疾患相互作用、および参加者-介入者-比較者-出力関係のうちの1つを含んでいてよい。
【0058】
条件Kは、仮説の任意選択的な部分である。いくつかの実体または関係は、所定の確率で所定の条件下でのみ観察可能である。条件がNULLの(すなわち存在しない)場合もあり、このケースでは、実体または関係が観察される確率は1.0である。条件は時間の関数であり得る。条件は、例えばNULLタイプのものであり得る。条件は、例えば、摂動物質濃度タイプ(化学物質、薬物、低分子量化合物)のものであり得る。この条件は時間的に変化する。条件は、例えば、培養条件タイプ(pH(溶液の酸性度またはアルカリ性度を表す値)、CO2(二酸化炭素)分圧、雰囲気のH2O(水)飽和度、温度、栄養素)のものであり得る。この条件は時間的に変化する。条件は、例えば、共培養タイプのものであり得る。すなわち、培養容器、培養皿、またはバイアル中で1種類を超える細胞種類を同時に培養する。2Dまたは3D培養、類器官、スフェロイドにおける細胞種類の相対的存在量は、ベクターとして表現することができ、共培養条件である。この条件は、時間的に変化する可能性がある。条件は、例えば、細胞組成タイプのものであり得る。すなわち、組織は、遺伝形質的、形態学的、プロテオーム的、メタボローム的表現型によって定義される複数の細胞種類を含み得る。組織または器官における特定の細胞種類の相対的存在量は、細胞組成である。この状態が時間的に変化する可能性は低い。条件は、例えば、近接性タイプのものであり得る。相互作用(関係)は、2つの実体間の距離の関数として発生し得る。近接性は、(細胞小器官、組織学的マーカー、組織などの顕微鏡的に分解可能な構造に共局在する/しない)クラスとして、あるいはいくつかの距離メトリック(例えば、L1ノルム、L2ノルム、Lpノルム、L∞ノルムのようなpノルム)に従った実数値の数もしくはベクトルとして表すことができる。近接性は、時間的に変化する場合がある。要約すると、条件は、摂動濃度条件、培養条件、共培養条件、細胞組成条件および近接条件のうちの1つであってよい。特定の観察を行うために、複数の条件が同時に発生したり、同時に満たされたりする場合がある。
【0059】
細胞運命Fは、細胞が増殖する(すなわち有糸分裂を起こす)か、死滅する(組織内で壊死またはアポトーシス(制御された細胞死)または細胞レベルでの不特定の細胞死を起こす)か、を示す。その他の細胞運命には、遊走性対静的性がある。
【0060】
分布D(x)は、細胞種類の空間マップ、すなわち培養物、組織、または器官における細胞種類(またはオブジェクトインスタンスを有する他の数え切れない実体)のすべての位置全体である。また、分解できない実体(化学物質、染料、タンパク質、ヌクレオチド、炭水化物、脂質など)の集団を表すこともできる。後者のケースでは、D(x)は、位置xで特定の実体Eに遭遇する確率マップを表し、これは、位置xでのEの濃度に比例する。上記のすべてのケースにおいて、xはRnにおける座標であり、ここで、nには、2~3個の空間座標、チャネル(発光波長または窓)座標、励起波長、蛍光寿命と微分値、振動スペクトル特性(例えば波数)が含まれ、同様に、多光子励起蛍光、第2または第3の高調波、偏光、または撮像装置によって記録される電磁放射の他の物理的特性など、空間的に分解できる他の特性も含まれる。任意選択的に、分布は、空間および時間の関数、すなわちD(x,t)であり得る。
【0061】
上記の定義が与えられるならば、仮説は、次のもの、すなわち、
a)P((E1;R;E2)|K)の系列下の2つの実体と関係の組、ただし、Enは2つの異なる実体、Rは関係、およびKは条件(NULLであり得る)であり;
b)P(F|K)、ただしFは細胞運命であり、Kは条件であり;
c)P(DT|K)、ただし、DTは細胞種類の分布であり、Kは条件であり、DT(x)は、器官、組織、類器官、3D細胞培養または2D細胞培養で起こり得るものであり;
d)P(Dp|K)、ただし、Dpは化学物質、タンパク質、ヌクレオチド、炭水化物、または脂質などの非数値実体の実体分布であり;
のうちの1つとしての特定の事象を観察する確率として定式化することができる。
分布Dなどの任意の可観測量は、1つまたは複数の条件、1つまたは複数の関係、1つまたは複数の実体の存在の結合条件に依存し得る。そのため、P(Dp)|(E1;R;E2,K1,K2,…Kn)などのケースが存在し得る。ここで、化学物質E1が、E2(それらの活性化因子であるなど)と、特定の培養条件(温度、特定の濃度での培養容器内のE1の存在など)と、の関係にあるならば、例えばタンパク質E2の分布が観察される。
【0062】
要約すると、それぞれの形式的な表現は、次のもの、すなわち、2つの実体間の関係(E1;R;E2)、条件((E1;R;E2)|K)に依存する2つの実体間の関係、条件(F|K)に依存する細胞運命、条件(DT|K)に依存する細胞種類の分布、条件に依存する2次元または3次元の幾何形状および条件(Dp|K)に依存する非数値実体の実体分布、のうちの少なくとも1つを表すことができる。この仮説は、上述した任意選択事項、例えばP(E1;R;E2)などの確率に関連し得る。
【0063】
提案された構想の適用中、およびいくつかのケースでは、トレーニングコーパスの生成中、ユーザーは、3つの手法、すなわち、音声インタフェース、構造化されていないテキスト、または構造化された入力のうちの1つの使用に基づいて、仮説を入力することができる。
図3は、概要を示す。ユーザーは音声インタフェース300を使用して仮説を入力することができ、次いで、この仮説は音声認識システムによって処理される。提案されたシステムは、ボーカル発声310を、後で顕微鏡システムにより検証される仮説320を含む構造化されていないテキストに変換するように構成された機械学習モデルを有する。多くの専門用語を有する生物医学テキストの性質上、以前のML(機械学習)モデルは、生物医学分野からの言語に基づいてドメイン内で微調整されてよい。構造化されていないテキストを処理し、少なくとも名前付き実体認識(NER)および関係抽出(RE)からなる自然言語認識タスクを生物医学テキスト上で実行するように構成されたさらなる機械学習モデル330が使用されてよい。任意選択的に、文書分類、文章の類似性および質問応答などのさらなるNLP(Natural Language Processing)タスクも存在し得る。これらの機能は、1つのマルチタスクモデルによって実行することも、あるいはそのように構成された複数のモデルによって実行することも可能である。さらなる機械学習モデル330からの出力は、下流側の機械によって処理できる科学的仮説340の定式化である。代替的な例には、さらなる機械学習モデル330によって処理される構造化されていないテキストをユーザーが直接入力するステップ350、またはグラフィカルユーザーインタフェース360から実体、関係、条件、可観測量(例えば分布、細胞運命)を選択するステップが含まれる。
【0064】
提案された開示のいくつかの例では、
図3におけるNLPモデル330について、変換器タイプのニューラルネットワーク、例えば、BERT(Bidirectional Encoder Representation from Transformer)モデルまたはT5モデル(Text-to-text transfer transformer)がそのコアにおいて使用されてよいが、ただし、双方向LSTM(BiLSTM, Bidirectional Long Short-Term Memory)も同様に使用することができる。実体、関係、条件、細胞運命、および分布の識別のために使用されてよいNER(Named Entity Recognition)については、特徴抽出は、CNN(Convolutional Neural Network)によって作成された文字レベルの埋め込みを含むことができ、それらは、変換器またはBiLSTMによって出力される文脈単語埋め込みと連鎖される。次いで、これらの連鎖状の埋め込みは、論理学的回帰層または条件付きランダムフィールド(CRF)に通過させてよく、これによって、分類のための確率分布を出力することができる。関係抽出のために、これらの入力は、クラストークンおよび文章マーカーでタグ付けされてよく、実体は、過剰適合化を回避するために匿名化されてよい。次いで、NERのように、トークン化された入力は、BERTまたはLSTM埋め込みに変換されてよく、次いで、これらは線形層または多層パーセプトロンによって分類される。
【0065】
一般に、仮説の特定は、提案された構想の適用にも使用される同じシステム上で行われてよい。しかしながら、さらなる入力モダリティとして、スマートフォンなどのモバイル装置を使用してよい。例えば、ユーザーによる仮説の特定は、モバイル装置上で実行されてよい。次いで、このパイプラインによって出力された仮説340は、情報抽出パイプライン240~280を実行するシステムに送信されてよい。
【0066】
トレーニング中および適用中、上述の仮説は、第1および第2の機械学習モデルをどのように調整するかを決定するために使用される。
図1aおよび
図1bに示すように、本方法は、生物学的プロセスを使用して評価される仮説の予測と、生物学的プロセスを使用して評価される実際の仮説330と、の間の差分に基づいて損失関数を計算するステップ160を含む。例えば、損失関数を決定するためにメトリックが定義されてよい。例えば、予め定義されたルールセットに従って仮説を座標空間に投影し、座標空間における仮説間の距離に基づいて損失関数を決定してよい。代替的に、例えば、2つの仮説の行列またはベクトル表現に基づいて、他の距離メトリックを定義し、評価してもよい。損失関数の結果に基づいて、第1および第2の機械学習モデルが調整される。パイプライン240~290全体は、勾配逆伝播法を用いて機械学習モデルのパラメータにわたって適切な損失関数を使用して、エンドツーエンドでトレーニング/調整される。特に、トレーニングと適用の両方の間に、第1および/または第2の機械学習モデルは、仮説の予測が一致基準に従って実際の仮説と一致するまで(例えば、損失関数の結果が基準を満たすまで、かつ/または2つの仮説が距離メトリックに従って十分に類似するまで)調整されてよい。
図2では、トレーニングは、フィードバック経路295によって示されている。
【0067】
上記で概説したように、第1および第2の機械学習モデルの調整は、2つのステージ/段階で、すなわちトレーニングステージ/段階および適用ステージ/段階で行うことができる。トレーニングステージ/段階では、本方法は、トレーニング入力画像としての複数の画像セットと、第1および/または第2の機械学習モデルをトレーニングするために第2の機械学習モデルによって予測された仮説との比較のための複数の対応する実際の仮説と、を使用して、複数回の反復にわたって実行してもよい。例えば、(複数の画像セットおよび複数の対応する実際の仮説を含む)トレーニングデータのコーパスがトレーニングのために使用されてよい。
【0068】
以下では、ワークフローを選択するためのトレーニングされたシステムの適用を論じる。パイプラインがトレーニング/調整されると、それを適用することは、ステージ240~270を含むパイプラインを通る順方向パスを意味する。例えば出力は、パイプラインが仮説に一致するようにトレーニングされた所望の情報であってよい。換言すれば、本方法は、画像分析ワークフローの出力を提供するステップ130を含むことができる。付加的に、本方法は、(比較のために)第2の機械学習モデルの出力を提供するステップ、または(例えば、後からの使用のために画像分析ワークフローの構成を格納するために)第1の機械学習モデルの出力を提供するステップ、あるいは(第1の機械学習モデルをさらなる画像セットに適用するために)第1の機械学習モデルを提供するステップを含むことができる。適用段階では、第1および/または第2の機械学習モデルは、手元の画像セットに対して微調整されてよい。このケースでは、第1および第2の機械学習モデルは、事前にトレーニングされた機械学習モデルであり、現場で調整される。いくつかの例では、トレーニングと適用の両方が同じシステム上で実行されてよい。しかしながら、いくつかの他の例では、異なるシステムがトレーニングと適用に使用されてよい。
【0069】
代替的な実装では、パイプライン240~280全体が、入力として画像を受け入れ、符号化された仮説290を直接的に予測する1つのディープニューラルネットワークによって置き換えられてよい。これは、例えば、モデル240および280の組み合わせについて示されている、逆伝播法を使用してエンドツーエンドでトレーニングできる。このケースでは、第1および第2の機械学習モデルは、単一の機械学習モデルの一部であってよく、そこでは、画像分析ワークフローの出力は、a)単一の機械学習モデル内に本質的に含まれ、b)単一の機械学習モデルの出力で提供される。
【0070】
機械学習アルゴリズムは、通常、機械学習モデルに基づいている。換言すれば、用語「機械学習アルゴリズム」は、機械学習モデルを作成する、トレーニングするまたは使用するために使用され得る命令のセットを示していてもよい。用語「機械学習モデル」は、(例えば、機械学習アルゴリズムによって実行されるトレーニングに基づいて)学習した知識を表すデータ構造および/またはルールのセットを表していてもよい。実施形態では、機械学習アルゴリズムの用法は、基礎となる1つの機械学習モデル(または基礎となる複数の機械学習モデル)の用法を意味していてもよい。機械学習モデルの用法は、機械学習モデルおよび/または機械学習モデルであるデータ構造/ルールのセットが機械学習アルゴリズムによってトレーニングされることを意味していてもよい。
【0071】
例えば、上述した機械学習モデルは、人工ニューラルネットワーク(ANN)であってもよい。ANNは、網膜または脳において見出されるような、生物学的ニューラルネットワークによって影響を与えられるシステムである。ANNは、相互接続された複数のノードと、ノード間の、複数の接合部分、いわゆるエッジを含んでいる。通常、3種類のノードが存在しており、すなわち入力値を受け取る入力ノード、他のノードに接続されている(だけの)隠れノードおよび出力値を提供する出力ノードが存在している。各ノードは、人工ニューロンを表していてもよい。各エッジは、1つのノードから別のノードに、情報を伝送してもよい。ノードの出力は、その入力(例えば、その入力の和)の(非線形)関数として定義されてもよい。ノードの入力は、入力を提供するエッジまたはノードの「重み」に基づく関数において使用されてもよい。ノードおよび/またはエッジの重みは、学習過程において調整されてもよい。換言すれば、人工ニューラルネットワークのトレーニングは、与えられた入力に対して所望の出力を得るために、人工ニューラルネットワークのノードおよび/またはエッジの重みを調整することを含んでいてもよい。例えば、機械学習モデルは、ディープニューラルネットワーク、すなわち、少なくとも1つの隠れ層を含む人工ニューラルネットワークであってよい。
【0072】
択一的に、それぞれの機械学習モデルは、サポートベクターマシン、ランダムフォレストモデルまたは勾配ブースティングモデルであってもよい。サポートベクターマシン(すなわち、サポートベクターネットワーク)は、(例えば、分類または回帰分析において)データを分析するために使用され得る、関連する学習アルゴリズムを伴う、教師あり学習モデルである。サポートベクターマシンは、2つのカテゴリのうちの1つに属する複数のトレーニング入力値を伴う入力を提供することによってトレーニングされてもよい。サポートベクターマシンは、2つのカテゴリのうちの1つに新しい入力値を割り当てるようにトレーニングされてもよい。択一的に、それぞれの機械学習モデルは、確率有向非巡回グラフィカルモデルであるベイジアンネットワークであってもよい。ベイジアンネットワークは、有向非巡回グラフを用いて、確率変数とその条件付き依存性のセットを表していてもよい。択一的に、機械学習モデルは、検索アルゴリズムと、自然淘汰の過程を模倣した発見的技術である遺伝的アルゴリズムに基づいていてもよい。
【0073】
第1および/または第2の機械学習モデルを調整するための方法のさらなる詳細および態様は、提案された構想、または上述もしくは後述の1つまたは複数の例に関連して言及される(例えば、
図4~
図6)。第1および/または第2の機械学習モデルを調整するための方法は、提案された構想の1つまたは複数の態様、あるいは上述もしくは後述の1つまたは複数の例に対応する1つまたは複数の任意選択的な付加的特徴を含むことができる。
【0074】
図1a~
図3に関連して、機械学習モデルの調整が述べられてきたが、これは、トレーニング中と本構想の適用中の両方に使用される。
図4には、上記で提示した調整に依存し、その結果として生じる画像分析ワークフローを使用して画像セットを処理する方法が提示されている。両方の方法を同じシステムによって実行してもよいが、分離により両方の方法を分離することも可能である。例えば、トレーニング/調整は、第1のシステム(例えば、ワークステーション、サーバー、またはクラウドノード)によって実行されてもよいが、画像処理は、それぞれの撮像装置(例えば、顕微鏡)と同位置に配置された埋め込みシステムによって実行されてよい。さまざまな例では、トレーニングされたパイプラインは、撮像システムに取り付けられたコンピュータ、スタンドアロンデスクトップコンピュータ、構内サーバーもしくはクラウドもしくは撮像装置に取り付けられた埋め込み装置上に実装されてよい。
【0075】
図4は、生物学的プロセスを表す画像セットを処理するための方法の一例のフローチャートを示す。本方法は、生物学的プロセスを表す画像セットを機械学習モデルに入力するステップ410を含む。機械学習モデル(例えば、
図1a~
図3に関連して論じた第1の機械学習モデル)は、
図1aおよび/または1bの方法に従って、画像分析ワークフローを実行するように、または画像分析ワークフローをパラメータ化するためのパラメータを生成するようにトレーニング/調整される。本方法はさらに、画像分析ワークフローを使用して(例えば、別個のワークフローとして、または機械学習モデルを使用して)、画像セットを処理するステップ420を含む。本方法は、画像分析ワークフローの出力を提供するステップ430を含む。例えば、本方法は、
図1a~
図1bの方法に関連して概説したように実装されてよい。
【0076】
いくつかの例では、画像分析ワークフローの出力を取得することだけでなく、第2の機械学習モデルによって提供される予測仮説を取得することも有用となる場合がある。例えば、本方法は、画像分析ワークフローの出力を第2の機械学習モデルに入力するステップ440を含むことができ、第2の機械学習モデルは、生物学的プロセスを使用して評価される仮説の予測を出力するようにトレーニングされる。本方法は、生物学的プロセスを使用して評価される仮説の予測を提供するステップ450を含むことができる。
【0077】
生物学的プロセスを表す画像セットを処理するための方法のさらなる詳細および態様は、提案された構想、または上述もしくは後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図3、
図5~
図6)。生物学的プロセスを表す画像セットを処理するための方法は、提案された構想の1つまたは複数の態様、または上述もしくは後述の1つまたは複数の例に対応する1つまたは複数の任意選択的な付加的特徴を含むことができる。
【0078】
図5は、上記の方法を実行するのに適したシステムの一例を示している。
図5は、システム510ならびにシステム510と科学的撮像装置520(例えば、実験室用顕微鏡などの顕微鏡)とを含んだ撮像システム500の一例の概略図を示す。システム510は、1つまたは複数のプロセッサ514と、1つまたは複数のストレージデバイス516とを含む。任意選択的に、システム510はさらに、1つまたは複数のインタフェース512を含んでいる。1つまたは複数のプロセッサ514は、1つまたは複数のストレージデバイス516および1つまたは複数のインタフェース512に結合されている。一般に、システム510の機能は、(撮像システム500の1つまたは複数の他のコンポーネントと、科学的撮像装置520の1つまたは複数の光学的撮像センサなどの科学的または外科用撮像システム500の外部と、別のシステム(例えば、クラウドベースのシステム)、または撮像システムのディスプレイ装置とのデータ/情報の交換のための)1つまたは複数のインタフェース512と、(1つまたは複数のプロセッサによって実行されるコンピュータプログラムの機械可読命令などの情報を格納するための)1つまたは複数のストレージデバイス516と、に関連して、1つまたは複数のプロセッサ514によって提供されてよい。一般に、1つまたは複数のプロセッサ514の機能は、機械可読命令を実行する1つまたは複数のプロセッサ514によって実装されてよい。したがって、1つまたは複数のプロセッサ514に割り当てられている任意の機能は、複数の機械可読命令のうちの1つまたは複数の命令によって定義されてよい。システム510は、例えば、1つまたは複数のストレージデバイス516内に機械可読命令を含むことができる。
【0079】
そのようなシステムは、さまざまなタスクを実行するために使用されてよい。例えば、システムは、
図1aおよび/または1bに関連して示された方法を実行するように構成されてよい。代替的または付加的に、システムは、
図4に関連して示された方法を実行するように構成されてもよい。
【0080】
さまざまな例では、システム510は、撮像システムの科学的撮像装置520と共に使用される。特に、システム510は、科学的撮像装置520と同位置に配置されてよい。代替的に、システム510は、サーバー(例えば、クラウドノード)の一部であってもよく、コンピュータネットワークを介して(例えば、インターネットを介して)科学的撮像装置520に結合されてよい。一般に、科学的撮像装置は、処理される画像セットを生成するように構成されてよい。明らかなように、システムは、上記の方法のどの態様がシステムによって実行されるかに依存して、異なるように実装されてよい。例えば、システムは、サーバー、クラウドコンピューティングノード、ワークステーションコンピュータおよび埋め込み装置のうちの1つであってよい。例えば、サーバー、クラウドコンピューティングノード、またはワークステーションコンピュータは、主に機械学習モデルのトレーニングのために、および手元の画像セットに対する機械学習モデルのその後の調整のために使用されてよい。埋め込み装置、すなわち科学的撮像装置と同位置にあるシステムは、画像分析ワークフローを使用して画像セットの処理を実行することができ、十分に強力であれば、手元の画像セットに対する機械学習モデルの調整を実行することができる。
【0081】
システム510の1つまたは複数のインタフェース512は、モジュール内、モジュール間、または異なる実体のモジュール間で、指定されたコードに従ったデジタル(ビット)値であってよい情報を受信および/または送信するための1つまたは複数の入力および/または出力に対応することができる。例えば、1つまたは複数のインタフェース512は、情報を受信および/または送信するように構成されたインタフェース回路を含むことができる。システム510の1つまたは複数のプロセッサ514は、1つまたは複数の処理ユニット、1つまたは複数の処理装置、プロセッサ、コンピュータ、またはそれに応じて適合化されたソフトウェアで動作可能なプログラマブルハードウェアコンポーネントなどの任意の処理手段を使用して実装されてよい。換言すれば、1つまたは複数のプロセッサ514の説明された機能は、ソフトウェアで同様に実装されてよく、次いで、このソフトウェアは、1つまたは複数のプログラマブルハードウェアコンポーネント上で実行される。そのようなハードウェアコンポーネントは、汎用プロセッサ、デジタル信号プロセッサ(DSP)、マイクロコントローラなどを含むことができる。システム510の1つまたは複数のストレージデバイス516は、磁気的または光学的記憶媒体、例えばハードディスクドライブ、フラッシュメモリ、フロッピーディスク、ランダムアクセスメモリ(RAM)、プログラマブル読み出し専用メモリ(PROM)、消去可能プログラマブル読み出し専用メモリ(EPROM)、電子消去可能プログラマブル読み出し専用メモリ(EEPROM)、またはネットワークストレージなどのコンピュータ可読記憶媒体のグループのうちの少なくとも1つの要素を含むことができる。
【0082】
システムおよび撮像システムのさらなる詳細および態様は、提案された構想、または上述もしくは後述の1つまたは複数の例に関連して言及される(例えば、
図1a~
図4、
図6)。システムおよび撮像システムは、提案された構想の1つまたは複数の態様、または上述もしくは後述の1つまたは複数の例に対応する1つまたは複数の任意選択的な付加的特徴を含む場合がある。
【0083】
本明細書で使用されるように、用語「および/または(かつ/または)」は、関連する記載項目のうちの1つまたは複数の項目のあらゆるすべての組み合わせを含んでおり、「/」として略記されることがある。
【0084】
いくつかの態様を装置の文脈において説明してきたが、これらの態様が、対応する方法の説明も表していることが明らかであり、ここではブロックまたは装置がステップまたステップの特徴に対応している。同様に、ステップの文脈において説明された態様は、対応する装置の対応するブロックまたは項目または特徴の説明も表している。
【0085】
いくつかの実施形態は、
図1a~
図5のうちの1つまたは複数の図に関連して説明されたようなシステムを含んでいる撮像装置(例えば、顕微鏡)または撮像システムに関する。択一的に、撮像装置/顕微鏡は、
図1a~
図5aのうちの1つまたは複数の図に関連して説明されたようなシステムの一部であってもよいし、
図1a~
図5aのうちの1つまたは複数の図に関連して説明されたようなシステムに接続されていてもよい。
図6は本明細書に記載された方法を実施するように構成されたシステム600の概略図を示している。システム600は、撮像装置/顕微鏡610とコンピュータシステム620とを含んでいる。顕微鏡610は、撮像するように構成されており、かつコンピュータシステム620に接続されている。コンピュータシステム620は、本明細書に記載された方法の少なくとも一部を実施するように構成されている。コンピュータシステム620は、機械学習アルゴリズムを実行するように構成されていてもよい。コンピュータシステム620と顕微鏡610は別個の存在物であってもよいが、1つの共通のハウジング内に一体化されていてもよい。コンピュータシステム620は、顕微鏡610の中央処理システムの一部であってもよく、かつ/またはコンピュータシステム620は、顕微鏡610のセンサ、アクター、カメラまたは照明ユニット等の、顕微鏡610の従属部品の一部であってもよい。
【0086】
コンピュータシステム620は、1つまたは複数のプロセッサおよび1つまたは複数のストレージデバイスを備えるローカルコンピュータでバイス(例えば、パーソナルコンピュータ、ラップトップ、タブレットコンピュータまたは携帯電話)であってもよく、または分散コンピュータシステム(例えば、ローカルクライアントおよび/または1つまたは複数のリモートサーバファームおよび/またはデータセンター等のさまざまな場所に分散されている1つまたは複数のプロセッサおよび1つまたは複数のストレージデバイスを備えるクラウドコンピューティングシステム)であってもよい。コンピュータシステム620は、任意の回路または回路の組み合わせを含んでいてもよい。1つの実施形態では、コンピュータシステム620は、任意の種類のものとすることができる、1つまたは複数のプロセッサを含んでいてもよい。本明細書で使用されるように、プロセッサは、例えば顕微鏡または顕微鏡部品(カメラ)のマイクロプロセッサ、マイクロコントローラ、複合命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ、グラフィックスプロセッサ、デジタル信号プロセッサ(DSP)、マルチコアプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)または任意の他の種類のプロセッサまたは処理回路等のあらゆる種類の計算回路を意図していてもよいが、これらに限定されない。コンピュータシステム620に含まれ得る他の種類の回路は、カスタム回路、特定用途向け集積回路(ASIC)等であってもよく、例えばこれは、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、双方向無線機および類似の電子システム等の無線装置において使用される1つまたは複数の回路(通信回路等)等である。コンピュータシステム620は、ランダムアクセスメモリ(RAM)の形態のメインメモリ等の特定の用途に適した1つまたは複数の記憶素子を含み得る1つまたは複数のストレージデバイス、1つまたは複数のハードドライブおよび/またはコンパクトディスク(CD)、フラッシュメモリカード、デジタルビデオディスク(DVD)等のリムーバブルメディアを扱う1つまたは複数のドライブ等を含んでいてもよい。コンピュータシステム620は、ディスプレイ装置、1つまたは複数のスピーカーおよびキーボードおよび/またはマウス、トラックボール、タッチスクリーン、音声認識装置を含み得るコントローラ、またはシステムのユーザーがコンピュータシステム620に情報を入力すること、およびコンピュータシステム620から情報を受け取ることを可能にする任意の他の装置を含んでいてもよい。
【0087】
ステップの一部または全部は、例えば、プロセッサ、マイクロプロセッサ、プログラマブルコンピュータまたは電子回路等のハードウェア装置(またはハードウェア装置を使用すること)によって実行されてもよい。いくつかの実施形態では、極めて重要なステップのいずれか1つまたは複数が、そのような装置によって実行されてもよい。
【0088】
一定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。この実装は、非一過性の記録媒体によって実行可能であり、非一過性の記録媒体は、各方法を実施するために、プログラマブルコンピュータシステムと協働する(または協働することが可能である)、電子的に読取可能な制御信号が格納されている、デジタル記録媒体等であり、これは例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROMおよびEPROM、EEPROMまたはFLASHメモリである。したがって、デジタル記録媒体は、コンピュータ読取可能であってもよい。
【0089】
本発明のいくつかの実施形態は、本明細書に記載のいずれかの方法が実施されるように、プログラマブルコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有するデータ担体を含んでいる。
【0090】
一般に、本発明の実施形態は、プログラムコードを備えるコンピュータプログラム製品として実装可能であり、このプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときにいずれかの方法を実施するように作動する。このプログラムコードは、例えば、機械可読担体に格納されていてもよい。
【0091】
別の実施形態は、機械可読担体に格納されている、本明細書に記載のいずれかの方法を実施するためのコンピュータプログラムを含んでいる。
【0092】
したがって、換言すれば、本発明の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに本明細書に記載のいずれかの方法を実施するためのプログラムコードを有するコンピュータプログラムである。
【0093】
したがって、本発明の別の実施形態は、プロセッサによって実行されるときに本明細書に記載のいずれかの方法を実施するために、格納されているコンピュータプログラムを含んでいる記録媒体(またはデータ担体またはコンピュータ読取可能な媒体)である。データ担体、デジタル記録媒体または被記録媒体は、典型的に、有形である、かつ/または非一過性である。本発明の別の実施形態は、プロセッサと記憶媒体とを含んでいる、本明細書に記載されたような装置である。
【0094】
したがって、本発明の別の実施形態は、本明細書に記載のいずれかの方法を実施するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは例えば、データ通信接続、例えばインターネットを介して転送されるように構成されていてもよい。
【0095】
別の実施形態は、処理手段、例えば、本明細書に記載のいずれかの方法を実施するように構成または適合されているコンピュータまたはプログラマブルロジックデバイスを含んでいる。
【0096】
別の実施形態は、本明細書に記載のいずれかの方法を実施するために、インストールされたコンピュータプログラムを有しているコンピュータを含んでいる。
【0097】
本発明の別の実施形態は、本明細書に記載のいずれかの方法を実施するためのコンピュータプログラムを(例えば、電子的にまたは光学的に)受信機に転送するように構成されている装置またはシステムを含んでいる。受信機は、例えば、コンピュータ、モバイル機器、記憶装置等であってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するために、ファイルサーバを含んでいてもよい。
【0098】
いくつかの実施形態では、プログラマブルロジックデバイス(例えばフィールド・プログラマブル・ゲート・アレイ)が、本明細書に記載された方法の機能の一部または全部を実行するために使用されてもよい。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書に記載のいずれかの方法を実施するためにマイクロプロセッサと協働してもよい。一般に、有利には、任意のハードウェア装置によって方法が実施される。
【0099】
実施形態は、機械学習モデルまたは機械学習アルゴリズムの使用に基づいていてもよい。
【0100】
さらに、いくつかの技術が、機械学習アルゴリズムの一部に適用されてもよい。例えば、特徴表現学習が使用されてもよい。換言すれば、機械学習モデルは、少なくとも部分的に特徴表現学習を用いてトレーニングされてもよい、かつ/または機械学習アルゴリズムは、特徴表現学習構成要素を含んでいてもよい。表現学習アルゴリズムと称され得る特徴表現学習アルゴリズムは、自身の入力に情報を保存するだけでなく、多くの場合、分類または予測を実行する前の前処理ステップとして、有用にするように情報の変換も行ってもよい。特徴表現学習は、例えば、主成分分析またはクラスター分析に基づいていてもよい。
【0101】
いくつかの例では、異常検出(すなわち、外れ値検知)が使用されてもよく、これは、入力またはトレーニングデータの大部分と著しく異なることによって疑念を引き起こしている入力値の識別を提供することを目的としている。換言すれば、機械学習モデルは、少なくとも部分的に異常検出を用いてトレーニングされてもよく、かつ/または機械学習アルゴリズムは、異常検知構成要素を含んでいてもよい。
【0102】
いくつかの例では、機械学習アルゴリズムは、予測モデルとして決定木を使用してもよい。換言すれば、機械学習モデルは、決定木に基づいていてもよい。決定木において、項目(例えば、入力値のセット)に関する観察は、決定木のブランチによって表されてもよく、この項目に対応する出力値は、決定木のリーフによって表されてもよい。決定木は、出力値として離散値と連続値の両方をサポートしてもよい。離散値が使用される場合、決定木は、分類木として表されてもよく、連続値が使用される場合、決定木は、回帰木として表されてもよい。
【0103】
相関ルールは、機械学習アルゴリズムにおいて使用され得る別の技術である。換言すれば、機械学習モデルは、1つまたは複数の相関ルールに基づいていてもよい。相関ルールは、大量のデータにおける変数間の関係を識別することによって作成される。機械学習アルゴリズムは、データから導出された知識を表す1つまたは複数の相関的なルールを識別してもよい、かつ/または利用してもよい。これらのルールは、例えば、知識を格納する、操作するまたは適用するために使用されてもよい。
【0104】
本概念では、さまざまな略語や用語が使用されているが、それらを以下に簡単にまとめる。DNNとは、ディープニューラルネットワークのことであり、これは、MLP(Multi-Layer Perceptron)、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)またはトランスフォーマ(主に注意メカニズムに基づくニューラルネットワーク)などの任意のアルゴリズムを含み得る。目標ニューラルネットワークは、本概念においてトレーニングされるディープニューラルネットワークである。画像は、例えば、次元XY(すなわち、2つの横方向寸法XおよびY)、XYZ(すなわち、2つの横方向寸法X+Yに加えて深さ方向寸法Z)、XY+T(XY+時間)、XYZ+C(XYZ+チャネル)、XYZ+T(XYZ+時間)、XYZCT(XYZ+チャネル+時間)、XYZCT+他のモダリティを有するデジタル画像である。換言すれば、n∈Nの2DまたはnDデジタル画像(テンソル)。(画像処理)ワークフローは、i番目のステップの出力が(i+1)番目のステップの入力に通される、複数の画像処理または画像分析ステップの順次連続する実行を指す。
【符号の説明】
【0105】
110 画像セットを入力する
120 画像セットを処理する
130 画像分析ワークフローの出力を提供する
140 画像分析ワークフローの出力を第2の機械学習モデルに入力する
150 ユーザー入力を処理する
160 損失関数を計算する
170 第1および/または第2の機械学習モデルを調整する
200 ユーザ
210 撮像装置
220 データ格納場所
230 画像
240 第1の画像分析モデル/第1の機械学習モデル
250 画像分析ワークフローのためのパラメータ
260 画像分析ワークフロー
270 画像分析ワークフローの出力
280 第2の機械学習モデル
290 予測仮説
295 フィードバック経路
300 音声インタフェースを備えたユーザー
310 ボーカル発声を処理してテキストに変換する
320 テキスト出力
330 プロセス自然言語
340 仮説
350 タイプされたテキストを介した仮説入力
360 ユーザーインターフェースを介した仮説入力
410 画像セットを入力する
420 画像セットを処理する
430 画像分析ワークフローの出力を提供する
440 画像分析ワークフローの出力を第2の機械学習モデルに入力する
450 仮説の予測を提供する
500 撮像システム
510 システム
512 1つまたは複数のインタフェース
514 1つまたは複数のプロセッサ
516 1つまたは複数のストレージデバイス
520 撮像装置
600 システム
610 顕微鏡/撮像装置
620 コンピュータシステム
【外国語明細書】