IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シル,インコーポレイティドの特許一覧 ▶ ジャスミン ヒュームの特許一覧 ▶ ジョフロイ デュブール-フェロノーの特許一覧 ▶ アケミ クニベの特許一覧 ▶ エヤル アケバの特許一覧 ▶ ローレンス リーの特許一覧

特表2024-518021標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム
<>
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図1
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図2
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図3
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図4A
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図4B
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図5A
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図5B
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図5C
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図5D
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図6
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図7
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図8
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図9
  • 特表-標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-24
(54)【発明の名称】標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム
(51)【国際特許分類】
   A23J 3/00 20060101AFI20240417BHJP
   A23J 3/04 20060101ALI20240417BHJP
   A23J 3/20 20060101ALI20240417BHJP
   C12Q 1/02 20060101ALI20240417BHJP
【FI】
A23J3/00
A23J3/04
A23J3/20
C12Q1/02
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023558712
(86)(22)【出願日】2022-03-22
(85)【翻訳文提出日】2023-11-22
(86)【国際出願番号】 US2022021316
(87)【国際公開番号】W WO2022204122
(87)【国際公開日】2022-09-29
(31)【優先権主張番号】17/520,201
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/163,949
(32)【優先日】2021-03-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】523362685
【氏名又は名称】シル,インコーポレイティド
(71)【出願人】
【識別番号】523362696
【氏名又は名称】ジャスミン ヒューム
(71)【出願人】
【識別番号】523362700
【氏名又は名称】ジョフロイ デュブール-フェロノー
(71)【出願人】
【識別番号】523362711
【氏名又は名称】アケミ クニベ
(71)【出願人】
【識別番号】523362722
【氏名又は名称】エヤル アケバ
(71)【出願人】
【識別番号】523362733
【氏名又は名称】ローレンス リー
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【弁理士】
【氏名又は名称】森本 有一
(74)【代理人】
【識別番号】100151459
【弁理士】
【氏名又は名称】中村 健一
(72)【発明者】
【氏名】ジャスミン ヒューム
(72)【発明者】
【氏名】ジョフロイ デュブール-フェロノー
(72)【発明者】
【氏名】アケミ クニベ
(72)【発明者】
【氏名】エヤル アケバ
(72)【発明者】
【氏名】ローレンス リー
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA06
4B063QA18
4B063QR80
4B063QS28
4B063QX01
(57)【要約】
本開示は、工業的食品生産に使用する代替タンパク質源を開発する技術を提供する。本技術は、部分的にインシリコで行われるプロセスによって天然源を探索する。膨大な化合物ライブラリーをサンプリングして試験する代わりに、機械学習および実装により、既知のタンパク質構造に基づく予測モデリングによって機能性候補の分野を絞り込む。この分析によって選ばれた候補タンパク質は、次にハイスループットで生成され、組換え発現や標的機能を有するか否かの試験によってスクリーニングされる。機械学習、データベースマイニング、発現、試験を複数回繰り返すことで、市販食品の一部として評価するのに適した食品成分の候補が得られる。
【特許請求の範囲】
【請求項1】
天然源から食品成分を同定および開発する方法であって、
(a)少なくともタンパク質のアミノ酸配列を含む前記タンパク質の1つまたは複数の構造的特性および/または機能的特性から、前記タンパク質が予め選択された標的機能を有するか否かを予測するコンピュータシステムを訓練することであって、前記コンピュータシステムは、前記標的機能を有することが知られている複数のタンパク質および前記標的機能を有さないことが知られている複数のタンパク質についての前記特性を含む訓練データセットを前記コンピュータシステムに入力することを含む機械学習のプロセスによって訓練される、訓練することと、
(b)ステップ(a)において訓練された前記コンピュータシステムを、タンパク質が前記標的機能を有するか否かが不明な複数の天然由来の前記タンパク質のそれぞれについての前記特性を含むソースデータセットに適用することにより、前記ソースデータセット中のどの前記天然由来のタンパク質が前記標的機能を有するかを予測することと、
(c)前記コンピュータシステムにより、ステップ(b)において前記標的機能を有すると予測された前記タンパク質を同定または順位付けすることによって、タンパク質候補のセットを取得することと、
(d)前記タンパク質候補のそれぞれを組換え発現させ、精製することと、
(e)発現された前記タンパク質候補のどれが前記標的機能を有するかを決定または定量するためのアッセイを実行することと、
(f)ステップ(e)において試験された前記タンパク質候補の構造データおよび/またはアッセイ結果を前記訓練データセットに加えることと、
(g)ステップ(e)において選択された閾値を超える前記標的機能を有すると判断された場合、ステップ(e)においてアッセイされた発現された前記タンパク質候補の1つまたは複数を潜在的食品成分として選択することと、
(h)所望の数の潜在的食品成分が前記閾値を超える前記標的機能を有するものとして選択されるまで、ステップ(a)から(g)のサイクルを追加的に実行することと、
(i)ステップ(g)において選択された前記数の潜在的食品成分の各々を評価し、それが食品調理の一環として所望の機能要件を満たすか否かを判断することと、
を含む方法。
【請求項2】
前記標的機能は、抗菌活性、ゲル化性、保湿、脂肪構造化、粘着性、繊維形成、および特定の風味から選択される、請求項1に記載の方法。
【請求項3】
前記機械学習は、ディープラーニングおよび相同性比較を含む、請求項1または2に記載の方法。
【請求項4】
ステップ(a)における前記訓練およびステップ(b)における前記適用において分析される前記特性は、タンパク質のアミノ酸配列の相同性比較を含む、請求項1乃至3のいずれかに記載の方法。
【請求項5】
ステップ(a)における前記訓練およびステップ(b)における前記適用において分析された前記特性は、結晶学データから得られた、または前記タンパク質のアミノ酸配列から予測された、タンパク質の立体構造の相同性比較をさらに含む、請求項1乃至4のいずれかに記載の方法。
【請求項6】
ステップ(a)における前記訓練およびステップ(b)における前記適用において分析された前記特性は、各タンパク質のアミノ酸およびアミノ酸群の物理化学的および生化学的特性のベクトル表現の相同性比較をさらに含む、請求項1乃至5のいずれかに記載の方法。
【請求項7】
ステップ(c)におけるタンパク質候補の前記同定、および/または、ステップ(g)における潜在的食品成分の前記選択が、前記タンパク質候補または食品成分が1つまたは複数の付加的な望ましい機能または特性を有するか、または、有すると予測されるか否かを評価することも含む、請求項1乃至6のいずれかに記載の方法。
【請求項8】
前記追加の望ましい機能または性質が、発現容易性、精製容易性、保存安定性、混合性、および1つまたは複数の望ましい風味または味覚特性のうちの1つまたは複数を含む、請求項7に記載の方法。
【請求項9】
ステップ(c)におけるタンパク質候補の前記同定、および/または、ステップ(g)における潜在的食品成分の前記選択が、タンパク質が1つまたは複数の望ましくない機能または特性を有するか、または、有すると予測される場合に、タンパク質候補または食品成分としてタンパク質を除去することも含む、請求項1乃至8のいずれかに記載の方法。
【請求項10】
前記望ましくない機能または特性が、予測されるアレルギー誘発性または免疫原性、他の食品成分との不適合性、有害な生理学的作用、および望ましくない風味のうちの1つまたは複数を含む、請求項9に記載の方法。
【請求項11】
ステップ(d)の前に、前記タンパク質候補のセットから、種の同族体および/またはアイソフォームとして同定された1つまたは複数のタンパク質を選択し、除去することをさらに含む、請求項1乃至10のいずれかに記載の方法。
【請求項12】
ステップ(d)が、ステップ(c)において同定された複数のタンパク質候補のそれぞれが、アミノ酸タグ配列も含む融合タンパク質として発現され、前記タンパク質候補が、ステップ(e)において前記アッセイが実施される前に、前記タグ配列に対する共役結合パートナーを用いるアフィニティー分離によって精製される、ハイスループット発現および精製プロセスである、請求項1乃至11のいずれかに記載の方法。
【請求項13】
ステップ(e)の前記アッセイの少なくとも一部を実施するために、前記タグをタンパク質候補に残すが、それらがステップ(i)における前記所望の機能要件を満たすか否かを評価するために、潜在的食品成分から除去する、請求項12に記載の方法。
【請求項14】
タンパク質生成の量および/または質を改善するために、ステップ(d)における前記発現および精製、ならびにステップ(e)における前記アッセイを1回または複数回繰り返す、請求項1乃至13のいずれかに記載の方法。
【請求項15】
ステップ(e)における前記アッセイが、熱安定性、緩衝能、溶解性、および電荷から選択される前記タンパク質候補の1つまたは複数の物理化学的特性を決定または測定することを含む、請求項1乃至14のいずれかに記載の方法。
【請求項16】
ステップ(e)における前記アッセイが、乳化安定性、発泡安定性、ゲル化性、咀嚼性、貯蔵弾性率、水結合能、水中膨潤率、沈降速度、接着性、抗菌活性、および酵素活性から選択される、前記タンパク質候補の1つまたは複数の機能的特性を決定または測定することを含む、請求項1乃至15のいずれかに記載の方法。
【請求項17】
ステップ(a)乃至(g)を繰り返す前に、前記タンパク質候補の1つまたは複数の前記機能的特性に関する情報が前記訓練データセットに追加される、請求項16に記載の方法。
【請求項18】
ステップ(c)において前記コンピュータシステムにより前記標的機能を有すると予測されたが、ステップ(e)においてアッセイされたときに前記標的機能を有さないと判断されたタンパク質をマスク解除して試験することをさらに含み、前記マスク解除することは、
前記標的機能を有すると予測される前記タンパク質の一部が、前記標的機能をマスクすると考えられる前記タンパク質の他の部分から切除された、潜在的にマスク解除されたバージョンの前記タンパク質を組換え発現させ、精製することと、
前記タンパク質の前記潜在的にマスク解除されたバージョンが前記標的機能を有するか否かを判断または測定するために、追加のアッセイを実行することと、
を含む、請求項1乃至17のいずれかに記載の方法。
【請求項19】
ステップ(i)において前記評価することが、組換え発現させるのではなく、天然源または農業源から単離された潜在的食品成分を用いて行われる、請求項1乃至18のいずれかに記載の方法。
【請求項20】
ステップ(i)において試験される前記機能要件が、食品に配合された場合の前記潜在的食品成分による前記標的機能の十分な活性、および前記食品の規制要件への適合を含む、請求項1乃至19のいずれかに記載の方法。
【請求項21】
天然源から食品成分を同定し、開発する方法であって、
(1)コンピュータシステムを用いて、各タンパク質が前記タンパク質の構造的特徴および/または機能的特性のベクトル表現によって特徴付けられるタンパク質のデータベースにアクセスすることと、
(2)タンパク質の前記データベースから、前記データベース中の他のタンパク質の重複または断片であるタンパク質が除去されたサブセットを生成することと、
(3)各タンパク質の構造的特徴および/または機能的特性のベクトル表現のペアごとの比較により、前記サブセットをクラスタにグループ化することであり、これにより、各クラスタ内のタンパク質は、ベクトル表現の同じ最小の類似度を含む、グループ化することと、
(4)経験的試験のために所望の数のクラスタが得られるまで、ステップ(3)においてクラスタを定義するために使用される前記類似度を調整することと、
(5)ステップ(4)において得られた各クラスタ内のタンパク質を、そのクラスタの代表として選択することと、
(6)前記代表タンパク質のそれぞれを組換え発現させ、精製することと、
(7)発現された前記代表タンパク質のどれが前記標的機能を有するかを判断または定量するためのアッセイを実行することと、
(8)前記クラスタの前記代表タンパク質が、選択された閾値を超える前記標的機能を有する場合、潜在的食品成分を含むものとして前記クラスタの1つまたは複数を選択することと、
(9)ステップ(8)において選択された前記クラスタのそれぞれにおける複数のタンパク質を発現させ、精製し、アッセイすることにより潜在的食品成分を同定し、前記選択されたクラスタにおける前記複数のタンパク質のどれが、選択された閾値を超える前記標的機能を有するかを判断または定量することと、
(10)ステップ(9)において選択された前記数の潜在的食品成分の各々を評価し、食品調理の一環として所望の機能要件を満たすか否かを決定することと、
を含む、方法。
【請求項22】
ステップ(c)乃至(g)が、
(1)各タンパク質の構造的特徴および/または機能的特性のベクトル表現のペアごとの比較によって、ステップ(b)において予測された前記タンパク質をクラスタにグループ化し、これにより、各クラスタ内のタンパク質がベクトル表現の同じ最小の類似度を含むようにすることと、
(2)ステップ(1)において得られた各クラスタ内のタンパク質を、そのクラスタの代表として選択することと、
(3)ステップ(2)で選択された前記代表タンパク質を組換え発現させ、精製することと、
(4)発現された前記代表タンパク質のどれが前記標的機能を有するかを判断または定量するためのアッセイを実施することと、
(5)前記クラスタの前記代表タンパク質が、選択された閾値を超える前記標的機能を有する場合、潜在的食品成分を含む前記クラスタのうち1つまたは複数を選択することと、
(6)ステップ(5)において選択された前記クラスタのそれぞれにおける複数のタンパク質を発現させ、精製し、アッセイして、前記選択されたクラスタ中の前記複数のタンパク質のどれが、選択された閾値を超える前記標的機能を有するかを判断または定量することにより、潜在的食品成分を同定することと、
を含むクラスタ分析を含む、請求項1乃至20のいずれかに記載の方法。
【請求項23】
各タンパク質の前記ベクトル表現は、配列長、疎水性アミノ酸の数、前記タンパク質の前記表面に配置されたシステイン残基の数、5個のアミノ酸より長い無秩序領域の数、ドメイン構造、アルファヘリックスまたはベータシートの割合、天然の状態での細胞内局在、結合活性、および酵素活性から選択される5つ以上の特徴を含む、請求項21または22に記載の方法。
【請求項24】
各クラスタの前記代表タンパク質が、前記クラスタの前記重心を決定することによって得られる、請求項21から23のいずれかに記載の方法。
【請求項25】
従来の食品成分を代替物に置き換えた食品を調製する方法であって、
置換される前記従来の食品成分の1つまたは複数の標的機能を同定することと、
前記従来の食品成分の代わりに、前記標的機能を有するものとして、請求項1乃至24のいずれかに記載の方法に従って同定および開発された食品成分を使用して、前記食品を調製することと、
を含む、方法。
【請求項26】
商品流通のために請求項25の方法に従って調製された食品。
【請求項27】
商業的に生産される食品中の前記標的機能を増加または増強させるために、請求項1乃至24のいずれかに記載の方法に従って同定された食品成分を前記商業的に生産される食品中の成分として使用すること。
【請求項28】
商業的に生産される食品において、同じ標的機能を有する成分を置き換えるために、請求項1から24のいずれかに記載の方法に従って同定された食品成分を使用すること。
【請求項29】
選択された工業プロセスにおいて使用するために所望の標的機能を有するタンパク質を同定し、開発する方法であって、
(a)少なくともタンパク質のアミノ酸配列を含む前記タンパク質の1つまたは複数の構造的特徴および/または機能的特徴から、前記タンパク質が予め選択された標的機能を有するか否かを予測するために、コンピュータシステムを訓練することであって、前記コンピュータシステムは、前記標的機能を有することが知られている複数のタンパク質および前記標的機能を有さないことが知られている複数のタンパク質についての前記特徴を含む訓練データセットを前記コンピュータシステムに入力することを含む機械学習のプロセスによって訓練される、訓練することと、
(b)ステップ(a)において訓練された前記コンピュータシステムを、前記タンパク質が前記標的機能を有するか否かが知られていない複数の天然由来のタンパク質のそれぞれについての前記特性を含むソースデータセットに適用することにより、前記ソースデータセットにおける前記天然由来のタンパク質のどれが前記標的機能を有するかを予測することと、
(c)ステップ(b)において前記標的機能を有すると予測された前記天然由来のタンパク質を前記コンピュータシステムにより同定または順位付けすることにより、タンパク質候補のセットを取得することと、
(d)前記タンパク質候補のそれぞれを組換え発現させ、精製することと、
(e)発現された前記タンパク質候補のどれが前記標的機能を有するかを判断し、または定量するためのアッセイを実行することと、
(f)ステップ(e)において試験された前記タンパク質候補の構造データおよび/またはアッセイ結果を前記訓練データセットに追加することと、
(g)ステップ(e)においてアッセイされた、発現された前記タンパク質候補の1つまたは複数が、選択された閾値を超える前記標的機能を有するものとしてステップ(e)において決定された場合、前記工業プロセスにおける使用の可能性を有するものとして選択することと、
(h)前記工業プロセスにおける使用の可能性を有する所望の数のタンパク質が、前記閾値を超える前記標的機能を有するものとして選択されるまで、ステップ(a)から(g)の追加のサイクルを実行することと、
(i)ステップ(g)において選択された前記数のタンパク質のそれぞれを評価し、前記工業プロセスにおける所望の機能要件を満たすか否かを決定することと、
を含む方法。
【請求項30】
前記工業プロセスが、バイオ燃料、化学ポリマー、プラスチック、潤滑剤、界面活性剤、可溶化剤、分散促進剤、コーティング剤、セラミックス、インク、繊維製品、農業飼料、医薬品の成分、化粧品、およびヒトが消費する食品成分およびその製品から選択される製品の製造である、請求項29に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
先の出願への言及
本特許開示は、2021年3月22日に出願された米国特許出願63/163,949および2021年11月5日に出願された米国特許出願17/520,201の優先権の利益を主張する。優先権出願は、あらゆる目的のために、参照によりその全体が本明細書に組み込まれる。
【0002】
以下に開示され、特許請求される技術は、一般に、新規食品成分の天然源(natural sources)の同定に関するものである。この技術は、生体分子の構造的特性および機能的特性のコンピュータによる予測および学習、これまでに解析されていないタンパク質のハイスループット生産、および食品に適したタンパク質の物理化学的および感覚的特性に関するアッセイの各分野を組み合わせたものである。
【背景技術】
【0003】
農業は、気候変動、水不足、大気汚染、土地の劣化、森林伐採の原因として重要な役割を果たすなど、環境に多大な影響を与えている。世界の食料システムは、温室効果ガス排出量の約37%を占めている。現在、世界の淡水の7%が農業に使用されている。2050年までに、世界の人口は97億人を超えると予想されている。世界人口の増加する需要を満たすには、きれいな水と耕作可能な土地が不足している。
【0004】
世界銀行と国連が最近発表した権威ある報告書によると、2050年までこのペースで世界の人口に食料を供給し続けると、世界に残っている森林のほとんどが伐採され、何千もの種が絶滅し、たとえ他のすべての人間活動による排出がなくなったとしても、パリ協定の最大温暖化目標である1.5℃および2℃を超える量の温室効果ガスが排出されることになるという。持続可能で栄養価の高い食品を提供するために、農業および食品マーケティングに対する現在のアプローチを変えることが急務である。
【発明の概要】
【0005】
本開示は、工業的な食品生産に使用する代替タンパク質源を開発する技術を提供する。Shiru,Inc.は、現在市販の食品に使用されている成分を、構造はわかっているものの、所望の標的機能がこれまで知られていなかったタンパク質で置き換えることができるというアイデアから、事業を成功させてきた。
【0006】
製薬産業は、数十年にわたり、抗生物質として作用する、または他の治療効果を有する、天然ではあるが未確認の小分子を探索するために、生物学的に多様な豊かな環境(熱帯雨林の林冠および海底)を探索してきた。ここで説明する技術は、天然源の探索と同じ前提に基づいて構築されているが、探索の一部がインシリコ(in silico)で行われる点が異なる。
【0007】
この技術では、遠方や広範囲の環境から化合物の膨大なライブラリーをサンプリングして試験する代わりに、既知のタンパク質構造から導き出される予測機能モデリングによって機能候補の分野を絞り込む。このようにして選択されたタンパク質候補は、組換え発現と経験的試験(empirical testing)によって迅速にスクリーニングされ、目的の機能を有し、食品素材としてさらなる開発に適しているか否かを判断することができる。
【0008】
本開示の技術の特徴の一部
本開示は、(とりわけ)複合製品(combined product)の製造に使用するタンパク質を同定し、開発するための探索方法を提供する。
【0009】
まず、機械学習に適合したコンピュータシステムは、類似のタンパク質をまとめてグループ化するように、および/またはタンパク質が予め選択された標的機能を有するか否かを予測するように学習され、ここで標的機能は、プロジェクトが取り組む分野に基づいて選択される。特定のタンパク質が所望の標的機能を果たす能力は、タンパク質の1つまたは複数の構造的特性および/または機能的特性(多くの場合、少なくともタンパク質のアミノ酸配列を含む)からコンピュータによって予測され得る。付加的な構造的特性には、結晶学データから得られる三次元タンパク質構造、またはタンパク質のアミノ酸配列から予測されるものが含まれる。その他の機能的特性としては、分子量、電荷、等電点、水溶液中での溶解度、疎水性、他のタンパク質またはタンパク質クラスに対する結合親和性などが挙げられる。
【0010】
コンピュータシステムは、標的機能を有することが知られている複数のタンパク質についての上記特性を含み、標的機能を有しないことが知られている複数のタンパク質についての上記特性も含む訓練データセットをコンピュータシステムに入力することを含む機械学習のプロセスによって学習される。
【0011】
学習の後、コンピュータシステムは、ソースデータセット(可能性の高い候補からなる、または可能性の高い候補を含むデータベースなど)に適用される。データベースは、主に「天然由来の」タンパク質を含む場合があり、これは、自然界の生物学的供給源において同定され得るか、または組換えDNA技術を使用せずに生物学的供給源から単離され得るか、または他の方法で取得できるタンパク質を意味する。データベースは、少なくとも各タンパク質のアミノ酸配列を含む、データベースに含まれる各タンパク質の構造的特徴および他の特徴を含む。
【0012】
学習されたコンピュータシステムは、データベース中のタンパク質を評価し、標的機能を有すると予測される(しかしながら、通常は、まだ知られていない)タンパク質候補を同定または順位付けするリストを編集する。ステップにおける学習で分析される特性、および/または標的機能を予測する際に含まれる特性には、タンパク質のアミノ酸配列、タンパク質の三次元構造(結晶学データから得られるか、またはタンパク質のアミノ酸配列から予測される)、各タンパク質中のアミノ酸および/またはアミノ酸群の物理化学的および生化学的特性のベクトル表現の構造的特徴の1つまたは複数の類似性に関する相同性比較が、任意の組み合わせで含まれる場合があり、任意選択的にタンパク質全体の特性のベクトル表現と組み合わされる。
【0013】
次に、経験的評価(Empirical evaluation)が行われる。コンピュータが作成したリスト上のタンパク質の候補を組み替えて発現させ、ハイスループットで精製する。これには、各タンパク質をタグで発現させ、コンジュゲート結合パートナーを使用したアフィニティー精製にタグを使用することも含まれる。次いで、単離されたタンパク質をアッセイして、発現したタンパク質候補のどれが実際に標的機能を有するかを決定または定量する。発現および精製は、タンパク質の生産量および/または質を向上させるために、1回または複数回繰り返すことができる。発現、精製、アッセイは、一般に、ハイスループットスクリーニングを促進する方法で行われる。発現したタンパク質が標的機能を果たす能力の他に、経験的評価には、熱安定性、緩衝能、溶解性、電荷から選択される物理化学的特性などの他の特徴を決定または測定することが含まれる。
【0014】
発現されたタンパク質候補のうち、ある閾値を超える、または満足できるレベルの標的機能を有すると判断された1つまたは複数が、さらなる検査のために選択される。これには、タンパク質がその意図された目的に照らして、所望の機能要件を満たすか否かを判断するための追加の試験が含まれる。工業生産の場合、タンパク質は天然または農業由来のものから単離されるか、ハイスループット評価に使用されるプロセスとは異なるシステムで組み換え生産される。
【0015】
コンピュータ予測および経験的スクリーニングは、反復的または循環的に行うことができ、試験されたタンパク質候補の構造データおよび/またはアッセイ結果が、訓練データセットに追加される。意図された用途に適した特性を有する所望の数のタンパク質が選択されるまで、1回または2回以上の予測、発現、および試験の追加のサイクルを行うことができる。予測、発現、および試験の1回のパススルーで得られる潜在的なタンパク質の数がユーザの目的にとって十分であれば、追加の反復は任意である。意図された目的のための潜在的な成分の数が得られたら、通常、各タンパク質がその意図した状況、または、その代用として製造され、それが所望の機能要件を満たすか否かを判断する。
【0016】
使用分野およびユーザの目的に応じて、本技術は、任意に、機械学習なしで、および/または反復なしで実施することができる。状況によっては、アミノ酸配列データの相同性比較を主要な焦点として使用せずに技術を実施することもできる。その代わりに、比較は、タンパク質の三次元構造、および/または個々のアミノ酸およびそのグループの構造的および三次元的特徴のベクトル表現を用いて、データベース内のタンパク質と、標的機能を有することが知られているタンパク質とを比較することによって行う。これにより、標的機能を有することが知られているタンパク質と配列相同性を共有していない場合でも、コア構造が共有されているため、標的機能を有する可能性のある候補を同定することができる。
【0017】
アミノ酸分析に密接に基づく分析に加えて、またはその代替として、データベース中の複数のタンパク質は、アミノ酸およびアミノ酸群の物理化学的および生化学的特性のベクトル表現として符号化される(典型的には、ユーザからの入力と組み合わせて適切にプログラムされたコンピュータの人工知能を使用する)。次に、データベース中のタンパク質のベクトル表現は、所望の標的機能を有することが分かっているタンパク質のベクトル表現と比較される。
【0018】
また、本開示は、クラスタ分析を用いたタンパク質選択方法を提供する。これは、通常、各タンパク質がタンパク質の構造的特徴および/または機能的特性のベクトル表現によって特徴付けられるタンパク質のデータベースから始まる。任意選択で、データベース中の他のタンパク質の重複または断片であるタンパク質が除去される。残りのタンパク質は、例えば、各タンパク質の構造的特徴および/または機能的特性のベクトル表現のペア毎の比較によって、類似性のあるクラスタにグループ化される。これにより、各クラスタ内のタンパク質が同じ類似度のベクトル表現を含む配列空間が生成される。任意選択で、ユーザは、試験用に必要な数のクラスタが得られるまで(通常は試験能力に合わせて)クラスタの定義に使用される類似度を調整して、クラスタリングを再実行することができる。
【0019】
各クラスタについて、(例えば、重心決定によって)代表タンパク質が選択される。次に、ユーザは、各代表タンパク質(protein representatives)を組み換えにより発現および精製し、発現した代表タンパク質のどれが標的機能を有するかを決定または定量するためのアッセイを実施し、クラスタの代表タンパク質が選択された閾値を超える標的機能を有する場合、潜在的食品成分を含むものとしてクラスタの1つまたは複数を選択する。潜在的な食品成分は、標的機能の発現のために選択された各クラスタのタンパク質を発現、精製、アッセイすることによって同定される。次に、クラスタから選択された多数の潜在的食品成分のそれぞれが、食品の調理の一部として所望の機能要件を満たすか否かを判断するために試験される。
【0020】
クラスタ分析は、上記で言及した反復的な機械学習プロセスに組み込むこともできるし、独立した選択方法として行うこともできる。公開された情報または予測モデリングに基づいて、標的機能を有すると推測されるタンパク質を、分析の種として使用することができる。解析に使用されるベクトル表現には、アミノ酸配列の表現、および/または他の構造的特徴、および/または後のセクションで列挙される機能的特性を含めることができる。
【0021】
探索システムの様々な手順およびステップは、明示的に記載されているか、または別途要求されている場合を除き、特定の順序で実行する必要はない。多くの場合、経験的評価の結果は、継続的にコンピュータシステムを学習するために使用され、コンピュータシステムは、標的機能を有すると予測されるタンパク質のリストに追加のタンパク質を候補に挙げるために、継続的にデータベースを探索し続ける。
【0022】
新規食品成分の開発技術の利用
コンピュータによる予測、発現、およびスクリーニングのこれらの探索方法は、所望の特性を有する食品調製物(food preparations)のための成分を同定するために、その特性を食品に導入する目的で、またはそのような食品においてより伝統的に使用される他のタンパク質(潜在的に動物由来)の代替物もしくは補充物として使用することができる。同じ探索方法は、以下の説明に記載されているように、他の製造分野で使用するタンパク質の探索および開発にも適用することができる。
【0023】
タンパク質データベース中に種の同族体(species homologs)が存在すると、コンピュータによって選択されるタンパク質候補のリストが歪められ、他のタンパク質候補よりも、比較的多くの種の同族体を有するタンパク質クラスが優先される可能性がある。初期リストを作成する目的で、ユーザは、教師ありまたは教師なしのいずれかの方法で、タンパク質候補のセットから、種の同族体および/またはアイソフォームとして同定されたタンパク質を削除またはダウングレードすることを決定することができる。その後、選択を改良する目的で、ユーザは、さらなる開発が期待できると経験的に評価されたタンパク質の同族体にコンピュータの選択基準を集中させることを決定することができ、それにより、最終的な検査にどの同族体を使用すべきかの選択を最適化することができる。
【0024】
場合によっては、コンピュータ解析によってタンパク質に存在すると予測された機能が、経験的試験では明確ではないことがある。これは、その機能は潜在的に存在するが、化学量論的または他の手段によってタンパク質内に「マスク」(隠蔽)されていることを意味する。このような状況では、タンパク質候補の開発、評価、最終的な選択には、標的機能のマスク解除(unmasking)が含まれる。このマスク解除は、標的機能を有すると予測されるタンパク質の一部を、標的機能をマスクすると考えられるタンパク質の他の部分から切除した、潜在的にマスク解除されたバージョンのタンパク質を組換えにより発現させ、精製し、潜在的にマスク解除されたバージョンのタンパク質が標的機能を有するか否かを判断または測定するための追加のアッセイを実施することによって行うことができる。試験のために発現されるタンパク質、または意図された提案のために最終的に選択されるタンパク質は、天然由来のタンパク質の切断バージョン、または天然由来のタンパク質またはその切断バージョンを含む融合タンパク質である可能性がある。
【0025】
探索方法は、コンピュータ予測フェーズにおいてタンパク質を選択すること、またはタンパク質が標的機能を実行する能力に加え、他の望ましい特徴に基づく経験的評価に続いて有望な候補を選択することも含むことができる。肯定的な選択基準には、溶解性、発現容易性、精製容易性、保存時の安定性、および混合性が含まれる。否定的な選択基準には、潜在的な毒性、環境への悪影響などがある。このような基準は、候補の順位付けのプロセスにおいてコンピュータアルゴリズムによって予測され、かつ/または経験的評価で決定され、その組み合わせは自由である。
【0026】
本開示の探索システムは、任意の適切な目的のために、潜在的な食品成分を同定するために使用することができる。本システムを使用する理由としては、食品成分の動物由来または持続不可能な供給源を適切な代替物で置き換えることや、食品を改良するために特定の機能または特性を付与または増強することなどが考えられる。
【0027】
食品を開発する観点から、「標的機能」とは、食品成分、添加物、および最終製品の観点において展開される場合のタンパク質の機能、特性、または所望の挙動である。標的機能は、製造中、保管中、調理時、消費時、またはそれらの任意の組み合わせにおいて発揮される。食品成分として考えられる標的機能としては、抗菌活性、ゲル化性、咀嚼性、貯蔵弾性率、水結合能、水中での膨潤率、接着性、抗菌活性、他の食品成分に関連する酵素活性、保湿性、脂肪構造、粘着性、繊維形成、特定の風味などがある。特定の標的機能についての選択および試験は、1つまたは複数の他の標的機能についての選択および試験と順次にまたは同時に行うことができる。
【0028】
最終的な検査で使用される潜在的食品成分の機能要件には、食品に配合された場合の潜在的食品成分による標的機能の十分な活性、および食品による規制要件への適合性が含まれ得る。
【0029】
本開示は、上記の探索システムによって選択され、評価された、従来、食品成分として使用されていなかったタンパク質を含む食品を調製する方法を提供する。従来の食品成分は、例えば、置換される従来の食品成分の1つまたは複数の標的特性を同定し、次いで、当該標的特性を有するものとして探索システムに従って同定および開発された食品成分が従来の食品成分を置換する食品を調製することによって、探索システムによって同定されたタンパク質で置換され得る。また、本開示は、上記の探索システムによって選択され、評価されたタンパク質を組み込んで調製された食品を提供する。
【0030】
他の産業用途への本技術の使用
本開示による、コンピュータによる選択と経験的試験の組み合わせを反復学習サイクルで併用する方法は、他の商業的な製造および利用の場面での使用にも適している。その製造および使用に適切な標的特性を有するタンパク質は、タンパク質データベースから抽出され、その意図された状況で経験的に試験される。本開示で提唱する本開示のタンパク質探索システムの産業応用について以下に説明する。
【0031】
このような用途には、バイオ燃料、化学ポリマー、プラスチック、潤滑剤、界面活性剤、可溶化剤、分散促進剤、コーティング剤、セラミック、インク、繊維製品、医薬品の成分、化粧品、農業用飼料およびその製品の製造、展開、使用が含まれる。
【0032】
本発明、その製品、その製造、および使用の追加の態様、実施形態、特徴、および特性は、以下の項目、添付の図面、および添付の特許請求の範囲に記載されている。
【図面の簡単な説明】
【0033】
図1図1は、標的機能(100)を有する新規食品成分(800)を同定するために本開示に従って使用できる探索フライホイールを示している。探索システムは、機械学習(700)の反復サイクルを使用して、標的機能を有すると予測される候補タンパク質(300)を求めてタンパク質データベース(200)を探索し、これらのタンパク質は、次いで、生成(400)され、経験的に評価(500)される。試験(600)の結果は、食品成分800としてさらに試験するための有望な候補をノミネートするために使用される。また、データは、アクティブラーニングの一部としてフィードバックされ、タンパク質データベース(200)の探索と、サイクルの次の反復における機能性タンパク質(300)の予測を強化する。
図2図2は、訓練データとして、また、標的機能を有する新規食品成分を探索および予測するためのリソースとして利用することができる、数種類のタンパク質データベース(201、202、203、および204)を示す。
図3図3は、コンピュータシステムが、符号化されたデータ(301)の予測モデリング(302)を使用して、実験的特性評価のためのタンパク質候補(303)を同定し、選択する方法を示す。
図4A図4Aは、コンピュータシステムによる学習および解析のための配列データおよびタンパク質の特性の符号化を示す。
図4B図4Bは、タンパク質の機能を予測するための機械学習のオプションコンポーネントとして使用できる、様々なタイプのコンピュータプロセス(302a~302d)を示すチャートである。
図5A図5Aは、所望の特性を有するタンパク質が、クラスタ分析によってどのように選択され得るかを示す。データベース中のタンパク質は、アミノ酸配列の同一性またはベクトルの特徴などの標準的な類似性尺度によってクラスタ化される。各クラスタを代表するタンパク質が試験され、陽性クラスタから標的機能を有する他のタンパク質が抽出される。
図5B図5Bは、所望の特性を有するタンパク質が、クラスタ分析によってどのように選択され得るかを示す。
図5C図5Cは、所望の特性を有するタンパク質が、クラスタ分析によってどのように選択され得るかを示す。
図5D図5Dは、所望の特性を有するタンパク質が、クラスタ分析によってどのように選択され得るかを示す。
図6図6は、経験的特性評価(409)のために、候補タンパク質を調達(404)し、精製(405)するプロセスフローを示す。
図7図7は、分子アッセイ(501)、機能アッセイ(504)、および食品科学アッセイ(506)によって、候補タンパク質を特性評価するために使用される後続のステップを示す。
図8図8は、アッセイ結果(601)が、内部タンパク質データベース(204)に追加するために、どのように抽出され、かつ、タンパク質候補がベンチマークを満たし、潜在的な食品成分(800)としてノミネートされる適格性があるか否かを評価(603)するために、どのように使用されるかの詳細を示す。
図9図9は、アクティブラーニングが、タンパク質予測(300)、タンパク質生成(400)、および特性評価アッセイ(500)から、どのようにデータを抽出し、それを内部データベース204にフィードバックして、プロセスの次の反復のための予測モデリングの能力を向上させるかを示す。
図10図10は、本開示に従ってタンパク質の選択、機械学習、およびデータ計算を実施することができるコンピュータシステムのサブシステムアーキテクチャを示す。
【発明を実施するための形態】
【0034】
本開示で提供される食品成分探索プロセスは、タンパク質データベースで利用可能な構造情報からタンパク質の機能を予測するコンピュータ主導のモデリングを使用する。候補タンパク質は、ハイスループットプロセスによって経験的に生産および試験され、それらが所望の閾値またはベンチマークを超える標的機能および他の望ましい特性を有するか否かを判断する。有望な候補は、商業的に生産される食品に含めるための代替または補助成分として、さらなる開発のためにノミネートされる。
【0035】
本技術の利点
食品産業では、消費する資源が少なく、環境への影響が少ない新たな食料資源の開発に大きな関心が寄せられている。植物や細胞培養で生産された成分の利用について、広範な研究が進められている。残念なことに、植物ベースの製品は、味も感触も風味も、代替となる動物由来の製品や化工品と似ていないため、従来の食材よりも好まれない。これらの欠点を克服できる天然由来の原料を同定したり、従来の原料よりも優れた特性を有する優れた素材を見つけたりすることができれば、消費者の食生活を改善し豊かにすると同時に、環境目標も達成することができる。
【0036】
本開示の成分探索および開発技術には、従来のアプローチと比較して、いくつかの大きな利点がある。
・天然食品成分の潜在的供給源は、特定の植物製品カタログに限定されない。あらゆるタンパク質データベースが初期スクリーニングのためにコンピュータで探索できるため、潜在的な供給源は、構造的に特徴付けられたタンパク質に関する一般に入手可能な知識の範囲によってのみ制限される。
・タンパク質の機能の予測は、単純な配列アライメントに限定されない。機械学習、タンパク質の特徴のベクトル表現、実験室でのアッセイを統合することにより、システムは特定の標的機能にとってどのような特徴が重要であるかを継続的に学習し、それによって適切な候補を幅広く提供する。
・学習プロセスの一部としてハイスループット発現と実験室での分析を使用することで、探索プロセスを実世界での有効性に結びつける。これにより、ユーザは候補タンパク質を幅広く調査し、その後、最終的な検査(workup)のために候補リストを絞り込むことができる。その結果、理想的な食品成分が同定され、特定の目的を満たすように特徴付けられる。
・広範なデータベースから反復的にタンパク質を調達し、試験し、各サイクルを改善する能力は、代替となる動物由来の調理特性や食感特性を模倣した非動物性原料から原材料を入手するための優れたアプローチである。
【0037】
標的タンパク質機能の反復的予測および試験
図1は、本技術に従って実施可能な、手順およびイベントの反復システムの概要を表すフローチャートである。
【0038】
ユーザは、探索プロセスをガイドするために、最初に、新規食品成分の標的タンパク質の機能(100)を選択する。標的タンパク質の機能の選択は、タンパク質の物理化学的特性がタンパク質の機能にどのように影響するかを部分的に説明する1つまたは複数の仮説に基づいて行われる場合がある。これらの仮説は、データのキュレーションをガイドするために使用することができる。
【0039】
データ処理には、タンパク質の構造および特性に関する関連情報を含む1つまたは複数のデータベース(200)のキュレーションが含まれ、コンピュータの学習用および新規成分の供給源の両方として使用される。これらのデータベースは、公開されているタンパク質およびゲノムデータベースからの情報、他の機関との提携を通じて取得したメタデータ、および/または、過去の試験データやタンパク質の特性および機能の予測から経験的に取得できる内部情報または独自情報を含み得る。
【0040】
1つまたは複数のタンパク質の機能が予測され(300)、機械学習と従来のバイオインフォマティクス解析を組み合わせたアプローチを用いて候補が選択される。このプロセスの出力は、候補タンパク質のセットであり、それらは、標的機能の程度または望ましい特徴の組み合わせの観点から順位付けされ得る。選択されるタンパク質の数は、通常、探索プロセスの各サイクルにおいて、候補タンパク質を生成し、特性評価する研究室の能力によって、制限される。
【0041】
選択後、候補タンパク質が生成され(400)、試験のために精製される。候補タンパク質の迅速なスクリーニングのために、選択されたタンパク質は、通常、各候補を符号化するポリヌクレオチドで宿主細胞株または系を形質転換または形質導入することにより、組換え発現によって生成される。次いで、標的機能を有すると予測され、組換え発現されたタンパク質は、標的機能(100)、および潜在的に他の物理化学的および/または機能的特性について、特性評価される(500)。タンパク質の特性評価中に実行される分析測定によって生成された生データは、機能評価に役立つ重要な特徴を抽出するために処理される(600)。
【0042】
候補タンパク質が標的機能(100)を実行する能力の評価は、データベース内の様々な成分ベンチマークまたは他の既知の機能性タンパク質の機能に対して評価することができる。タンパク質が所望の機能目標を達成できなかった場合であっても、そのデータは、システムを再学習させるために、内部タンパク質データベースに再び追加され、アクティブ機械学習による探索のその後の段階において、標的機能(100)を有する機能性タンパク質(300)を予測し、探索する能力を向上させる。タンパク質が機能要件を満たした場合、開発を継続するためにノミネートされる可能性がある。ノミネートされたタンパク質は、試作食品(800)の成分として試験され、商業的生産に使用できるか否かが決定される。
【0043】
隠れた機能をマスク解除すること
本明細書で説明する食品成分探索プロセスは、天然源からのタンパク質を新たな方法で利用するものである。本開示の技術は、既知のタンパク質について従来は評価されていなかった特性を探索し、開発する能力を多く引き出すものである。本技術の所有者は、有用な食品成分として抽出することができ、食品生産および販売事業を刷新することができる、隠れた機能を有するタンパク質が豊富に存在すると信じている。
【0044】
天然由来のタンパク質のいくつかの機能には、これまで知られていなかったものがあり、それにはいくつかの理由がある。
1.標的機能を有するタンパク質の天然源は、食品成分の供給源として伝統的に考えられてきたものではない可能性がある。
2.天然源におけるタンパク質の濃度が低すぎて、通常の食品開発の過程でその特性が実証されてこなかった可能性がある。
3.タンパク質の機能が、自然の状態では、他の、または、より顕著な特性を有している他の成分によって覆い隠されている可能性がある。
4.標的機能を有する天然由来のタンパク質の部分が、そのタンパク質の残りの部分の構造や機能の中で覆い隠されている可能性がある。
【0045】
本開示に記載の技術は、これらの方法のいずれにおいても、従来は隠されていたタンパク質の機能を探索するのに適している。図1において、タンパク質配列データベース(200)を候補の供給源として使用することは、伝統的な食材の供給源を越えて、天然源や濃度に関係なく、標的機能を有すると予測されるあらゆるタンパク質を前面に出すため、これらの障壁のうち最初の2つを克服する。第3の障壁は、生成段階(400)で、特性評価(500)を目的としたタンパク質の組換え発現によって克服される。試験を混乱させる天然源の他の成分から、有望な候補を精製する必要はない。その代わりに、候補タンパク質は宿主細胞や培養ブロスの他の成分から分離されるだけでよく、これは確立された培養条件下で生産されるほとんどの候補タンパク質にとって日常的な事項である。
【0046】
第4の障壁に対処するには、複合タンパク質の有望な部分を、タンパク質の残りの部分からマスク解除することが必要である。このことは、候補タンパク質が予測段階(300)で高い得点を得たが、特性評価段階(500)で標的機能が非常に低いことを示した場合に考慮される。予測結果はさらに分析され、標的機能を有すると思われるタンパク質の部分が同定される。次に発現ベクターは、符号化されたタンパク質の5´末端および/または3´末端のオープンリーディングフレームをトリミングするように適合され、標的機能の発現を妨げるタンパク質の他の部分が存在しない状態で、タンパク質の関連部分をそれ自体で産生できるようにする。タンパク質の単離された部分または断片は、生成および精製(400)され、標的機能および他の望ましい特性について特性評価段階(500)で再検査される。タンパク質の断片化と抽出は、標的機能をマスク解除したり強化したりするためだけでなく、他の不要な特性や機能を除去したり、単にタンパク質の量を減らしたりするためにも行うことができる。
【0047】
意図された使用に照らして許容される場合は、天然由来のタンパク質の構造からの他の改変も許容される。タンパク質の切断または欠失の他に、天然由来のタンパク質またはその断片の変異体を生成するために、タンパク質を1つまたは複数のアミノ酸変化で適合させることができ、それによって所望の特性を付加するか、所望でない特性を除去するか、または他の任意の理由で適合させることができる。通常、このような変異体は、天然由来のタンパク質またはその断片と比較して、アミノ酸配列の点で少なくとも95%、98%、または99%同一である。
【0048】
あるいは、それに加えて、ユーザは組換え技術を使用して、標的機能を有するタンパク質候補、断片、またはその変異体を、より大きな融合タンパク質またはタンパク質集合体に構築することができる。標的機能を有する断片は、組換え発現の間、1つまたは複数の他のタンパク質または断片と結合または共発現される。融合タンパク質またはタンパク質集合体の他のコンポーネントは、他の有益な特性を有することが知られているタンパク質から選択することもできるし、同じ標的機能または異なる標的機能を探索するために本明細書に記載の技術を用いて探索することもできる。代替的に、または追加的に、有用な断片を生成するための他の技術、例えば、酵素消化、熱変成、化学的処理、あるいはタンパク質凝集体を生成するための化学的架橋などがある。
【0049】
食品産業における標的機能の例
本発明の技術は、食品レシピまたは配合物において従来から使用されているが、何らかの理由で置き換えられるべき成分を置き換え、何らかの理由で食品においてより望ましい代替成分を同定する目的で使用することができる。例えば、より持続可能で環境に優しい形態や収穫物から入手可能であるため、生産コストが低いため、または他の有益な特性を有するため、原材料の方がより望ましい場合がある。一旦、食品中の成分が置き換えのために選択されると、ユーザは標的タンパク質機能(100)を同定し、これが図1に示す反復プロセスをガイドする対象となる。
【0050】
例示的な標的機能には、ゲル形成特性、発泡剤、風味、色、ビタミン、ポルフィリン、ヘム、または炭水化物のキャリア、保湿、抗菌活性および他の保存機能、脂肪の構造化(例えば、オレオゲルの作成)、接着剤およびフィルム形成剤、酵素またはホルモン機能を有する成分、乳化剤、栄養補給(カゼインなど)、粘度変化または保湿、凝集または付着を引き起こす薬剤、繊維、および、足場を支持する構造成分が含まれる。
【0051】
例として、本開示で提示される成分探索システムは、標的機能としてゲル化に焦点を当てることができる。その目的は、卵白タンパク質に類似し、非アレルギー性で、低濃度で成分を結合するように設計され、調理に適した高強度のゲル化剤を同定することであろう。卵は、食肉加工品、焼き菓子、菓子などの食品において、他の成分をつなぎ合わせる結合剤やゲル化剤として頻繁に使用されている。卵成分は、ソーセージやミートパテのビーガン対応品など、加工肉の代替品にも多く使われている。現在のところ、卵原料は比較的安価であるが、ゲル化を促進する植物性タンパク質は農産物に含まれる量が比較的少ないため、代替品として使用するのは困難で高価である。適切なゲル化特性を有する、より入手しやすいタンパク質が、多くの食品において卵の代替品となることが望まれている。精製や組み換え生産が容易な天然由来のゲル化代用タンパク質を見つければ、多くの食品の製造方法が変わるであろう。
【0052】
供給源データベース
標的機能を有するタンパク質の潜在的なデータソースとして使用される情報データベース(200)は、一般に、2つの形態で提供され、タンパク質のアミノ酸配列、三次元構造、および場合によっては物理化学的特性および天然源などの他のタンパク質特性などの情報を含む公開データベースがある。また、タンパク質の構造だけでなく、タンパク質探索プロセスの一環として試験または評価される物理化学的特性や機能的特性に関する情報を収集する内部データベースが存在する場合もある。
【0053】
図2は、タンパク質探索プロセスの情報源として使用され得るデータベースの構成を示す。タンパク質配列データベース201は、典型的には、代替アイソフォームおよび配列変異体を含む、タンパク質のアミノ酸配列に関連する情報を含む。また、配列データベースは、タンパク質の主要機能、供給源生物、細胞の構成要素、および代謝経路を含む、タンパク質に関する機能的アノテーションを含んでもよい。例示的なタンパク質データベースとしては、UniProt/SwissProt、UniProt/Trembl、PFAM(キュレートされたタンパク質ファミリーのデータベースで、各ファミリーは多重配列アラインメントとプロファイル隠れマルコフモデルによって定義される)、ProteinNet、Uniparc、Uniref90がある。
【0054】
通常、タンパク質構造データベース(202)は、X線回折、核磁気共鳴、クライオ電子顕微鏡などの技術から収集された、二次構造、三次構造、四次構造を定義するタンパク質の三次元配置に関する情報を含む。詳細情報には、原子レベルの座標やアミノ酸レベルの集合体が含まれる。局所構造データには、アルファヘリックスやベータシートなどの特徴が含まれる。例示的な構造データベースとしては、タンパク質データバンク(PDB)、タンパク質構造分類データベース(SCOP)、Pfamデータベース、CATHタンパク質構造分類データベースなどがある。
【0055】
ゲノム配列データベース(203)は、生物、染色体、遺伝子、および転写産物レベルで組織化された核酸配列情報を含む。符号化されたタンパク質以外に、ゲノム配列データベースは、リーディングフレームの上流または下流、およびイントロンにある情報を含む。ゲノム配列データは、複数のオープンリーディングフレームや同じタンパク質の複数のアイソフォームを推定するために計算機的に使用することができる。例示的なゲノムまたは核酸配列データベースには、JGI Phytozome、NCBI Refseq、NCBI Genome、植物ゲノムデータベース(PGDB)などがある。
【0056】
内部タンパク質データベース(204)は、タンパク質の構造データ、およびタンパク質の選択、発現、精製、および特性評価から実験的に生成された情報を含むことができる。
【0057】
本開示に従った機械学習およびデータマイニングの観点から、タンパク質データベースまたは情報データベースへの一般的な言及は、これらのデータベースのいずれか1つ、または任意の組み合わせでそれらの選択を指す場合がある。
【0058】
タンパク質の機能を予測すること
データベースから得られたタンパク質情報は、コンピュータによって分析され、データベースにおける各タンパク質またはその選択物が標的機能を有するか否かを予測する。
【0059】
図3は、機能性タンパク質(300)を予測し、同定するプロセスにおいて通常使用されるステップを示す。コンピュータシステムは、データ符号化(301)および予測モデリング(302)を実行する。これにより、実験的特性評価のための候補タンパク質のリスト303が生成される。
【0060】
データは、機械学習モデルによって処理されるように、ベクトル形式または行列形式で符号化される(301)。連続特徴量は正規化および/または離散化することができる。カテゴリ特徴は、ワンホット符号化、バイナリー符号化、またはハッシュ符号化される。タンパク質アミノ酸配列は、それらが存在する空間の次元が小さくなるように変換することができる。様々な長さのタンパク質の配列および付加的な特徴は、固定サイズの行列に符号化される。これは、ワードバギング、オートエンコーダ、またはSeq2seq(Sutskeverら、arXiv:1409.3215、2014)やTransformers(Vaswaniら、arXiv:1706.03762、2017)のようなエンコーダデコーダモデルで行われる。埋め込み(配列または単一残基を表す固定サイズのベクトル)を生成するモデルは、大量のラベルなしデータで学習される。
【0061】
予測モデリングのための入力データは、1つまたは複数のデータベースから得られる、各タンパク質についての以下の特徴の1つ、2つ、3つ、または3つより多くを含み得る。
・アミノ酸配列
・結晶学的データから得られた三次元構造、タンパク質のアミノ酸配列からアルゴリズム的に予測されたもの(例えば、AlphaFold 2.0(登録商標),AW Seniorら,2020,Nature 577 706-710を使用)、または三次元データベース(グーグルのDeepMindやEMBL-EBIのAlphaFold(登録商標)タンパク質構造データベースなど)から得られたもの
・残基レベル(residue-level)の特徴、単一アミノ酸の物理化学的および構造的特徴、および/または配列上あるいは3次元空間上で互いに近接する2つ以上のアミノ酸のグループ(すなわちクラスタ)の特徴を表すベクトル表現のセットとして符号化されたもので、通常、アミノ酸配列から予測されるもの
・アミノ酸配列、三次元構造から予測される、または経験的に決定される、タンパク質全体として符号化されたタンパク質レベルの特徴(アミノ酸の長さ、全体の電荷、疎水性、アルファヘリックスやベータプリーツシートのような構造的特徴の存在、タンパク質の架橋など)
・探索プロセスにおけるハイスループット発現およびスクリーニングの一環として実施された経験的アッセイの結果
【0062】
残基レベルの特徴は、アミノ酸およびアミノ酸のペアの様々な物理化学的および生化学的特性を表す数値インデックスのデータベースであるAAindexを使用して取得することができる。3つのセクションがあり、AAindex1は20個の数値からなるアミノ酸インデックス、AAindex2はアミノ酸変異マトリックス、AAindex3は統計的タンパク質接触電位である。全てのデータは公知文献、S.Kawashimaら,Nucleic Acids Res 2008;36:D202-5から得られる。
【0063】
各カテゴリの入力データは、カテゴリ的、または連続的である。カテゴリデータは、数値の代わりにラベルを含む変数として定義される。タンパク質のカテゴリデータの例としては、タンパク質ファミリー、細胞の位置、および供給源生物がある。標的機能やタンパク質特性の性質により、その特徴はカテゴリ変数または連続変数としてコード化される。カテゴリデータは、数値の代わりにラベルを含む変数として定義される。タンパク質のカテゴリデータの例としては、タンパク質のファミリー、細胞の位置、および供給源生物がある。連続データまたは数値データは、数値で構成される値である。タンパク質の連続データの例としては、分子量、等電点、各アミノ酸タイプの割合などがある。
【0064】
図4Aは、好適なデータ符号化プロセスを示す。配列、残基レベルの特徴、およびタンパク質レベルの特徴がマージされ、符号化される。エンコーダは、他のタンパク質からのデータを再構成して比較できるように、圧縮された空間でタンパク質の特徴を表す方法を学習する。各タンパク質の付加的なタンパク質の特徴が正規化および離散化され、符号化されたデータにマージされる。
【0065】
大規模なアンサンブルのうち少数のデータ点しかラベル付けされていない状況では、アクティブラーニングおよび/または再学習のプロセスを使用して、新たなデータのラベル付けを推進することができる。予め定義されたクエリ戦略と、ラベル付けされたデータに対するモデルの動作が与えられ、反復的に、新たなデータ点がラベル付けのために選択され、モデルパラメータが更新される。実際には、これは、現在のモデル(例えば、より高い誤分類やより高い不確実性を持つグループを表す)でうまく機能する可能性が低い新たなタンパク質で現在のデータセットを補強することを意味する。
【0066】
訓練データセットまたは試験データセットは、以下のように構築される。タンパク質配列は、アミノ酸のランダムな変化に対する選択圧のため、保存状態が変化する領域を含んでいる。したがって、その配列は独立かつ同一分布(IID)ではない。IIDは、学習と試験の分割(train-test splitting)および交差検証(CV)の要件であるため、タンパク質は、まず、配列またはMSAの類似性に従ってクラスタ化される。次に、クラスタをシャッフルし、クラスタ間で分割を行う。
【0067】
図4Bは、予測モデリング(302)に活用できる様々なタイプの機械学習を示す。
【0068】
機械学習(ML)(302a)は、分析モデルの構築を自動化するコンピュータによるデータ分析手法である。これは、システムがデータから学習し、パターンを認識し、人間の介入を最小限に抑えて意思決定を行うことができるという考えに基づく人工知能の一分野である(T.ミッチェル、機械学習、ニューヨーク:McGraw Hill,1997)。
【0069】
機械学習(302a)のパラダイムには、学習フェーズと推論フェーズの2つのフェーズが組み込まれている。学習フェーズでは、タンパク質の配列、残基レベルの特徴、タンパク質レベルの特徴が入力としてモデルに提供される。さらに、タンパク質の標的は、モデルの予め定義された損失に提供される。損失関数は、オプティマイザが収束するまで、モデルパラメータを反復的に更新するために使用する損失を計算する。この操作の結果は、推論時に使用される固定パラメータのセットである。残基レベルとタンパク質レベルの配列と特徴は、学習時と同様に推論時に生成される。
【0070】
カテゴリ化されたタンパク質標的の場合、予測タスクは、分類、分類損失(例えば、クロスエントロピー)、測定基準(例えば、AUROC)である。例えば、標的機能がゲル化性である場合、特定のタンパク質がゲル化するかしないかに応じて二値のカテゴリを使用することができる。連続的なタンパク質標的(抗菌活性の程度や範囲など)の場合、予測タスクは回帰損失(例えば、MSE)とメトリクス(例えば、r)の計算である。ゲル化特性の例を用いると、この関数は値x∈{0,1}を用いて定義することができ、x=0はゲル化がないことを表し、x=1は観察された最高のゲル化測定値を表す。回帰タスクは、新たなタンパク質についてxの連続値を予測することである。
【0071】
深層学習(DL)(302.b)も、予測モデリングに使用することができる。深層学習は、生の入力からより高いレベルの特徴を徐々に抽出するために複数の層を使用する機械学習アルゴリズムのクラスである。各レベルは、入力データをより抽象的で複合的な表現に変換することを学習する(Bengioら,IEEE Transactions 35:1798-1828,2013、Dengら,「信号処理の基礎と傾向(Foundations and Trends in Signal Processing)」、7:1-199,2014、Lecunら,Nature.521:436-444,2015)。DLは機械学習手法のサブアンサンブルであり、様々なアーキテクチャ、より多くのモデルパラメータを使用し、非構造化入力データを許可する。DLは、入力データに対する微分可能な変換の連続的な適用に依拠している。変換のシーケンスは、DLモデルのアーキテクチャを定義する(例えば、畳み込み、プーリング、整流は、畳み込みニューラルネットワーク(CNN)を定義する変換である)。
【0072】
相同性モデリング(302.c)は、遺伝子、転写産物、およびタンパク質を比較して、共通の機能的特徴を共有する可能性のある類似のエンティティを同定することができるバイオインフォマティクスツールを活用する。類似の配列、構造、およびファミリーアノテーションを共有するタンパク質は、食品成分の観点から類似の機能を果たすと推定できる。このような例として、国立生物工学情報センター(National Center of Biotechnology Information)から提供されているBLAST(basic local alignment search tool)ソフトウェアがあり、標的配列とクエリ配列のデータベースとの間の核酸またはアミノ酸の同族体を見つけることができる。相同性モデリング法は、内部タンパク質データベースで生成された実験データを必要としないため、これらの分析ツールは、タンパク質が経験的試験のために生成される前に適用することができる。
【0073】
本開示では、これらの機械学習と他の形式の機械学習を組み合わせたものを、ハイブリッド機械学習またはマルチモーダル機械学習と呼ぶことがある(Baltrusaitisら、arXiv:1705.09406v2、2017)。
【0074】
アンサンブル処理(302.d)は、他のモデル(302.a、302.b、302.c)の予測を入力とする。実際には、アンサンブリングは、様々な方法で行われたタンパク質の機能予測の加重平均を実行する。(平均の)重みのセットは、未知のデータ点のセットに対する予め定義された損失関数を最小化するように最適化される。これらの重みは任意に定義することができ、専門家の入力に基づいて使用される各モデルに多かれ少なかれ予測能力を与えることができる。
【0075】
予測モデリング(302)の出力は、標的タンパク質の機能との関連性によって潜在的に順位付け、または、分類されたタンパク質のリスト(303)であり、場合によっては他の所望の特徴に影響される。選択されたタンパク質またはそのサブセットは、その後、異なるアッセイで試験された複数の基準によって特性評価される。各基準は、標的タンパク質の機能との関連性が高い、中立である、あるいは関連性が全くないと考えられる。関連性の高い基準からは、さらなる精密検査に適した機能性タンパク質が得られる可能性が高い。中立と関連性無しの基準は、アクティブラーニングのさらなるサイクルで予測モデルを改良する目的で使用できるデータを生成する。機械学習は、類似したタンパク質をグループ化するため、および/または、構造や他の特性からタンパク質の機能を予測するために設定される。
【0076】
ユーザが発現および経験的試験のための候補タンパク質を開発するのに役立つもう一つのツールは、クラスタリングである。全体的な戦略は、タンパク質を類似性によってグループ化し、各クラスタから代表的なタンパク質を選択し、各代表的なタンパク質を試験し、そして(試験結果に基づいて)関心のあるクラスタを選択することである。その後、各クラスタのメンバーをコンピュータで解析したり、経験的に試験したりして、選択されたクラスタの中で最も有望な候補を同定する。
【0077】
図5Aから図5Dは、説明に役立つ実例を示している。この方法は、データベース中の他のタンパク質の重複や断片が除去されたデータベースまたはそのサブセットに対して、より効果的に機能する。次いで、タンパク質は、Linclust(M.Steineggerら、Nat Commun.2018 Jun 29;9(1):2542)やCD HIT(L.Fuら,Bioinformatics 2012;28(23):3150-2)のような方法を用いて、アミノ酸の配列同一性やビットスコアなどの標準的な類似性尺度によってクラスタリングされる。
【0078】
示した例では、「n」個のタンパク質が「x」パーセントの配列同一性によってクラスタ化され、「y」個のクラスタが作成され、各クラスタは、互いに少なくともxパーセントの同一性を共有するタンパク質を含む。類似性は、データセット全体についてペアごとに比較され(図5B)、その後、二次元フォーマットで表示される(図5A)。配列空間における各クラスタの配置と、各クラスタ内のタンパク質の配置は任意であるが、各タンパク質のペア間の距離は配列同一性の割合(percent sequence identity)を反映する。
【0079】
図5Cは、ペアごとの比較で使用する最小配列同一性を変更することによって、クラスタの数を調整できることを示している。最小配列同一性を100%に設定すると、各配列はそれ自身のクラスタとなる。最小配列同一性が小さくなるにつれて、いくつかのクラスタがマージし、平均サイズが大きいクラスタが少なくなる。したがって、ユーザは、利用可能なスクリーニング能力に合わせて、形成されるクラスタの数を制御することができる。
【0080】
次に、各クラスタについて代表的なタンパク質が同定される。図5Dにおいて、重心を決定することによって、代表的なタンパク質が同定される。これは、例えば媒介中心性(betweenness centrality)(NetworkX.org)によってアルゴリズム的に行われる。各クラスタからの代表的なタンパク質が発現され、物理化学的特性および標的機能についてアッセイされる。望ましい特性を有する代表的なタンパク質は、ユーザが最も有望な候補を経験的に探索できるクラスタを同定する。
【0081】
クラスタリングの基礎としてアミノ酸配列を使用する代わりに、特徴ベクトル表現の類似性または埋め込みの類似性などの他の特徴を使用して、データベース中のタンパク質をクラスタリングすることができる。例えば、各タンパク質は、配列の長さ、疎水性アミノ酸の数、タンパク質の表面に配置されたシステイン残基の数、5個のアミノ酸より長い無秩序領域の数、ドメイン構造、アルファヘリックスの割合、ベータシートの割合、自然な状態での細胞内局在、等電点、炭水化物含量、結合活性、酵素活性など、計算された基準および/または経験的に決定された基準から選択された、少なくとも5、7、または10個の特徴の組み合わせとして特徴付けられる。各タンパク質の特徴を組み合わせることで、ベクトル表現が決まる。タンパク質の埋め込みの決定については、G.Dubourg-Felonneauら,NeurIPS conference 2021、 K Yangら,Bioinformatics 2018,34(15),2642-2648、 A.Villegas-Morcilloら,Bioinformatics 2021,37(2),162-170で説明されている。
【0082】
クラスタは、例えばスペクトラルクラスタリングにより、ベクトル表現または埋め込み(任意選択でアミノ酸配列および/または3次元構造と組み合わせて)の類似性についてペアごとに比較することによって作成される(A.Paccanaroら,Nucl.Acids Res 2006;34(5),1571-1580、B.Preim and C.Botha,Visual Computing for Medicine,第2版,2014)。ここでも、各クラスタから代表的なタンパク質が同定され、試験される。最良のクラスタが得られ、選択されたクラスタの他のメンバーについて標的機能を有する候補を試験することによって、探索される。
【0083】
タンパク質の生成
図6は、インシリコで生成されたリスト(303)から選択されたタンパク質が、経験的試験のために生成され得るプロセスを概説するフローチャートである。生産源および生産様式、即ち、天然源から、組換え発現によって、または化学合成によって、のいずれかについての決定がなされる(401)。タンパク質が天然源から得られた場合、それらは直接、精製段階(405)に進むが、組換えタンパク質は発現段階(402)で作られる。タンパク質やペプチドの配列が短く、修飾を必要としない場合、タンパク質は固相合成によって製造され、直接、特性評価(409)に進む。
【0084】
これらの選択肢の中で、組換えタンパク質の生成は、通常、ハイスループットスクリーニングに使用され、タンパク質のリストを同じ方法で同時に評価することを可能にする。組換え生成は、発現宿主(402)の遺伝子組換えによって行われる。宿主としては、細胞株(動物細胞の培養物)、微生物(酵母、真菌、または細菌)、植物(藻類や小麦など)、または無細胞抽出物(例えば、発現適格細胞から抽出された物質を含む)が使用できる。宿主は(感染、形質転換、または形質導入によって)遺伝的に修飾され、DNAを組み込むか、または目的のタンパク質を構成的にまたは誘導によって発現するように設計されたプラスミドを運ぶ。遺伝子組換えには、ペプチドや小さな補助タンパク質のタグを符号化するDNAを付加してタンパク質を修飾する配列の使用も含まれる。このタグは、下流の精製や特性評価に用いることができる。このテーマに関する参考書には、「組換え遺伝子の発現(Recombinant Gene Expression)」、A.Lorence編,2012、「新たなバイオプロセス戦略(New Bioprocessing Strategies)」,B.Kissら編,2018、および、「無細胞の合成生物学(Cell-Free Synthetic Biology)」,S.Hong編,2020がある。
【0085】
候補タンパク質の組換え発現に使用される好適な生物を表1に示す。宿主生物の選択は、タンパク質の機能に影響を及ぼす可能性のある翻訳後修飾(例えば、炭水化物の付加および/または鎖間架橋)を伴う可溶性タンパク質を大量に発現する宿主の能力を考慮して行われる。
【0086】
【表1】
【0087】
真核生物発現系は、グリコシル化や鎖間架橋のような、天然または工業生産に使用され得るものと同様の方法で、タンパク質候補の翻訳後処理を実行できるという利点を有する。原核生物発現系は、導入が容易で高収率が得られるという利点がある。開発中に複数の系を使用することも可能であり、例えば、大腸菌での発現はスクリーニングアッセイを行うために、真核生物での発現は後期の開発や試験のために行う。酵母などの一部の発現系は、両方の段階での使用に適している。
【0088】
発現産物は、タンパク質の溶解性および収率について評価される(403)。タンパク質は、水または緩衝液に可溶であること、および下流の特性評価に使用するのに十分な高収率で発現されることが好ましい。特定のタンパク質の溶解度および発現データは、タンパク質がより大量に生成される可能性を評価するために使用することができる。ゲル電気泳動、キャピラリー電気泳動、ELISAなどの技術は、タグ付きタンパク質の存在を決定し、タンパク質の分子量をチェックし、収量を評価するために用いることができる。タンパク質の溶解度は、濾過、重力、遠心分離を用いた分画と、それに続く可溶性水相の分析によって、タンパク質が存在するか否かを判定することにより試験することができる。このステップで必要とされる可溶性タンパク質の量は、生化学的および材料の特性評価の要件に依存し、ここで選択される特定のアッセイは、対象となる標的機能に依存する。タンパク質が溶解度および収量の基準を満たしている場合、タンパク質は精製される。あるタンパク質の発現が不合格だった場合、そのデータは、他のタンパク質候補および発現の可能性を予測する目的で、内部のタンパク質データベースに収集される。候補タンパク質が他の理由で有望視される場合、収量を増加させることを目的として代替の発現系を試験することもできる。
【0089】
組換え精製のための材料は、プレート、フラスコ、またはバイオリアクター発酵のような標準的な発酵手順を用いる宿主生物の発酵から調達される(404)。天然源は、菌類または植物からの全体または単離された画分から得ることができる。
【0090】
タンパク質の精製(405)は、特性評価アッセイが純粋なタンパク質を必要としない場合、任意である。例えば、タンパク質の酵素活性は、タンパク質の混合物を用いて評価することができ、精製を必要としない場合がある。精製戦略は、供給源(天然または組換え)および特性評価アッセイに必要な純度レベルによって異なる。組換えタンパク質も天然由来タンパク質も、標準的な精製手順を用いて精製することができる。組換えタンパク質も天然由来タンパク質も、乾式および湿式処理を含むタンパク質の単離方法を用いることができる。
【0091】
一般的な精製方法には、遠心分離、濾過、アフィニティークロマトグラフィー、イオン交換クロマトグラフィー、サイズ排除クロマトグラフィー、疎水性相互作用クロマトグラフィー、アフィニティー捕捉、等電点沈殿、液液相分離(LLPS)、凍結乾燥、および透析が含まれる。所望の純度レベルを達成するために、これらの方法の一つを単独で用いてもよいし、必要に応じて他の方法と組み合わせて用いてもよい。一旦達成されると、タンパク質は標準的な方法によって、特性評価法に適合する最終状態に処理される。例えば、アッセイ法の中には粉末のタンパク質を必要とするものもあるが、他の特性評価法では水溶液のタンパク質が必要となることもある。このトピックに関する参考書には、「タンパク質の精製(Protein Purification)」,第2版,P.Bonner,2018、および、「ハイスループットタンパク質の生産および精製(High-Throughput Protein Production and Purification)」,R.Vincentelli編,2019がある。
【0092】
タンパク質の精製を容易にするために(特に、タンパク質候補のハイスループットでの経験的試験のために)、組換えタンパク質を親和性結合のための専用のタグを用いて発現させることができる。この文脈において、「タグ」とは、共役結合パートナーを用いるアフィニティー精製のためのハンドルとして使用され得る、発現中にタンパク質に付加される任意の特徴をいう。例としては、天然由来のタンパク質配列の内部、または、いずれかの末端に付加されたアミノ酸配列、および炭水化物が挙げられる。例示すると、オープンリーディングフレーム(通常は、N末端またはC末端)に、共役受容体、抗体、または他の結合タンパク質などの結合パートナーによって認識されるアミノ酸配列(おそらく少なくとも5個、または5~50個、または8~25個の長さのアミノ酸)を追加することができる。他の例としては、炭水化物負荷酵素の認識部位として働くタンパク質配列が組み込まれ、レクチンなどの共役結合部位で捕捉できるグリコシル化の特徴が形成される。
【0093】
適切なタンパク質タグには、ニッケル、コバルト、亜鉛などの金属に結合するポリヒスチジン、グルタチオンに結合するGSTタンパク質、抗c-myc抗体に結合するc-mycタンパク質などがある。その他の選択肢としては、抗フラグ抗体を用いて捕捉される領域フラグタグ(8アミノ酸配列DYKDの後にDDDKが続く)、またはIM7樹脂に結合するTriAltus Biosciences社から入手可能なCL7タグがある。タグ付きタンパク質をアフィニティー表面に固定化した後、発酵副生成物を洗浄することができる。使用するタグに応じて、競合結合またはpHなどの条件変更を用いて、精製された標的タンパク質を樹脂から溶出させることができる。
【0094】
初期スクリーニングの目的では、タグが機能的アッセイを妨害する懸念がない限り、タグは精製後のタンパク質上に残すことができる。後の状態での試験や完成品の調製のために、オープンリーディングフレームは、タグとタンパク質の残りの部分との間に特定のタンパク質分解切断部位を含むことができる。タバコエッチウイルス(TEV)プロテアーゼのような切断酵素をタンパク質とインキュベートして、タグを除去することができる。その後、切断されたタグ、切断されていない組換えタンパク質、切断酵素を他の手段で除去し、精製された標的タンパク質を残すことができる。消費者向けには、タンパク質はタグなしで発現され、他の手段で精製される。
【0095】
次のステップ(406)では、化学修飾が必要か否かを評価する。精製されたタンパク質サンプルは、目的とする特定の標的機能のために化学修飾を受ける場合がある。修飾には、タンパク質断片を生成するための加水分解、タンパク質の架橋、または他の酵素処理が含まれる。化学的または酵素的修飾の結果、修飾されたタンパク質サンプルが得られ(407)、このサンプルは修飾を受けなかったタンパク質と同様に標的メトリックスについて評価される。
【0096】
タンパク質調製物の標的配合物(408)は、典型的には、特性評価方法に適合する安定な配合物である。例えば、特定の生化学的特性評価方法による特性評価では、標的溶液の同一性を有する溶液状態のタンパク質が必要とされる場合があるが、他の特性評価方法では、タンパク質が乾燥形態であることが必要とされる場合がある。タンパク質の状態、純度、濃度、溶解性、および調製物のその他の特徴は、この時点で評価される。ゲーティングメトリクス(Gating metrics)は、典型的には、タンパク質の純度、タンパク質の濃度、および(必要な範囲での)タンパク質の溶解度である。標的配合物(408)を実現した場合、タンパク質サンプルは特性評価(409)の準備が整う。
【0097】
タンパク質の特性評価
生成され、精製され、必要に応じて修飾されたタンパク質調製物は、次に特性評価フェーズ(500)に進むことができる。タンパク質の特性評価には、通常、分子アッセイ、機能アッセイ、および食品科学アッセイが含まれる。最初に、これらのアッセイで、全てのタンパク質を評価し、候補タンパク質を調査して、一定範囲の出力値を取得する。探索サイクルを経るたびに、評価されるタンパク質の数が増加するため、有望度が高いタンパク質のみが特性評価の次のステップに進むように、閾値を再設定することが適切な場合がある。このセクションの各ステップは、内部タンパク質データベースに格納する各アッセイタイプに固有のデータとメタデータを生成する。
【0098】
図7は、特性評価フェーズを示す。物理化学的特性を試験する分子アッセイ(501)は、目的のタンパク質の詳細な生化学的および構造的情報を提供するために使用される。この段階で試験するのに役立つ特性を表2に示す。
【0099】
【表2】
【0100】
分子アッセイ(501)からのデータは、結果に関わらず、予測モデルの再学習に使用するために、通常、内部データベースに保存される。どのサンプルを機能アッセイ(504)に通過させるかを決定するために、最小基準を設定することができる(502)。タンパク質探索の最初の段階においては、内部データベース(204)の学習に使用するデータセットを構築する目的で、全てのタンパク質を機能アッセイに通過させることを決定することができる。特定の標的機能に関してモデルの予測力が高まったら、最小基準(502)を増加させ、最も有望なタンパク質のみを選択し、機能アッセイに移行させることができる。発現されたタンパク質の機能は、市販の成分ベンチマーク(503)の機能と比較されることもあり、これらは機能アッセイ(504)、場合によっては食品科学アッセイ(506)で評価される。ベンチマーク成分には、動物由来成分のほか、タンパク質、デンプン、脂質成分を含む植物由来成分や合成成分も含まれる。
【0101】
タンパク質候補について実施される機能アッセイ(504)は、標的機能についての試験を含む。追加のアッセイは、典型的には、他の方法で候補タンパク質を特性評価するために含まれ、例えば、他の望ましい特性の存在、望ましくない特性が存在しないこと、標的機能に付随する可能性があり、したがって予測モデリングに関連する他の機能、などである。このような機能アッセイの例を表3に示す。
【0102】
【表3-1】
【表3-2】
【0103】
特性評価プロセスで使用されるアッセイは、標準的なものであってもよいし、自社で開発したものであってもよい。プロジェクトには、アッセイをハイスループット形式に適合させることや、関心のある特定の機能を調査するために典型的な食品アッセイを適合させることが含まれる。
【0104】
標的タンパク質の特性が測定され、市場で入手可能な原材料に対する標的タンパク質の機能を実証するために選択されたベンチマークサンプルと比較される。これに基づいて、どのタンパク質候補が食品科学アッセイ(506)に進むかが決定される。有望な候補は食品モデルシステムで試験され、簡略化された食品配合物における標的タンパク質の機能を検証する。機能情報は内部タンパク質データベース(204)に保存され、どのタンパク質を製品として開発すべきかを評価するために使用される。
【0105】
図8は、特徴抽出およびデータ解析(600)のより詳細な説明図である。特性評価アッセイによって生成される生データは、アッセイの種類によって大きく異なり得る。データ出力のいくつかの一般的な例には、終点データ、スカラー値、スカラー値のシーケンス/シリーズ(例えば、時間シーケンスまたは温度シーケンス)、または画像が含まれる。生データは、有意な傾向を抽出するために分析される。
【0106】
アッセイの種類に応じて、タンパク質候補(601)のアッセイ結果は、表形式のフラットファイル、画像ファイル、または数値とすることができる。数値はそのまま解釈される。表形式のフラットファイルおよび画像ファイルは、データの特徴(602)を抽出するために処理される。出力は、特性評価されたタンパク質の経験的データの完全なセットであってもよく、これは、タンパク質が良好に機能したか否かを評価するために使用され、タンパク質データベースに入力される。抽出プロセスは、集約された数値(時系列データの平均値または中央値など)を計算すること、またはカテゴリ値(画像からの色または透明度など)を抽出することを含んでよい。
【0107】
各標的タンパク質機能(100)は、タンパク質候補が潜在的食品成分(800)としてノミネートされるか否かを決定するために使用することができる機能固有の特性(604)の特定のセットと関連付けられる。機能固有の特性(604)は、標的タンパク質機能および食品成分としての候補タンパク質の使用に関連する、表2および表3に列挙されるような生化学的および機能的特性のサブセットである。例えば、標的タンパク質機能(100)が発泡性である場合、溶解度、表面疎水性、および画像化アッセイを介した発泡分析によって測定される特性は、候補タンパク質の評価に関連し得る。候補タンパク質の機能固有の特性(604)は、あらかじめ確立された、または探索の過程で開発されたベンチマーク閾値(603)と比較される。比較された値は、各タンパク質候補が、機能性タンパク質成分(800)としてノミネートされるに値するレベルまたは組み合わせで、十分な標的機能(100)および他の望ましい特性を有するか否かを決定するために使用される。
【0108】
アクティブラーニング
図9は、本開示の技術が、タンパク質のスクリーニングおよび特性評価プロセスの一部として、反復的なアクティブラーニングまたは再学習をどのように組み込むことができるかを示している。タンパク質候補(300)の予測および選択、タンパク質の生成および精製(400)、ならびに生化学的および機能的特性(500)の特性評価からの情報は、コンピュータシステムのさらなる学習に使用するために、抽出(602)して、内部タンパク質データベース(204)に追加できる有用なデータを提供する。
【0109】
nが特定の標的機能に対して実行される反復予測の数である場合、n={0,1}において、内部タンパク質データベース(204)は空になる。アンサンブル法は、タンパク質配列、タンパク質構造、ゲノム配列データベースからのタンパク質データのみを活用することができる。全てのn>1について、標的機能について選択され試験された候補タンパク質に関して追加情報が利用可能であり、これは内部タンパク質データベース(294)に再び追加される。n>1の任意の反復のデータは、反復n+1の予測モデリングに使用される。内部タンパク質データベースは、n+1において、nよりも反復的に多くの情報を含むため、n+1における予測精度は、通常、nよりも高くなる。
【0110】
種の同族体およびアイソフォーム
植物学的、動物学的、微生物学的な観点から重要な機能的役割を果たすタンパク質は、一般に、近縁種に同族体が存在する。また、タンパク質は、遺伝子の重複によって種内で進化し、様々なアイソフォームを作り出す場合もある。データベース内のタンパク質がこの技術のコンピュータ主導の予測フェーズで高得点を獲得した場合、種の同族体やアイソフォームも予測フェーズで高得点を獲得する確率が高くなる。
【0111】
したがって、より広い範囲の無関係な構造を調査するために、探索プロセスの初期反復中に同族体やアイソフォームをスクリーニングすることは有益である。クラスを代表する1つの同族体またはアイソフォームが試験用に選択される。これは、オペレータの監視またはコンピュータプログラミングへの組み込みによって、機械学習プロセスによって生成された候補リストから、同族体やアイソフォームを一時的に削除することによって行うことができる。一旦、特定の候補が高レベルの標的機能および他の利点を備えているとして経験的に特性評価されると、ユーザが食品成分として最終的に選択されたタンパク質を最適化できるように、同じクラスでコンピュータによって同定された同族体およびアイソフォームに戻り、それらを別々に生産し、特性評価することが適切な場合がある。
【0112】
追加の機能的および物理化学的特性のスクリーニング
本開示の反復的探索プロセスは、最適には、タンパク質候補が1つまたは複数の追加の望ましい機能または特性を有するか否かを評価し、それによって候補の好適性評価を高めること、およびタンパク質候補が1つまたは複数の望ましくない機能または特性を有するか否かを評価し、それによって候補の好適性評価を低くするか、または候補から除外することを含む。例示すると、望ましい特性には、発現容易性、精製容易性、保存時の安定性、混合性、および1つまたは複数の望ましい風味または味覚特性の1つまたは複数が含まれる。望ましくない特性としては、アレルギー誘発性または免疫原性、他の食品成分との不適合性、有害な生理学的作用、および好ましくない風味のうちの1つまたは複数を挙げることができる。
【0113】
このような特性についてコンピュータ予測アルゴリズムが利用可能な場合、評価は、タンパク質のスクリーニングおよび選択時における最初の候補選択プロセスの一部として行うことができる。それぞれの特性の予測アルゴリズムは、各候補のスコアリングの一部として使用され、場合によっては機械学習機能に寄与する。毒性、味、口当たりなど一部のカテゴリについては、アッセイフェーズおよび経験的試験フェーズで評価が行われるか、機械学習との組み合わせで評価が行われる。
【0114】
例えば、アレルギー誘発性は、L.Zhangら、Bioinformatics 2012,28:2178-2179、 L.Wangら,Foods 2021,10:809,doi.org/10.3390、および、S.Sahaら,Nucl.Acids Res.2006,34,doi:10.1093に記載の方法で予測することができる。免疫原性は、N.Donevaら、Symmetry 2021:13,388に記載の方法で、MHG結合モチーフおよびT細胞エピトープおよびB細胞エピトープの観点からアルゴリズム的に予測することができる。毒性は、S.S.Negiら、Sci.Reports 2017:7,13957-1、および、Y.Jinら,Food Chem. Toxicol. 2017;109:81-89に記載の方法で予測できる。風味の側面は、P.Keskaら、J.Sensory Studies 2017:e12301、 F.Fritzら,Nucleic Acids Res. 2021 Jul 2;49(W1):W679-W684’、および、S.Ployonら,Food Chem. 2018 Jul 1;253:79-87に記載の方法で予測することができる。
【0115】
食品成分としての機能性タンパク質のさらなる開発および認可
本技術を導入することにより、ユーザは、食品に関連する機能性を有する、よく分類された機能性タンパク質成分のカタログを得ることができる。本技術によって同定された新規成分は、自然界に存在するのと同じ形で、あるいは標的機能を提供するタンパク質の部分のみを生成することによって、組換え発現によって市販製品に組み込むために生産することができる。この探索プロセスの一環として生成される、成分供給源、拡張可能な生産方法、生化学的および機能的特性のフルパネルの知識は、新たに探索された成分を広範かつ重要な用途で商品化するために使用できる情報である。
【0116】
本開示に従って新規食品成分が同定され、提案された新製品に配合された後、開発者は、商業的流通が行われる国において商業的流通を開始する前に、全ての規制要件が満たされていることを保証するであろう。例えば、米国で流通させる新規食品添加物は、食品医薬品局(FDA)による市販前承認の対象となる。新規添加物は、一般に入手可能で受け入れられ、安全であることを示す科学的データ、情報、または方法があり、必要に応じて未公表の科学的データによって裏付けされている場合、「一般的に安全と認められている(generally recognized as safe)」(GRAS)となる。認可のためにFDAの食品添加物安全部に送られる通知には、物質の簡潔な説明(化学的、毒物学的、微生物学的特性)、適用される使用条件、およびGRAS判定の根拠が含まれる。その後、FDAは、提出された通知がGRAS判定の十分な根拠となるか否かを評価する。
【0117】
探索プロセスの他の実施態様
本開示のフライホイールまたは探索プロセスのいくつかの実施態様は、以下の方法論の組み合わせである。
・タンパク質の構造的特徴(一次アミノ酸配列、三次元構造、ベクトル表現、既知の物理化学的性質など)をどのように機械学習すれば、未知のタンパク質が標的機能を有するか否かを予測できるか。
・広範な配列、構造、機能データベースをコンピュータでマイニングし、標的機能を有すると予測されるタンパク質候補を選択する。
・標的機能やその他の望ましい特性について、候補タンパク質をハイスループットで発現させ、経験的試験を行う。
・学習、データベースマイニング、発現、試験を繰り返し、選択プロセスを改良し、さらに候補を選択する。
【0118】
上述の議論では、現在広く使用されている成分および/または動物由来の成分の代替となる、潜在的な新規食品成分の選択および評価によって、探索プロセスを説明した。探索プロセスは、他の産業製品および材料における機能を代替または強化し得るタンパク質を同定するためにも同様に適している。探索プロセスの他の可能な用途としては、商業的に以下のような潜在的用途を有するタンパク質を同定することが挙げられる。
・化粧品原料
・保湿構造
・染料の結合剤
・バイオ燃料の製造に最適化された発酵
・高分子化学およびプラスチックの出発材料
・潤滑剤、界面活性剤、可溶化剤、分散促進剤
・コーティング剤、セラミックス、インク、繊維
・栄養価を高めた農業用飼料
・製薬産業における製品のカプセル化手段、賦形剤、安定剤
【0119】
探索プロセスのこのような代替的な実施態様は、本開示において提示される本発明の代替的な実施態様および包含される実施態様を表す。これらは、上記に提示された説明、および/または、以下に提示された特許請求の範囲を一般的に、または、選択された、または、所望の実施態様に従って準用することにより、本開示の追加、または、代替の態様として請求することができる。
【0120】
コンピュータのハードウェアおよびソフトウェア
一般的な事項として、本開示で言及されるコンピュータシステムまたはマイクロプロセッサは、標準的な方法論に従って設計、製造、制御、プログラムされる。
【0121】
図10は、単一の装置またはアセンブリ、あるいは相互接続された複数の装置のいずれかであるコンピュータシステムの配置を示している。コンピュータシステムのサブシステムは、通常、システムバス(1012)を介して相互接続されている。サブシステムには、プリンタ(1004)、キーボード(1008)、固定ディスク(1009)、およびモニタ(1006)が含まれ、これらはディスプレイアダプタ(1005)に動作可能に接続することができる。I/Oコントローラ(1001)に結合された周辺機器および入出力装置は、USBポート(1007)および/または外部インターフェース(1011)などの適切な手段によってコンピュータシステムに動作可能に接続され、コンピュータシステムをインターネットなどの広域ネットワークに接続することもできる。システムバス(1012)を介したサブシステムの相互接続により、中央処理装置またはマイクロプロセッサ(1003)は、各サブシステムと通信し、システムメモリ(1002)または固定ディスク(1009)などの他の記憶手段からの命令の実行、およびサブシステム間の情報の交換を制御することができる。
【0122】
タンパク質の配列、構造、特性に関する情報などの有用な情報を含む外部データベースは、インターネットなどの公共ネットワークを通じて入手することができる。情報の内部データベースは、コンピュータシステムの一部であってもよいし、安全なネットワークを通じて提供されてもよい。本開示に従った計算、評価、または機械学習の過程で情報を入手する場合、情報は、外部および/または内部の様々なデータベースの1つまたは組み合わせから入手することができる。コンピュータシステムは、ある構成要素から他の構成要素に情報または算出結果を転送したり、ユーザに情報を出力したりすることができ、ユーザは、コンピュータシステムに情報または命令を入力し、それによって構成要素に戻すことができる。
【0123】
本開示で言及される動作または機能は、プロセッサによって実行されるソフトウェアコードとして実行することができる。機械学習言語には、Python、Pytorch、Scala、Java(登録商標)、Rプログラミング、Javascript(登録商標)、Lisp、SageMaker、およびC++が含まれる。このテーマに関する参考書としては、「データ駆動型科学および工学(Data-Driven Science and Engineering)」,S.L.Brunton,2019、「[弁理士およびその他]ダミーのための機械学習(Machine Learning for [patent attorneys and other]Dummies)」,J.P.Meuller,第2版,2021、「ディープラーニング(Deep Learning)」,I.Goodfellowら,2016が挙げられる。
【0124】
ソフトウェアコードは、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードドライブなどの磁気媒体、DVD(デジタル多用途ディスク)などの光媒体、フラッシュメモリ、または電子ネットワークを介してベンダまたはソースからダウンロード可能な情報パケットなどの、記憶および/または伝送用のコンピュータ可読媒体上に、一連の命令またはコマンドとして格納することができる。本開示で言及される方法はいずれも、ユーザからの入力または監視と組み合わせて、またはユーザからの入力または監視から独立して、方法のステップを実行するように構成またはプログラムされたコンピュータシステムで、全部または部分的に実行することができる。本開示において言及される方法のステップのうち、コンピュータシステムによって全体的または部分的に実行されるものは、別段の記載または要求がない限り、任意である。
【0125】
参照による組み込み
本開示において引用される各刊行物および特許文献は、そのような各刊行物または文献が参照により本明細書に組み込まれることが具体的かつ個別に示されている場合と同じ程度に、あらゆる目的のために、参照によりその全体が本明細書に組み込まれる。
【0126】
商標
本開示にあるような、コンピュータ学習および/または処理、候補発現およびアッセイを複数回繰り返すことによる、タンパク質の同定、特性解析、探索、および開発のための方法および基礎となるシステムは、Flywheel(登録商標)またはFlourish(登録商標)技術と呼ばれることがある。これらはShiru,Inc.が所有する商標である。
【0127】
解釈および実施
上述した技術は、特定の概念、手順、および情報によって部分的に例示されているが、特許請求される発明は、明示的に言及されているか、または別途要求されている特徴に関するものを除き、それによって限定されるものではない。本開示において、様々な製品および構成要素の生産、作用、および評価の基礎となる様式に関して提示される理論は、読み手の興味および可能な啓発のために提供されるものであり、特許請求される発明の実施を制限することを意図するものではない。読み手は、本開示に記載された技術を任意の適切な目的のために使用することができる。
【0128】
本発明は、特定の実施例および図示を参照して説明されてきたが、日常的な開発および最適化の問題として、また当業者の範囲内で、特定の文脈または意図された使用に適合するように変更を加え、置換することができ、それにより、以下に特許請求される内容およびその均等物の範囲から逸脱することなく、本発明の利益を達成することができる。
図1
図2
図3
図4A
図4B
図5A
図5B
図5C
図5D
図6
図7
図8
図9
図10
【国際調査報告】