IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ スリービリエンの特許一覧

特開2022-111058知識移転を用いた遺伝子変異の病原性予測システム
<>
  • 特開-知識移転を用いた遺伝子変異の病原性予測システム 図1
  • 特開-知識移転を用いた遺伝子変異の病原性予測システム 図2
  • 特開-知識移転を用いた遺伝子変異の病原性予測システム 図3
  • 特開-知識移転を用いた遺伝子変異の病原性予測システム 図4
  • 特開-知識移転を用いた遺伝子変異の病原性予測システム 図5
  • 特開-知識移転を用いた遺伝子変異の病原性予測システム 図6
  • 特開-知識移転を用いた遺伝子変異の病原性予測システム 図7
  • 特開-知識移転を用いた遺伝子変異の病原性予測システム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022111058
(43)【公開日】2022-07-29
(54)【発明の名称】知識移転を用いた遺伝子変異の病原性予測システム
(51)【国際特許分類】
   G16B 40/00 20190101AFI20220722BHJP
   C12M 1/00 20060101ALI20220722BHJP
   C12Q 1/68 20180101ALI20220722BHJP
   G06N 3/08 20060101ALI20220722BHJP
   G06N 20/00 20190101ALI20220722BHJP
   G16B 30/00 20190101ALI20220722BHJP
【FI】
G16B40/00
C12M1/00 A
C12Q1/68
G06N3/08
G06N20/00
G16B30/00
【審査請求】有
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2021192434
(22)【出願日】2021-11-26
(31)【優先権主張番号】10-2021-0007219
(32)【優先日】2021-01-19
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】521229072
【氏名又は名称】スリービリエン
【氏名又は名称原語表記】3BILLION
【住所又は居所原語表記】14th floor, yeonbong building, 416, Teheran-ro, Gangnam-gu Seoul 06193, Republic of Korea
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際特許業務法人
(72)【発明者】
【氏名】イ キョンヨル
(72)【発明者】
【氏名】ウォン ドンゴン
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA23
4B029BB20
4B063QA07
4B063QA18
4B063QQ06
4B063QQ07
4B063QQ10
4B063QR75
4B063QR76
4B063QR79
4B063QS39
(57)【要約】      (修正有)
【課題】少数のデータ情報を持って、機械学習モデルを通じてオーバーフィッティングなしに学習して遺伝子変異の病原性の有無を判断することができる遺伝子変異の病原性予測システムを提供する。
【解決手段】進化的保存データから生成された仮想遺伝子変異データを用いて人工神経網のネットワークモデルを学習し、人工神経網のネットワークモデルから抽出した隠匿層の加重値の値を人工神経網のネットワークモデルに知識移転して実際遺伝子変異データを学習する、知識移転を用いた遺伝子変異の病原性予測システム1000であって、仮想遺伝子変異データ生成部100、仮想変異学習部300、加重値抽出部500、実際変異学習部700、及び病原性判断部900と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
進化的保存データから生成された仮想遺伝子変異データを用いて人工神経網のネットワークモデルを学習し、前記人工神経網の前記ネットワークモデルから抽出された隠匿層の加重値の値を前記人工神経網の前記ネットワークモデルに知識移転して実際遺伝子変異データを学習する、知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項2】
前記進化的保存データから前記仮想遺伝子変異データを生成する仮想遺伝子変異データ生成部と、
前記仮想遺伝子変異データを用いて前記人工神経網の前記ネットワークモデルを学習する仮想変異学習部と、
前記実際遺伝子変異データを用いて前記人工神経網の前記ネットワークモデルを学習する実際変異学習部と、
前記仮想変異学習部、または前記実際変異学習部が前記人工神経網の前記ネットワークモデルを学習する際、前記人工神経網の前記ネットワークモデルが有する前記隠匿層の前記加重値の値を獲得する加重値抽出部と、を含み、
前記実際変異学習部は、前記人工神経網の前記ネットワークモデルを学習する際、抽出された前記加重値の値を前記隠匿層に適用することを特徴とする、請求項1に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項3】
前記仮想遺伝子変異データ生成部は、
ターゲットタンパク質配列情報と多数の類似タンパク質配列情報から多重配列アライメント(MSA:Multiple Sequence Alignment)を用いて進化的保存特徴が含まれている前記進化的保存データを生成する進化的保存データ生成部と、
前記進化的保存特徴から予め設定された基準に沿って、仮想病原性遺伝子変異データと仮想非病原性遺伝子変異データとをそれぞれ生成する仮想病原性変異判断部と、
を含む、請求項2に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項4】
前記進化的保存特徴は、残基(residue)から見つけられたアミノ酸の頻度であることを特徴とする、請求項3に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項5】
前記多重配列アライメントは、BLASTアルゴリズムまたはHHBLitsアルゴリズムによって行われることを特徴とする、請求項3に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項6】
前記進化的保存データは、N×21次元の特徴行列であって、前記Nは、アミノ酸配列の長さに該当する任意の数であることを特徴とする、請求項3に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項7】
前記実際遺伝子変異データは、実際病原性遺伝子変異データと実際非病原性遺伝子変異データとを含む、請求項2に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項8】
前記知識移転(knowledge transfer)は、転移学習(transfer learning)と多重作業学習(multi-task learning)とを含む、請求項2に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項9】
前記転移学習(transfer learning)は、前記仮想変異学習部が前記人工神経網の前旗ネットワークモデルを用いて前記仮想遺伝子変異データを学習した後、前記加重値抽出部が抽出した前記加重値の値を前記実際変異学習部が用いることを特徴とする、請求項8に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項10】
前記多重作業学習(multi-task learning)は、前記仮想変異学習部と前記実際変異学習部とから抽出されたそれぞれの前記加重値の値を交互に前記人工神経網の前記ネットワークモデルの前記隠匿層に適用することを特徴とする、請求項8に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項11】
前記隠匿層は、前記人工神経網の前記ネットワークモデルの序盤レイヤであることを特徴とする、請求項2に記載の知識移転(knowledge transfer)を用いた遺伝子変異の病原性予測システム。
【請求項12】
前記実際変異学習部から学習された前記人工神経網の前記ネットワークモデルを用いて対象遺伝子変異の病原性を判断する病原性判断部をさらに含む、請求項2に記載の知識移転(knowledge transfer)を用いた遺伝子変異が病原性予測システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遺伝子変異の病原性を予測するシステムに関し、より詳しくは、知識移転を用いて遺伝子変異の病原性を予測するシステムに関する。
【背景技術】
【0002】
人体の遺伝子変異が多様な疾病及び症状を引き起こした事例が多数あったところ、数多くの遺伝子変異の中で疾病誘発原因遺伝子を見つけ出すことは難しい問題である。
【0003】
近来は、疾病誘発原因遺伝子を特定するために、自動化されたアルゴリズムを通じて遺伝子変異の病原性を判断する研究が進行されている。
【0004】
特に、人工知能機械学習を通じて遺伝子変異の病原性を判断しようとする試みがなされているところ、機械学習モデルの場合、データへの依存性が多くて、少数の臨床及び実験データのみで機械学習モデルを学習すると、オーバーフィッティング(overfitting)が発生してしまう可能性が非常に高い。
【0005】
より具体的に、従来の技術は、実際遺伝子変異データを持って、機械学習モデルを通じて病原性を予測していたところ、正確な病原性を示す臨床及び実験データは、その数が限定されていて、少数の臨床及び実験データで機械学習モデルを学習すると、オーバーフィッティング(overfitting)がよく発生してしまう。
【0006】
特に、希少疾患を引き起こす疾病誘発原因遺伝子は、そのデータ情報を集めるのが非常に難しくて、そのような問題を解決することは非常に重要である。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】韓国登録特許第10-1953762号(公告日:2019年3月4日)
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明が達成しようとする技術的課題は、少数のデータ情報を持って、機械学習モデルを通じてオーバーフィッティングなしに学習して遺伝子変異の病原性の有無を判断することができる遺伝子変異の病原性予測システムを提供することである。
【課題を解決するための手段】
【0009】
このような課題を解決するために、本発明の実施例に係る知識移転を用いた遺伝子変異の病原性予測システムは、進化的保存データから生成された仮想遺伝子変異データを用いて人工神経網のネットワークモデルを学習し、前記人工神経網のネットワークモデルから抽出された隠匿層の加重値の値を人工神経網のネットワークモデルに知識移転して実際遺伝子変異データを学習する。
【0010】
前記進化的保存データから前記仮想遺伝子変異データを生成する仮想遺伝子変異データ生成部と、前記仮想遺伝子変異データを用いて人工神経網のネットワークモデルを学習する仮想変異学習部と、前記実際遺伝子変異データを用いて人工神経網のネットワークモデルを学習する実際変異学習部と、前記仮想変異学習部、または前記実際変異学習部が人工神経網のネットワークモデルを学習する際、前記人工神経網のネットワークモデルが有する隠匿層の加重値の値を獲得する加重値抽出部と、を含み、前記実際変異学習部は、人工神経網のネットワークモデルを学習する際、抽出された前記加重値の値を隠匿層に適用することができる。
【0011】
前記仮想遺伝子変異データ生成部は、ターゲットタンパク質配列情報と多数の類似タンパク質配列情報から多重配列アライメント(MSA:Multiple Sequence Alignment)を用いて進化的保存特徴が含まれている前記進化的保存データを生成する進化的保存データ生成部と、前記進化的保存特徴から予め設定された基準に沿って、仮想病原性遺伝子変異データと仮想非病原性遺伝子変異データとをそれぞれ生成する仮想病原性変異判断部と、を含むことができる。
【0012】
前記進化的保存特徴は、残基(residue)から見つけられたアミノ酸の頻度であり得る。
【0013】
前記多重配列アライメントは、BLASTアルゴリズムまたはHHBLitsアルゴリズムによって行われ得る。
【0014】
前記進化的保存データは、N×21次元の特徴行列であり、前記Nは、アミノ酸配列の長さに該当する任意の数であり得る。
【0015】
前記実際遺伝子変異データは、実際病原性遺伝子変異データと実際非病原性遺伝子変異データとを含むことができる。
【0016】
前記知識移転(knowledge transfer)は、転移学習(transfer learning)と多重作業学習(multi-task learning)とを含むことができる。
【0017】
前記転移学習(transfer learning)は、前記仮想変異学習部が人工神経網のネットワークモデルを用いて前記仮想遺伝子変異データを学習した後、前記加重値抽出部が抽出した加重値の値を前記実際変異学習部が用いることができる。
【0018】
前記多重作業学習(multi-task learning)は、前記仮想変異学習部と前記実際変異学習部とから抽出されたそれぞれの加重値の値を交互に人工神経網のネットワークモデルの隠匿層に適用することができる。
【0019】
前記隠匿層は、前記人工神経網のネットワークモデルの序盤レイヤであり得る。
【0020】
前記実際変異学習部から学習された人工神経網のネットワークモデルを用いて対象遺伝子変異の病原性を判断する病原性判断部をさらに含むことができる。
【0021】
以上で言及した本発明の技術的課題の以外にも、本発明の他の特徴及び利点を以下で記述するか、そのような技術及び説明から、本発明が属する技術分野において通常の知識を持った者にとって明確に理解されることができるだろう。
【発明の効果】
【0022】
以上のような本発明によると、次のような効果がある。
本発明は、少数の遺伝子変異データ情報を持って、機械学習モデルを通じてオーバーフィッティングなしに学習してタンパク質配列に変化を引き起こす遺伝子変異に対する正確な病原性を予測することができる。
【0023】
また、本発明は、進化的保存データから生成された仮想遺伝子変異データを用いて、人工神経網のネットワークモデルから抽出された隠匿層の加重値の値を知識移転することで、少数の実際遺伝子変異データ情報を持って遺伝子変異から病原性予測に重要な特徴を抽出することで、オーバーフィッティングなしに学習することができ、タンパク質配列に変化を引き起こす遺伝子変異に対する正確な病原性を予測することができる。
【0024】
それ以外にも、本発明の実施例から、本発明のさらに他の特徴及び利点を新しく把握することもできるだろう。
【図面の簡単な説明】
【0025】
図1】本発明の一実施例に係る知識移転を用いた遺伝子変異の病原性予測システムの概略的な構成を示すブロック図である。
図2】本発明の一実施例に係る仮想遺伝子変異データ生成部の概略的な構成図を示すブロック図である。
図3】本発明の一実施例に係る、タンパク質配列情報を説明するための図である。
図4】本発明の一実施例に係る、多重配列アライメントを用いて進化的保存特徴を示す進化的保存データを説明するための図である。
図5】本発明の一実施例に係る、仮想病原性遺伝子変異データと仮想非病原性遺伝子変異データとを説明するための図である。
図6】本発明の一実施例に係る遺伝子変異の病原性予測システムが転移学習することを説明するための図である。
図7】本発明の他の実施例に係る遺伝子変異の病原性予測システムが多重作業学習することを説明するための図である。
図8】本発明の一実施例に係る遺伝子変異の病原性予測システムが人工神経網のネットワークモデルを用いて対象遺伝子変異の病原性を判断することを説明するための図である。
【発明を実施するための形態】
【0026】
本明細書において、各図面の構成要素に参照番号を付加するに際し、同じ構成要素に限っては、たとえ他の図面上に表示されるとしても、なるべく同じ番号を持たせていることに留意して欲しい。
【0027】
なお、本明細書において記述されている用語の意味は、次のように理解して欲しい。
「含む」または「有する」などの用語は、一つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部分品、またはこれらを組み合わせたものの存在または付加可能性を予め排除しないことと理解すべきである。
【0028】
なお、本明細書に対する解釈を明確にするために、以下では、本明細書で使われている用語を定義する。
【0029】
本明細書で使われている用語の「遺伝子変異」は、様々な要因によって、染色体から起こる塩基配列の変異を意味し得る。例えば、遺伝子変異は、体性突然変異、サンプルの汚染による塩基配列の変異、及び遺伝病による塩基配列の変異であり得る。但し、遺伝子変異は、前述したものに制限されるわけではない。
【0030】
以下、添付の図面を参考しながら、上記の問題点を解決するために考案された本発明の好適な実施例について詳しく説明する。
【0031】
図1は、本発明の一実施例に係る知識移転を用いた遺伝子変異の病原性予測システムの概略的な構成を示すブロック図であり、図2は、本発明の一実施例に係る仮想遺伝子変異データ生成部の概略的な構成図を示すブロック図であり、図3は、本発明の一実施例に係る、タンパク質配列情報を説明するための図であり、図4は、本発明の一実施例に係る、多重配列アライメントを用いて進化的保存特徴を示す進化的保存データを説明するための図であり、図5は、本発明の一実施例に係る、仮想病原性遺伝子変異データと仮想非病原性遺伝子変異データとを説明するための図であり、図6は、本発明の一実施例に係る遺伝子変異の病原性予測システムが転移学習することを説明するための図であり、図7は、本発明の他の実施例に係る遺伝子変異の病原性予測システムが多重作業学習することを説明するための図であり、図8は、本発明の一実施例に係る遺伝子変異の病原性予測システムが人工神経網のネットワークモデルを用いて対象遺伝子変異の病原性を判断することを説明するための図である。
【0032】
図1を参照すると、発明の一実施例に係る知識移転を用いた遺伝子変異の病原性予測システム1000は、仮想遺伝子変異データ生成部100、仮想変異学習部300、加重値抽出部500、実際変異学習部700、及び病原性判断部900を含む。
【0033】
本発明の実施例に係る知識移転を用いた遺伝子変異の病原性予測システムは、仮想遺伝子変異データ生成部によって、進化的保存データを用いて、人工神経網のネットワークモデルに利用される仮想遺伝子変異データを生成し、仮想変異学習部によって、仮想遺伝子変異データを用いた人工神経網のネットワークモデルを学習しながら、加重値抽出部によって抽出された隠匿層の加重値を実際変異学習部の人工神経網のネットワークモデルに移転することで、実際遺伝子変異データを学習することができる。
【0034】
仮想遺伝子変異データ生成部100は、進化的保存データと仮想遺伝子変異データとを生成することができる。
【0035】
図2を参照すると、仮想遺伝子変異データ生成部100は、進化的保存データ生成部110と仮想病原性変異判断部130とを含む。
【0036】
進化的保存データ生成部110は、ターゲットタンパク質配列情報と多数の類似タンパク質配列情報とから、多重配列アライメント(MSA:Multiple Sequence Alignment)を用いて進化的保存特徴が含まれている進化的保存データを生成することができる。
【0037】
図3を参照すると、タンパク質配列の全長は非常に多様であるため、実施例によって任意の特定領域のタンパク質配列情報10のみを用いることができる。
【0038】
タンパク質配列情報は、多数のアミノ酸(アルファベット単語)が順次連続された文字列に表現され得る。この際、矢印はタンパク質の残基(residue)の手順を示す。
【0039】
図3に示すタンパク質配列情報10は、1番目の残基におけるアミノ酸Mから始めて、10番目の残基におけるアミノ酸Qに終わる。
【0040】
進化的保存データ生成部110は、進化的保存情報を多重配列アライメント(MSA:Multiple Sequence Alignment)を用いて、進化的保存特徴が含まれている進化的保存データを生成することができる。
【0041】
図4を参照すると、進化的保存データ生成部110は、ターゲットタンパク質配列情報(A)と、多数の類似タンパク質配列情報(B)とを、多重配列アライメント(MSA)を用いて配列アライメントすることができる。
【0042】
先ず、ターゲットタンパク質を設定し、ターゲットタンパク質と配列が類似した他のタンパク質を類似タンパク質として選定することができる。一般的に、配列の類似したタンパク質は、進化の過程で分化されたタンパク質と仮定する。
【0043】
この際、ターゲットタンパク質と他のタンパク質との類似度を判断して類似タンパク質を選定することができるところ、類似度は、アミノ酸同一性(identity)と配列一致範囲(coverage)で判断することができる。類似度を判断するE-valueなどのscoring技法が多数開発されている。
【0044】
アミノ酸は、進化の過程で他のアミノ酸に変化するか、新しいアミノ酸が追加または遺失されることもあるため、同じ位置の残基が他のアミノ酸を有することもある。この際、一致する残基がなければ、「ギャップ(-)」に表示する。
【0045】
多くのタンパク質から同じアミノ酸が繰り返して見つけられる場合、該残基は「よく保存された(highly conserved)」という。
【0046】
なお、ターゲットタンパク質と多数の類似タンパク質とを多重配列アライメントすることができる。
【0047】
ここで、配列アライメントとは、互いに異なるタンパク質の残基の位置が一致するようにアライメントすることを意味し、アライメントするタンパク質が複数個であれば、多重配列アライメントという。
【0048】
本発明の一実施例に係る進化的保存データ生成部110は、BLASTアルゴリズムまたはHHBLitsアルゴリズムによって多重配列アライメントを行うことができる。
【0049】
なお、進化的保存データ生成部110は、該残基(residue)から見つけられたアミノ酸の頻度を進化的保存特徴として進化的保存データ111を生成することができる。
【0050】
すなわち、進化的保存データ111は、進化的保存特徴を示す配列データであり、N×21次元特徴行列であり得る。ここで、Nは、アミノ酸配列の塩基配列の長さに該当する任意の数であり、アミノ酸の種類が21種であるため、21次元に表現され得る。
【0051】
仮想病原性変異判断部130は、進化的保存特徴から予め設定された基準に沿って、仮想病原性遺伝子変異データと仮想非病原性遺伝子変異データとをそれぞれ生成することができる。
【0052】
仮想遺伝子変異データは、仮想病原性遺伝子変異データと仮想非病原性遺伝子変異データとを含む。
【0053】
仮想病原性遺伝子変異は、進化的に多くの生物種の遺伝情報に鑑みれば、見つけられるのが珍しい遺伝子変異であり、仮想非病原性遺伝子変異は、頻繁に見つけられる遺伝子変異であり得る。
【0054】
図4を参照すると、進化的保全データ111の1番目の残基(a)において、アミノ酸Lの比重は50%である。病原性であるか否かを判断する基準を10%に予め設定すれば、1番目の残基(a)において、アミノ酸Mがアミノ酸Lに変わる遺伝子変異は非病原性として見做され得る。
【0055】
1番目の残基(a)において、アミノ酸Pの比重は0であるため、アミノ酸Mがアミノ酸Pに変わる遺伝子変異は病原性として見做され得る。
【0056】
1番目の残基(a)において、アミノ酸Pは、一度も発見されなかったので、ターゲットタンパク質の1番目の残基(a)がアミノ酸Pに変わる遺伝子変異が発生すれば、進化的には生命体の発達に対して大きな障害を引き起こすとも思うことができる。
【0057】
よって、病原性が高いと思うことができる仮想病原性遺伝子変異データで生成することができる。
【0058】
7番目の残基(b)において、アミノ酸Sの比重は10%以上である60%なので、アミノ酸Tがアミノ酸Sに変わる遺伝子変異は非病原性として見做され得る。
【0059】
7番目の残基(b)において、アミノ酸Sが繰り返して観察されるので、ターゲットタンパク質の7番目の残基がアミノ酸Sに変わる遺伝子変異が発生しても、進化的には生命体の発達に対して大きな障害を引き起こすことはないと推論できる。
【0060】
よって、病原性が低いと思うことができる仮想非病原性遺伝子変異データで生成することができる。
【0061】
8番目の残基(c)において、アミノ酸Wの比重は10%以上である50%なので、アミノ酸Fがアミノ酸Wに変わる遺伝子変異は非病原性として見做され得る。
【0062】
図5を参照すると、仮想病原性変異判断部130は、進化的保存特徴から予め設定された基準に沿って、多数の仮想病原性遺伝子変異データ131と仮想非病原性遺伝子変異データ133とをそれぞれ生成することができる。
【0063】
仮想変異学習部300は、仮想遺伝子変異データを用いて人工神経網のネットワークモデルを学習することができる。
【0064】
図6を参照すると、仮想変異学習部300は、仮想遺伝子変異データ130である仮想病原性遺伝子変異データ131と仮想非病原性遺伝子変異データ133とを用いて、人工神経網のネットワークモデルを学習することができる。
【0065】
本発明の一実施例に係る遺伝子変異の病原性予測システム1000は、知識移転(knowledge transfer)技法の中で、転移学習(transfer learning)技法を用いることができる。
【0066】
転移学習(transfer learning)は、仮想変異学習部300が人工神経網のネットワークモデルを用いて仮想遺伝子変異データを完全に学習した後、加重値抽出部が仮想変異学習部300の人工神経網のネットワークモデルで隠匿層の加重値の値を抽出することになる。それから、実際変異学習部から抽出された隠匿層の加重値の値を人工神経網のネットワークモデルが適用して、実際遺伝子変異データを学習することになる。
【0067】
この際、人工神経網のネットワークモデル(ANN:Artificial Neural Network)が利用されることができ、ディープラーニングネットワークであるCNN、RNN、またはTransformerのうち、いずれか一つが利用され得る。
【0068】
CNN(Convolutional Neural Network)は、ディープラーニングにおいて一番多く使われているアルゴリズムの一つであって、配列データを学習することができる。この場合、近所の残基を一つのフィルター(filter)で合成積する方式である。
【0069】
RNN(Recurrent Neural Network)は、毎瞬間のデータを人工神経網構造に積み上げたものであって、ディープラーニングの中で一番深いネットワーク構造であり、配列データの入力を受ける代表的なディープラーニングネットワークである。
【0070】
それ以外、ディープラーニングネットワークとして知られているTransformer、GRU(Gated Recurrent Unit)、LSTM(Long Short-Term Memory)、BERT(Bidirectional Encoder Representations from Transformers)、またはXLNETなど、配列データに適用可能なディープラーニングネットワークが利用され得る。
【0071】
仮想変異学習部300は、仮想遺伝子変異データ130を用いて、人工神経網のネットワークモデルを学習しながら、配列特徴410とレイヤ510の加重値を生成することができる。
【0072】
一般的に、人工神経網のネットワークモデルが、ある問題を解決するためにデータを学習する際、データのパターンを複数のレイヤ330、510、730で学習することになる。
【0073】
加重値抽出部500は、仮想変異学習部300が人工神経網のネットワークモデルを学習する際、人工神経網のネットワークモデルが有する隠匿層510の加重値の値を獲得することができる。
【0074】
この際、加重値抽出部500は、複数のレイヤ330,510、730の中で序盤レイヤ510加重値の値を抽出することができる。
【0075】
複数のレイヤ330、510、730の中で、序盤レイヤ510加重値は、遺伝子変異において病原性予測に重要な特徴を反映したと思うことができるため、それを知識移転技法に活用することができる。
【0076】
実際変異学習部700は、実際遺伝子変異データを用いて人工神経網のネットワークモデルを学習するところ、この際、加重値抽出部500から獲得した加重値の値を用いることができる。
【0077】
すなわち、加重値抽出部500によって抽出された隠匿層510の加重値の値を人工神経網のネットワークモデルに移転することで、実際遺伝子変異データを学習することができる。
【0078】
実際遺伝子変異データは、実際病原性遺伝子変異データ731と実際非病原性遺伝子変異データ733とを含む。
【0079】
この際、実際変異学習部700は、加重値抽出部500によって抽出された隠匿層510の加重値の値を、人工神経網のネットワークモデルの序盤隠匿層510に用いることができる。
【0080】
図7を参照して、本発明の他の実施例に係る遺伝子変異の病原性予測システムが多重作業学習することを説明する。知識移転技法の中で多重作業学習を除き、前述した遺伝子変異の病原性予測システムと同様である。よって、同じ構成に対しては同じ図面符号を付与しており、同じ構成に対する説明の繰り返しは省略する。
【0081】
本発明の他の実施例に係る遺伝子変異の病原性予測システム1000は、知識移転(knowledge transfer)技法の中で、多重作業学習(multi-task learning)を用いることができる。
【0082】
多重作業学習(multi-task learning)は、仮想変異学習部と実際変異学習部とから抽出されたそれぞれの隠匿層の加重値の値をリアルタイムで交互に人工神経網のネットワークモデルの隠匿層として用いることができる。
【0083】
例えば、仮想変異学習部300は、仮想変異データをA、B、Cに分けて学習し、実際変異学習部700は、実際変異データをD、E、Fに分けて学習することにする。
【0084】
仮想変異学習部300において、仮想変異データAを学習した後、加重値抽出部500が人工神経網のネットワークモデルの隠匿層510の加重値の値を抽出することになる。実際変異学習部700は、抽出された隠匿層510の加重値の値を人工神経網のネットワークモデルの隠匿層510の加重値の値として用いて実際変異データDを学習する。
【0085】
次に、仮想変異学習部300が仮想変異データBを学習する際は、実際変異学習部700において、実際変異データDを学習した後、抽出された隠匿層510の加重値の値を用いて仮想変異データBを学習することになる。
【0086】
また、実際変異学習部700が実際変異データEを学習する際は、仮想変異学習部300が仮想変異データBを学習した後、抽出された隠匿層510の加重値の値を用いて実際変異データEを学習することになる。
【0087】
次に、仮想変異学習部300が仮想変異データCを学習する際は、実際変異学習部700において実際変異データEを学習した後、抽出された隠匿層510の加重値の値を用いて仮想変異データCを学習することになる。
【0088】
また、実際変異学習部700が実際変異データFを学習する際は、仮想変異学習部300が仮想変異データCを学習した後、抽出された隠匿層510の加重値の値を用いて実際変異データFを学習することになる。
【0089】
このように、本発明の他の実施例に係る遺伝子変異の病原性予測システム1000は、知識移転(knowledge transfer)技法の中で多重作業学習(multi-task learning)を用いることができる。
【0090】
結果的に、本発明による遺伝子変異の病原性予測システム1000は、最初に多くのレイヤにおける学習に必要なデータ資源を、知識移転技法の中で転移学習または多重作業学習に切り替えることで、遺伝子変異から病原性予測に重要な特徴を抽出し、人工神経網のネットワークモデルの終盤隠匿層730のみを学習するほどの少ない実際遺伝子変異データだけでもオーバーフィッティングなしに学習することができる。
【0091】
図8を参照すると、本発明の一実施例に係る遺伝子変異が病原性予測システム1000は、実際変異学習部から学習された人工神経網のネットワークモデル700を用いて、対象遺伝子変異が30の病原性を判断する病原性判断部900をさらに含むことができる。
【0092】
病原性判断部900は、人工神経網のネットワークモデルを用いて活性化関数(activation function)を通じて病原性を有する可能性を0から1までの病原性点数に表示することができる。
【0093】
この際、活性化関数(activation function)は、ソフトマックス関数(softmax function)またはシグモイド関数(sigmoid function)であり得る。
【0094】
このように、本発明の実施例に係る転移学習を用いた遺伝子変異の病原性予測システム1000は、タンパク質配列情報と進化的保全データとを用いて仮想遺伝子変異データを生成し、人工神経網のネットワークモデルで仮想遺伝子変異データを学習し、獲得した隠匿層の加重値の値を知識移転することで、少数の実際遺伝子変異データのみでもオーバーフィッティングなしに学習することができる。
【0095】
つまり、本発明の実施例に係る転移学習を用いた遺伝子変異の病原性予測システム1000は、少数の遺伝子変異データ情報を持って、機械学習モデルを通じてオーバーフィッティングなしに学習し、タンパク質配列に変化を引き起こす遺伝子変異に対する正確な病原性を予測することができる。
【0096】
以上で説明した本発明は、前述した実施例及び添付の図面に限定されず、本発明の技術的思想を脱しない範囲内で、様々な置き換え、変形、及び変更が可能であるということは、本発明が属する技術分野において、通常の知識を持った者にとって自明であるだろう。
【符号の説明】
【0097】
100 仮想遺伝子変異データ生成部
110 進化的保存データ生成部
130 仮想病原性変異判断部
300 仮想変異学習部
500 加重値抽出部
700 実際変異学習部
900 病原性判断部
1000 転移学習を用いた遺伝子変異の病原性予測システム
図1
図2
図3
図4
図5
図6
図7
図8