IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ビージーアイ ゲノミクス カンパニー., リミテッドの特許一覧 ▶ ビージーアイ ヘルス(ホンコン)カンパニー リミテッドの特許一覧

特表2024-502513遺伝子の関連度を決定するための方法およびデバイス
<>
  • 特表-遺伝子の関連度を決定するための方法およびデバイス 図1
  • 特表-遺伝子の関連度を決定するための方法およびデバイス 図2
  • 特表-遺伝子の関連度を決定するための方法およびデバイス 図3
  • 特表-遺伝子の関連度を決定するための方法およびデバイス 図4
  • 特表-遺伝子の関連度を決定するための方法およびデバイス 図5
  • 特表-遺伝子の関連度を決定するための方法およびデバイス 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-22
(54)【発明の名称】遺伝子の関連度を決定するための方法およびデバイス
(51)【国際特許分類】
   G06F 16/28 20190101AFI20240115BHJP
【FI】
G06F16/28
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021575980
(86)(22)【出願日】2021-01-21
(85)【翻訳文提出日】2022-02-17
(86)【国際出願番号】 CN2021073013
(87)【国際公開番号】W WO2022134252
(87)【国際公開日】2022-06-30
(31)【優先権主張番号】202011535972.2
(32)【優先日】2020-12-23
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521553449
【氏名又は名称】ビージーアイ ゲノミクス カンパニー., リミテッド
(71)【出願人】
【識別番号】521552165
【氏名又は名称】ビージーアイ ヘルス(ホンコン)カンパニー リミテッド
(74)【代理人】
【識別番号】110001461
【氏名又は名称】弁理士法人きさ特許商標事務所
(72)【発明者】
【氏名】周▲ジィェン▼
(72)【発明者】
【氏名】孔▲令▼翔
(72)【発明者】
【氏名】王今安
(72)【発明者】
【氏名】▲賀▼▲増▼泉
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FB04
(57)【要約】
本出願は、遺伝子の関連度を決定するための方法およびデバイスを開示する。各事前設定関連性データベース内の疾患記述エントリと複数の遺伝子との対象関連性レコード(単数または複数)のレコードデータを決定し、このレコードデータを事前設定エントリ-遺伝子関連性マトリクスに入力し、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアを決定することによって、疾患記述エントリと複数の遺伝子との間の関連度を迅速に取得できる。
【特許請求の範囲】
【請求項1】
遺伝子の関連度を決定するための方法であって、
症例記述テキスト内の疾患記述エントリを決定するステップと、
複数の事前設定関連性データベースについて、
前記疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、前記事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータを決定するステップであって、前記事前設定関連性データベースの各々は、前記疾患記述エントリと前記複数の遺伝子のうちの少なくとも1つに対応する複数の遺伝子識別子との関連性レコードを複数記憶している、ステップと、
前記事前設定関連性データベース内の前記複数の遺伝子の各々に対する前記疾患記述エントリの関連性スコアを決定するために、前記レコードデータを事前設定エントリ-遺伝子関連性マトリクスに入力するステップと、
前記複数の事前設定関連性データベース内の前記複数の遺伝子に対応する前記複数の遺伝子識別子に対する前記疾患記述エントリの関連性スコアに応じて、前記疾患記述エントリと前記複数の遺伝子の各々との間の関連度を決定するステップと、
を含むことを特徴とする方法。
【請求項2】
前記疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、前記事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータを決定する前記ステップは、
前記複数の遺伝子のうちの何れの遺伝子についても、前記事前設定関連性データベース内の前記疾患記述エントリと前記遺伝子に対応する遺伝子識別子との前記対象関連性レコード(単数または複数)のレコードデータを決定するサブステップであって、前記対象関連性レコード(単数または複数)の前記レコードデータは、前記遺伝子の前記遺伝子識別子および前記疾患記述エントリの両方を含む第1の数の関連性レコード(単数または複数)と、前記疾患記述エントリを含む第2の数の関連性レコード(単数または複数)と、前記遺伝子の前記遺伝子識別子を含む第3の数の関連性レコード(単数または複数)と、前記事前設定関連性データベース内の関連性レコード(単数または複数)の合計数とを含む、サブステップ、
を含むことを特徴とする、請求項1に記載の方法。
【請求項3】
前記事前設定エントリ-遺伝子関連性マトリクスは、次式で表され、
【数1】
式中、Mは、前記事前設定情報-遺伝子関連性データベース内の前記遺伝子に対応する前記遺伝子識別子に対する前記疾患記述エントリの前記関連性スコアであり、Tは前記第1の数であり、Tは前記第2の数であり、Tは前記第3の数であり、Tは前記合計数であることを特徴とする、請求項2に記載の方法。
【請求項4】
前記複数の事前設定関連性データベース内の前記複数の遺伝子に対応する前記複数の遺伝子識別子に対する前記疾患記述エントリの関連性スコアに応じて、前記疾患記述エントリと前記複数の遺伝子の各々との間の関連度を決定する前記ステップは、何れの遺伝子についても、
前記疾患記述エントリと前記遺伝子との間の関連度値を取得するために、前記複数の事前設定情報-遺伝子関連性データベース内の前記遺伝子に対応する前記遺伝子識別子に対する前記疾患記述エントリの前記関連性スコアに重み付けするサブステップと、
前記関連度値に応じて、前記疾患記述エントリと前記遺伝子との間の前記関連度を決定するサブステップと、
を含むことを特徴とする、請求項1に記載の方法。
【請求項5】
前記関連度値に応じて前記疾患記述エントリと前記遺伝子との間の前記関連度を決定する前記ステップは、
L=1/(1+e-z)により前記疾患記述エントリと前記遺伝子との間の前記関連度を決定するサブステップであって、式中、Lは前記疾患記述エントリと前記遺伝子との間の前記関連度であり、eは自然定数であり、zは前記関連度値である、サブステップ、
を含むことを特徴とする、請求項4に記載の方法。
【請求項6】
前記事前設定エントリ-遺伝子関連性マトリクスのトレーニングプロセスが、
前記複数の事前設定情報-遺伝子関連性データベース内の複数の疾患記述エントリと複数の遺伝子の複数の遺伝子識別子とを含む対象関連性レコード(単数または複数)のレコードデータをトレーニング情報として現在のエントリ-遺伝子関連性トレーニングマトリクスに入力し、前記トレーニング情報と前記事前設定情報-遺伝子関連性データベース内の前記複数の遺伝子とに対応する複数の予測関連性スコアをそれぞれ決定するステップと、
前記決定された予測関連性スコアに応じて、前記複数の疾患記述エントリと前記複数の遺伝子との間の複数の予測関連度をそれぞれ決定するステップと、
前記複数の疾患記述エントリと前記複数の遺伝子の前記予測関連度と実際の関連度との間の誤差を求めるステップと、
前記誤差が事前設定された誤差閾値未満であるかどうかを判定するステップと、
前記誤差が事前設定された前記誤差閾値未満であれば、前記現在のエントリ-遺伝子関連性トレーニングマトリクスが前記エントリ-遺伝子関連性マトリクスであると決定するステップと、
前記誤差が事前設定された前記誤差閾値未満でなければ、前記現在のエントリ-遺伝子関連性トレーニングマトリクス内のマトリクスパラメータを勾配降下アルゴリズムによって調整し、前記調整されエントリ-遺伝子関連性トレーニングマトリクスを前記現在のエントリ-遺伝子関連性トレーニングマトリクスとして使用し、前記複数の事前設定情報-遺伝子関連性データベース内の複数の疾患記述エントリと複数の遺伝子の複数の遺伝子識別子とを含む複数の対象関連性レコードのレコードデータをトレーニング情報として現在のエントリ-遺伝子関連性トレーニングマトリクスに入力するステップに戻り、前記トレーニング情報と前記事前設定情報-遺伝子関連性データベース内の前記複数の遺伝子とにそれぞれ対応する複数の予測関連性スコアを決定するステップと、
を含むことを特徴とする、請求項1に記載の方法。
【請求項7】
遺伝子の関連度値を決定するためのデバイスであって、前記デバイスは、疾患記述エントリ決定ユニットと、関連性スコア決定ユニットと、関連度決定ユニットとを備え、
前記疾患記述エントリ決定ユニットは、症例記述テキスト内の疾患記述エントリを決定するために使用され、
前記関連性スコア決定ユニットは、前記疾患記述エントリと前記複数の遺伝子のうちの少なくとも1つに対応する複数の遺伝子識別子の関連性レコードをそれぞれ記憶している複数の事前設定関連性データベースについて、前記疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、前記事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータを決定し、前記レコードデータを、前記事前設定関連性データベース内の前記複数の遺伝子の各々に対する前記疾患記述エントリの関連性スコアを決定するために、事前設定エントリ-遺伝子関連性マトリクスに入力するために使用され、
前記関連度決定ユニットは、前記複数の事前設定関連性データベース内の前記複数の遺伝子に対応する前記複数の遺伝子識別子に対する前記疾患記述エントリの複数の関連性スコアに応じて、前記疾患記述エントリと前記複数の遺伝子の各々との間の関連度を決定するために使用される、
ことを特徴とするデバイス。
【請求項8】
前記関連性スコア決定ユニットは、特に、前記複数の遺伝子のうちの何れの遺伝子についても、前記事前設定関連性データベース内の前記疾患記述エントリと前記遺伝子に対応する遺伝子識別子とを含む対象関連性レコード(単数または複数)のレコードデータをそれぞれ決定するために使用され、前記対象関連性レコード(単数または複数)の前記レコードデータは、前記遺伝子の前記遺伝子識別子および前記疾患記述エントリの両方を含む第1の数の関連性レコード(単数または複数)と、前記疾患記述エントリを含む第2の数の関連性レコード(単数または複数)と、前記遺伝子の前記遺伝子識別子を含む第3の数の関連性レコード(単数または複数)と、前記事前設定関連性データベース内の関連性レコード(単数または複数)の合計数とを含む、ことを特徴とする、請求項7に記載のデバイス。
【請求項9】
前記事前設定エントリ-遺伝子関連性マトリクスは、次式で表され、
【数2】
式中、Mは、前記事前設定情報-遺伝子関連性データベース内の前記遺伝子に対応する前記遺伝子識別子に対する前記疾患記述エントリの前記関連性スコアであり、Tは前記第1の数であり、Tは前記第2の数であり、Tは前記第3の数であり、Tは前記合計数である、
ことを特徴とする、請求項8に記載の方法。
【請求項10】
前記関連度決定ユニットは、関連度値取得サブユニットと関連度決定サブユニットとを備え、
前記関連度値取得サブユニットは、何れの遺伝子についても、前記疾患記述エントリと前記遺伝子との間の関連度値を取得するために、前記複数の事前設定情報-遺伝子関連性データベース内の前記遺伝子に対応する前記遺伝子識別子に対する前記疾患記述エントリの前記複数の関連性スコアに重み付けするために使用され、
前記関連度決定サブユニットは、前記関連度値に応じて、前記疾患記述エントリと前記遺伝子との間の前記関連度を決定するために使用される、
ことを特徴とする、請求項7に記載のデバイス。
【請求項11】
前記関連度決定サブユニットは、L=1/(1+e-z)により前記疾患記述エントリと前記遺伝子との間の前記関連度を決定するために使用され、式中、Lは前記疾患記述エントリと前記遺伝子との間の前記関連度であり、eは自然定数であり、zは前記関連度値である、ことを特徴とする、請求項10に記載のデバイス。
【請求項12】
予測関連性スコア決定ユニットと、予測関連度決定ユニットと、誤差決定ユニットと、誤差比較ユニットと、エントリ-遺伝子関連性マトリクス決定ユニットと、マトリクスパラメータ調整ユニットとを更に備え
前記予測関連性スコア決定ユニットは、前記複数の事前設定情報-遺伝子関連性データベース内の複数の疾患記述エントリと複数の遺伝子の複数の遺伝子識別子とを含む複数の対象関連性レコードのレコードデータをトレーニング情報として現在のエントリ-遺伝子関連性トレーニングマトリクスに入力し、前記トレーニング情報と前記事前設定情報-遺伝子関連性データベース内の前記複数の遺伝子とに対応する複数の予測関連性スコアをそれぞれ決定するために使用され、
前記予測関連度決定ユニットは、前記決定された予測関連性スコアに応じて、前記複数の疾患記述エントリと前記複数の遺伝子との間の複数の予測関連度をそれぞれ決定するために使用され、
前記誤差決定ユニットは、前記複数の疾患記述エントリと前記複数の遺伝子の前記予測関連度と実際の関連度との間の誤差を求めるために使用され、
前記誤差比較ユニットは、前記誤差が事前設定された誤差閾値未満であるかどうかを判定し、前記誤差が事前設定された前記誤差閾値未満であれば、前記エントリ-遺伝子関連性マトリクス決定ユニットをトリガするために、前記誤差が事前設定された前記誤差閾値未満でなければ、前記マトリクスパラメータ調整ユニットをトリガするために、使用され、
前記エントリ-遺伝子関連性マトリクス決定ユニットは、前記現在のエントリ-遺伝子関連性トレーニングマトリクスを前記エントリ-遺伝子関連性マトリクスとして決定するために使用され、
前記マトリクスパラメータ調整ユニットは、前記現在のエントリ-遺伝子関連性トレーニングマトリクス内の複数のマトリクスパラメータを勾配降下アルゴリズムによって調整し、前記調整されたエントリ-遺伝子関連性トレーニングマトリクスを前記現在のエントリ-遺伝子関連性トレーニングマトリクスとして使用し、前記予測関連性スコア決定ユニットをトリガするために使用される、
ことを特徴とする、請求項7に記載のデバイス。
【請求項13】
記憶媒体であって、プログラムが前記記憶媒体に記憶され、前記プログラムは、プロセッサによって実行されると、請求項1~6の何れか一項に記載の遺伝子の関連度を決定するための方法を実行することを特徴とする記憶媒体。
【請求項14】
プロセッサであって、前記プロセッサはプログラムを実行するために使用され、前記プログラムは、実行されると、請求項1~6の何れか一項に記載の遺伝子の関連度を決定するための方法を具現化することを特徴とするプロセッサ。
【請求項15】
電子デバイスであって、少なくとも1つのプロセッサと、前記プロセッサに結合された少なくとも1つのメモリと、バスとを備え、
前記プロセッサは前記バスを介して前記メモリと通信し、前記プロセッサは、請求項1~6の何れか一項に記載の遺伝子の関連度を決定するための方法を実施するために、前記メモリ内のプログラム命令を呼び出すために使用される、
ことを特徴とする電子デバイス。
【請求項16】
コンピュータプログラム製品であって、前記コンピュータプログラム製品は、電子デバイス上で実行されると、請求項1~6の何れか一項に記載の遺伝子の関連度を決定するための方法のステップを初期化するためのプログラムを実行するように適合化されていることを特徴とする、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、中華人民共和国の特許事務所に2020年12月23日に提出された「遺伝子の関連度を判定するための方法およびデバイス」と題する中国特許出願公開第202011535972.2号の優先権を主張し、その全内容を引用により本願明細書に組み込まれるものとする。
【0002】
分野
本出願は、遺伝子の関連性の技術分野に属し、特に、遺伝子の関連度を決定するための方法およびデバイスに属する。
【背景技術】
【0003】
現在、医学研究の深まりに伴い、遺伝性疾患に関連する病原遺伝子の特定は、これら遺伝性疾患の研究調査および追跡治療において担当要員のために重要な補助的役割を提供するであろう。
【0004】
1つの遺伝性疾患は、通常、複数の病原遺伝子に関連している。遺伝性疾患を有する患者の症例記述テキストには、疾患記述エントリによって記述された種々の臨床表現型情報が存在し得る。異なる臨床表現型情報が1つ以上の病原遺伝子に関連付けられ得る。異なる臨床表現型情報に関連付けられる病原遺伝子は、同じことも異なることもあり得る。現在、5181種類の遺伝性疾患と15428種類の遺伝子とが識別されている。患者の症例記述テキスト内の疾患記述エントリと遺伝子との間の関連性を如何に迅速に決定するかが担当要員にとって緊急の技術的課題になっている。
【発明の概要】
【課題を解決するための手段】
【0005】
上記の課題に鑑み、本出願は、上記問題を克服するために、または上記問題を少なくとも部分的に解決するために、遺伝子の関連度を決定するための方法およびデバイスを提供する。関連の技術的解決策は、以下のとおりである。
【0006】
遺伝子の関連度を決定するための方法は、
症例記述テキスト内の疾患記述エントリを決定するステップと、
複数の事前設定関連性データベースについて、
疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータを決定するステップであって、事前設定関連性データベースの各々は、疾患記述エントリと複数の遺伝子のうちの少なくとも1つに対応する複数の遺伝子識別子との関連性レコードを記憶している、ステップと、
事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアを決定するために、レコードデータを事前設定エントリ-遺伝子関連性マトリクスに入力するステップと、
複数の事前設定関連性データベース内の複数の遺伝子に対応する複数の遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに応じて、疾患記述エントリと複数の遺伝子の各々との間の関連度との間の関連度を決定するステップと、
を含む。
【0007】
場合によっては、疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータを決定するステップは、
複数の遺伝子のうちの何れの遺伝子についても、事前設定関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子との対象関連性レコード(単数または複数)のレコードデータをそれぞれ決定するサブステップを含み、対象関連性レコード(単数または複数)のレコードデータは、遺伝子の遺伝子識別子および疾患記述エントリの両方を含む第1の数の関連性レコード(単数または複数)と、疾患記述エントリを含む第2の数の関連性レコード(単数または複数)と、遺伝子の遺伝子識別子を含む第3の数の関連性レコード(単数または複数)と、事前設定関連性データベース内の関連性レコード(単数または複数)の合計数とを含む。
【0008】
場合によっては、事前設定エントリ-遺伝子関連性マトリクスは、次式で表され、
【0009】
【数1】
式中、Mは、事前設定情報-遺伝子関連性データベース内の遺伝子に対応する遺伝子識別子に対する疾患記述エントリの関連性スコアであり、Tは第1の数であり、Tは第2の数であり、Tは第3の数であり、Tは合計数である。
【0010】
場合によっては、複数の事前設定関連性データベース内の複数の遺伝子に対応する複数の遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに応じて、疾患記述エントリと複数の遺伝子の各々との間の関連度を決定するステップは、何れの遺伝子についても、
疾患記述エントリと遺伝子との間の関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の遺伝子に対応する遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに重み付けするサブステップと、
関連度値に応じて、疾患記述エントリと遺伝子との間の関連度を決定するサブステップと、
を含む。
【0011】
場合によっては、関連度値に応じて、疾患記述エントリと遺伝子との間の関連度を決定するステップは、
L=1/(1+e-z)により疾患記述エントリと遺伝子との間の関連度を決定するサブステップであって、Lは疾患記述エントリと遺伝子との間の関連度であり、eは自然定数であり、zは関連度値である、サブステップを含む。
【0012】
場合によっては、事前設定エントリ-遺伝子関連性マトリクスのトレーニングプロセスが、
複数の事前設定情報-遺伝子関連性データベース内の複数の疾患記述エントリと複数の遺伝子の複数の遺伝子識別子とを含む複数の対象関連性レコードのレコードデータをトレーニング情報として現在のエントリ-遺伝子関連性トレーニングマトリクスに入力し、トレーニング情報と事前設定情報-遺伝子関連性データベース内の複数の遺伝子とに対応する複数の予測関連性スコアを決定するステップと、
決定された複数の予測関連性スコアに応じて、複数の疾患記述エントリと複数の遺伝子との間の予測関連度をそれぞれ判定するステップと、
複数の疾患記述エントリと複数の遺伝子との予測関連度と実際の関連度の間の誤差を求めるステップと、
誤差が事前設定された誤差閾値未満であるかどうかを判定するステップと、
誤差が事前設定された誤差閾値未満であれば、現在のエントリ-遺伝子関連性トレーニングマトリクスがエントリ-遺伝子関連性マトリクスであると決定するステップと、
誤差が事前設定された誤差閾値未満でなければ、現在のエントリ-遺伝子関連性トレーニングマトリクス内のマトリクスパラメータを勾配降下アルゴリズムによって調整し、調整されたエントリ-遺伝子関連性トレーニングマトリクスを現在のエントリ-遺伝子関連性トレーニングマトリクスとして使用し、複数の事前設定情報-遺伝子関連性データベース内の複数の疾患記述エントリと複数の遺伝子の複数の遺伝子識別子とを含む対象関連性レコード(単数または複数)のレコードデータをトレーニング情報として現在のエントリ-遺伝子関連性トレーニングマトリクス入力するステップに戻り、トレーニング情報と事前設定情報-遺伝子関連性データベース内の複数の遺伝子とにそれぞれ対応する複数の予測関連性スコアを決定するステップと、
を含む。
【0013】
疾患記述エントリ決定ユニットと、関連性スコア決定ユニットと、関連度決定ユニットとを備えた、遺伝子の関連度を決定するためのデバイスであって、
疾患記述エントリ決定ユニットは、症例記述テキスト内の疾患記述エントリを決定するために使用され、
関連性スコア決定ユニットは、疾患記述エントリと複数の遺伝子のうちの少なくとも1つに対応する複数の遺伝子識別子との関連性レコードをそれぞれ記憶している複数の事前設定関連性データベースについて、疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータを決定し、このレコードデータを、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアを決定するために、事前設定エントリ-遺伝子関連性マトリクスに入力するために使用され、
関連度決定ユニットは、複数の事前設定関連性データベース内の複数の遺伝子に対応する複数の遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに応じて、疾患記述エントリと複数の遺伝子の各々との間の関連度を決定するために使用される。
【0014】
場合によっては、関連性スコア決定ユニットは、特に、複数の遺伝子のうちの何れの遺伝子についても、事前設定関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子とを含む対象関連性レコード(単数または複数)のレコードデータを決定するために使用され、対象関連性レコード(単数または複数)のレコードデータは、遺伝子の遺伝子識別子および疾患記述エントリの両方を含む第1の数の関連性レコード(単数または複数)と、疾患記述エントリを含む第2の数の関連性レコード(単数または複数)と、遺伝子の遺伝子識別子を含む第3の数の関連性レコード(単数または複数)と、事前設定関連性データベース内の関連性レコード(単数または複数)の合計数とを含む。
【0015】
場合によっては、事前設定エントリ-遺伝子関連性マトリクスは、次式で表され、
【0016】
【数2】
式中、Mは、事前設定情報-遺伝子関連性データベース内の遺伝子に対応する遺伝子識別子に対する疾患記述エントリの関連性スコアであり、Tは第1の数であり、Tは第2の数であり、Tは第3の数であり、Tは合計数である。
【0017】
場合によっては、関連度決定ユニットは、関連度値取得サブユニットと関連度決定サブユニットとを備え、
関連度値取得サブユニットは、何れの遺伝子についても、疾患記述エントリと遺伝子との間の関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の遺伝子に対応する遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに重み付けするために使用され、
関連度決定サブユニットは、関連度値に応じて、疾患記述エントリと遺伝子との間の関連度を決定するために使用される。
【0018】
場合によっては、関連度決定サブユニットは、L=1/(1+e-z)により疾患記述エントリと遺伝子との間の関連度を決定するために使用され、式中、Lは、疾患記述エントリと遺伝子との間の関連度であり、eは自然定数であり、zは関連度値である。
【0019】
場合によっては、本デバイスは、予測関連性スコア決定ユニットと、予測関連度決定ユニットと、誤差決定ユニットと、誤差比較ユニットと、エントリ-遺伝子関連性マトリクス決定ユニットと、マトリクスパラメータ調整ユニットとを更に備え、
予測関連性スコア決定ユニットは、複数の事前設定情報-遺伝子関連性データベース内の複数の疾患記述エントリと複数の遺伝子の複数の遺伝子識別子とを含む複数の対象関連性レコードのレコードデータをトレーニング情報として現在のエントリ-遺伝子関連性トレーニングマトリクスに入力し、トレーニング情報と事前設定情報-遺伝子関連性データベース内の複数の遺伝子とに対応する予測関連性スコアをそれぞれ決定するために使用され、
予測関連度決定ユニットは、決定された予測関連性スコアに応じて、複数の疾患記述エントリと複数の遺伝子との間の予測関連度をそれぞれ決定するために使用され、
誤差決定ユニットは、複数の疾患記述エントリと複数の遺伝子の予測関連度と実際の関連度との間の誤差を求めるために使用され、
誤差比較ユニットは、誤差が事前設定された誤差閾値未満であるかどうかを判定し、誤差が事前設定された誤差閾値未満であれば、エントリ-遺伝子関連性マトリクス決定ユニットをトリガするために、誤差が事前設定された誤差閾値未満でなければ、マトリクスパラメータ調整ユニットをトリガするために、使用され、
エントリ-遺伝子関連性マトリクス決定ユニットは、現在のエントリ-遺伝子関連性トレーニングマトリクスをエントリ-遺伝子関連性マトリクスとして決定するために使用され、
マトリクスパラメータ調整ユニットは、現在のエントリ-遺伝子関連性トレーニングマトリクス内の複数のマトリクスパラメータを勾配降下アルゴリズムによって調整し、調整されたエントリ-遺伝子関連性トレーニングマトリクスを現在のエントリ-遺伝子関連性トレーニングマトリクスとして使用し、予測関連性スコア決定ユニットをトリガするために使用される。
【0020】
コンピュータプログラムが記憶されている記憶媒体であって、コンピュータプログラムは、プロセッサによって実行されると、上記の何れか1つに応じて遺伝子の関連度を決定するための方法を具現化する、記憶媒体。
【0021】
プログラムを実行するためのプロセッサであって、プログラムは、実行されると、上記の何れか1つに応じて遺伝子の関連度を決定するための方法を実施する、プロセッサ。
【0022】
少なくとも1つのプロセッサと、このプロセッサに結合された少なくとも1つのメモリと、バスとを備えた電子デバイスであって、プロセッサはバスを介してメモリと通信し、プロセッサは、上記の何れか1つに応じて遺伝子の関連度を決定するための方法を実施するために、メモリ内のプログラム命令を呼び出すために使用される、電子デバイス。
【0023】
コンピュータプログラム製品であって、電子デバイス上で実行されると、上記の何れか1つに応じて遺伝子の関連度を決定するための方法のステップを初期化するためのプログラムを実行するように適合化されているコンピュータプログラム製品。
【0024】
上記技術方式では、本出願によって提供される遺伝子の関連度を決定するための方法およびデバイスは、症例記述テキスト内の疾患記述エントリを決定できる。疾患記述エントリと複数の遺伝子のうちの少なくとも1つに対応する複数の遺伝子識別子との関連性レコードをそれぞれ記憶している複数の事前設定関連性データベースについて、疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータが決定され、このレコードデータは、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアを決定するために、事前設定エントリ-遺伝子関連性マトリクスに入力され、複数の事前設定関連性データベース内の複数の遺伝子に対応する複数の遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに応じて、疾患記述エントリと複数の遺伝子の各々との間の関連度が決定される。本出願においては、各事前設定関連性データベース内の疾患記述エントリと複数の遺伝子との対象関連性レコード(単数または複数)のレコードデータを決定し、このレコードデータを事前設定エントリ-遺伝子関連性マトリクスに入力することによって、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアが決定されるので、疾患記述エントリと複数の遺伝子との間の関連度が迅速に取得され得る。
【0025】
上記は、本出願における技術的解決策の概要であるに過ぎない。本出願の技術手段をより明確に理解するために、この技術手段は、本明細書の内容に従って具現化可能である。本出願の上記および他の目的、特徴、および利点をより理解可能にするために、本出願の特定の実施形態を以下に説明する。
【0026】
本出願の各実施形態または従来技術における技術的解決策をより明確に説明するために、各実施形態または従来技術の説明において使用する必要がある図面について、以下に簡単に紹介する。以下に示されている図面は、本出願の一部の実施形態に過ぎないことは明らかである。当業者にとっては、このような図面に従って、発明努力を一切必要としないという前提で、他の図面も取得し得る。
【図面の簡単な説明】
【0027】
図1】本出願の一部の実施形態において提供される遺伝子の関連度を決定するための方法のフローチャートを示す。
図2】本出願の一部の実施形態において提供される遺伝子の関連度を決定するための別の方法のフローチャートを示す。
図3】本出願の一部の実施形態において提供される事前設定エントリ-遺伝子関連性マトリクスのトレーニングプロセスの概略図を示す。
図4】本出願の一部の実施形態において提供される遺伝子の関連度を決定するための更に別の方法のフローチャートを示す。
図5】本出願の一部の実施形態において提供される遺伝子の関連度を決定するためのデバイスの構造図を示す。
図6】本出願の一部の実施形態において提供される遺伝子の関連度を決定するための別のデバイスの構造図を示す。
【発明を実施するための形態】
【0028】
次に、添付の図面を参照して、本開示の複数の例示的実施形態を詳細に説明する。これら図面には本開示の複数の例示的実施形態が示されているが、本開示は、さまざまな形態で具現化可能であり、本願明細書に記載の実施形態によって限定されるべきではないことを理解されたい。むしろ、これらの実施形態は、本開示のより完全な理解を可能にするために、および本開示の範囲を当業者に完全に伝えるために、提供されている。
【0029】
図1に示されているように、本出願の一部の実施形態において提供される遺伝子の関連度を決定するための方法は、
S100:症例記述テキスト内の疾患記述エントリを決定するステップ、
を含み得る。
【0030】
症例記述テキストは、医療スタッフによる患者の疾患の検査および診断などの医療活動の記録とすることができる。場合によっては、症例記述テキストは、複数の単語で構成された文章または段落とすることができる。疾患記述エントリは、患者の疾患の臨床表現型情報を記述するエントリとすることができる。
【0031】
場合によっては、疾患記述エントリは、HPOエントリまたは遺伝性疾患エントリとすることができる。HPO(human phenotype ontology)は、ヒト疾患によって引き起こされた異常な表現型を記述する標準的な語彙のセットである。この標準語彙セットは、複数のHPOエントリを含む。HPOエントリは中国語の単語または英単語などの他の言語の単語とすることができることは理解可能である。遺伝性疾患エントリは、遺伝子が疾患の主要因である疾患の専門名、および/または略語、および/または他の複数のユーザ定義名のうちの1つとすることができる。ユーザ定義名は、業界における疾患の口語表現とすることができることに注目されたい。例えば、「気管支喘息(bronchial asthma)」という専門名を有する疾患は、「ぜんそく(asthma)」と省略でき、「喘鳴(wheezing)」という口語表現で表されることが多い。当該研究分野における遺伝性疾患に対する継続的な詳細研究、およびさまざまな応用分野における異なる実際の必要性、の故に、研究の必要性または実際の応用の必要性に応じて、業界要員が遺伝性疾患エントリを自身で作成し得ることは理解可能である。
【0032】
場合によっては、本出願の一部の実施形態において、症例記述テキストをセグメント化し、自然言語処理(NLP:natural language processing)における固有表現抽出(NER:named entity recognition)によって、構造化された疾患記述エントリを構造化されていない症例記述テキストから抽出できる。本出願の各実施形態は、固有表現抽出技術を使用することによって、疾患記述エントリを症例記述テキストから精確に抽出できる。
【0033】
本出願の各実施形態は、事前設定された疾患記述キーワードによって、疾患記述エントリを症例記述テキストから取り出すこともできることは理解可能である。
【0034】
症例記述テキストは、1つ以上の疾患記述エントリを含むことができ、本出願の各実施形態は、症例記述テキストから決定された何れの疾患記述エントリに対しても、本出願の各実施形態によって提供される遺伝子の関連度を決定するための方法を実行できることは理解可能である。
【0035】
S200:疾患記述エントリと複数の遺伝子のうちの少なくとも1つに対応する複数の遺伝子識別子との関連性レコードをそれぞれ記憶している複数の事前設定関連性データベースについて、事前設定関連性データベース内の疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、1つ以上の対象関連性レコード(単数または複数)のレコードデータを決定し、このレコードデータを、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアを決定するために、事前設定エントリ-遺伝子関連性マトリクスに入力する。
【0036】
事前設定関連性データベースは、マッピング可能なエントリを遺伝子識別子に関連付けるために、当該業界における公共疾患データベースに基づき構築されたデータベースでもよい。場合によっては、当該業界における公共疾患データベースは、疾患関連遺伝子(OMIM:disease-related gene)データベース、遺伝的変異(ClinVar:genetic variation)データベース、ヒト遺伝子突然変異(HGMD:human gene mutation)データベース、ヒト表現型の標準的用語群(HPO)データベース、および希少疾患関連(Orphanet:rare disease-related)データベースを含み得る。本出願の各実施形態は、当該業界における複数の異なる公共疾患データベースのための関連性データベースをそれぞれ構築できる。場合によっては、事前設定関連性データベースは、複数の疾患記述エントリと複数の遺伝子識別子との間の関連性関係をマッピングする関連性レコード(単数または複数)を記憶できる。
【0037】
場合によっては、本出願の各実施形態は、疾患記述エントリと複数の遺伝子に対応する複数の遺伝子識別子とに応じて、事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータを決定できる。場合によっては、対象関連性レコード(単数または複数)のレコードデータは、事前設定関連性データベース内の疾患記述エントリと複数の遺伝子のうちの何れか1つとを含む関連性レコード(単数または複数)の数、または事前設定関連性データベース内の複数の遺伝子のうちの何れか1つの遺伝子識別子を含む関連性レコード(単数または複数)の数、とすることができる。
【0038】
場合によっては、ステップS200は、複数の遺伝子のうちの何れの遺伝子についても、事前設定関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子との対象関連性レコード(単数または複数)のレコードデータをそれぞれ決定するサブステップを含み得る。対象関連性レコード(単数または複数)のレコードデータは、遺伝子の遺伝子識別子および疾患記述エントリの両方を含む第1の数の関連性レコード(単数または複数)と、疾患記述エントリを含む第2の数の関連性レコード(単数または複数)と、遺伝子の遺伝子識別子を含む第3の数の関連性レコード(単数または複数)と、事前設定関連性データベース内の関連性レコード(単数または複数)の合計数とを含む。
【0039】
対象関連性レコード(単数または複数)は、事前設定関連性データベース内の関連性レコード(単数または複数)とすることができ、事前設定関連性データベース内の遺伝子の遺伝子識別子および疾患記述エントリの両方を含む関連性レコード(単数または複数)、事前設定関連性データベース内の疾患記述エントリを含む関連性レコード(単数または複数)、または遺伝子の遺伝子識別子を含む関連性レコード(単数または複数)にし得ることは理解可能である。
【0040】
場合によっては、事前設定エントリ-遺伝子関連性マトリクスは、次式で表され得る。
【0041】
【数3】
式中、Mは、事前設定情報-遺伝子関連性データベース内の遺伝子に対応する遺伝子識別子に対する疾患記述エントリの関連性スコアであり、Tは第1の数であり、Tは第2の数であり、Tは第3の数であり、Tは合計数である。
【0042】
本出願の各実施形態において、決定された対象関連性レコード(単数または複数)のレコードデータを事前設定エントリ-遺伝子関連性マトリクスに入力することによって、事前設定エントリ-遺伝子関連性マトリクスから出力される関連性スコアを計算によって取得できる。複数の遺伝子のうちの何れか1つに対する決定された疾患記述エントリの関連性スコアの数は、複数の事前設定関連性データベースの数と同じであることに注目されたい。例えば、事前設定関連性データベースが5つ存在するとすると、本出願の一部の実施形態においては、疾患記述エントリと何れか遺伝子についても、事前設定エントリ-遺伝子関連性マトリクスを使用して、その遺伝子に対する疾患記述エントリの関連性スコアを5つの事前設定関連性データベースに基づき決定できる。すなわち、その遺伝子に対する疾患記述エントリの関連性スコアを5つ決定できる。この5つの関連性スコアは同じであり得る、または異なり得る、ことは理解可能である。
【0043】
S300:複数の事前設定関連性データベース内の複数の遺伝子に対応する遺伝子識別子に対する疾患記述エントリの関連性スコアに応じて、疾患記述エントリと複数の遺伝子の各々との間の関連度を決定する。
【0044】
場合によっては、本出願の各実施形態において、何れの遺伝子についても、疾患記述エントリと遺伝子との関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子とに対応する複数の関連性スコアが合計される。
【0045】
場合によっては、図1に示されている方法に基づき、本出願の一部の実施形態において提供される遺伝子の関連度を決定するための別の方法が図2に示されている。ステップS300は、
S310:何れの遺伝子についても、疾患記述エントリと遺伝子との間の関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の遺伝子に対応する遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに重み付けする、
サブステップを含み得る。
【0046】
本出願の一部の実施形態においては、事前設定情報-遺伝子関連性データベースの各々に対して重みを予め設定できるので、重み付け処理後、疾患記述エントリと遺伝子との間のより信頼性が高い関連度値を取得できる。理解を助けるために、ここで例によって説明する。予め、事前設定情報-遺伝子関連性データベースAの重みをw1に設定し、事前設定情報-遺伝子関連性データベースBの重みをw2に設定し、事前設定情報-遺伝子関連性データベースCの重みをw3に設定し、事前設定情報-遺伝子関連性データベースDの重みをw4に設定し、事前設定情報-遺伝子関連性データベースEの重みをw5に設定しておく。遺伝子の遺伝子識別子に対する疾患記述エントリの関連性スコアは、事前設定情報-遺伝子関連性データベースAに対応するx1であり、事前設定情報-遺伝子関連性データベースBに対応するx2であり、事前設定情報-遺伝子関連性データベースCに対応するx3であり、事前設定情報-遺伝子関連性データベースDに対応するx4であり、事前設定情報-遺伝子関連性データベースEに対応するx5である。重み付け処理によって、疾患記述エントリと遺伝子との間の関連度値が以下のように得られる。
Z=X+X+X+X+X
【0047】
S320:関連度値に応じて、疾患記述エントリと遺伝子との間の関連度を決定する
【0048】
場合によっては、ステップS320は、
L=1/(1+e-z)により疾患記述エントリと遺伝子との間の関連度を決定するサブステップを含み得る。式中、Lは疾患記述エントリと遺伝子との間の関連度であり、eは自然定数であり、zは関連度値である。
【0049】
本出願は、症例記述テキスト内の疾患記述エントリを決定可能な、遺伝子の関連度を決定するための方法を提供する。疾患記述エントリと複数の遺伝子のうちの少なくとも1つに対応する複数の遺伝子識別子との関連性レコードをそれぞれ記憶している複数の事前設定関連性データベースについて、疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータが決定され、このレコードデータが、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアを決定するために、事前設定エントリ-遺伝子関連性マトリクスに入力され、複数の事前設定関連性データベース内の複数の遺伝子に対応する複数の遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに応じて、疾患記述エントリと複数の遺伝子の各々との間の関連度が決定される。本出願においては、各事前設定関連性データベース内の疾患記述エントリと複数の遺伝子との対象関連性レコードのレコードデータを決定し、このレコードデータを事前設定エントリ-遺伝子関連性マトリクスに入力することによって、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアが決定されるので、疾患記述エントリと複数の遺伝子との間の関連度が迅速に取得され得る。
【0050】
場合によっては、図3に示されているように、本出願の一部の実施形態において提供される事前設定エントリ-遺伝子関連性マトリクスをトレーニングするプロセスが、
S10:複数の事前設定情報-遺伝子関連性データベース内の複数の疾患記述エントリと複数の遺伝子の複数の遺伝子識別子とを含む複数の対象関連性レコードのレコードデータをトレーニング情報として現在のエントリ-遺伝子関連性トレーニングマトリクスに入力し、このトレーニング情報と事前設定情報-遺伝子関連性データベース内の複数の遺伝子とに対応する予測関連性スコアをそれぞれ決定する、
ステップを含み得る。
【0051】
本出願の各実施形態は、トレーニングの開始時に、エントリ-遺伝子関連性トレーニングマトリクスを初期化できる。ステップS10は、ステップS200と同様である。本出願の各実施形態は、現在のエントリ-遺伝子関連性トレーニングマトリクスから出力される複数の予測関連性スコアを取得するために、複数の事前設定情報-遺伝子関連性データベース内の複数の疾患記述エントリと複数の遺伝子に対応する複数の遺伝子識別子との複数の対象関連性レコードのレコードデータを現在のエントリ-遺伝子関連性トレーニングマトリクスに連続的に入力できる。同様に、複数の遺伝子のうちの何れか1つに対する疾患記述エントリの複数の予測関連性スコアの決定された数は、複数の事前設定関連性データベースの数と同じである。
【0052】
S20:決定された予測関連性スコアに応じて、複数の疾患記述エントリと複数の遺伝子との間の複数の予測関連度を決定する。
【0053】
場合によっては、本出願の各実施形態においては、何れの遺伝子についても、疾患記述エントリと遺伝子との関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子とに対応する複数の関連性スコアが合計される。
【0054】
場合によっては、本出願の各実施形態においては、何れの遺伝子についても、疾患記述エントリと遺伝子との間の関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子とに対応する関連性スコアが重み付けされる。
【0055】
本出願の各実施形態において、疾患記述エントリと遺伝子との間の関連度は、関連度値に応じて決定され得る。
【0056】
S30:複数の疾患記述エントリと複数の遺伝子の予測関連度と実際の関連度との間の誤差を求める。
【0057】
実際の関連度は、当該分野の専門家によって決定された複数の疾患記述エントリと複数の遺伝子との間の関連度とすることができる。本出願の各実施形態において、現在のエントリ-遺伝子関連性トレーニングマトリクスのトレーニングが完了したかどうかは、実際の関連度と予測関連度との間の誤差に応じて、判定できる。
【0058】
S40:誤差が事前設定された誤差閾値未満であるかを判定し、誤差が事前設定された誤差閾値未満であれば、ステップS50を実行し、誤差が事前設定された誤差閾値未満でなければ、ステップS60を実行する。
【0059】
事前設定される誤差閾値は、本出願の各実施形態における実際の必要性に応じて指定できる。それは、ここで更に限定されない。
【0060】
S50:現在のエントリ-遺伝子関連性トレーニングマトリクスがエントリ-遺伝子関連性マトリクスであると決定する。
【0061】
S60:現在のエントリ-遺伝子関連性トレーニングマトリクス内の複数のマトリクスパラメータを勾配降下アルゴリズムによって調整し、調整されエントリ-遺伝子関連性トレーニングマトリクスを現在のエントリ-遺伝子関連性トレーニングマトリクスとして使用し、ステップS10に戻る。
【0062】
本出願の各実施形態は、複数のマトリクスパラメータを勾配降下アルゴリズムによって調整し、マトリクスパラメータの調整後、エントリ-遺伝子関連性トレーニングマトリクスを検証し、再びトレーニングできるので、最終的に取得されたエントリ-遺伝子関連性トレーニングマトリクスを使用してより精確な関連性スコアを取得でき、実際の関連度と予測関連度との間の誤差を更に減らすことができる。
【0063】
本発明の各実施形態は、誤差が事前設定された誤差閾値未満でないと判定したとき、各事前設定情報-遺伝子関連性データベースの重みも勾配降下法によって調整できることは理解可能である。各事前設定情報-遺伝子関連性データベースの重みを調整することによって、実際の関連度と予測関連度との間の誤差を減らすことができる。
【0064】
場合によっては、図1に示されている方法に基づき、本出願の一部の実施形態において提供される遺伝子の関連度を決定するための別の方法が図4に示されている。本方法は、ステップS300の後、
S400:疾患記述エントリと複数の遺伝子との間の関連度の降順に複数の遺伝子を並べ替える、
ステップを更に含み得る。
【0065】
遺伝子と疾患記述エントリとの間の関連度が高いほど、疾患記述エントリによって記述される疾患臨床表現型が遺伝子の表現型により近似することは理解可能である。疾患記述エントリと複数の遺伝子との間の関連度の決定後に複数の遺伝子を並べ替えると、疾患記述エントリに対応する疾患の病原遺伝子の特定およびスクリーニングを行う担当技術者の助けになる。
【0066】
本出願の一部の実施形態においては、上記の方法実施形態に対応する、遺伝子の関連度を決定するためのデバイスが更に提供される。本デバイスの構造が図5に示されている。本デバイスは、疾患記述エントリ決定ユニット100と、関連性スコア決定ユニット200と、関連度決定ユニット300とを備え得る。
【0067】
疾患記述エントリ決定ユニット100は、症例記述テキスト内の疾患記述エントリを決定するために使用される。
【0068】
症例記述テキストは、医療スタッフによる患者の疾患の検査および診断などの医療活動の記録とすることができる。場合によっては、症例記述テキストは、複数の単語で構成された文章または段落とすることができる。疾患記述エントリは、患者の疾患の臨床表現型情報を記述するエントリとすることができる。
【0069】
場合によっては、疾患記述エントリは、HPOエントリまたは遺伝性疾患エントリとすることができる。HPO(human phenotype ontology)は、ヒト疾患によって引き起こされる異常な表現型を記述する標準的な語彙のセットである。この標準語彙セットは、複数のHPOエントリを含む。HPOエントリを中国語の単語または英単語などの他の言語の単語とすることができることは理解可能である。遺伝性疾患エントリは、遺伝子を疾患の主要因とする疾患の専門名、および/または略語、および/または他の複数のユーザ定義名のうちの1つとすることができる。ユーザ定義名は、当該業界における疾患の口語表現とすることができることに注目されたい。
【0070】
例えば、専門名「気管支喘息(bronchial asthma)」を有する疾患は、「ぜんそく(asthma)」と省略でき、「喘鳴(wheezing)」という口語表現で表されることが多い。当該研究分野における遺伝性疾患に対する継続的な詳細研究、およびさまざまな応用分野における実際のさまざまな必要性、の故に、研究の必要性または実際の応用の必要性に応じて、業界要員が遺伝性疾患エントリを自身で作成し得ることは理解可能である。
【0071】
場合によっては、疾患記述エントリ決定ユニット100は、症例記述テキストをセグメント化し、その後、自然言語処理(NLP:natural language processing)における固有表現抽出(NER:named entity recognition)によって、構造化された疾患記述エントリを構造化されていない症例記述テキストから抽出できる。本出願の各実施形態は、固有表現抽出技術を使用して症例記述テキストから複数の疾患記述エントリを精確に抽出できる。
【0072】
疾患記述エントリ決定ユニット100は、複数の疾患記述キーワードを事前設定することによっても、複数の疾患記述エントリを症例記述テキストから取り出すことができることは理解可能である。
【0073】
関連性スコア決定ユニット200は、疾患記述エントリと複数の遺伝子のうちの少なくとも1つに対応する複数の遺伝子識別子との関連性レコードをそれぞれ記憶している複数の事前設定関連性データベースについて、疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータを決定し、そのレコードデータを、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアを求めるために、事前設定エントリ-遺伝子関連性マトリクスに入力するために使用される。
【0074】
事前設定関連性データベースは、マッピング可能な複数のエントリを複数の遺伝子識別子に関連付けるために当該業界において公共疾患データベースに基づき構築されたデータベースでもよい。場合によっては、当該業界における公共疾患データベースは、OMIM(疾患関連遺伝子)データベース、ClinVar(遺伝的変異)データベース、HGMD(ヒト遺伝子突然変異)データベース、HPO(ヒト表現型の標準的な用語)データベース、およびOrphanet(希少疾患関連)データベースを含み得る。場合によっては、事前設定関連性データベースは、複数の疾患記述エントリと複数の遺伝子識別子との間の関連性関係をマッピングする複数の関連性レコードを記憶できる。
【0075】
場合によっては、関連性スコア決定ユニット200は、疾患記述エントリと複数の遺伝子に対応する複数の遺伝子識別子とに応じて、事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータを決定できる。場合によっては、対象関連性レコード(単数または複数)のレコードデータは、事前設定関連性データベース内の疾患記述エントリと複数の遺伝子のうちの何れか1つとを含む関連性レコード(単数または複数)の数、または事前設定関連性データベース内の複数の遺伝子のうちの何れか1つの遺伝子識別子を含む関連性レコード(単数または複数)の数とすることができる。
【0076】
場合によっては、関連性スコア決定ユニット200は、特に、複数の遺伝子のうちの何れの遺伝子についても、事前設定関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子との対象関連性レコード(単数または複数)のレコードデータをそれぞれ決定するために使用される。対象関連性レコード(単数または複数)のレコードデータは、遺伝子の遺伝子識別子および疾患記述エントリの両方を含む第1の数の関連性レコード(単数または複数)と、疾患記述エントリを含む第2の数の関連性レコード(単数または複数)と、遺伝子の遺伝子識別子を含む第3の数の関連性レコード(単数または複数)と、事前設定関連性データベース内の関連性レコード(単数または複数)の合計数とを含む
【0077】
対象関連性レコード(単数または複数)は、事前設定関連性データベース内の関連性レコード(単数または複数)とすることができ、事前設定関連性データベース内の遺伝子の遺伝子識別子および疾患記述エントリの両方を含む関連性レコード(単数または複数)、事前設定関連性データベース内の疾患記述エントリを含む関連性レコード(単数または複数)、または遺伝子の遺伝子識別子を含む関連性レコード(単数または複数)にし得ることは理解できる。
【0078】
場合によっては、事前設定エントリ-遺伝子関連性マトリクスは、次式で表され得る。
【0079】
【数4】
式中、Mは、事前設定情報-遺伝子関連性データベース内の遺伝子に対応する遺伝子識別子に対する疾患記述エントリの関連性スコアであり、Tは第1の数であり、Tは第2の数であり、Tは第3の数であり、Tは合計数である。
【0080】
関連性スコア決定ユニット200は、決定された対象関連性レコード(単数または複数)のレコードデータを事前設定エントリ-遺伝子関連性マトリクスに入力することによって、事前設定エントリ-遺伝子関連性マトリクスから出力される関連性スコアを計算によって取得するために使用される。複数の遺伝子のうちの何れか1つに対する決定された疾患記述エントリの関連性スコアの数は、複数の事前設定関連性データベースの数と同じであることに注目されたい。
【0081】
関連度決定ユニット300は、複数の事前設定関連性データベース内の複数の遺伝子に対応する複数の遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに応じて、疾患記述エントリと複数の遺伝子の各々との間の関連度を決定するために使用される。
【0082】
場合によっては、関連度決定ユニット300は、何れの遺伝子についても、疾患記述エントリと遺伝子との関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子とに対応する複数の関連性スコアを合計するために使用され得る。
【0083】
場合によっては、関連度決定ユニット300は、関連度値取得サブユニットと関連度決定サブユニットとを備える。
【0084】
関連度値取得サブユニットは、何れの遺伝子についても、疾患記述エントリと遺伝子との間の関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の遺伝子に対応する遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに重み付けするために使用される。
【0085】
本出願の各実施形態においては、事前設定情報-遺伝子関連性データベースの各々に対して重みを予め設定できるので、重み付け処理後、疾患記述エントリと遺伝子との間のより信頼性が高い関連度値を取得できる。
【0086】
関連度決定サブユニットは、関連度値に応じて、疾患記述エントリと遺伝子との間の関連度を決定するために使用される。
【0087】
場合によっては、関連度決定サブユニットは、特に、疾患記述エントリと遺伝子との間の関連度をL=1/(1+e-z)により決定するために使用される。式中、Lは疾患記述エントリと遺伝子との間の関連度であり、eは自然定数であり、zは関連度値である。
【0088】
本出願においては、症例記述テキスト内の疾患記述エントリを決定できる、遺伝子の関連度を決定するためのデバイスが提供される。疾患記述エントリと複数の遺伝子のうちの少なくとも1つに対応する複数の遺伝子識別子との関連性レコードをそれぞれ記憶している複数の事前設定関連性データベースについて、疾患記述エントリと複数の遺伝子のうちの1つにそれぞれ対応する複数の遺伝子識別子とに応じて、事前設定関連性データベース内の対象関連性レコード(単数または複数)のレコードデータが決定される。このレコードデータは、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアを決定するために、事前設定エントリ-遺伝子関連性マトリクスに入力される。複数の事前設定関連性データベース内の複数の遺伝子に対応する複数の遺伝子識別子に対する疾患記述エントリの複数の関連性スコアに応じて、疾患記述エントリと複数の遺伝子の各々との間の関連度が決定される。本出願においては、各事前設定関連性データベース内の疾患記述エントリと複数の遺伝子との対象関連性レコード(単数または複数)のレコードデータを決定し、このレコードデータを事前設定エントリ-遺伝子関連性マトリクスに入力することによって、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアが決定されるので、疾患記述エントリと複数の遺伝子との間の関連度が迅速に取得され得る。
【0089】
場合によっては、遺伝子の関連度を決定するためのデバイスは、予測関連性スコア決定ユニットと、予測関連度決定ユニットと、誤差決定ユニットと、誤差比較ユニットと、エントリ-遺伝子関連性マトリクス決定ユニットと、マトリクスパラメータ調整ユニットとを更に備え得る。
【0090】
予測関連性スコア決定ユニットは、複数の事前設定情報-遺伝子関連性データベース内の複数の疾患記述エントリと複数の遺伝子の複数の遺伝子識別子とを含む複数の対象関連性レコードのレコードデータをトレーニング情報として現在のエントリ-遺伝子関連性トレーニングマトリクスに入力し、トレーニング情報と事前設定情報-遺伝子関連性データベース内の複数の遺伝子とに対応する複数の予測関連性スコアをそれぞれ決定するために使用される。
【0091】
予測関連度決定ユニットは、決定された複数の予測関連性スコアに応じて、複数の疾患記述エントリと複数の遺伝子との間の複数の予測関連度をそれぞれ決定するために使用される。
【0092】
場合によっては、予測関連度決定ユニットは、何れの遺伝子についても、疾患記述エントリと遺伝子との関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子とに対応する複数の関連性スコアを合計するために使用され得る。
【0093】
場合によっては、予測関連度決定ユニットは、何れの遺伝子についても、疾患記述エントリと遺伝子との関連度値を取得するために、複数の事前設定情報-遺伝子関連性データベース内の疾患記述エントリと遺伝子に対応する遺伝子識別子とに対応する複数の関連性スコアに重み付けするために使用され得る。
【0094】
予測関連度決定ユニットは、関連度値に応じて、疾患記述エントリと遺伝子との間の関連度を決定するために使用され得る。
【0095】
誤差決定ユニットは、複数の疾患記述エントリと複数の遺伝子の予測関連度と実際の関連度との間の誤差を求めるために使用される。
【0096】
実際の関連度は、当該分野における専門家によって決定された複数の疾患記述エントリと複数の遺伝子との間の関連度とすることができる。
【0097】
誤差比較ユニットは、誤差が事前設定された誤差閾値未満であるかどうかを判定し、誤差が事前設定された誤差閾値未満であれば、エントリ-遺伝子関連性マトリクス決定ユニットをトリガするために、誤差が事前設定された誤差閾値未満でなければ、マトリクスパラメータ調整ユニットをトリガするために、使用される。
【0098】
エントリ-遺伝子関連性マトリクス決定ユニットは、現在のエントリ-遺伝子関連性トレーニングマトリクスをエントリ-遺伝子関連性マトリクスとして決定するために使用される。
【0099】
マトリクスパラメータ調整ユニットは、現在のエントリ-遺伝子関連性トレーニングマトリクス内の複数のマトリクスパラメータを勾配降下アルゴリズムによって調整し、調整されたエントリ-遺伝子関連性トレーニングマトリクスを現在のエントリ-遺伝子関連性トレーニングマトリクスとして使用し、予測関連性スコア決定ユニット200をトリガするために使用される。
【0100】
場合によっては、図5に示されているデバイスに基づき、本出願の一部の実施形態において提供される遺伝子の関連度を決定するための別のデバイスが図6に示されている。本デバイスは、遺伝子並べ替えユニット400を更に備え得る。
【0101】
遺伝子並べ替えユニット400は、関連度決定ユニット300が疾患記述エントリと複数の遺伝子との間の関連度をそれぞれ決定した後、疾患記述エントリと複数の遺伝子との間の関連度の降順に複数の遺伝子を並べ替えるために使用され得る。
【0102】
遺伝子の関連度を決定するためのデバイスは、プロセッサとメモリとを備える。疾患記述エントリ決定ユニット100、関連性スコア決定ユニット200、および関連度決定ユニット300は、何れもプログラム単位としてメモリに記憶されている。上記のプログラム単位は、対応する機能を具現化するために、プロセッサによって実行される。
【0103】
プロセッサは、対応するプログラム単位をメモリから呼び出すカーネルを備える。各事前設定関連性データベース内の疾患記述エントリと複数の遺伝子とを含む複数の対象関連性レコードのレコードデータを決定し、このレコードデータを事前設定エントリ-遺伝子関連性マトリクスに入力し、事前設定関連性データベース内の複数の遺伝子の各々に対する疾患記述エントリの関連性スコアを決定することによって、1つ以上のコアを設けることができる。コアパラメータを調整することによって、疾患記述エントリと複数の遺伝子との間の関連度を迅速に取得できる。
【0104】
本出願の一部の実施形態は、プログラムが記憶されている記憶媒体を提供する。このプログラムは、プロセッサによって実行されると、遺伝子の関連度を決定するための方法を具現化する。
【0105】
本出願の一部の実施形態は、プログラムを実行するためのプロセッサを提供する。このプログラムは、実行されると、遺伝子の関連度を決定するための方法を具現化する。
【0106】
本出願の一部の実施形態は、少なくとも1つのプロセッサと、このプロセッサに結合された少なくとも1つのメモリと、バスとを備えた電子デバイスを提供する。プロセッサは、バスを介してメモリと通信する。プロセッサは、遺伝子の関連度を決定するための上記方法を実施するために、メモリ内のプログラム命令を呼び出すために使用される。本願明細書における電子デバイスは、サーバ、PC、PAD、または携帯電話、等々でもよい。
【0107】
本出願は、コンピュータプログラム製品を更に提供する。このコンピュータプログラム製品は、電子デバイス上で実行されると、遺伝子の関連度を決定するための方法のステップを初期化するプログラムを実行するために適している。
【0108】
本出願の複数の実施形態による方法、装置、電子デバイス(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して、本出願を説明した。これらフローチャートおよび/またはブロック図内の各プロセスおよび/またはブロック、およびこれらフローチャートおよび/またはブロック図内の複数のプロセスおよび/またはブロックの組み合わせは、コンピュータプログラム命令によって具現化され得ることを理解されたい。コンピュータプログラム命令は、コンピュータのプロセッサまたは他のプログラム可能データ処理デバイスによって実行された命令がフローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックに指定されている機能を具現化する手段を生成するように、マシンを生成するために、汎用コンピュータまたは専用コンピュータのプロセッサ、埋め込まれたプロセッサ、または他のプログラム可能デバイスに供給され得る。
【0109】
一般的な構成において、電子デバイスは、1つ以上のプロセッサ(CPU)と、メモリと、バスとを含む。電子デバイスは、入力-出力インタフェース、ネットワークインタフェース等々を更に含み得る。
【0110】
メモリは、コンピュータ可読媒体内の非パーマネントメモリ、ランダムアクセスメモリ(RAM)、および/または、読み出し専用メモリ(ROM)またはフラッシュRAMなどの不揮発性メモリを含み得る。メモリは、少なくとも1つのメモリチップを含む。メモリは、コンピュータ可読媒体の一例である。
【0111】
コンピュータ可読媒体は、パーマネント、非パーマネント、取り外し可能、取り外し不能、媒体を含み、情報記憶装置は、何れの方法または技術によっても実現可能である。情報は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータとすることができる。コンピュータ記憶媒体の例として、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他の種類のランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、フラッシュメモリ、または他のメモリ技術、CD-ROM、デジタルバーサタイルディスク(DVD)、または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、または他の磁気記憶デバイス、または計算デバイスがアクセス可能な情報の記憶に使用可能な何れか他の非伝送媒体が挙げられるが、これらだけには限定されない。本願明細書における定義によると、コンピュータ可読媒体は、被変調データ信号および搬送波などの一時的媒体を含まない。
【0112】
更に、用語「を含む(include)」、「を備える(comprise)」、または何れか他のバリエーションは、非排他的構成を包含することを意図しているので、一連の要素を備えたプロセス、方法、製品、またはデバイスは、これらの要素ばかりでなく、明示的に列挙されていない他の要素、またはこのプロセス、方法、製品、またはデバイスに固有の要素も備え得る。制限なく、表現「1つを備える(comprise one...)」によって定義される要素は、このような要素を備えたプロセス、方法、製品、またはデバイスにおける他の同じ要素の存在を排除しない。
【0113】
当業者は、本出願の各実施形態が方法、システム、またはコンピュータプログラム製品として提供され得ることを理解するはずである。したがって、本出願の複数の実施形態は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはハードウェアおよびソフトウェアの両要素を含む実施形態の形態を取ることができる。更に、本出願は、(ディスク、CD-ROM、光ディスク、等々を含むが、これらだけに限定されない)コンピュータ実行可能記憶媒体において具現化可能なコンピュータ実行可能コードを含む1つ以上のコンピュータプログラム製品の形態とすることができる。
【0114】
上記は、本出願の複数の例に過ぎず、本出願を限定するために使用されるものではない。当業者にとって、本出願は、さまざまな修正および変更を有し得る。本出願の精神および原則内で行われた修正、同等の置換、または改良点は、何れも本出願の特許請求の範囲に含まれるものとする。
図1
図2
図3
図4
図5
図6
【国際調査報告】