(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-10
(54)【発明の名称】ヒト表現型オントロジーの決定方法及び関連装置
(51)【国際特許分類】
G06F 16/36 20190101AFI20220803BHJP
G16H 10/00 20180101ALI20220803BHJP
G06F 40/205 20200101ALI20220803BHJP
【FI】
G06F16/36
G16H10/00
G06F40/205
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021571988
(86)(22)【出願日】2020-11-06
(85)【翻訳文提出日】2021-12-03
(86)【国際出願番号】 CN2020127048
(87)【国際公開番号】W WO2021203694
(87)【国際公開日】2021-10-14
(31)【優先権主張番号】202010265146.4
(32)【優先日】2020-04-07
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521527185
【氏名又は名称】ビージーアイ ジェノミクス カンパニー リミテッド
(71)【出願人】
【識別番号】521527196
【氏名又は名称】ビージーアイ ヘルス (エイチケー) カンパニー リミテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【氏名又は名称】廣田 浩一
(74)【代理人】
【識別番号】100107733
【氏名又は名称】流 良広
(74)【代理人】
【識別番号】100115347
【氏名又は名称】松田 奈緒子
(72)【発明者】
【氏名】ジェン・ヂョウ
(72)【発明者】
【氏名】リンシャン・コン
(72)【発明者】
【氏名】ジャオブォ・ヤン
(72)【発明者】
【氏名】ゾンチュアン・ホー
(72)【発明者】
【氏名】ジンアン・ワン
【テーマコード(参考)】
5B091
5B175
5L099
【Fターム(参考)】
5B091AA15
5B091CA01
5B091CC04
5B175DA01
5B175GB04
5L099AA23
(57)【要約】
本出願は、ヒト表現型オントロジーの決定方法及び関連装置を開示し、当該方法は、症状記述情報を取得するステップと、予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーに対応する分割後単語群と症状記述情報とを検索してマッチングさせ、各ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定するステップであって、分割後単語群が、当該分割後単語群に対応するヒト表現型オントロジーを予め設定された単語分割規則に従って単語分割をして得られた少なくとも1つの分割後単語リストを含み、当該分割後単語リストが、少なくとも1つの分割後単語を含むステップと、マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定するステップと、を含む。本出願では、症状記述情報と各ヒト表現型オントロジーに対応する分割後単語群とを検索してマッチングさせ、当該症状記述情報に合致するヒト表現型オントロジーを選別することは、技術者間での症状記述情報の研究やコミュニケーションに役立つとともに、当該症状記述情報に係る症状に対するデータ分析やマイニングにも役立つ。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ヒト表現型オントロジーの決定方法であって、
症状記述情報を取得するステップと、
予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーのいずれかに対応する分割後単語群を対象とし、当該分割後単語群における分割後単語リストのいずれかに対して、前記症状記述情報内で当該分割後単語リスト内の分割後単語を検索し、前記症状記述情報内に現れる当該分割後単語リスト内の分割後単語を共通語として決定し、当該分割後単語リストにおける共通語の数と、前記症状記述情報における各共通語の位置とを決定し、当該分割後単語リストにおける共通語の数と当該分割後単語リストにおける分割後単語の数とに基づいて、当該分割後単語リストと前記症状記述情報との第1の類似度を決定し、前記症状記述情報における各共通語の位置と当該ヒト表現型オントロジーにおける各共通語の位置とに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定するステップと、
当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を各分割後単語リストの第1の類似度によって決定するステップと、
前記第2の類似度、前記離散度、及び当該分割後単語群における分割後単語リストの数に基づいて、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定するステップと、
前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定するステップと、を含む、
ことを特徴とするヒト表現型オントロジーの決定方法。
【請求項2】
前記分割後単語群における各分割後単語リストの分割後単語が異なり、同一の分割後単語リストの各分割後単語の文字数が同じである、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定するステップの後に、前記方法は、
前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定するステップと、
前記記述語彙に隣接する隣接語彙が予め設定された否定語であるか否かを決定し、そうである場合、前記隣接語彙をラベル付けするステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定するステップの後に、前記方法は、
前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定するステップと、
前記記述語彙と前記ヒト表現型オントロジーが一致するか否かを判断し、一致する場合、前記ヒト表現型オントロジーと前記記述語彙とが完全マッチングであると決定し、一致しない場合、前記ヒト表現型オントロジーと前記記述語彙とがファジーマッチングであると決定するステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項5】
当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を各分割後単語リストの第1の類似度によって決定するステップは、
当該ヒト表現型オントロジーと前記症状記述情報との第3の類似度を各分割後単語リストの第1の類似度によって決定するステップと、
前記第3の類似度に調整可能な重み係数を乗じて、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を決定するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記症状記述情報における各共通語の位置と当該ヒト表現型オントロジーにおける各共通語の位置とに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定するステップは、
前記症状記述情報における各共通語の位置に基づいて、前記症状記述情報における当該分割後単語リストの第1の位置ベクトルを決定するステップと、
各共通語の当該ヒト表現型オントロジーにおける位置に基づいて、当該ヒト表現型オントロジーにおける当該分割後単語リストの第2の位置ベクトルを決定するステップと、
各分割後単語リストの第1の位置ベクトルと第2の位置ベクトルに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項7】
前記第2の類似度、前記離散度及び当該分割後単語群における分割後単語リストの数に基づいて、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定するステップは、以下の式を含み、
【数1】
ここで、AEEVは、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いであり、VARは、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度であり、Scoreは、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度であり、Nは、当該分割後単語群に含まれる分割後単語リストの数であり、
【数2】
ここで、γは調整可能な重み係数であり、preScoreは第3の類似度であり、
【数3】
ここで、nは分割後単語リストの番号であり、αβ
nw
nlogp
nは分割後単語リストnの第1の類似度であり、ここで、1≦n≦Nであり、αは調整係数であり、β
nは分割後単語リストnに対応する正規化因子であり、w
nは分割後単語リストnに対応する重みであり、p
nは分割後単語リストn内の共通語数と分割後単語リストn内の分割後単語数との比であり、
【数4】
ここで、a
nは前記症状記述情報における分割後単語リストnの第1の位置ベクトルであり、b
nは当該ヒト表現型オントロジーにおける分割後単語リストnの第2の位置ベクトルである、
ことを特徴とする請求項1に記載の方法。
【請求項8】
ヒト表現型オントロジーの決定装置であって、症状記述情報取得ユニット、マッチング度合い決定ユニット及びヒト表現型オントロジー決定ユニットを含み、前記マッチング度合い決定ユニットは、共通語決定サブユニット、共通語数決定サブユニット、共通語位置決定サブユニット、第1の類似度決定サブユニット、離散度決定サブユニット、第2の類似度決定サブユニット及びマッチング度合い決定サブユニットを含み、
前記症状記述情報取得ユニットは、症状記述情報を取得することに用いられ、
前記共通語決定サブユニットは、予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーのいずれかに対応する分割後単語群を対象とし、当該分割後単語群における分割後単語リストのいずれかに対して、前記症状記述情報内で当該分割後単語リスト内の分割後単語を検索し、前記症状記述情報内に現れる当該分割後単語リスト内の分割後単語を共通語として決定することに用いられ、
前記共通語数決定サブユニットは、当該分割後単語リストにおける共通語の数を決定することに用いられ、
前記共通語位置決定サブユニットは、前記症状記述情報における各共通語の位置を決定することに用いられ、
前記第1の類似度決定サブユニットは、当該分割後単語リストにおける共通語の数と当該分割後単語リストにおける分割後単語の数とに基づいて、当該分割後単語リストと前記症状記述情報との第1の類似度を決定することに用いられ、
前記離散度決定サブユニットは、前記症状記述情報における各共通語の位置と当該ヒト表現型オントロジーにおける各共通語の位置とに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定することに用いられ、
前記第2の類似度決定サブユニットは、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を各分割後単語リストの第1の類似度によって決定することに用いられ、
前記マッチング度合い決定サブユニットは、前記第2の類似度、前記離散度及び当該分割後単語群における分割後単語リストの数に基づいて、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定することに用いられ、
前記ヒト表現型オントロジー決定ユニットは、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定することに用いられる、
ことを特徴とするヒト表現型オントロジーの決定装置。
【請求項9】
記述語彙決定ユニット、否定語検出ユニット及び否定語ラベル付けユニットをさらに含み、
前記記述語彙決定ユニットは、前記ヒト表現型オントロジー決定ユニットが、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定した後、前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定することに用いられ、
前記否定語検出ユニットは、前記記述語彙に隣接する隣接語彙が予め設定された否定語であるか否かを検出し、そうである場合、前記否定語ラベル付けユニットをトリガすることに用いられ、
前記否定語ラベル付けユニットは、前記隣接語彙をラベル付けすることに用いられる、
ことを特徴とする請求項8に記載の装置。
【請求項10】
記述語彙決定ユニット、語彙判断ユニット及び語彙マッチング決定ユニットをさらに含み、
前記記述語彙決定ユニットは、前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定することに用いられ、
前記語彙判断ユニットは、前記記述語彙と前記ヒト表現型オントロジーが一致するか否かを判断することに用いられ、一致する場合、前記語彙マッチング決定ユニットをトリガし、前記語彙マッチング決定ユニットは、前記ヒト表現型オントロジーと前記記述語彙とが完全マッチングであると決定することに用いられ、一致しない場合、前記語彙マッチング決定ユニットをトリガし、前記語彙マッチング決定ユニットは、前記ヒト表現型オントロジーと前記記述語彙とがファジーマッチングであると決定することに用いられる、
ことを特徴とする請求項8に記載の装置。
【請求項11】
記憶媒体であって、前記記憶媒体にプログラムが記憶されており、当該プログラムがプロセッサによって実行される場合、請求項1~7のいずれか一項に記載のヒト表現型オントロジーの決定方法が実現される、
ことを特徴とする記憶媒体。
【請求項12】
プロセッサであって、前記プロセッサはプログラムを実行するために用いられ、前記プログラムが実行される場合、請求項1~7のいずれか一項に記載のヒト表現型オントロジーの決定方法が実行される、
ことを特徴とするプロセッサ。
【請求項13】
装置であって、装置は少なくとも1つのプロセッサ、プロセッサに接続された少なくとも1つのメモリ、バスを備え、プロセッサ、メモリはバスを介して相互の通信を完了し、プロセッサは、請求項1~7のいずれか一項に記載のヒト表現型オントロジーの決定方法を実行するために、メモリ内のプログラム指令を呼び出すことに用いられる、
ことを特徴とする装置。
【請求項14】
コンピュータプログラム製品であって、データ処理装置で実行される場合、請求項1~7のいずれか一項に記載のヒト表現型オントロジーの決定方法のステップを初期化するプログラムを実行するのに適している、
ことを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年04月07日に中国特許局に提出され、出願番号が202010265146.4であり、発明の名称が「ヒト表現型オントロジーの決定方法及び装置」の中国特許出願の優先権を主張しており、そのすべての内容は引用により本出願に組み込まれている。
【0002】
本出願は、情報処理分野に属し、より具体的には、特にヒト表現型オントロジーの決定方法及び関連装置に関する。
【背景技術】
【0003】
ヒト表現型オントロジー(HPO、HumanPhenotypeOntology)は、人間疾患による異常表現型を説明する標準用語の集合である。中国国内の大部分の医療、科学研究者が使用する表現型説明語が統一できるようにするため、中国国内では中国語ヒト表現型オントロジー連盟を設立し、英語形式で表現されたHPOを中国語形式で表現されたCHPO(ChineseHumanPhenotypeOntology、中国語ヒト表現型オントロジー)に翻訳した。
【0004】
実際には、異なる医師が症状記述情報において、同一のヒト表現型オントロジーに対応する症状の記述が多種多様であるため、これは症状に続く臨床研究やコミュニケーションに不便をもたらすと同時に、当該症状に対するデータ分析やマイニングをさらに困難にする。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記問題に鑑みて、本出願は、上記問題を克服するか、又は少なくとも部分的に上記問題を解決するヒト表現型オントロジーの決定方法及び関連装置を提供し、関連する技術案は以下の通りである。
【課題を解決するための手段】
【0006】
ヒト表現型オントロジーの決定方法であって、
症状記述情報を取得するステップと、
予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーのいずれかに対応する分割後単語群を対象とし、当該分割後単語群における分割後単語リストのいずれかに対して、前記症状記述情報内で当該分割後単語リスト内の分割後単語を検索し、前記症状記述情報内に現れる当該分割後単語リスト内の分割後単語を共通語として決定し、当該分割後単語リストにおける共通語の数と、前記症状記述情報における各共通語の位置とを決定し、当該分割後単語リストにおける共通語の数と当該分割後単語リストにおける分割後単語の数とに基づいて、当該分割後単語リストと前記症状記述情報との第1の類似度を決定し、前記症状記述情報における各共通語の位置と当該ヒト表現型オントロジーにおける各共通語の位置とに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定するステップと、
当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を各分割後単語リストの第1の類似度によって決定するステップと、
前記第2の類似度、前記離散度及び当該分割後単語群における分割後単語リストの数に基づいて、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定するステップと、
前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定するステップと、を含む。
【0007】
選択可能に、前記分割後単語群における各分割後単語リストの分割後単語が異なり、同一の分割後単語リストの各分割後単語の文字数が同じである。
【0008】
選択可能に、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定するステップの後に、前記方法は、
前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定するステップと、
前記記述語彙に隣接する隣接語彙が予め設定された否定語であるか否かを決定し、そうである場合、前記隣接語彙をラベル付けするステップと、をさらに含む。
【0009】
選択可能に、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定するステップの後に、前記方法は、
前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定するステップと、
前記記述語彙と前記ヒト表現型オントロジーが一致するか否かを判断し、一致する場合、前記ヒト表現型オントロジーと前記記述語彙とが完全マッチングであると決定し、一致しない場合、前記ヒト表現型オントロジーと前記記述語彙とがファジーマッチングであると決定するステップと、をさらに含む。
【0010】
選択可能に、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を各分割後単語リストの第1の類似度によって決定するステップは、
当該ヒト表現型オントロジーと前記症状記述情報との第3の類似度を各分割後単語リストの第1の類似度によって決定するステップと、
前記第3の類似度に調整可能な重み係数を乗じて、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を決定するステップと、を含む。
【0011】
選択可能に、前記症状記述情報における各共通語の位置と当該ヒト表現型オントロジーにおける各共通語の位置とに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定するステップは、
前記症状記述情報における各共通語の位置に基づいて、前記症状記述情報における当該分割後単語リストの第1の位置ベクトルを決定するステップと、
各共通語の当該ヒト表現型オントロジーにおける位置に基づいて、当該ヒト表現型オントロジーにおける当該分割後単語リストの第2の位置ベクトルを決定するステップと、
各分割後単語リストの第1の位置ベクトルと第2の位置ベクトルに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定するステップと、をさらに含む。
【0012】
選択可能に、前記第2の類似度、前記離散度及び当該分割後単語群における分割後単語リストの数に基づいて、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定するステップは、以下の式を含み、
【数1】
ここで、AEEVは、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いであり、VARは、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度であり、Scoreは、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度であり、Nは、当該分割後単語群に含まれる分割後単語リストの数であり、
【数2】
ここで、γは調整可能な重み係数であり、preScoreは第3の類似度であり、
【数3】
ここで、nは分割後単語リストの番号であり、αβ
nw
nlogp
nは分割後単語リストnの第1の類似度であり、ここで、1≦n≦Nであり、αは調整係数であり、β
nは分割後単語リストnに対応する正規化因子であり、w
nは分割後単語リストnに対応する重みであり、p
nは分割後単語リストn内の共通語数と分割後単語リストn内の分割後単語数との比であり、
【数4】
ここで、a
nは前記症状記述情報における分割後単語リストnの第1の位置ベクトルであり、b
nは当該ヒト表現型オントロジーにおける分割後単語リストnの第2の位置ベクトルである。
【0013】
症状記述情報取得ユニット、マッチング度合い決定ユニット及びヒト表現型オントロジー決定ユニットを含むヒト表現型オントロジーの決定装置であって、ここで、前記マッチング度合い決定ユニットは、共通語決定サブユニット、共通語数決定サブユニット、共通語位置決定サブユニット、第1の類似度決定サブユニット、離散度決定サブユニット、第2の類似度決定サブユニット及びマッチング度合い決定サブユニットを含み、
前記症状記述情報取得ユニットは、症状記述情報を取得することに用いられ、
前記共通語決定サブユニットは、予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーのいずれかに対応する分割後単語群を対象とし、当該分割後単語群における分割後単語リストのいずれかに対して、前記症状記述情報内で当該分割後単語リスト内の分割後単語を検索し、前記症状記述情報内に現れる当該分割後単語リスト内の分割後単語を共通語として決定することに用いられ、
前記共通語数決定サブユニットは、当該分割後単語リストにおける共通語の数を決定することに用いられ、
前記共通語位置決定サブユニットは、前記症状記述情報における各共通語の位置を決定することに用いられ、
前記第1の類似度決定サブユニットは、当該分割後単語リストにおける共通語の数と当該分割後単語リストにおける分割後単語の数とに基づいて、当該分割後単語リストと前記症状記述情報との第1の類似度を決定することに用いられ、
前記離散度決定サブユニットは、前記症状記述情報における各共通語の位置と当該ヒト表現型オントロジーにおける各共通語の位置とに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定することに用いられ、
前記第2の類似度決定サブユニットは、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を各分割後単語リストの第1の類似度によって決定することに用いられ、
前記マッチング度合い決定サブユニットは、前記第2の類似度、前記離散度及び当該分割後単語群における分割後単語リストの数に基づいて、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定することに用いられ、
前記ヒト表現型オントロジー決定ユニットは、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定することに用いられる。
【0014】
選択可能に、前記装置は、記述語彙決定ユニット、否定語検出ユニット及び否定語ラベル付けユニットをさらに含み、
前記記述語彙決定ユニットは、前記ヒト表現型オントロジー決定ユニットが、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定した後、前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定することに用いられ、
前記否定語検出ユニットは、前記記述語彙に隣接する隣接語彙が予め設定された否定語であるか否かを検出し、そうである場合、前記否定語ラベル付けユニットをトリガすることに用いられ、
前記否定語ラベル付けユニットは、前記隣接語彙をラベル付けすることに用いられる。
【0015】
選択可能に、前記装置は、記述語彙決定ユニット、語彙判断ユニット及び語彙マッチング決定ユニットをさらに含み、
前記記述語彙決定ユニットは、前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定することに用いられ、
前記語彙判断ユニットは、前記記述語彙と前記ヒト表現型オントロジーが一致するか否かを判断することに用いられ、一致する場合、前記語彙マッチング決定ユニットをトリガし、前記語彙マッチング決定ユニットは、前記ヒト表現型オントロジーと前記記述語彙とが完全マッチングであると決定することに用いられ、一致しない場合、前記語彙マッチング決定ユニットをトリガし、前記語彙マッチング決定ユニットは、前記ヒト表現型オントロジーと前記記述語彙とがファジーマッチングであると決定することに用いられる。
【発明の効果】
【0016】
上記技術案により、本出願により提供されるヒト表現型オントロジーの決定方法及び関連装置は、症状記述情報を取得し、予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーに対応する分割後単語群と症状記述情報とを検索してマッチングさせ、各ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定し、分割後単語群が、当該分割後単語群に対応するヒト表現型オントロジーを予め設定された単語分割規則に従って単語分割をして得られた少なくとも1つの分割後単語リストを含み、当該分割後単語リストが、少なくとも1つの分割後単語を含み、マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定することができる。本出願では、症状記述情報と各ヒト表現型オントロジーに対応する分割後単語群とを検索してマッチングさせ、当該症状記述情報に合致するヒト表現型オントロジーを選別することは、技術者間での症状記述情報の研究やコミュニケーションに役立つとともに、当該症状記述情報に係る症状に対するデータ分析やマイニングにも役立つ。
【0017】
上述説明は、本出願の技術案の概要にすぎず、本出願の技術的手段をより明確に理解できるように、明細書の内容に基づいて実施することができ、かつ本出願の上述及びその他の目的、特徴及び利点をより明確かつ分かりやすくするために、以下では特に本出願の具体的な実施形態を挙げる。
【図面の簡単な説明】
【0018】
本出願の実施例又は先行技術における技術案をより明確に説明するために、以下では、実施例又は先行技術の説明において使用する必要がある図面について簡単に説明するが、以下の説明における図面は本出願のいくつかの実施例であり、当業者にとっては、創造的な労働をせずに、これらの図面に基づいて他の図面を得ることができることは自明なことである。
【
図1】本出願の実施例により提供されるヒト表現型オントロジーの決定方法の概略フローチャートである。
【
図2】本出願の実施例により提供される別のヒト表現型オントロジーの決定方法の概略フローチャートである。
【
図3】本出願の実施例により提供される別のヒト表現型オントロジーの決定方法の概略フローチャートである。
【
図4】本出願の実施例により提供される別のヒト表現型オントロジーの決定方法の概略フローチャートである。
【
図5】本出願の実施例により提供されるヒト表現型オントロジーの出力結果の概略図である。
【
図6】本出願の実施例により提供される別のヒト表現型オントロジーの決定方法の概略フローチャートである。
【
図7】本出願の実施例により提供される別のヒト表現型オントロジーの決定方法の概略フローチャートである。
【
図8】本出願の実施例により提供される別のヒト表現型オントロジーの出力結果の概略図である。
【
図9】本出願の実施例により提供されるヒト表現型オントロジーの決定装置の概略構成図である。
【発明を実施するための形態】
【0019】
以下、図面に合わせて本開示の例示的な実施例をより詳細に説明する。図面には、本開示の例示的な実施例が示されているが、本開示は、本明細書に記載された実施例によって限定されるべきではなく、様々な形態で実現することができることを理解されたい。むしろ、これらの実施例は、本開示をより完全に理解し、本開示の範囲を当業者に完全に伝達することを可能にするために提供される。
【0020】
図1に示すように、本出願の実施例により提供されるヒト表現型オントロジーの決定方法は、以下のステップを含むことができる。
【0021】
S100において、症状記述情報を取得する。
【0022】
ここで、症状記述情報は、医療従事者が患者の疾病を検査、診断するなどの医療活動の経過を記録したものであってもよい。症状記述情報は、複数の語彙からなる文や段落であってもよい。本出願の実施例は、ユーザが症状記述情報を入力するためのインタフェースを提供し、ユーザは、当該インタフェースにおいて症状記述情報を編集入力したり、症状記述情報を編集したファイルをアップロードしたりすることができる。本出願の実施例は、文字スキャン装置により、医療従事者が手書きした症状記述情報をスキャンして得ることができる。もちろん、本出願は、従来の診療システム(例えば、病院の各科のパソコンにインストールされている診療システム)から医療従事者が診療システムに入力済みの症状記述情報を取得することもできる。
【0023】
S200において、予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーに対応する分割後単語群と前記症状記述情報とを検索してマッチングさせ、各ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定し、ここで、前記分割後単語群は、前記分割後単語群に対応するヒト表現型オントロジーを予め設定された単語分割規則に従って単語分割をして得られた少なくとも1つの分割後単語リストを含み、前記分割後単語リストは、少なくとも1つの分割後単語を含む。
【0024】
ここで、予め設定されたヒト表現型オントロジーベースは、各ヒト表現型オントロジーを記憶したデータベースであってもよい。当該データベースには、各ヒト表現型オントロジーの中英文対照語彙を含むことができる。例えば、CHPO:「腸捻転」とHPO:「Volvulus」は互いに対照する。予め設定された単語分割規則は、技術者が各ヒト表現型オントロジーを一定の規範に従って単語列に再構成する規則であってもよい。選択可能に、予め設定された単語分割規則は、統計的言語モデル(StatisticalLanguageModel、SLM)に基づくアルゴリズムであってもよく、技術者がカスタマイズした単語分割規則であってもよい。例えば、本出願の実施例は、統計的言語モデルのn-gramに基づいて、ヒト表現型オントロジーに対して単語分割を行うことができる。具体的には、本出願の実施例は、n-gramアルゴリズムを利用して異なる文字数に従って、ヒト表現型オントロジーに対して単語分割を行って、異なる文字数の分割後単語を得ることができる。例えば、1つの漢字が1文字に等しいと仮定すると、本出願の実施例は、「腸捻転」に対して、それぞれ文字数が1、文字数が2及び文字数が3である場合に応じて単語分割を行うことができ、文字数が1である場合に応じて単語分割をして得られる分割後単語リストは、「腸」、「捻」、「転」という分割後単語を含み、文字数が2である場合に応じて単語分割をして得られる分割後単語リストは、「腸捻」、「捻転」という分割後単語を含み、文字数が3である場合に応じて単語分割をして得られる分割後単語リストは、「腸捻転」という分割後単語を含む。
【0025】
選択可能に、前記分割後単語群における各分割後単語リストの分割後単語が異なり、同一の分割後単語リストの各分割後単語の文字数が同じである。
【0026】
具体的には、本出願の実施例は、ある規則に従って、分割後単語結果における分割後単語を分類して、分割後単語リストを得ることができる。例えば、本出願の実施例は、分割後単語結果における分割後単語を文字数によって分類することができ、前述の例の「腸捻転」に対する単語分割結果については、文字数が1の分割後単語「腸」、「捻」、「転」を分割後単語リストAに、文字数が2の分割後単語「腸捻」、「捻転」を分割後単語リストBに、文字数が3の分割後単語「腸捻転」を分割後単語リストCに分類することができる。
【0027】
予め設定された単語分割規則は、既存の単語分割ツールによって使用される単語分割規則であってもよいことを理解されたい。既存の単語分割ツールは、結巴(jieba)単語分割、言語技術プラットフォーム(LanguageTechnologyPlatform、LTP)及び自然言語処理と情報検索プラットフォーム(NaturalLanguageProcessing&InformationRetrievalSharingPlatform、NLPIR)を含むことができる。
【0028】
なお、上記の例は、ヒト表現型オントロジーを中国語で表現する場合の語彙について説明したものにすぎず、本出願の実施例では、英語を含む言語表現形式のヒト表現型オントロジーについて分割後単語を行うことができることを理解されたい。
【0029】
選択可能に、
図2に示すように、
図1に示す方法に基づいて、本明細書の実施例により提供される別のヒト表現型オントロジーの決定方法のステップS200は、以下のステップを含むことができる。
【0030】
S210において、各ヒト表現型オントロジーのいずれかに対応する分割後単語群を対象とし、当該分割後単語群における分割後単語リストのいずれかに対して、前記症状記述情報内で当該分割後単語リスト内の分割後単語を検索し、前記症状記述情報内に現れる当該分割後単語リスト内の分割後単語を共通語として決定し、S211において、当該分割後単語リストにおける共通語の数と、前記症状記述情報における各共通語の位置とを決定し、S212において、当該分割後単語リストにおける共通語の数と当該分割後単語リストにおける分割後単語の数とに基づいて、当該分割後単語リストと前記症状記述情報との第1の類似度を決定し、S213において、前記症状記述情報における各共通語の位置と当該ヒト表現型オントロジーにおける各共通語の位置とに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定する。
【0031】
ここで、ステップS210における共通語の理解を容易にするために、ここで例を挙げて説明する。症状記述情報が「腸回転不良による死亡」である場合、当該症状記述情報内で分割後単語リストにおける分割後単語「腸」、「捻」、「転」を検索すると、症状記述情報及び分割後単語リストの両方が「腸」と「転」を含むので、「腸」と「転」を共通語として決定することができる。もちろん、分割後単語リストにおける分割後単語が「腸捻転」である場合、当該分割後単語リストと当該症状記述情報には共通語がない。
【0032】
ここで、ステップS212は、当該分割後単語リストにおける共通語数と当該分割後単語リストにおける分割後単語数との比に基づいて、当該分割後単語リストと症状記述情報との第1の類似度を決定することを具体的に含むことができる。
【0033】
例えば、ある分割後単語リストには、「腸」、「捻」、「転」の3つの分割後単語が含まれており、このうち「腸」と「転」の2つの分割後単語が、当該分割後単語リストと症状記述情報との共通語であり、したがって、当該分割後単語リストと症状記述情報との第1の類似度は、2/3である。
【0034】
選択可能に、
図2に示す方法に基づいて、
図3に示すように、本出願の実施例により提供される別のヒト表現型オントロジーの決定方法のステップS213は、以下のステップを含むことができる。
【0035】
S213aにおいて、前記症状記述情報における各共通語の位置に基づいて、前記症状記述情報における当該分割後単語リストの第1の位置ベクトルを決定する。
【0036】
ここで、症状記述情報における共通語の位置は、文字番号であってもよい。なお、文字番号は、分割後単語リストにおける各分割後単語の文字数に関連してもよく、例えば、分割後単語リストにおける各単語の文字数が1である場合、症状記述情報における1つの文字番号が1文字を表すことができる。分割後単語リストにおける各分割後単語の文字数が2である場合、症状記述情報における1つの文字番号が2文字を表すことができる。理解を容易にするために、ここで例を挙げることによってさらに説明する。症状記述情報が「長骨の部分が湾曲している」である場合、共通語が「長」及び「湾曲」であれば、当該症状記述情報における「長」という共通語の文字番号は「1」とし、当該症状記述情報における「湾曲」という共通語の文字番号は「5」としてもよい。共通語が「湾曲」であれば、当該症状記述情報における「湾曲」という共通語の文字番号は「5」としてもよい。
【0037】
ここで、第1の位置ベクトルは、症状記述情報における各共通語の文字番号からなる1次元リストであってもよい。理解を容易にするために、ここで例を挙げて説明する。症状記述情報が「疑いのある患者、妊娠32週+5、胎児の骨幹が発育不良で妊娠26週の骨幹のように見え、長骨の部分が湾曲している。家族遺伝病歴がある」である場合、ある分割後単語リストと当該症状記述情報との共通語が「長」、「骨」、「湾」、「曲」であれば、当該症状記述情報における当該分割後単語リストの第1の位置ベクトルは[27、28、31、32]となる。ある分割後単語リストと当該症状記述情報との共通語が「長骨」、「骨湾」、「湾曲」であれば、当該ヒト表現型オントロジーにおける当該分割後単語リストの第2の位置ベクトルは[1、2、3]となる。
【0038】
S213bにおいて、各共通語の当該ヒト表現型オントロジーにおける位置に基づいて、当該ヒト表現型オントロジーにおける当該分割後単語リストの第2の位置ベクトルを決定する。
【0039】
このうち、ヒト表現型オントロジーにおける共通語の位置は文字番号であってもよい。なお、文字番号は、分割後単語リストにおける各分割後単語の文字数に関連してもよい。例えば、分割後単語リストにおける各分割後単語の文字数が1である場合、ヒト表現型オントロジーにおける1つの文字番号は1文字を表すことができる。分割後単語リストにおける各分割後単語の文字数が2である場合、ヒト表現型オントロジーにおける1つの文字番号が2文字を表すことができる。理解を容易にするため、ここで例を挙げてさらに説明する。ヒト表現型オントロジーが「長骨湾曲」である場合、共通語が「長」と「湾」であれば、当該ヒト表現型オントロジーにおける共通語「長」の文字番号は「1」であってもよく、当該ヒト表現型オントロジーにおける共通語「湾」の文字番号は「3」であってもよい。共通語が「湾曲」であれば、共通語「湾曲」の当該ヒト表現型オントロジーにおける文字番号は「3」であってもよい。なお、句読点も1つの文字番号を占めていることに留意されたい。
【0040】
ここで、第2の位置ベクトルは、ヒト表現型オントロジーにおける各共通語の文字番号からなる1次元リストであってもよい。理解を容易にするため、ここで例を挙げて説明する。ヒト表現型オントロジーが「長骨湾曲」の場合、ある分割後単語リストと当該症状記述情報との共通語が「長」、「骨」、「湾」、「曲」であれば、当該分割後単語リストの当該ヒト表現型オントロジーにおける第2の位置ベクトルは[1、2、3、4]となる。ある分割後単語リストと当該症状記述情報との共通語が「長骨」、「骨湾」、「湾曲」であれば、当該ヒト表現型オントロジーにおける当該分割後単語リストの第2の位置ベクトルは[1、2、3]となる。
【0041】
S213cにおいて、各分割後単語リストの第1の位置ベクトルと第2の位置ベクトルに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定する。
【0042】
ステップS213cは、次の式を含むことができる。
【数5】
ここで、VARは、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度であり、Nは、当該分割後単語群に含まれる分割後単語リストの数であり、a
nは前記症状記述情報における分割後単語リストnの第1の位置ベクトルであり、b
nは当該ヒト表現型オントロジーにおける分割後単語リストnの第2の位置ベクトルである。
【0043】
S220において、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を各分割後単語リストの第1の類似度によって決定する。
【0044】
選択可能に、
図2に示す方法に基づいて、
図4に示すように、本出願の実施例により提供される別のヒト表現型オントロジーの決定方法のステップS220は、以下のステップを含むことができる。
【0045】
S221において、当該ヒト表現型オントロジーと前記症状記述情報との第3の類似度を各分割後単語リストの第1の類似度によって決定する。
【0046】
S222において、前記第3の類似度に調整可能な重み係数を乗じて、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を決定する。
【0047】
選択可能に、ステップS221は、次の式を含むことができる。
【数6】
ここで、nは分割後単語リストの番号であり、preScoreは第3の類似度であり、αβ
nw
nlogp
nは分割後単語リストnの第1の類似度であり、ここで、1≦n≦Nであり、αは調整係数であり、β
nは分割後単語リストnに対応する正規化因子であり、w
nは分割後単語リストnに対応する重みであり、p
nは分割後単語リストn内の共通語数と分割後単語リストn内の分割後単語数との比である。
【0048】
ここで、調整係数は技術者が設定することができる。技術者は、本出願の実施例により提供されるヒト表現型オントロジーの決定方法の各実行が完了した後に、各実行結果に基づいて調整係数を調整することができる。
【0049】
ここで、分割後単語リストnに対応する正規化係数は、次のように表すことができる。
【数7】
ここで、logp
nはデータlogp
1、……、logp
nの平均値であり、次のように表すことができる。
【数8】
ここで、S
2はデータlogp
1、……、logp
nの分散であり、次のように表すことができる。
【数9】
ここで、各分割後単語リストに対応する重みは、技術者が設定することができる。技術者は、本出願の実施例により提供されるヒト表現型オントロジーの決定方法の各実行が完了した後、各実行結果に基づいて、各分割後単語リストに対応する重みを調整することができる。
【0050】
ステップS222は、次の式を含むことができる。
【数10】
ここで、Scoreは、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度であり、γは調整可能な重み係数である。
【0051】
なお、調整可能重み係数は、ヒト表現型オントロジーに関連する。具体的には、本出願の実施例は、当該ヒト表現型オントロジーの履歴マッチングデータを用いて、調整可能な重み係数を決定することができる。具体的には、本出願の実施例は、当該ヒト表現型オントロジーの履歴マッチングデータを履歴マッチングデータベースから抽出することができ、当該履歴データは、当該ヒト表現型オントロジーが正しくマッチングされた第1の回数と、当該ヒト表現型オントロジーが誤ってマッチングされた第2の回数と、当該ヒト表現型オントロジーが手動で補完された第3の回数とを含むことができる。本出願の実施例は、第1の回数、第2の回数及び第3の回数を重み付け加算して、当該調整可能な重み係数を決定することができる。本出願の実施例は、当該ヒト表現型オントロジーと症状記述情報とのマッチング度合いを計算するために使用される調整可能な重み係数を、当該ヒト表現型オントロジーの履歴マッチングデータに基づいて決定することにより、当該ヒト表現型オントロジーが正しくマッチングされる確率を高めることができる。
【0052】
S230において、前記第2の類似度、前記離散度及び当該分割後単語群における分割後単語リストの数に基づいて、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定する。
【0053】
各ヒト表現型オントロジーと症状記述情報とのマッチング度合いを容易に理解するために、選択可能に、本出願の実施例により提供される別のヒト表現型オントロジーの決定方法のステップS230は次の式を含むことができる。
【数11】
ここで、AEEVは、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いであり、VARは、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度であり、Scoreは、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度であり、Nは、当該分割後単語群に含まれる分割後単語リストの数であり、
【数12】
ここで、γは調整可能な重み係数であり、preScoreは第3の類似度であり、
【数13】
ここで、nは分割後単語リストの番号であり、αβ
nw
nlogp
nは分割後単語リストnの第1の類似度であり、ここで、1≦n≦Nであり、αは調整係数であり、β
nは分割後単語リストnに対応する正規化因子であり、w
nは分割後単語リストnに対応する重みであり、p
nは分割後単語リストn内の共通語数と分割後単語リストn内の分割後単語数との比であり、
【数14】
ここで、a
nは前記症状記述情報における分割後単語リストnの第1の位置ベクトルであり、b
nは当該ヒト表現型オントロジーにおける分割後単語リストnの第2の位置ベクトルである。
【0054】
S300において、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定する。
【0055】
ここで、予め設定されたマッチング成功条件は、あるヒト表現型オントロジーとある症状記述情報とのマッチング度合いが、予め設定されたマッチング度合いの閾値より大きい場合であってもよい。理解を容易にするために、ここで例を挙げて説明する。人間表現型基準用語Mと症状記述情報Tとのマッチング度合いが9であり、人間表現型基準用語Nと症状記述情報Tとのマッチング度合いが4である場合に、予め設定されたマッチング度合い閾値が8である場合、人間表現型基準用語Mは、予め設定されたマッチング成功条件を満たす人間表現型基準用語である。
【0056】
本出願の実施例では、マッチング度合いが予め設定されたマッチング成功条件を満たさないヒト表現型オントロジーをフィルタリングして、マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーのみを出力してもよい。
図5に示すように、本出願の実施例により提供されるヒト表現型オントロジーの出力結果には、マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーの中英文対照語彙が含まれていてもよく、すなわち、本出願の実施例では、当該ヒト表現型オントロジーのCHPOとHPOとを同時に出力してもよく、HPOを出力する際には、HPOに対応する番号も併せて出力してもよいことを理解することができる。実際には、複数のヒト表現型オントロジーと同じ症状記述情報とのマッチング度合いが予め設定されたマッチング成功条件を満たす可能性があり、
図5に示すように、本出願の実施例では、当該複数のヒト表現型オントロジーを同時に出力し、当該症状記述情報における当該複数のヒト表現型オントロジーのそれぞれに対応する記述語彙を、予め設定された対応識別子(矢印など)を用いて対応づけて出力することができることを理解することができる。
【0057】
本出願の実施例により提供されるヒト表現型オントロジーの決定方法は、症状記述情報を取得し、予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーに対応する分割後単語群と前記症状記述情報とを検索してマッチングさせ、各ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定することができ、ここで、前記分割後単語群が、前記分割後単語群に対応するヒト表現型オントロジーを予め設定された単語分割規則に従って単語分割をして得られた少なくとも1つの分割後単語リストを含み、前記分割後単語リストが、少なくとも1つの分割後単語を含み、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定する。本出願の実施例は、症状記述情報と各ヒト表現型オントロジーに対応する分割後単語群とを検索してマッチングさせ、各ヒト表現型オントロジーと症状記述情報とのマッチング度合いを決定することにより、当該症状記述情報に適合するヒト表現型オントロジーを決定することができ、技術者間での症状記述情報の研究やコミュニケーションに役立つとともに、当該症状記述情報に係る症状に対するデータ分析やマイニングにも役立つ。
【0058】
選択可能に、
図6に示すように、本出願の実施例により提供される別のヒト表現型オントロジーの決定方法は、ステップS300の後に以下のステップをさらに含む。
S400において、前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定する。
【0059】
具体的には、本出願の実施例は、ヒト表現型オントロジーに対応する各分割後単語リストにおける共通語が当該症状記述情報に現れる離散度に基づいて、当該位置にある語彙が、当該症状記述情報における当該ヒト表現型オントロジーの対応する記述語彙であると決定することができる。例えば、症状記述情報が「当該患者は腸回転を伴う胃腸炎に罹患している」である場合、「腸捻転」というヒト表現型オントロジーと当該症状記述情報における共通語が「腸」と「転」であり、症状記述情報には「胃腸炎」と「腸回転」の両方に共通語「腸」が存在するが、「腸回転」には共通語「回転」が存在するため、「腸回転」は「胃腸炎」に比べて共通語との離散度が低いので、当該症状記述情報におけるヒト表現型オントロジーである「腸捻転」の対応する記述語彙は「腸回転」である。
【0060】
S500において、前記記述語彙に隣接する隣接語彙が予め設定された否定語であるか否かを決定し、そうである場合、前記隣接語彙をラベル付けする。
【0061】
ここで、予め設定された否定語は、「なし」、「まだ」、「ない」、「いいえ」、「非」、「別」、「するな」、「欠ける」、「否」などがある。本出願の実施例は、当該記述語彙に隣接して当該記述語彙の前の隣接語彙が予め設定された否定語であるか否かを検出することができる。本出願の実施例は、当該隣接語彙が予め設定された否定語である場合、予め設定された否定識別子によって隣接語彙をラベル付けすることができる。例えば、本出願の実施例は、当該隣接語彙のフォントを太字化し、当該隣接語彙のフォント色を変更し、当該隣接語彙に特別な記号表示を使用することができる。本出願の実施例では、予め設定された否定語の隣接語彙をラベル付けすることにより、当該症状記述情報における記述語彙が肯定的な意味を表しているのか、否定的な意味を表しているのかをユーザが明確に識別することを容易にすることができる。本出願の実施例では、前記記述語彙に隣接する隣接語彙が予め設定された否定語でないことが検出された場合、前記隣接語彙をラベル付けしないようにしてもよい。
【0062】
選択可能に、
図7に示すように、本出願の実施例により提供される別のヒト表現型オントロジーの決定方法は、ステップS300の後に次のステップをさらに含む。
【0063】
S600において、前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定する。
【0064】
ステップS600の説明は、上述したステップS400の説明を参照することができ、ここで説明を省略する。
【0065】
S700において、前記記述語彙と前記ヒト表現型オントロジーが一致するか否かを判断し、一致する場合、ステップ800を実行し、一致しない場合、ステップ900を実行する。
【0066】
S800において、前記ヒト表現型オントロジーと前記記述語彙とが完全マッチングであると決定する。
【0067】
S900において、前記ヒト表現型オントロジーと前記記述語彙とがファジーマッチングであると決定する。
【0068】
図5に示す出力結果に基づいて、
図8に示すように、本出願の実施例により提供される別のヒト表現型オントロジーの出力結果を示す。本出願の実施例では、マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを出力する際に、当該ヒト表現型オントロジーと記述語彙とのマッチングパターンが完全マッチングであるかファジーマッチングであるかを出力することができる。
【0069】
上記方法の実施例に対応して、本出願の実施例は、
図9に示すように構成され、症状記述情報取得ユニット100、マッチング度合い決定ユニット200及びヒト表現型オントロジー決定ユニット300を含むことができる人間表現型基準用語決定装置をさらに提供する。
【0070】
前記症状記述情報取得ユニット100は、症状記述情報を取得することに用いられる。
【0071】
ここで、症状記述情報は、医療従事者が患者の疾病を検査、診断するなどの医療活動の経過を記録したものであってもよい。症状記述情報は、複数の語彙からなる文や段落であってもよい。本出願の実施例は、ユーザが症状記述情報を入力するためのインタフェースを提供し、ユーザは、当該インタフェースにおいて症状記述情報を編集入力したり、症状記述情報を編集したファイルをアップロードしたりすることができる。本出願の実施例は、文字スキャン装置により、医療従事者が手書きした症状記述情報をスキャンして得ることができる。もちろん、本出願は、従来の診療システム(例えば、病院の各科のパソコンにインストールされている診療システム)から医療従事者が診療システムに入力済みの症状記述情報を取得することもできる。
【0072】
マッチング度合い決定ユニット200は、予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーに対応する分割後単語群と前記症状記述情報とを検索してマッチングさせ、各ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定することに用いられ、ここで、前記分割後単語群は、前記分割後単語群に対応するヒト表現型オントロジーを予め設定された単語分割規則に従って単語分割をして得られた少なくとも1つの分割後単語リストを含み、前記分割後単語リストは、少なくとも1つの分割後単語を含む。
【0073】
ここで、予め設定されたヒト表現型オントロジーベースは、各ヒト表現型オントロジーを記憶したデータベースであってもよい。当該データベースには、各ヒト表現型オントロジーの中英文対照語彙を含むことができる。選択可能に、予め設定された単語分割規則は、統計的言語モデル(StatisticalLanguageModel、SLM)に基づくアルゴリズムであってもよく、技術者がカスタマイズした単語分割規則であってもよい。
【0074】
選択可能に、前記分割後単語群における各分割後単語リストの分割後単語が異なり、同一の分割後単語リストの各分割後単語の文字数が同じである。
【0075】
具体的には、本出願の実施例は、ある規則に従って分割後単語結果における分割後単語を分類し、分割後単語リストを得ることができる。
【0076】
予め設定された単語分割規則は、既存の単語分割ツールによって使用される単語分割規則であってもよいことを理解されたい。既存の単語分割ツールは、結巴(jieba)分割後単語、言語技術プラットフォーム(LanguageTechnologyPlatform、LTP)及び自然言語処理と情報検索プラットフォーム(NaturalLanguageProcessing&InformationRetrievalSharingPlatform、NLPIR)を含むことができる。
【0077】
選択可能に、本発明の実施形態によって提供される別のヒト表現型オントロジーの決定装置は、前記マッチング度合い決定ユニット200は、共通語決定サブユニット、共通語数決定サブユニット、共通語位置決定サブユニット、第1の類似度決定サブユニット、離散度決定サブユニット、第2の類似度決定サブユニット及びマッチング度合い決定サブユニットを含む。
【0078】
前記共通語決定サブユニットは、予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーのいずれかに対応する分割後単語群を対象とし、当該分割後単語群における分割後単語リストのいずれかに対して、前記症状記述情報内で当該分割後単語リスト内の分割後単語を検索し、前記症状記述情報内に現れる当該分割後単語リスト内の分割後単語を共通語として決定することに用いられる。
【0079】
前記共通語数決定サブユニットは、当該分割後単語リストにおける共通語の数を決定することに用いられ、
前記共通語位置決定サブユニットは、前記症状記述情報における各共通語の位置を決定することに用いられ、
前記第1の類似度決定サブユニットは、当該分割後単語リストにおける共通語の数と当該分割後単語リストにおける分割後単語の数とに基づいて、当該分割後単語リストと前記症状記述情報との第1の類似度を決定することに用いられる。
【0080】
ここで、前記第1の類似度決定サブユニットは、具体的には、当該分割後単語リストにおける共通語の数と当該分割後単語リストにおける分割後単語の数との比に基づいて、当該分割後単語リストと前記症状記述情報との第1の類似度を決定することができる。
【0081】
前記離散度決定サブユニットは、前記症状記述情報における各共通語の位置と当該ヒト表現型オントロジーにおける各共通語の位置とに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定することに用いられる。
【0082】
選択可能に、前記離散度決定サブユニットは、前記症状記述情報における各共通語の位置に基づいて、前記症状記述情報における当該分割後単語リストの第1の位置ベクトルを決定し、当該症状記述情報における各共通語の位置に基づいて、当該症状記述情報における当該分割後単語リストの第1の位置ベクトルを決定し、当該ヒト表現型オントロジーにおける各共通語の位置に基づいて、当該ヒト表現型オントロジーにおける当該分割後単語リストの第2の位置ベクトルを決定し、各分割後単語リストの第1の位置ベクトルと第2の位置ベクトルに基づいて、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を決定することにも用いられる。
【0083】
ここで、症状記述情報における共通語の位置は、文字番号であってもよい。なお、文字番号は、分割後単語リストにおける各分割後単語の文字数に関連してもよい。
【0084】
ここで、第1の位置ベクトルは、症状記述情報における各共通語の文字番号からなる1次元リストであってもよい。
【0085】
ここで、ヒト表現型オントロジーにおける共通語の位置は文字番号であってもよい。なお、文字番号は、分割後単語リストにおける各分割後単語の文字数に関連してもよい。
【0086】
ここで、第2の位置ベクトルは、ヒト表現型オントロジーにおける各共通語の文字番号からなる1次元リストであってもよい。
【0087】
選択可能に、前記離散度決定サブユニットは、具体的には、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度を以下の式に基づいて決定することに用いることもできる。
【数15】
ここで、VARは、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度であり、Nは、当該分割後単語群に含まれる分割後単語リストの数であり、a
nは前記症状記述情報における分割後単語リストnの第1の位置ベクトルであり、b
nは当該ヒト表現型オントロジーにおける分割後単語リストnの第2の位置ベクトルである。
【0088】
前記第2の類似度決定サブユニットは、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を各分割後単語リストの第1の類似度によって決定することに用いられる。
【0089】
選択可能に、前記第2の類似度決定サブユニットは、具体的には、当該ヒト表現型オントロジーと前記症状記述情報との第3の類似度を各分割後単語リストの第1の類似度によって決定し、前記第3の類似度に調整可能な重み係数を乗じて、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を決定することに用いることもできる。
【0090】
選択可能に、前記第2の類似度決定サブユニットは、具体的には、当該ヒト表現型オントロジーと前記症状記述情報との第3の類似度を以下の式に基づいて決定することに用いることもできる。
【数16】
ここで、nは分割後単語リストの番号であり、preScoreは第3の類似度であり、αβ
nw
nlogp
nは分割後単語リストnの第1の類似度であり、ここで、1≦n≦Nであり、αは調整係数であり、β
nは分割後単語リストnに対応する正規化因子であり、w
nは分割後単語リストnに対応する重みであり、p
nは分割後単語リストn内の共通語数と分割後単語リストn内の分割後単語数との比である。
【0091】
ここで、調整係数は技術者が設定することができる。技術者は、本出願の実施例により提供されるヒト表現型オントロジーの決定方法の各実行が完了した後、各実行結果に応じて調整係数を調整することができる。
【0092】
ここで、分割後単語リストnに対応する正規化係数は、次のように表すことができる。
【数17】
ここで、logp
nはデータlogp
1、……、logp
nの平均値であり、次のように表すことができる。
【数18】
ここで、S
2はデータlogp
1、……、logp
nの分散であり、次のように表すことができる。
【数19】
ここで、各分割後単語リストに対応する重みは、技術者が設定することができる。技術者は、本出願の実施例により提供されるヒト表現型オントロジーの決定方法の各実行が完了した後、各実行結果に基づいて、各分割後単語リストに対応する重みを調整することができる。
【0093】
なお、各分割後単語リストに対応する重みは、技術者が設定することができる。技術者は、本出願の実施形態で提供されるヒト表現型オントロジーの決定方法の各実行が完了した後、各実行結果に応じて、各分割後単語リストに対応する重みを調整することができる。
【0094】
前記第2の類似度決定サブユニットは、具体的には、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度を以下の式に基づいて決定することに用いることもできる。
【数20】
ここで、Scoreは、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度であり、γは、調整可能な重み係数である。
【0095】
なお、調整可能重み係数は、ヒト表現型オントロジーに関連する。具体的には、本出願の実施例は、当該ヒト表現型オントロジーの履歴マッチングデータを用いて、調整可能な重み係数を決定することができる。具体的には、本出願の実施例は、当該ヒト表現型オントロジーの履歴マッチングデータを履歴マッチングデータベースから抽出することができ、当該履歴データは、当該ヒト表現型オントロジーが正しくマッチングされた第1の回数と、当該ヒト表現型オントロジーが誤ってマッチングされた第2の回数と、当該ヒト表現型オントロジーが手動で補完された第3の回数とを含むことができる。本出願の実施例は、第1の回数、第2の回数及び第3の回数を重み付け加算して、当該調整可能な重み係数を決定することができる。本出願の実施例は、当該ヒト表現型オントロジーと症状記述情報とのマッチング度合いを計算するために使用される調整可能な重み係数を、当該ヒト表現型オントロジーの履歴マッチングデータに基づいて決定することにより、当該ヒト表現型オントロジーが正しくマッチングされる確率を高めることができる。
【0096】
前記マッチング度合い決定サブユニットは、前記第2の類似度、前記離散度及び当該分割後単語群における分割後単語リストの数に基づいて、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定することに用いられる。
【0097】
選択可能に、前記マッチング度合い決定サブユニットは、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを以下の式に基づいて決定することに用いることができる。
【数21】
ここで、AEEVは、当該ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いであり、VARは、当該ヒト表現型オントロジーと前記症状記述情報との間の離散度であり、Scoreは、当該ヒト表現型オントロジーと前記症状記述情報との第2の類似度であり、Nは、当該分割後単語群に含まれる分割後単語リストの数であり、
【数22】
ここで、γは調整可能な重み係数であり、preScoreは第3の類似度であり、
【数23】
ここで、nは分割後単語リストの番号であり、αβ
nw
nlogp
nは分割後単語リストnの第1の類似度であり、ここで、1≦n≦Nであり、αは調整係数であり、β
nは分割後単語リストnに対応する正規化因子であり、w
nは分割後単語リストnに対応する重みであり、p
nは分割後単語リストn内の共通語数と分割後単語リストn内の分割後単語数との比であり、
【数24】
ここで、a
nは前記症状記述情報における分割後単語リストnの第1の位置ベクトルであり、b
nは当該ヒト表現型オントロジーにおける分割後単語リストnの第2の位置ベクトルである。
【0098】
前記ヒト表現型オントロジー決定ユニット300は、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定することに用いられる。
【0099】
ここで、予め設定されたマッチング成功条件は、あるヒト表現型オントロジーとある症状記述情報とのマッチング度合いが、予め設定されたマッチング度合いの閾値より大きい場合であってもよい。
【0100】
本出願の実施例では、マッチング度合いが予め設定されたマッチング成功条件を満たさないヒト表現型オントロジーをフィルタリングして、マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーのみを出力してもよい。
【0101】
本出願の実施例により提供されるヒト表現型オントロジーの決定装置は、症状記述情報を取得し、予め設定されたヒト表現型オントロジーベースにおける各ヒト表現型オントロジーに対応する分割後単語群と前記症状記述情報とを検索してマッチングさせ、各ヒト表現型オントロジーと前記症状記述情報とのマッチング度合いを決定することができ、ここで、前記分割後単語群が、前記分割後単語群に対応するヒト表現型オントロジーを予め設定された単語分割規則に従って単語分割をして得られた少なくとも1つの分割後単語リストを含み、前記分割後単語リストが、少なくとも1つの分割後単語を含み、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定する。本出願の実施例は、症状記述情報と各ヒト表現型オントロジーに対応する分割後単語群とを検索してマッチングさせ、各ヒト表現型オントロジーと症状記述情報とのマッチング度合いを決定することにより、当該症状記述情報に適合するヒト表現型オントロジーを決定することができ、技術者間での症状記述情報の研究やコミュニケーションに役立つとともに、当該症状記述情報に係る症状に対するデータ分析やマイニングにも役立つ。
【0102】
選択可能に、本出願の実施例により提供される別のヒト表現型オントロジーの決定装置は、記述語彙決定ユニット、否定語検出ユニット及び否定語ラベル付けユニットをさらに含むことができる。
【0103】
前記記述語彙決定ユニットは、前記ヒト表現型オントロジー決定ユニット300が、前記マッチング度合いが予め設定されたマッチング成功条件を満たすヒト表現型オントロジーを決定した後、前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定することに用いられる。
【0104】
具体的には、本出願の実施例は、ヒト表現型オントロジーに対応する各分割後単語リストにおける共通語が当該症状記述情報に現れる離散度に基づいて、当該位置にある語彙を、当該症状記述情報における当該ヒト表現型オントロジーの対応する記述語彙とするようにしてもよい。
【0105】
前記否定語検出ユニットは、前記記述語彙に隣接する隣接語彙が予め設定された否定語であるか否かを検出し、そうである場合、前記否定語ラベル付けユニットをトリガすることに用いられる。
【0106】
前記否定語ラベル付けユニットは、前記隣接語彙をラベル付けすることに用いられる。
【0107】
本出願の実施例は、当該記述語彙に隣接して当該記述語彙の前の隣接語彙が予め設定された否定語であるか否かを検出することができる。本出願の実施例は、当該隣接語彙が予め設定された否定語である場合、予め設定された否定識別子によって隣接語彙をラベル付けすることができる。
【0108】
選択可能に、本出願の実施例により提供される別のヒト表現型オントロジーの決定装置は、記述語彙決定ユニット、語彙判断ユニット及び語彙マッチング決定ユニットをさらに含むことができる。
【0109】
前記記述語彙決定ユニットは、前記症状記述情報における前記ヒト表現型オントロジーの対応する記述語彙を決定することに用いられる。
【0110】
前記語彙判断ユニットは、前記記述語彙と前記ヒト表現型オントロジーが一致するか否かを判断することに用いられ、一致する場合、前記語彙マッチング決定ユニットをトリガし、前記語彙マッチング決定ユニットは、前記ヒト表現型オントロジーと前記記述語彙とが完全マッチングであると決定することに用いられ、一致しない場合、前記語彙マッチング決定ユニットをトリガし、前記語彙マッチング決定ユニットは、前記ヒト表現型オントロジーと前記記述語彙とがファジーマッチングであると決定することに用いられる。
【0111】
前記ヒト表現型オントロジーの決定装置は、プロセッサ及びメモリを含み、前記症状記述情報取得ユニット100、マッチング度合い決定ユニット200及びヒト表現型オントロジー決定ユニット300などは、プログラムユニットとしてメモリに記憶されており、メモリに記憶された前記プログラムユニットをプロセッサが実行することにより、対応する機能を実現する。
【0112】
プロセッサにはカーネルが含まれており、カーネルは対応するプログラムユニットをメモリから呼び出す。カーネルは、1つ以上設定することができ、カーネルパラメータを調整することにより、症状記述情報と各ヒト表現型オントロジーに対応する分割後単語群とを検索してマッチングさせ、各ヒト表現型オントロジーと症状記述情報とのマッチング度合いを決定し、当該症状記述情報に適合するヒト表現型オントロジーを決定する。
【0113】
本出願の実施例は、プログラムが記憶されている記憶媒体を提供し、当該プログラムがプロセッサによって実行される場合、前記ヒト表現型オントロジーの決定方法が実現される。
【0114】
本発明の実施形態は、プログラムを実行するためのプロセッサを提供し、前記プログラムが実行される場合、前記ヒト表現型オントロジーの決定方法が実行される。
【0115】
本発明の実施形態は、少なくとも1つのプロセッサ、プロセッサに接続された少なくとも1つのメモリ、バスを備える装置を提供し、プロセッサ、メモリはバスを介して相互の通信を完了し、プロセッサは、前記ヒト表現型オントロジーの決定方法を実行するために、メモリ内のプログラム指令を呼び出すことに用いられる。本明細書における装置は、サーバ、PC、PAD、携帯電話などであってもよい。
【0116】
本出願は、データ処理装置で実行される場合、前記ヒト表現型オントロジーの決定方法のステップを初期化するプログラムを実行するのに適しているコンピュータプログラム製品をさらに提供する。
【0117】
本出願は、本出願の実施例に係る方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明される。フローチャート及び/又はブロック図における各フロー及び/又はブロック、ならびにフローチャート及び/又はブロック図におけるフロー及び/又はブロックの組み合わせは、コンピュータプログラム指令によって実現され得ることを理解すべきである。これらのコンピュータプログラム指令は、汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、又は他のプログラマブルデータ処理装置のプロセッサに提供されて1つの機械を生成することにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行される指令が、フローチャートの1つ又は複数のフロー及び/又はブロック図の1つ又は複数のブロック内で指定された機能を実現するユニットを生成するようにすることができる。
【0118】
典型的な構成では、装置は、1つ又は複数のプロセッサ(CPU)、メモリ及びバスを含む。装置は、入力/出力インタフェース、ネットワークインターフェースなどをさらに含むことができる。
【0119】
メモリは、読み取り専用メモリ(ROM)又はフラッシュメモリ(flashRAM)などのコンピュータ読み取り可能な媒体における非永続的メモリ、ランダムアクセスメモリ(RAM)及び/又は不揮発性メモリの形態を含むことができ、少なくとも1つのメモリチップを含む。メモリは、コンピュータ読み取り可能な媒体の一例である。
【0120】
コンピュータ読み取り可能な媒体は、永続的及び非永続的、リムーバブルメディア及び非リムーバブル媒体を含み、任意の方法又は技術によって情報記憶を実現することができる。情報は、コンピュータ読み取り可能な指令、データ構造、プログラムのモジュール又は他のデータであってもよい。コンピュータの記憶媒体の例としては、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、フラッシュメモリ又は他のメモリ技術、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)又は他の光学記憶装置、磁気カートリッジ、磁気テープ磁気ディスク記憶装置又は他の磁気記憶装置、又はコンピューティングデバイスによってアクセス可能な情報を記憶するために使用できる他の非伝送媒体を含むが、これらに限定されない。本明細書で定義されるように、コンピュータ読み取り可能な媒体は、変調されたデータ信号及び搬送波などの一時的なコンピュータ読み取り可能な媒体(transitorymedia)を含まない。
【0121】
なお、「含む」、「包含」という用語又は任意の他の変形は、非排他的な包含をカバーすることを意図しており、一連の要素を含むプロセス、方法、商品、又は装置が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、商品、又は装置に固有の要素も含むようになる。これ以上の制限がない場合、語句「……を1つ含む」によって限定される要素は、要素を含む過程、方法、商品又は装置に別の同じ要素が存在することを排除しない。
【0122】
当業者は、本出願の実施例が、方法、システム、又はコンピュータプログラム製品として提供され得ることを理解するであろう。したがって、本明細書は、完全なハードウェアの実施例、完全なソフトウェアの実施例、又はソフトウェア及びハードウェアの態様を組み合わせた実施例の形態をとることができる。さらに、本出願は、コンピュータ利用可能なプログラムコードを含む1つ又は複数のコンピュータ利用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)で実施されるコンピュータプログラム製品の形態をとることができる。
【0123】
以上は、本出願の実施例にすぎず、本出願を限定するためのものではない。当業者にとっては、出願に様々な変更及び変化が可能である。本出願の精神及び原理の範囲内で行われたいかなる補正、等価置換、改善等は、本出願の特許請求の範囲に含まれるものとする。
【国際調査報告】