(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-07-07
(45)【発行日】2025-07-15
(54)【発明の名称】生物医学的エンティティメンションを正規化するための方法、装置及び記憶媒体
(51)【国際特許分類】
G06F 40/242 20200101AFI20250708BHJP
G06F 40/247 20200101ALI20250708BHJP
G06F 16/36 20190101ALI20250708BHJP
【FI】
G06F40/242
G06F40/247
G06F16/36
(21)【出願番号】P 2022009594
(22)【出願日】2022-01-25
【審査請求日】2024-10-10
(31)【優先権主張番号】202110153759.3
(32)【優先日】2021-02-04
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ファン・ルゥ
(72)【発明者】
【氏名】ジョン・ジョォングアン
(72)【発明者】
【氏名】ツァオ・イリン
(72)【発明者】
【氏名】孫 俊
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2016-110440(JP,A)
【文献】特開平10-207896(JP,A)
【文献】特表2016-525762(JP,A)
【文献】特開2019-191646(JP,A)
【文献】再公表特許第2019/092868(JP,A1)
【文献】特表2012-527058(JP,A)
【文献】特表2011-513810(JP,A)
【文献】米国特許出願公開第2019/0197431(US,A1)
【文献】米国特許出願公開第2018/0068076(US,A1)
【文献】米国特許出願公開第2009/0119095(US,A1)
【文献】米国特許出願公開第2009/0070103(US,A1)
【文献】中国特許出願公開第110569328(CN,A)
【文献】中国特許出願公開第110008354(CN,A)
【文献】中国特許出願公開第111324709(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
コンピュータが実行する、生物医学的エンティティメンションを正規化するための方法であって、
前記生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、
生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新し、
更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つ
前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を含み、
前記関連概念集合は、対応する候補概念の同義概念を含み、
対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、方法。
【請求項2】
生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップは、前記マッピングすべきメンションに対して前処理を行うステップを含み、
前記前処理は、
前記マッピングすべきメンションにおける略語を正式名称に変換すること、
前記マッピングすべきメンションにおける非アラビア数字をアラビア数字に置き換えること、及び
複数形のマッピングすべきメンションを単数形のエンティティに変換することのうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項3】
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新するステップは、
前記候補概念集合における選択された候補概念の関連概念集合における単語の単語頻度に基づいて、単語頻度の降順で並び替えられた単語シーケンスを決定するステップと、
前記単語シーケンスを更新するステップと、
前記選択された候補概念に基づいて前記単語シーケンスから単語を選択して前記選択された候補概念の末尾に追加することによって該候補概念を拡張することを試みるステップと、を含む、請求項1に記載の方法。
【請求項4】
前記単語シーケンスを更新するステップは、
前記単語シーケンスにおける前記マッピングすべきメンションに出現する単語を前記単語シーケンスの最初の単語として設定するステップ、を含む、請求項3に記載の方法。
【請求項5】
前記単語シーケンスから単語を選択して前記選択された候補概念の末尾に追加することによって該候補概念を拡張することを試みるステップは、
前記単語シーケンスにおける前記選択された候補概念に出現していない最初の単語を前記選択された候補概念の末尾に追加して、前記選択された候補概念を更新するステップ、を含む、請求項3に記載の方法。
【請求項6】
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新するステップは、
前記選択された候補概念の単語数が長さ閾値よりも大きいか否かを決定するステップと、
前記選択された候補概念の単語数が長さ閾値よりも大きい場合、該選択された候補概念の拡張は終了するステップと、を含む、請求項3に記載の方法。
【請求項7】
畳み込みニューラルネットワークモデルを使用して、前記更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの類似度を決定する、請求項1に記載の方法。
【請求項8】
前記畳み込みニューラルネットワークモデルは、
ターゲット候補概念の概念ベクトル及び前記マッピングすべきメンションのメンションベクトルに基づいて注意行列を決定し、
前記注意行列に基づいて前記マッピングすべきメンションの注意特徴ベクトル及び前記ターゲット候補概念の注意特徴ベクトルを決定し、
畳み込みニューラルネットワーク層を使用して前記マッピングすべきメンションのメンションベクトル及び注意特徴ベクトルに基づいて前記マッピングすべきメンションのメンション特徴を生成し、
前記畳み込みニューラルネットワーク層を使用して前記ターゲット候補概念の概念ベクトル及び注意特徴ベクトルに基づいて前記ターゲット候補概念の概念特徴を生成し、
少なくとも1つの隠れ層を使用して前記メンション特徴及び前記概念特徴に基づいて深さ特徴を生成し、
Softmax層を使用して前記深さ特徴に基づいて前記ターゲット候補概念と前記マッピングすべきメンションとの意味的類似度を決定し、
前記注意行列の各要素は、前記ターゲット候補概念における単語と前記マッピングすべきメンションにおける単語とのマッチング度を表す、請求項7に記載の方法。
【請求項9】
生物医学的エンティティメンションを正規化するための装置であって、
命令が記憶されているメモリと、
前記メモリと通信して前記メモリから取得された前記命令を実行できる1つ以上のプロセッサと、を含み、
前記命令は、前記1つ以上のプロセッサに、
前記生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、
生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新し、
更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つ
前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を実行させ、
前記関連概念集合は、対応する候補概念の同義概念を含み、
対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、装置。
【請求項10】
プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、コンピュータに、
生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、
生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新し、
更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つ
前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を実行させ、
前記関連概念集合は、対応する候補概念の同義概念を含み、
対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、知識の発見に関し、具体的には、生物医学的エンティティメンションを正規化するための方法、装置及び記憶媒体に関する。
【背景技術】
【0002】
生物医学分野の技術の急速な発展に伴い、科学技術論文、特許文献などの様々な生物医学分野の文献も日々増加している。これによって、生物医学分野におけるテキストマイニング技術の発展が促進されている。文献でメンションされている生物医学用語は、生物医学的エンティティメンションと称される。テキストマイニング技術は、生物医学的エンティティメンションの正規化を含む。生物医学的エンティティメンションの正規化タスクの目的は、生物医学文献におけるエンティティメンション(entity mention)のナレッジグラフ(knowledge graph)における対応する一意の識別子を決定して、該エンティティメンションとナレッジグラフとの連携を確立することである。この連携を確立することは、生物医学分野の技術研究において重要である。
【0003】
従来のエンティティメンションの正規化方法は、通常、2つのモジュール、即ち候補の生成及び候補の並び替えを含む。従来のエンティティメンションの正規化方法は、生物医学的エンティティの正規化で良好な結果を達成しているが、依然として一定の制限がある。第一に、生成された候補名が類似するため、候補名のみに基づいて正しい候補を決定することは困難である。第二に、候補とメンションとが同一の分野内のエンティティであり、候補のコンテキストなどの情報も類似するため、コンテキスト情報を使用しても候補を正しく並び替えることは困難である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
【0005】
本開示は、生物医学的エンティティメンションを正規化するための方法、装置及び記憶媒体を提供する。
【課題を解決するための手段】
【0006】
本開示の1つの態様では、コンピュータが実行する、生物医学的エンティティメンションを正規化するための方法であって、前記生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップと、前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新し、更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つ前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を含み、前記関連概念集合は、対応する候補概念の同義概念を含み、対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、方法を提供する。
【0007】
本開示の1つの態様では、生物医学的エンティティメンションを正規化するための装置であって、命令が記憶されているメモリと、前記メモリと通信して前記メモリから取得された前記命令を実行できる1つ以上のプロセッサと、を含み、前記命令は、前記1つ以上のプロセッサに、前記生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップと、前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新し、更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つ前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を実行させ、前記関連概念集合は、対応する候補概念の同義概念を含み、対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、装置を提供する。
【0008】
本開示のもう1つの態様では、プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、コンピュータに、生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップと、前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新し、更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つ前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を実行させ、前記関連概念集合は、対応する候補概念の同義概念を含み、対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、記憶媒体を提供する。
【0009】
本開示に係る生物医学的エンティティメンションを正規化するための方法、装置及び記憶媒体の少なくとも1つの有利な効果として、本開示の方法、装置及び記憶媒体によれば、正規的概念の決定の正確度を向上させることができる。
【図面の簡単な説明】
【0010】
本開示の上記及び他の目的、特徴及び利点をより容易に理解させるために、以下は図面を参照しながら本開示の実施形態を説明する。なお、図面は、単なる本開示の原理を説明するためのものである。図面では、縮尺に従って各部のサイズ及び相対位置を描く必要がない。同一の符号は、同一の特徴を表示してもよい。
【
図1】本開示の1つの実施例に係るコンピュータにより実行される生物医学的エンティティメンションの正規化方法を例示的に示すフローチャートである。
【
図2】本開示の1つの実施例に係る候補概念を拡散する方法を例示的に示すフローチャートである。
【
図3】本開示の1つの実施例に係る意味的類似度を決定する方法を例示的に示すフローチャートである。
【
図4】本開示の1つの実施例に係る生物医学的エンティティメンションの正規化装置を例示的に示すブロック図である。
【
図5】本開示の1つの実施例に係る生物医学的エンティティメンションの正規化装置を例示的に示すブロック図である。
【
図6】本開示の1つの実施例に係る情報処理装置を例示的に示すブロック図である。
【発明を実施するための形態】
【0011】
以下は図面を参照しながら本開示の例示的な実施形態を説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、当業者が実施形態を実現する際に、実施形態を実現するために特定の決定を行ってもよく、これらの決定は実施形態に応じて変更されてもよい。
【0012】
なお、本開示を明確にするために、図面には本開示に密に関連する装置の構成要件及び/又は処理のステップのみが示され、本開示と関係のない細部が省略されている。
【0013】
なお、本開示は、添付の図面を参照して以下の説明を行うため、説明された実施形態に限定されない。本明細書では、実行可能である場合、実施例を互いに組み合わせてもよいし、異なる実施例の特徴を置き換え、或いは利用してもよいし、1つの実施例において1つ又は複数の特徴を省略してもよい。
【0014】
本明細書に開示される例示的な実施例の各態様の操作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで記述されてもよく、該プログラミング言語は、Java、Smalltalk、C++などの対象指向プログラミング言語を含み、「C」プログラミング言語又は同様なプログラミング言語などの従来の手続き型プログラミング言語を含む。
【0015】
本開示の方法は、対応する機能的構成を有する回路により実現されてもよい。該回路は、プロセッサのための回路を含む。
【0016】
本開示の1つの態様は、コンピュータにより実行される生物医学的エンティティメンションの正規化方法を提供する。以下は、
図1を参照しながら該方法を例示的に説明する。
【0017】
図1は、本開示の1つの実施例に係るコンピュータにより実行される生物医学的エンティティメンションの正規化方法100を例示的に示すフローチャートである。該方法100は、例えば入力された生物医学的エンティティメンションに基づいて、生物医学辞書に関連する該生物医学的エンティティメンションについて正規化結果を出力することができる。該正規化結果は、該生物医学辞書に示される該生物医学的エンティティメンションの対応する正規的表現を示すことができる。
【0018】
ステップS101において、生物医学的エンティティメンションをマッピングすべきメンションmmとして受信する。mmは、例えば生物医学文献において言及されている生物医学用語である。用語抽出アプリケーションを使用して、生物医学文献の画像又はテキストに出現する生物医学用語を抽出してもよい。マッピングすべきメンションmmの一例は、「sporadic t-cell leukemia」である。マッピングすべきメンションmmは、例えば、英語の用語又は他のインド・ヨーロッパ語族の用語である。
【0019】
ステップS103において、生物医学辞書Dを検索してマッピングすべきメンションmmの候補概念集合Scを生成する。Sc={mc[1],mc[2],…,mc[i],…,mc[i_max]}、i_maxは、候補概念集合の要素の数である。例えば、全文検索エンジンLuceneツールを使用して、生物医学辞書D(生物医学知識ベース)における各概念及びその識別子についてインデックスを確立する。次に、Luceneツールを使用してインデックスで検索を行い、上位の20個(Top 20)の検索結果を候補概念として候補概念集合を構成する。候補概念集合における要素の上限を制限してもよく、例えば上限は20である。検索された候補概念が上限に達していない場合、検索された全ての候補概念で候補概念集合を構築する。各候補概念mc[i]は、生物医学辞書Dに関するインデックスを有し、該インデックスはmc[i].indとして示される。生物医学辞書Dにおける概念は、既に記録された標準化された生物医学用語である。生物医学辞書Dは、例えば、英語辞書又は他のインド・ヨーロッパ語族辞書である。
【0020】
ステップS105において、候補概念集合Scにマッピングすべきメンションと同一の概念が含まれるか否かを決定する。例えば、マッピングすべきメンションmm=「sporadic t-cell leukemia」について、Scに候補概念mc[i]=「sporadic t-cell leukemia」が含まれる場合、候補概念集合Scにマッピングすべきメンションと同一の概念が含まれると決定する。
【0021】
決定結果が「NO」の場合、ステップS107を実行する。ステップS107において、候補概念集合Scにおける各候補概念mc[i]について生物医学辞書Dから取得された関連概念集合Sr[i]に基づいて該候補概念集合mc[i]を拡張して、候補概念集合を更新する。ここで、関連概念集合は、対応する候補概念の同義概念を含み、対応する候補概念が対応する上位概念を有する場合、関連概念集合は、前記対応する上位概念及び対応する上位概念の同義概念をさらに含む。例えば、候補概念mc[i]の関連概念集合Sr[i]は、候補概念mc[i]の生物医学辞書Dに示されている全ての同義概念sys[i][j]を含む。jは、1~同義概念の数j_maxであってもよい。また、候補概念mc[i]が上位概念を有する場合、関連概念集合Sr[i]は、候補概念mc[i]の上位概念mp[i]及び上位概念mp[i]の生物医学辞書Dに示されている全ての同義概念syp[i][k]をさらに含む。kは、1~同義概念の数k_maxであってもよい。生物医学辞書では、概念に階層的な関係がある。これは、概念の上位概念又は下位概念があり、或いはその両方があることを意味する。ここで、下位概念には上位概念に関する情報が含まれる。例えば、概念「lymphoma,non-hodgkins」は「lymphoma」の一種であり、ここで、「lymphoma, non-hodgkins」は「lymphoma」の下位概念であり、「lymphoma」は「lymphoma,non-hodgkins」の上位概念である。生物医学辞書Dにおける各概念項目には、該概念の同義概念及びその上位概念(存在する場合)が記録されている。なお、mc[i]の上位概念が複数ある場合、好ましくは、関連概念集合Sr[i]は、これらの複数の上位概念を含み、これらの複数の上位概念のそれぞれの同義概念をさらに含む。好ましくは、候補概念mc[i]が少なくとも1つの上位概念を有する場合、関連概念集合Sr[i]は、該少なくとも1つの上位概念及び少なくとも1つの上位概念のうちの各概念の同義概念をさらに含む。
【0022】
ステップS109において、更新された候補概念集合における各候補概念mc[i]とマッピングすべきメンションmmとの意味的類似度sm[i]を決定して意味的類似度集合Ssを取得する。
【0023】
ステップS111において、マッピングすべきメンションmmを意味的類似度集合Ssにおける最大の意味的類似度に対応する候補概念mc[i_smax]にマッピングする。具体的には、意味的類似度集合Ssにおける最大の意味的類似度に対応する候補概念mc[i_smax]の生物医学辞書Dに関するインデックスmc[i_smax].indを使用して、マッピングすべきメンションmmを生物医学辞書Dにおける対応する概念mc[i_smax]にマッピングし、マッピングすべきメンションmmの正規的概念を示す。例えば、マッピングすべきメンションmmの生物医学辞書Dに関するインデックスmm.indをmc[i_smax].indに設定して、mmを最大の意味的類似度に対応する候補概念mc[i_smax]にマッピングし、マッピングすべきメンションmmの正規的概念を最大の意味的類似度に対応する候補概念mc[i_smax]に設定する。
【0024】
ステップS105の決定結果がYESの場合、ステップS113を実行する。ステップS113において、マッピングすべきメンションmmを候補概念集合Scにおける同一の候補概念mc[i_s]にマッピングする。例えば、マッピングすべきメンションmmの生物医学辞書Dに関するインデックスmm.indをmc[i_s].indに設定して、mmを同一の候補概念mc[i_s]にマッピングする。
【0025】
1つの実施例では、生物医学辞書Dを検索してマッピングすべきメンションの候補概念集合を生成するステップは、マッピングすべきメンションmmに対して前処理を行うステップを含む。ここで、前処理は、マッピングすべきメンションにおける略語を正式名称に変換すること、マッピングすべきメンションにおける非アラビア数字をアラビア数字に置き換えること、及び複数形のマッピングすべきメンションを単数形のエンティティに変換することのうちの少なくとも1つを含んでもよい。好ましくは、前処理は、マッピングすべきメンションmmの最初の文字が大文字である場合、マッピングすべきメンションmmの最初の文字を対応する小文字に変換することをさらに含んでもよい。
【0026】
本開示の1つの実施例では、単語頻度及びマッピングすべきメンションに基づいて候補概念を拡張してもよい。
図2は、本開示の1つの実施例に係る候補概念を拡散する方法200を例示的に示すフローチャートである。候補概念集合における各候補概念(即ち、選択された候補概念)について方法200を実行し、生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、候補概念集合を更新してもよい。
【0027】
ステップS203において、候補概念集合における選択された候補概念mc[i]の関連概念集合Sr[i]における単語の単語頻度に基づいて、単語頻度の降順で並び替えられた単語シーケンスSw[i]を決定する。選択された候補概念mc[i]が上位概念mp[i]を有する場合、選択された候補概念の全ての同義概念(sys[i][1],…,sys[i][j],…,sys[i][j_max])、その上位概念mp[i]、上位概念の全ての同義概念(syp[i][1],…,sys[i][k ],…,sys[i][k_max])により構成された関連概念集合Srでは、同一の単語が複数の概念に出現する場合がある。選択された候補概念mc[i]が上位概念を有しない場合、選択された候補概念の全ての同義概念(sys[i][1],…,sys[i][j],…,sys[i][j_max])により構成された関連概念集合Srでは、同一の単語が複数の概念に出現する場合もある。なお、mc[i]の上位概念の数は複数であってもよい。Dに示されている複数の上位概念のうちの最初の上位概念を選択してSrを構築してもよい。関連概念集合Srは、好ましくは、mc[i]以外の他の上位概念、及び他の上位概念の同義概念を含む。関連概念集合における各単語(例えば、合計30個の異なる単語)の関連概念集合に出現する回数をカウントすることで各単語の単語頻度を決定する。これによって、単語頻度の降順で並び替えられた単語により構成された元のシーケンスSo[i](例えば、30個の単語を含む元のシーケンス)を決定することができる。単語シーケンスSw[i]は、元のシーケンスSo[i]と同一であるように設定されてもよいし、元のシーケンスの単語数がN(Nは自然数であり、例えばN=5)個よりも多い場合、単語シーケンスSw[i]は、元のシーケンスSo[i]の最初のN個の単語により構成されたシーケンスに設定されてもよい。或いは、単語シーケンスSw[i]は、元のシーケンスにおける単語頻度が単語頻度閾値よりも大きい単語のみを含んでもよい。言い換えれば、単語シーケンスSw[i]の長さ(即ち、単語の数)は、単語頻度閾値又はシーケンスの長さ閾値に基づいて制限されてもよい。
【0028】
ステップS205において、単語シーケンスSw[i]を更新する。例えば、マッピングすべきメンションmmに基づいて単語シーケンスSw[i]を更新する。具体的には、mmにおける各単語をチェックして、該単語が単語シーケンスSw[i]に出現しているか否かを決定してもよい。出現している単語について、単語シーケンスSw[i]において該単語を前に移動して、単語シーケンスSw[i]を更新する。例えば、単語シーケンスSw[i]におけるマッピングすべきメンションmmに出現している単語を単語シーケンスSw[i]の最初の単語の前に移動する。即ち、該出現した単語を単語シーケンスの最初の単語として設定する。単語シーケンスSw[i]にはマッピングすべきメンションmmに出現している単語が複数存在する場合、これらの単語の全てを単語シーケンスSw[i]の前の位置に移動する。例えば、これらの単語が単語シーケンスの1番目の位置、2番目の位置及び3番目の位置を占める(単語シーケンスSw[i]にはマッピングすべきメンションmmに出現している単語が3つ存在する場合)ように、前への移動を実行する。一例では、現在でチェックされているmmにおける単語が既に現在の単語シーケンスSw[i]の最初の単語である場合、mmにおける次の単語に対するチェックに進む(即ち、前への移動を実行する必要がない)。例えば、Sw[i]がw1、w2、w3、w4、w5であり、w4がmmに出現している場合、前への移動を実行し、Sw[i]はw4、w1、w2、w3、w5に更新される。
【0029】
一例では、ステップS203において決定された単語シーケンスSw[i]は、元のシーケンスSo[i]と同一であってもよい。ステップS203において、マッピングすべきメンションmmに基づいて単語シーケンスSw[i]を更新した後、単語シーケンスSw[i]の最初のN個の単語のみを切り取り、単語シーケンスを更新する。即ち、単語シーケンスを更新することは、シーケンスの長さ閾値に基づいて単語シーケンスを更新することをさらに含んでもよい。
【0030】
ステップS205において出力された単語シーケンスSw[i]は、w[i][1]、w[i][2]、…、w[i][n]、…、w[i][n_max]と表されてもよい。
【0031】
ステップS207において、選択された候補概念mc[i]に基づいて単語シーケンスSw[i]から単語を選択して選択された候補概念mc[i]の末尾に追加することによって該選択された候補概念を拡張することを試みる。シーケンス位置ポインタPを使用して単語シーケンスSw[i]におけるチェックすべき単語の番号(初期値は1に設定する)を示し、単語シーケンスSw[i]におけるシーケンス位置ポインタPで示された単語が選択された候補概念mc[i]にあるか否かをチェックしてもよい。チェック結果が「NO」の場合、該単語を選択された候補概念mc[i]の末尾に追加し、PをP+1に更新する。例えば、mc[i]=「b-cell lymphoma」であり、追加すべき単語が「non-hodgkins」である場合、拡張後のmc[i]は「b-cell lymphoma non-hodgkins」である。一例では、ステップS207は、単語シーケンスSw[i]における選択された候補概念mc[i]に出現していない最初の単語を選択された候補概念mc[i]の末尾に追加して、選択された候補概念を更新することを含む。例えば、w[i][1]がmc[i]に含まれていない場合、mc[i]をmc[i]+space+w[i][1]に更新する。ここで、spaceはスペースを表す。チェック結果が「YES」の場合、PをP+1に更新し、ステップS209を実行する(即ち、Pで示される単語は拡張に使用されない)。
【0032】
ステップS209において、選択された候補概念mc[i]の単語数が長さ閾値Lthよりも大きいか否かを決定する。決定結果が「YES」の場合、該選択された候補概念の拡張は終了する。長さの閾値は、例えばLth=min{2*マッピングすべきメンションの単語数,M}の方式で決定される。ここで、MはDのうちの概念の最大の単語数であり、min{}は選択パラメータのうちの最小のパラメータであり、ここで、「2」は単なる一例であり、経験に応じて調整されてもよい。
【0033】
ステップS211において、語順が無視された場合、選択された候補概念とマッピングすべきメンションとが同一であるか否かを決定する。決定結果が「YES」の場合、該選択された候補概念の拡張を終了する。なお、1つの変形例では、同一の判断(S211)を先に行ってから、単語数の判定(S209)を行ってもよい。
【0034】
ステップS213において、単語シーケンスのチェックが単語シーケンスの末尾まで進んだか否かを決定する。例えば、これは、現在のシーケンス位置ポインタPが単語シーケンスの末尾に到達したか否か(Pがn_max+1に等しいか否か)をチェックすることによって実現されてもよい。P=n_max+1の場合、単語シーケンスSw[i]における全ての単語のチェックが完了し、チェックが単語シーケンスの末尾まで進んだことを意味する。
【0035】
ステップS215において、選択された候補概念mc[i]により上位の上位概念があるか否かを決定する。これは、辞書Dにおける指示により、辞書Dが上位概念の上位概念を示しているか否かをチェックしてもよい。選択された候補概念mc[i]により上位の上位概念がないと決定された場合、ステップS219を実行し、例えばユーザが手動で処理方式を決定できるように、プロンプト情報を出力してユーザに通知してもよい。好ましくは、選択された候補概念mc[i]により上位の上位概念がないと決定された場合、選択された候補概念の拡張を終了するように設定されてもよい。
【0036】
ステップS217において、より上位の上位概念に基づいて単語シーケンスを更新する。例えば、より上位の上位概念及びその同義概念を使用して、単語頻度の降順で並び替えられた単語のシーケンスを構築することによって、Sw[i]を更新する。同様に、単語シーケンスSw[i]に含まれる単語数の上限は、単語頻度閾値又はシーケンスの長さ閾値に基づいて制限されてもよい。例えば、元の単語シーケンスに30個の単語が含まれる場合、その最初の5個の単語を使用してSw[i]を構築する。例えば、単語頻度が1より大きい単語のみを使用してSw[i]を構築してもよい。その後、ステップS205に戻る。
【0037】
即ち、方法200は、選択された候補概念のより上位の上位概念に基づいて、選択された候補概念を条件付きで拡張するステップを含んでもよい。
【0038】
以下は、本開示に係る意味的類似度集合を取得する方法を説明する。
【0039】
意味的類似度集合は、Ss={sm[1],…,sm[i],…sm[i_max]}として表されてもよい。ここで、sm[i]は候補概念mc[i]とマッピングすべきメンションmmとの意味的類似度を表す。
【0040】
一例では、従来の意味的類似度計算方法を使用してsm[i]を決定してもよい。例えば、対応する2つの単語文字列の特徴ベクトルを決定し、この2つの特徴ベクトル間の類似度を、対応する意味的類似度として直接計算する。
【0041】
本開示の1つの実施例では、注意行列及び畳み込みニューラルネットワークモデルを使用して意味的類似度集合Ssにおける各意味的類似度を決定する。以下、
図3を参照しながら該意味的類似度を決定する方法を例示的に説明する。
【0042】
図3は、本開示の1つの実施例に係る意味的類似度を決定する方法300を例示的に示すフローチャートである。
【0043】
ステップS301において、ターゲット候補概念mc[i]の概念ベクトルFcv及びマッピングすべきメンションmmのメンションベクトルFmvに基づいて注意行列Aを決定する。注意行列Aの要素auv=match_score(Vwm[u],Vwc[v])、Vwm[u]はmmのu番目の単語の単語ベクトルであり、Vwc[v]はmc[i]のv番目の単語ベクトルであり、match_score(wm[u],wc[v])は、ターゲット候補概念mc[i]における単語wc[v]とマッピングすべきメンションmmにおける単語wc[u]とのマッチング度を表す。Vwm[u]はFmvの成分であり、Vwc[v]はFcvの成分である。2つの単語間のマッチング度は、所定の規則に従って定義されてもよい。単語に基づいて単語ベクトルを生成することは、従来技術(例えば、Word2Vecなどの言語モデルを介して単語ベクトルを生成する)であり、ここでその説明を省略する。
【0044】
ステップS302において、注意行列Aに基づいてマッピングすべきメンションmmの注意特徴ベクトルFma及びターゲット候補概念mc[i]の注意特徴ベクトルFcaを決定する。ここで、Fma=W0・AT、Fca=W1・A、Tは転置変換を表す。W0、W1は、モデルをトレーニングする際に学習する必要のあるパラメータである。
【0045】
ステップS303において、畳み込みニューラルネットワーク層CNNを使用してマッピングすべきメンションmmのメンションベクトルFmv及び注意特徴ベクトルFmaに基づいてマッピングすべきメンションのメンション特徴Fmを生成する。一例では、FmaとFmvを連結して特徴Fm’を構成し(即ち、Fm’=Fma+Fmv)、特徴Fm’を畳み込みニューラルネットワーク層CNNに入力し、CNNによりFm’を処理した後にFmを出力する。これは、Fm=CNN(Fm’)として表されてもよい。
【0046】
ステップS304において、畳み込みニューラルネットワーク層CNNを使用してターゲット候補概念mc[i]の概念ベクトルFcv及び注意特徴ベクトルFcaに基づいてターゲット候補概念mc[i]の概念特徴Fcを生成する。一例では、FcaとFcvを連結して特徴Fc’を構成し(即ち、Fc’=Fca+Fcv)、特徴Fc’を畳み込みニューラルネットワーク層CNNに入力し、CNNによりFc’を処理した後にFcを出力する。これは、Fc=CNN(Fc’)として表されてもよい。
【0047】
ステップS305において、少なくとも1つの隠れ層を使用してメンション特徴Fm及び概念特徴Fcに基づいて深さ特徴Fdを生成する。一例では、FmとFcを連結して特徴Fd’を構成し(即ち、Fd’=Fm+Fc)、特徴Fd’を隠れ層に入力し、隠れ層によりFd’を処理した後にFdを出力する。これは、Fd=Hidden(Fd’)として表されてもよい。
【0048】
ステップS306において、Softmax層を使用して深さ特徴Fdに基づいてターゲット候補概念mc[i]とマッピングすべきメンションmmとの意味的類似度sm[i]を決定する。一例では、Softmax層の出力は2次元ベクトルであり、該2次元ベクトルにおける1つの成分は、ターゲット候補概念とマッピングすべきメンションとの意味的類似度である。
【0049】
当業者が理解できるように、畳み込みニューラルネットワークモデルを使用して意味的類似度を決定する前に、サンプルを使用して畳み込みニューラルネットワークモデルを訓練し、畳み込みニューラルネットワークモデルのパラメータを決定する必要がある。畳み込みニューラルネットワークモデルをトレーニングする段階では、訓練コーパスのうちの正規化された結果を有する各エンティティメンションについて、本開示で説明される候補概念生成方法を使用してその候補概念集合を生成し、候補概念と該エンティティメンションのラベル付けされた正規化結果とが一致する場合、該メンションと候補のペア<mm、mc[i]>の意味的類似度(Softmax層の出力の1つの成分、類似度スコアに対応する)を1としてラベル付けし、そうでない場合、0としてラベル付けする。テストの段階では、類似度スコアを使用して並べ替えを行い、類似度スコアが最も高い候補概念を正規化結果として選択する。
【0050】
本開示は、生物医学的エンティティメンションの正規化装置をさらに提供する。以下は、
図4を参照しながら該装置を例示的に説明する。
図4は、本開示の1つの実施例に係る生物医学的エンティティメンションの正規化装置400を例示的に示すブロック図である。該装置400は、検索部403、決定部405、更新部407、取得部409及びマッピング部411を含む。検索部403は、生物医学辞書を検索して、マッピングすべきメンションの候補概念集合を生物医学的エンティティメンションとして生成する。決定部405は、候補概念集合にマッピングすべきメンションと同一の概念が含まれるか否かを決定する。更新部407は、候補概念集合にマッピングすべきメンションと同一の概念が含まれない場合、候補概念集合における各候補概念について生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、候補概念集合を更新する。ここで、関連概念集合は、対応する候補概念の同義概念を含み、対応する候補概念が対応する上位概念を有する場合、関連概念集合は、対応する上位概念及び対応する上位概念の同義概念をさらに含む。取得部409は、更新された候補概念集合における各候補概念とマッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得する。マッピング部411は、マッピングすべきメンションを意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングする。該装置400は、方法100に対応する。該装置400のさらなる構成について、本開示の方法についての説明を参照してもよい。例えば、マッピング部411は、決定結果が「NO」の場合、マッピングすべきメンションを候補概念集合における同一の候補概念にマッピングする。
【0051】
本開示は、生物医学的エンティティメンションの正規化装置をさらに提供する。以下は、
図5を参照しながら該装置を例示的に説明する。
図5は、本開示の1つの実施例に係る生物医学的エンティティメンションの正規化装置500を例示的に示すブロック図である。該装置500は、命令が記憶されているメモリ501、及びメモリ501と通信してメモリ501から取得された命令を実行できる1つ以上のプロセッサ503を含む。該命令は、1つ以上のプロセッサ503に、生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、生物医学辞書を検索してマッピングすべきメンションの候補概念集合を生成するステップと、候補概念集合にマッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、候補概念集合にマッピングすべきメンションと同一の概念が含まれない場合、候補概念集合における各候補概念について生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、候補概念集合を更新し、更新された候補概念集合における各候補概念とマッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つマッピングすべきメンションを意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を実行させる。ここで、関連概念集合は、対応する候補概念の同義概念を含み、対応する候補概念が対応する上位概念を有する場合、関連概念集合は、対応する上位概念及び対応する上位概念の同義概念をさらに含む。該装置は、本開示の生物医学的エンティティメンションの正規化方法に対応する。該装置のさらなる構成について、本開示の方法100についての説明を参照してもよい。
【0052】
本開示の1つの態様は、プログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供する。該プログラムは、コンピュータに、生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、生物医学辞書を検索してマッピングすべきメンションの候補概念集合を生成するステップと、候補概念集合にマッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、候補概念集合にマッピングすべきメンションと同一の概念が含まれない場合、候補概念集合における各候補概念について生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、候補概念集合を更新し、更新された候補概念集合における各候補概念とマッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つマッピングすべきメンションを意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を実行させる。ここで、関連概念集合は、対応する候補概念の同義概念を含み、対応する候補概念が対応する上位概念を有する場合、関連概念集合は、対応する上位概念及び対応する上位概念の同義概念をさらに含む。該プログラムのさらなる構成の詳細について、本開示の生物医学的エンティティメンションの正規化方法についての説明を参照してもよい。
【0053】
本開示の1つの態様では、情報処理装置をさらに提供する。
【0054】
図6は、本開示の1つの実施例に係る情報処理装置を例示的に示すブロック図である。
図6において、中央処理部(CPU)601は、読み出し専用メモリ(ROM)602に記憶されているプログラム、又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムにより各種の処理を実行する。RAM603には、必要に応じて、CPU601が各種の処理を実行するに必要なデータが記憶されている。
【0055】
CPU601、ROM602、及びRAM603は、バス604を介して互いに接続されている。入力/出力インターフェース605もバス604に接続されている。
【0056】
入力部606(キーボード、マウスなどを含む)、出力部607(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部608(例えばハードディスクなどを含む)、通信部609(ネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース605に接続されている。通信部609は、ネットワーク、例えばインターネットを介して通信処理を実行する。
【0057】
必要に応じて、ドライバ610は、入力/出力インターフェース605に接続されてもよい。取り外し可能な媒体611は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ610にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部608にインストールされている。
【0058】
CPU601は、生物医学的エンティティメンションを正規化するためのプログラムを実行してもよい。該プログラムは、方法100の機能を実現することができる。
【0059】
本開示に係る技術は、拡張された同一のレベル及び上位のレベルの概念に基づいて、生物医学的エンティティメンションの正規的概念を決定することを含む。これによって、正規的概念の決定の正確度を向上させることができる。本開示の態様は、注意行列に基づいて生物医学的エンティティメンションの正規的概念を決定することをさらに含む。これによって、正規的概念の決定の正確度をさらに向上させることができる。
【0060】
上述したように、本開示によれば、生物医学的エンティティメンションを正規化する方法の原理を提供する。なお、本開示の効果は、必ずしも上記の効果に限定されるものではなく、上記の段落に記載された効果に加えて、又はその代わりに、本明細書に示される効果の何れかを得ることができ、或いは、本明細書から他の効果を理解することができる。
【0061】
以上は本開示の具体的な実施例を説明しているが、当業者は添付の特許請求の範囲の要旨及び範囲内で本開示に対して各種の変更(行の場合、各実施例の特徴を組み合わせ、或いは置き換える)、改善又は均等的なものを行うことができる。これらの変更、改善又は均等的なものは本開示の保護範囲に属する。例えば、方法200では、以下の例示的な変形を行ってもよい。ステップS207は、現在のPについて、拡張条件が満たされていないと決定された後、P+1が単語シーケンスの範囲を超えていない場合、Pを更新し、拡張を再度試み、拡張の試みが成功した後、ステップS209を実行し、P+1が単語シーケンスの範囲を超えた場合、ステップS215を実行する。
【0062】
以上は、生物医学分野の用語を正規化する方法を例示的に説明している。なお、上記のスキームは、単純な適応的調整を行った(例えば、対応する分野の辞書を選択した)後に、他の分野(例えば、化学領域)の用語を正規化するために使用されてもよい。
【0063】
なお、用語「含む」、「有する」は本明細書に説明された特徴、要素、ステップ又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、ステップ又は部材の存在又は追加を排除するものではない。
【0064】
さらに、本発明の各実施例の方法は、明細書に記載され、或いは図面に示される時間の順序に従って実行されることに限定されず、他の時間の順序に従って実行されてもよいし、並行して又は独立して実行されてもよい。従って、本明細書に記載された方法の実行順序は、本発明の技術的範囲を制限するものではない。
【0065】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
コンピュータが実行する、生物医学的エンティティメンションを正規化するための方法であって、
前記生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、
生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新し、
更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つ
前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を含み、
前記関連概念集合は、対応する候補概念の同義概念を含み、
対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、方法。
(付記2)
生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップは、前記マッピングすべきメンションに対して前処理を行うステップを含み、
前記前処理は、
前記マッピングすべきメンションにおける略語を正式名称に変換すること、
前記マッピングすべきメンションにおける非アラビア数字をアラビア数字に置き換えること、及び
複数形のマッピングすべきメンションを単数形のエンティティに変換することのうちの少なくとも1つを含む、付記1に記載の方法。
(付記3)
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新するステップは、
前記候補概念集合における選択された候補概念の関連概念集合における単語の単語頻度に基づいて、単語頻度の降順で並び替えられた単語シーケンスを決定するステップと、
前記単語シーケンスを更新するステップと、
前記選択された候補概念に基づいて前記単語シーケンスから単語を選択して前記選択された候補概念の末尾に追加することによって該候補概念を拡張することを試みるステップと、を含む、付記1に記載の方法。
(付記4)
前記単語シーケンスを更新するステップは、
前記単語シーケンスにおける前記マッピングすべきメンションに出現する単語を前記単語シーケンスの最初の単語として設定するステップ、を含む、付記3に記載の方法。
(付記5)
前記単語シーケンスから単語を選択して前記選択された候補概念の末尾に追加することによって該候補概念を拡張することを試みるステップは、
前記単語シーケンスにおける前記選択された候補概念に出現していない最初の単語を前記選択された候補概念の末尾に追加して、前記選択された候補概念を更新するステップ、を含む、付記3に記載の方法。
(付記6)
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新するステップは、
前記選択された候補概念の単語数が長さ閾値よりも大きいか否かを決定するステップと、
前記選択された候補概念の単語数が長さ閾値よりも大きい場合、該選択された候補概念の拡張は終了するステップと、を含む、付記3に記載の方法。
(付記7)
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新するステップは、
語順が無視された場合、前記選択された候補概念と前記マッピングすべきメンションとが同一であるか否かを決定するステップと、
語順が無視された場合、前記選択された候補概念と前記マッピングすべきメンションと同一であるとき、該選択された候補概念の拡張を終了するステップと、を含む、付記3に記載の方法。
(付記8)
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新するステップは、
前記選択された候補概念のより上位の上位概念に基づいて、前記選択された候補概念を条件付きで拡張するステップ、を含む、付記3に記載の方法。
(付記9)
畳み込みニューラルネットワークモデルを使用して、前記更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの類似度を決定する、付記1に記載の方法。
(付記10)
前記畳み込みニューラルネットワークモデルは、
ターゲット候補概念の概念ベクトル及び前記マッピングすべきメンションのメンションベクトルに基づいて注意行列を決定し、
前記注意行列に基づいて前記マッピングすべきメンションの注意特徴ベクトル及び前記ターゲット候補概念の注意特徴ベクトルを決定し、
畳み込みニューラルネットワーク層を使用して前記マッピングすべきメンションのメンションベクトル及び注意特徴ベクトルに基づいて前記マッピングすべきメンションのメンション特徴を生成し、
前記畳み込みニューラルネットワーク層を使用して前記ターゲット候補概念の概念ベクトル及び注意特徴ベクトルに基づいて前記ターゲット候補概念の概念特徴を生成し、
少なくとも1つの隠れ層を使用して前記メンション特徴及び前記概念特徴に基づいて深さ特徴を生成し、
Softmax層を使用して前記深さ特徴に基づいて前記ターゲット候補概念と前記マッピングすべきメンションとの意味的類似度を決定し、
前記注意行列の各要素は、前記ターゲット候補概念における単語と前記マッピングすべきメンションにおける単語とのマッチング度を表す、付記9に記載の方法。
(付記11)
前記Softmax層の出力は、2次元ベクトルであり、
前記2次元ベクトルにおける1つの成分は、前記ターゲット候補概念と前記マッピングすべきメンションとの意味的類似度である、付記10に記載の方法。
(付記12)
生物医学的エンティティメンションを正規化するための装置であって、
生物医学辞書を検索して、前記マッピングすべきメンションの候補概念集合を生物医学的エンティティメンションとして生成する検索部と、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定する決定部と、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新する更新部と、
更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得する取得部と、
前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするマッピング部と、を含み、
前記関連概念集合は、対応する候補概念の同義概念を含み、
対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、装置。
(付記13)
生物医学的エンティティメンションを正規化するための装置であって、
命令が記憶されているメモリと、
前記メモリと通信して前記メモリから取得された前記命令を実行できる1つ以上のプロセッサと、を含み、
前記命令は、前記1つ以上のプロセッサに、
前記生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、
生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新し、
更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つ
前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を実行させ、
前記関連概念集合は、対応する候補概念の同義概念を含み、
対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、装置。
(付記14)
プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、コンピュータに、
生物医学的エンティティメンションをマッピングすべきメンションとして受信するステップと、
生物医学辞書を検索して前記マッピングすべきメンションの候補概念集合を生成するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれるか否かを決定するステップと、
前記候補概念集合に前記マッピングすべきメンションと同一の概念が含まれない場合、
候補概念集合における各候補概念について前記生物医学辞書から取得された関連概念集合に基づいて該候補概念集合を拡張して、前記候補概念集合を更新し、
更新された候補概念集合における各候補概念と前記マッピングすべきメンションとの意味的類似度を決定して意味的類似度集合を取得し、且つ
前記マッピングすべきメンションを前記意味的類似度集合における最大の意味的類似度に対応する候補概念にマッピングするステップと、を実行させ、
前記関連概念集合は、対応する候補概念の同義概念を含み、
対応する候補概念が対応する上位概念を有する場合、前記関連概念集合は、前記対応する上位概念及び前記対応する上位概念の同義概念をさらに含む、記憶媒体。