(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024134756
(43)【公開日】2024-10-04
(54)【発明の名称】項目分類装置、項目分類システム及び項目分類方法
(51)【国際特許分類】
G06F 16/906 20190101AFI20240927BHJP
G16H 10/00 20180101ALI20240927BHJP
【FI】
G06F16/906
G16H10/00
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023045105
(22)【出願日】2023-03-22
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】城戸 悠太郎
(72)【発明者】
【氏名】大瀧 洋子
(72)【発明者】
【氏名】中村 泰明
【テーマコード(参考)】
5B175
5L099
【Fターム(参考)】
5B175DA10
5B175FA03
5L099AA01
(57)【要約】 (修正有)
【課題】項目のベクトル作成のコストを低減する項目分類装置、項目分類システム及び項目分類方法を提供する。
【解決手段】項目分類装置が実行する項目分類処理は、適格基準文の項目群を項目毎に分割し、適格基準文に含まれる項目の語句に語句の意味を区別するため文字列であるタグを付与し、付与したタグを下位概念タグと上位概念タグに区分し、項目毎に下位概念タグと上位概念タグを含む項目のベクトルを生成し、項目のベクトルを説明変数として分類カテゴリを目的変数とする分類モデルを学習する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
項目群分割部、項目タグ付与部、項目のベクトル生成部、分類モデル学習部及び分類モデル実行部を有し、治験の適格基準文を分類する項目分類装置であって、
前記項目群分割部は、
前記適格基準文の項目群を前記項目ごとに分割し、
前記項目タグ付与部は、
前記項目の語句に前記語句の意味を区別するための文字列であるタグを付与し、
前記項目のベクトル生成部は、
前記タグを下位概念のタグである下位概念タグと前記下位概念タグの上位概念である上位概念タグに区分し、
前記項目ごとに前記下位概念タグと前記上位概念タグを含む前記項目のベクトルを生成し、
前記分類モデル学習部は、
前記項目のベクトルを説明変数とし、分類カテゴリを目的変数として分類モデルを学習し、
前記分類モデル実行部は、
前記分類モデルを実行することを特徴とする項目分類装置。
【請求項2】
前記項目群分割部は、
前記項目ごとに前記項目の識別子を付与し、
前記項目タグ付与部は、
前記タグごとに前記タグの識別子を付与して前記項目の識別子と前記タグの識別子とを対応をさせ、
前記項目のベクトル生成部は、
前記タグの識別子を前記下位概念タグの識別子と前記上概念タグの識別子に区分して対応させ、
前記下位概念タグの識別子と前記上位概念タグの識別子を前記下位概念タグと前記上位概念タグにそれぞれ変換し、
前記項目の識別子ごとに前記下位概念タグと前記上位概念タグを含む前記項目のベクトルを生成することを特徴とする請求項1に記載の項目分類装置。
【請求項3】
前記項目のベクトル生成部は、
前記項目のベクトルとして、前記項目に出現する前記タグに対応する次元を1、前記項目に出現しない前記タグに対応する次元を0とするワンホットベクトルを生成することを特徴とする請求項1に記載の項目分類装置。
【請求項4】
前記項目のベクトル生成部は、
前記適格基準文に含まれる出現頻度の低い前記語句に関する前記項目のベクトルに前記上位概念を加えることを特徴とする請求項1に記載の項目分類装置。
【請求項5】
請求項1に記載の項目分類装置と、
表示部と、
入力部と、を有し、
前記表示部は、
前記入力部を介して選択された前記タグ及び前記上位概念タグを表示すると共に、
前記項目のベクトル生成部で生成された前記項目のベクトルを表示することを特徴とする請求項1に記載の項目分類システム。
【請求項6】
前記表示部は、
前記入力部を介して絞り込まれた前記分類カテゴリごとに前記適格基準文の前記項目を表示することを特徴とする請求項5に記載の項目分類システム。
【請求項7】
項目群分割ステップ、項目タグ付与ステップ、項目のベクトル生成ステップ、分類モデル学習ステップ及び分類モデル実行ステップを有し、治験の適格基準文を分類する項目分類方法であって、
前記項目群分割ステップにおいて、
前記適格基準文の項目群を項目ごとに分割し、
前記項目タグ付与ステップにおいて、
前記項目の語句に前記語句の意味を区別するための文字列であるタグを付与し、
前記項目のベクトル生成ステップにおいて、
前記タグを下位概念のタグである下位概念タグと前記下位概念タグの上位概念である上位概念タグとに区分し、
前記項目ごとに前記下位概念タグと前記上位概念タグを含む前記項目のベクトルを生成し、
前記分類モデル学習ステップにおいて、
前記項目のベクトルを説明変数とし、分類カテゴリを目的変数として分類モデルを学習し、
前記分類モデル実行ステップにおいて、
前記分類モデルを実行することを特徴とする項目分類方法。
【請求項8】
前記項目群分割ステップにおいて、
前記項目ごとに前記項目の識別子を付与し、
前記項目タグ付与ステップにおいて、
前記タグごとに前記タグの識別子を付与して前記項目の識別子と前記タグの識別子とを対応をさせ、
前記項目のベクトル生成ステップにおいて、
前記タグの識別子を前記下位概念タグの識別子と前記上概念タグの識別子に区分して対応させ、
前記下位概念タグの識別子と前記上位概念タグの識別子を前記下位概念タグと前記上位概念タグにそれぞれ変換し、
前記項目の識別子ごとに前記下位概念タグと前記上位概念タグを含む前記項目のベクトルを生成することを特徴とする請求項7に記載の項目分類方法。
【請求項9】
前記項目のベクトル生成ステップにおいて、
前記項目のベクトルとして、前記項目に出現する前記タグに対応する次元を1、前記項目に出現しない前記タグに対応する次元を0とするワンホットベクトルを生成することを特徴とする請求項7に記載の項目分類方法。
【請求項10】
前記項目のベクトル生成ステップにおいて、
前記適格基準文に含まれる出現頻度の低い前記語句に関する前記項目のベクトルに前記上位概念を加えることを特徴とする請求項7に記載の項目分類方法。
【請求項11】
治験の適格基準文を分類する項目分類方法であって、
前記適格基準文に含まれる項目の語句に前記語句の意味を区別するため文字列であるタグを付与し、
前記タグの意味的な階層構造を用いて前記タグの上位概念を抽出し、
前記上位概念を前記項目の前記タグに関するベクトルに加えることを特徴とする項目分類方法。
【請求項12】
前記タグに関するベクトルは、
前記項目に出現する前記タグに対応する次元を1、前記項目に出現しない前記タグに対応する次元を0とするワンホットベクトルであることを特徴とする請求項11に記載の項目分類方法。
【請求項13】
前記適格基準文に含まれる出現頻度の低い前記語句に関する前記ベクトルに前記上位概念を加えることを特徴とする請求項11に記載の項目分類方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、項目分類装置、項目分類システム及び項目分類方法に関する。
【背景技術】
【0002】
製薬会社は、新薬開発において、治験を行い新薬の有効性・安全性に関するデータを取得する。その際、不適切な募集条件の設定の治験は新薬開発の長期化及び遅延の原因となる。
【0003】
そのため、製薬会社は治験実施前に実施方法を入念に計画する。計画者は、既往歴や年齢などの患者の特性を考慮し、被験者の適格な条件(以下、「適格基準」と呼ぶ)の設定を求められる。その際、計画者は公開の治験の情報を参照し、対象の疾患及び薬剤に関する治験のプロトコルを網羅的に調査する。
【0004】
尚、本明細書における適格基準は選択基準、除外基準等の治験対象者の選定に関わる基準の全てまたは任意の1以上の基準とする。
【0005】
しかし、上記公開の治験の情報は、適格基準が非構造化データのまま項目の集合として羅列されており、目的の情報を探索するのに適していない。ここでいう「項目」とは、行頭に記号や番号を付けた形式または改行により列記されている文章や単語である。羅列された各項目を病歴や検査値などの基準の種類ごとに分類することで、計画者は目的の情報を効率的に収集することができる。
【0006】
従来、項目を分類する手法として、機械学習の教師あり学習手法が用いられる(例えば、非特許文献1参照)。非特許文献1に記載の例では、項目に含まれる各単語をベクトルに変換し、単語のベクトルを用いて項目のベクトルを表現する。
【0007】
ベクトルの例として、項目の語彙の数だけ次元を用意し、項目に出現する単語に対応する次元を「1」、出現しない単語に対応する次元を「0」として項目のベクトルを表すワンホットベクトル(以下、ベクトルと呼ぶ)がある。
【0008】
適格基準の項目の中には教師データに存在しない新規の疾患名や稀な薬剤名など出現頻度の低い単語(以下、「低頻度語」と呼ぶ)が含まれる。低頻度語を機械学習のモデルで十分に学習するには、前述の項目のベクトルの作成方法では大量の訓練データを要する。
【0009】
上記課題に対して、例えば、特許文献1では単語埋め込みモデルを学習するための訓練データの単語として、学習対象の語句に加えオントロジーの上位概念の語を用いる方法が開示されている。
【先行技術文献】
【特許文献】
【0010】
【非特許文献】
【0011】
【非特許文献1】Zong, H., Yang, J., Zhang, Z., Li, Z., & Zhang, X. (2021). Semantic categorization of Chinese eligibility criteria in clinical trials using machine learning methods. BMC medical informatics and decision making, 21(1), 128.
【非特許文献2】Yuan, C., Ryan, P. B., Ta, C., Guo, Y., Li, Z., Hardin, J., Makadia, R., Jin, P., Shang, N., Kang, T., & Weng, C. (2019). Criteria2Query: a natural language interface to clinical databases for cohort definition. Journal of the American Medical Informatics Association : JAMIA, 26(4), 294-305.
【発明の概要】
【発明が解決しようとする課題】
【0012】
しかし、特許文献1の手法で項目のベクトルを作成するには、項目に出現する低頻度語ごとに、その単語の上位概念を訓練データとした単語埋め込みモデルの学習を要し、項目のベクトルを作成するコストが大きい。
【0013】
このベクトル生成のコストは実用上、顧客要望で分類カテゴリを変更しモデルを再学習する場面や新規の項目を分類する場面において、項目をベクトルに変換する際に時間が掛かる点で課題を生じる。
【0014】
本発明の目的は、項目分類装置において、項目のベクトル作成のコストを低減することにある。
【課題を解決するための手段】
【0015】
本発明の一態様の項目分類装置は、項目群分割部、項目タグ付与部、項目のベクトル生成部、分類モデル学習部及び分類モデル実行部を有し、治験の適格基準文を分類する項目分類装置であって、前記項目群分割部は、前記適格基準文の項目群を前記項目ごとに分割し、前記項目タグ付与部は、前記項目の語句に前記語句の意味を区別するための文字列であるタグを付与し、前記項目のベクトル生成部は、前記タグを下位概念のタグである下位概念タグと前記下位概念タグの上位概念である上位概念タグに区分し、前記項目ごとに前記下位概念タグと前記上位概念タグを含む前記項目のベクトルを生成し、前記分類モデル学習部は、前記項目のベクトルを説明変数とし、分類カテゴリを目的変数として分類モデルを学習し、前記分類モデル実行部は、前記分類モデルを実行することを特徴とする。
【発明の効果】
【0016】
本発明に一態様によれば、項目分類装置において、項目のベクトル作成のコストを低減することができる。
【図面の簡単な説明】
【0017】
【
図1】本発明の実施例に係る項目分類装置の構成の概略を示すブロック図である。
【
図2】本発明の実施例に係る項目分類装置が実行する項目分類処理を説明するためのフローチャートである。
【
図3】本発明の実施例に係る項目分類装置が実行する項目群分割処理を説明するためのフローチャートである。
【
図4】本発明の実施例に係る項目分類装置が実行する項目タグ付与処理を説明するためのフローチャートである。
【
図5】本発明の実施例に係る項目分類装置が実行する項目のベクトル生成処理の項目のベクトル表現作成処理を説明するためのフローチャートである。
【
図6】本発明の実施例に係る項目分類装置が実行する分類モデル学習処理を説明するためのフローチャートである。
【
図7】本発明の実施例に係る項目分類装置が実行する分類モデル実行処理を説明するためのフローチャートである。
【
図8】本発明の実施例に係る項目分類装置が保持する適格基準の項目群のデータ構造を示す図である。
【
図9】本発明の実施例に係る項目分類装置が保持する適格基準の項目のデータ構造を示す図である。
【
図10】本発明の実施例に係る項目分類装置が保持するタグ付き項目のデータ構造を示す図である。
【
図11】本発明の実施例に係る項目分類装置が保持するタグと識別子のデータ構造を示す図である。
【
図12】本発明の実施例に係る項目分類装置が保持するタグ間の階層関係のデータ構造を示す図である。
【
図13】本発明の実施例に係る項目分類装置が保持する項目のベクトルのデータ構造を示す図である。
【
図14】本発明の実施例に係る項目分類装置が保持する分類カテゴリ付き項目のデータ構造を示す図である。
【
図15】本発明の実施例に係る項目分類装置が保持する分類結果のデータ構造を示す図である。
【
図16】本発明の実施例に係る項目分類装置によるタグ・上位概念選択画面の表示例を示す説明図である。
【
図17】本発明の実施例に係る項目分類装置による項目絞り込み条件入力画面の表示例を示す説明図である。
【
図18】本発明の実施例に係る項目分類装置による項目絞り込み結果画面の表示例を示す説明図である。
【発明を実施するための形態】
【0018】
本発明は、治験に関するデータベースに登録されている適格(選択・除外)基準の項目を整理、分類する技術に関する。実施形態では、適格基準の項目を「全身状態」に関する文か、そうでないかの2つの分類カテゴリに分類する。分類カテゴリとは、文章に付与され、病歴や検査値などの基準の種類の内の1つに該当する文であるかどうかを示すラベルである。
【0019】
実施形態では、項目のベクトル作成のコストを低減するため、項目のベクトル作成に用いる単語を単語の属性を示すタグの付与により限定し、かつ単語埋め込みモデルを要することなくタグの上位概念を用いて項目のベクトルを作成する。
【0020】
尚、本明細書における「タグ」とは、項目からキーワードとなる単語や句(以下、「語句」と呼ぶ)に付与され、付与された語句の意味を区別するための単語や文字列である。
【0021】
まず、項目のベクトル作成に用いる単語を限定するため、項目の語句にタグを付与する。これは例えば、「Prior treatment with leflunomide.」という項目における語句「treatment」に対してタグ「Procedure」を、語句「leflunomide」に対してタグ「Drug」をそれぞれ付与する処理である。この処理には、例えば非特許文献2のようなモデルも活用できる。
【0022】
次に、単語埋め込みモデルを用いない方法として、全てのタグとその上位概念の数の次元数のベクトルを用意し、タグと上位概念を合わせて項目のベクトルを作成する。このように、単語埋め込みモデルを用いずに、短時間で項目のベクトルを作成可能である。
【0023】
上記実施形態は、項目の語句に付与され語句の意味を区別するための文字列であるタグについて、前記タグ間上位下位関係が示されたタグの階層構造を用いて、ある項目に含まれる前記タグの前記階層構造における前記タグの上位概念を抽出し、該項目のタグに関するベクトルに該上位概念を加えることを特徴とする。
【0024】
このように、分類モデルに低頻度語とその上位概念が合わせて学習されるので、低頻度語が多く含まれる項目の分類精度が向上する。
【0025】
以下、図面を用いて実施例について説明する。
【実施例0026】
図1は、本発明の実施例に係る項目分類装置の機能的な構成を示すブロック図である。
【0027】
図1に示すように、項目分類装置100は、制御部101、メモリ102、記憶部103を有する。そして、項目分類装置100、表示部121、入力部122により項目分類システムが構成される。
【0028】
制御部101は、メモリ102に格納されたプログラムに従い処理を実行するプロセッサである。メモリ102は、制御部101が実行するプログラム及び制御部101が参照するデータ等を格納する記憶装置である。
【0029】
図1の例では、メモリ102には、項目群分割部104、項目タグ付与部105、項目のベクトル生成部106、分類モデル学習部107、分類モデル実行部108が格納される。すなわち、以下の説明においてこれらの各部が実行する処理は、実際には、制御部101がメモリ102に格納されたプログラムに従って実行する。項目分類処理のフローは
図2に示す。
【0030】
項目分類装置100の記憶部103には、適格基準の項目群109、適格基準の項目110、タグ付き項目111、タグと識別子112、タグと識別子間の階層関係113、項目のベクトル114、分類カテゴリ付き項目115、分類モデル116、分類結果117が格納される。
【0031】
項目群分割部104は、記憶部103より適格基準の項目群109を取得し、項目群を箇条書きあるいは番号づけ、改行の1項目ごとに分割し、項目ごとに識別子を付与する。結果として、適格基準の項目110が記憶部103に記憶される。
【0032】
項目タグ付与部105は、記憶部103より適格基準の項目110を取得する。
図11のタグの文字列を適格基準の項目に含まれる語句へ対応付け、対応のある当該適格基準の項目の識別子と当該タグの識別子をテーブルへ格納して、各項目の識別子と各項目内で語句に付与されたタグを収集する。
【0033】
例えば、非特許文献2のようなモデルを用いる。結果として、タグ付き項目111が記憶部103に記憶される。
【0034】
項目のベクトル生成部106は、記憶部103よりタグ付き項目111、タグと識別子112、タグの識別子間の階層関係113を取得する。タグ付き項目111にある項目の全てのタグを、タグの識別子、その上位概念のタグの識別子、上位概念の順に変換し、全て項目の全てのタグと全てのタグの上位概念を収集する。
【0035】
その後、項目を、全ての項目から収集したタグとその上位概念を列として展開したベクトルを作成する。作成されたベクトルに対し、各項目の行で各項目から取得されたタグと上位概念の列する列の値を「1」、各項目の行のそれ以外の列の値を「0」とする操作を全ての項目に行う。結果として、項目のベクトル114が記憶部103に記憶される。
【0036】
分類モデル学習部107は、記憶部103より適格基準の項目110と項目のベクトル114、分類カテゴリ付き項目115を取得する。項目のベクトル114を説明変数、分類カテゴリ付き項目115を目的変数として、分類モデルを学習する。結果として、分類モデル116が記憶部103に記憶される。
【0037】
分類モデル実行部108は、記憶部103より、項目のベクトル114と分類モデル116を用いて、項目を分類する。結果として、分類結果117が記憶部103に記憶される。
【0038】
適格基準の項目群109は、適格基準の項目群をWebサイトの公開データベースより、治験の適格基準に関する項目のまとまりを格納する。例えば、公開データベースとして、治験プロトコルを登録するインターネットサイト(ClinicalTrials.gov)がある。
【0039】
公開治験データベース(ClinicalTrials.gov)より、治験の適格基準に該当する項目群を手動で入手し、項目群の識別子を付与して格納する。適格基準の項目群のデータ例は
図8に示す。
【0040】
適格基準の項目110は、項目群分割部104で作成された適格基準の項目と各項目の識別子を格納する。適格基準の項目のデータ例は
図9に示す。
【0041】
タグ付き項目111は、項目タグ付与処理で作成された、項目の語句に付与されたタグの識別子と項目の識別子を格納する。タグ付き項目111のデータ例は
図10に示す。
【0042】
タグと識別子112は、項目タグ付与部105で付与されるタグの種類とタグの識別子を外部のWebサイトより手動で入手して格納する。例えば、OMOPの標準化ボキャブラリを保持するWebサイト(Athena)より、OMOP Common Data Model Vocabulary ver5.2.2のconcept.csvのconcept_name列がタグの種類、concept_id列がタグの識別子である。タグと識別子112のデータ例は
図11に示す。
【0043】
タグと識別子間の階層関係113は、項目タグ付与部で付与されるタグの識別子で、上位概念の識別子と下位概念識別子を外部のWebサイトより手動で入手して格納する。例えば、OMOPの標準化ボキャブラリを保持するサイトAthenaより、OMOP Common Data Model Vocabulary ver5.2.2のconcept_ancestor.csvのancestor_concept_id列がタグの上位概念の識別子、descendant_concept_id列が下位概念の識別子である。タグ間の階層関係のデータ例は
図12に示す。
【0044】
項目のベクトル114は、項目のベクトル生成部で作成されたベクトルを格納する。項目のベクトル114のデータ例は
図13に示す。
【0045】
分類カテゴリ付き項目115は、適格基準の項目110の項目に対して、手動で項目の分類カテゴリを付与し、項目の識別子と分類カテゴリを格納する。分類カテゴリ付き115のデータ例を
図14に示す。
【0046】
分類モデル116は、分類モデル学習部108で作成された分類モデルを格納する。分類結果117では、分類モデル実行部により得られた分類結果を格納する。分類結果117のデータ例を
図15に示す。
【0047】
表示部121では、3つの画面を表示する。1つ目はタグ・上位概念選択画面である。項目分類装置100の項目のベクトル114を受信し、項目のベクトルが特徴とするタグを表示する。表示部122では、ユーザが項目のベクトル114から除外したいタグや上位概念を選択して入力し、除外された結果のベクトルを表示部121に出力する。
【0048】
また、ユーザは除外するタグや上位概念を確定することでタグを削除して項目のベクトル114に格納する。タグ・上位概念選択画面の例を
図16に示す。
【0049】
2つ目は、目的とする分類カテゴリの入力画面、3つ目は、目的の分類カテゴリに絞込後の画面である。表示部121では、項目分類装置100の分類結果を受信し、分類結果に基づいて、分類カテゴリごとに分けて項目を表示する。入力部122では、ユーザが目的とする分類カテゴリを入力し、目的の分類カテゴリに限定した結果を表示部121に出力する。
【0050】
表示部121の例で、目的とする分類カテゴリの入力画面を
図17、目的の分類カテゴリに絞込後の画面を
図18に示す。
【0051】
次に処理フローについて説明する。
図2は、本発明の実施例に係る項目分類装置が実行する項目分類処理を説明するためのフローチャートである。
図2の項目分類処理は、
図1の項目分類部102に相当する。
【0052】
ステップS201では、記憶部103より適格基準の項目群109を読み込み、項目ごとに分割して、適格基準の項目110として記憶部103に格納する。具体的な処理フローは
図3に示す。
【0053】
ステップS202では、適格基準の項目にタグを付与し、各項目の語句に付与されたタグと各項目の識別子をタグ付き項目111に格納する。具体的な処理フローは
図4に示す。
【0054】
ステップS203では、記憶部103よりタグ付き項目111とタグと識別子112、タグと識別子間の階層関係113を取得し、項目からベクトルを作成し、項目のベクトル114として記憶部103に格納する。具体的な処理フローは
図5に示す。
【0055】
ステップS204では、記憶部103から項目のベクトル114、分類カテゴリ付き項目115を取得して、分類モデルを学習し、分類モデル116として記憶部103に格納する。具体的な処理フローは
図6に示す。
【0056】
ステップS205では、記憶部103から項目のベクトル114、分類モデル116を取得して、項目の分類を実行し、分類結果117として記憶部103に格納する。具体的な処理フローは
図7に示す。その後、項目分類部102は処理を終了する。
【0057】
図3は、本発明の実施例に係る項目分類装置が実行する項目群分割処理を説明するためのフローチャートである。
図3の項目群分割処理は、
図1の項目群分割部104、
図2のステップS201に相当する。
【0058】
ステップS301では、記憶部103から、適格基準の項目群109を読み込む。
【0059】
ステップS302では、適格基準の項目群を箇条書きあるいは番号づけ、改行の1項目ごとに分割する。例えば、
図8のデータ例では、1つ目の項目群より、項目「Patients must have a SWOG performance status of 0-2. 」、項目「Age 18-65 years.」、項目「Prior treatment with leflunomide.」を取得する。他の項目群に対しても同様の処理を行い、全ての項目を収集する。
【0060】
ステップS303で取得された各項目に項目の識別子を付与する。例えば、項目「Patients must have a SWOG performance status of 0-2. 」に項目の識別子「0」を付与する。他の項目に対しても同様の処理を行い、全ての項目と項目の識別子を取得する。
【0061】
ステップS303では、ステップS302で得られた項目と項目の識別子を適格基準の項目110として、記憶部103に格納する。
【0062】
ステップS304で適格基準の項目群109に未処理の項目群があるか否かを判断する。未処理の項目がある場合には、項目群分割部104はステップS302へ戻り、未処理の別の項目群を用いて上述の処理を繰り返す。一方未処理の項目がない場合には項目群分割部104は処理を終了する。
【0063】
図4は、本発明の実施例に係る項目分類装置が実行する項目タグ付与処理を説明するためのフローチャートである。
図4の項目タグ付与処理は、
図1の項目タグ付与部105、
図2のステップS202に相当する。
【0064】
ステップS401では、記憶部103から適格基準の項目110を読み込む。ステップS402では、記憶部103から各項目の語句にタグを付与する。例えば、適格基準の項目に非特許文献2のモデルCriteira2Queryを用いて、項目「Patients must have a SWOG performance status of 0-2. 」の語句「SWOG performance status」にタグ「measurement」と、同じく語句「SWOG performance status」にタグ「ecog performance status panel」を対応付ける。
【0065】
ステップS403では、各項目の識別子と各項目の語句に付与されたタグの識別子をタグ付き項目111として記憶部103に格納する。例えば、項目「Patients must have a SWOG performance status of 0-2. 」には項目の識別子「0」が付与されているため、項目の識別子「0」とタグの識別子「3」、そして、項目の識別子「0」とタグの識別子「2」を取得する。
【0066】
ステップS404で適格基準の項目110に未処理の項目があるか否かを判断する。未処理の項目がある場合には、項目タグ付与部105はステップS402へ戻り、未処理の別の項目を用いて上述の処理を繰り返す。一方未処理の項目がない場合には項目タグ付与部105は処理を終了する。
【0067】
図5は、本発明の実施例に係る項目分類装置が実行する項目のベクトル生成処理を説明するためのフローチャートである。
図5のベクトル生成処理は、
図1のベクトル生成部106、
図2のステップS203に相当する。
【0068】
ステップS501では、記憶部103からタグ付き項目111を読み込む。ステップS502では、記憶部103からタグと識別子112を読み込む。
【0069】
ステップS503では、記憶部103からタグの識別子間の階層関係113を読み込む。ステップS504では、タグ間の階層関係113を用いて、ステップS501で取得したタグの識別子に対応する上位概念の識別子を取得する。例えば、ステップS501でタグの識別子「2」を取得した場合、
図12のデータ例で、タグの識別子「2」の上位概念であるタグの識別子「0」と「1」を取得する。同様の処理を全てのタグの識別子に行い、全てのタグの全ての上位概念の識別子を取得する。
【0070】
ステップS505では、タグと識別子112を用いて、各上位概念の識別子を上位概念に変換する。例えば、ステップS504により上位概念の識別子「0」、「1」を取得した場合、
図11のデータ例では、識別子「0」に該当するタグ「clinical」と、識別子「1」に該当するタグ「order set」を取得する。
【0071】
ステップS506では、ステップS505で収集されたすべての上位概念の中で重複する上位概念を除外する。例えば、取得した上位概念でタグ「order set」が3つあった場合、内1つを残し残り2つを除外する。
【0072】
ステップS507では、ステップS506までで取得された全てのタグとその上位概念、タグ付き項目111の項目の識別子を用いて、全ての項目の識別子を行、全ての項目から取得したタグと上位概念を列とし、値が全て0のベクトルを生成する。
【0073】
ステップS508では、タグ付き項目111から1つの項目の識別子について、付与されているタグを全て取得する。例えば、
図10のデータ例では項目の識別子「0」に対するタグの識別子「3」とタグの識別子「2」を取得する。
【0074】
ステップS509では、タグ間の階層関係113を用いてタグの識別子に対する上位概念の識別子を全て取得する。例えば、ステップS508で識別子「3」「2」を取得した場合、
図12のデータ例より、識別子「2」の上位概念であるタグの識別子「0」と「1」を取得する。
【0075】
ステップS510では、タグと識別子112を用いて全ての上位概念の識別子を上位概念に変換する。例えば、ステップS509により上位概念の識別子「0」、「1」を取得した場合、
図7のデータ例より、識別子「0」に該当するタグ「clinical」と、識別子「1」に該当するタグ「order set」を取得する。
【0076】
ステップS511では、項目の行でかつ取得しているタグの列と項目の行でかつ上位概念の列に対し、ベクトルの値を1とする。例えば、
図13のデータ例であれば、項目「Patients must have a SWOG performance status of 0-2. 」に該当する項目の識別子の行のタグ「measurement」、タグ「ecog performance status panel」、上位概念「clinical」、上位概念「order set」の列の値を1とし、同じ行の他の列の値を0とする。
【0077】
ステップS512では、タグ付き項目データ111で未処理の項目の識別子があるか否かを判断する。未処理の項目の識別子がある場合には、項目のベクトル生成部106はステップS508へ戻り、未処理の別の項目の識別子を用いて上述の処理を繰り返す。一方未処理の項目がない場合にはステップS513へ進む。
【0078】
ステップS513では、ステップS512で得られたベクトルを項目のベクトル114として記憶部103に格納し、項目のベクトル生成部106は処理を終了する。
【0079】
以上のように、項目分類装置100を用いて、適格基準の項目群109とタグと識別子112、タグと識別子間の階層関係113から、項目のベクトル114を取得する。
【0080】
ユーザは表示部121にて、項目のベクトル114から除外するタグや上位概念を選択することが可能である。除外したいタグや上位概念を入力部122から入力し、分類の説明変数となるタグと上位概念を確定することで、除外されたベクトルの結果を、ユーザ選択の項目のベクトル114として格納することが可能である。表示部121の特徴量選択の例を
図16に示す。
【0081】
図6は、本発明の実施例に係る項目分類装置が実行する分類モデル学習処理を説明するためのフローチャートである。
図6の分類モデル学習処理は、
図1の分類モデル学習部107、
図2のステップS204に相当する。
【0082】
ステップS601では、記憶部103より項目のベクトル114を読み込む。ステップS602では、記憶部103より分類カテゴリ付き項目115を読み込む。
【0083】
ステップS603では、項目のベクトル114より、項目のベクトルを説明変数、分類カテゴリを目的変数として、分類モデルを学習する。
【0084】
ステップS604では、得られた学習後の分類モデルを分類モデル116へ格納する。その後、分類モデル学習部107は処理を終了する。
【0085】
図7は、本発明の実施例に係る項目分類装置が実行する分類モデル実行処理を説明するためのフローチャートである。
図7の分類モデル実行処理は、
図1の分類モデル実行部108、
図2のステップS205に相当する。
【0086】
ステップS701では、記憶部103より項目のベクトル114を読み込む。ステップS702では、記憶部103より適格基準の項目116を読み込む。
【0087】
ステップS703では、記憶部103より項目のベクトル114を分類モデル116に適用し、項目の分類を実行する。ステップS704では、項目の識別子と分類結果の分類カテゴリを分類結果117へ格納する。その後、分類モデル実行部108は処理を終了する。
【0088】
分類された項目を表示部121にて表示し、表示部122より得られるユーザの入力から、分類カテゴリごとに項目を絞り込み、表示部182にて表示する。表示される項目絞り込み条件入力画面の表示例を
図17に示す。分類結果によって絞り込まれた項目絞り込み結果画面の表示例を
図18に示す。
【0089】
図8は、本発明の実施例に係る項目分類装置が保持する適格基準の項目群のデータ例を示す図である。
【0090】
各項目群802には、識別子801が付与されている。このデータは、
図1の適格基準の項目群109に相当する。
【0091】
図9は、本発明の実施例に係る項目分類装置が保持する適格基準の項目のデータ例の説明図である。
【0092】
項目902に対して、項目の識別子901が格納されている。このデータは、
図1の適格基準の項目110に相当する。
【0093】
図10は、本発明の実施例に係る項目分類装置が保持するタグ付き項目のデータ例の説明図である。
【0094】
項目に対して項目の識別子1001と項目の語句に付与されたタグの識別子1002を格納している。このデータは、
図1のタグ付き項目111に相当する。
【0095】
図11は、本発明の実施例に係る項目分類装置が保持するタグと識別子のデータ例の説明図である。
【0096】
タグ1102に対し、タグの識別子1101が付与されて格納されている。このデータは、
図1のタグと識別子112に相当する。
【0097】
図12は、本発明の実施例に係る項目分類装置が保持するタグ間の階層関係のデータ例の説明図である。
【0098】
タグの識別子1202と、その上位概念の識別子1201が格納されている。このデータは、
図1のタグの識別子間の階層関係データ113に相当する。
【0099】
図13は、本発明の実施例に係る項目分類装置が保持する項目のベクトル表現のデータ例の説明図である。
【0100】
各項目に対する識別子1301、タグを列名としたベクトル列1302とその上位概念を列名としたベクトル列1303を合わせて格納している。このデータは、
図1の項目のベクトル114に相当する。
【0101】
図14は本発明の実施例に係る項目分類装置が保持する分類カテゴリ付き項目のデータ構造を示す図である。
【0102】
各項目に対する識別子1501と、項目が該当する患者の特性の分類カテゴリを1502とする。このデータは、
図1の分類カテゴリ付き項目115に相当する。
【0103】
図15は、本発明の実施例に係る項目分類装置が保持する分類結果のデータ構造を示す図である。
【0104】
各項目に対する識別子1501と、項目が分類モデル116によって分類された分類カテゴリを1502とする。このデータは、
図1の分類結果117に相当する。
【0105】
図16は、本発明の実施例に係る項目分類装置によるタグ・上位概念選択画面の除外特徴量選択前の表示例を示す説明図である。
【0106】
タグ・上位概念選択画面1600は、項目のベクトル114を入力するボタン1601とタグの階層構造を読み込むボタン1602と、タグとその上位概念の表示・選択画面1603と、あるタグからその上位概念を読み込むボタン1604と、タグや上位概念の選択用チェックボックス1605と、選択したタグを基にベクトルを表示するボタン1606、除外タグ・上位概念を選択されたベクトル1607と、タグごとに特徴を確定するボタン1608と、全ての特徴のタグを確定するボタン1609を有する。
【0107】
ユーザは、まず、項目のベクトル114を入力するボタン1601を押すことで、項目のベクトル表現の列となっているタグを読み込み、タグとその上位概念の表示・選択画面1603に表示する。
【0108】
次に、タグの階層構造を読み込むボタン1602を押すことでタグと識別子112とタグ間の階層関係113を読み込む。その後、あるタグからその上位概念を読み込むボタン1604を押すことでタグとその上位概念の表示・選択画面1603にタグの上位概念を全て表示する。
【0109】
ユーザは表示されたタグやその上位概念の中から、除外したいタグやその上位概念を、タグや上位概念の選択用チェックボックス1605を用いて外し、選択したタグを基にベクトルを表示するボタン1606を押すことで、除外タグ・上位概念を選択されたベクトル表現1607として確認する。
【0110】
その後、タグごとに特徴を確定するボタン1608を押すことで、次のタグが読み込まれる。全てのタグが終了した後、全ての特徴のタグを確定するボタン1609を押すことで、ユーザの選択に応じたベクトルを、ユーザ選択の項目のベクトル114へ格納する。
【0111】
図17は、本発明の実施例に係る項目分類装置による項目絞り込みの条件入力画面の表示例を示す説明図である。
【0112】
絞り込み条件の入力画面1700は、絞り込みに用いるチェックボックス形式の分類項目リスト1701と、絞り込み実行ボタン1702、絞り込み対象となる項目例1703を有する。
【0113】
ユーザは、絞り込みに用いるチェックボックス形式の分類項目リスト1701より、目的の分類カテゴリを選択し、絞り込み実行ボタン1702を押すことで、項目の絞り込みを行う。
【0114】
図18は、本発明の実施例に係る項目分類装置による項目絞り込みの結果出力画面の表示例を示す説明図である。
【0115】
検索結果の画面1800は、項目の絞り込み結果1801を有する。
【0116】
上記実施例によれば、上位の概念タグを用いることにより、稀なタグのみを持つ適格基準文に対し分類精度を改善することができる。
【0117】
上記実施例では、治験の適格基準文を分類する項目分類方法について説明したが、本発明はこれに限定されず、他の自然言語処理に関する項目分類方法にも適用可能である。