IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ AICRO株式会社の特許一覧

<>
  • 特許-情報処理システム 図1
  • 特許-情報処理システム 図2
  • 特許-情報処理システム 図3
  • 特許-情報処理システム 図4
  • 特許-情報処理システム 図5
  • 特許-情報処理システム 図6
  • 特許-情報処理システム 図7
  • 特許-情報処理システム 図8
  • 特許-情報処理システム 図9
  • 特許-情報処理システム 図10
  • 特許-情報処理システム 図11
  • 特許-情報処理システム 図12
  • 特許-情報処理システム 図13
  • 特許-情報処理システム 図14
  • 特許-情報処理システム 図15
  • 特許-情報処理システム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-10-10
(45)【発行日】2024-10-21
(54)【発明の名称】情報処理システム
(51)【国際特許分類】
   G06F 40/279 20200101AFI20241011BHJP
   G06F 40/216 20200101ALI20241011BHJP
   G16H 10/60 20180101ALI20241011BHJP
【FI】
G06F40/279
G06F40/216
G16H10/60
【請求項の数】 15
(21)【出願番号】P 2023107033
(22)【出願日】2023-06-29
【審査請求日】2024-03-04
【早期審査対象出願】
(73)【特許権者】
【識別番号】522300639
【氏名又は名称】AICRO株式会社
(74)【代理人】
【識別番号】100123858
【弁理士】
【氏名又は名称】磯田 志郎
(72)【発明者】
【氏名】山口 太一
(72)【発明者】
【氏名】西畑 俊樹
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2016-151827(JP,A)
【文献】特開2015-095248(JP,A)
【文献】特開2020-135523(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06Q 10/00-99/00
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
同一又は共通の事象に関する記載が存在しうる時系列に蓄積された複数の非構造テキスト情報を構造化するための情報処理システムであって、
構造化手段と、表示処理手段とを含み、
前記構造化手段は、非構造化テキスト情報を入力すると、構造化の対象となる単語を抽出し、当該単語の情報の種類を分類した情報種別及び文の構成における単語の役割又は機能によって分類した複数のラベルの何れかを付与し、意味的に関連する複数の単語を一つのデータ単位として関連付けたものを出力する構造化モデルを含み、
前記非構造テキスト情報に前記構造化モデルを適用し、情報種別及びラベルが付与された構造化された単語を抽出し、同一の非構造テキスト情報内に含まれる意味的に関連する複数の構造化された単語を一つのデータ単位として、複数のラベルのそれぞれに対応した複数のセル格納し、当該非構造化テキスト情報の時間情報を関連付けて記憶し、
前記表示処理手段は、同一の非構造化テキスト情報から抽出された前記意味的に関連する複数の構造化された単語を前記データ単位ごとに前記複数のセルを一つ又は複数の行に表示するものであって、
前記複数の非構造化テキスト情報のデータ単位を時系列に沿って異なる行に表示し、
さらに、複数のデータ単位の間で、同一の構造化された単語又は情報種別若しくはラベルが共通の構造化された単語が含まれている場合、当該単語を含まないデータ単位が別の列になり、前記同一又は共通の構造化された単語が揃うように前記複数のデータ単位を同じ列に並べて又は同じ列に区別して表示する、
情報処理システム。
【請求項2】
前記複数のラベルは、主題のラベルを含むことを特徴とする、請求項1に記載の情報処理システム。
【請求項3】
同一又は共通の事象に関する記載が存在しうる時系列に蓄積された複数の非構造化テキスト情報を構造化するための情報処理システムであって、
構造化手段と、表示処理手段とを含み、
前記構造化手段は、非構造化テキスト情報を入力すると、構造化の対象となる単語を抽出し、当該単語の情報の種類を分類した情報種別及び主題のラベルを含む複数のラベルの何れかを付与し、意味的に関連する複数の単語を一つのデータ単位として関連付けたものを出力する構造化モデルを含み、
前記非構造テキスト情報に前記構造化モデルを適用し、情報種別及びラベルが付与された構造化された単語を抽出し、同一の非構造テキスト情報内に含まれる構造化された単語の中で、前記主題のラベル以外のラベルを付与された単語(主題以外の単語)を、前記主題のラベルを付与された単語(主題の単語)の何れか一つに関連付けて格納し、前記主題の単語と、それに関連付けられた前記主題以外の単語とを一つのデータ単位として、当該非構造化テキスト情報の時間情報を関連付けて記憶し、
前記表示処理手段は、同一の非構造化テキスト情報から抽出された前記構造化された単語を前記データ単位ごとに一つ又は複数の行に表示するものであって
前記複数の非構造化テキスト情報のデータ単位を時系列に沿って異なる行に表示し、
さらに、前記複数の非構造化テキスト情報の複数のデータ単位の間で、同一の構造化された単語又は情報種別若しくはラベルが共通の構造化された単語が含まれている場合、当該単語を含まないデータ単位が別の列になり、前記同一又は共通の構造化された単語が揃うように前記複数のデータ単位を同じ列に並べて又は同じ列に区別して表示する、
情報処理システム。
【請求項4】
記構造化手段は、前記主題の単語と、それに関連付けられた前記主題以外の単語とを前記複数のラベルのそれぞれに対応した複数のセル格納る、請求項3に記載の情報処理システム。
【請求項5】
前記表示処理手段は、前記主題の単語に関し、出現回数が多いものを含むデータ単位から順に並び替えて表示する、又は出現回数が多いものを含むデータ単位を別に表示する、請求項に記載の情報処理システム。
【請求項6】
前記表示処理手段は、前記主題の単語に関し、出現回数が少ないものを含むデータ単位を表示対象から削除する、又は出現回数が少ないものを含むデータ単位を別に表示する、請求項3に記載の情報処理システム。
【請求項7】
前記非構造化テキスト情報は、医療関係の文書情報の一部であり、
前記複数のラベルは、
(1)主題のラベルと、
(2)値のラベル、評価のラベル、回数のラベル及び/又は部位のラベルと、並びに
(3)時制のラベル、及び/又は日時のラベルと、
を含む、請求項1乃至6の何れか1項に記載の情報処理システム。
【請求項8】
前記表示処理手段は、出現回数が多い単語を含むデータ単位から順に並び替えて表示する、又は出現回数が多い単語を含むデータ単位を区別して表示する、請求項1乃至6の何れか1項に記載の情報処理システム。
【請求項9】
前記表示処理手段は、単語、情報種別、ラベル及びデータ単位の一つ又は複数に対して設定された表示設定に基づいて、前記データ単位の順番を並び替えて表示する、前記データ単位を区別して表示する、又は前記データ単位を表示対象から削除する、請求項1乃至6の何れか1項に記載の情報処理システム。
【請求項10】
前記情報種別の少なくとも一部に対し、複数の情報種別を包含する大分類が設定されており、
前記表示処理手段は、前記大分類に分けてデータ単位を表示する、請求項1乃至6の何れか1項に記載の情報処理システム。
【請求項11】
前記表示処理手段は、前記複数のセルのうち、全てのにおいて単語が格納されていないラベルのセルを削除して表示する、請求項1、2、及び4の何れか1項に記載の情報処理システム。
【請求項12】
前記表示処理手段は、同一の非構造化テキスト情報において、同一の構造化された単語又は情報種別若しくはラベルが共通の構造化された単語が含まれる複数のデータ単位が存在する場合は、それらを一つのデータ単位に統合して表示する、請求項1乃至6の何れか1項に記載の情報処理システム。
【請求項13】
非構造化テキスト情報を構造化するための情報処理システムであって、
テキスト分割手段と、構造化手段と、表示処理手段とを含み、
前記構造化手段は、非構造化テキスト情報を入力すると、構造化の対象となる単語を抽出し、当該単語の情報の種類を分類した情報種別を付与し、単語を一つ又は複数のデータ単位として関連付けたものを出力する構造化モデルを含み、
前記非構造テキスト情報に前記構造化モデルを適用し、情報種別が付与された構造化された単語を抽出し、
記非構造テキスト情報内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として記憶するものであって、
さらに、前記非構造テキスト情報に時制を意味する単語が含まれている場合、当該単語を抽出し、同じ非構造テキスト情報内に含まれる他の構造化された単語と関連付けて記憶し、
前記表示処理手段は、前記構造化された単語を前記データ単位ごとに表示するものであって、
さらに、前記時制を意味する単語が未来又は過去の場合、当該時制を意味する単語を含むデータ単位を他のデータ単位とは区別して表示する、又は表示対象から削除する、
情報処理システム。
【請求項14】
作成日が異なる複数の非構造テキスト情報を含む医療関係の文書情報を構造化するための情報処理システムであって、
構造化手段と、表示処理手段とを含み、
前記構造化手段は、非構造化テキスト情報を入力すると、構造化の対象となる単語を抽出し、当該単語の情報の種類を分類した情報種別を付与し、単語を一つ又は複数のデータ単位として関連付けたものを出力する構造化モデルを含み、
前記非構造テキスト情報に前記構造化モデルを適用し、情報種別が付与された構造化された単語を抽出し、
同一の非構造テキスト情報内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として、当該非構造化テキスト情報の作成日を関連付けて記憶し、
前記表示処理手段は、同一の非構造化テキスト情報から抽出された前記構造化された単語を前記データ単位ごとに一つ又は複数の行に表示するものであって、
前記複数の非構造化テキスト情報のデータ単位を時系列に沿って異なる行に表示し、
さらに、複数のデータ単位の間で、同一の構造化された単語又は情報種別が共通の構造化された単語が含まれている場合、当該単語を含まないデータ単位が別の列になり、前記同一又は共通の構造化された単語が揃うように前記複数のデータ単位を同じ列に並べて表示する、又は前記同一又は共通の構造化された単語が揃うように同じ列に並べた前記複数のデータ単位を他のデータ単位とは区別して表示する、
情報処理システム。
【請求項15】
情報処理システムはテキスト分割手段を含み、
前記テキスト分割手段は、記号や項目名で区分するロジックによる分割及び/又は非構造化テキスト情報を入力するとテキスト断片を抽出できる自然言語処理モデルを使用して前記非構造化テキスト情報を意味的に関連する複数の単語を含みうるテキスト断片に分割し、
前記構造化手段は、前記テキスト断片に構造化モデルを適用して構造化された単語を抽出する、請求項1乃至6、13及び14の何れか1項に記載の情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自由入力されるテキスト情報のような非構造化テキスト情報を構造化するための情報処理システムに関し、特に同一又は共通の事象に関するテキスト情報であって、時間の経過を伴って複数回自由入力されるテキスト情報を構造化する情報処理システムに関する。
【背景技術】
【0002】
近年、様々な医療機関において作成される電子カルテ情報をビッグデータとして蓄積し、統計情報データベースとして、医療分野の研究開発に利用したり、他の医療機関における処置や検査内容を参考情報として利用したりする試みがなされている。しかし、現状、収集・活用できる医療情報は元々構造化されて電子カルテ等に入力された項目(病名、薬剤情報、検査情報等)に限られており、テキスト情報として自由入力される症状の経過や状態を表した非構造化情報は活用できる状況となっていない。病名、薬剤情報、検査情報等は、保険請求等にも使用されるものであり、画一的なものであるから、入力内容が予め固定されており、主にプルダウンメニューなどによる選択や、マスタからの選択などによって行われ、情報が構造化されており、多数の電子カルテから収集した情報が共通しているため利活用が容易である。一方、症状の経過や状態は、患者の主訴及び医師の所見として自由なテキスト情報として入力されており、入力者によって表現が違うこと、独自の略称が使用されていること、入力内容が定まっていないこと等、電子カルテの診療録の入力において記載のルールがなく、利活用できる形式で整理されていない。
【0003】
かかる状況を踏まえ、非構造化医療情報を活用するための取り組みがなされてはいる。例えば、特許文献1には、電子カルテの自由入力欄に自由入力されたテキスト情報に対し、あらかじめ定めた情報種別を検出することで切り出したテキスト情報について、その情報種別に対応する対象情報を、係り受け解析、文脈解析、若しくはニューラルネットワークを用いた学習モデルによる機械学習のいずれか一以上の自然言語解析処理、又は照合辞書を用いて抽出し、抽出した対象情報を情報種別ごとにテーブル形式で格納して構造化情報とすることが開示されている。
【0004】
医療情報の利活用の一つとして、特に医薬品や医療機器等の臨床開発においてレジストリデータが注目されている。レジストリとは、特定の疾患や健康状態等について、治療内容、治療経過などの医療情報や健康情報を収集するデータベースであり、医薬品研究開発に係るコストの低減や期間の短縮を目的として、レジストリデータを二次利用した研究開発のニーズが高まっている。レジストリデータとしては、登録単位が患者である患者レジストリ(patient registry)が知られており、患者が何の疾患でどのような状態かなど、特定の病気、疾患群、治療等の医療情報が収集される。患者レジストリは疾患レジストリ(disease registry)と呼ばれることもある。また、医療情報の利活用の一つとして、医療機関の業務に、医療関係の文書(電子カルテ、診断書、紹介状、介護の計画書、指示書など)作成がある。それらの文書は、医師や医療機関従事者が電子カルテ等に記載される情報をもとに、作成をしている。それらの業務は現状手作業で作成をしており時間がかかっており、医療従事者の業務時間を圧迫している要因にもなっている。
【0005】
また、ビッグデータは、医療分野以外にも様々な分野において利用され始めている。ビッグデータは、様々な事業に役立つ知見を導出するためのデータであり、出所が多様なデータ群である。ビッグデータは、例えば、各地域における天候、気温、湿度のデータ、オンラインショッピングサイトやブログサイトにおいて蓄積される購入履歴やエントリー履歴、ウェブ上の配信サイトで提供される音楽や動画等のマルチメディアデータ、ソーシャルメディアにおいて参加者が書き込むプロフィールやコメント等のソーシャルメディアデータ、GPS、ICカードやRFIDにおいて検知される、位置、乗車履歴、温度等のセンサーデータ、CRM(Customer Relationship Management)システムにおいて管理されるダイレクトメールのデータや会員カードデータ等カスタマーデータなどがある。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2020-086541号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1では、ある患者のある診察時に入力された電子カルテの中に自由入力されたテキスト情報から、重要と判断された特定の対象情報(例えば、情報種別として「現病歴」、「既往歴」、「内服薬」、「身体所見」、「来院後経過」などがあり、それらに対応する対象情報として、情報種別「現病歴」には「症状」、情報種別「既往歴」には既往歴としての「病名」、情報種別「内服薬」には「薬剤名」、情報種別「来院後経過」には診断名としての「病名」など)を情報種別ごとに抽出して構造化しているだけである。このため、自由入力されたテキスト情報の中に特定の対象情報が含まれているか否かを単に検索するだけであれば可能であるが、自由入力されたテキスト情報の内容や意味、対象情報同士の関係等の情報の一部又は全部が失われてしまう虞があり、治療の内容や経過が把握できなくなる場合があった。例えば、ある治療法Aに関する記載であっても、治療法Aを「実施した」のか、「過去に実施した」のか、「将来実施することを決定した」のか、「実施することを検討した」のか、「ある条件を満たせば実施する」のかと様々な文脈で使用されるため、構造化することにより「治療法A」という単語が電子カルテに記載されていることが認識できたとしても、それだけでは、医療情報として不十分・不確実なものであり、利用が困難であった。また、特許文献1には、対象情報として、症状や病名に対する陽性陰性表現や付加情報を備考欄に症状や病名に対応付けて格納することも記載されているが、備考欄に格納される情報には情報種別が付与されておらず、構造化されていなかった。
【0008】
さらに、特許文献1には、ある診察時のテキスト情報を構造化することしか開示されていない。実際の電子カルテは、ある患者について、これまでの診察の内容や治療の経緯が時系列に蓄積されているところ、構造化されても時系列に変化する治療内容、治療経過などを把握できることが望ましい。例えば、癌などに代表される長期間の治療や経過観察が必要な疾患では、数年に渡って治療が継続することが珍しくないため、そのカルテ診療録は膨大で複雑なものとなる。このため、膨大な情報の中から、必要とする情報を選択して整理するのは非常に手間のかかる作業であった。また、上記のとおり、過去に実施したことが記載されていたり、将来実施する予定のものが記載されていたりするため、単に医療上重要そうなキーワードだけを抽出しても、必ずしも実際の治療の経緯を把握することができず、各キーワードの時間軸を正しく理解して正しく構造化することが困難であった。最終的に求められるレジストリやフォーマットに必要な情報を抽出するにあたっても、構造化した情報を共通又は関連する事象ごとに時系列に整理することが望まれる。しかし、特許文献1には、時系列に変化する内容に関する特別な配慮はされておらず、時系列推移を伴う非構造化情報を、時系列の整理を踏まえて構造化する方法は開示されていなかった。
【0009】
また、電子カルテに限らず、他のビッグデータにおいても、自由入力されたテキスト情報の中に同一又は共通する事象について、時間の経過を伴って定期的又は不定期に複数回にわたって入力されることがある。そのようなテキスト情報について、単に特定の単語を抽出して、規格化又は標準化して構造化するだけではなく、前後の文脈を含めた構造化及び/又は時間の経過に伴う内容の変化等の把握が容易にできるような構造化が求められている。
【0010】
本発明は、前述した問題に鑑みてなされてものであって、前後の文脈を含めた構造化及び/又は時間の経過に伴う内容の変化等の把握が容易にできるように非構造化テキスト情報を構造化するための情報処理システムを提供することを目的の一つとする。また、本発明は、電子カルテを含む医療関係の文書情報(電子カルテに限定されず診断書、紹介状、介護の計画書、指示書等の文書ならびに電子カルテ以外に保存された非構造テキストも含む)に入力された非構造化テキスト情報を構造化し、レジストリデータとして利用しやすくするため、臨床研究や治験で必要なデータフォーマットに再抽出すること、構造化した情報をもとに医療関係の文書を作成するなど、カルテ情報を利活用する際に重要な情報を別システムやニューラルネットワークを用いたテキスト生成モデルなどで利活用が容易な情報処理システムを提供することを目的の一つとする。
【課題を解決するための手段】
【0011】
上記課題を解決するため、本発明の情報処理システムの一つは、
同一又は共通の事象に関する記載が存在しうる複数の非構造テキスト情報を構造化するための情報処理システムであって、
構造化手段と、表示処理手段とを含み、
前記構造化手段は、
前記非構造テキスト情報に構造化モデルを適用して構造化された単語を抽出し、
前記構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、さらに文の構成における単語の役割又は機能によって分類した複数のラベルの何れかを付与し、
前記非構造テキスト情報内に含まれる構造化された単語を複数のラベルのそれぞれに対応した複数のセルを含むテーブルに格納し、前記テーブルを一つのデータ単位として記憶し、
前記表示処理手段は、前記構造化された単語を前記データ単位ごとに表示するものであって、
さらに、複数のデータ単位の間で、同一又は共通の構造化された単語が含まれている場合、前記同一又は共通の構造化された単語が揃うように前記複数のデータ単位を並べて表示する。
【0012】
さらに、上記情報処理システムにおいて、前記複数のラベルは、主題のラベルを含むことが好ましい。
【0013】
また、本発明の情報処理システムの一つは、
非構造化テキスト情報を構造化するための情報処理システムであって、
構造化手段と、表示処理手段とを含み、
前記構造化手段は、
前記非構造テキスト情報に構造化モデルを適用して構造化された単語を抽出し、
前記構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、さらに主題のラベルを含む複数のラベルの何れかを付与し、
前記非構造テキスト情報内に含まれる構造化された単語の中で、前記主題のラベル以外のラベルを付与された単語(主題以外の単語)を、前記主題のラベルを付与された単語(主題の単語)の何れか一つに関連付けて格納し、前記主題の単語と、それに関連付けられた前記主題以外の単語とを一つのデータ単位として記憶し、
前記表示処理手段は、前記構造化された単語を前記データ単位ごとに表示する。
【0014】
さらに、上記情報処理システムにおいて、前記非構造テキスト情報は、同一又は共通の事象に関する記載が存在しうる複数の非構造テキスト情報を有し、前記構造化手段は、前記主題の単語と、それに関連付けられた前記主題以外の単語とを前記複数のラベルのそれぞれに対応した複数のセルを含むテーブルに格納し、前記表示処理手段は、複数のデータ単位の間で、同一又は共通の構造化された単語が含まれている場合、前記同一又は共通の構造化された単語が揃うように前記複数のデータ単位を並べて表示することが好ましい。
【0015】
さらに、上記情報処理システムにおいて、前記表示処理手段は、前記主題の単語に関し、出現回数が多いものを含むデータ単位から順に並び替えて表示する、又は出現回数が多いものを含むデータ単位を別に表示するように構成されてもよい。
【0016】
さらに、上記情報処理システムにおいて、前記表示処理手段は、前記主題の単語に関し、出現回数が少ないものを含むデータ単位を表示対象から削除する、又は出現回数が少ないものを含むデータ単位を別に表示するように構成されてもよい。
【0017】
さらに、上記情報処理システムにおいて、前記非構造化テキスト情報は、医療関係の文書情報の一部であり、前記複数のラベルは、
(1)主題のラベルと、
(2)値のラベル、評価のラベル、回数のラベル及び/又は部位のラベルと、並びに
(3)時制のラベル、及び/又は日時のラベルと、
を含むように構成されてもよい。
【0018】
さらに、上記情報処理システムにおいて、前記表示処理手段は、出現回数が多い単語を含むデータ単位から順に並び替えて表示する、又は出現回数が多い単語を含むデータ単位を区別して表示するように構成されてもよい。
【0019】
さらに、上記情報処理システムにおいて、前記表示処理手段は、単語、情報種別、ラベル及びデータ単位の一つ又は複数に対して設定された表示設定に基づいて、前記データ単位の順番を並び替えて表示する、前記データ単位を区別して表示する、又は前記データ単位を表示対象から削除するように構成されてもよい。
【0020】
さらに、上記情報処理システムにおいて、前記情報種別の少なくとも一部に対し、複数の情報種別を包含する大分類が設定されており、前記表示処理手段は、前記大分類に分けてデータ単位を表示するように構成されてもよい。
【0021】
さらに、上記情報処理システムにおいて、前記表示処理手段は、並べて表示した前記テーブルのうち、全てのテーブルにおいて単語が格納されていないラベルのセルを削除して表示するように構成されてもよい。
【0022】
さらに、上記情報処理システムにおいて、前記表示処理手段は、同一の非構造化テキスト情報において、同一又は共通の構造化された単語が含まれる複数のデータ単位が存在する場合は、それらを一つのデータ単位に統合して表示するように構成されてもよい。
【0023】
また、本発明の情報処理システムの一つは、
非構造化テキスト情報を構造化するための情報処理システムであって、
テキスト分割手段と、構造化手段と、表示処理手段とを含み、
前記構造化手段は、
前記非構造テキスト情報に構造化モデルを適用して構造化された単語を抽出し、
前記構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、
前記非構造テキスト情報内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として記憶するものであって、
さらに、前記非構造テキスト情報に時制を意味する単語が含まれている場合、当該単語を抽出し、同じ非構造テキスト情報内に含まれる他の構造化された単語と関連付けて記憶し、
前記表示処理手段は、前記構造化された単語を前記データ単位ごとに表示するものであって、
さらに、前記時制を意味する単語が未来又は過去の場合、当該時制を意味する単語を含むデータ単位を他のデータ単位とは区別して表示する、又は表示対象から削除する。
【0024】
また、本発明の情報処理システムの一つは、
診察日が異なる複数の非構造テキスト情報を含む医療関係の文書情報を構造化するための情報処理システムであって、
構造化手段と、表示処理手段とを含み、
前記構造化手段は、
前記非構造テキスト情報に構造化モデルを適用して構造化された単語を抽出し、
前記構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、
前記非構造テキスト情報内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として記憶し、
前記表示処理手段は、前記構造化された単語を前記データ単位ごとに表示するものであって、
さらに、複数のデータ単位の間で、同一又は共通の構造化された単語が含まれている場合、前記同一又は共通の構造化された単語が揃うように前記複数のデータ単位を並べて表示する、又は前記同一又は共通の構造化された単語が揃うように並べた前記複数のデータ単位を他のデータ単位とは区別して表示する。
【0025】
さらに、上記情報処理システムにおいて、情報処理システムはテキスト分割手段を含み、前記テキスト分割手段は、前記非構造化テキスト情報を意味的に関連する複数の単語を含みうるテキスト断片に分割し、前記構造化手段は、前記テキスト断片に構造化モデルを適用して構造化された単語を抽出するように構成されてもよい。
【発明の効果】
【0026】
本願発明の情報処理システムにおいては、個々の単語を独立して抽出するのではなく、意味的に関連する複数の単語を含みうる非構造化テキスト情報又は分割されたテキスト断片に構造化モデルを適用して構造化された単語を抽出し、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語をひとまとまりのデータ単位として取り扱うため、意味的に関連する複数の単語を関連付けて構造化することが可能である。さらに、同一又は共通の事象に関する記載が存在しうる複数の非構造テキスト情報を構造化する際に、異なる非構造テキスト情報の間で、同一又は共通の構造化された単語が含まれている場合、同一又は共通の構造化された単語が揃うようにデータ単位を並べて表示することにより、データ単位内に含まれる非構造化テキスト情報又はテキスト断片内の関連する単語を併せて認識することができ、他の関連する単語の内容や変化によって、同一又は共通の事象の変化や経緯の把握が容易となる。また、構造化された単語に対し、情報種別とラベルという二種類の異なる分類を付与することにより、単語の情報の種類だけではなく、文の構成における単語の役割又は機能も把握することができる。さらに、主題のラベルを設定すれば、主題のラベルによって、非構造化テキスト情報又はテキスト断片の内容の大意を把握することができ、主題の単語と、それに関連付けられた主題以外の単語とをひとまとまりのデータ単位とすることで、構造化されたテキスト情報のデータ管理、把握、再構成が容易となる。加えて、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を複数のラベルのそれぞれに対応した複数のセルを含むテーブルに格納し、異なる非構造テキスト情報の間で、同一又は共通の構造化された単語が含まれている場合、テーブルをひとまとまりのデータ単位として、同一又は共通の構造化された単語が揃うように並べて表示することにより、同一又は共通の事象に関する単語だけではなく、非構造化テキスト情報又はテキスト断片に含まれるその前後の単語も近接させて表示することができ、時系列な事象の変化を把握しやすくなる。また、現在、未来、又は過去を意味する時制に関する単語を抽出し、同じ非構造化テキスト情報又はテキスト断片内に含まれる他の構造化された単語と関連付けて記憶することにより、その事象が、過去に実施されたものであるか、非構造化テキストを入力した際に実施されたものであるのか、まだ実施されていないものであるのかを把握することができる。特に電子カルテ情報などでは、治療法及び/又は薬剤の効果を正確に把握できることが重要であり、そのためには、情報を入力した際に現実に実施された事実を積み重ねる必要があり、そこに過去の情報や将来の情報が混在すると、正しい経過を把握できず、情報全体の信頼性が失われてしまう。その他の効果については実施の形態の中で説明する。
【図面の簡単な説明】
【0027】
図1】本発明の個人情報匿名化システムの全体構成の一例を示す概略図
図2】電子カルテ情報における自由入力可能な項目の入力例を示す図
図3】非構造化テキスト情報をテキスト断片に分割した一例を示す図
図4】テキスト断片を構造化した一例を示す図
図5】複数のラベルのそれぞれに対応した複数のセルを含むテーブルの一例を示す図
図6】テキスト断片を構造化し、図5のテーブルに格納した一例を示す図
図7】(A)~(C)は、それぞれ出現回数が多い単語を含むデータ単位を並べた別表を示す図
図8】未来又は過去の時制を意味する単語を含むデータ単位を削除した図
図9】主題の単語の情報種別ごとにデータ単位を並び替えた図
図10】主題の単語の情報種別ごとにデータ単位を並び替えた図
図11】主題の単語の情報種別ごとにデータ単位を並び替えた図
図12】出現回数が多い単語を含むデータ単位を先頭に並び替え、全てのテーブルにおいて単語が格納されていないセルを削除した図
図13】その情報種別の全てのテーブルにおいて単語が格納されていないラベルのセルを削除した図
図14】情報処理システムの全体の処理の流れを示すフローチャート
図15】(A)及び(B)は、構造化処理の一例を示すフローチャート
図16】構造化処理から表示処理までの一例を示すフローチャート
【発明を実施するための形態】
【0028】
[情報処理システムの概要]
図1は、本発明の情報処理システム1の全体構成の一例を示す概略図である。情報処理システム1は、非構造化テキスト情報を構造化するためのものであり、少なくとも構造化手段3と、表示処理手段4とを含んでいる。さらに、情報処理システム1は、必要に応じて、非構造化テキスト情報を意味的に関連する複数の単語を含みうるテキスト断片に分割するテキスト分割手段2と、文字を含む画像データ、音声データ、動画データ等から文字をテキスト化するテキスト化手段5を有していてもよい。また、ユーザが情報の確認、修正、変更を可能にするため、入手手段と出力手段(表示手段)とを含んでいることが好ましく、構造化された情報を検査できるようにする。本発明の情報処理システム1は、取得した情報が非テキスト情報であった場合、テキスト化手段5においてテキスト化し、非構造化テキスト情報を生成し、非構造化テキスト情報が構造化手段3や表示処理手段4の能力を超える長さの場合や精度を高める場合、テキスト分割手段2において、非構造化テキスト情報を意味的に関連する複数の単語を含みうるテキスト断片に分割してもよく、その後、構造化手段3において、非構造化テキスト情報又はテキスト断片に構造化モデルを適用して構造化された単語を抽出し、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として記憶し、表示処理手段4は、構造化された単語をデータ単位ごとに表示する。第1の実施形態としては、同一又は共通の事象に関する記載が存在しうる複数の非構造テキスト情報を構造化するため、構造化手段3は、非構造化テキスト情報又はテキスト断片に構造化モデルを適用して構造化された単語を抽出し、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、さらに文の構成における単語の役割又は機能によって分類した複数のラベルの何れかを付与し、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を複数のラベルのそれぞれに対応した複数のセルを含むテーブルに格納し、テーブルを一つのデータ単位とし、表示処理手段4は、構造化された単語をデータ単位ごとに表示するものであって、さらに、複数のデータ単位の間で、同一又は共通の構造化された単語が含まれている場合、同一又は共通の構造化された単語が揃うように複数のデータ単位を並べて表示する。第2の実施形態としては、非構造化テキスト情報を構造化するため、構造化手段3は、非構造化テキスト情報又はテキスト断片に構造化モデルを適用して構造化された単語を抽出し、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、さらに主題のラベルを含む複数のラベルの何れかを付与し、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語の中で、主題のラベル以外のラベルを付与された単語(主題以外の単語)を、主題のラベルを付与された単語(主題の単語)の何れか一つに関連付けて格納し、主題の単語と、それに関連付けられた主題以外の単語とを一つのデータ単位とし、表示処理手段4は、構造化された単語をデータ単位ごとに表示する。第3の実施形態としては、非構造化テキスト情報を構造化するため、構造化手段3は、非構造化テキスト情報又はテキスト断片に構造化モデルを適用して構造化された単語を抽出し、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として記憶するものであって、さらに、非構造化テキスト情報又はテキスト断片に時制を意味する単語が含まれている場合、当該単語を抽出し、同じ非構造化テキスト情報又はテキスト断片内に含まれる他の構造化された単語と関連付けて記憶し、表示処理手段4は、構造化された単語をデータ単位ごとに表示するものであって、さらに、時制を意味する単語が未来又は過去の場合、当該時制を意味する単語を含むデータ単位を他のデータ単位とは区別して表示する、又は表示対象から削除する。第4の実施形態としては、診察日が異なる複数の非構造テキスト情報を含む医療関係の文書情報(電子カルテに限定されず診断書等の文書ならびに電子カルテ以外に保存された非構造テキストも含む)を構造化するため、構造化手段3は、非構造化テキスト情報又はテキスト断片に構造化モデルを適用して構造化された単語を抽出し、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として記憶し、表示処理手段4は、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を一つ又は複数のデータ単位として表示し、表示処理手段3は、複数のデータ単位の間で、同一又は共通の構造化された単語が含まれている場合、同一又は共通の構造化された単語が揃うように複数のデータ単位を並べて表示する。なお、第1乃至第4の実施形態は、処理内容の違いから便宜上、第1、第2、第3、第4と称しているが、一つのシステムで複数の実施態様を実現することもできるし、それぞれ独立して実現することもできる。また、異なる実施態様の処理を適宜組み合わせることも可能である。
【0029】
このように、本願発明の情報処理システム1は、個々の単語を独立して抽出するのではなく、意味的に関連する複数の単語を含みうる非構造化テキスト情報又はテキスト断片に構造化モデルを適用して構造化された単語を抽出し、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として取り扱うため、意味的に関連する複数の単語を関連付けて構造化することが可能である。さらに、構造化された単語に対し、二種類の異なる分類、すなわち情報種別と、文の構成における単語の役割又は機能によって分類した複数のラベルの何れかを付与することにより、単語の情報の種類だけではなく、文の構成における単語の役割又は機能も把握することができる。また、複数の非構造テキスト情報の中には、同一又は共通の事象に関する記載が存在しうるが、単に構造化しただけでは、他の非構造テキストとの前後関係等が失われてしまうが、複数のデータ単位の間で、同一又は共通の構造化された単語が含まれている場合、同一又は共通の構造化された単語が揃うように複数のデータ単位を並べて表示することにより、同一又は共通の事象に関する単語だけではなく、非構造化テキスト情報又はテキスト断片に含まれるその前後の単語も近接させて表示することができ、事象の変化を把握しやすくなる。特に、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を複数のラベルのそれぞれに対応した複数のセルを含むテーブルに格納することにより、データ単位内におけるラベルの並びに規則性を持たせることができ、データ単位の内容を把握しやすくなる。また、複数のラベルの一つとして、主題のラベルを設定すれば、主題のラベルによって、非構造化テキスト情報又はテキスト断片の内容の大意を把握することができ、主題の単語と、それに関連付けられた主題以外の単語とをひとまとまりのデータ単位とすることで、構造化されたテキスト情報のデータ管理、把握、再構成が容易となる。また、非構造化テキスト情報又はテキスト断片に時制を意味する単語、例えば、「過去」を意味する過去の日付や「前回」の単語等、また「未来」を意味する未来の日付や「次回」、「予定」の単語等が含まれている場合、その非構造化テキスト情報又はテキスト断片の内容は、過去又は未来の内容であり、非構造化テキスト情報又はテキスト断片入力当時における実際に実施された情報ではないので、他のデータ単位とは区別して表示する、又は表示対象から削除することにより、誤った情報を選択する可能性を減らすことができ、また時系列な事実経過の把握が容易になる。
【0030】
情報処理システム1は、少なくとも、プログラムの演算処理を実行するCPUなどの演算装置と、情報を記憶するRAMやハードディスクなどの記憶装置と、を含むコンピュータによって実現することができる。情報処理システム1は、一つのコンピュータによって実現してもよいし、機能を分散して複数のコンピュータによって実現してもよい。コンピュータには、パーソナルコンピュータ、ワークステーション、サーバ、メインフレーム、スーパーコンピュータ、マイクロコンピュータなど各種の情報処理装置が含まれ、タブレット端末、PDA(Personal Digital Assistant)、多機能携帯電話(スマートフォン、i-phone(登録商標))などの演算装置によって、情報処理システムの一部又は全部の機能を実現してもよい。コンピュータは、クラウド形式であってもよい。さらに、コンピュータは、ディスプレイ(画面)などの表示装置と、キーボードやポインティングデバイス(マウス、テンキー、タッチパネルなど)などの入力装置と、インターネットやLANなどのネットワークを介して情報を送受信する通信装置とを有していてもよい。情報処理システム1の各手段は、その機能を実行するプログラムを演算装置で実行すること、又はその機能を実行するモジュール又は装置を操作することにより実現できる。
【0031】
ここで、非構造化テキスト情報とは、少なくとも構造化されていない文字情報を含む情報であり、本発明の情報処理システム1の対象として構造化される情報である。非構造化テキスト情報は、構造化されていない文字情報だけではなく、構造化されたデータを含んでいてもよい。構造化されていない文字情報としては、自由入力されたテキスト情報、文字を含む画像データからテキスト化手段5によって電子化したテキスト情報、音声データからテキスト化手段5によって電子化したテキスト情報、動画データの画像及び/又は音声からテキスト化手段5によって電子化したテキスト情報を含む。ここで、テキスト化手段5としては、光学的文字認識(OCR:Optical Character Recognition(又はReader))技術や音声認識技術を利用できる。さらに、本発明の情報処理システム1の対象としては、同一又は共通の事象に関する記載が存在しうる複数の非構造テキスト情報であってもよい。非構造化テキスト情報としては、例えば、自由入力可能な項目を有する電子カルテ情報等の医療関係の文書情報が挙げられる。電子カルテ情報は、同一の患者についての診断履歴、治療履歴等が蓄積されており、時系列に変化する同一又は共通の事象に関する記載が存在する。電子カルテ情報以外でも診断書等の文書や別システムに登録している記録、経過観察が必要な医療・介護系の記録があり、また医療以外でも複数開催を前提としたプロジェクトの議事録等や顧客サポートを行うコールセンターの応対管理等では時系列に変化する同一又は共通の事象に関する記録が存在する。
【0032】
また、非構造化テキスト情報の構造化とは、構造化されていない文字情報を構造化データ又は半構造化データに変換することである。具体的には、情報の内容に応じて予め構造化の対象となる情報種別を定義し、構造化されていない文字情報に含まれる単語のうち情報種別の何れかに該当する単語(対象単語)を抽出し、対象単語にその情報種別を関連付ける。構造化された後も非構造化テキスト情報に含まれる対象単語をそのまま使用してもよいが、非構造化テキスト情報の場合、同義であっても、入力者によって対象単語の表記が異なることがあるので、その単語の標準的な表記(標準的な単語)を対象単語に関連付けてもよいし、対象単語を標準的な単語に置き換えてもよい。本明細書において、「構造化された単語」は、非構造化テキスト情報に含まれる対象単語をそのまま使用した場合も、それを置き換えた標準的な単語も含む。標準的な単語は、辞書に記載の正式名称でもよいし、一般的に慣用されている名称でもよいが、少なくともその情報処理システムにおいて共通した表記とすることが好ましい。このように構造化された単語は、予め定義された情報種別に関連付けられているため、検索、集計、比較等のデータ処理に適しており、利用しやすい。
【0033】
図2は、ある患者についての電子カルテ情報における自由入力可能な項目の入力例であり、診察日の異なる複数の非構造化テキスト情報が含まれている。図2においては、カルテID(図2の「ID」)、患者ID、診察日、及び非構造化テキスト情報が関連付けられているが、電子カルテ情報にはこれら以外の情報が含まれていてもよい。カルテIDごとに、患者ID、診察日、及び非構造化テキスト情報が入力されており、図2では、患者IDがA001という同一の患者の3診察分の非構造化テキスト情報を示している。電子カルテ情報の非構造化テキスト情報には、患者の主訴、医者の診断、検査内容や結果、処方や治療計画など、診察の際に得られた情報が入力される。図2においては、非構造化テキスト情報は、SOAP方式を用いて入力されており、S(Subjective)の項目には、患者が訴える症状(主訴)、既往歴、家族や関係者から得られた情報等の主観的情報が、O(Objective)の項目には、検査・診察・観察などから得られる客観的情報が、A(Assessment)の項目には、SとOの情報を分析、考察して導いた評価や診断が、P(Plan)の項目には、治療方針や経過観察の計画が主に記載される。電子カルテ情報として、SOAP方式を用いずに入力されていてもよいし、さらにSOAP以外の項目が追加されてもよい。
【0034】
テキスト分割手段2は、非構造化テキスト情報が構造化手段3や表示処理手段4の処理能力に対して長い場合や、構造化の精度を高めたい場合等に、非構造化テキスト情報を意味的に関連する複数の単語を含みうるテキスト断片に分割する手段である。非構造化テキスト情報から重要な又は必要な単語を独立して抽出するだけでは、文の中における単語の意味を判別できず、正しく構造化することが困難である。このため、テキスト分割手段2によって、意味を判断できる単語の組み合わせであるテキスト断片を抽出する。テキスト断片は、節(複数の文節のまとまり)、文(句点で区分される)、段落(複数の文のまとまり)、項目(例えばSOAPの各項目)又は句点、コンマ、読点、カンマ、スペース、スラッシュ、コロン、改行等の記号によって区分された単位でもよいが、自由入力された非構造化テキスト情報は、必ずしも正しい文法の文章だけではなく、より柔軟な単位で分割できることが好ましい。例えば、非構造化テキスト情報が複数の単語の羅列であっても、一部の単語の組み合わせに意味を持つ場合があり、羅列された複数の単語から意味を持つ単語の組み合わせをテキスト断片とできることが好ましい。なお、非構造化テキスト情報の内容によってはテキスト断片が単語となることもある。非構造化テキスト情報が元々構造化手段3や表示処理手段4の処理に適切な長さであれば、テキスト分割手段2を設けなくてもよいが、構造化手段3や表示処理手段4の処理能力が多少低くても構造化が可能となり、また、処理速度が速くなり、精度も高くすることが可能であることから、テキスト分割手段2を設けることが好ましい。
【0035】
テキスト分割手段2は、例えば、句点、コンマ、読点、カンマ、スペース、スラッシュ、コロン、改行等の記号や項目名で区分することによりテキスト断片に分割してもよいが、より柔軟な分割を可能とするために、ロジックによる分割や、機械学習、ニューラルネットワークで学習された自然言語処理モデルにより構築されたテキスト分割モデルを使用することが好ましい。通常の文章であれば、自然言語処理アルゴリズムを採用したモデル(テキスト分割モデル)によって文脈を判断することができ、文脈から意味的に関連するテキスト断片を抽出できる。また、電子カルテのように、専門的な単語や独自の省略や構文を含む場合や、メモ書きのように正確な文法に則らない場合は、そのままでは文脈や意味を判断すること困難なことが多い。このため、一旦、元の文の意味を文脈が判別できるように人間が解読し、元の文と解読した文とを対応させたものをサンプルデータとして学習させ、文脈を判断できるようにしたテキスト分割モデルを構築してもよい。さらに、元の文と解読した文に加え、さらにテキスト断片の区分とを対応させたものをサンプルデータとして学習させ、テキスト断片を抽出できるようにしたテキスト分割モデルを構築して、テキスト分割手段として使用してもよく、このようにテキスト断片の区分を学習させることにより、任意の単位でテキスト断片に分割させることができる。また、ニューラルネットワークを用いた深層学習をした自然言語処理のモデルを用いてテキスト断片を抽出しても良い。なお、テキスト分割モデルは、サンプルデータに単語の情報種別及びラベルを付与したものを使用すれば、構造化モデルとしての機能を持たせることも可能である。
【0036】
意味的に関連する複数の単語の例としては、「薬剤名」と「作用(副作用)」、「検査名」と「検査値」、「症状」と「部位」といったものから「治療法」と「予定日(時制+日付の組み合わせでもよい)」、「治療法」と「評価(良化、悪化)」といった単語の組み合わせを含み、医療上カルテの文脈に影響を与える単位をひとくくりの文として捉えて判断する。上記はあくまで例示であり、「事象Aが事象Bによってどうなった」、「事象AをCの状態にした」、「事象AをDと評価した」、「事象AがEの時期にどうする」という文においてA、B、C、D、Eのラベリングルールを策定し、一般化することで特定の場合によらず汎用的に処理できる。なお、テキスト分割手段2は、非構造化テキスト情報を意味的に関連する複数の単語を含みうるテキスト断片に分割するものであるが、最終的にはテータ単位で管理される。そして、テータ単位は、テキスト断片と一対一に対応していなくてもよく、その後に構造化モデルによって構造化された単語を関連付ける工程もあるため、テキスト分割において意味的な関連性を厳密に判断しなくてもよい。
【0037】
図3は、図2の非構造化テキスト情報をテキスト断片に分割した一例である。図3においては、カルテID(図2の「ID」)、テキスト断片番号(同「TN」)、診察日、及びテキスト断片が関連付けられている。図3においては、句点と改行によって非構造化テキスト情報をテキスト断片に分割した。テキスト断片番号TNは、テキスト断片を特定する番号であり、各テキスト断片に対して付与される。図3では連番であるが、連番である必要はなく、また数字ではなく記号や文字であってもよいし、これらの組み合わせでもよい。図3では、テキスト分割手段2によって、ID1の非構造化テキスト情報が7のテキスト断片に分割され、ID2の非構造化テキスト情報が7のテキスト断片に分割され、ID3の非構造化テキスト情報が9のテキスト断片に分割され、合計23のテキスト断片とされている。
【0038】
構造化手段3は、非構造化テキスト情報又はテキスト断片に構造化モデルを適用して構造化された単語を抽出し、構造化された単語(対象単語及び/又は標準的な単語)に対し、当該単語の情報の種類を分類した情報種別を付与し、構造化された単語を関連付けて記録する。
例えば、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として記憶してもよいし;
構造化された単語に対し、文の構成における単語の役割又は機能によって分類した複数のラベルの何れかを付与し、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語を複数のラベルのそれぞれに対応した複数のセルを含むテーブルに格納し、テーブルを一つのデータ単位として記憶してもよいし;
構造化された単語に対し、主題のラベルを含む複数のラベルの何れかを付与し、非構造化テキスト情報又はテキスト断片内に含まれる構造化された単語の中で主題以外の単語を、主題の単語の何れか一つに関連付けて格納し、主題の単語と、それに関連付けられた主題以外の単語とを一つのデータ単位として記憶してもよいし;
非構造化テキスト情報又はテキスト断片に時制を意味する単語が含まれている場合、当該単語を抽出し、同じ非構造化テキスト情報又はテキスト断片内に含まれる他の構造化された単語と関連付けて記憶してもよい。
データ単位とは、表示処理手段4において構造化された単語を表示する際に基準となるものであり、例えば、表示の有無、並び替えについてはデータ単位で処理する。
【0039】
構造化モデルは、非構造化テキスト情報又はテキスト断片の単語に情報種別及び必要に応じてラベルを付与したものをサンプルデータとして学習させることにより構築することができる。特に、電子カルテのように、専門的な単語や独自の省略や構文を含む場合や、メモ書きのように正確な文法に則らない場合は、そのままでは文脈や意味を判断すること困難なことが多い。このため、一旦、元の文の意味を文脈が判別できるように人間が解読し、元の文と解読した文とを対応させたものをサンプルデータとして学習させ、情報種別やラベルを判断できるようにした構造化モデルを構築してもよい。さらに、元の文と解読した文に加え、さらに情報種別、ラベル、及び/又はデータ単位を対応させたものをサンプルデータとして学習させ、適切な情報種別、ラベル、及び/又はデータ単位を選択できるようにした構造化モデルを構築してもよい。また、構造化モデルは、辞書データベースを参照して対象単語であるか否かを判定してもよく、標準的な単語を抽出してもよい。特に、専門的な用語、例えば、「病名」、「検査名」、「薬剤名」等に関する辞書データベースを参照可能にすることが好ましい。また、ニューラルネットワークを用いた深層学習をした自然言語処理のモデル(汎用的な自然言語処理モデルを用いても、医療文書に特化した自然言語処理モデル等)を用いて情報種別やラベルの判断する構造化モデルを構築しても良い。電子カルテ以外の別システムや文書の非構造化テキストを用いることが良いケースもあり、それらの情報を用いて構造化モデルで抽出しても良い。また電子カルテの入力段階から構造化をしやすいように入力支援をするシステムを用いることもできる。
【0040】
情報種別は、非構造化テキスト情報の内容に応じて適宜設定されるものであり、非構造化テキスト情報から抽出する必要がある情報の種類を特定し、それらを情報種別として設定する。例えば、電子カルテ情報等の医療関係の文書情報であれば、医療情報に関連する情報種別として、「病名」、「検査名」、「薬剤名」、「症状」、「治療内容」、「レジメン」、「転帰」、「作用(副作用)」、「数値」、「記号」、「評価」、「部位」、「単位」、「時制」、「日時」などが挙げられ、さらに、医療情報以外の情報種別として、「人名」、「施設名」、「地名」、「住所」、「電話番号」、「続柄」などがある。また、プロジェクトの議事録等の場合はであれば、「発言者」、プロジェクトの内容に応じた「要望」、「作業内容」などが挙げられ、顧客サポートを行うコールセンターの応対管理等の場合は、「顧客名」、「クレーム」、クレームへの「対応」、「通信手段」などが挙げられる。これらの情報種別は、電子カルテ情報の自由入力可能な項目に入力される情報の中で、蓄積・収集すべき情報としての医療情報と、匿名化すべき情報としての個人情報である。電子カルテ情報をレジストリデータ等の医療情報として利活用する場合、重要となるのは、実際に実施された現在の事象であり、過去の事象や未来の事象はノイズとなることから、「時制」に関する単語を構造化し、関連する単語と関連付けると、過去又は未来の「時制」に関する単語を含むデータ単位を区別することが可能となるので好ましい。ただし、上記情報種別は一例であり、「数値」と「単位」を分離せずに結合して「重さ」、「濃度」、「回数」、「温度」のように区別してもよいし、「部位」を独立させずに「症状」に含めてもよい。このように、構造化される単語は、「数値」、「単位」等のような一単語だけに限定されず、「重さ」などのように、情報種別の内容によっては複数の単語の組み合わせも含むのである。また、情報種別の内容によっては、構造化モデルが参照するための専用の辞書データベースを設けることが好ましい。さらに、人間が目視により対象単語や情報種別の正誤を確認する検査工程を含めることが好ましく、検査工程の結果を構造化モデルにフィードバックして再学習させることがより好ましい。
【0041】
図4は、図3のテキスト断片を構造化した一例である。図4においては、テキスト断片番号(図4の「TN」)、データ単位番号(同「DN」)、テキスト断片に含まれる対象単語(同「単語」)、対象単語の標準的な単語(同「標準」)、及び対象単語の情報種別(同「種別」)の組み合わせが一つ又は複数関連付けられている。データ単位番号DNは、データ単位を特定する番号であり、各データ単位に対して付与される。データ単位番号DNは、図4では連番であるが、連番である必要はなく、また数字ではなく記号や文字であってもよいし、これらの組み合わせでもよい。図4では、23のテキスト断片から29のデータ単位が生成されている。一つのテキスト断片から意味的に関連した単語同士を関連付けて一つ又は複数のデータ単位が生成される。例えば、DN1では、「喘息」、「通院」という単語が関連付けられており、喘息で通院していることを把握できる。一つのテキスト断片であっても、意味的に異なる複数の内容を含んでいる場合は、複数のデータ単位とすることが好ましい。例えば、一つのテキスト断片内に、主題のラベルに分類される単語が複数ある場合、重文又は複文の場合、複数の時制を含む場合等は、それぞれ別のデータ単位とすることが好ましい。例えば、TN2の「体調は良いが、昨年の肺炎以来咳が続く。」という文は、「体調は良い」と「昨年の肺炎以来咳が続く」という2つの文からなる重文であり、さらに、「昨年の肺炎」は過去の事象であり、データ単位を別にすることが好ましい。TN5の「igg1100でやや上昇のため、念のため次月に再検査を」という文においても、「igg1100でやや上昇」は現在の事象を示すが、「次月に再検査」は未来の事象を示し、データ単位を別にすることが好ましい。また、TN9の「ctによる精査をA病院で6/5pet予約」という文では、主題のラベルに属する「ct」(種別:検査名)と「pet」(種別:検査名)の2つがあり、データ単位を別にした。TN18においても、主題のラベルに属する単語が、「igg」(種別:検査名)と「治療」(種別:治療一般)と2つあるため、それぞれ文意に従ってデータ単位を別にした。ただし、機械学習によって構築された構造化モデルは統計的に確率の高い解を出力するものであり、上記基準を機械的に適用しなくてもよい。図4においても、主題のラベルに分類される単語が複数ある場合でも一つのデータ単位(DN1、5、9、10、17、18、25、26)となっている。また、異なるテキスト断片であっても、意味的に関連している場合には、関連付けて一つのデータ単位としてもよい。例えば、TN15及び16は、「やっぱり腰が痛い・・。仰向けになると増強」と句点で区分されているため、2つのテキスト断片に分割されているが、主観的情報[S]という同じ項目に記載され、その内容も、「腰が痛い」という前文を受けて、「仰向けになると腰痛が増強する」という意味であり、意味的に関連している。このため、図4のDN20及び21と別のデータ単位とするよりも、2つを関連させて一つのデータ単位としてもよい。つまり、意味的に関連する複数のテキスト断片に含まれる構造化された単語を相互に関連付けて一つのデータ単位としてもよい。このような処理は、意味的に関連する複数のテキスト断片をサンプルデータとして学習させた構造化モデルによって実現可能である。図4においては、テキスト断片に含まれる対象単語の全てに対し、対象単語と、標準化された単語と、情報種別とを関連付けて一つのテーブルに格納している。しかし、対象単語と情報種別との2つを関連付けてもよいし、標準的な単語と情報種別との2つを関連付けてもよいし、対象単語の情報種別に応じて、関連付けるものを変えてもよい。また、相互に関連付けられた複数のテーブル、例えば共通するデータ単位IDによって紐づけられた複数のテーブルに対象単語と、標準的な単語と、情報種別とを別々に格納してもよい。
図4から、テキスト断片内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として記憶すること、また、テキスト断片に時制を意味する単語が含まれている場合、当該単語を抽出し、同じテキスト断片内に含まれる他の構造化された単語と関連付けて記憶することが確認できる。
【0042】
本発明では、構造化された単語は、情報種別に加えて、文の構成における単語の役割又は機能によって分類した複数のラベルを付与してもよい。ラベルは、情報の内容に応じて予め設定されるが、少なくともデータ単位における中心的な内容である「主題」のラベルを含むことが好ましい。また、電子カルテ情報の場合は、「時制」のラベルを含めて、関連付けられた単語の内容が過去、現在、未来のいずれの事象であるかを把握できることが好ましい。非構造化テキスト情報は、テキスト分割手段2によって意味的に関連する複数の単語を含みうるテキスト断片に分割され、テキスト断片又は非構造化テキスト情報における該当単語の意味、役割、機能によってラベルが付与される。例えば、電子カルテ情報であれば、医療情報に関連するテキスト断片であることから、「病名」、「検査名」、「薬剤名」、「症状」、「治療一般」、「治療区分」、「レジメン」などの情報種別の単語を「主題」のラベルに分類してもよい。主題以外のラベルは、情報の内容に応じて定められるが、例えば、ラベルは、「主題」と「主題以外」の2種類でもよいし、「主題」、「時制」(過去、現在、未来の何れかであることを意味する単語、日時、日付を含む)、「その他」の3種類でもよいし、さらに「その他」を細分化してもよい。「主題」と「主題以外」の2種類の場合は、「主題」のラベルのみを設定することで実現してもよく、「主題」、「時制」、「その他」の3種類の場合は、「主題」及び「時制」の2つのラベルを設定することで実現してもよい。電子カルテ情報の場合、典型的な複数のラベルの一例として、「主題」、「値」、「評価」、「回数」、「部位」、「時制」、「日時」の全部又は幾つかを設けてもよい。「主題」のラベルは、データ単位における中心的な内容であり、例えば、「病名」、「検査名」、「薬剤名」、「症状」、「レジメン」などの情報種別の単語に付与される。テキスト断片内に主題の単語が複数ある場合は、複数の主題の単語に対応した複数のデータ単位を生成することが好ましい。「値」のラベルは、主に検査値やピークに付与される。「評価」のラベルは、主に良くなった、悪くなった、再発、改善、+、-などに付与される。「回数」のラベルは、主に治療回数や単位等に付与される。「部位」のラベルは、主に体の部位に関する単語に付与される。「時制」のラベルは、主に過去、現在、未来の何れかであることを意味する単語に付与され、関連付けられた他の単語がいつの事象であるのかを判別させる。「日時」のラベルは、主に日時に付与される。
また、情報種別とラベルとは一対一に対応するものではなく、「主題」のラベルのように複数の情報種別を含んでいてもよいし、同じ情報種別の単語であっても文の内容や他の単語との組み合わせで異なるラベルが付されてもよい。例えば、情報種別が「数値」の単語であっても、前又は後に「検査名」の情報種別の単語があれば検査結果を意味するものと判断されて「値」のラベルが付され、また、後ろに「mg」や「ml」などの「単位」の情報種別の単語があれば用量を意味するものと判断されて「値」のラベルが付されるが、後ろに「回」という単位の情報種別の単語があれば「回数」のラベルが付される。このように、「ラベル」は、文脈によって変わることがあり、単に辞書に掲載された単語を抽出するだけでは不十分であり、構造化モデルを適用して前後の単語を踏まえてラベリング(ラベルを付与)する必要がある。一つの単語に対して一つのラベルを付与してもよいし、複数の単語の組み合わせに対して一つのラベル(例えば、「数値」の単語と「単位」の単語の組み合わせに「値」のラベル)を付与してもよい。さらに、ユーザが目視によりラベルの正誤を確認する検査工程を含めることが好ましく、検査工程の結果を構造化モデルにフィードバックして再学習させることがより好ましい。ラベルは、情報種別とは異なる観点で分類したものであるが、ラベルの名称と情報種別の名称とを異なるものとする必要はなく、例えば、「日時」、「評価」などは、ラベルも情報種別も共通の名称である。また、文法の観点から「名詞」、「動詞」、「形容詞」、「副詞」等の品詞をラベルとしてもよいし、「主語」、「述語」、「目的語」、「修飾語」等の文の成分をラベルとしてもよい。
【0043】
図5は、複数のラベルのそれぞれに対応した複数のセルを含むテーブル(データ単位)の一例である。図5においては、主題のラベルについては、対象単語、標準的な単語、情報種別を表示し、時制のラベルについては、対象単語及び情報種別を表記し、値、評価、回数、部位、及び日時のラベルについては、標準的な単語のみを表示するように構成されている。これは、主題については重要な情報であることから、対象単語によって実際の非構造化テキスト情報における記載を確認しつつ、標準的な単語で一般的な名称を認識できるようにするとともに、主題の中に含まれる複数の情報種別の何れに属するのかも確認できるようにしている。また、時制のラベルも重要な情報であり、曖昧な表現や付加的な情報も多いことから対象単語によって実際の非構造化テキスト情報における記載を確認できることが好ましい。また、時制が過去、現在、未来の何れであるかも把握できるように情報種別も表示することが好ましい。その他のラベルについては、標準的な単語のみを表示しているが、対象単語や情報種別も表示してもよい。
【0044】
図6は、図3のテキスト断片を構造化し、図5のテーブルに格納した一例である。図6においては、カルテID(図6の「ID」)、テキスト断片番号(同「TN」)、データ単位番号(同「DN」)、及び図5のラベルテーブルに格納した構造化された単語が関連付けられている。図6では、23のテキスト断片から38のデータ単位が生成されている。図5のテーブルの各セルが、複数のラベルに対応しており、構造化された単語を格納することにより、構造化された単語の意味をより把握しやすくなる。また、一つのテキスト断片に複数の主題が含まれている場合、主題毎にテーブルを分けてそれぞれデータ単位を生成することが好ましい。この場合、構造化手段3は、一つの単語を複数のデータ単位のセルに格納してもよい。例えば、TN12の「痛みの増強や発熱あれば連絡を」という文は、「痛みの増強あれば連絡を」と「発熱あれば連絡を」という2つの文が結合したものであり、構造化手段3は、主題の単語である「痛み」と「発熱」をDN21とDN22のセルに分離すると共に、「あれば:時制未来」という単語をDN21及びDN22の両方に関連付けて格納する。テキスト断片内に対応するラベルの単語が含まれていない場合、そのラベルのセルに単語は格納されず、空欄となる。また、非構造化テキスト情報では、主題が省略されることも多く、例えば、DN8、10、25、27、29、37は、主題のセルが空欄である。構造化手段3が省略された主題の単語を補完してもよく、構造化手段3が補完した結果をユーザが目視により検査し、検査結果を構造化モデルにフィードバックしてもよい。また、ユーザが省略された主題の単語を入力してもよく、ユーザの入力結果を構造化モデルにフィードバックしてもよい。例えば、DN8及び25であれば、予約日時であり、DN38のように主題に「受診」の単語を補完してもよい。また、DN10であれば再検査する検査名を、DN37であればレジメン又は薬剤名を補完してもよい。さらに、DN27であればDN26と統合してもよく、DN29であればDN28の主題及び評価をコピーしてもよい。構造化モデルが補完した単語や変更した単語は、ユーザに確認させるために、色を変えたり、点滅させたりして注意を促すことが好ましい。
また、少なくとも主題及び時制のセルについては、一つのテーブルに一つのセルとするが、その他のラベルのセルについては、同じラベルのセルを複数設けて一つの主題又は時制のセルに関連付けてもよい。又は、少なくとも主題及び時制のセルについては、一つのセルに一つの単語を格納するが、それ以外のセルについては、一つのセルに複数の単語を格納してもよい。例えば、DN28及び29を一つにまとめて、部位のセルを2つに増やし、「第3肋骨」及び「左腸骨」を格納してもよいし、部位のセルに「第3肋骨/左腸骨」の2つの単語を格納してもよい。
図6から、テキスト断片内に含まれる構造化された単語を複数のラベルのそれぞれに対応した複数のセルを含むテーブルに格納し、テーブルを一つのデータ単位として記憶すること、また、構造化された単語に主題のラベルを含む複数のラベルの何れかを付与し、テキスト断片内に含まれる構造化された単語の中で主題以外の単語を、主題の単語の何れか一つに関連付けて格納し、主題の単語と、それに関連付けられた主題以外の単語とを一つのデータ単位として記憶することが確認できる。さらに、図6からも、テキスト断片内に含まれる構造化された単語を関連付けて一つ又は複数のデータ単位として記憶すること、また、テキスト断片に時制を意味する単語が含まれている場合、当該単語を抽出し、同じテキスト断片内に含まれる他の構造化された単語と関連付けて記憶することが確認できる。
【0045】
表示処理手段4は、表示装置に構造化された単語をデータ単位ごとに表示するものであり、情報を見やすく利用しやすいように、データ単位で並び替えたり、一部のデータ単位を区別して表示したり、一部のデータ単位を表示対象から削除したりしてもよい。例えば、表示処理手段4は、情報種別ごとに並び替えてもよい。また、表示処理手段4は、複数のデータ単位の間で、同一又は共通の構造化された単語が含まれている場合、同一又は共通の構造化された単語が揃うように複数のデータ単位を並べて表示する、又は同一又は共通の構造化された単語が揃うように並べた複数のデータ単位を他のデータ単位とは区別して表示してもよい。さらに、表示処理手段4は、出現回数が多い単語を含むデータ単位から順に並び替えて表示する、又は出現回数が多い単語を含むデータ単位を区別して表示してもよい。表示処理手段4は、出現回数が少ない単語を含むデータ単位を表示対象から削除する、又は出現回数が少ないものを含むデータ単位を区別して表示してもよい。ここで、区別して表示するとは、他のデータ単位と異なる態様で表示したり、例えば、字の色、書体、字の大きさ、セルの色等を変えてもよいし、他のデータ単位との間に仕切りを設けたり、他のデータ単位とは別表としたり、別画面(別ウィンドウ)で表示したりしてもよい。
【0046】
図7(A)~(C)は、表示処理手段4が、出現回数が多い「igg」という単語を含む図4のデータ単位DN7、14、23を抽出し、単語「igg」が揃うように並べ替え、さらに情報種別の「値」も共通しているため揃うように並べ替え、さらに「評価」も2つは共通しているため、揃うように並べ替えて別表としたものである。図7(A)は、対象単語、標準的な単語、及び情報種別の組み合わせをそのまま別表としたものである。図7(B)は、抽出された単語である「igg」という単語のみ対象単語、標準的な単語、及び情報種別の組み合わせを表示し、それ以外の単語については、対象単語及び情報種別を表示したものである。図7(C)は、「igg」という単語のみ標準的な単語を表示し、それ以外の単語については、対象単語を表示したものである。図7(A)~(C)からは、iggの検査値について、4月28日に1100に上昇し、5月24日は1083で高いまま維持されており、6月21日に689に改善したことが読み取れる。図7(A)のように表示する項目を多くすると必要な表示スペースも広くなってしまうため、図7(B)及び(C)のように、一部の情報を省略して表示スペースを小さくしてもよい。図7(B)のように、重複する対象単語及び標準の単語の一方を省略すれば、表示する情報量をあまり減らさずに表示スペースを節約できる。情報種別については、ある程度の知識や経験があれば把握できるので、図7(C)のように情報種別を省略してさらに省スペース化してもよい。図7では、単語が重複しているものを一番端に配置し、次に情報種別の重複回数が多いものから順に並び替えている。
【0047】
表示処理手段4は、時制を意味する単語が未来又は過去の場合、当該時制を意味する単語を含むデータ単位を他のデータ単位とは区別して表示する、又は表示対象から削除してもよい。図8は、図4の構造化した単語一覧から、未来又は過去の時制を意味する単語を含むデータ単位を削除したものである。図8では、過去及び未来の事象であることが明らかであるものは削除されているため、現在の事象に関するものを中心に抽出することができ、症状の経過や状態の変化を把握することができる。
【0048】
表示処理手段4は、構造化された単語にラベルが付与されている場合、主題の単語に関し、出現回数が多いものを含むデータ単位から順に並び替えて表示する、又は出現回数が多いものを含むデータ単位を区別して表示してもよい。また、表示処理手段4は、主題の単語に関し、出現回数が少ないものを含むデータ単位を表示対象から削除する、又は出現回数が少ないものを含むデータ単位を区別して表示してもよい。さらに、表示処理手段4は、並べて表示したテーブルのうち、全てのテーブルにおいて単語が格納されていないラベルのセルを削除して表示してもよい、また、表示処理手段4は、単語、情報種別、ラベル及びデータ単位の一つ又は複数に対して設定された表示設定に基づいて、データ単位を並び替えたり、一部のデータ単位を区別して表示したり、一部のデータ単位を表示対象から削除したりしてもよい。表示設定として、例えば、単語、情報種別、ラベル及び/又はデータ単位の一部又は全部に対して「重要度」、「並び順」、又は「表示位置」を設定できるようにしてもよいし、表示対象から削除する「非表示」を設定できるようにしてもよい。ユーザが表示設定を設定可能であってもよいが、構造化手段3又は表示処理手段4が機械学習の結果により自動的に設定可能であってもよい。ただし、自動的に設定可能な場合は、設定をユーザが変更可能であることが好ましい。
【0049】
図9図11は、主題の単語の情報種別ごとに図6のデータ単位(テーブル)を並び替えたものであり、図9図11においては、カルテID(「ID」)及びテキスト断片番号(「TN」)が共通であり、図9には、主題の単語が「検査名」及び「病名」のデータ単位を並べ、図10には、主題の単語が「症状」及び「薬剤名」のデータ単位を並べ、図11は、主題の単語が「治療」のデータ単位及びその他のデータ単位を並べた。このように並び替えることで、情報種別ごとに整理されるとともに、各データ単位には関連する単語が含まれるので、その内容も把握しやすくなる。
図12は、さらに主題の単語が「検査名」のデータ単位に関し、出現回数が多い「igg」という単語を含むデータ単位(TN5、10、18に含まれるデータ単位)を抽出し、先頭に並び替え、同一の単語である「igg」が揃うように同じ列に並べて表示するとともに、並べて表示したテーブルのうち、全てのテーブルにおいて単語が格納されていない「回数」、「部位」、及び「日時」のラベルのセル(行)を削除して表示したものである。
図13は、図9~11の「病名」、「症状」、「薬剤名」、及び「治療」の情報種別のそれぞれについて、その情報種別の全てのテーブルにおいて単語が格納されていないラベルのセルを削除して表示したものである。このように不要なセルを削除することで省スペース化することができる。
【0050】
表示処理手段4は、並べて表示したテーブルのうち、同じ非構造化テキスト情報のものについては、一つのテーブルに統合して表示してもよい。例えば、図10の「症状」において、TN9及び11に含まれる「腰痛」という単語を含む2つのデータ単位は、同じカルテID(非構造化テキスト情報)のものであり、これらを統合して一つにしてもよい。この場合は、TN11の「腰痛」のデータ単位の単語は全てTN9のデータ単位に含まれ、TN9では時制の単語をさらに含むことから、TN11の「腰痛」のデータ単位を削除し、TN9のデータ単位を残せばよい。
【0051】
また、構造化手段3又は表示処理手段4は、情報種別の少なくとも一部、特に主題のラベルに属する情報種別の全部又は一部に対し、複数の情報種別を包含する大分類を設定し、表示処理手段4は、大分類に分けてデータ単位を表示してもよく、例えば、別途指定したもの以外は大分類の中で出現回数が多いものを順に並べて表示してもよい。大分類に分けることで、同じ系統の意味合いのデータ単位を近くに表示することができ、別途指定した特に重要なデータ単位以外は、出現回数が多いものが左から順に並ぶことで視覚的に見やすくなる。大分類の設定や別途指定は、表示設定によって実現可能であり、事前に設定してもよいし、抽出されたデータを見ながら再設定してもよい。大分類として、電子カルテ情報であれば、例えば、「診断・経過」、「治療法・薬剤」、「基礎情報」等を設定してもよいが、この3つの大分類に限定されるものではなく、他の観点で大分類を設定してもよい。「診断・経過」には、診断内容や経過情報に関する情報種別が分類され、例えば、「病名」、「症状」、「検査」等の情報種別を含む。「治療法・薬剤」には、治療法や薬剤に関する情報種別が分類され、例えば、「薬剤名」、「レジメン」、「作用(副作用)」等の情報種別を含む。「基礎情報」には、基礎的な情報が分類され、例えば、「身長」、「体重」、「血圧」、「脈拍」、「既往歴」等を含む。
【0052】
このように、本発明の情報処理システムによれば、単に重要な単語を構造化しただけではなく、前後の文脈を含めて構造化及び/又は時間の経過に伴う内容の変化等の把握が容易にできるようになり、以下のような活用が可能となる。
臨床研究等において時系列推移も含めた構造化されたレジストリが定められているところ、レジストリに対応した情報種別及び/又はラベルを設定することにより、そのレジストリに沿った抽出を行うこと。
治験等において製薬会社や医薬品開発業務受託機関(Contract Research Organization:CRO)等が治験に必要なデータ整理を行うために電子カルテから医療情報の抽出を行うこと。
次世代医療基盤法における認定事業者が活用すること。
電子カルテ情報の構造化されたテキスト情報から、紹介状や診療情報提供書、他の電子カルテ情報等の医療関係の文書を作成すること。
【0053】
[具体的処理]
図14は、本発明の情報処理システムの全体の処理の流れを示すフローチャートである。テキスト分割手段2は、非構造化テキスト情報を取得すると(S11)、非構造化テキスト情報を意味的に関連する複数の単語を含みうるテキスト断片に分割する(S12)。次に、構造化手段3は、テキスト断片に構造化モデルを適用してテキスト断片から構造化された単語を抽出し、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、必要に応じてラベルも付与し、データ単位ごとに関連付けて記憶する(S13)。表示処理手段4は、構造化された単語をデータ単位ごとに表示する(S14)。
【0054】
図15(A)及び(B)は、構造化処理の一例を示すフローチャートである。図15(A)において、構造化手段3は、テキスト断片から対象単語を抽出し(S21)、必要に応じて標準的な単語も関連付け、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し(S22)、データ単位ごとに関連付けて記憶する(S23)。また、図15(B)において、構造化手段3は、テキスト断片から対象単語を抽出し(S31)、必要に応じて標準的な単語も関連付け、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し(S32)、さらにラベルを付与し(S33)、データ単位ごとに関連付けて記憶する(S34)。
【0055】
図16は、構造化処理から表示処理までの一例を示すフローチャートである。図16において、構造化手段3は、テキスト断片から対象単語を抽出し(S41)、必要に応じて標準的な単語も関連付け、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し(S42)、さらにラベルを付与する(S43)。その後、表示処理手段4は、同一の非構造化テキスト情報内における重複項目を削除し(S44)、重要度及び/又は出現回数で並べ替え(S45)、全てが空欄の不要なセルを削除し(S46)、表示装置に表示する(S47)。なお、並び替えた状態を記憶手段に記憶してもよい。
【符号の説明】
【0056】
1 情報処理システム
2 テキスト分割手段
3 構造化手段
4 表示処理手段
5 テキスト化手段
【要約】      (修正有)
【課題】前後の文脈を含めた構造化及び/又は時間の経過に伴う内容の変化等の把握が容易にできるように非構造化テキスト情報を構造化するための情報処理システムを提供する。
【解決手段】情報処理システムは、構造化手段と、表示処理手段とを含み、構造化手段は、非構造テキスト情報に構造化モデルを適用して構造化された単語を抽出し、構造化された単語に対し、当該単語の情報の種類を分類した情報種別を付与し、さらに文の構成における単語の役割又は機能によって分類した複数のラベルの何れかを付与し、非構造テキスト情報内に含まれる構造化された単語を複数のラベルのそれぞれに対応した複数のセルを含むテーブルに格納し、テーブルを一つのデータ単位として記憶する。表示処理手段は、複数のデータ単位の間で、同一又は共通の構造化された単語が含まれている場合、同一又は共通の構造化された単語が揃うように複数のデータ単位を並べて表示する。
【選択図】図12
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16