特許第5671676号(P5671676)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックヘルスケアホールディングス株式会社の特許一覧

特許5671676文書データ変換装置及び文書変換プログラム
<>
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000002
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000003
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000004
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000005
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000006
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000007
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000008
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000009
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000010
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000011
  • 特許5671676-文書データ変換装置及び文書変換プログラム 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5671676
(24)【登録日】2015年1月9日
(45)【発行日】2015年2月18日
(54)【発明の名称】文書データ変換装置及び文書変換プログラム
(51)【国際特許分類】
   G06F 17/21 20060101AFI20150129BHJP
   G06F 12/00 20060101ALI20150129BHJP
【FI】
   G06F17/21 570L
   G06F12/00 511C
【請求項の数】10
【全頁数】17
(21)【出願番号】特願2010-193941(P2010-193941)
(22)【出願日】2010年8月31日
(65)【公開番号】特開2012-53548(P2012-53548A)
(43)【公開日】2012年3月15日
【審査請求日】2013年9月2日
(73)【特許権者】
【識別番号】314005768
【氏名又は名称】パナソニックヘルスケアホールディングス株式会社
(74)【代理人】
【識別番号】100095500
【弁理士】
【氏名又は名称】伊藤 正和
(72)【発明者】
【氏名】川尻 博光
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 特開平10−307881(JP,A)
【文献】 特開2004−259209(JP,A)
【文献】 特開平11−007402(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−17/26
G06F 12/00
(57)【特許請求の範囲】
【請求項1】
自由フォーマットデータを標準フォーマットデータに変換する文書データ変換装置であって、
前記標準フォーマットデータに含まれる標準項目と、前記標準項目の内容として用いられる単語として登録されたサブキーワードを含むキーワードと、前記キーワードがサブキーワードであるか否かを示すサブキーワードフラグと、が対応付けて記憶された記憶部と、
前記自由フォーマットデータに含まれるローカル項目の項目名と前記標準項目に対応付けられるキーワードとの一致度、及び、前記ローカル項目に入力されたデータに含まれる単語と前記サブキーワードとの一致度に基づいて、前記ローカル項目が前記標準項目に所属する所属確率を算出する算出部と、
前記算出部によって算出された所属確率に基づいて、前記ローカル項目と前記標準項目とを対応付ける変換テーブルを生成する生成部と、
前記変換テーブルに基づいて、前記自由フォーマットデータを前記標準フォーマットデータに変換する変換部とを備えることを特徴とする文書データ変換装置。
【請求項2】
前記生成部は、前記所属確率が最も高いローカル項目の所属確率と前記所属確率が2番目に高いローカル項目の所属確率との差が所定閾値以上である場合に、前記所属確率が最も高いローカル項目と前記標準項目とを対応付けることを特徴とする請求項1に記載の文書データ変換装置。
【請求項3】
前記生成部は、前記所属確率が最も高いローカル項目の所属確率と前記所属確率が2番目に高いローカル項目の所属確率との差が所定閾値未満である場合に、前記所属確率が所定閾値以上であるローカル項目と前記標準項目とを対応付けることを特徴とする請求項1又は請求項2に記載の文書データ変換装置。
【請求項4】
前記記憶部は、前記標準項目と対応付けるべきローカル項目の候補の中から選択されたローカル項目の項目名を、前記標準項目と対応付けられる前記キーワードとして記憶することを特徴とする請求項1乃至請求項3のいずれかに記載の文書データ変換装置。
【請求項5】
前記算出部は、前記ローカル項目のデータ型及び前記標準項目のデータ型の一致度に基づいて、前記所属確率を算出することを特徴とする請求項1乃至請求項4のいずれかに記載の文書データ変換装置。
【請求項6】
前記算出部は、前記ローカル項目に入力されたデータ長及び前記標準項目に入力すべき標準データ長との一致度に基づいて、前記所属確率を算出することを特徴とする請求項1乃至請求項5のいずれかに記載の文書データ変換装置。
【請求項7】
前記記憶部は、前記標準項目と対応付けるべきローカル項目の候補の中から選択されたローカル項目に入力されたデータに含まれる単語の出現頻度をカウントし、出現頻度が所定頻度以上である単語を、前記標準項目と対応付けられる前記サブキーワードとして記憶することを特徴とする請求項に記載の文書データ変換装置。
【請求項8】
前記変換テーブルにおいて、1つのローカル項目に対して複数の標準項目が対応付けられる場合に、前記1つのローカル項目に入力されたデータを前記複数の標準項目に分割すべきことを促すメッセージを出力する出力部を備えることを特徴とする請求項1に記載の文書データ変換装置。
【請求項9】
前記変換テーブルにおいて、1つの標準項目に対して複数のローカル項目が対応付けられる場合に、前記複数のローカル項目に入力されたデータを前記1つの標準項目に統合すべきことを促すメッセージを出力する出力部を備えることを特徴とする請求項1に記載の文書データ変換装置。
【請求項10】
自由フォーマットデータを標準フォーマットデータに変換する文書変換プログラムであって、コンピュータに、
前記標準フォーマットデータに含まれる標準項目と、前記標準項目の内容として用いられる単語として登録されたサブキーワードを含むキーワードと、前記キーワードがサブキーワードであるか否かを示すサブキーワードフラグと、を対応付けて記憶部に記憶させるステップと、
前記自由フォーマットデータに含まれるローカル項目の項目名と前記標準フォーマットデータに含まれる標準項目に対応付けられるキーワードとの一致度、及び、前記ローカル項目に入力されたデータに含まれる単語と前記サブキーワードとの一致度に基づいて、前記ローカル項目が前記標準項目に所属する所属確率を算出するステップAと、
前記ステップAで算出された所属確率に基づいて、前記ローカル項目と前記標準項目と
を対応付ける変換テーブルを生成するステップBと、
前記変換テーブルに基づいて、前記自由フォーマットデータを前記標準フォーマットデータに変換するステップCとを実行させることを特徴とする文書変換プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自由フォーマットデータを標準フォーマットデータに変換する文書データ変換装置及び文書変換プログラムに関する。
【背景技術】
【0002】
近年、コンピュータなどの普及に伴って、様々な文書データが作成されている。文書データとしては、自由フォーマットで作成された文書データ(以下、自由フォーマットデータ)、標準フォーマットで作成された文書データ(以下、標準フォーマットデータ)が存在する。
【0003】
自由フォーマットデータについては、ユーザが自由に入力項目を決定することが可能であるため、ユーザの利便性が高い。一方で、標準フォーマットデータについては、入力項目が予め定められているため、文書データをユーザが閲覧する場合には、文書データを見やすい。言い換えると、文書データを単独で利用する場合には自由フォーマットを用いることが好ましく、文書データを他と連携して用いる場合や文書データを他と共有する場合には標準フォーマットを用いることが好ましい。
【0004】
従って、自由フォーマットデータを標準フォーマットデータに変換したいというニーズが存在する。
【0005】
例えば、自由フォーマットデータ及び標準フォーマットデータを並べて表示することによって、自由フォーマットデータに含まれる項目と標準フォーマットデータに含まれる項目とのマッピングをGUIを用いて容易に行うことを可能とする技術が提案されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平10−307881号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上述した技術では、項目のマッピングをユーザが手動で行う必要があるため、項目のマッピングに時間を要するという問題があった。
【0008】
そこで、本発明は、上述した課題を解決するためになされたものであり、自由フォーマットデータを標準フォーマットデータに簡易に変換することを可能とする文書データ変換装置及び文書変換プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
一の特徴に係る文書データ変換装置は、自由フォーマットデータを標準フォーマットデータに変換する。文書データ変換装置は、前記標準フォーマットデータに含まれる標準項目と、前記標準項目の内容として用いられる単語として登録されたサブキーワードを含むキーワードと、前記キーワードがサブキーワードであるか否かを示すサブキーワードフラグと、が対応付けて記憶された記憶部と、前記自由フォーマットデータに含まれるローカル項目の項目名と前記標準項目に対応付けられるキーワードとの一致度、及び、前記ローカル項目に入力されたデータに含まれる単語と前記サブキーワードとの一致度に基づいて、前記ローカル項目が前記標準項目に所属する所属確率を算出する算出部と、前記算出部によって算出された所属確率に基づいて、前記ローカル項目と前記標準項目とを対応付ける変換テーブルを生成する生成部と、前記変換テーブルに基づいて、前記自由フォーマットデータを前記標準フォーマットデータに変換する変換部とを備える。
【0010】
かかる特徴によれば、生成部は、ローカル項目が標準項目に所属する所属確率に基づいて、ローカル項目と標準項目とを対応付ける変換テーブルを生成する。従って、ユーザは、変換テーブルを参照して、ローカル項目を標準項目に簡易にマッピングすることができる。言い換えると、自由フォーマットデータを標準フォーマットデータに簡易に変換することができる。
【0011】
一の特徴において、前記生成部は、前記所属確率が最も高いローカル項目の所属確率と前記所属確率が2番目に高いローカル項目の所属確率との差が所定閾値以上である場合に、前記所属確率が最も高いローカル項目と前記標準項目とを対応付ける。
【0012】
かかる特徴によれば、生成部は、最も高い所属確率が他の所属確率よりも突出している場合に、所属確率が最も高いローカル項目と標準項目とを対応付ける。従って、標準項目と対応付けるローカル項目を選択する手間が省ける。
【0013】
一の特徴において、前記生成部は、前記所属確率が最も高いローカル項目の所属確率と前記所属確率が2番目に高いローカル項目の所属確率との差が所定閾値未満である場合に、前記所属確率が所定閾値以上であるローカル項目と前記標準項目とを対応付ける。
【0014】
かかる特徴によれば、生成部は、最も高い所属確率が他の所属確率よりも突出していない場合に、所属確率が所定閾値以上であるローカル項目と標準項目とを対応付ける。従って、標準項目と対応付けるべきローカル項目を絞り込むことができる。
【0015】
一の特徴において、前記記憶部は、前記標準項目と対応付けるべきローカル項目の候補の中から選択されたローカル項目の項目名を、前記標準項目と対応付けられる前記キーワードとして記憶する。
【0016】
かかる特徴によれば、記憶部は、標準項目と対応付けるべきローカル項目の候補の中から選択されたローカル項目の項目名をキーワードとして記憶する。従って、標準項目と対応付けられるキーワードの精度が向上する。
【0017】
一の特徴において、前記算出部は、前記ローカル項目のデータ型及び前記標準項目のデータ型の一致度に基づいて、前記所属確率を算出する。
【0018】
かかる特徴によれば、算出部は、ローカル項目のデータ型及び標準項目のデータ型の一致度に基づいて、所属確率を算出する。これによって、標準項目とローカル項目との対応付けの精度が向上する。
【0019】
一の特徴において、前記算出部は、前記ローカル項目に入力されたデータ長及び前記標準項目に入力すべき標準データ長との一致度に基づいて、前記所属確率を算出する。
【0020】
かかる特徴によれば、算出部は、ローカル項目に入力されたデータ長及び標準項目に入力すべき標準データ長(平均データ長)との一致度に基づいて、所属確率を算出する。これによって、標準項目とローカル項目との対応付けの精度が向上する。
【0022】
かかる特徴によれば、算出部は、ローカル項目に入力されたデータに含まれる単語とサブキーワードとの一致度に基づいて、所属確率を算出する。これによって、標準項目とローカル項目との対応付けの精度が向上する。
【0023】
一の特徴において、前記記憶部は、前記標準項目と対応付けるべきローカル項目の候補の中から選択されたローカル項目に入力されたデータに含まれる単語の出現頻度をカウントし、出現頻度が所定頻度以上である単語を、前記標準項目と対応付けられる前記サブキーワードとして記憶する。
【0024】
かかる特徴によれば、記憶部は、出現頻度が所定頻度以上である単語をサブキーワードとして記憶する。従って、標準項目と対応付けられるサブキーワードの精度が向上する。
【0025】
一の特徴において、文書データ変換装置は、前記変換テーブルにおいて、1つのローカル項目に対して複数の標準項目が対応付けられる場合に、前記1つのローカル項目に入力されたデータを前記複数の標準項目に分割すべきことを促すメッセージを出力する出力部を備える。
【0026】
かかる特徴によれば、出力部は、ローカル項目を分割すべき場合に、その旨を促すメッセージを出力する。従って、ユーザの利便性が向上する。
【0027】
一の特徴において、文書データ変換装置は、前記変換テーブルにおいて、1つの標準項目に対して複数のローカル項目が対応付けられる場合に、前記複数のローカル項目に入力されたデータを前記1つの標準項目に統合すべきことを促すメッセージを出力する出力部を備える。
【0028】
かかる特徴によれば、出力部は、ローカル項目を統合すべき場合に、その旨を促すメッセージを出力する。従って、ユーザの利便性が向上する。
【0029】
一の特徴において、文書データ変換装置は、特定の標準項目に入力すべきデータとして、前記変換テーブルにおいて特定の標準項目と対応付けられる前記ローカル項目に入力されたデータを出力するとともに、前記特定の標準項目に要約を入力すべきことを促すメッセージを出力する出力部を備える。
【0030】
かかる特徴によれば、出力部は、特定の標準項目と対応付けられるローカル項目に入力されたデータを出力するとともに、特定の標準項目に要約を入力すべきことを促すメッセージを出力する。従って、メッセージの参照によって、特定の標準項目にユーザが入力すべきデータを容易に判断することが可能であり、ローカル項目に入力されたデータの参照によって、特定の標準項目に入力すべきデータを容易に加工することができる。
【0031】
一の特徴に係る文書変換方法は、自由フォーマットデータを標準フォーマットデータに変換する方法である。文書変換方法は、前記自由フォーマットデータに含まれるローカル項目の項目名と前記標準フォーマットデータに含まれる標準項目に対応付けられるキーワードとの一致度に基づいて、前記ローカル項目が前記標準項目に所属する所属確率を算出するステップAと、前記ステップAで算出された所属確率に基づいて、前記ローカル項目と前記標準項目とを対応付ける変換テーブルを生成するステップBと、前記変換テーブルに基づいて、前記自由フォーマットデータを前記標準フォーマットデータに変換するステップCとを備える。
【0032】
一の特徴に係る文書変換プログラムは、自由フォーマットデータを標準フォーマットデータに変換するプログラムである。文書変換プログラムは、前記標準フォーマットデータに含まれる標準項目と、前記標準項目の内容として用いられる単語として登録されたサブキーワードを含むキーワードと、前記キーワードがサブキーワードであるか否かを示すサブキーワードフラグと、を対応付けて記憶部に記憶させるステップと、前記自由フォーマットデータに含まれるローカル項目の項目名と前記標準フォーマットデータに含まれる標準項目に対応付けられるキーワードとの一致度、及び、前記ローカル項目に入力されたデータに含まれる単語と前記サブキーワードとの一致度に基づいて、前記ローカル項目が前記標準項目に所属する所属確率を算出するステップAと、前記ステップAで算出された所属確率に基づいて、前記ローカル項目と前記標準項目とを対応付ける変換テーブルを生成するステップBと、前記変換テーブルに基づいて、前記自由フォーマットデータを前記標準フォーマットデータに変換するステップCとをコンピュータに実行させる。
【発明の効果】
【0033】
本発明によれば、自由フォーマットデータを標準フォーマットデータに簡易に変換することを可能とする文書データ変換装置及び文書変換プログラムを提供することができる。
【図面の簡単な説明】
【0034】
図1図1は、第1実施形態に係る文書変換装置100を示すブロック図である。
図2図2は、第1実施形態に係るローカル項目毎の属性を示す図である。
図3図3は、第1実施形態に係る自由フォーマットデータを示す図である。
図4図4は、第1実施形態に係る標準項目毎の属性を示す図である。
図5図5は、第1実施形態に係るキーワードリストを示す図である。
図6図6は、第1実施形態に係る標準項目とローカル項目との対応付け例を示す図である。
図7図7は、第1実施形態に係る標準項目とローカル項目との対応付け例を示す図である。
図8図8は、第1実施形態に係る変換テーブルを示す図である。
図9図9は、第1実施形態に係る標準フォーマットデータの出力例を示す図である。
図10図10は、第1実施形態に係る標準フォーマットデータの出力例を示す図である。
図11図11は、第1実施形態に係る文書変換装置100の動作を示すフロー図である。
【発明を実施するための形態】
【0035】
以下において、本発明の実施形態に係る文書データ変換装置及び文書変換プログラムについて、図面を参照しながら説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。
【0036】
ただし、図面は模式的なものであり、各寸法の比率などは現実のものとは異なることに留意すべきである。従って、具体的な寸法などは以下の説明を参酌して判断すべきである。また、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。
【0037】
[実施形態の概要]
実施形態に係る文書データ変換装置は、自由フォーマットデータを標準フォーマットデータに変換する。文書データ変換装置は、標準フォーマットデータに含まれる標準項目とキーワードとを対応付けて記憶する記憶部と、自由フォーマットデータに含まれるローカル項目の項目名と標準項目に対応付けられるキーワードとの一致度に基づいて、ローカル項目が標準項目に所属する所属確率を算出する算出部と、算出部によって算出された所属確率に基づいて、ローカル項目と標準項目とを対応付ける変換テーブルを生成する生成部と、変換テーブルに基づいて、自由フォーマットデータを標準フォーマットデータに変換する変換部とを備える。
【0038】
かかる特徴によれば、生成部は、ローカル項目が標準項目に所属する所属確率に基づいて、ローカル項目と標準項目とを対応付ける変換テーブルを生成する。従って、ユーザは、変換テーブルを参照して、ローカル項目を標準項目に簡易にマッピングすることができる。言い換えると、自由フォーマットデータを標準フォーマットデータに簡易に変換することができる。
【0039】
なお、文書データ変換装置は、電子カルテ、報告書類、電子商取引書類などに適用することが可能である。実施形態では、文書データ変換装置が電子カルテに適用されるケースについて例示する。
【0040】
また、実施形態の概要欄では、実施形態に係る文書データ変換装置の最小構成を説明していることに留意すべきである。従って、文書データ変換装置の最小構成については、以下に示す実施形態に限定されないことに留意すべきである。
【0041】
[第1実施形態]
(文書データ変換装置の構成)
以下において、第1実施形態に係る文書データ変換装置について、図面を参照しながら説明する。図1は、第1実施形態に係る文書変換装置100を示すブロック図である。
【0042】
図1に示すように、文書変換装置100は、自由フォーマットデータDB10と、標準フォーマットデータDB20と、キーワードリストDB30と、算出部40と、生成部50と、ユーザインタフェース60と、変換テーブルDB70と、変換部80と、出力部90とを有する。
【0043】
自由フォーマットデータDB10は、自由フォーマットで作成された文書データ(以下、自由フォーマットデータ)のローカル項目毎の属性を記憶する。なお、ローカル項目は、自由フォーマットデータにおける項目である。なお、自由フォーマットとは、入力項目の項目名や入力項目に入力すべき内容のデータ型などの属性をユーザが必要に応じて定めたフォーマットのことである。
【0044】
例えば、自由フォーマットデータDB10は、図2に示すように、“ローカル項目ID”、“項目名”、“データ型”及び“バイト長”を対応付けて記憶する。
【0045】
“ローカル項目ID”は、自由フォーマットデータに含まれるローカル項目を識別する識別子である。“項目名”は、自由フォーマットデータに含まれるローカル項目の名称である。“データ型”は、自由フォーマットデータに含まれるローカル項目のデータ型である。例えば、ローカル項目に文字列を入力すべき場合には、“データ型”は“文字列型”であり、ローカル項目にフラグを入力すべき場合には、“データ型”は“フラグ型”であり、ローカル項目に数値を入力すべき場合には、“データ型”は“数値型”である。“バイト長”は、自由フォーマットデータに含まれるローカル項目に入力可能なデータのバイト単位の最大データ長である。
【0046】
また、自由フォーマットデータDB10は、自由フォーマットデータを記憶する。例えば、自由フォーマットデータDB10は、図3に示すように、“患者ID”、“カルテID”、“ローカル項目ID”及び“内容”を対応付けて記憶する。
【0047】
“患者ID”は、患者を識別する識別子である。“カルテID”は、カルテを識別する識別子である。“ローカル項目ID”は、自由フォーマットデータに含まれるローカル項目を識別する識別子である。“内容”は、自由フォーマットデータに含まれるローカル項目に入力された内容(例えば、文字列、フラグ、数値など)である。
【0048】
標準フォーマットデータDB20は、標準フォーマットで作成された文書データ(以下、標準フォーマットデータ)の標準項目毎の属性を記憶する。なお、標準項目は、標準フォーマットデータにおける項目である。なお、標準フォーマットとは、入力項目の項目名が予め定められており、入力項目に入力すべき内容のデータ型などの属性が確定しているフォーマットのことである。
【0049】
例えば、標準フォーマットデータDB20は、図4に示すように、“標準項目ID”、“項目名”、“データ型”及び“平均バイト長”を対応付けて記憶する。
【0050】
“標準項目ID”は、標準フォーマットデータに含まれる標準項目を識別する識別子である。“項目名”は、標準フォーマットデータに含まれる標準項目の名称である。“データ型”は、標準フォーマットデータに含まれる標準項目のデータ型である。例えば、“データ型”は、“文字列型”、“フラグ型”、“数値型”などである。“平均バイト長”は、標準フォーマットデータに含まれる標準項目に入力すべきデータのバイト単位の平均データ長(標準データ長)である。
【0051】
キーワードリストDB30は、標準フォーマットデータに含まれる標準項目とキーワードとを対応付けて記憶する。また、キーワードリストDB30は、標準項目とサブキーワードとを対応付けて記憶する。
【0052】
なお、キーワードは、標準項目の項目名によく使われそうな単語を予め登録したものである。サブキーワードは、標準項目の内容の文章によく使われそうな単語を予め登録したものである。
【0053】
例えば、キーワードリストDB30は、図5に示すように、“標準項目ID”、“重み”、“キーワード”及び“サブキーワードフラグ”を対応付けて記憶する。“標準項目ID”は、標準フォーマットデータに含まれる標準項目を識別する識別子である。“重み”は、標準項目と対応付けられたキーワードの重み付け値である。“キーワード”の欄には、標準項目の項目名と一致する可能性があるデータ(文字列など)がキーワードとして記憶され、標準項目の内容の文章によく使われそうなデータ(文字列)がサブキーワードとして記憶される。“サブキーワードフラグ”は、標準項目と対応付けられたキーワードがサブキーワードであるか否かを示すフラグである。従って、図5では、“主訴”、“S”、“主観的情報”及び“患者訴え”は、キーワードであり、“頭痛”及び“高熱”は、サブキーワードである。
【0054】
算出部40は、ローカル項目の項目名と標準項目に対応付けられるキーワードとの一致度(以下、一致度A)を当該標準項目に対応付けられた全キーワードについて算出し、それらを加算した値を、ローカル項目が標準項目に所属する所属確率とする。
【0055】
一致度Aの算出方法としては、以下に示す方法が考えられる。ここでは、ローカル項目の項目名を構成する文字列を“A文字列”と称し、標準項目に対応付けられるキーワードを構成する文字列を“B文字列”と称して説明する。
【0056】
(1)A文字列及びB文字列のそれぞれを単一文字に分解して、A文字列を構成する文字とB文字列を構成する文字とが一致する数を、A文字列の文字列長(文字数)及びB文字列の文字列長(文字数)の総和で除算する。このような演算結果が一致度Aとして算出される。
【0057】
(2)A文字列及びB文字列のうち、文字数が多い文字列(X)に、文字数が少ない文字列(Y)が含まれる数を計数して、計数された値に文字列(Y)の文字列長(文字数)を乗算して、乗算された値を文字列(X)の文字列長(文字数)で除算する。このような演算結果が一致度Aとして算出される。
【0058】
(3)A文字列及びB文字列のうち、一方の文字列(P)のn(nは1以上の整数)番目の文字と他方の文字列(Q)のn番目の文字とを比較して、両者が一致する場合には、n+1番目の文字の比較に移る。一方で、両者が一致しない場合には、一方の文字列(P)のn番目の文字を他方の文字列(Q)のn番目の文字とを置き換える。また、一方の文字列(P)に比較すべき文字が存在しない場合には、一方の文字列(P)のn番目に他方の文字列(Q)のn番目の文字を挿入する。さらに、他方の文字列(P)に比較すべき文字が存在しない場合には、一方の文字列(P)のn番目の文字を削除する。A文字列及びB文字列を構成する全ての文字についてこのような処理を繰り返す。続いて、置き換え、挿入及び削除の操作数の総和を編集距離として求めて、A文字列及びB文字列のうち、文字数が多い文字列長(文字数)で編集距離を除算する。最終的には、除算結果(値)を1から減算する。このような演算結果が一致度Aとして算出される。
【0059】
なお、算出部40は、ローカル項目の項目名とキーワードとの一致度Aに加えて、ローカル項目のデータ型及び標準項目のデータ型の一致度(以下、一致度B)に基づいて、所属確率を算出してもよい。なお、一致度Bは、例えば、“0”又は“1”である。“0”は、データ型が一致しないことを示しており、“1”は、データ型が一致することを示す。
【0060】
算出部40は、ローカル項目の項目名とキーワードとの一致度Aに加えて、ローカル項目に入力されたデータ長(入力データ長)及び標準項目に入力すべき標準データ長(平均データ長)との一致度(以下、一致度C)に基づいて、所属確率を算出してもよい。なお、一致度Cは、例えば、全てのローカル項目に入力されたデータの平均データ長X(平均入力データ長)と標準データ長Y(平均データ長)との差分を、X及びYのうちで大きい方の値で除算した値を1から引いた値である。
【0061】
算出部40は、ローカル項目の項目名とキーワードとの一致度Aに加えて、ローカル項目に入力されたデータに含まれる単語とサブキーワードとの一致度(以下、一致度D)に基づいて、所属確率を算出してもよい。具体的には、ローカル項目に入力されたデータを形態素解析によって複数の単語に分割して、各単語とサブキーワードとの一致度が算出される。
【0062】
算出部40は、図5に示すキーワードの“重み”を一致度Aに掛け合わせることによって、一致度Aを補正してもよい。同様に、算出部40は、図5に示すキーワードの“重み”を一致度Dに掛け合わせることによって、一致度Dを補正してもよい。
【0063】
なお、重みで補正する場合には、各キーワード(或いは、各サブキーワード)の重みを当該標準項目に対応付けられた全キーワード(或いは、全サブキーワード)の重みの総和で除算した値として正規化する。
【0064】
例えば、算出部40は、ローカル項目の項目名とキーワードとの一致度A(重みによって補正された後の一致度Aであってもよい)に、データ型の一致度B(0又は1)を乗算し、乗算結果を所属確率としてもよい。或いは、算出部40は、ローカル項目の項目名とキーワードとの一致度A(重みによって補正された後の一致度Aであってもよい)に、データ長の一致度Cを乗算し、乗算結果を所属確率としてもよい。或いは、算出部40は、ローカル項目の項目名とキーワードとの一致度A(重みによって補正された後の一致度Aであってもよい)に、ローカル項目に入力されたデータに含まれる単語とサブキーワードとの一致度D(重みによって補正された後の一致度Dであってもよい)を乗算し、乗算結果を所属確率としてもよい。
【0065】
生成部50は、算出部40によって算出された所属確率に基づいて、ローカル項目と標準項目とを対応付ける変換テーブルを生成する。
【0066】
例えば、生成部50は、所属確率が最も高いローカル項目の所属確率と所属確率が2番目に高いローカル項目の所属確率との差が所定閾値以上である場合に、所属確率が最も高いローカル項目と標準項目とを対応付ける。なお、ローカル項目と標準項目との対応付けは、ユーザ操作(例えば、終了ボタンの押下)によって確定してもよい。
【0067】
一方で、生成部50は、所属確率が最も高いローカル項目の所属確率と所属確率が2番目に高いローカル項目の所属確率との差が所定閾値未満である場合に、所属確率が所定閾値以上であるローカル項目と標準項目とを対応付ける。或いは、生成部50は、所属確率が所定閾値以上であるローカル項目(候補)の中から選択されたローカル項目と標準項目とを対応付ける。
【0068】
なお、生成部50は、ローカル項目と標準項目とを対応付けるために必要な情報の出力を出力部90に指示する。
【0069】
例えば、所属確率が最も高いローカル項目の所属確率と所属確率が2番目に高いローカル項目の所属確率との差が所定閾値以上である場合には、生成部50は、図6に示すように、標準項目“自覚症状”とローカル項目“主訴”とを対応付ける旨の出力を指示する。なお、“自覚症状”に対する所属する“主訴”の所属確率が最も高いことは勿論である。
【0070】
一方で、所属確率が最も高いローカル項目の所属確率と所属確率が2番目に高いローカル項目の所属確率との差が所定閾値未満である場合には、図7に示すように、生成部50は、標準項目“身体所見”と対応付けるべきローカル項目の候補が“所見”、“その他所見”及び“身体特徴”である旨の出力を指示する。なお、“身体所見”に対する“所見”、“その他所見”及び“身体特徴”の所属確率は所定閾値以上であることが好ましい。
【0071】
なお、標準項目と対応付けるべきローカル項目が存在しない場合には、生成部50は、全てのローカル項目の出力を指示してもよい。
【0072】
ユーザインタフェース60は、キーボードやマウスなどのユーザインタフェースである。例えば、ユーザインタフェース60は、標準項目と対応付けるべきローカル項目の候補の中から、標準項目と対応付けるローカル項目を選択するために用いられる。また、ローカル項目と標準項目との対応付けを確定するために用いられる。
【0073】
変換テーブルDB70は、生成部50によって生成された変換テーブルを記憶する。例えば、図8に示すように、変換テーブルDB70は、“標準項目ID”と“ローカル項目ID”(“ローカル項目ID1”、“ローカル項目ID2”、“ローカル項目ID3”…)とを対応付ける変換テーブルを記憶する。
【0074】
なお、“標準項目ID”と対応付けられる“ローカル項目ID”の数は特に制限されない。また、“標準項目ID”と対応付けるべき“ローカル項目ID”が存在しない場合には、“標準項目ID”と“null”とが対応付けられる。例えば、n個の“ローカル項目ID”を対応付けた後に、n+1番目の“ローカル項目ID”として“null”を記憶することによって、n+1番目以降に“ローカル項目ID”が存在しないことを識別することができる。
【0075】
変換部80は、変換テーブルに基づいて、自由フォーマットデータを標準フォーマットデータに変換する。
【0076】
なお、変換部80は、自由フォーマットデータを標準フォーマットデータに変換するために必要な情報の出力を出力部90に指示する。例えば、変換部80は、図9に示すように、出力すべき標準項目を選択するための情報の出力を指示する。また、変換部80は、図10に示すように、選択された標準項目と対応付けられるローカル項目に入力された情報の出力を指示する。
【0077】
また、図1では省略されているが、変換部80は自由フォーマットデータDB10と接続されていることは勿論である。
【0078】
出力部90は、生成部50又は変換部80の指示に従って、各種情報を出力する(図図6図7図9図10など)。出力部90は、例えば、画像を出力する表示装置である。なお、出力部90は、音声を出力するスピーカであってもよい。
【0079】
(文書データ変換装置の動作)
以下において、第1実施形態に係る文書データ変換装置の動作について、図面を参照しながら説明する。図11は、第1実施形態に係る文書変換装置100の動作を示すフロー図である。なお、図11では、変換テーブルの生成について主として説明する。
【0080】
図11に示すように、ステップ10において、文書変換装置100は、標準フォーマットデータDB20から標準項目(標準項目ID、項目名、データ型、平均データ長)を読み込む。
【0081】
ステップ20において、文書変換装置100は、ステップ10で読み込まれた標準項目(項目名)を出力する。
【0082】
ステップ30において、文書変換装置100は、自由フォーマットデータDB10からローカル項目(ローカル項目ID、項目名、データ型、データ長)を読み込む。
【0083】
ステップ40において、文書変換装置100は、ローカル項目が標準項目に所属する所属確率を算出する。例えば、文書変換装置100は、キーワードリストDB30から標準項目と対応付けられたキーワードを読み込み、ローカル項目の項目名とキーワードとの一致度Aに基づいて、所属確率を算出する。
【0084】
なお、文書変換装置100は、ローカル項目のデータ型及び標準項目のデータ型の一致度B、ローカル項目に入力されたデータ長及び標準項目に入力すべき標準データ長(平均データ長)との一致度C、ローカル項目に入力されたデータに含まれる単語とサブキーワードとの一致度Dなどに基づいて、所属確率を算出してもよい。
【0085】
ステップ50において、文書変換装置100は、所属確率が最も高いローカル項目の所属確率と所属確率が2番目に高いローカル項目の所属確率との差(1位−2位)が所定閾値α以上であるか否かを判定する。文書変換装置100は、“1位−2位”が所定閾値α以上である場合には、ステップ60の処理に移る。一方で、文書変換装置100は、“1位−2位”が所定閾値α未満である場合には、ステップ70の処理に移る。
【0086】
ステップ60において、文書変換装置100は、所属確率が最も高いローカル項目と標準項目とを対応付ける。
【0087】
ステップ70において、文書変換装置100は、標準項目と対応付けるべきローカル項目の候補を出力する。ローカル項目の候補は、所定閾値以上の所属確率を有するローカル項目であることが好ましい。
【0088】
ステップ80において、文書変換装置100は、ローカル項目の候補の中から選択されたローカル項目(選択結果)を受け付ける。選択結果は、例えば、ユーザインタフェース60を用いて入力される。
【0089】
ステップ90において、文書変換装置100は、全ての標準項目について、ローカル項目の対応付けが終了したか否かを判定する。文書変換装置100は、ローカル項目の対応付けが終了している場合には、一連の処理を終了する。文書変換装置100は、ローカル項目の対応付けが終了している場合には、ローカル項目の対応付けが終了していない標準項目について、ステップ10以降の処理を繰り返す。
【0090】
(作用及び効果)
第1実施形態では、生成部50は、ローカル項目が標準項目に所属する所属確率に基づいて、ローカル項目と標準項目とを対応付ける変換テーブルを生成する。従って、ユーザは、変換テーブルを参照して、ローカル項目を標準項目に簡易にマッピングすることができる。言い換えると、自由フォーマットデータを標準フォーマットデータに簡易に変換することができる。
【0091】
第1実施形態では、算出部40は、ローカル項目の項目名とキーワードとの一致度Aに加えて、ローカル項目のデータ型及び標準項目のデータ型の一致度B、ローカル項目に入力されたデータ長及び標準項目に入力すべき標準データ長(平均データ長)との一致度C、ローカル項目に入力されたデータに含まれる単語とサブキーワードとの一致度Dなどに基づいて、所属確率を算出してもよい。これによって、標準項目とローカル項目との対応付けの精度が向上する。
【0092】
第1実施形態では、生成部50は、最も高い所属確率が他の所属確率よりも突出している場合に、所属確率が最も高いローカル項目と標準項目とを対応付ける。従って、標準項目と対応付けるローカル項目を選択する手間が省ける。
【0093】
第1実施形態では、生成部50は、最も高い所属確率が他の所属確率よりも突出していない場合に、所属確率が所定閾値以上であるローカル項目と標準項目とを対応付ける。従って、標準項目と対応付けるべきローカル項目を絞り込むことができる。
【0094】
[変更例1]
以下において、第1実施形態の変更例1について説明する。以下においては、第1実施形態に対する相違点について主として説明する。
【0095】
具体的には、第1実施形態の内容に加えて、変更例1では、出力部90は、変換テーブルにおいて、1つのローカル項目に対して複数の標準項目が対応付けられる場合に、1つのローカル項目に入力されたデータを複数の標準項目に分割すべきことを促すメッセージを出力する。メッセージは、例えば、“ローカル項目の内容を複数の項目に分けて入力し直して下さい”といったメッセージである。
【0096】
変更例1では、出力部90は、ローカル項目を分割すべき場合に、その旨を促すメッセージを出力する。従って、ユーザの利便性が向上する。
【0097】
[変更例2]
以下において、第1実施形態の変更例2について説明する。以下においては、第1実施形態に対する相違点について主として説明する。
【0098】
具体的には、第1実施形態の内容に加えて、変更例2では、出力部90は、変換テーブルにおいて、1つの標準項目に対して複数のローカル項目が対応付けられる場合に、複数のローカル項目に入力されたデータを1つの標準項目に統合すべきことを促すメッセージを出力する。メッセージは、例えば、“複数のローカル項目の内容を1つの項目に纏めて入力し直して下さい”といったメッセージである。
【0099】
変更例2では、出力部90は、ローカル項目を統合すべき場合に、その旨を促すメッセージを出力する。従って、ユーザの利便性が向上する。
【0100】
[変更例3]
以下において、第1実施形態の変更例3について説明する。以下においては、第1実施形態に対する相違点について主として説明する。
【0101】
具体的には、第1実施形態の内容に加えて、変更例3では、出力部90は、特定の標準項目に入力すべきデータとして、変換テーブルにおいて特定の標準項目と対応付けられるローカル項目に入力されたデータを出力するとともに、特定の標準項目に要約を入力すべきことを促すメッセージを出力する。メッセージは、例えば、“出力されたデータを参照して、要約を作成して下さい”といったメッセージである。
【0102】
なお、特定の標準項目は、例えば、要約を入力すべき項目、備考を入力すべき項目などである。
【0103】
変更例3では、出力部90は、特定の標準項目と対応付けられるローカル項目に入力されたデータを出力するとともに、特定の標準項目に要約を入力すべきことを促すメッセージを出力する。従って、メッセージの参照によって、特定の標準項目にユーザが入力すべきデータを容易に判断することが可能であり、ローカル項目に入力されたデータの参照によって、特定の標準項目に入力すべきデータを容易に加工することができる。
【0104】
[その他の実施形態]
本発明は上述した実施形態によって説明したが、この開示の一部をなす論述及び図面は、この発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
【0105】
実施形態では特に触れていないが、キーワードリストDB30は、標準項目と対応付けるべきローカル項目の候補の中から選択されたローカル項目の項目名を、標準項目と対応付けられるキーワードとして記憶してもよい。これによって、標準項目と対応付けられるキーワードの精度が向上する。
【0106】
実施形態では特に触れていないが、キーワードリストDB30は、標準項目と対応付けるべきローカル項目の候補の中から選択されたローカル項目の項目名と同じキーワードの重みを増大させてもよい。
【0107】
実施形態では特に触れていないが、キーワードリストDB30は、標準項目と対応付けるべきローカル項目の候補の中から選択されたローカル項目に入力されたデータに所定頻度以上の頻度で含まれる単語を、標準項目と対応付けられるサブキーワードとして記憶してもよい。具体的には、ローカル項目に入力されたデータ(文字列)を形態素解析によって複数の単語に分割し、各単語の出現頻度をカウントし、出願頻度が所定頻度以上の単語を抽出することで、サブキーワードとすべき高頻度単語を決定できる。
【0108】
算出部40は、ローカル項目の項目名とキーワードとの一致度A(重みによって補正された後の一致度Aであってもよい)、ローカル項目のデータ型及び標準項目のデータ型の一致度B、ローカル項目に入力されたデータ長及び標準項目に入力すべき標準データ長(平均データ長)との一致度C、ローカル項目に入力されたデータに含まれる単語とサブキーワードとの一致度D(重みによって補正された後の一致度Dであってもよい)の中から選択された1以上の一致度の掛け合わせに基づいて、所属確率を算出してもよい。
【0109】
実施形態では特に触れていないが、標準項目と対応付けるべきローカル項目の候補の中から、複数のローカル項目が選択可能であってもよい(例えば、コントロールキーを押下しながら、複数のローカル項目を選択する)。なお、選択された複数のローカル項目は、スペースで区切って表示されてもよい(図7の“主訴”及び“その他の症状”を参照)。
【0110】
変更例1〜変更例3の中から選択された複数の変更例を実施形態に適用してもよい。
【0111】
上述した文書データ変換装置の動作をコンピュータに実行させるプログラムが提供されてもよい。例えば、図11に示す処理をコンピュータに実行させるプログラムが提供される。
【0112】
上記では、電子カルテを例に実施形態を述べ、項目、キーワード、サブキーワードを具体的に述べたが、前述のように、報告書類や電子商取引書類等でも実現可能である。その場合には、項目、キーワード、サブキーワードが、報告書類や電子商取引書類等の文書に特有の項目、キーワード、サブキーワードとなるだけで、その他の説明は電子カルテの場合から容易に想到できる。よって、報告書類や電子商取引書類等の文書の例については、その説明を割愛する。
【符号の説明】
【0113】
10…自由フォーマットデータDB、20…標準フォーマットデータDB、30…キーワードリストDB、40…算出部、50…生成部、60…ユーザインタフェース、70…変換テーブルDB、80…変換部、90…出力部、100…文書データ変換装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11