(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024095140
(43)【公開日】2024-07-10
(54)【発明の名称】情報処理装置、文字列出力方法及び文字列出力プログラム
(51)【国際特許分類】
G06V 30/26 20220101AFI20240703BHJP
【FI】
G06V30/266
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022212202
(22)【出願日】2022-12-28
(71)【出願人】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100147304
【弁理士】
【氏名又は名称】井上 知哉
(74)【代理人】
【識別番号】100148493
【弁理士】
【氏名又は名称】加藤 浩二
(74)【代理人】
【識別番号】100168583
【弁理士】
【氏名又は名称】前井 宏之
(72)【発明者】
【氏名】雨水 大典
【テーマコード(参考)】
5B064
【Fターム(参考)】
5B064AA01
5B064EA27
5B064FA01
(57)【要約】
【課題】予め記憶された文字列に対して他の文字列を柔軟に比較する。
【解決手段】情報処理装置102は、画像G1を取得する取得部11と、画像G1から抽出文字列を抽出する抽出部12と、抽出文字列の比較対象である対象文字列を記憶する記憶部13と、抽出文字列を第1変換文字列に変換する第1変換処理、又は対象文字列を第2変換文字列に変換する第2変換処理を行う変換部14と、第1変換文字列と対象文字列との間の第1類似度を算出する第1算出処理、又は第2変換文字列と抽出文字列との間の第2類似度を算出する第2算出処理を行う算出部15と、第1出力処理又は第2出力処理を行う出力部16とを備える。第1出力処理では、第1類似度が閾値α以上である場合に対象文字列が出力される。第2出力処理では、第2類似度が閾値β以上である場合に対象文字列が出力される。
【選択図】
図2
【特許請求の範囲】
【請求項1】
画像を取得する取得部と、
前記画像から文字列を抽出する抽出部と、
前記文字列の比較対象である対象文字列を記憶する記憶部と、
前記抽出部によって抽出された抽出文字列の少なくとも一部を所定のルールに従って変換して第1変換文字列を生成する第1変換処理と、前記対象文字列の少なくとも一部を所定のルールに従って変換して第2変換文字列を生成する第2変換処理との少なくともいずれか一方を行う変換部と、
前記第1変換処理において生成された前記第1変換文字列と前記対象文字列とが一致している割合を示す第1類似度を算出する第1算出処理と、前記第2変換処理において生成された前記第2変換文字列と前記抽出文字列とが一致している割合を示す第2類似度を算出する第2算出処理との少なくともいずれか一方を行う算出部と、
前記第1算出処理が行われた場合、前記第1類似度が閾値以上である場合に前記対象文字列を出力する第1出力処理と、前記第2算出処理が行われた場合、前記第2類似度が閾値以上である場合に前記対象文字列を出力する第2出力処理との少なくともいずれか一方を行う出力部と
を備える、情報処理装置。
【請求項2】
前記記憶部は、参考文字列が入力されると前記参考文字列の少なくとも一部が変換された変換文字列を出力する学習済みモデルを記憶し、
前記変換部は、前記第1変換処理において前記抽出文字列を前記参考文字列として前記学習済みモデルに入力し、前記学習済みモデルから出力された前記変換文字列を前記第1変換文字列として取得し、前記第2変換処理において前記対象文字列を前記参考文字列として前記学習済みモデルに入力し、前記学習済みモデルから出力された前記変換文字列を前記第2変換文字列として取得する、請求項1に記載の情報処理装置。
【請求項3】
前記記憶部は、画像における文字列の配置を示す複数の画像レイアウトごとに、画像の生成元に関する生成元情報と所定のルールとを対応づけたレイアウト情報を記憶し、
前記抽出文字列を抽出する際、前記抽出部は、前記取得部によって取得された前記画像の画像レイアウトを特定し、
前記抽出部によって特定された前記画像レイアウトが前記記憶部における複数の画像レイアウトのうちのいずれかに一致する場合、前記変換部は、前記レイアウト情報に基づいて、前記抽出部によって特定された前記画像レイアウトに対応する生成元情報に応じた前記所定のルールを適用する、請求項1に記載の情報処理装置。
【請求項4】
前記記憶部は、画像における文字列の配置を示す複数の画像レイアウトごとに、画像の生成元に関する生成元情報と所定のルールとを対応づけたレイアウト情報を記憶し、
前記抽出部は、前記レイアウト情報に含まれる前記生成元情報と同じ生成元を示す生成元文字列を前記画像から抽出すると、前記レイアウト情報に基づいて、抽出した前記生成元文字列の示す前記生成元情報に対応する画像レイアウトを特定し、前記画像レイアウトに従って前記抽出文字列を抽出し、
前記変換部は、前記レイアウト情報に基づいて、前記抽出部によって抽出された前記生成元文字列の示す生成元情報に応じた前記所定のルールを適用する、請求項1に記載の情報処理装置。
【請求項5】
前記文字列は、服薬に関する単語を含む、請求項1に記載の情報処理装置。
【請求項6】
前記出力部は、前記取得部によって取得された前記画像と、前記画像に含まれる前記抽出文字列に対応する前記対象文字列とを並べて表示装置に出力する、請求項1に記載の情報処理装置。
【請求項7】
前記出力部は、前記取得部によって取得された前記画像における前記抽出文字列を識別可能に表示する、請求項6に記載の情報処理装置。
【請求項8】
画像を取得するステップと、
前記画像から文字列を抽出するステップと、
抽出された抽出文字列の少なくとも一部を所定のルールに従って変換して第1変換文字列を生成する第1変換処理と、前記文字列の比較対象である対象文字列の少なくとも一部を所定のルールに従って変換して第2変換文字列を生成する第2変換処理との少なくともいずれか一方を行うステップと、
前記第1変換処理において生成された前記第1変換文字列と前記対象文字列とが一致している割合を示す第1類似度を算出する第1算出処理と、前記第2変換処理において生成された前記第2変換文字列と前記抽出文字列とが一致している割合を示す第2類似度を算出する第2算出処理との少なくともいずれか一方を行うステップと、
前記第1算出処理において算出された前記第1類似度が閾値以上である場合、前記対象文字列を出力する第1出力処理と、前記第2算出処理において算出された前記第2類似度が閾値以上である場合、前記対象文字列を出力する第2出力処理との少なくともいずれか一方を行うステップと
を含む、文字列出力方法。
【請求項9】
画像を取得するステップと、
前記画像から文字列を抽出するステップと、
抽出された抽出文字列の少なくとも一部を所定のルールに従って変換して第1変換文字列を生成する第1変換処理と、前記文字列の比較対象である対象文字列の少なくとも一部を所定のルールに従って変換して第2変換文字列を生成する第2変換処理との少なくともいずれか一方を行うステップと、
前記第1変換処理において生成された前記第1変換文字列と前記対象文字列とが一致している割合を示す第1類似度を算出する第1算出処理と、前記第2変換処理において生成された前記第2変換文字列と前記抽出文字列とが一致している割合を示す第2類似度を算出する第2算出処理との少なくともいずれか一方を行うステップと、
前記第1算出処理が行われた場合、前記第1類似度が閾値以上である場合に前記対象文字列を出力する第1出力処理と、前記第2算出処理が行われた場合、前記第2類似度が閾値以上である場合に前記対象文字列を出力する第2出力処理との少なくともいずれか一方を行うステップと
をコンピューターに実行させる、文字列出力プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、文字列出力方法及び文字列出力プログラムに関する。
【背景技術】
【0002】
特許文献1の処方箋受付装置は、処方箋の画像イメージを入力する入力手段と、画像イメージに文字認識処理を施すことにより画像イメージから処方箋データを得るデータ処理部とを備え、データ処理部において、各種の薬品名を含むデータを保持する薬品マスターと、文字認識処理により得られた認識文字列の一部である置換前文字列を他の文字列である置換後文字列で置き換える文字列置換手段と、置換前文字列及び置換後文字一対の文字列を受理して前記文字列置換テーブルにデータ保持させる置換文字列設定手段とを具える。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば、特許文献1に記載のような処方箋受付装置において、処方箋に含まれる薬品名と薬品マスターに含まれる薬品名とを照合する場合、薬品名の表記が処方箋と薬品マスターとで異なっていると、両方が同じ薬品を示していても、異なる薬品であると判定されてしまう。このように、特許文献1に記載のような処方箋受付装置では、処方箋に含まれる薬品名と薬品マスターに含まれる薬品名とに基づいて、処方箋に含まれる薬品名と薬品マスターに含まれる薬品名とを柔軟に比較して処方箋が示す薬品と薬品マスターが示す薬品とを照合することが困難であった。
【0005】
本開示は上記課題に鑑みてなされたものであり、その目的は、予め記憶された文字列に対して他の文字列を柔軟に比較することが可能な情報処理装置、文字列出力方法及び文字列出力プログラムを提供することにある。
【課題を解決するための手段】
【0006】
本開示に係る情報処理装置は、取得部と、抽出部と、記憶部と、変換部と、算出部と、出力部とを備える。前記取得部は、文字列が含まれる画像を取得する。前記抽出部は、前記画像から前記文字列を抽出する。前記記憶部は、前記文字列の比較対象である対象文字列を記憶する。前記変換部は、前記抽出部によって抽出された抽出文字列の少なくとも一部を所定のルールに従って変換して第1変換文字列を生成する第1変換処理と、前記対象文字列の少なくとも一部を所定のルールに従って変換して第2変換文字列を生成する第2変換処理との少なくともいずれか一方を行う。前記算出部は、前記第1変換処理において生成された前記第1変換文字列と前記対象文字列とが一致している割合を示す第1類似度を算出する第1算出処理と、前記第2変換処理において生成された前記第2変換文字列と前記抽出文字列とが一致している割合を示す第2類似度を算出する第2算出処理との少なくともいずれか一方を行う。前記出力部は、前記第1算出処理が行われた場合、前記第1類似度が閾値以上である場合に前記対象文字列を出力する第1出力処理と、前記第2算出処理が行われた場合、前記第2類似度が閾値以上である場合に前記対象文字列を出力する第2出力処理との少なくともいずれか一方を行う。
【0007】
本開示に係る文字列出力方法は、文字列が含まれる画像を取得するステップと、前記画像から前記文字列を抽出するステップと、抽出された抽出文字列の少なくとも一部を所定のルールに従って変換して第1変換文字列を生成する第1変換処理と、前記文字列の比較対象である対象文字列の少なくとも一部を所定のルールに従って変換して第2変換文字列を生成する第2変換処理との少なくともいずれか一方を行うステップと、前記第1変換処理において生成された前記第1変換文字列と前記対象文字列とが一致している割合を示す第1類似度を算出する第1算出処理と、前記第2変換処理において生成された前記第2変換文字列と前記抽出文字列とが一致している割合を示す第2類似度を算出する第2算出処理との少なくともいずれか一方を行うステップと、前記第1算出処理において算出された前記第1類似度が閾値以上である場合、前記対象文字列を出力する第1出力処理と、前記第2算出処理において算出された前記第2類似度が閾値以上である場合、前記対象文字列を出力する第2出力処理との少なくともいずれか一方を行うステップとを含む。
【0008】
本開示に係る文字列出力プログラムは、文字列が含まれる画像を取得するステップと、前記画像から前記文字列を抽出するステップと、抽出された抽出文字列の少なくとも一部を所定のルールに従って変換して第1変換文字列を生成する第1変換処理と、前記文字列の比較対象である対象文字列の少なくとも一部を所定のルールに従って変換して第2変換文字列を生成する第2変換処理との少なくともいずれか一方を行うステップと、前記第1変換処理において生成された前記第1変換文字列と前記対象文字列とが一致している割合を示す第1類似度を算出する第1算出処理と、前記第2変換処理において生成された前記第2変換文字列と前記抽出文字列とが一致している割合を示す第2類似度を算出する第2算出処理との少なくともいずれか一方を行うステップと、前記第1算出処理が行われた場合、前記第1類似度が閾値以上である場合に前記対象文字列を出力する第1出力処理と、前記第2算出処理が行われた場合、前記第2類似度が閾値以上である場合に前記対象文字列を出力する第2出力処理との少なくともいずれか一方を行うステップとをコンピューターに実行させる。
【発明の効果】
【0009】
本開示によれば、予め記憶された文字列に対して他の文字列を柔軟に比較することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】本実施形態に係る情報処理装置を含む画像処理システムを示す図である。
【
図2】本実施形態に係る情報処理装置の機能ブロック図である。
【
図3】本実施形態に係る情報処理装置において用いられる画像の一例を示す図である。
【
図4】本実施形態に係る変換部による第1変換処理及び算出部による第1算出処理を模式的に示す図である。
【
図5】本実施形態に係る変換部による第2変換処理及び算出部による第2算出処理を模式的に示す図である。
【
図7】
図6に示す画像と異なる処方箋の画像を示す図である。
【
図8】本実施形態におけるレイアウト情報の一例を示す図である。
【
図9】本実施形態に係る出力部によって表示部に表示される出力画像の一例を示す図である。
【
図10】本実施形態に係る文字列出力方法の一例を示すフローチャートである。
【
図11】本実施形態に係る文字列出力方法の他の例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本開示の実施形態について、図面を参照しながら説明する。なお、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。
【0012】
図1を参照して、本実施形態に係る情報処理装置102を含む画像処理システム100の構成について説明する。
図1は、本実施形態に係る情報処理装置102を含む画像処理システム100を示す図である。
図1に示すように、画像処理システム100は、画像読取装置101と、情報処理装置102と、操作端末10と、ネットワーク20とを備える。画像処理システム100は、例えば、医療機関で出された処方箋に基づいて薬を調合する調剤薬局において用いられる。例えば、処方箋に記載の薬品名が、調剤薬局において別の表記で登録されていることがある。この場合、調剤薬局において、処方箋に記載の薬品を探し出すことが難しくなる。
【0013】
上記の解決のため、画像読取装置101と情報処理装置102と、及び情報処理装置102と操作端末10とは、ネットワーク20を介して通信を行うことができる。ネットワーク20は、例えば、LAN(Local Area Network)、無線LAN、携帯電話通信網、赤外線通信、Bluetooth(登録商標)等のうちの少なくとも1つを含み得る。
【0014】
画像読取装置101は、例えば、スキャナーであり得る。画像読取装置101は、紙の記録媒体に形成された画像を読み取って記録媒体に形成された画像を示す画像データを生成する。例えば、記録媒体に形成された画像には、文字列が含まれる。本実施形態において、画像読取装置101は、服薬に関する単語が文字列として含まれる処方箋を読み取って、処方箋の画像G1を示す画像データを生成する。なお、画像データは、カメラ及びスマートフォンで、紙の記録媒体に形成された画像を撮像することで生成されてもよい。
【0015】
画像読取装置101は、画像読取装置101によって生成された画像データをネットワーク20を介して情報処理装置102に送信する。
【0016】
操作端末10は、ユーザーが使用する端末であり、例えば、デスクトップ型パーソナルコンピューター、ノート型パーソナルコンピューター、タブレット端末、又はスマートフォンであり得る。操作端末10は、操作部103と、表示部104と、制御部105と、記憶部106とを備える。操作部103は、キーボード、マウス、トラックパッド等を含む。表示部104は、例えば、液晶ディスプレイ及び有機エレクトロルミネッセンスディスプレイ等を含む。制御部105は、例えば、CPU(Central Processing Unit)等のプロセッサーを含む。記憶部106は、半導体メモリー及びハードディスクドライブ(HDD)等の記憶装置を含む。記憶部106は、データ及びコンピュータープログラム等を記憶する。制御部105は、操作部103、表示部104及び記憶部106を制御する。また、制御部105は、ネットワーク20を介して情報処理装置102と各種データの送受信を行う。表示部104は、表示装置の一例である。
【0017】
次に、
図2を参照して、本実施形態に係る情報処理装置102を説明する。
図2は、本実施形態に係る情報処理装置102の機能ブロック図である。
【0018】
情報処理装置102は、例えば、サーバーであり得る。情報処理装置102は、取得部11と、抽出部12と、記憶部13と、変換部14と、算出部15と、出力部16とを備える。情報処理装置102は、CPU(Central Processing Unit)等のプロセッサーを含む。記憶部13は、半導体メモリー及びハードディスクドライブ(HDD)等の記憶装置を含む。記憶部13は、データ及びコンピュータープログラム等を記憶する。記憶部13に記憶されているプログラムは、文字列出力プログラムを含む。
【0019】
情報処理装置102のプロセッサーは、記憶部13に記憶された文字列出力プログラムを実行することにより、取得部11、抽出部12、変換部14、算出部15及び出力部16として機能する。
【0020】
取得部11は、画像G1を取得する。例えば、取得部11は、画像読取装置101から送信された画像データを受信する。抽出部12は、取得部11によって取得された画像G1から文字列を抽出する。変換部14、算出部15及び出力部16については、後述する。
【0021】
次に、
図3を参照して、抽出部12による文字列の抽出について説明する。
図3は、情報処理装置102において用いられる画像G1の一例を示す図である。
【0022】
画像G1には、服薬に関する複数の単語が、それぞれ文字列として含まれる。具体的には、画像G1は、文字列CA1と、文字列CA2と、文字列CA3と、文字列CA4とを含む。また、画像G1は、文字列CB1と、文字列CB2と、文字列CB3と、文字列CB4とを含む。画像G1は、文字列CC1と、文字列CC2と、文字列CC4とを含む。
【0023】
例えば、文字列CA1は、薬品名(製品名)を示す。文字列CA2は、文字列CA1の薬品の用量を示す。文字列CA3は、文字列CA1の薬品の用法を示す。文字列CA4は、文字列CA1の薬品の内容量を日数で示す。なお、文字列CA1~文字列CA4がそれぞれ示す内容は、上記に限定されない。
【0024】
また、文字列CB1は、薬品名(製品名)を示す。文字列CB2は、文字列CB1の薬品の用量を示す。文字列CB3は、文字列CB1の薬品の用法を示す。文字列CB4は、文字列CB1の薬品の内容量を日数で示す。なお、文字列CB1~文字列CB4がそれぞれ示す内容は、上記に限定されない。
【0025】
また、文字列CC1は、薬品名(製品名)を示す。文字列CC2は、文字列CC1の薬品の用量を示す。文字列CC4は、文字列CC1の薬品の内容量を日数で示す。なお、文字列CC1~文字列CC4がそれぞれ示す内容は、上記に限定されない。
【0026】
文字列CA1、文字列CA2、文字列CA3及び文字列CA4の組み合わせの配置と、文字列CB1、文字列CB2、文字列CB3及び文字列CB4の組み合わせの配置と、文字列CC1、文字列CC2及び文字列CB4の組み合わせの配置とは、処方箋が出される医療機関ごとに異なる。
【0027】
抽出部12は、OCR(Optical Character Recognition)処理等を行なって、画像G1に含まれる各文字列を認識してテキストデータとして抽出する。以下、抽出部12によって抽出された文字列を抽出文字列と記載する場合がある。
【0028】
本実施形態において、抽出部12によって抽出文字列が抽出されると、情報処理装置102において、第1処理及び第2処理の少なくともいずれか一方が行われる。第1処理は、第1変換処理、第1算出処理及び第1出力処理を含む。第2処理は、第2変換処理、第2算出処理及び第2出力処理を含む。本実施形態において、第1処理及び第2処理のいずれの処理が行われるかは、ユーザーによって予め設定されている。例えば、第1処理を行う設定を情報処理装置102に対してユーザーが予め入力しておくことで、抽出文字列が抽出された後、第1処理が行われる。又は、第1処理及び第2処理のいずれの処理が行われるか予め設定される以外に、抽出部12によって抽出文字列が抽出された時に、いずれの処理を行うかの判断をユーザーに要求する処理が行われてもよい。
【0029】
[第1変換処理]
次に、
図2~
図4を参照して、情報処理装置102における変換部14による第1変換処理について説明する。
図4は、変換部14による第1変換処理及び算出部15による第1算出処理を模式的に示す図である。算出部15による第1算出処理については後述する。
【0030】
図2に示す変換部14は、抽出部12によって抽出された文字列の少なくとも一部を所定のルールに従って変換して第1変換文字列を生成する第1変換処理を行う。
【0031】
例えば、
図4に示すように、変換部14は、抽出部12によって抽出された文字列CA1を文字列Ca1に変換する。変換部14によって文字列CA1から変換された文字列Ca1は、第1変換文字列である。
【0032】
第1変換処理の一例として、文字列CA1である「〇〇錠◎mg」は、変換部14によって文字列Ca1である「〇〇-◎」に変換される。文字列CA1から文字列Ca1への変換の際に適用されるルールは、「錠」を「-」に置換すること、及び「mg」を削除することである。例えば、適用されるルールには、文字列CA1にない文字を追加することが含まれてもよい。
【0033】
第1変換処理の他の例として、文字列CC1である「◎〇◎〇「▽▽」」は、変換部14によって「▽▽」が削除され、文字列Cc1である「◎〇◎〇」に変換される。
【0034】
ここで、第1変換処理における所定のルールは、例えば、学習済みモデルM1による機械学習の結果、決められる。以下、学習済みモデルM1を用いた文字列の変換について説明する。
【0035】
図2に示すように、記憶部13には、学習済みモデルM1が記憶されている。例えば、ある文字列(参考文字列)が学習済みモデルM1に入力されると参考文字列の少なくとも一部を他の文字に変換した変換文字列を出力するように機械学習が行われる。具体的には、学習済みモデルM1は、処方箋に記載の文字列と処方箋に記載の文字列の変換結果とのペアを教師データとして機械学習した結果、文字列CA1のうち一部の文字が変換された文字列Ca1を第1変換文字列として出力するようになる。
【0036】
学習済みモデルM1を生成する機械学習のアルゴリズムは、教師あり学習であれば、特に限定されず、例えば、自然言語処理技術(NLP:Natural Language Processing)における機械学習の一例であるBERT(Bidirectional Encoder Representations from Transformers)、決定木、最近傍法、単純ベイズ分類器、サポートベクターマシン、又は、ニューラルネットワーク等である。
【0037】
例えば、第1変換処理において、変換部14が学習済みモデルM1に文字列CA1を入力すると、学習済みモデルM1は、文字列CA1のうち一部の文字が変換された文字列Ca1を第1変換文字列として出力する。変換部14は、学習済みモデルM1から出力された文字列Ca1を取得する。
【0038】
[第1算出処理]
次に、
図2~
図4を参照して、情報処理装置102における算出部15による第1算出処理について説明する。
【0039】
本実施形態において、
図2に示すように、記憶部13は、抽出文字列の比較対象である複数の対象文字列を記憶している。複数の対象文字列は、処方箋の例では、処方箋に記載の複数の薬品名に対して対応する、調剤薬局において登録されている薬品名を示す。算出部15は、第1変換処理において生成された第1変換文字列と対象文字列とが一致している割合を示す第1類似度を算出する第1算出処理を行う。第1算出処理は、第1変換処理の後に行われる。
【0040】
例えば、変換部14によって、第1変換文字列として文字列Ca1が生成されると、算出部15は、記憶部13を参照して、複数の対象文字列の各々と文字列Ca1とを比較し、複数の対象文字列のうちから少なくとも一部の文字が文字列Ca1に含まれる文字と一致する1つ以上の対象文字列を抽出する。具体的には、
図4に示す例では、算出部15は、文字列CS1を対象文字列として抽出したものとする。算出部15は、抽出した文字列CS1に対して、文字列Ca1との第1類似度Aを算出する。
【0041】
ここで、算出部15は、文字列CS1に加えて、文字列CS1以外の対象文字列を更に抽出し、抽出した対象文字列ごとに第1類似度を算出してもよい。
【0042】
また、変換部14によって、第1変換文字列として文字列Cc1が生成されると、算出部15は、記憶部13を参照して、複数の対象文字列の各々と文字列Cc1とを比較し、複数の対象文字列のうちから文字列CS2を対象文字列として抽出する。算出部15は、抽出した文字列CS2に対して、文字列Cc1との第1類似度Bを算出する。
【0043】
[第1出力処理]
図2に示す出力部16は、算出部15によって第1算出処理が行われた場合、第1類似度が閾値以上である場合に対象文字列を出力する第1出力処理を行う。第1出力処理は、第1算出処理の後に行われる。
【0044】
第1出力処理の一例として、算出部15によって算出された
図4に示す第1類似度Aが閾値α以上である場合、出力部16は、対象文字列である文字列CS1を表示部104に出力する。具体的には、算出部15によって算出された
図4に示す第1類似度Aが閾値α以上である場合、出力部16は、文字列CS1を含む出力画像を生成し、生成した出力画像をネットワーク20を介して操作端末10(
図1)に送信する。なお、算出部15によって、文字列Ca1に対して文字列CS1以外に複数の対象文字列が抽出され、複数の対象文字列ごとに第1類似度を算出された場合、出力部16は、複数の対象文字列を含む出力画像を生成して表示部104に出力する。このとき、例えば、出力画像には、複数の対象文字列ごとの第1類似度又は第1処理が行われた旨の情報等が含まれてもよい。
【0045】
一方、複数の対象文字列ごとの第1類似度がいずれも閾値α未満である場合、出力部16は、抽出文字列である文字列CS1を含む出力画像を生成して表示部104に出力するか、又は、文字列CS1に対応する対象文字列が存在しない旨のメッセージを含む出力画像を生成して表示部104に出力する。
【0046】
操作端末10の制御部105は、情報処理装置102の出力部16から送信された出力画像を受信し、受信した出力画像を表示するように表示部104を制御する。出力画像の詳細は後述する。
【0047】
なお、第1出力処理は、表示部104への出力画像の表示以外に、例えば、紙等の記録媒体への出力画像の画像形成つまり印刷であってもよい。
【0048】
[第2変換処理]
次に、
図2、
図3及び
図5を参照して、情報処理装置102における変換部14による第2変換処理について説明する。
図5は、変換部14による第2変換処理及び算出部15による第2算出処理を模式的に示す図である。算出部15による第2算出処理については後述する。
【0049】
図2に示す変換部14は、記憶部13に記憶されている複数の対象文字列の各々における少なくとも一部を所定のルールに従って変換して第2変換文字列を生成する第2変換処理を行う。
【0050】
例えば、
図5に示すように、抽出部12によって文字列CA1が抽出されると、変換部14は、記憶部13の複数の対象文字列のうちの文字列CS1を文字列Ca2に変換する。例えば、抽出部12は、記憶部13を参照して、複数の対象文字列の各々と文字列CA1とを比較し、複数の対象文字列のうちから少なくとも一部の文字が文字列CA1に含まれる文字と一致する1つ以上の対象文字列を抽出する。
図5に示す例では、抽出部12は、文字列CS1を対象文字列として抽出したものとする。変換部14は、抽出部12によって抽出された文字列CS1に対して第2変換処理を行う。変換部14によって文字列CS1から変換された文字列Ca2は、第2変換文字列である。
【0051】
第2変換処理の一例として、文字列CS1である「〇〇◎」は、変換部14によって文字列Ca2である「〇〇◎mg」に変換される。文字列CA1から文字列Ca1への変換の際に適用されるルールは、「◎」の後に「mg」を追加することである。例えば、適用されるルールには、文字列CS1の一部の文字を置換したり、文字列CS1から文字を削除することが含まれてもよい。
【0052】
第2変換処理の他の例として、文字列CS2である「◎〇◎〇」は、変換部14によって文字列Cc2である「◎〇錠剤」に変換される。
【0053】
第2変換処理における所定のルールは、第1変換処理と同様、学習済みモデルM1による機械学習の結果、決められる。なお、この場合、学習済みモデルM1は、調剤薬局において登録されている登録文字列と登録文字列の変換結果とのペアを教師データとして機械学習する。
【0054】
例えば、第2変換処理において、変換部14が学習済みモデルM1に文字列CS1を入力すると、学習済みモデルM1は、文字列CS1のうち一部の文字が変換された文字列Ca2を第2変換文字列として出力する。変換部14は、学習済みモデルM1から出力された文字列Ca2を取得する。
【0055】
[第2算出処理]
次に、
図2、
図3及び
図5を参照して、情報処理装置102における算出部15による第2算出処理について説明する。
【0056】
本実施形態において、算出部15は、第2変換処理において生成された第2変換文字列と抽出文字列とが一致している割合を示す第2類似度を算出する第2算出処理を行う。第2算出処理は、第2変換処理の後におこなわれる。
【0057】
例えば、変換部14によって、第2変換文字列として文字列Ca2が生成されると、算出部15は、抽出部12によって抽出された文字列CA1と文字列Ca2とを比較し、文字列CA1と文字列Ca2との第2類似度Cを算出する。
【0058】
ここで、算出部15は、変換部14によって生成された文字列Ca2以外の第2変換文字列に対して、文字列Ca2との第2類似度を算出してもよい。
【0059】
また、変換部14によって、第2変換文字列として文字列Cc2が生成されると、算出部15は、抽出部12によって抽出された文字列CC1と文字列Cc2とを比較し、文字列CC1と文字列Cc2との第2類似度Dを算出する。
【0060】
なお、例えば、抽出部12によって文字列CA1に対して複数の対象文字列が抽出された場合、算出部15は、複数の対象文字列ごとに第2類似度を算出する。
【0061】
[第2出力処理]
図2に示す出力部16は、算出部15によって第2算出処理が行われた場合、第2類似度が閾値以上である場合に対象文字列を出力する第2出力処理を行う。第2出力処理は、第2算出処理の後に行われる。
【0062】
第2出力処理の一例として、算出部15によって算出された
図2に示す第2類似度Cが閾値β以上である場合、出力部16は、対象文字列である文字列CS1を表示部104に出力する。具体的には、算出部15によって算出された
図5に示す第2類似度Cが閾値β以上である場合、出力部16は、文字列CS1を記憶部13から取得して文字列CS1を含む出力画像を生成し、生成した出力画像をネットワーク20を介して操作端末10(
図1)に送信する。なお、閾値βは、第1出力処理における閾値αと同じ値でもよいし、異なる値でもよい。なお、抽出部12によって文字列CA1に対して文字列CS1以外に複数の対象文字列が抽出され、算出部15によって複数の対象文字列ごとに第2類似度が算出された場合、出力部16は、複数の対象文字列を含む出力画像を生成して表示部104に出力する。このとき、例えば、出力画像には、複数の対象文字列ごとの第2類似度又は第2処理が行われた旨の情報等が含まれてもよい。
【0063】
一方、複数の対象文字列ごとの第2類似度がいずれも閾値α未満である場合、出力部16は、抽出文字列である文字列CS1を含む出力画像を生成して表示部104に出力するか、又は、文字列CS1に対応する対象文字列が存在しない旨のメッセージを含む出力画像を生成して表示部104に出力する。
【0064】
操作端末10の制御部105は、情報処理装置102の出力部16から送信された出力画像を受信し、受信した出力画像を表示するように表示部104を制御する。
【0065】
なお、第2出力処理は、表示部104への出力画像の表示以外に、例えば、紙等の記録媒体への出力画像の画像形成つまり印刷であってもよい。
【0066】
次に、
図6及び
図7を参照して、抽出部12による文字列の抽出についてより詳細に説明する。
図6は、
図3に示す画像G1を簡略化した図である。
図7は、
図6に示す画像G1と異なる医療機関で出された処方箋の画像G2を示す図である。画像G1と画像G2とでは、複数の文字列の配置が異なる。
【0067】
画像G1には、画像レイアウトRAに従って、文字列CA1~CA4を含む複数の文字列が配置されている。画像レイアウトRAは、画像G1における複数の文字列の配置を示す。具体的には、画像G1は、各々が4つの文字列から構成される複数のグループCGを含む。例えば、複数のグループCGのうちの1つであるグループCG1は、文字列CA1~CA4で構成される。画像レイアウトRAは、画像G1における各グループCGの配置、及びグループCGにおける4つの文字列の配置を規定している。
【0068】
画像レイアウトRAは、複数のグループCGが縦方向に1列に並ぶ配置を示す。更に、画像レイアウトRAは、グループCG1において、文字列CA1及び文字列CA2と、文字列CA3及び文字列CA4とが2行に分割されて並ぶ配置を示す。また、画像レイアウトRAは、文字列CA1が文字列CA2より左側に位置し、文字列CA3が文字列CA4より左側に位置する配置を示す。
【0069】
一方、画像G2には、画像レイアウトRAと異なる画像レイアウトRBに従って、複数の文字列が配置されている。画像レイアウトRBは、各々が4つの文字列から構成される複数のグループを含む。画像レイアウトRBは、複数のグループが縦方向に2列に並ぶ配置を示す。更に、画像レイアウトRBは、各グループにおいて、4つの文字列が縦方向に1列に並ぶ配置を示す。
【0070】
本実施形態において、抽出部12は、抽出文字列を抽出する際、取得部11によって取得された画像の画像レイアウトを特定する。例えば、取得部11によって画像G1が取得されると、抽出部12は、OCR処理に加えて、画像G1の画像処理を行って各文字列同士の間隔を測定することで、画像G1の画像レイアウトRAを特定する。また、例えば、取得部11によって画像G2が取得されると、抽出部12は、OCR処理に加えて、画像G2の画像処理を行って、画像G2の画像レイアウトRBを特定する。
【0071】
次に、
図8を参照して、本実施形態における画像レイアウトと所定のルールとの対応関係について説明する。
図8は、本実施形態におけるレイアウト情報T1の一例を示す図である。
【0072】
レイアウト情報T1は、画像レイアウトごとの、画像の生成元に関する生成元情報と所定のルールとの対応関係を示す。例えば、画像レイアウトRAに従って文字列が配置されている画像G1(
図6)の生成元は「AA病院」であり、画像G1に適用される所定のルールは、ルールRL1である。また、画像レイアウトRBに従って文字列が配置されている画像G2(
図7)の生成元は「BB医院」であり、画像G2に適用される所定のルールは、ルールRL2である。
【0073】
変換部14は、第1変換処理又は第2変換処理を行う場合、レイアウト情報T1を参照し、取得部11によって取得された画像に対応する生成元情報に応じた所定のルールを適用する。
【0074】
なお、抽出部12は、画像処理を行って画像レイアウトを特定する以外に、抽出した抽出文字列に基づいて、画像レイアウトを特定してもよい。例えば、抽出部12は、生成元文字列「AA病院」を画像G1から抽出すると、レイアウト情報T1に基づいて、抽出した生成元文字列「AA病院」に対応する画像レイアウトRAを特定する。抽出部12は、特定した画像レイアウトRAに従って、他の抽出文字列を抽出する。また、変換部14は、第1変換処理又は第2変換処理を行う場合、レイアウト情報T1を参照し、抽出部12によって抽出された生成元文字列「AA病院」に応じた所定のルールを適用する。
【0075】
[出力画像]
次に、
図2及び
図9を参照して、画像処理システム100において表示部104に表示される出力画像V1について説明する。
図9は、出力部16によって表示部104に表示される出力画像V1の一例を示す図である。
【0076】
第1出力処理又は第2出力処理で説明したように、画像処理システム100における操作端末10の表示部104は、制御部105の制御により、出力部16によって出力された対象文字列を含む出力画像V1を表示する。
【0077】
図9に示すように、出力画像V1は、取得部11によって取得された画像G1と、選択ウィンドウW1と、選択ウィンドウW2と、選択ウィンドウW3とを含む。出力画像V1において、画像G1と、選択ウィンドウW1、選択ウィンドウW2及び選択ウィンドウW3とは、互いに並べて配置される。例えば、選択ウィンドウW1には、画像G1に含まれる抽出文字列である文字列CA1に対応する対象文字列である文字列CS1が配置される。
【0078】
選択ウィンドウW2は、例えば、選択ウィンドウW1に配置されたプルダウンボタンB1が押下されることにより表示部104に表示される。選択ウィンドウW2には、第1算出処理又は第2算出処理の際に、算出部15によって抽出された文字列CS1以外の対象文字列が、文字列CA1に対応する候補として配置される。
【0079】
選択ウィンドウW3は、画像G1に含まれる抽出文字列である文字列CB1に対応する対象文字列が配置されている以外、選択ウィンドウW1と同様であるため、説明を省略する。
【0080】
また、出力部16は、出力画像V1において、画像G1における抽出文字列を識別可能に表示する。例えば、出力部16は、他の文字列と区別を容易にするため、抽出文字列の背景色を変えたり、抽出文字列の表示態様を変えたりする。具体的には、出力部16は、出力画像V1の生成の際、画像G1に含まれる文字列CA1、CB1の周囲にそれぞれ枠線F1、F2を配置したり、枠線F1、F2の内側を枠線F1、F2の外側と異なる色に着色したり、文字列CA1、CB1の色を変更したりする。例えば、抽出文字列の背景色及び表示態様は、対象文字列が出力されたか否か、又は、第1類似度又は第1類似度の数値に応じて決定される。
【0081】
次に、
図10及び
図11を参照して、本実施形態に係る文字列出力方法について説明する。
図10は、本実施形態に係る文字列出力方法の一例を示すフローチャートである。
図11は、本実施形態に係る文字列出力方法の他の例を示すフローチャートである。
図10は、第1変換処理、第1算出処理及び第1出力処理を含む文字列出力方法を示す。
図11は、第2変換処理、第2算出処理及び第2出力処理を含む文字列出力方法を示す。
【0082】
図10に示すように、まず、取得部11は、画像G1を取得する(ステップS11)。
【0083】
抽出部12は、画像G1に含まれる各文字列を認識して抽出文字列として抽出する(ステップS12)。
【0084】
変換部14は、抽出部12によって抽出された抽出文字列の少なくとも一部を所定のルールに従って変換して第1変換文字列を生成する(ステップS13)。
【0085】
算出部15は、変換部14によって生成された第1変換文字列と対象文字列との第1類似度を算出して閾値αと比較する(ステップS14)。
【0086】
第1類似度が閾値α以上である場合(ステップS14でYes)、出力部16は、対象文字列を出力する(ステップS15)。文字列出力方法は終了する。
【0087】
一方、第1類似度が閾値α未満である場合(ステップS14でNo)、出力部16は、抽出文字列を出力する(ステップS16)。文字列出力方法は終了する。
【0088】
また、
図11に示すように、まず、取得部11は、画像G1を取得する(ステップS21)。
【0089】
抽出部12は、画像G1に含まれる各文字列を認識して抽出文字列として抽出する(ステップS22)。
【0090】
変換部14は、記憶部13の複数の対象文字列のうち少なくとも1つの対象文字列に対して、対象文字列の少なくとも一部を所定のルールに従って変換して第2変換文字列を生成する(ステップS23)。
【0091】
算出部15は、変換部14によって生成された第2変換文字列と抽出部12によって抽出された抽出文字列との第2類似度を算出して閾値βと比較する(ステップS24)。
【0092】
第2類似度が閾値β以上である場合(ステップS24でYes)、出力部16は、対象文字列を出力する(ステップS25)。文字列出力方法は終了する。
【0093】
一方、第2類似度が閾値β未満である場合(ステップS24でNo)、出力部16は、抽出文字列を出力する(ステップS26)。文字列出力方法は終了する。
【0094】
以上のように、本実施形態における情報処理装置102は、画像G1から抽出文字列を抽出し、抽出文字列の少なくとも一部を所定のルールに従って変換した第1変換文字列と、記憶部13における抽出文字列の比較対象である対象文字列とを比較して第1類似度を算出し、第1類似度が閾値以上である場合に対象文字列を出力する第1出力処理を行うか、画像G1から抽出文字列を抽出し、抽出文字列と、抽出文字列の比較対象である対象文字列の少なくとも一部を所定のルールに従って変換した第2変換文字列とを比較して第2類似度を算出し、第2類似度が閾値以上である場合に対象文字列を出力する第2出力処理を行う。このように、予め記憶された対象文字列と、対象文字列と比較される抽出文字列の一方が変換されるため、例えば、同じ対象に対して複数の表記が存在する場合においても、予め記憶された対象文字列に対して、抽出文字列を柔軟に比較して、抽出文字列と対象文字列が同じ対象を示すか否かを判定することが可能になる。よって、抽出文字列と対象文字列とが完全一致していない場合においても、抽出文字列と対象文字列との照合が可能になる。
【0095】
また、本実施形態では、変換部が、参考文字列が入力されると参考文字列の少なくとも一部が変換された変換文字列を出力する学習済みモデルM1を用いて、第1変換文字列又は第2変換文字列を生成する。したがって、第1変換処理又は第2変換処理における所定のルールを、より的確に適用することができる。
【0096】
また、本実施形態では、画像G1における文字列の配置を示す複数の画像レイアウトごとに、画像の生成元に関する生成元情報と所定のルールとを対応づけたレイアウト情報を記憶し、抽出部12が抽出文字列を抽出する際、画像の画像レイアウトを特定し、変換部14が、レイアウト情報に基づいて、抽出部12によって特定された画像レイアウトに対応する生成元情報に応じた所定のルールを適用する。したがって、画像レイアウトが特定されるだけで、対応する所定のルールが判定され、第1変換処理又は第2変換処理における精度が向上する。
【0097】
また、本実施形態では、画像G1における文字列の配置を示す複数の画像レイアウトごとに、画像の生成元に関する生成元情報と所定のルールとを対応づけたレイアウト情報を記憶し、抽出部12が、生成元情報を抽出すると、レイアウト情報に基づいて、生成元情報に応じた画像レイアウトを特定する。したがって、文字列の配置に基づいて、画像レイアウトが特定できない場合においても画像レイアウトの特定が可能になり、抽出文字列のより正確な抽出が可能になる。
【0098】
また、本実施形態では、対象文字列は、服薬に関する単語を含む。したがって、画像G1が処方箋を示す場合において、画像G1の内容をより正確に判断することが可能になる。なお、本実施形態において、画像G1は、処方箋に限らず、例えば、見積及び納品書等、生成元と受取先で同じ対象に対して異なる文字列が用いられる書類を示す画像であってもよい。この場合は、対象文字列を文書のタイトルや金額や日付などを示す項目名に関する単語とすることで文書に応じた適用が可能である。
【0099】
また、本実施形態では、出力部16は、画像G1に含まれる抽出文字列に対応する対象文字列と画像G1とを並べた出力画像V1を表示装置に出力する。したがって、ユーザーが画像G1に含まれる抽出文字列と対象文字列とを容易に見比べることができ、抽出文字列に対応する対象文字列について種々の判断がしやすくなる。
【0100】
また、本実施形態では、出力部16は、出力画像V1において、画像G1における抽出文字列を識別可能に表示する。したがって、ユーザーは、抽出文字列が画像G1のいずれの位置にあるかを認識しやすくなり、抽出文字列と対象文字列とをより容易に見比べることができる。
【0101】
[変形例1]
本実施形態において、第1変換処理において生成される第1変換文字列と、第2変換処理において生成される第2変換文字列とが同じ文字列になるように、所定のルールが決められてもよい。
【0102】
具体的には、第1変換処理において文字列CA1が文字列Ca1に変換される(
図4)場合、第2変換処理において文字列CS1が
図4に示す文字列Ca1に変換されるように、第1変換処理及び第2変換処理におけるそれぞれの所定のルールが決められてもよい。
【0103】
更に、この場合、情報処理装置102において第1変換処理及び第2変換処理の両方を行い、生成された第1変換文字列及び第2変換文字列のうち重複する文字列に対して第1類似度又は第2類似度を算出することで、抽出文字列と対象文字列との照合が効率的に行われ、処理時間の短縮を図ることができる。
【0104】
[変形例2]
本実施形態において、第1処理及び第2処理のいずれを行うか、又は、第1処理及び第2処理の両方を行うかは、ユーザーよる選択以外に、例えば、以前の第1処理における第1類似度又は以前の第2処理における第2類似度に基づいて判定されてもよい。例えば、記憶部13に、第1処理又は第2処理と抽出文字列とを対応付けた変換情報を記憶させる。
【0105】
抽出部12は、抽出文字列を抽出すると、記憶部13を参照し、抽出した抽出文字列に対応する変換情報が記憶されているか否かを判定する。抽出した抽出文字列に対応する変換情報が記憶部13に記憶されていない場合、抽出部12は、変換部14、算出部15及び出力部16が第1処理を行った後、第2処理を行うことを決定する。この場合、出力部16は、第1処理において算出された第1類似度を保持した状態で第2処理を行い、第2処理において算出された第2類似度と第1類似度とを比較する。出力部16は、比較結果に応じて、第1類似度と第2類似度とにうち値が大きい方と抽出文字列とを対応付けて変換情報として記憶部13に記憶させる。
【0106】
一方、抽出部12は、抽出した抽出文字列に対応する変換情報が記憶されている場合、変換情報の抽出文字列に対応付けられた第1処理又は第2処理に従って、変換部14、算出部15及び出力部16が第1処理を行うか、又は第2処理を行うかを決定する。変換部14、算出部15及び出力部16は、抽出部12に決定に従って第1処理又は第2処理を行う。なお、抽出部12が抽出した文字列が生成元文字列である場合、抽出文字列の代わりに生成元文字列が変換情報に含められてもよい。これにより、生成元に応じて第1処理を行うか第2処理を行うかが統一され、ユーザーが文字列の変換規則を推測しやすくなり、画像処理システム100の利便性が向上する。
【0107】
なお、抽出文字列が抽出された際、上記の処理を行うことなく、情報処理装置102において第1処理及び第2処理の両方が常に行われてもよい。また、情報処理装置102において、第1処理が行われるか、第2処理が行われるか、又は第1処理及び第2処理の両方が行われるかは、レイアウト情報T1に示すレイアウトごとに判定されてもよい。
【0108】
以上、図面を参照して本発明の実施形態について説明した。ただし、本発明は、上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲で種々の態様において実施できる。また、上記の実施形態に開示される複数の構成要素は適宜改変可能である。例えば、ある実施形態に示される全構成要素のうちのある構成要素を別の実施形態の構成要素に追加してもよく、又は、ある実施形態に示される全構成要素のうちのいくつかの構成要素を実施形態から削除してもよい。
【0109】
また、図面は、発明の理解を容易にするために、それぞれの構成要素を主体に模式的に示しており、図示された各構成要素の厚さ、長さ、個数、間隔等は、図面作成の都合上から実際とは異なる場合もある。また、上記の実施形態で示す各構成要素の構成は一例であって、特に限定されるものではなく、本発明の効果から実質的に逸脱しない範囲で種々の変更が可能であることは言うまでもない。
【産業上の利用可能性】
【0110】
本発明は、画像処理の分野に利用可能である。
【符号の説明】
【0111】
11 :取得部
12 :抽出部
13 :記憶部
14 :変換部
15 :算出部
16 :出力部
102 :情報処理装置
104 :表示部
A、B :第1類似度
C、D :第2類似度
CA1~CA4、CB1~CB4、CC1~CC4、CS1、CS2、Ca1、Ca2、Cc1、Cc2 :文字列
G1、G2 :画像
M1 :モデル
RA、RB :画像レイアウト
RL1、RL2 :ルール
T1 :レイアウト情報
α :閾値
β :閾値