IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社グルーパーの特許一覧

<>
  • 特開-情報処理装置、及びプログラム 図1
  • 特開-情報処理装置、及びプログラム 図2
  • 特開-情報処理装置、及びプログラム 図3
  • 特開-情報処理装置、及びプログラム 図4
  • 特開-情報処理装置、及びプログラム 図5
  • 特開-情報処理装置、及びプログラム 図6
  • 特開-情報処理装置、及びプログラム 図7
  • 特開-情報処理装置、及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022060632
(43)【公開日】2022-04-15
(54)【発明の名称】情報処理装置、及びプログラム
(51)【国際特許分類】
   G10L 15/18 20130101AFI20220408BHJP
   G10L 15/24 20130101ALI20220408BHJP
   G10L 15/22 20060101ALI20220408BHJP
   G10L 15/00 20130101ALN20220408BHJP
【FI】
G10L15/18 400
G10L15/24 Q
G10L15/22 200V
G10L15/00 200L
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2020168189
(22)【出願日】2020-10-05
(11)【特許番号】
(45)【特許公報発行日】2021-01-27
(71)【出願人】
【識別番号】520386475
【氏名又は名称】株式会社グルーパー
(74)【代理人】
【識別番号】100156867
【弁理士】
【氏名又は名称】上村 欣浩
(74)【代理人】
【識別番号】100143786
【弁理士】
【氏名又は名称】根岸 宏子
(72)【発明者】
【氏名】澤井 由光
(57)【要約】
【課題】装置の費用は抑えつつ音声認識をより高速に行うことができ、またテキストデータへの変換もより正確に行うことができる情報処理装置を提案する。
【解決手段】本発明の情報処理装置10は、音声データ取得部11aと、話者が音声を発する状況に関する情報及び話者の個人情報の少なくとも一方を含む補助データを取得する補助データ取得部11bと、音声を構成する単語及び文の候補となる候補単語及び候補文が、所定のカテゴリに分類されて記憶される記憶部12と、カテゴリのうち補助データ取得部11bで取得した補助データに関連するカテゴリに分類された候補単語及び候補文を抽出する抽出部11cと、抽出部11cで抽出された候補単語及び候補文に基づいて音声データを音声認識してテキストデータを取得する認識部11dと、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
話者が発する音声に基づく音声データを取得する音声データ取得部と、
前記話者が前記音声を発する状況に関する情報及び前記話者の個人情報の少なくとも一方を含む補助データを取得する補助データ取得部と、
前記音声を構成する単語及び文の候補となる候補単語及び候補文が、所定のカテゴリに分類されて記憶される記憶部と、
前記カテゴリのうち前記補助データ取得部で取得した前記補助データに関連するカテゴリに分類された前記候補単語及び前記候補文を抽出する抽出部と、
前記抽出部で抽出された前記候補単語及び前記候補文に基づいて前記音声データを音声認識してテキストデータを取得する認識部と、を備える情報処理装置。
【請求項2】
前記記憶部は、前記個人情報を含む前記話者に関する記録を記憶していて、
前記補助データ取得部は、
前記話者が前記音声を発する状況での画像情報及び位置情報によって前記音声を発する状況に関する情報を取得し、且つ、前記記憶部に記憶されている前記記録によって前記個人情報を取得する、請求項1に記載の情報処理装置。
【請求項3】
前記記憶部は、前記候補文と同等の意味を持つひな形文を当該候補文と関係づけて記憶していて、
前記ひな形文における特定単語を、前記テキストデータ及び前記補助データから得られる補助テキストデータの少なくとも一方に基づいて置き換えて前記話者に対応させた基礎文を作成する基礎文作成部と、
前記基礎文を所定の条件に従って集合させて前記話者に対応させた基礎文集合を作成する基礎文集合作成部と、
前記基礎文集合を、意味は同等で宛先に応じた表現に変換する表現変換部と、を備える請求項1又は2に記載の情報処理装置。
【請求項4】
請求項1~3の何れか一項に記載の情報処理装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、及びプログラムに関し、特には、音声データを音声認識してテキストデータを取得する情報処理を実行するための装置、及びそのためのプログラムに関する。
【背景技術】
【0002】
様々な業種において、報告書等のレポートを作成する業務がある。例えば介護施設では、介護者(介護従事者)は施設の利用者(要支援者、要介護者)の介護を行うとともに、利用者の介護に関するレポートを作成する業務を行う。
【0003】
介護者は、介護を行う際に利用者の体温、脈拍、食事、排便、介護時の様子等を記録して、事務所に戻った後、記録した情報に基づいて利用者のレポートを作成する。このように介護者は、現場での介護作業に加えて事務所でのレポート作成作業も行わなければならず、大きな負担となっている。
【0004】
従来、レポート作成に関する技術として、現場で働く報告者と報告を受ける受け手との電話での会話内容を音声認識してテキストデータ(文字列)に変換し、そのデータを利用して報告者のレポートを作成することができる情報処理装置が開示されている(特許文献1参照)。この装置のように音声データを音声認識してテキストデータに変換できれば、レポート作成に要する負担が大きく軽減できる可能性がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2015-7895号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで話し言葉として発せられた音声をテキストデータに変換するにあたっては、通常、音声を構成する単語や文及び音響データを大量に記憶させておき、認識対象となる音声のデータと記憶させたデータとのマッチングを行う。しかし、記憶させているデータが大量であるため、マッチング処理に時間を要することになる。またマッチングに要する時間を短縮するためには、より処理速度の速い高性能の装置を使用しなければならず、費用が嵩むことになる。更に会話の場面とは全く分野が異なる単語であっても、音響特性が似ているとマッチングされてしまうため、意味の異なるテキストデータに変換されるおそれもある。
【0007】
本発明は、このような問題点を解決することを課題とするものであり、装置の費用は抑えつつ音声認識をより高速に行うことができ、またテキストデータへの変換もより正確に行うことができる情報処理装置及びそのためのプログラムを提案することを目的とする。
【課題を解決するための手段】
【0008】
本発明は、話者が発する音声に基づく音声データを取得する音声データ取得部と、前記話者が前記音声を発する状況に関する情報及び前記話者の個人情報の少なくとも一方を含む補助データを取得する補助データ取得部と、前記音声を構成する単語及び文の候補となる候補単語及び候補文が、所定のカテゴリに分類されて記憶される記憶部と、前記カテゴリのうち前記補助データ取得部で取得した前記補助データに関連するカテゴリに分類された前記候補単語及び前記候補文を抽出する抽出部と、前記抽出部で抽出された前記候補単語及び前記候補文に基づいて前記音声データを音声認識してテキストデータを取得する認識部と、を備える情報処理装置である。
【0009】
ここで前記記憶部は、前記個人情報を含む前記話者に関する記録を記憶していて、前記補助データ取得部は、前記話者が前記音声を発する状況での画像情報及び位置情報によって前記音声を発する状況に関する情報を取得し、且つ、前記記憶部に記憶されている前記記録によって前記個人情報を取得することが好ましい。
【0010】
また前記記憶部は、前記候補文と同等の意味を持つひな形文を当該候補文と関係づけて記憶していて、前記ひな形文における特定単語を、前記テキストデータ及び前記補助データから得られる補助テキストデータの少なくとも一方に基づいて置き換えて前記話者に対応させた基礎文を作成する基礎文作成部と、前記基礎文を所定の条件に従って集合させて前記話者に対応させた基礎文集合を作成する基礎文集合作成部と、前記基礎文集合を、意味は同等で宛先に応じた表現に変換する表現変換部と、を備えることが好ましい。
【0011】
また本発明は、上述した何れか一つの情報処理装置としてコンピュータを機能させるためのプログラムでもある。
【発明の効果】
【0012】
本発明の情報処理装置では、音声を構成する単語及び文の候補となる候補単語及び候補文が、所定のカテゴリに分類されて記憶部に記憶されている。そして、補助データ取得部で取得した補助データに関連するカテゴリに分類された候補単語及び候補文を抽出部で抽出し、絞り込んだ候補単語及び候補文に基づいて音声データの音声認識を行うため、マッチングに要する時間を短縮することができる。また、話者が音声を発する状況に関する情報や話者の個人情報を含む補助データに基づいて候補単語及び候補文を抽出していて、適切な候補単語及び候補文に基づいて音声認識が実行されるため、テキストデータへの変換をより正確に行うことができる。
【図面の簡単な説明】
【0013】
図1】本発明に係る情報処理装置を含む情報処理システムの一実施形態を示した図である。
図2】情報処理装置の構成例を示す図である。
図3】第1端末装置の構成例を示す図である。
図4】第2端末装置の構成例を示す図である。
図5】単語・文リストの一例を示す図である。
図6】レポートテンプレートの一例を示す図である。
図7】介護者と利用者の会話の一例を示す図である。
図8】基礎文集合の一例を示す図である。
【発明を実施するための形態】
【0014】
以下、本発明に係る情報処理装置、及びプログラムの一実施形態について、図面を参照しながら説明する。なお本実施形態では、介護分野で使用される状況について説明する。
【0015】
図1は、本実施形態の情報処理装置10を含む情報処理システム100を示す。情報処理システム100は、情報処理装置10、第1端末装置20、第2端末装置30、通信ネットワークNを含んで構成されている。図1に示すように本実施形態の情報処理装置10は、介護施設から離れたサーバールームに設置されている。情報処理装置10は、通信ネットワークNを介して、介護施設の介護現場(本実施形態では介護施設の食堂)で使用される第1端末装置20と、介護施設の事務所に設置された第2端末装置30とに接続されている。通信ネットワークNは、例えば専用線、移動体通信網、通信衛生網、電話回線、CATV回線等によるLANの他、WANやインターネット等である。なお、図1においては便宜上、情報処理装置10、第1端末装置20、及び第2端末装置30は各拠点にそれぞれ1台設置されているとしているが、拠点数や各拠点に設置される台数は状況に応じて任意に設定可能である。
【0016】
まず、第1端末装置20について説明する。第1端末装置20は、例えばスマートフォンやタブレット端末等の端末装置で具現化されるものであって、図3に示すように制御部21、記憶部22、入力部23、出力部24、通信部25を備えている。なお第1端末装置20を具現化するにあたっては、1台の端末装置で実現されるようにしてもよいし、ある機能はスマートフォンで実現され、ある機能はスマートウォッチで実現されるというように、複数台の端末装置で実現されるようにしてもよい。
【0017】
制御部21は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等で構成され、記憶部22に記憶されたプログラムを読み出して実行することで、第1端末装置20の動作を中央制御する。
【0018】
記憶部22は、例えば半導体メモリ等で構成される。記憶部22には、上述したプログラムの他、画像情報、音声情報、位置情報等の各種の情報が記憶される。
【0019】
入力部23は、例えば画像情報を取得するカメラ、音声情報を取得するマイク、位置情報を取得するGPSチップやビーコンチップ、文字情報を入力するためのキーボードやタッチパネル等で構成される。なお、カメラ等は第1端末装置20に内蔵されているものでもよいし、Bluetooth(登録商標)やNFCを利用して第1端末装置20と送受信可能な外部機器でもよい。
【0020】
出力部24は、例えばLCDや有機ELディスプレイ、スピーカ等で構成される。出力部24によって、第1端末装置20から各種の情報が出力される。
【0021】
通信部25は、例えば無線モジュール等で構成される。通信部25によって、通信ネットワークNを介して情報処理装置10と第2端末装置30との間で情報が送受信される。
【0022】
本実施形態の第1端末装置20は、介護施設の食堂において介護者(例えば佐藤さん)が施設の利用者(例えば田中さん)の食事の手助けを行っている状況において、介護者が装着しているものとする。なお第1端末装置20は、例えば介護を行う際に使用者(介護者)が誰であるか入力する、或いは使用者毎に個別の装置を持たせる等により、佐藤さんが使用していることが分かる状態にあるものとする。また介護施設の各部屋には固有のビーコン端末が設置されていて、このビーコン端末と第1端末装置20が送受信することによって、何れの部屋で第1端末装置20が使用されているかが分かるものとする。
【0023】
第2端末装置30は、例えばデスクトップPCやノートPC等の端末装置で具現化されるものであって、図4に示すように制御部31、記憶部32、入力部33、出力部34、通信部35を備えている。
【0024】
制御部31は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等で構成され、記憶部32に記憶されたプログラムを読み出して実行することで、第2端末装置30の動作を中央制御する。
【0025】
記憶部32は、例えばHDDや半導体メモリ等で構成される。記憶部32には、上述したプログラムの他、各種の情報が記憶される。
【0026】
入力部33は、例えばキーボードやマウス、タッチパネルのような入力機器で構成される。また入力部33は、ディスプレイ等に表示されるテキストボックス、コンボボックス、チェックボックス等を利用して情報を入力する手段や、表示されるアイコン等をマウスでクリックすることによって情報を入力する手段も含む。
【0027】
出力部34は、例えばディスプレイ、プロジェクタ、プリンタ、スピーカ等で構成される。出力部34によって、第2端末装置30から各種の情報が出力される。
【0028】
通信部35は、例えば通信用ICやコネクタ、無線モジュール等で構成される。通信部35によって、通信ネットワークNを介して情報処理装置10と第1端末装置20との間で情報が送受信される。
【0029】
本実施形態の第2端末装置30は、介護施設の事務所に設置されていて、介護者である佐藤さんが施設の利用者である田中さんに関するレポートを作成する際に使用するものとする。
【0030】
そして情報処理装置10は、例えばサーバ型のコンピュータで具現化されるものであって、図2に示すように制御部11、記憶部12、通信部13を備えている。
【0031】
制御部11は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等で構成され、記憶部12に記憶されたプログラムを読み出して実行することで、情報処理装置10の動作を中央制御する。本実施形態の制御部11は、音声データ取得部11a、補助データ取得部11b、抽出部11c、認識部11d、基礎文作成部11e、基礎文集合作成部11f、表現変換部11g、データ記憶処理部11h、データ提供処理部11jとしての動作を実行する機能を有する。
【0032】
記憶部12は、例えばHDDや半導体メモリ等で構成される。記憶部12には、上述したプログラムの他、後述する音声データ12a、画像データ12b、位置データ12c、補助データ12d、単語・文リスト12e、基礎文12f、基礎文集合12g、レポートテンプレート12h、ケアプランデータ12j、フェイスシートデータ12k、業務レポート12m、公的機関向けレポート12n、家族向けレポート12pが記憶されている。なお、レポートテンプレート12h、ケアプランデータ12j、フェイスシートデータ12k、業務レポート12m、公的機関向けレポート12n、家族向けレポート12pは、本明細書等における「話者に関する記録」に相当するものである。
【0033】
なお上記のプログラムは、記憶部12に記憶させたものに限られず、例えばコンピュータで読み取り可能な記録媒体に記録させたものでもよい。またコンピュータで読み取り可能な記録媒体について例示すると、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等であり、種類は問わない。
【0034】
通信部13は、例えば通信用ICやコネクタ等で構成される。通信部13によって、通信ネットワークNを介して第1端末装置20、第2端末装置30との間で情報が送受信される。
【0035】
なお図示は省略するが、情報処理装置10においても、第1端末装置20や第2端末装置30で説明した入力部や出力部を設けてもよい。
【0036】
ここで、制御部11と記憶部12について詳細に説明する。
【0037】
音声データ取得部11aは、話者が発する音声に基づく音声データを取得するものである。本実施形態において、話者は介護者の佐藤さんと施設の利用者の田中さんであるとする。但し、本実施形態における音声は、介護者の佐藤さんが装着している第1端末装置20の入力部23で取得されるものとし、佐藤さんの音声情報のみが、通信部25、通信ネットワークN、及び通信部13によって情報処理装置10で受信され、更に音声データ取得部11aで音声データ12aとして取得されるものとする。
【0038】
そして取得された音声データ12aは、データ記憶処理部11hによって記憶部12に記憶される。なお音声データ12aは、後述する手順で音声認識してテキストデータを取得した後、テキストデータが正しく得られたか確認する際に使用することができる。
【0039】
補助データ取得部11bは、介護者の佐藤さんと利用者の田中さんが会話を行う状況に関する情報と、利用者の田中さんの個人情報とを含む補助データを取得するものである。
【0040】
介護者の佐藤さんと利用者の田中さんの二人が会話を行う状況に関する情報として、介護者が佐藤さんであることは、情報処理装置10は第1端末装置20とデータの送受信が可能であること、及び第1端末装置20の使用者は佐藤さんであることが関連付けられていることから特定可能である。ここで補助データ取得部11bは、二人が会話をする状況での画像情報によって補助データ12dを取得する機能を備える。本実施形態においては、利用者の田中さんが食事をしている様子を介護者の佐藤さんが第1端末装置20の入力部23で撮像し、その情報が通信部25、通信ネットワークN、及び通信部13によって情報処理装置10で受信され、補助データ取得部11bによって画像データ12bとして取得される。取得された画像データ12bは補助データ取得部11bによって画像処理されて、二人の会話は利用者が食事をしている状況で行われていることを補助データ12dとして得ることができる。なお本実施形態では、画像データ12bに基づいて利用者を特定することは行っていないが、例えば利用者の顔写真等の画像データを記憶部12に予め記憶させておき、画像データ12bと顔写真等の画像データとのマッチングを行うことによって、食事をしている利用者は田中さんであると特定することが可能である。
【0041】
また補助データ取得部11bは、第1端末装置20の位置情報によって補助データ12dを作成する機能を備える。本実施形態においては、上述したように介護施設の各部屋に設置されたビーコン端末と第1端末装置20との送受信によって、第1端末装置20は食堂で使用されているとの位置情報が得られている。そしてその情報が通信部25、通信ネットワークN、及び通信部13によって情報処理装置10で受信され、補助データ取得部11bによって位置データ12cとして取得される。取得された位置データ12cは補助データ取得部11bによって所定の処理が行われ、二人の会話は食堂で行われていることを補助データ12dとして得ることができる。
【0042】
そして取得された画像データ12b、位置データ12c、及び補助データ12dは、データ記憶処理部11hによって記憶部12に記憶される。
【0043】
なお本実施形態において、利用者が田中さんであることはこの時点では不明であるが、本実施形態の補助データ取得部11bは、後述するように二人の会話(最初に行われる会話)を音声認識してテキストデータを取得した際に、利用者が田中さんであるとの補助データ12dを取得することができる。ここで、記憶部12に記憶されているケアプランデータ12j、フェイスシートデータ12k、業務レポート12mには、利用者毎に種々の情報(例えば利用者の過去、現在、将来に関する情報)が記録されている。ケアプランデータ12jは、例えば利用者の状態を改善するための計画(将来の計画、今後の予定)に関する情報が含まれている。またフェイスシートデータ12kには、例えば利用者の年齢、住所、性格、家族構成等に関する情報が含まれている。業務レポート12mには、例えば過去に行われた、又は現在の介護内容に関する情報が含まれている。従って、利用者が田中さんであると特定されることで、補助データ取得部11bは、田中さんに関するケアプランデータ12j、フェイスシートデータ12k、業務レポート12mを参照し、田中さんの個人情報に基づいて補助データ12dを得ることができる。本実施形態においては、業務レポート12mに基づいて、介護者の佐藤さんは利用者の田中さんを介護した履歴がなく、二人は初対面であるとの補助データ12dを取得する。また業務レポート12mに基づいて、田中さんは2日前にお腹の調子が悪かったとの補助データ12dを取得する。更にケアプランデータ12jに基づいて、田中さんは右手に少し痺れがあること、また一人で食事をできるようになることが目標であるとの補助データ12dを取得する。そしてフェイスシートデータ12kに基づいて、田中さんにはそばアレルギーがあるとの補助データ12dを取得する。これらの補助データ12dも、データ記憶処理部11hによって記憶部12に記憶される。
【0044】
記憶部12には、上述したように単語・文リスト12eが記憶されている。図5は単語・文リスト12eの一例を示している。単語・文リスト12eは、音声データ12aを音声認識する際のマッチングの候補となる候補単語と候補文をカテゴリ毎に分類したものである。例えば候補単語の「やきとり」、「煮物」等は、カテゴリとして「食事介護」に分類されていて、更に「食べ物の名前」のグループに属すると設定している。また候補単語の「田中」、「鈴木」等は、カテゴリとして「食堂」、「初対面」、「複数回対面」、「体の調子」、「アレルギー」に分類されていて、更に「利用者」のグループに属すると設定している。そして候補単語の「東京」、「神奈川」等は、カテゴリとして「初対面」、「複数回対面」に分類されていて、更に「地名」のグループに属すると設定している。また候補文の「[食べ物の名前]が好きなんですね」や「[食べ物の名前]は食べにくいですか」等は、カテゴリとして「食事介護」に分類されている。また「[利用者]さんですね はじめまして」や「ご出身は[地名]ですか いいところですね」等は、カテゴリとして「初対面」に分類されている。なお候補文は、候補単語のグループを指定することも可能である。例えば候補文の「[食べ物の名前]が好きなんですね」における[食べ物の名前]は、候補単語のグループ「食べ物の名前」と関連付けられていて、このグループに属する候補単語(例えば「やきとり」、「煮物」)の置き換えが可能である。すなわち、「やきとりが好きなんですね」や「煮物が好きなんですね」も候補文に含まれる。また候補文の「[お昼/朝食/夕食]をおいしく食べれてよかったですね」は、[お昼/朝食/夕食]の何れかを選択可能であって、「お昼をおいしく食べれてよかったですね」、「朝食をおいしく食べれてよかったですね」、「夕食をおいしく食べれてよかったですね」も候補文に含まれる。
【0045】
単語・文リスト12eでは、候補文と同等の意味を持つひな形文が、候補文と関係づけられている。例えば候補文の「[食べ物の名前]が好きなんですね」には、ひな形文として「[利用者]-好き-[食べ物の名前]」が関係づけられていて、候補文の「[利用者]さんですね はじめまして」には、ひな形文として「[介護者]-介護する-[利用者]」が関係づけられている。本実施形態においては、ひな形文の構造をRDF形式(主語-述語-目的語となる関係)としている。なお、本来RDFの語彙はURIで表現されるが、図5では簡略化して示している。
【0046】
そして抽出部11cは、補助データ12dに関連するカテゴリに分類された候補単語及び候補文を抽出するものである。本実施形態では、補助データ12dとして、介護者が佐藤さんであること、二人の会話は利用者が食事をしている状況で行われていること、二人の会話は食堂で行われていることが取得されている。よって抽出部11cは、これらに関連するカテゴリに分類された候補単語及び候補文を単語・文リスト12eから抽出する。本実施形態においては、図5に示した単語・文リスト12eの「食事介護」と「食堂」に分類された候補単語及び候補文を抽出するものとする。なお抽出部11cは、所定のカテゴリについては、補助データ12dとの関連性にかかわらずに優先して抽出できるように構成してもよい。本実施形態においては、「初対面」に分類された候補単語及び候補文も抽出されるものとする。
【0047】
認識部11dは、抽出部11cで抽出された候補単語及び候補文に基づいて音声データ12aを音声認識してテキストデータを取得するものである。本実施形態では、単語・文リスト12eの「食事介護」、「食堂」、「初対面」に分類された候補単語及び候補文が抽出されている。すなわち、候補単語として「やきとり」や「煮物」等、「田中」や「鈴木」等が抽出され、また候補文として「[食べ物の名前]が好きなんですね」や「[食べ物の名前]は食べにくいですか」等、「[利用者]さんですね はじめまして」や「ご出身は[地名]ですか いいところですね」等が抽出される。そして、例えば音声データ12aとして「煮物が好きなんですね」のデータが与えられた場合、候補単語として「煮物」が抽出され、候補文として「[食べ物の名前]が好きなんですね」が抽出されているため、認識部11dによる音声認識によって抽出した候補単語と候補文とのマッチングが行われ、「煮物が好きなんですね」がテキストデータとして取得される。また音声データ12aとして「田中さんですね はじめまして」とのデータが与えられた場合、候補単語として「田中」が抽出され、候補文として「[利用者]さんですね はじめまして」が抽出されているため、認識部11dによる音声認識によって抽出した候補単語と候補文とのマッチングが行われ、「田中さんですね はじめまして」がテキストデータとして取得される。なお音声データ12aが、抽出部11cで抽出された候補単語及び候補文に含まれないデータであった場合は、テキストデータは取得されないことになる。
【0048】
認識部11dは、補助データ12dをテキストデータ(補助テキストデータ)として認識する機能も有する。例えば本実施形態では、補助データ12dとして、介護者が佐藤さんであること、二人の会話は利用者が食事をしている状況で行われていること、二人の会話は食堂で行われていることが取得されていて、認識部11dによって、「佐藤」、「食事」、「食堂」等の補助テキストデータを得ることができる。
【0049】
基礎文作成部11eは、ひな形文における特定単語を、テキストデータ及び補助テキストデータの少なくとも一方に基づいて置き換えて、話者に対応させた基礎文12fを作成するものである。ここで特定単語とは、これが置き換わることによって、ひな形文としての一般的(汎用的)な内容が、話者に対応した意味合いになる単語である。本実施形態においては、ひな形文「[利用者]-好き-[食べ物の名前]」については、[利用者]と[食べ物の名前]が特定単語に相当する。また、ひな形文「[介護者]-介護する-[利用者]」については、[介護者]と[利用者]が特定単語に相当する。またテキストデータとして得られた「煮物が好きなんですね」は、ひな形文「[利用者]-好き-[食べ物の名前]」に対応する候補文「[食べ物の名前]が好きなんですね」と候補単語「煮物」とのマッチングによって特定され、テキストデータとして得られた「田中さんですね はじめまして」は、ひな形文「[介護者]-介護する-[利用者]」に対応する候補文「[利用者]さんですね はじめまして」と候補単語「田中」とのマッチングによって特定されていることも得られている。従って基礎文作成部11eによって、特定単語の[利用者]、[食べ物の名前]、[介護者]を、「田中」、「煮物」、「佐藤」に置き換えることによって、話者に対応させた基礎文12fとして、「田中-好き-煮物」と「佐藤-介護する-田中」を作成される。
【0050】
基礎文集合作成部11fは、基礎文12fを所定の条件に従って集合させて、話者に対応させた基礎文集合12gを作成するものである。具体的には、例えば上述した2つの基礎文12fを集合させて、基礎文集合12g「田中-好き-煮物」、「佐藤-介護する-田中」を作成する。
【0051】
そして作成された基礎文12fと基礎文集合12gは、データ記憶処理部11hによって記憶部12に記憶される。
【0052】
表現変換部11gは、基礎文集合12gを、意味は同等で宛先に応じた表現に変換するものである。上述したように記憶部12は、レポートテンプレート12hを記憶していて、表現変換部11gは、レポートテンプレート12hに基づいて基礎文集合12gを宛先に応じた表現に変換する。図6はレポートテンプレート12hの一例であって、基礎文集合12gの元となるひな形文の集合が、介護施設向け表現、家族向け表現、公的機関向け表現に関連付けられている。本実施形態における元となるひな形文の集合は、RDF形式となるひな形文を集合させたRDFスキーマとして構成されている。ここで、基礎文集合12gとして「佐藤-介護する-田中」、「田中-食事の介助要否-不要」、「田中-右手-よい」が作成されている場合、宛先が家族向けであることを指定すると、表現変換部11gは、基礎文集合12gとこの基礎文集合12gの元としたひな形文の集合(「[介護者]-介護する-[利用者]」、「[利用者]-食事の介助要否-[要/不要]」、「[利用者]-[体のパーツ]-[よい/悪い/普通]」、図6参照)との対比を行い、更にひな形文の集合に関係する家族向け表現に変換する。すなわちこの場合は、「田中さんが食事をされていました。右手の調子はよく、・・・」のように変換する。このようにして、基礎文集合12gを順次宛先に応じた表現に変換することができる。そして宛先に応じた表現の文章を利用して、家族向けレポート12pを作成することができる。また宛先の指定を変更することで、介護施設向けの業務レポート12mや公的機関向けレポート12nを作成することができる。
【0053】
このようにして作成した業務レポート12m、公的機関向けレポート12n、家族向けレポート12pは、データ記憶処理部11hによって記憶部12に記憶される。
【0054】
データ提供処理部11jは、記憶部12に記憶されている各種のデータを呼び出して、通信部13と通信ネットワークNを介して、第1端末装置20や第2端末装置30に提供するものである。これにより、第1端末装置20や第2端末装置30で業務レポート12m等の作成や参照を行うことができる。
【0055】
なお図示は省略するが、本実施形態の情報処理装置10においては、上記の手法によるテキストデータの取得とは別異に、音声データ12aと大量の単語や文及び音響データとのマッチングを統計的言語モデルの手法を実施してもよい。統計的言語モデルの手法で得られたテキストデータは、単語・文リスト12eで不足している候補単語や候補文を補う際に使用することができる。
【0056】
次に、このような情報処理装置10の動作について実際の状況に則して説明する。以下の説明においては、図7に示した会話が行われているものとする。またこの会話は、上述した状態と同じ状況で行われているものとする。
【0057】
まず、介護者の佐藤さんが利用者の田中さんに向けて「田中さんですね はじめまして」との音声を発する。この音声情報は、第1端末装置20の入力部23で取得され、通信部25、通信ネットワークN、及び通信部13を介して情報処理装置10で受信され、更に音声データ取得部11aで音声データ12aとして取得される。なおこの際、上述したように補助データ取得部11bによって、介護者が佐藤さんであること、二人の会話は利用者が食事をしている状況で行われていること、二人の会話は食堂で行われていることが補助データ12dとして取得されている。
【0058】
また上述したように、補助データ12dに関連するカテゴリと所定のカテゴリに分類された候補単語及び候補文が、抽出部11cによって抽出される。本実施形態においては、図5に示した単語・文リスト12eの「食事介護」、「食堂」、「初対面」に分類された候補単語及び候補文が抽出される。
【0059】
そして認識部11dによって、音声データ12aと、抽出された「食事介護」、「食堂」、「初対面」に分類されている候補単語及び候補文とのマッチングが行われる。今回は抽出されている候補単語及び候補文に、音声データ12a「田中さんですね はじめまして」とマッチングする候補単語及び候補文が存在するため、テキストデータとして「田中さんですね はじめまして」が取得される。このように本実施形態の情報処理装置10では、抽出部11cによって会話の状況に応じた適切な候補単語及び候補文に絞り込んだうえで音声認識を行うため、マッチングに要する時間を短縮することができるうえ、会話の状況に沿わない変換が生じにくくなって、より正確なテキストデータが得られる。
【0060】
また取得したテキストデータ「田中さんですね はじめまして」は、候補文の「[利用者]さんですね はじめまして」に基づいて得られていることから、補助データ取得部11bは、[利用者]に対応する「田中」さんが利用者であるとの補助データ12dを取得することができる。そして上述したように、記憶部12に記憶されているケアプランデータ12j、フェイスシートデータ12k、業務レポート12mを参照して、利用者の田中さんは、介護者の佐藤さんと初対面であること、2日前にお腹の調子が悪かったこと、右手に少し痺れがあること、一人で食事をできるようになることが目標であること、そばアレルギーがあるとの補助データ12dが取得される。そして、取得した補助データ12dに関連するカテゴリ(「体の調子」、「アレルギー」)に分類された候補単語及び候補文が抽出される。
【0061】
このようにして情報処理装置10は、二人の会話からテキストデータを順次取得することができる。また取得したテキストデータも使って、補助データ12dを増やすことができる。そして上述したように認識部11dは、補助データ12dをテキストデータ(補助テキストデータ)として認識する機能も有しているため、補助テキストデータも順次増やしていくことができる。
【0062】
なお、図7に示した会話において、介護者の佐藤さんが発する「私は佐藤と申します」の音声データ12aは、図5に示した単語・文リスト12eの「食事介護」、「食堂」、「初対面」に分類された候補単語及び候補文に含まれないデータであるため、本実施形態ではこのテキストデータは取得されない。また本実施形態では、介護者の佐藤さんが装着している第1端末装置20の入力部23で取得される音声情報のみでテキストデータを取得するようにしていて、利用者の田中さんが発する音声は、予めテキストデータへの変換対象から外されている。すなわち、後述するレポート作成においては、会話の全てについてテキストデータが必要な訳ではないため、レポート作成にあたって必要性が高い候補単語及び候補文に絞り込んでテキストデータを取得することができる。なお図7においては、テキストデータとして取得される会話に下線を付けて示している。
【0063】
取得したテキストデータは、第1端末装置20の出力部24で出力させる(例えばスマートフォンやスマートウォッチの画面に表示する)ようにしてもよい。すなわち、介護者の佐藤さんが発する「田中さんですね はじめまして」の音声が、正しくテキストデータに変換されているか確認することができる。なお、正しくテキストデータに変換されていない場合には、第1端末装置20を操作してフラグを付けることができる機能を持たせてもよい。具体的には、出力部24で出力させたテキストデータが誤っている場合に第1端末装置20の入力部23を操作すると(例えばタッチパネルの所定部位にタッチすると)、その情報が情報処理装置10に送信され、制御部11で誤ったテキストデータにフラグを付けるようにしてもよい。これにより、誤ったテキストデータを後で修正する作業が容易になる。
【0064】
次いで情報処理装置10は、基礎文作成部11eによって、ひな形文における特定単語を、テキストデータ及び補助テキストデータの少なくとも一方に基づいて置き換えて、話者に対応させた基礎文12fを作成する。現在得られているテキストデータ(図7において下線を付して示す)において、例えば「田中さんですね はじめまして」は、図5に示すように、ひな形文「[介護者]-介護する-[利用者]」に対応する候補文「[利用者]さんですね はじめまして」と候補単語「田中」とのマッチングによって特定されている。そして上述したようにこの場合の特定単語である[介護者]、[利用者]を、「佐藤」、「田中」に置き換えることによって、図8に示すように、基礎文12f「佐藤-介護する-田中」を作成する。
【0065】
更に情報処理装置10は、基礎文集合作成部11fによって、基礎文12fを所定の条件に従って集合させて、話者に対応させた基礎文集合12gを作成する。本実施形態では、図8に示すように、基礎文12f「佐藤-介護する-田中」や基礎文12f「田中-右手-よい」等を集合させた基礎文集合12gを作成する。
【0066】
このようにして介護者の佐藤さんが発した音声は、図8に示した基礎文集合12gになる。
【0067】
そして介護者の佐藤さんが、利用者の田中さんに関するレポートを作成する際は、第2端末装置30を操作して、情報処理装置10における表現変換部11gでの動作を実行させる。上述したように表現変換部11gは、図6に示したレポートテンプレート12hに基づいて基礎文集合12gを宛先に応じた表現に変換する。すなわち宛先が家族向けであることを指定すると、基礎文集合12gは、「田中さんが食事をされていました。右手の調子はよく、お一人でお食事されていました。」のように軟らかい表現に変換される。また宛先が介護施設向けであることを指定すると、基礎文集合12gは、「担当:佐藤(改行) 田中様の右手の調子は良好で、食事のサポートは不要であった。」のように、所定の書式で且つ簡潔な表現に変換される。このように本実施形態の情報処理装置10によれば、音声認識によって変換されたテキストデータ通りの文章だけでなく、宛先を指定するだけで、同一の意味を持つ適切な表現の文章を所定の書式で作成することができる。そして表現変換部11gで変換された文章を適宜組み合わせることによって、適切な表現のレポートを作成することができる。なお本実施形態では、レポートテンプレート12hで得られる文章は短文(作成するレポートの一部の文章)とし、レポート作成者がこれを組み合わせつつ、適宜加筆や修正を行ってレポートを作成するようにしているが、レポートテンプレート12hを適宜変更すれば、レポートの全文を自動的に作成することも可能である。
【0068】
以上、本発明の一実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、上記の説明で特に限定しない限り、特許請求の範囲に記載された本発明の趣旨の範囲内において、種々の変形・変更が可能である。また、上記の実施形態における効果は、本発明から生じる効果を例示したに過ぎず、本発明による効果が上記の効果に限定されることを意味するものではない。
【0069】
例えば基礎文作成部11eで基礎文12fを作成する際、テキストデータ及び補助テキストデータが不足していると、特定単語の全てを置き換えることができないおそれがある。すなわち、例えばひな形文「[利用者]-好き-[食べ物の名前]」の特定単語[利用者]と[食べ物の名前]に対して、[利用者]は「田中」であることが特定できる一方、[食べ物の名前]に対応するテキストデータ及び補助テキストデータが不足していて置き換えができず、不完全な基礎文が生じる場合が考えられる。このような場合に対応するものとして、制御部11に対して不完全な基礎文を抽出する「不完全基礎文抽出部」を設けてもよい。「不完全基礎文抽出部」の機能としては、介護中、第1端末装置20の出力部24に、「食べ物の名前」が不足していることを表示させることが挙げられる。これにより介護者に対し、利用者との会話において「食べ物の名前」が出てくるように促すことができる。また「不完全基礎文抽出部」の機能として、介護者がレポートを作成する際、第2端末装置30の出力部34(例えばディスプレイ)に、不完全な基礎文(又は不完全な基礎文を含んだ基礎文集合12gを表現変換部11gで変換した文章)を表示させるようにしてもよい。不完全とはいえ表示させた基礎文(文章)は一部が不足しているだけなので、介護者は不足する部分を補いながら効率よくレポートを作成することが可能である。
【産業上の利用可能性】
【0070】
本発明に係る情報処理装置、及びプログラムは、介護施設での使用に限られず、例えば各種の面談(研修会社での社員面談やブライダルフェアの面談等)や顧客からの要望を受け付ける場面(例えばホテルのコンシェルジュが施設内を移動しながら顧客からの要望を聴く)等、種々の場面で利用することが可能である。
【符号の説明】
【0071】
10:情報処理装置
11:制御部
11a:音声データ取得部
11b:補助データ取得部
11c:抽出部
11d:認識部
11e:基礎文作成部
11f:基礎文集合作成部
11g:表現変換部
11h:データ記憶処理部
11j:データ提供処理部
12:記憶部
12a:音声データ
12b:画像データ
12c:位置データ
12d:補助データ
12e:文リスト
12f:基礎文
12g:基礎文集合
12h:レポートテンプレート
12j:ケアプランデータ
12k:フェイスシートデータ
12m:業務レポート
12n:公的機関向けレポート
12p:家族向けレポート
13:通信部
20:第1端末装置
21:制御部
22:記憶部
23:入力部
24:出力部
25:通信部
30:第2端末装置
31:制御部
32:記憶部
33:入力部
34:出力部
35:通信部
N:通信ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2020-12-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
話者が発する音声に基づく音声データを取得する音声データ取得部と、
前記話者が前記音声を発する状況に関する情報及び前記話者の個人情報の少なくとも一方を含む補助データを取得する補助データ取得部と、
前記音声を構成する単語及び文の候補となる候補単語及び候補文が、所定のカテゴリに分類されて記憶される記憶部と、
前記カテゴリのうち前記補助データ取得部で取得した前記補助データに関連するカテゴリに分類された前記候補単語及び前記候補文を抽出する抽出部と、
前記抽出部で抽出された前記候補単語及び前記候補文に基づいて前記音声データを音声認識してテキストデータを取得する認識部と、を備え
前記記憶部は、前記候補文と同等の意味を持つひな形文を当該候補文と関係づけて記憶していて、
前記ひな形文における特定単語を、前記テキストデータ及び前記補助データから得られる補助テキストデータの少なくとも一方に基づいて置き換えて前記話者に対応させた基礎文を作成する基礎文作成部と、
前記基礎文を所定の条件に従って集合させて前記話者に対応させた基礎文集合を作成する基礎文集合作成部と、
前記基礎文集合を、意味は同等で宛先に応じた表現に変換する表現変換部と、を備える情報処理装置。
【請求項2】
前記記憶部は、前記個人情報を含む前記話者に関する記録を記憶していて、
前記補助データ取得部は、
前記話者が前記音声を発する状況での画像情報及び位置情報によって前記音声を発する状況に関する情報を取得し、且つ、前記記憶部に記憶されている前記記録によって前記個人情報を取得する、請求項1に記載の情報処理装置。
【請求項3】
請求項1又は2に記載の情報処理装置としてコンピュータを機能させるためのプログラム。