IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝テック株式会社の特許一覧

特開2024-66440情報処理方法、情報処理装置、及びプログラム
<>
  • 特開-情報処理方法、情報処理装置、及びプログラム 図1
  • 特開-情報処理方法、情報処理装置、及びプログラム 図2
  • 特開-情報処理方法、情報処理装置、及びプログラム 図3
  • 特開-情報処理方法、情報処理装置、及びプログラム 図4
  • 特開-情報処理方法、情報処理装置、及びプログラム 図5
  • 特開-情報処理方法、情報処理装置、及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024066440
(43)【公開日】2024-05-15
(54)【発明の名称】情報処理方法、情報処理装置、及びプログラム
(51)【国際特許分類】
   G16H 80/00 20180101AFI20240508BHJP
【FI】
G16H80/00
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023136493
(22)【出願日】2023-08-24
(31)【優先権主張番号】63/421,228
(32)【優先日】2022-11-01
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】000003562
【氏名又は名称】東芝テック株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】遠藤 浩士
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA00
(57)【要約】
【課題】発話者の意図を含む会話ログを作成することができる情報処理方法、情報処理装置、及びプログラムを提供する。
【解決手段】複数の端末間の通話を処理する情報処理装置が実行する情報処理方法は、端末からユーザの通話情報を取得することと、前記通話情報に基づいて、会話ログを作成することと、前記通話情報に基づいて前記ユーザの発話意図を判定することと、前記会話ログに紐付けて前記発話意図を保存することと、を備える。
【選択図】 図2
【特許請求の範囲】
【請求項1】
複数の端末間の通話を処理する情報処理装置が実行する情報処理方法であって、
端末からユーザの通話情報を取得することと、
前記通話情報に基づいて、会話ログを作成することと、
前記通話情報に基づいて前記ユーザの発話意図を判定することと、
前記会話ログに紐付けて前記発話意図を保存することと、
を備える情報処理方法。
【請求項2】
前記通話情報に基づいて、前記ユーザの状態を認識することをさらに備え、
前記判定することは、認識結果に基づいて前記発話意図を判定することを含む、
請求項1に記載の情報処理方法。
【請求項3】
前記通話情報は、音声情報、及び画像情報を含み、
前記判定することは、前記音声情報、及び前記画像情報の少なくとも一方に基づいて前記発話意図を判定することを含む、
請求項1に記載の情報処理方法。
【請求項4】
前記会話ログと前記発話意図を出力することをさらに備える、
請求項1に記載の情報処理方法。
【請求項5】
複数の端末間の通話を処理する情報処理装置であって、
端末からユーザの通話情報を取得する通話情報取得部と、
前記通話情報に基づいて、会話ログを作成するログ作成部と、
前記通話情報に基づいて前記ユーザの発話意図を判定する判定部と、
前記会話ログに紐付けて前記発話意図を保存する記憶部と、
を備える情報処理装置。
【請求項6】
複数の端末間の通話を処理する情報処理装置のコンピュータに、
端末からユーザの通話情報を取得する機能と、
前記通話情報に基づいて、会話ログを作成する機能と、
前記通話情報に基づいて前記ユーザの発話意図を判定する機能と、
前記会話ログに紐付けて前記発話意図を保存する機能と、
を実行させることが可能なプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理方法、情報処理装置、及びプログラムに関する。
【背景技術】
【0002】
近年、病院での診療方法として、患者が病院に出向き医師と対面で実施する「対面治療」だけではなく医師と患者が通信デバイスを用いることで、患者が医療機関に直接出向かず診察を受ける「遠隔診療」が行われるようになっている。遠隔診療においては、患者宅、又は所定の場所に医療機器を設置し、医療機器で得たバイタルデータを通信で遠隔地の医師に送り、医師はデータに基づいて診断を行う。
【0003】
遠隔診療の一つとして、所定の場所において、医療機器と通話が可能な機器を備えた、リアルタイムで患者と医師とのビデオ通話等による診療が可能な遠隔診療ブース、遠隔診療ボックス、遠隔診療キオスク等と呼ばれる、情報処理システムがある。これにより、通信デバイスによる対話での診療だけでなく、血圧計や聴診器等の医療機器を用いた診療が遠隔診療で実現でき、より詳細に症状の検査が可能となる。
【0004】
遠隔診療では、通信デバイスを介した対話をテキストデータ化し、医師や患者、患者の家族等が対話終了後に見直せる会話ログを利用することがある。
【0005】
しかしながら、会話ログでは、発話文に複数の意図が含まれ得る場合、発話者の意図が正しく読み取れないことがある。
【0006】
そこで、発話者の意図を含む会話ログを作成することができる通話処理システムが求められている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2019-133271号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の実施形態が解決しようとする課題は、発話者の意図を含む会話ログを作成することができる情報処理方法、情報処理装置、及びプログラムを提供しようとするものである。
【課題を解決するための手段】
【0009】
一実施形態において、複数の端末間の通話を処理する情報処理装置が実行する情報処理方法は、端末からユーザの通話情報を取得することと、前記通話情報に基づいて、会話ログを作成することと、前記通話情報に基づいて前記ユーザの発話意図を判定することと、前記会話ログに紐付けて前記発話意図を保存することと、を備える。
【図面の簡単な説明】
【0010】
図1図1は、実施形態に係る情報処理システムに含まれる遠隔診療ブースを例示する外観図である。
図2図2は、実施形態に係る情報処理システムを例示するブロック図である。
図3図3は、実施形態に係る会話ログ情報のデータ構造の一例を例示する図である。
図4図4は、実施形態に係る会話ログ情報のデータ構造の別の例を例示する図である。
図5図5は、実施形態に係るサーバによる情報処理の手順の一例を示すフローチャートである。
図6図6は、実施形態に係るサーバによる情報処理の手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
(実施形態)
(構成例)
以下、図面を用いて実施形態について説明する。
【0012】
各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。
図1は、実施形態に係る情報処理システム100に含まれる遠隔診療ブースを例示する外観図である。
遠隔診療ブースは、四方を壁に囲まれ、会話などが外部に漏れにくく、診察中のプライバシーが守られるような設備である。遠隔診療ブースは、診療ブース、又は単にブースともいう。ブース内には椅子、机等が設置され、測定を行うための医療機器、及びブース外の医師とコミュニケーションをとるための通信装置が設置されている。例えば、各市区町村等のエリア毎に複数の診療ブースが設置されている。患者は、予め診療ブースで遠隔診療を受けるための予約を行い、予約時間に予約した診療ブースに入る。患者は、診療ブース内の通信装置を介して医師とビデオ通話等で対話を行い、医師の指示等に基づいて医療機器を使用し、生体データ等の測定を行う。医療機器による測定データは、リアルタイムで医師が使用する医者用機器等で参照することができる。医師は、測定データに基づいて診察を行うことができる。各診療ブースは、病院毎に設けられてもよいし、複数の病院の複数の医師により使用されるものでもよい。
【0013】
図2は、実施形態に係る情報処理システム100を例示するブロック図である。
情報処理システム100は、サーバ1、第2の通信機器4、及び少なくとも1つの遠隔診療ブースを含む。遠隔診療ブースは、遠隔診療支援装置2、及び第1の通信機器3を含む。サーバ1、遠隔診療支援装置2、第1の通信機器3、及び第2の通信機器4は、ネットワークを介して互いに通信自在に接続する。例えば、ネットワークは、インターネット、携帯通信網及びLAN(Local Area Network)等の種々のネットワークのうちの1以上のネットワークで構成される。1以上のネットワークは、無線ネットワークを含んでもよいし、有線ネットワークを含んでもよい。遠隔診療支援装置2、及び第1の通信機器3は、ネットワークを介して互いに通信可能に接続されている。ネットワークは、LAN等である。LANは、無線LANでもよいし、有線LANでもよい。遠隔診療支援装置2は、少なくとも1つの医療機器と互いに通信自在に接続する。遠隔診療支援装置2と少なくとも1つの医療機器251-1~251-mは、有線又は無線で直接的に通信可能に接続されている。遠隔診療支援装置2と少なくとも1つの医療機器251-1~251-mは、例えば、LAN、Bluetooth(登録商標)、Wi-Fi(登録商標)等により接続されてもよい。なお、情報処理システム100は、サーバ1、遠隔診療支援装置2、第1の通信機器3、第2の通信機器4、及び医療機器251-1~251-mのうちの少なくとも2つの機器を含むシステムを指すこともある。
【0014】
サーバ1は、データを収集し、収集したデータを処理する電子機器である。電子機器は、コンピュータを含む。サーバ1は、ネットワークを介して、遠隔診療支援装置2、第1の通信機器3、及び第2の通信機器4と通信自在に接続する。サーバ1は、遠隔診療支援装置2、第1の通信機器3、及び第2の通信機器4から種々のデータを受け取り、遠隔診療支援装置2、第1の通信機器3、及び第2の通信機器4に種々のデータを出力する。サーバ1は、クラウドサービスで用いられるサーバであってもよい。
【0015】
サーバ1は、第1の通信機器3と第2の通信機器4との間でビデオ通信等を行う通話サービスを実現し得る。なお、通話サービスは、音声による通信に基づく通話サービスでもよい。通話サービスは、ビデオ映像による通信を伴わないものでもよい。サーバ1は、遠隔診療支援装置2、第1の通信機器3、及び第2の通信機器4との間で遠隔診療サービスを実現し得る。サーバ1の構成例については後述する。
【0016】
遠隔診療支援装置2は、他の電子機器と通信可能な電子機器である。遠隔診療支援装置2は、診療ブースに設置される機器である。例えば、遠隔診療支援装置2は、PC(Personal Computer)、スマートフォン、又は、タブレット端末等である。参加者は、ユーザ又は人と読み替えてもよい。遠隔診療支援装置2の構成例については後述する。
【0017】
第1の通信機器3は、他の電子機器と通信可能な電子機器である。第1の通信機器3は、診療ブースに設置される機器である。第1の通信機器3は、例えば、遠隔診療を受ける患者が使用する機器である。例えば、第1の通信機器3は、PC、スマートフォン、又は、タブレット端末等である。患者は、ユーザ又は人と読み替えてもよい。第1の通信機器3の構成例については後述する。第1の通信機器3は、端末の一例である。
【0018】
第2の通信機器4は、他の電子機器と通信可能な電子機器である。第2の通信機器4は、例えば、遠隔診療を行う医師が使用する機器である。例えば、第2の通信機器4は、PC、スマートフォン、又は、タブレット端末等である。医師は、医療従事者、ユーザ又は人と読み替えてもよい。第2の通信機器4は、例えば、診療ブースとは異なる場所に設置される。診療ブースが設置される場所は、第1の拠点の一例である。第2の通信機器4が設置される場所は、第2の拠点の一例である。第2の拠点は、例えば、病院等の医療機関である。第2の通信機器4の構成例については後述する。第2の通信機器4は、端末の一例である。
【0019】
サーバ1の構成例について説明する。
サーバ1は、プロセッサ11、メインメモリ12、補助記憶デバイス13及び通信インタフェース14を含む電子機器である。サーバ1を構成する各部は、互いに信号を入出力可能に接続されている。図1では、インタフェースは、「I/F」と記載されている。
【0020】
プロセッサ11は、サーバ1の中枢部分に相当する。プロセッサ11は、サーバ1のコンピュータを構成する要素である。例えば、プロセッサ11は、CPU(Central Processing Unit)であるが、これに限定されない。プロセッサ11は、種々の回路で構成されていてもよい。プロセッサ11は、メインメモリ12又は補助記憶デバイス13に予め記憶されているプログラムをメインメモリ12に展開する。プログラムは、サーバ1のプロセッサ11に後述する各部を実現又は実行させるプログラムである。プロセッサ11は、メインメモリ12に展開されるプログラムを実行することで、種々の動作を実行する。
【0021】
メインメモリ12は、サーバ1の主記憶部分に相当する。メインメモリ12は、サーバ1のコンピュータを構成する要素である。メインメモリ12は、不揮発性のメモリ領域と揮発性のメモリ領域とを含む。メインメモリ12は、不揮発性のメモリ領域ではオペレーティングシステム又はプログラムを記憶する。メインメモリ12は、揮発性のメモリ領域を、プロセッサ11によってデータが適宜書き換えられるワークエリアとして使用する。例えば、メインメモリ12は、不揮発性のメモリ領域としてROM(Read Only Memory)を含む。例えば、メインメモリ12は、揮発性のメモリ領域としてRAM(Random Access Memory)を含む。メインメモリ12は、プログラムを記憶する。
【0022】
補助記憶デバイス13は、サーバ1の補助記憶部分に相当する。補助記憶デバイス13は、サーバ1のコンピュータを構成する要素である。補助記憶デバイス13は、EEPROM(登録商標)(Electric Erasable Programmable Read-Only Memory)、HDD(Hard Disc Drive)又はSSD(Solid State Drive)等である。補助記憶デバイス13は、上述のプログラム、プロセッサ11が各種の処理を行う上で使用するデータ及びプロセッサ11での処理によって生成されるデータを記憶する。補助記憶デバイス13は、上述のプログラムを記憶する。補助記憶デバイス13は、記憶部の一例である。
【0023】
補助記憶デバイス13は、会話ログ情報を記憶する。会話ログ情報は、第1の通信機器のユーザと第2の通信機器のユーザによる会話を記録した情報である。会話ログ情報は、発話者の情報、及び会話情報を少なくとも含む。発話者の情報は、例えば、発話者を識別可能な発話者識別情報である。発話者は、第1の通信機器のユーザ、及び第2の通信機器のユーザを含む。発話者識別情報は、発話者ID、発話者名等を含む。発話者名は、発話者の氏名、又はユーザ名等であってもよい。発話者識別情報は、「医師」、「患者」等の発話者の属性を示す情報でもよい。会話情報は、発話者識別情報に関連付けられる。会話情報は、発話者により発話された発話内容を示す。会話情報は、発話に関する音声情報に基づいて音声認識処理を行った情報である。音声認識は、例えば、公知の技術を使用して、発話に関する音声情報をテキストデータに変換すること、セグメント化することを含む。会話情報は、少なくとも1つの発話文を含む。発話文は、例えば、ユーザの発話の区切りに基づいてセグメント化されたものである。発話文は、各発話文を識別する識別情報を含み得る。発話文は、少なくとも1つの単語を含む。単語は、意味を持つ最小の言語単位である。単語は、名詞、動詞、感嘆詞等の品詞を含む。会話ログは、発話文を時系列に並べたデータを示す。発話文は、会話文ともいう。
【0024】
会話ログ情報は、発話時間情報を含む。発話時間情報は、発話が行われた時刻を示す時刻情報、会話が開始された時点からの経過時間を示す経過時間情報等を含み得る。発話が行われた時刻は、サーバ1が第1の通信機器3、又は第2の通信機器4から通話情報を取得した時刻に対応する。
【0025】
会話ログ情報は、ユーザの状態に関する認識結果を含む。ユーザの状態は、ユーザの感情、ジェスチャー等を示す。認識結果は、ユーザに関する音声情報、及び画像情報の少なくとも一方に基づいてユーザの感情、又はジェスチャーを認識した結果を示す。画像情報は、動画像を含み得る。画像情報は、静止画像を含み得る。ユーザの感情の認識は、公知の感情認識技術により実現され得る。ユーザのジェスチャーの認識は、公知のジェスチャー認識技術により実現され得る。認識結果は、例えば、ユーザの生体データに基づくユーザの状態の認識結果を含んでもよい。認識結果は、複数種類のデータに基づいてユーザの状態を認識した結果を含んでもよい。ユーザの感情は、ポジティブ、ニュートラル、ネガティブ等を含んでもよい。ポジティブは、肯定、感嘆、安心等を示し得る。ニュートラルは、平常を示し得る。ネガティブは、否定、疑問、不安等を示し得る。ユーザの感情は、喜び、怒り、悲しみ、平常等を含んでもよい。ユーザのジェスチャーは、身振り、手振り、しぐさ等を含み得る。ユーザのジェスチャーは、うなづき、首振り、首傾げ等の頭部ジェスチャーを含み得る。認識結果は、ユーザの状態を取得した時間情報を含む。時間情報は、時刻情報でもよく、会話が開始された時点からの経過時間を示す経過時間情報でもよい。
【0026】
会話ログ情報は、ユーザの状態に関する認識結果に基づくユーザの発話意図に関する情報を含む。発話意図に関する情報は、ユーザの状態の認識結果に基づいてユーザの発話意図を判定した判定結果を示す。ユーザの発話意図は、発話の種類を示すものであってもよい。発話の種類は、肯定、否定、疑問、普通等を含む。肯定は、肯定文、又は肯定形を示す。否定は、否定文、又は否定形を示す。疑問は、疑問文、又は疑問形を示す。普通は、平叙文、又は平叙形を示す。普通は、肯定を含み得る。発話の種類は、感嘆、命令等を含んでもよい。発話の種類は、複数の意図に解釈し得る発話を区別するものであってもよい。発話の種類は、同一文字列の発話であって、肯定の意図にも否定の意図にも解釈し得る発話について、肯定か否定かを区別するための分類であってもよい。例えば、「うーん」という発話は、肯定を示す場合(「うーん(そうだね)」)と、疑問を示す場合(「うーん(そうだなあ)」)があり、複数の意図に解釈し得る。発話の種類は、このような同一文字列の発話の発話意図を分類できるものであればよい。同一文字列の発話についての発話の種類は、ユーザの状態の認識結果に応じて異なる種類となり得る。ユーザの発話意図に関する情報は、ユーザの状態を取得した時刻に関する時間情報を含み得る。認識結果と発話意図の対応関係は、予め設定されてもよい。認識結果と発話意図の対応関係は、会話が行われるシーン、発話者等に応じて異なるものであってもよい。
【0027】
会話ログ情報は、少なくとも発話者の情報と、会話情報、ユーザの状態に関する認識結果、及びユーザの意図に関する情報が紐づけられた情報である。
【0028】
補助記憶デバイス13は、診療ブースに関する情報を記憶し得る。診療ブースに関する情報は、診療ブースを識別可能な情報を含む。診療ブースに関する情報は、診療ブースに設置される医療機器の情報を含んでもよい。
【0029】
補助記憶デバイス13は、ユーザ情報を記憶し得る。ユーザ情報は、診療ブースを使用するユーザ(患者)に関する情報である。ユーザ情報は、ユーザ識別情報を含む。ユーザ識別情報は、ユーザを個々に識別するためにユーザ毎に割り当てられた固有の識別情報である。ユーザ情報は、ユーザの位置情報、診療履歴情報等の情報を含み得る。ユーザ情報は、医療機器の測定データを含み得る。
【0030】
通信インタフェース14は、所定の通信プロトコルに従い、ネットワークを介して、サーバ1を他の電子機器と通信可能に接続する種々のインタフェースを含む。
【0031】
なお、サーバ1のハードウェア構成は、上述の構成に限定されるものではない。サーバ1は、適宜、上述の構成要素の省略及び変更並びに新たな構成要素の追加を可能とする。
【0032】
上述のプロセッサ11に実現される各部について説明する。
プロセッサ11は、通話情報取得部110、ログ作成部111、記憶制御部112、認識部113、判定部114、及び出力部115を実現する。プロセッサ11に実現される各部は、各機能ということもできる。プロセッサ11に実現される各部は、プロセッサ11及びメインメモリ12を含む制御部に実現されるということもできる。プロセッサ11は、処理回路の一例である。
【0033】
通話情報取得部110は、通信インタフェース14を介して、第1の通信機器3、及び第2の通信機器4から通話情報を取得する。通話情報は、音声情報を含む。音声情報は、ユーザの発話に関する音声情報を含む。音声情報は、音声の特徴を示す情報を含んでもよい。音声の特徴は、声の高さ、音色等を含み得る。通話情報は、画像情報を含む。画像情報は、カメラ351-2、又はカメラ451-2により撮影された情報を含む。画像情報は、動画像、静止画像を含んでもよい。通話情報は、発話者の情報、及び発話時間情報を含む。通話情報は、画像情報を取得した時刻に関する時間情報を含む。画像情報を取得した時刻に関する時間情報は、ユーザの状態を取得した時刻に関する時間情報に対応する。なお、通話情報取得部110は、第1の通信機器3、及び第2の通信機器4からユーザの生体データを取得してもよい。生体データは、医療機器251-1~251-mによる測定データでもよい。生体データは、第1の通信機器3、及び第2の通信機器4に接続されたセンサー等により測定されるデータでもよい。
【0034】
ログ作成部111は、通話情報に基づいて会話ログを作成する。ログ作成部111は、ユーザの発話に関する音声情報、発話者の情報、及び発話時間情報に基づいて、時系列で会話ログを作成する。
【0035】
ログ作成部111は、ユーザの意図に関する情報に基づいて会話ログを更新する。ログ作成部111は、ユーザの意図に関する情報に含まれる時間情報に基づいて、会話ログを更新する。ログ作成部111は、ユーザの意図に関する情報を会話ログに含まれる各発話文に紐づける。ログ作成部111により作成される会話ログに関する情報は、会話ログ情報ともいう。
【0036】
記憶制御部112は、通話情報取得部110により取得された情報を補助記憶デバイス13に保存する。記憶制御部112は、会話ログ情報を保存する。記憶制御部112は、会話ログ情報を更新する。記憶制御部112は、後述の認識部113による認識結果を補助記憶デバイス13に保存する。記憶制御部112は、後述の判定部114による判定結果を補助記憶デバイス13に保存する。
【0037】
認識部113は、音声情報、及び画像情報の少なくとも一方に基づいてユーザの状態を認識する。認識部113は、音声情報に基づいて、ユーザの感情を認識してもよい。認識部113は、画像情報に基づいて、ユーザの感情を認識してもよい。認識部113は、画像情報に基づいて、ユーザのジェスチャーを認識してもよい。認識部113は、生体データに基づいて、ユーザの感情を認識してもよい。認識部113は、公知の技術に基づいてユーザの感情を認識し得る。認識部113は、公知の技術に基づいてユーザのジェスチャーを認識し得る。
【0038】
判定部114は、認識部113による認識結果に基づいてユーザの発話意図を判定する。判定部114は、ユーザの状態の認識結果を発話意図に分類する。判定部114は、ユーザの感情に基づいて発話意図を判定してもよい。例えば、判定部114は、ユーザの感情が「ポジティブ」である場合、発話意図を「肯定」と判定する。判定部114は、ユーザの感情が「ニュートラル」である場合、発話意図を「普通」と判定する。判定部114は、ユーザの感情が「ネガティブ」である場合、発話意図を「疑問」と判定する。判定部114は、ユーザの感情が「ネガティブ」である場合、発話意図を「否定」と判定してもよい。
【0039】
判定部114は、ユーザのジェスチャーに基づいて発話意図を判定してもよい。例えば、判定部114は、ユーザのジェスチャーが「うなづき」である場合、発話意図を「肯定」と判定する。判定部114は、ユーザのジェスチャーが「首傾げ」である場合、発話意図を「疑問」と判定する。判定部114は、ユーザのジェスチャーが「首振り」である場合、発話意図を「否定」と判定する。判定部114は、認識結果と発話内容に基づいて発話意図を判定してもよい。
【0040】
出力部115は、通信インタフェース14を介して、第1の通信機器3、及び第2の通信機器4に会話ログ情報を出力する。出力部115は、第1の通信機器3、及び第2の通信機器4からの会話ログ表示要求に基づいて、会話ログ情報を出力してもよい。
【0041】
会話ログ情報について説明する。
図3は、実施形態に係る会話ログ情報のデータ構造の一例を例示する図である。
図3は、医師と患者による会話が行われる場合の会話ログ情報を示す。会話ログ情報は、発話者識別情報、会話情報、認識結果、及び発話意図に関する情報を少なくとも含む。発話者識別情報は、例えば、「医師」又は「患者」を示す情報である。発話者識別情報は、各発話文に紐づけられる。発話者識別情報は、音声情報が出力された通信機器を識別可能な情報に基づく情報であってもよい。発話者識別情報は、音声情報が出力された通信機器のユーザを識別可能な情報に基づく情報であってもよい。会話情報は、例えば、発話内容を示すテキスト情報である。会話情報は、各発話文に紐づけられる。認識結果は、ユーザの状態に関する認識結果を示す。認識結果は、ユーザに関する音声情報、及び画像情報の少なくとも一方に基づいてユーザの感情、又はジェスチャーを認識した結果を示す。認識結果は、各発話文に紐づけられる発話者の感情、又はジェスチャーを認識した結果を示す。音声情報、及び画像情報は、第1の通信機器3、及び第2の通信機器4から出力される情報である。認識結果は、各発話文に紐づけられる。発話意図に関する情報は、認識結果に基づく発話意図を示す。発話意図に関する情報は、各発話文に紐づけられる。
【0042】
図3の例では、発話ID「1」及び「2」の会話内容については、発話者の状態の認識結果は「ニュートラル」である。この場合、発話意図は、「普通」であると判断され得る。発話ID「3」の会話内容「うーん(そうだなあ)」については、複数の発話意図を含み得る。例えば、発話者は、肯定の意図で「うーん(そうだね)」と発話する場合と、疑問の意図で「うーん(そうだなあ)」と発話する場合がある。なお、括弧書きの内容は発話されていないものとする。図3の例では、発話意図に会話内容「うーん」を発話した時の医師の状態の認識結果は、「ネガティブ」であることを示す。発話意図に会話内容「うーん」を発話した時の医師の発話意図は、認識結果「ネガティブ」に基づく発話の種類を示す。この例では、発話者の感情が「ネガティブ」である場合、判定部114は、発話意図を「疑問」であると判定し、発話者の感情が「ポジティブ」である場合、判定部114は、発話意図を「肯定」であると判定するものとする。この場合、会話内容「うーん」を発話した時の判定部114により判定される医師の発話意図は、「疑問」であることを示す。
【0043】
この例によれば、発話内容から複数の発話意図が判定され得る場合、発話者の状態に関する認識結果に基づいて適切な発話意図を判定することができる。そのため、会話ログを閲覧するユーザは、各発話の発話意図を明確に認識することができる。これにより、情報処理システム100は、発話者の意図を推定した会話ログを作成することができる。
【0044】
図4は、実施形態に係る会話ログ情報のデータ構造の別の例を例示する図である。
図4は、医師と患者による会話が行われる場合の会話ログ情報を示す。会話ログ情報のデータ構造は、図3の例と同様である。
【0045】
図4の例では、発話ID「4」及び「5」の会話内容については、発話者の状態の認識結果は「ニュートラル」である。この場合、発話意図は、「普通」であると判断され得る。発話ID「6」の会話内容「うーん(そうだね)」は、複数の発話意図が判断され得る。図4の例では、発話意図に会話内容「うーん」を発話した時の医師の状態の認識結果は、「ポジティブ」、及び「うなづき」であることを示す。発話意図に会話内容「うーん」を発話した時の医師の発話意図は、認識結果「ポジティブ」、及び「うなづき」に基づく発話の種類を示す。この例では、発話者の感情が「ポジティブ」であるため、判定部114は、発話意図を「肯定」であると判定し得る。また、発話者のジェスチャーが「うなづき」であるため、判定部114は、発話意図を「肯定」であると判定し得る。判定部114は、発話者の感情、及び発話者のジェスチャーのうち、少なくとも1つに基づいて発話意図を判定してもよい。この例では、会話内容「うーん」を発話した時の判定部114により判定される医師の発話意図は、「肯定」であることを示す。
【0046】
この例によれば、発話内容から複数の発話意図が判定され得る場合、発話者の状態に関する認識結果に基づいて適切な発話意図を判定することができる。そのため、会話ログを閲覧するユーザは、各発話の発話意図を明確に認識することができる。これにより、情報処理システム100は、発話者の意図を推定した会話ログを作成することができる。
【0047】
遠隔診療支援装置2の構成例について説明する。
遠隔診療支援装置2は、プロセッサ21、メインメモリ22、補助記憶デバイス23、通信インタフェース24、入出力インタフェース25、表示デバイス26、スピーカ27、及び入力デバイス28を含む電子機器である。遠隔診療支援装置2を構成する各部は、互いに信号を入出力可能に接続されている。
【0048】
プロセッサ21は、遠隔診療支援装置2の中枢部分に相当する。プロセッサ21は、遠隔診療支援装置2のコンピュータを構成する要素である。例えば、プロセッサ21は、上述のプロセッサ11と同様のハードウェア構成である。プロセッサ21は、メインメモリ22に展開されるプログラムを実行することで、種々の動作を実行する。プロセッサ21は、処理回路の一例である。
【0049】
メインメモリ22は、遠隔診療支援装置2の主記憶部分に相当する。メインメモリ22は、遠隔診療支援装置2のコンピュータを構成する要素である。メインメモリ22は、上述のメインメモリ12と同様のハードウェア構成である。メインメモリ22は、プログラムを記憶する。
【0050】
補助記憶デバイス23は、遠隔診療支援装置2の補助記憶部分に相当する。補助記憶デバイス23は、遠隔診療支援装置2のコンピュータを構成する要素である。補助記憶デバイス23は、上述の補助記憶デバイス13と同様のハードウェア構成である。補助記憶デバイス23は、上述のプログラムを記憶する。
【0051】
通信インタフェース24は、所定の通信プロトコルに従い、ネットワークを介して、遠隔診療支援装置2を他の機器と通信可能に接続する種々のインタフェースを含む。
【0052】
入出力インタフェース25は、遠隔診療支援装置2と外部機器とを接続するためのインタフェースである。外部機器は、少なくとも1つ医療機器251-1~251-m(mは1以上の整数)を含む。医療機器251-1~251-mは、例えば、心電計、血圧計、デジタル聴診器、パルスオキシメーター、細隙灯、外耳鏡等の医療機器を含む。医療機器251-1~251-mは、通信機能を持ち、測定データを遠隔診療支援装置2に出力する。
【0053】
表示デバイス26は、プロセッサ21の制御により種々の画面を表示可能なデバイスである。例えば、表示デバイス26は、液晶ディスプレイ又はELディスプレイ等である。
【0054】
スピーカ27は、プロセッサ21の制御により音声を出力可能なデバイスである。スピーカ27は、出力デバイスの一例である。
【0055】
入力デバイス28は、遠隔診療支援装置2へデータ又は指示を入力可能なデバイスである。例えば、入力デバイス28は、音声を入力可能な内蔵型のマイク、及び撮影範囲の撮影データを取得可能な内蔵型のカメラを含む。入力デバイス28は、キーボード又はタッチパネル等を含んでもよい。
【0056】
なお、遠隔診療支援装置2のハードウェア構成は、上述の構成に限定されるものではない。遠隔診療支援装置2は、適宜、上述の構成要素の省略及び変更並びに新たな構成要素の追加を可能とする。
【0057】
第1の通信機器3の構成例について説明する。
第1の通信機器3は、プロセッサ31、メインメモリ32、補助記憶デバイス33、通信インタフェース34、入出力インタフェース35、及び入力デバイス38を含む電子機器である。第1の通信機器3を構成する各部は、互いに信号を入出力可能に接続されている。
【0058】
プロセッサ31は、第1の通信機器3の中枢部分に相当する。プロセッサ31は、第1の通信機器3のコンピュータを構成する要素である。プロセッサ31は、上述のプロセッサ11と同様のハードウェア構成である。プロセッサ31は、メインメモリ32又は補助記憶デバイス33に予め記憶されているプログラムを実行することで、種々の動作を実行する。プロセッサ31は、処理回路の一例である。
【0059】
メインメモリ32は、第1の通信機器3の主記憶部分に相当する。メインメモリ32は、第1の通信機器3のコンピュータを構成する要素である。メインメモリ32は、上述のメインメモリ12と同様のハードウェア構成である。メインメモリ32は、プログラムを記憶する。
【0060】
補助記憶デバイス33は、第1の通信機器3の補助記憶部分に相当する。補助記憶デバイス33は、第1の通信機器3のコンピュータを構成する要素である。補助記憶デバイス33は、上述の補助記憶デバイス13と同様のハードウェア構成である。補助記憶デバイス33は、上述のプログラムを記憶する。
【0061】
通信インタフェース34は、所定の通信プロトコルに従い、ネットワークを介して、第1の通信機器3を他の機器と通信可能に接続する種々のインタフェースを含む。
【0062】
入出力インタフェース35は、第1の通信機器3と外部機器とを接続するためのインタフェースである。外部機器は、表示デバイス351-1、カメラ351-2、マイク351-3、及びスピーカ351-4を含む。表示デバイス351-1は、プロセッサ31の制御により種々の画面を表示可能なデバイスである。例えば、表示デバイス351-1は、液晶ディスプレイ又はELディスプレイ等である。カメラ351-2は、プロセッサ31の制御により撮影範囲の撮影データを取得可能なデバイスである。マイク351-3は、プロセッサ31の制御により音声を入力可能なデバイスである。スピーカ351-4は、プロセッサ31の制御により音声を出力可能なデバイスである。
【0063】
入力デバイス38は、第1の通信機器3へデータ又は指示を入力可能なデバイスである。例えば、入力デバイス38は、キーボード又はタッチパネル等を含む。
【0064】
なお、第1の通信機器3のハードウェア構成は、上述の構成に限定されるものではない。第1の通信機器3は、適宜、上述の構成要素の省略及び変更並びに新たな構成要素の追加を可能とする。
【0065】
第2の通信機器4の構成例について説明する。
第2の通信機器4は、プロセッサ41、メインメモリ42、補助記憶デバイス43、通信インタフェース44、入出力インタフェース45、及び入力デバイス48を含む電子機器である。第2の通信機器4を構成する各部は、互いに信号を入出力可能に接続されている。
【0066】
プロセッサ41は、第2の通信機器4の中枢部分に相当する。プロセッサ41は、第2の通信機器4のコンピュータを構成する要素である。プロセッサ41は、上述のプロセッサ11と同様のハードウェア構成である。プロセッサ41は、メインメモリ42又は補助記憶デバイス43に予め記憶されているプログラムを実行することで、種々の動作を実行する。プロセッサ41は、処理回路の一例である。
【0067】
メインメモリ42は、第2の通信機器4の主記憶部分に相当する。メインメモリ42は、第2の通信機器4のコンピュータを構成する要素である。メインメモリ42は、上述のメインメモリ12と同様のハードウェア構成である。メインメモリ42は、プログラムを記憶する。
【0068】
補助記憶デバイス43は、第2の通信機器4の補助記憶部分に相当する。補助記憶デバイス43は、第2の通信機器4のコンピュータを構成する要素である。補助記憶デバイス43は、上述の補助記憶デバイス13と同様のハードウェア構成である。補助記憶デバイス43は、上述のプログラムを記憶する。
【0069】
通信インタフェース44は、所定の通信プロトコルに従い、ネットワークを介して、第2の通信機器4を他の機器と通信可能に接続する種々のインタフェースを含む。
【0070】
入出力インタフェース45は、第2の通信機器4と外部機器とを接続するためのインタフェースである。外部機器は、表示デバイス451-1、カメラ451-2、マイク451-3、及びスピーカ451-4を含む。表示デバイス451-1は、プロセッサ41の制御により種々の画面を表示可能なデバイスである。例えば、表示デバイス451-1は、液晶ディスプレイ又はELディスプレイ等である。カメラ451-2は、プロセッサ41の制御により撮影範囲の撮影データを取得可能なデバイスである。マイク451-3は、プロセッサ41の制御により音声を入力可能なデバイスである。スピーカ451-4は、プロセッサ41の制御により音声を出力可能なデバイスである。
【0071】
入力デバイス48は、第2の通信機器4へデータ又は指示を入力可能なデバイスである。例えば、入力デバイス48は、キーボード又はタッチパネル等を含む。
【0072】
なお、第2の通信機器4のハードウェア構成は、上述の構成に限定されるものではない。第2の通信機器4は、適宜、上述の構成要素の省略及び変更並びに新たな構成要素の追加を可能とする。
【0073】
(動作例)
情報処理システム100による処理の手順について説明する。
なお、以下のサーバ1を主体とする説明では、サーバ1をプロセッサ11と読み替えてもよい。第1の通信機器3を主体とする説明では、第1の通信機器3をプロセッサ31と読み替えてもよい。第2の通信機器4を主体とする説明では、第2の通信機器4をプロセッサ41と読み替えてもよい。
なお、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
【0074】
図5は、実施形態に係るサーバ1による情報処理の手順の一例を示すフローチャートである。
【0075】
以下の処理は、第1の通信機器3と第2の通信機器4との通話が開始されたことに基づいて開始されるものとする。
【0076】
通話情報取得部110は、第1の通信機器3、及び第2の通信機器4から通話情報を取得する。(ACT1)。ACT1では、例えば、通話情報取得部110は、第1の通信機器3、及び第2の通信機器4から音声情報を取得する。音声情報は、第1の通信機器3、又は第2の通信機器4のユーザを識別するための発話者識別情報を含んでもよい。通話情報取得部110は、第1の通信機器3、及び第2の通信機器4から画像情報を取得する。画像情報は、第1の通信機器3、又は第2の通信機器4のユーザを識別するための発話者識別情報を含んでもよい。記憶制御部112は、取得した通話情報を補助記憶デバイス13に記憶してもよい。
【0077】
ログ作成部111は、通話情報に基づいて会話ログ情報を作成する(ACT2)。ACT2では、例えば、ログ作成部111は、ユーザの発話に関する音声情報に基づいて、音声認識処理を行う。ログ作成部111は、ユーザの発話に関する音声情報に基づくテキスト情報を発話文単位でセグメント化する。ログ作成部111は、セグメント化されたテキスト情報を発話者識別情報に紐づける。ログ作成部111は、発話者識別情報と紐づけられた発話文を含む会話ログ情報を作成する。ログ作成部111は、各発話文に関する発話時間情報を含む会話ログ情報を作成してもよい。
【0078】
記憶制御部112は、会話ログ情報を補助記憶デバイス13に保存する(ACT3)。
【0079】
認識部113は、通話情報に基づいて、ユーザの状態を認識する(ACT4)。ACT4では、例えば、認識部113は、音声情報、及び画像情報の少なくとも一方に基づいてユーザの状態を認識する。認識部113は、音声情報、及び画像情報の少なくとも一方に基づいてユーザの感情を認識する。例えば、認識部113は、音声情報に基づいて、感情認識を行ってもよい。認識部113は、画像情報に基づいて、感情認識を行ってもよい。認識部113は、音声情報、及び画像情報に基づいて、感情認識を行ってもよい。認識部113は、音声情報、及び画像情報の少なくとも一方に基づいてユーザのジェスチャーを認識する。例えば、認識部113は、画像情報に基づいて、ジェスチャー認識を行ってもよい。認識部113は、ユーザの状態の認識結果を時系列で各発話文に紐づけてもよい。認識部113は、ユーザの状態の認識結果に含まれる時間情報と発話文に関する発話時間情報に基づいて、ユーザの状態の認識結果を各発話文に紐づけてもよい。
【0080】
判定部114は、通話情報に基づいてユーザの発話意図を判定する(ACT5)。ACT5では、例えば、判定部114は、音声情報、及び画像情報の少なくとも一方に基づいてユーザの発話意図を判定する。判定部114は、認識部113による認識結果に基づいて、ユーザの発話意図を判定する。例えば、判定部114は、ユーザの感情を認識した認識結果に基づいて発話意図を判定してもよい。判定部114は、ユーザのジェスチャーを認識した認識結果に基づいて発話意図を判定してもよい。
【0081】
例えば、判定部114は、発話文ID「01」の発話文の発話時に得られたユーザの感情の認識結果が「ポジティブ」である場合について説明する。この場合、判定部114は、発話文ID「01」の発話文について、発話意図を「肯定」であると判定し得る。ユーザの感情の認識結果が「ネガティブ」である場合について説明する。この場合、判定部114は、発話文ID「01」の発話文について、発話意図を「否定」、又は「疑問」であると判定し得る。ユーザの感情の認識結果が「ニュートラル」である場合について説明する。この場合、判定部114は、発話文ID「01」の発話文について、発話意図を「普通」であると判定し得る。ユーザの感情の認識結果は、「ポジティブ」、「ネガティブ」、及び「ニュートラル」に限られない。ユーザの感情の認識結果は、会話が行われるシーン、発話者等に応じて異なるものであってもよい。
【0082】
例えば、判定部114は、発話文ID「02」の発話文の発話時に得られたユーザのジェスチャーの認識結果が「うなづき」である場合について説明する。この場合、判定部114は、発話文ID「02」の発話文について、発話意図を「肯定」であると判定し得る。ユーザの感情の認識結果が「首傾げ」である場合について説明する。この場合、判定部114は、発話文ID「02」の発話文について、発話意図を「疑問」であると判定し得る。ユーザの感情の認識結果が「首振り」である場合について説明する。この場合、判定部114は、発話文ID「02」の発話文について、発話意図を「否定」であると判定し得る。ユーザのジェスチャーの認識結果は、「うなづき」、「首傾げ」、及び「首振り」に限られない。ユーザのジェスチャーの認識結果は、会話が行われるシーン、発話者等に応じて異なるものであってもよい。
【0083】
判定部114は、ユーザの感情の認識結果、及びユーザのジェスチャーの認識結果に基づいて、発話意図を判定してもよい。例えば、判定部114は、発話文ID「03」の発話文の発話時に得られたユーザの感情の認識結果が「ネガティブ」であり、ユーザのジェスチャーの認識結果が「首傾げ」である場合について説明する。この場合、判定部114は、発話文ID「03」の発話文について、発話意図を「疑問」であると判定し得る。
【0084】
判定部114は、認識結果と発話内容に基づいて発話意図を判定してもよい。例えば、発話文ID「04」の発話文の発話内容が「疑問」、及び「肯定」の何れか一方の発話意図を含み得る場合について説明する。ユーザの感情の認識結果が「ポジティブ」である場合について説明する。この場合、判定部114は、発話文ID「04」の発話文について、発話意図を「肯定」であると判定し得る。ユーザの感情の認識結果が「ネガティブ」である場合について説明する。この場合、判定部114は、発話文ID「04」の発話文について、発話意図を「疑問」であると判定し得る。
【0085】
ユーザのジェスチャーの認定結果が「うなづき」である場合について説明する。この場合、判定部114は、発話文ID「04」の発話文について、発話意図を「肯定」であると判定し得る。ユーザのジェスチャーの認定結果が「首傾げ」である場合について説明する。この場合、判定部114は、発話文ID「04」の発話文について、発話意図を「疑問」であると判定し得る。
【0086】
記憶制御部112は、判定部114により判定されたユーザの発話意図を各発話文に紐づけて保存する(ACT6)。記憶制御部112は、ユーザの発話意図に基づいて会話ログ情報を更新してもよい。
【0087】
プロセッサ11は、第1の通信機器3と第2の通信機器4との通話が終了したか否かを判定する(ACT7)。プロセッサ11により通話が終了したと判定された場合(ACT7:YES)、処理は、終了する。プロセッサ11により通話が終了していないと判定された場合(ACT7:NO)、処理は、ACT7からACT1へ遷移する。プロセッサ11は、第1の通信機器3と第2の通信機器4との通話が終了するまで、ACT1~ACT6の処理を繰り返す。
【0088】
なお、プロセッサ11は、ACT2からACT6の処理を、第1の通信機器3と第2の通信機器4との通話が終了した後に行ってもよい。例えば、通話情報取得部110は、第1の通信機器3と第2の通信機器4との通話が行われている間に、通話情報を取得してもよい。ログ作成部111は、第1の通信機器3と第2の通信機器4との通話が終了した後に会話ログ情報を作成してもよい。認識部113は、第1の通信機器3と第2の通信機器4との通話が終了した後にユーザの感情を認識してもよい。判定部114は、第1の通信機器3と第2の通信機器4との通話が終了した後にユーザの発話意図を判定してもよい。
【0089】
この例によれば、サーバ1は、テキスト情報のみでは分かりづらい発話者の発話意図を含む会話ログを作成することができる。例えば、発話内容から複数の発話意図が判定され得る場合、サーバ1は、発話者の状態に関する認識結果に基づいて適切な発話意図を判定することができる。そのため、会話ログを閲覧するユーザは、各発話の発話意図を明確に認識することができる。これにより、情報処理システム100は、発話者の意図を推定した会話ログを作成することができる。また、サーバ1は、発話文毎に発話者の意図を判定し、発話文毎に発話者の意図が含まれる会話ログを作成することができる。そのため、会話ログを閲覧するユーザは、発話文単位で発話者の意図が理解できる。例えば、発話者以外の第三者が会話ログを見直す場合に、会話ログの内容を適切に理解することができる。
【0090】
図6は、実施形態に係るサーバ1による情報処理の手順の一例を示すフローチャートである。
【0091】
以下の処理は、第1の通信機器3と第2の通信機器4との通話が終了した後に開始されるものとする。
【0092】
プロセッサ11は、第1の通信機器3、及び第2の通信機器4の少なくとも一方から会話ログ表示要求を取得する(ACT11)。ACT11では、例えば、プロセッサ11は、第1の通信機器3、又は第2の通信機器4のユーザのユーザ操作に基づいて、会話ログ表示要求を取得する。ユーザ操作は、例えば、表示デバイスに表示された会話ログを表示するための表示ボタンのクリック操作、又はタッチ操作を含み得る。
【0093】
出力部115は、会話ログ表示要求に基づいて、会話ログ情報を会話ログ表示要求の出力元である第1の通信機器3、及び第2の通信機器4の少なくとも一方に出力する(ACT12)。ACT12では、例えば、出力部115は、会話ログと発話意図を表示させるための情報を出力する。第1の通信機器3、又は第2の通信機器4は、会話ログ情報を取得する。第1の通信機器3、又は第2の通信機器4は、会話ログ情報に基づいて、会話ログ、及び発話意図を表示デバイスに表示する。
【0094】
この例によれば、サーバ1は、発話者の発話意図を含む会話ログを第1の通信機器3、及び第2の通信機器4の少なくとも一方に出力することができる。そのため、第1の通信機器3、及び第2の通信機器4のユーザは、各発話の発話意図が含まれる会話ログを閲覧することができる。ユーザは、各発話の発話意図を容易に理解することができる。
【0095】
なお、上述の処理は、第1の通信機器3と第2の通信機器4との通話が行われている間に実行されてもよい。
【0096】
なお、会話ログ表示要求は、第1の通信機器3及び第2の通信機器4とは異なる他の電子機器から出力されてもよい。例えば、図示しないユーザ端末により会話ログ表示要求が出力されてもよい。この場合、出力部115は、会話ログ表示要求の出力元であるユーザ端末に会話ログ情報を出力してもよい。
【0097】
(他の実施形態)
上述の実施形態では、診療ブースは、遠隔診療支援装置2、及び第1の通信機器3を含む例について説明したが、これに限られない。診療ブースは、遠隔診療支援装置2、及び第1の通信機器3の一方を含んでもよい。診療ブースが第1の通信機器3を含まず、遠隔診療支援装置2を含む場合、遠隔診療支援装置2は、第1の通信機器3の機能を実現してもよい。診療ブースが遠隔診療支援装置2を含まず、第1の通信機器3を含む場合、第1の通信機器3は、遠隔診療支援装置2の機能を実現してもよい。
【0098】
上述の実施形態では、遠隔診療における医師と患者による通話を例に説明したが、これに限られない。上述の実施形態では、WEB会議、テレビ会議、遠隔教育等の複数の通信機器のユーザによる通話が行われる場合に適用可能である。
【0099】
情報処理装置は、サーバ1のような1つの装置で実現されてもよいし、機能を分散させた複数の装置で実現されてもよい。
【0100】
上述の実施形態は、装置だけでなく、装置が実行する方法に適用されてもよい。上述の実施形態は、装置のコンピュータに各機能を実行させることが可能なプログラムに適用されてもよい。上述の実施形態は、プログラムを記憶する記録媒体に適用されてもよい。上述の実施形態は、システムだけでなく、システムに含まれる複数の要素が実行する方法に適用されてもよい。
【0101】
処理回路は、複数の機能による複数の処理を実現する1つ以上の回路を含む。例えば、回路は、プロセッサ、ASIC(Application Specific Integrated Circuit)又はFPGA(field-Programmable Gate Array)であるが、これらに限定されない。
【0102】
処理回路を構成する1つ以上の回路のそれぞれは、複数の処理のうちの1つ以上の処理を実行する。処理回路が単一の回路で構成される場合、単一の回路は、複数の処理の全部を実行する。処理回路が複数の回路で構成される場合、複数の回路のそれぞれは、複数の処理のうちの一部を実行する。複数の処理のうちの一部は、複数の処理のうちの1つでもよいし、複数の処理のうちの2つ以上でもよい。処理回路が複数の回路で構成される場合、複数の回路は、1つの装置に含まれていてもよいし、複数の装置に分散していてもよい。
【0103】
プログラムは、装置に記憶された状態で譲渡されてよいし、装置に記憶されていない状態で譲渡されてもよい。後者の場合は、プログラムは、ネットワークを介して譲渡されてよいし、記録媒体に記録された状態で譲渡されてもよい。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、CD-ROM、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であればよく、その形態は問わない。
【0104】
以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
【0105】
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【0106】
(付記)
上述の実施形態は、以下のように表されてもよい。
(1) 複数の端末間の通話を処理する情報処理装置が実行する情報処理方法であって、
端末からユーザの通話情報を取得することと、
前記通話情報に基づいて、会話ログを作成することと、
前記通話情報に基づいて前記ユーザの発話意図を判定することと、
前記会話ログに紐付けて前記発話意図を保存することと、
を備える情報処理方法。
(2) 前記通話情報に基づいて、前記ユーザの状態を認識することをさらに備え、
前記判定することは、認識結果に基づいて前記発話意図を判定することを含む、
(1)に記載の情報処理方法。
(3) 前記通話情報は、音声情報、及び画像情報を含み、
前記判定することは、前記音声情報、及び前記画像情報の少なくとも一方に基づいて前記発話意図を判定することを含む、
(1)に記載の情報処理方法。
(4) 前記会話ログと前記発話意図を出力することをさらに備える、
(1)に記載の情報処理方法。
(5) 複数の端末間の通話を処理する情報処理装置であって、
端末からユーザの通話情報を取得する通話情報取得部と、
前記通話情報に基づいて、会話ログを作成するログ作成部と、
前記通話情報に基づいて前記ユーザの発話意図を判定する判定部と、
前記会話ログに紐付けて前記発話意図を保存する記憶部と、
を備える情報処理装置。
(6) 複数の端末間の通話を処理する情報処理装置のコンピュータに、
端末からユーザの通話情報を取得する機能と、
前記通話情報に基づいて、会話ログを作成する機能と、
前記通話情報に基づいて前記ユーザの発話意図を判定する機能と、
前記会話ログに紐付けて前記発話意図を保存する機能と、
を実行させることが可能なプログラム。
【符号の説明】
【0107】
1…サーバ、2…遠隔診療支援装置、3…第1の通信機器、4…第2の通信機器、11…プロセッサ、12…メインメモリ、13…補助記憶デバイス、14…通信インタフェース、21…プロセッサ、22…メインメモリ、23…補助記憶デバイス、24…通信インタフェース、25…入出力インタフェース、26…表示デバイス、27…スピーカ、28…入力デバイス、31…プロセッサ、32…メインメモリ、33…補助記憶デバイス、34…通信インタフェース、35…入出力インタフェース、38…入力デバイス、41…プロセッサ、42…メインメモリ、43…補助記憶デバイス、44…通信インタフェース、45…入出力インタフェース、48…入力デバイス、100…情報処理システム、110…通話情報取得部、111…ログ作成部、112…記憶制御部、113…認識部、114…判定部、115…出力部、251-1~251-m…医療機器、351-1…表示デバイス、351-2…カメラ、351-3…マイク、351-4…スピーカ、451-1…表示デバイス、451-2…カメラ、451-3…マイク、451-4…スピーカ。
図1
図2
図3
図4
図5
図6