(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023006606
(43)【公開日】2023-01-18
(54)【発明の名称】通話支援システムおよび通話支援装置
(51)【国際特許分類】
G10L 21/0324 20130101AFI20230111BHJP
G10L 25/78 20130101ALI20230111BHJP
H04M 1/00 20060101ALI20230111BHJP
【FI】
G10L21/0324
G10L25/78
H04M1/00 H
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021109299
(22)【出願日】2021-06-30
(71)【出願人】
【識別番号】000001487
【氏名又は名称】フォルシアクラリオン・エレクトロニクス株式会社
(74)【代理人】
【識別番号】110000198
【氏名又は名称】弁理士法人湘洋特許事務所
(72)【発明者】
【氏名】高橋 正明
【テーマコード(参考)】
5K127
【Fターム(参考)】
5K127BA03
5K127CA08
5K127CB22
5K127HA11
5K127HA24
5K127JA04
5K127JA43
5K127JA48
5K127KA04
5K127MA09
5K127MA11
(57)【要約】
【課題】 近端話者側が並行して行う動作の注意力向上を支援する技術を提供することにある。
【解決手段】
近端話者が遠端話者の用いる通信機器と通話を行う通話を支援する通話支援装置を含む通話支援システムであって、近端話者の発話音声を集音して発話音声情報を取得し、遠端話者の通信機器から受信した受信音声情報を所定の音量で発音する音声入出力制御部と、発話音声情報を用いて、近端話者が所定時間発話していない状態か否か判定する音声解析部と、近端話者が所定時間発話していない状態である場合に、音声入出力制御部に受信音声情報を消音状態にして発音させる制御を行うミュート処理部と、を備える通話支援システム。
【選択図】
図1
【特許請求の範囲】
【請求項1】
近端話者が遠端話者の用いる通信機器と通話を行う通話を支援する通話支援装置を含む通話支援システムであって、
前記近端話者の発話音声を集音して発話音声情報を取得し、前記遠端話者の通信機器から受信した受信音声情報を所定の音量で発音する音声入出力制御部と、
前記発話音声情報を用いて、前記近端話者が所定時間発話していない状態か否か判定する音声解析部と、
前記近端話者が所定時間発話していない状態である場合に、前記音声入出力制御部に前記受信音声情報を消音状態にして発音させる制御を行うミュート処理部と、
を備える通話支援システム。
【請求項2】
請求項1に記載の通話支援システムであって、
前記音声解析部は、前記受信音声情報を用いて、前記遠端話者が発話を継続している状態か否か判定し、
前記ミュート処理部は、前記近端話者が所定時間発話していない状態かつ、前記遠端話者が発話を継続している状態である場合に、前記音声入出力制御部に前記受信音声情報を消音状態にして発音させる制御を行う、
ことを特徴とする通話支援システム。
【請求項3】
請求項1または2に記載の通話支援システムであって、
前記ミュート処理部は、前記音声入出力制御部に前記受信音声情報を消音状態にして発音させる制御を行うと、前記遠端話者の用いる前記通信機器に前記消音状態であることを通知する、
ことを特徴とする通話支援システム。
【請求項4】
請求項1~3のいずれか一項に記載の通話支援システムであって、
前記ミュート処理部は、前記音声解析部が、前記近端話者が所定時間発話していない状態ではなくなったと判定すると、前記音声入出力制御部に前記消音状態を解除する制御を行う、
ことを特徴とする通話支援システム。
【請求項5】
請求項1~4のいずれか一項に記載の通話支援システムであって、
前記音声解析部は、前記受信音声情報を用いて、前記遠端話者が前記近端話者に所定の呼びかけを発話したか否か判定し、
前記ミュート処理部は、前記音声解析部が、前記遠端話者が前記近端話者に前記所定の呼びかけを発話したと判定すると、前記音声入出力制御部に前記消音状態を解除する制御を行う、
ことを特徴とする通話支援システム。
【請求項6】
請求項1~5のいずれか一項に記載の通話支援システムであって、
前記通話支援装置は、移動体に接続され、
前記移動体から移動中であるか否かを特定する情報を収集する情報収集部を備え、
前記ミュート処理部は、前記移動体が移動中において、前記近端話者が所定時間発話していない状態かつ、前記遠端話者が発話を継続している状態である場合に、前記音声入出力制御部に前記受信音声情報を前記消音状態にして発音させる制御を行う、
ことを特徴とする通話支援システム。
【請求項7】
請求項6に記載の通話支援システムであって、
前記ミュート処理部は、前記消音状態にして発音させる制御を行っている状態で、前記移動体が移動中でなくなると、前記音声入出力制御部に前記消音状態にして発音させる前記制御を解除する、
ことを特徴とする通話支援システム。
【請求項8】
近端話者の通信機器が遠端話者の用いる通信機器と行う通話を支援する通話支援装置であって、
前記近端話者の発話音声を集音して発話音声情報を取得し、前記遠端話者の通信機器から前記近端話者の通信機器を経由して受信した受信音声情報を所定の音量で発音する音声入出力制御部と、
前記発話音声情報を用いて、前記近端話者が所定時間発話していない状態か否か判定する音声解析部と、
前記近端話者が所定時間発話していない状態である場合に、前記音声入出力制御部に前記受信音声情報を消音状態にして発音させる制御を行うミュート処理部と、
を備える通話支援装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通話支援システムおよび通話支援装置の技術に関するものである。
【背景技術】
【0002】
「複数の通信装置のそれぞれは、他の通信装置と予め通話回線が接続された際に、入力又は出力をミュートし、通話の発信又は応答時に、前記入力又は出力のミュートを解除する制御手段を備える」通信システムに係る技術が、特許文献1に記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のような技術では、通話開始までにかかる時間を短縮することができる。しかし、通話が開始された状態になると何も行わない。通話中に、遠端話者側の単一装置で複数人が会話に参加する場合、遠端話者同士の会話が続き近端話者が発話しない状態が続く状態も発生しうる。そのような状態では、近端話者側に遠端話者側の発話を聞かせる必要のないことも多い。
【0005】
本発明の目的は、近端話者側が並行して行う動作の注意力向上を支援する技術を提供することにある。
【課題を解決するための手段】
【0006】
本発明は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。上記課題を解決すべく、本発明に係る通話支援システムは、近端話者が遠端話者の用いる通信機器と通話を行う通話を支援する通話支援装置を含む通話支援システムであって、前記近端話者の発話音声を集音して発話音声情報を取得し、前記遠端話者の通信機器から受信した受信音声情報を所定の音量で発音する音声入出力制御部と、前記発話音声情報を用いて、前記近端話者が所定時間発話していない状態か否か判定する音声解析部と、前記近端話者が所定時間発話していない状態である場合に、前記音声入出力制御部に前記受信音声情報を消音状態にして発音させる制御を行うミュート処理部と、を備える。
【発明の効果】
【0007】
本願発明によれば、近端話者側が並行して行う動作の注意力向上を支援することが可能となる。上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0008】
【
図2】遠端話者情報のデータ構造の例を示す図である。
【
図3】近端話者情報のデータ構造の例を示す図である。
【
図4】通話支援装置のハードウェア構成例を示す図である。
【
図5】通話時処理の処理フローの例を示す図である。
【発明を実施するための形態】
【0009】
以下に、本発明を適用した実施形態に係る通話支援システムについて、図面を参照して説明する。なお、
図1~
図6は、通話支援システムの全ての構成を示すものではなく、理解容易のため、適宜、構成の一部を省略して描いている。以下の実施形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。
【0010】
また、以下の実施形態において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
【0011】
さらに、以下の実施形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。
【0012】
同様に、以下の実施形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、数値および範囲についても同様である。
【0013】
なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する場合がある。また、以下の実施の形態において、「Aからなる」、「Aよりなる」、「Aを有する」、「Aを含む」と言うときは、特にその要素のみである旨明示した場合等を除き、それ以外の要素を排除するものでないことは言うまでもない。
【0014】
同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。
【0015】
以下の説明では、「接続部」、「通信部」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
【0016】
また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。
【0017】
また、以下の説明では、「ストレージ装置」は、一つ以上の記憶デバイスの一例である一つ以上の永続記憶デバイスでよい。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス(例えば補助記憶デバイス)でよく、具体的には、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、NVME(Non-Volatile Memory Express)ドライブ、又は、SCM(Storage Class Memory)でよい。
【0018】
また、以下の説明では、「記憶部」は、メモリとストレージ装置のうちメモリかまたはメモリとストレージ装置の両方であってもよい。
【0019】
また、以下の説明では、「処理部」または「プロセッサー」は、一つ以上のプロセッサーデバイスでよい。少なくとも一つのプロセッサーデバイスは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサーデバイスでよいが、GPU(Graphics Processing Unit)のような他種のプロセッサーデバイスでもよい。少なくとも一つのプロセッサーデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサーデバイスは、プロセッサーコアでもよい。少なくとも一つのプロセッサーデバイスは、処理の一部又は全部を行うハードウェア記述言語によりゲートアレイの集合体である回路(例えばFPGA(Field-Programmable Gate Array)、CPLD(Complex Programmable Logic Device)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサーデバイスでもよい。
【0020】
また、以下の説明では、「yyy部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサーによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサーによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/又はインターフェース装置等を用いながら行われるため、機能はプロセッサーの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサーあるいはそのプロセッサーを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
【0021】
また、以下の説明では、「プログラム」や「処理部」を主語として処理を説明する場合には、プログラムや処理部を主語として説明された処理は、プロセッサーあるいはそのプロセッサーを有する装置が行う処理としてもよい。また、二つ以上のプログラムが一つのプログラムとして実現されてもよいし、一つのプログラムが二つ以上のプログラムとして実現されてもよい。
【0022】
また、以下の説明では、「xxxテーブル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のテーブルでもよいし、入力に対する出力を発生するニューラルネットワーク、遺伝的アルゴリズムやランダムフォレストに代表されるような学習モデルでもよい。従って、「xxxテーブル」を「xxx情報」あるいは「xxxデータ」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。
【0023】
また、以下の説明では、「通話支援装置」は、一つ以上の物理的な計算機(例えば、カーナビゲーション装置等の車載器、車両制御装置、サーバー装置、データセンター)で構成されたシステムでもよいし、物理的な計算リソース群(例えば、クラウド基盤)上に実現されたシステム(例えば、クラウドコンピューティングシステム)でもよい。通話支援装置が音声情報を「出力する」ことは、通話支援装置と通信可能に接続されるいずれかの発音するデバイス(スピーカー等)に音声情報を発音させることであってもよい。
【0024】
本実施形態では、通信機器200と通信可能に接続され、車両に搭載された通話支援装置100において、車両搭乗者を近端話者として、他の車両等の遠端話者と通話する通話支援の実施例を示す。しかし、通話支援装置100は、車両に限られず、列車、電車、ボート、フェリー等の移動体であれば適用できることはいうまでもない。また、通話支援装置100は、コールセンターや研修施設でのヘッドセットを用いる業務や、テレビ会議等の通話においても適用することもできる。
【0025】
図1は、通話支援システムの構成例を示す図である。通話支援システム1は、通話支援装置100と、通話支援装置100とネットワーク60を介して通信可能に接続される通信機器200と、を含む。また、通信機器200は、いわゆるスマートフォンや携帯電話であり、近端話者の通話の相手方となる遠端話者が使用する相手方通信機器300とネットワーク70を介して通話のための呼を確立することができる。
【0026】
ただし、この態様に限られるものではなく、通話支援システム1は、より多くの通信機器200を接続するものであってもよいし、通信機器200は無線LAN(Local Area Network)等のアクセスポイントとなる装置であってもよい。あるいは、通話支援装置100は、通信機器と一体化されたものであってもよい。またあるいは、通話支援システム1は、処理部110をソフトウェアで実現されて、スマートフォンの一機能として実現されるものであってもよい。あるいは、通話支援装置100の処理部は、スマートフォンが利用時に接続するクラウドサービスとして実現されてもよい。
【0027】
ネットワーク60、70は、車載Ethernet、CAN FD(CAN with Flexible Data-Rate)、CXPI(Clock Extension Peripheral Interface)等の車載ネットワーク、Bluetooth(登録商標)、USB(Universal Serial Bus)等の有線接続(Wire)、Wi-Fi(登録商標)、インターネットあるいはイントラネット等を含む各種のネットワークである。ネットワーク60、70は、これに限られず、さらに、WAN(Wide Area Network)、携帯電話網等、あるいはこれらが複合した通信網であってもよい。また、ネットワーク60、70は、携帯電話通信網等の無線通信網上のVPN(Virtual Private Network)等であってもよいし、同一のネットワークであってもよい。
【0028】
通話支援装置100は、処理部110と、タッチ検出ディスプレイ120と、接続部130と、を有する。処理部110には、音声入出力制御部111と、音声解析部112と、ミュート処理部113と、タッチ検出部114と、表示出力部115と、車両情報収集部116と、エコーキャンセラー117と、が含まれる。また、通話支援装置100は、通話ごとに遠端話者情報125と、近端話者情報126と、を記憶する記憶部(不図示)を備える。
【0029】
図2は、遠端話者情報のデータ構造の例を示す図である。遠端話者情報125では、氏名125aと、電話番号125bと、呼びかけ音声データ125cと、音声特性125dと、が対応付けられて格納される。氏名125aには、通話の遠端話者の氏名が格納される。電話番号125bには、通話の遠端話者の電話番番号が格納される。呼びかけ音声データ125cには、近端話者が通話の遠端話者に呼びかける際の名(遠端話者の氏名に限られず、愛称、通称、役職名、あだ名等、あるいは「あなた」「君」等の個人を特定しえないとされる二人称でもよい)または「もしもし」「おい」等の呼びかけの単語が格納される。音声特性125dには、遠端話者の音声の特徴量(周波数特性等)を特定する情報が格納される。
【0030】
なお、遠端話者は、同乗者も含む。そのため、遠端話者の同乗者についても、遠端話者情報125には氏名125aと、電話番号125bと、呼びかけ音声データ125cと、音声特性125dと、が対応付けられて格納される。音声特性を識別の情報として、過去に話者となったことのある同乗者の情報があれば履歴から氏名125aと、電話番号125bと、呼びかけ音声データ125cと、音声特性125dと、が対応付けられて格納されるものとする。そして、確立した呼において遠端話者側の相手方通信機器300を介して発話情報を受け付けた者を対象として遠端話者情報125に情報が格納される。すなわち、通話中の呼に参加した遠端側の発話者のみが、遠端話者情報125に格納され、通話を終えると、履歴として蓄えられて遠端話者情報125からは削除される。
【0031】
図3は、近端話者情報のデータ構造の例を示す図である。近端話者情報126では、氏名126aと、電話番号126bと、呼びかけ音声データ126cと、音声特性126dと、が対応付けられて格納される。氏名126aには、通話の近端話者の氏名が格納される。電話番号126bには、通話の近端話者の電話番番号が格納される。呼びかけ音声データ126cには、遠端話者から近端端話者に呼びかける際の名(近端話者の氏名に限られず、愛称、通称、役職名、あだ名等、あるいは「あなた」「君」等の個人を特定しえないとされる二人称でもよい)または「もしもし」「おい」等の呼びかけの単語が格納される。音声特性126dには、近端話者の音声の特徴量(周波数特性等)を特定する情報が格納される。
【0032】
なお、近端話者は、同乗者も含む。そのため、近端話者の同乗者についても、近端話者情報126には氏名126aと、電話番号126bと、呼びかけ音声データ126cと、音声特性126dと、が対応付けられて格納される。音声特性を識別の情報として、過去に話者となったことのある同乗者の情報があれば履歴から氏名126aと、電話番号126bと、呼びかけ音声データ126cと、音声特性126dと、が対応付けられて格納されるものとする。そして、確立した呼において近端話者側の通話支援装置100を介して発話情報を受け付けた者を対象として近端話者情報126に情報が格納される。すなわち、通話中の呼に参加した近端側の発話者のみが、近端話者情報126に格納され、通話を終えると、履歴として蓄えられて近端話者情報126からは削除される。
【0033】
図1の説明に戻る。通話支援装置100には、車載センサー190と、マイクロフォン5と、スピーカー10と、が接続される。車載センサー190と、マイクロフォン5と、スピーカー10とは、車両(移動体)に装備されたものであり、車載Ethernet、CAN FD、CXPI等の車載ネットワークを介して通話支援装置100に接続される。
【0034】
音声入出力制御部111は、近端話者の発話音声を集音して発話音声情報を取得し、遠端話者の相手方通信機器300から受信した受信音声情報を所定の音量で発音する。具体的には、音声入出力制御部111は、近端話者の発話音声をマイクロフォン5により集音して発話音声情報を取得し、遠端話者側の相手方通信機器300から近端話者の通信機器200を経由して受信した受信音声情報をスピーカー10にて所定の音量で発音する。
【0035】
音声解析部112は、発話音声情報を用いて、近端話者が所定時間発話していない状態か否か判定する。また、音声解析部112は、受信音声情報を用いて、遠端話者が発話を継続している状態か否か判定する。また、音声解析部112は、受信音声情報を用いて、遠端話者が近端話者に所定の呼びかけを発話したか否か判定する。また、音声解析部112は、遠端話者として一人または複数人が存在する場合には、遠端話者全員の音声の特徴量のマッチングを音声特性125dの履歴との間で行い、該当する話者を遠端話者情報125に格納する。近端話者として一人または複数人が存在する場合にも、同様に、音声解析部112は、近端話者全員の音声の特徴量のマッチングを音声特性126dの履歴との間で行い、該当する話者を近端話者情報126に格納する。
【0036】
ミュート処理部113は、近端話者が所定時間発話していない状態である場合に、音声入出力制御部111に受信音声情報を消音状態にして発音させる(ミュート)制御を行う。また、ミュート処理部113は、近端話者が所定時間発話していない状態かつ、遠端話者が発話を継続している状態である場合に、音声入出力制御部111に受信音声情報を消音状態にして発音させる制御を行う。また、ミュート処理部113は、音声入出力制御部111に受信音声情報を消音状態にして発音させる制御を行うと、遠端話者側の相手方通信機器300に消音状態であることを通知する。
【0037】
また、ミュート処理部113は、音声解析部112が、近端話者が所定時間発話していない状態ではなくなったと判定すると、音声入出力制御部111に消音状態を解除する制御を行う。また、ミュート処理部113は、音声解析部112が、遠端話者が近端話者に所定の呼びかけ(近端話者情報126の呼びかけ音声データ126cのいずれかに合致する単語)を発話したと判定すると、音声入出力制御部111に消音状態を解除する制御を行う。
【0038】
また、ミュート処理部113は、とくに、通話支援装置100が接続される車両が走行中(移動体が移動中)において、近端話者が所定時間発話していない状態かつ、遠端話者が発話を継続している状態である場合に、音声入出力制御部111に受信音声情報を消音状態にして発音させる制御を行うようにしてもよい。近端話者が運転動作を行っている可能性が高く、近端話者側が並行して行う動作の注意力向上を支援するためである。その場合、ミュート処理部113は、消音状態にして発音させる制御を行っている状態で、車両が走行中(移動体が移動中)でなくなると、音声入出力制御部111に消音状態にして発音させる制御を解除するようにしてもよい。近端話者側が並行して行う動作が停止している可能性が高いためである。
【0039】
タッチ検出部114は、タッチ検出ディスプレイ120に表示される操作項目についてのタップ、ロングタップ、ダブルタップまたはフリック等の入力態様を検出する。具体的には、タッチ検出部114は、タッチ位置にあるアイコンやボタン等の操作子を特定し、入力態様を検出する。例えば、タップされた位置に「ミュート解除」ボタンが表示されている場合には、タッチ検出部114は、「ミュート解除」ボタンへのタップ入力を検出する。
【0040】
表示出力部115は、タッチ検出ディスプレイ120に表示する画面情報を生成し、表示を制御する。例えば、表示出力部115は、グラフィック情報にレイヤーを重ねてメッセージ等のポップアップを表示したり、表示領域を分割してそれぞれにグラフィック情報を表示する。表示出力部115については、本実施形態においては既存の技術を用いるものとしてよい。
【0041】
車両情報収集部116は、接続された車両に装備された車載センサー190から情報を収集し、とくに走行中であるか否かを特定する情報(速度、加速度、ブレーキ踏力等)を収集する。なお、車両情報収集部116は、車両以外の移動体に通話支援装置100が接続される場合には、移動体のセンサーから情報を収集するようにしてもよい。
【0042】
エコーキャンセラー117は、接続部130を介して受信した遠端話者の発話である受話音声情報から音響エコーに相当する信号を作り、 マイクロフォン5による入力信号から引くことで空間を伝搬した音響成分を入力信号から消去する。エコーキャンセラー117については、本実施形態においては既存の技術を用いるものとしてよい。なお、一般的なエコーキャンセラーでは、音圧の低い音はフィルタリングされるため、一般的な音圧の環境音やBGM(背景音楽)を集音することはない。
【0043】
タッチ検出ディスプレイ120は、グラフィック情報を表示出力部115から受け付けて、描画する。また、タッチ検出ディスプレイ120は、操作者により触れられた部位を画面上の座標情報として検出し、タッチ検出部114へ受け渡す。タッチ検出ディスプレイ120については、本実施形態においては既存の技術を用いるものとしてよい。
【0044】
接続部130は、ネットワーク60を介して他の、特に通信機器200への通信による接続を行う。その通信の種類は、有線・無線のいずれでもよく、有線であれば例えばUSB(Universal Serial Bus)や、無線であればBluetooth(登録商標)、Wi-Fi(登録商標)、その他の通信規格によるものであってもよい。接続部130については、本実施形態においては既存の技術を用いるものとしてよい。
【0045】
車載センサー190は、通話支援装置100が接続される車両(移動体)に装備された各種のセンサーである。車載センサー190は、加速度センサー、ブレーキセンサー、ジャイロセンサー等の車載(移動体)の各種センサーの総称である。例えば、車載センサー190は、複数種類のセンサーの複合体であり、車両の走行速度、加速度、ブレーキ踏力等を検出する。車載センサー190については、本実施形態においては既存の技術を用いるものとしてよい。
【0046】
通信機器200は、いわゆるモバイルルーターや、携帯電話(スマートフォン)であり、ネットワーク70を介した相手方通信機器300との音声通話の経路確立、接続管理を行う。なお、通信機器200は、通話支援装置100とのネットワーク60を介した接続管理は接続部210が行い、相手方通信機器300とのネットワーク70を介した接続管理は通信部230が行う。通話支援装置100が相手方通信機器300と通話の呼を確立する際には、接続部210が通話支援装置100との通信を媒介し、通信部230が相手方通信機器300との通信を媒介することで、協調動作可能となり、エンドトゥエンドの通信が確立される。
【0047】
相手方通信機器300は、通信部330を備えており、通信機器200とネットワーク70を介して通信を行う。本実施形態では、相手方通信機器300もまた通信機器200と同様に他の装置との通信を媒介する装置の想定であるが、これに限られず、携帯電話等の電話機そのものであってもよい。
【0048】
図4は、通話支援装置のハードウェア構成例を示す図である。通話支援装置100は、プロセッサー101と、メモリ102と、ストレージ装置103と、外部機器接続装置104と、これらを互いに接続するバスと、を備えた一般的な情報処理装置により実現できる。また、外部機器接続装置104は、通話支援装置100の外部の装置を通話支援装置100に接続するためのインターフェースを担う。外部機器接続装置104には、マイクロフォン5と、スピーカー10と、タッチ検出ディスプレイ120と、通信機器200と、が接続される。
【0049】
プロセッサー101は、例えば、CPU(Central Processing Unit)、あるいはGPU(Graphics Processing Unit)である。メモリ102は、例えば、RAM(Random Access Memory)等である。ストレージ装置103は、例えば、ハードディスク装置(Hard Disk Drive:HDD)やSSD(Solid State Drive)などである。外部機器接続装置104は、通信機器200等の外部機器との接続を担う装置である。
【0050】
上記した処理部110の各機能部、すなわち音声入出力制御部111と、音声解析部112と、ミュート処理部113と、タッチ検出部114と、表示出力部115と、車両情報収集部116と、エコーキャンセラー117とは、プロセッサー101が所定のプログラムを読み込み実行することにより構築される。そのため、メモリ102またはストレージ装置103には、各機能部の処理を実現するためのプログラムが記憶されている。そして、そのプログラムは、実行時にメモリ102にロードされ、プロセッサー101に処理を行わせる。
【0051】
遠端話者情報125、近端話者情報126は、メモリ102またはストレージ装置103により実現される。接続部130は、外部機器接続装置104により実現される。
【0052】
図5は、通話時処理の処理フローの例を示す図である。通話時処理は、通話支援装置100から相手方通信機器300までのエンドトゥエンドでの呼が確立すると、開始される。
【0053】
まず、処理部110は、通話中はステップS002~ステップS010の処理を繰り返し行う(ステップS001、ステップS011)。
【0054】
そして、音声入出力制御部111は、送受話音声をそれぞれ受け付ける(ステップS002)。具体的には、音声入出力制御部111は、近端話者の発話音声(送話音声)をマイクロフォン5により集音して発話音声情報を取得し、遠端話者側の相手方通信機器300から近端話者側の通信機器200を経由して受信した受信音声情報(受話音声)をスピーカー10にて所定の音量で発音する。
【0055】
そして、音声解析部112は、会話音声をテキスト化する(ステップS003)。具体的には、音声解析部112は、公知の手段により、音声を解析し、送受話音声をそれぞれテキスト化する。ここで、公知の手段では、学習済み音響モデルと言語モデルとを用いて音響特定、テキスト特定を行う。あるいは、これに限られず、音声解析部112は、学習済みニューラルネットワークを用いて音声からテキスト情報を直接取得するエンドトゥエンドでのテキスト化を行うものであってもよい。
【0056】
そして、ミュート処理部113は、近端側の発話(送話音声)の終了からの経過時間を算出する(ステップS004)。具体的には、ミュート処理部113は、音声解析部112により解析された近端話者の発話が終了したタイミングを無音期間の開始を用いて特定し、該タイミングからの経過時間を算出する。
【0057】
そして、ミュート処理部113は、所定時間が経過したか否か判定する(ステップS005)。具体的には、ミュート処理部113は、ステップS004により算出した経過時間が、所定時間(例えば、3分)を超えるか否かにより判定する。なお、ミュート処理部は、これに限られず、さらに、近端話者が所定時間発話していない状態かつ、遠端話者が発話を継続している状態である場合に、ステップS005において「Yes」となるようにしてもよい。またあるいは、ミュート処理部113は、通話支援装置100が接続される車両が走行中(移動体が移動中)において、近端話者が所定時間発話していない状態かつ、遠端話者が発話を継続している状態である場合に、ステップS005において「Yes」となるようにしてもよい。なお、ミュート処理部113は、車両が走行中(移動体が移動中)か否かを、車両情報収集部116から取得する。所定時間が経過していない場合(ステップS005にて「No」の場合)には、ミュート処理部113は、ステップS002に制御を進める。
【0058】
所定時間が経過した場合(ステップS005にて「Yes」の場合)には、ミュート処理部113は、遠端側の発話をミュートして、遠端話者側の相手方通信機器300に対してミュートしたことを示す情報を通知する(ステップS006)。具体的には、ミュート処理部113は、音声入出力制御部111に受信音声情報を消音状態にして発音させる制御を行う。そして、ミュート処理部113は、音声入出力制御部111に受信音声情報を消音状態にして発音させる制御を行うと、遠端話者側の相手方通信機器300に消音状態であることを、例えば所定の通知音やメッセージ等で通知する。このメッセージには、通話相手(近端話者)に所定の呼びかけを行うことで消音状態を解除することができることを説明する文章を含めてもよい。また、ミュート処理部113は、表示出力部115に指示して、ミュートを解除する指示を受け付けるボタンをタッチ検出ディスプレイ120の所定の座標に表示させる。
【0059】
そして、ミュート処理部113は、近端話者が発話する(ステップS007)か、遠端話者が所定の呼びかけを行う(ステップS008)か、タッチ検出部114がタッチ検出ディスプレイ120上の所定の座標に表示されているミュート解除ボタンへのタップ入力を検出する(ステップS009)と、ミュートを解除する(ステップS010)。
【0060】
以上が、通話時処理の処理フローの例である。通話時処理によれば、近端話者側に遠端話者側の発話を聞かせる必要のない場合等に、近端話者側が並行して行う動作の注意力向上を支援することができるといえる。
【0061】
図6は、近端話者画面例を示す図である。近端話者画面例600および600´では、ミュート処理が行われる前後の画面の変化が示されている。近端話者画面例600は、ミュート処理が行われる以前、すなわち通常の呼が確立されて通話がなされている状態において、通話支援装置100のタッチ検出ディスプレイ120上に表示される画面例である。近端話者画面例600には、通話の状態を示すステータス情報610と、入力を受け付けると通話を保留状態に移行させる保留ボタン620と、入力を受け付けると通話を終了に移行させる終了ボタン621と、遠端話者の氏名630と、発話中の話者であることを色反転等の強調表示により示す話者アイコン631と、を含む。遠端話者として複数人が存在する場合には、音声解析部112により遠端話者全員の音声の特徴量のマッチングが音声特性125dの履歴との間で行われ、該当する話者が遠端話者情報125に格納されるとともに、遠端話者の氏名630、話者アイコン631として示される。
【0062】
近端話者画面例600´は、ミュート処理が行われた以降、すなわち通常の呼が確立されて通話がなされている状態において、通話時処理のステップS006においてミュート処理がなされた以降に通話支援装置100のタッチ検出ディスプレイ120上に表示される画面例である。ミュート処理が行われた以降、遠端話者の発話音声はスピーカー10から出力されない。上述のように、近端話者の誰かが発話するか、遠端話者が近端話者の誰かに所定の呼びかけを行うか、ミュート解除ボタンへのタップ入力を検出するか、がなされると、ミュートは解除される。近端話者画面例600´には、このようなミュート解除ボタン650が表示される。また、ミュート中であることを示すアイコン615が表示される。ミュートの解除後は、近端話者画面例600に遷移する。
【0063】
以上が、実施形態に係る通話支援システム1である。実施形態に係る通話支援システム1によれば、近端話者側が通話と並行して行う動作、例えば車両の運転動作の注意力向上を支援することができる。
【0064】
ただし、本発明は、上記の実施形態に制限されない。上記の実施形態は、本発明の技術的思想の範囲内で様々な変形が可能である。例えば、上記の実施形態では、ミュートの解除条件は、近端話者の誰かが発話するか、遠端話者が近端話者の誰かに所定の呼びかけを行うか、ミュート解除ボタンへのタップ入力を検出するか、であるが、これに限られるものではない。例えば、車両が走行中(移動体が移動中)であることをミュート実施の条件としている場合には、ミュート処理部113は、消音状態にして発音させる制御を行っている状態で、車両が走行中(移動体が移動中)でなくなると、音声入出力制御部111に消音状態にして発音させる制御を解除するようにしてもよい。近端話者側が並行して行う動作が停止している可能性が高いためである。
【0065】
また例えば、上記の実施形態では、説明を単純にするために遠端話者の発話情報をミュートする例を示したが、これ以外にも、ミュート処理部113は、スピーカー10から出力される音量を著しく小さい値に固定するようにしてもよいし、所定の割合で音量を下げる(例えば、16分の1にする等)ようにしてもよい。
【0066】
また例えば、上記の実施形態では、車両に通話支援装置100が接続するようにしているが、この場合には、一般にハンズフリー通話を行うことができる。ハンズフリー通話の場合には、運転動作と通話動作を並行することができるため便利であるが、通話に気を取られて運転動作の注意力が低下してしまうおそれがある。このような背景から、ハンズフリー通話において通話支援装置100を適用し、遠端話者のみが発話している状況ではミュートを行うことで、著しく運転動作の注意力を向上させることができるといえる。
【0067】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサーがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0068】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0069】
1:通話支援システム、5:マイクロフォン、10:スピーカー、60,70:ネットワーク、100:通話支援装置、110:処理部、111:音声入出力制御部、112:音声解析部、113:ミュート処理部、114:タッチ検出部、115:表示出力部、116:車両情報収集部、117:エコーキャンセラー、120:タッチ検出ディスプレイ、125:遠端話者情報、126:近端話者情報、130:接続部、190:車載センサー、200:通信機器、210:接続部、230:通信部、300:相手方通信機器、330:通信部。