特許第6613382号(P6613382)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

特許6613382通信端末装置、プログラム及び情報処理方法
<>
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000002
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000003
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000004
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000005
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000006
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000007
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000008
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000009
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000010
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000011
  • 特許6613382-通信端末装置、プログラム及び情報処理方法 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6613382
(24)【登録日】2019年11月8日
(45)【発行日】2019年11月27日
(54)【発明の名称】通信端末装置、プログラム及び情報処理方法
(51)【国際特許分類】
   H04M 1/247 20060101AFI20191118BHJP
   H04M 1/73 20060101ALI20191118BHJP
   G06F 3/16 20060101ALI20191118BHJP
   G10L 15/10 20060101ALI20191118BHJP
   G10L 15/00 20130101ALI20191118BHJP
【FI】
   H04M1/247
   H04M1/73
   G06F3/16 650
   G06F3/16 610
   G10L15/10 200W
   G10L15/00 200A
【請求項の数】6
【全頁数】15
(21)【出願番号】特願2018-547601(P2018-547601)
(86)(22)【出願日】2017年10月18日
(86)【国際出願番号】JP2017037702
(87)【国際公開番号】WO2018079379
(87)【国際公開日】20180503
【審査請求日】2019年2月20日
(31)【優先権主張番号】特願2016-210944(P2016-210944)
(32)【優先日】2016年10月27日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】110000752
【氏名又は名称】特許業務法人朝日特許事務所
(72)【発明者】
【氏名】川村 哲
【審査官】 加内 慎也
(56)【参考文献】
【文献】 国際公開第2016/114402(WO,A1)
【文献】 特開2012-49839(JP,A)
【文献】 特開2013-201560(JP,A)
【文献】 特開2002-325279(JP,A)
【文献】 特開2012-205170(JP,A)
【文献】 特開2015-12301(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M 1/247
G06F 3/16
G10L 15/00
G10L 15/10
H04M 1/73
(57)【特許請求の範囲】
【請求項1】
通話のための通信を行う通信端末装置であって、
前記通信端末装置にユーザの頭部が近接したことを検知する近接検知部と、
前記ユーザの音声の入力を受け付ける音声入力受付部と、
通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録する記録部と、
前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識する音声認識部と、
所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させる終話制御部と
を備える通信端末装置。
【請求項2】
前記所定の時点は、前記頭部の近接が検知されなくなった時点から所定時間前に遡った時点である
ことを特徴とする請求項1に記載の通信端末装置。
【請求項3】
前記通信端末装置の姿勢を計測する計測部を備え、
前記終話制御部は、
前記近接が検知されなくなった場合に前記通信端末装置の姿勢が変化したことを条件として、前記通話を終了させる
ことを特徴とする請求項1又は請求項2に記載の通信端末装置。
【請求項4】
通話を終了する際にユーザが発した語句を抽出する抽出部を備え、
前記終話制御部は、
1以上の通話で抽出された前記語句を、前記キーワードとする
ことを特徴とする請求項1から請求項3のいずれか1項に記載の通信端末装置。
【請求項5】
通話のための通信を行う通信端末装置のコンピュータに、
前記通信端末装置にユーザの頭部が近接したことを検知するステップと、
前記ユーザの音声の入力を受け付けるステップと、
通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録するステップと、
前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識するステップと、
所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させるステップと
を実行させるためのプログラム。
【請求項6】
通話のための通信を行う通信端末装置にユーザの頭部が近接したことを検知するステップと、
前記ユーザの音声の入力を受け付けるステップと、
通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録するステップと、
前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識するステップと、
所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させるステップと
を有する情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信端末装置の終話に関する。
【背景技術】
【0002】
ユーザによる終話操作なしに終話する技術が、特許文献1に記載されている。特許文献1には、携帯端末が、「さようなら」とか「失礼します」といったキーワードの発話を認識すると終話することが記載されている。特許文献2には、通話時の端末の制御を音声命令によって行うこと、また、音声命令を認識するための音声認識機能を必要な期間のみに作動させることが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−325279号公報
【特許文献2】特許5481058号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の携帯端末は、通話の開始時に音声認識機能を作動させ、通話中は音声認識を継続して行う。このため、携帯端末の消費電力量が増大しやすい。特許文献2に記載の技術では、ユーザは、音声命令を行うときにボタンやタッチパネルの操作を行って、音声認識機能の作動を明示的に指示しなければない。このため、ユーザにとっては、音声命令を行うのが煩わしい場合がある。
これに対し、本発明は、ユーザの音声の認識に起因する消費電力量の増大を抑えつつ、ユーザが終話時にとる自然な動作に応じて終話することを目的とする。
【課題を解決するための手段】
【0005】
上述した課題を解決するため、本発明の通信端末装置は、通話のための通信を行う通信端末装置であって、前記通信端末装置にユーザの頭部が近接したことを検知する近接検知部と、前記ユーザの音声の入力を受け付ける音声入力受付部と、通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録する記録部と、前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識する音声認識部と、所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させる終話制御部とを備える。
【0006】
本発明の通信端末装置において、前記所定の時点は、前記頭部の近接が検知されなくなった時点から所定時間前に遡った時点であってもよい。
【0007】
本発明の通信端末装置において、前記通信端末装置の姿勢を計測する計測部を備え、前記終話制御部は、前記近接が検知されなくなった場合に前記通信端末装置の姿勢が変化したことを条件として、前記通話を終了させてもよい。
【0008】
本発明の通信端末装置において、通話を終了する際にユーザが発した語句を抽出する抽出部を備え、前記終話制御部は、1以上の通話で抽出された前記語句を、前記キーワードとしてもよい。
【0009】
本発明のプログラムは、通話のための通信を行う通信端末装置のコンピュータに、前記通信端末装置にユーザの頭部が近接したことを検知するステップと、前記ユーザの音声の入力を受け付けるステップと、通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録するステップと、前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識するステップと、所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させるステップとを実行させるためのプログラムである。
【0010】
本発明の情報処理方法は、通話のための通信を行う通信端末装置にユーザの頭部が近接したことを検知するステップと、前記ユーザの音声の入力を受け付けるステップと、通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録するステップと、前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識するステップと、所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させるステップとを有する。
【発明の効果】
【0011】
本発明によれば、ユーザの音声の認識に起因する消費電力量の増大を抑えつつ、ユーザが終話時にとる自然な動作に応じて終話することができる。
【図面の簡単な説明】
【0012】
図1】本発明の第1実施形態に係る通信端末装置の正面図。
図2】同実施形態に係る通信端末装置のハードウェア構成の一例を示す図。
図3】同実施形態に係る通信端末装置のプロセッサの機能構成の一例を示す図。
図4】同実施形態に係る通信端末装置が通話中に実行する処理を示すフローチャート。
図5】同実施形態に係る通信端末装置が通話中に実行する処理の具体例を示す図。
図6】同実施形態に係る通信端末装置が通話中に実行する処理の具体例を示す図。
図7】本発明の第2実施形態に係る通信端末装置のプロセッサの機能構成の一例を示す図。
図8】同実施形態に係る通信端末装置が通話中に実行する処理を示すフローチャート。
図9】同実施形態に係る通信端末装置が通話中に実行する処理の具体例を示す図。
図10】本発明の変形例1に係る通信端末装置のプロセッサの機能構成の一例を示す図。
図11】同変形例に係る通信端末装置が通話中に実行する処理を示すフローチャート。
【符号の説明】
【0013】
10,10A,10B…通信端末装置、11…プロセッサ、111…近接検知部、112…音声入力受付部、113…記録部、114,114A…音声認識部、115,115A…終話制御部、116…計測部、117…抽出部、12…メモリ、13…ストレージ、14…通信装置、15…入力装置、151…近接センサ、152…マイクロフォン、16…出力装置、161…スピーカ、162…表示領域、17…バス。
【発明を実施するための形態】
【0014】
以下、図面を参照して本発明の実施形態を説明する。
[第1実施形態]
図1は、本発明の第1実施形態に係る通信端末装置10の正面図である。通信端末装置10は、ユーザが手に持って使用する、携帯型の通信端末装置である。通信端末装置10は、本実施形態ではスマートフォンである。
【0015】
通信端末装置10は、通話のための通信を行う。通信端末装置10は、通話のための構成として、マイクロフォン152、及びスピーカ161を正面側に備える。マイクロフォン152は、ユーザの音声を入力するための音声入力装置である。マイクロフォン152は、通話するユーザの口の近傍に位置するように配置される。スピーカ161は、音声を出力するための音声出力装置である。スピーカ161は、通話するユーザの頭部(より詳細には耳)の近傍に位置するように配置される。
【0016】
通信端末装置10は、更に表示領域162、及び近接センサ151を正面側に備える。表示領域162は、画像(画面)を表示するディスプレイの表示領域である。近接センサ151は、スピーカ161に隣り合って設けられ、物体の近接を検知するセンサである。ここでいう「近接」とは、接触、及び非接触のいずれの場合も含む。近接センサ151は、例えば、赤外光型、電磁誘導を利用した高周波発振型、又は磁石を用いた磁気型のセンサであるが、検知の方式は特に問わない。
【0017】
図2は、通信端末装置10のハードウェア構成の一例を示す図である。通信端末装置10は、物理的には、プロセッサ11、メモリ12、ストレージ13、通信装置14、入力装置15、出力装置16、及びバス17等を含むコンピュータ装置として構成される。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニット等に読み替えることができる。通信端末装置10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0018】
プロセッサ11は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ11は、周辺装置とのインターフェース、制御装置、演算装置、レジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。
また、プロセッサ11は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ13及び/又は通信装置14からメモリ12に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。各種処理は、1つのプロセッサ11で実行される旨を説明してきたが、2以上のプロセッサ11により同時又は逐次に実行されてもよい。プロセッサ11は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介して受信されてもよい。
【0019】
メモリ12は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の少なくとも1つで構成されてもよい。メモリ12は、レジスタ、キャッシュ、メインメモリ(主記憶装置)等と呼ばれてもよい。
【0020】
ストレージ13は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)等の光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップ等の少なくとも1つで構成されてもよい。ストレージ13は、補助記憶装置と呼ばれてもよい。
【0021】
通信装置14は、無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置14は、通話のための通信を行う。
【0022】
入力装置15は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン152、スイッチ、ボタン、近接センサ151を含むセンサ類)である。出力装置16は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカ161、LEDランプ等)である。
【0023】
また、プロセッサ11やメモリ12等の各装置は、情報を通信するためのバス17で接続される。バス17は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
【0024】
また、通信端末装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ11は、これらのハードウェアの少なくとも1つで実装されてもよい。
通信端末装置10における各機能は、プロセッサ11、メモリ12等のハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ11が演算を行い、通信装置14による通信や、メモリ12及びストレージ13におけるデータの読み出し及び/又は書き込みを制御することで実現される。
【0025】
図3は、通信端末装置10のプロセッサ11の機能構成の一例を示すブロック図である。プロセッサ11は、近接検知部111、音声入力受付部112、記録部113、音声認識部114、及び終話制御部115を含む。
近接検知部111は、近接センサ151の検知結果に基づいて、通信端末装置10にユーザの頭部が近接したことを検知する。通話中に近接検知部111により物体の近接が検知された場合、この物体はユーザの頭部とみなされる。通話中とは、通話に用いられる通信路が確立されている期間のことをいう。近接検知部111は、ユーザの頭部の近接の有無を示す検知結果を、音声認識部114、及び終話制御部115に通知する。
【0026】
音声入力受付部112は、マイクロフォン152を介してユーザの音声の入力を受け付ける。音声入力受付部112は、例えば、マイクロフォン152から供給されたアナログ形式の音声信号を、デジタル形式の音声データに変換する。音声データは、例えば、音声波形を示す波形データである。音声入力受付部112は、この音声データを、記録部113に供給する。
【0027】
記録部113は、通話中に入力されたユーザの音声を示す音声データを、メモリ12に記録する(つまり、ユーザの音声を録音する)。メモリ12に記憶された音声データを、「音声データSD」と表す。
【0028】
音声認識部114は、通話中に通信端末装置10にユーザの頭部の近接が検知されなくなった場合には、メモリ12に記録された音声データSDに基づいて、その通話中の所定の時点以降に入力されたユーザの音声を認識する。「所定の時点」は、ユーザの頭部の近接が検知されなくなった時点から、所定時間前に遡った時点である。音声を認識する処理により、ユーザの音声は、文字列(テキストコード)に変換される。
【0029】
終話制御部115は、終話制御を行う。終話制御は、通話を終了させる制御で、具体的には、通話に用いられる通信路を切断する制御である。終話制御部115は、音声認識部114により、メモリ12に記憶されたキーワードKWが認識され、且つ通信端末装置10へのユーザの頭部の近接が検知されていない場合には、終話制御を行う。キーワードKWは、例えば予め決められた文字列である。キーワードKWは、通信端末装置10の設計段階に決められてもよいし、ユーザにより指定されてもよい。キーワードKWは、例えば「バイバイ。」や「じゃあね。」といった、通話を終了しようとするときにユーザが発する語句に決められている。
【0030】
図4は、通信端末装置10が通話中に実行する処理を示すフローチャートである。図5、及び図6は、通信端末装置10が通話中に実行する処理の具体例を示す図である。
記録部113は、通信端末装置10が通話中かどうかを判定する(ステップS1)。記録部113は、通信装置14により通話のための通信路が確立されている期間においては、ステップS1で「YES」と判定する。この場合、記録部113は、音声入力受付部112によってマイクロフォン152からの入力が受け付けられた音声データを、メモリ12に記録する(ステップS2)。図5に示すように、時刻t1にユーザUが通信端末装置10を用いて通話を開始した場合、記録部113は、その時点から音声データの記録を開始する。
【0031】
次に、近接検知部111は、近接センサ151の検知結果に基づいて、通信端末装置10へのユーザの頭部の近接の有無を検知する(ステップS3)。図5に示すように、通話が開始された時刻t1から、通信端末装置10はユーザUの耳(ここでは右耳)に当てられた状態になる。このとき、近接検知部111は、通信端末装置10にユーザUの頭部が近接していることを検知する。
【0032】
次に、近接検知部111は、ユーザの頭部の近接が検知されなくなったかどうかを判定する(ステップS4)。ステップS4は、ユーザの頭部が近接していることを検知している状態から、近接していない状態に遷移したかどうかを判定する処理である。ステップS4で「NO」と判定された場合、通信端末装置10は、通話を継続したまま、ステップS1の処理に戻す。通信端末装置10がユーザの頭部に近接しており、ユーザが通話を継続していると推察されるからである。
【0033】
記録部113は、通話中において、ステップS2の音声データの記録を継続して行う(例えば、図5に示す時刻t2)。ただし、通話中の全ての音声データが、メモリ12に記憶されたままでなくてもよい。メモリ12には、少なくとも、現在時点から所定時間遡った時点以降に入力された音声の音声データが記憶されていればよい。換言すれば、当該時点よりも前の音声データは、破棄(消去)されてよい。「所定時間」は、例えば3〜10秒である。
【0034】
その後、時刻t3において、「バイバイ。」という語句を発話したとする。このような発話は、通話を終了しようとするときに自然にとられる動作に含まれる。この発話を示す音声データについても、メモリ12に記録される。その後、時刻t4において、ユーザUが通信端末装置10を耳から離したとする。この動作も、通話を終了しようとするときに自然にとられる動作に含まれる。この動作により、近接検知部111は、ステップS3で、ユーザの頭部の近接を検知しなくなる。この場合、近接検知部111は、ステップS4で、ユーザの頭部の近接が検知されなくなったと判定する(ステップS4;YES)。
【0035】
次に、音声認識部114は、メモリ12に記憶された音声データSDに基づいて、ユーザの音声を認識する(ステップS5)。ステップS5では、ユーザの頭部の近接が検知されなくなった時点から、所定時間前に遡った時点以降に入力されたユーザの音声が認識される。図5の例では、時刻t4から所定時間だけ遡った時刻t23を始期とし、時刻t4を終期とする期間Tに入力されたユーザの音声が認識される。このように、音声認識部114は、通信端末装置10へのユーザの頭部の近接が検知されなくなったことを契機に、ユーザの音声を認識する。
なお、図5の例では、時刻t23よりも前に記録された音声データが破棄されていてもよいことになる。このような音声の認識に不要な音声データが破棄されることで、メモリ12の記憶領域の無駄な使用が抑えられる。
【0036】
次に、終話制御部115は、音声認識部114により、キーワードKWが認識されたかどうかを判定する(ステップS6)。ここでは、終話制御部115は、時刻t23から時刻t4までの期間T内に、ユーザUがキーワードKWを示す発話をしたかどうかを判定する。
ステップS6で「NO」と判定された場合、通信端末装置10は、通話を継続したまま、ステップS1の処理に戻す。
【0037】
図5に示すように、時刻t3において「バイバイ。」という語句をユーザUが発していた場合、終話制御部115は、ステップS6で「YES」と判定する。この場合、近接検知部111は、近接センサ151の検知結果に基づいて、通信端末装置10へのユーザの頭部の近接の有無を検知する(ステップS7)。次に、近接検知部111は、通信端末装置10へのユーザの頭部の近接が検知されない状態のままかどうかを判定する(ステップS8)。ステップS7,S8は、通話を終了しようとする発話をユーザがした後も、通信端末装置10がユーザの頭部から離された状態のままかどうかを確認するために行われる処理である。
【0038】
ステップS8で「YES」と判定された場合、終話制御部115は、終話制御を行う(ステップS9)。図5の例では、時刻t4から時刻t5までの期間において、ユーザの頭部の近接が検知されていない。よって、終話制御部115は終話制御を行う。終話制御を行うと、記録部113は、音声データの記録を停止させる。
【0039】
一方、ステップS8で「NO」と判定された場合、即ち、ユーザの頭部の近接が再び検知された場合は、通信端末装置10は、通話を継続したまま、ステップS1の処理に戻す。図6に示すように、時刻t3で、ユーザUが「バイバイ。」というキーワードKWを示す発話をし、且つ時刻t4で、ユーザUが通信端末装置10を耳から離した場合でも、用事を思い出したりして、通話を継続しようとする可能性がある。図6の例では、時刻t6において、ユーザUが通信端末装置10を耳に再び当てている。このような場合にまで終話制御が行われないように、通信端末装置10は、ステップS8で「NO」と判定された場合は、通話を継続させる。
【0040】
以上説明した通信端末装置10では、通話中において音声認識を継続して行うことはせずに、通話中に入力されたユーザの音声を示す音声データをメモリ12に記録し、ユーザの頭部の近接を検知しなくなったことを契機に、メモリ12に記憶された音声データSDに基づいて、ユーザの音声を認識する。よって、通話中に音声の認識を継続して行う場合に比べて、通信端末装置10の消費電力量の増大が抑えられる。更に、通信端末装置10は、ユーザによるキーワードKWを示す発話を認識し、且つユーザの頭部の近接が検知されていない場合に、終話制御を行う。よって、通信端末装置10によれば、ユーザの意図しない誤ったタイミングで終話させてしまう可能性を低くすることができる。
【0041】
[第2実施形態]
次に、本発明の第2実施形態を説明する。
本実施形態の通信端末装置10Aは、ユーザが通話を終了させようとしているときの自装置の姿勢の変化に基づいて、終話制御を行うかどうかを判定する。本実施形態では、上述した第1実施形態と同じ符号を付した要素は、上述した第1実施形態と同等に機能する。
【0042】
図7は、通信端末装置10Aのプロセッサ11の機能構成の一例を示すブロック図である。プロセッサ11は、近接検知部111、音声入力受付部112、記録部113、音声認識部114A、終話制御部115A、及び計測部116を含む。また、入力装置15には、姿勢センサ153が含まれる。姿勢センサ153は、通信端末装置10Aの姿勢を計測するためのセンサである。姿勢センサ153は、例えば3軸の加速度センサ又は角速度センサであるが、通信端末装置10Aの姿勢の変化(例えば回転)に応じて変化する物理量を計測するセンサであればよい。
【0043】
計測部116は、姿勢センサ153の計測結果に基づいて、通信端末装置10Aの姿勢を計測する。本実施形態では、近接検知部111は、ユーザの頭部の近接の有無を示す検知結果を、音声認識部114A、及び終話制御部115に加え、計測部116に通知する。計測部116は、この通知に応じて、通信端末装置10Aの姿勢の計測の有無を判断する。
終話制御部115Aは、上述した第1実施形態の条件に加え、近接検知部111によりユーザの頭部の近接が検知されなくなったときに通信端末装置10Aの姿勢が変化したことを条件として、終話制御を行う。
【0044】
図8は、通信端末装置10Aが通話中に実行する処理を示すフローチャートである。図9は、通信端末装置10Aが通話中に実行する処理の具体例を示す図である。
記録部113は、通信端末装置10Aの通話中において、音声入力受付部112によりマイクロフォン152からの入力が受け付けられた音声データを、メモリ12に記録する(ステップS1,S2)。次に、計測部116は、姿勢センサ153の計測結果に基づいて、通信端末装置10Aの姿勢を計測する(ステップS11)。次に、近接検知部111は、近接センサ151の検知結果に基づいて、ユーザの頭部の近接の有無を検知する(ステップS3)。次に、近接検知部111は、ユーザの頭部の近接が検知されなくなったかどうかを判定する(ステップS4)。
ステップS4で「NO」と判定された場合は、上述した第1実施形態と同じく、通信端末装置10Aは、通話を継続したまま、ステップS1の処理に戻す。
【0045】
一方、ステップS4で「YES」と判定された場合の処理は、上述した第1実施形態と異なる。具体的には、近接検知部111によりユーザの頭部の近接が検知されなくなったと判定された場合、計測部116は通信端末装置10Aの姿勢が変化したかどうかを判定する(ステップS12)。ステップS12で「NO」と判定された場合、通信端末装置10Aは、通話を継続したまま、ステップS1の処理に戻す。
【0046】
ステップS12で「YES」と判定した場合、音声認識部114Aは、メモリ12に記憶された音声データSDに基づいて、ユーザの音声を認識する(ステップS5)。そして、終話制御部115Aは、音声認識部114Aの音声認識の結果に基づいて、キーワードKWを示す発話を認識されたと判定し(ステップS6;YES)、且つ近接検知部111によりユーザの頭部の近接が検知されない状態のままであると判定した場合(ステップS7、ステップS8;YES)には、終話制御を行う(ステップS9)。
【0047】
通信端末装置10Aをユーザが頭部から離した場合、その動作によって、通信端末装置10Aの姿勢は変化するはずである。図9に示す時刻t3、t4の通信端末装置10Aの姿勢を対比しても分かるように、ユーザUがキーワードKWを示す発話をしていた場合、その発話をしたときの姿勢と、通信端末装置10AをユーザUが耳から離したときの姿勢とが異なる。通信端末装置10Aによれば、この姿勢の変化を終話制御の条件とすることで、誤ったタイミングで終話させてしまう可能性が低くなる。また、ユーザの頭部の近接が検知されなくなった場合でも、通信端末装置10Aの姿勢に変化がない場合は、ユーザの音声の認識は開始されない。不要なタイミングでのユーザの音声の認識が行われないことにより、通信端末装置10Aの不要な消費電力量の増大が抑制される。
【0048】
[変形例]
本発明は、上述した実施形態と異なる形態で実施してもよい。また、以下に示す変形例は、各々を組み合わせてもよい。
(変形例1)
本発明の通信端末装置は、キーワードを学習する機能を備えてもよい。本変形例の通信端末装置10Bは、通話を終了する際にユーザが発した語句を、キーワードとしてメモリ12に登録する。本実施形態では、上述した第1実施形態で説明した「キーワードKW」を「キーワードKW1」とし、学習により登録されるキーワードを、「キーワードKW2」と表す。
【0049】
図10は、本変形例の通信端末装置10Bのプロセッサ11の機能構成の一例を示すブロック図である。プロセッサ11は、近接検知部111、音声入力受付部112、記録部113、音声認識部114、終話制御部115B、及び抽出部117を含む。
抽出部117は、通話を終了する際にユーザが発した語句を抽出する。抽出部117は、例えば、終話の直前にユーザが発した語句を抽出する。そして、抽出部117は、1以上の通話の機会で抽出された語句を、キーワードKW2として登録する。終話制御部115Bは、キーワードKW1、又はキーワードKW2の発話を認識したことを条件として、終話制御を行う。
【0050】
図11は、通信端末装置10Bが通話中に実行する処理を示すフローチャートである。
抽出部117は、通話を終了する際にユーザが発した語句を抽出する(ステップS21)。例えば、抽出部117は、毎回の通話の機会において、音声認識部114により認識された語句のうち、最後に認識された語句を抽出する。抽出部117は、抽出した語句を、メモリ12に記憶させておく。そして、抽出部117は、閾値以上の回数の通話の機会で抽出された語句を、キーワードKW2として、メモリ12に登録する(ステップS22)。通話を終了する際にユーザが発する語句は、繰り返し使用されることが多いと考えられるからである。
この変形例では、登録されるキーワードKW2は複数回の通話の機会で抽出された語句としているが、1回の通話の機会で抽出された語句をキーワードKW2としてもよい。
【0051】
以降、終話制御部115Bは、キーワードKW2に基づいて、終話制御を行う。終話制御部115Bは、キーワードKW2の学習が完了する前はキーワードKW1に基づいて終話制御を行い、キーワードKW2を登録した後は、キーワードKW1に組み合わせて又は代えて、キーワードKW2に基づいて終話制御を行うとよい。
なお、この変形例の構成は、上述した第2実施形態の通信端末装置10Aに適用されてもよい。
この変形例によれば、通信端末装置10Bのユーザが終話をしようとするときに発する語句が、そのユーザ特有の語句であったとしても、ユーザが終話時にとる自然な動作に応じて終話することができる。
【0052】
(変形例2)
通信端末装置10(又は通信端末装置10A、10B)は、スマートフォンに限られず、フィーチャーフォン等の、通話のための通信を行う通信端末装置であってもよい。また、本発明の通信端末装置は、受話音声を含む音声を示す骨導音をユーザの体に発生させる通信端末装置、つまり骨導音を出力するスピーカを備える通信端末装置にも適用可能である。この通信端末装置は、ユーザの耳以外の頭部の部位に接触させられても、当該ユーザが通話できるように構成されている。
また、本発明の通信端末装置は、通話時にユーザが手に持って使用する通信端末装置でなくてもよい。本発明の通信端末装置は、例えば、ヘッドホン型やイヤホン型等の、ユーザの頭部に装着して使用される、いわゆるウェアラブル端末であってもよい。
【0053】
(変形例3)
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャート等は、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0054】
(変形例4)
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
【0055】
(変形例5)
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0056】
(変形例6)
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0057】
以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。
【0058】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能等を意味するよう広く解釈されるべきである。また、ソフトウェア、命令等は、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)等の有線技術及び/又は赤外線、無線及びマイクロ波等の無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0059】
本明細書で説明した情報、信号等は、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップ等は、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0060】
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
【0061】
明細書で使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
【0062】
また、本明細書で説明した情報、パラメータ等は、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
【0063】
本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)したことを「判断」「決定」したとみなすこと等を含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)したことを「判断」「決定」したとみなすこと等を含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)等したことを「判断」「決定」したとみなすことを含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなすことを含み得る。
【0064】
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0065】
「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
【0066】
(変形例7)
なお、上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11