特開2020-46546(P2020-46546A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧
<>
  • 特開2020046546-情報処理システム及び情報処理方法 図000003
  • 特開2020046546-情報処理システム及び情報処理方法 図000004
  • 特開2020046546-情報処理システム及び情報処理方法 図000005
  • 特開2020046546-情報処理システム及び情報処理方法 図000006
  • 特開2020046546-情報処理システム及び情報処理方法 図000007
  • 特開2020046546-情報処理システム及び情報処理方法 図000008
  • 特開2020046546-情報処理システム及び情報処理方法 図000009
  • 特開2020046546-情報処理システム及び情報処理方法 図000010
  • 特開2020046546-情報処理システム及び情報処理方法 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2020-46546(P2020-46546A)
(43)【公開日】2020年3月26日
(54)【発明の名称】情報処理システム及び情報処理方法
(51)【国際特許分類】
   G10L 15/22 20060101AFI20200303BHJP
   H04N 21/472 20110101ALI20200303BHJP
   H04N 21/233 20110101ALI20200303BHJP
   G10L 15/30 20130101ALI20200303BHJP
   G10L 15/00 20130101ALI20200303BHJP
   G06F 3/16 20060101ALI20200303BHJP
   G06F 16/00 20190101ALI20200303BHJP
   H04N 5/765 20060101ALI20200303BHJP
【FI】
   G10L15/22 453
   H04N21/472
   H04N21/233
   G10L15/30
   G10L15/00 200G
   G10L15/00 200T
   G06F3/16 650
   G06F17/30 310Z
   H04N5/765
【審査請求】未請求
【請求項の数】9
【出願形態】OL
【全頁数】16
(21)【出願番号】特願2018-175182(P2018-175182)
(22)【出願日】2018年9月19日
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100124084
【弁理士】
【氏名又は名称】黒岩 久人
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】和泉 紘介
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA17
5C164PA44
5C164SB04P
5C164TB22S
5C164UD41P
(57)【要約】
【課題】集音装置を用いて情報処理装置を制御するために掛かる手間を削減できるようにする。
【解決手段】本発明の一実施形態に係る情報処理システムSは、集音装置2と、文字情報出力装置4と、情報処理装置1とを備え、集音装置2は、周囲からの音声を取得する集音部と、集音部が取得した音声を音声認識装置3へ送信する送信部と、を有し、文字情報出力装置4は、集音装置2が送信した音声を音声認識装置3が変換することによって得られた文字を示す文字情報の送信先とする情報処理装置1を特定する特定部と、特定部が特定した情報処理装置1へ文字情報を送信する送信部と、を有し、情報処理装置1は、文字情報を受信する受信部と、受信部が受信した文字情報に対応する、コンテンツに関する処理を決定する決定部と、定部が決定した処理を実行する実行部と、を有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
集音装置と、文字情報出力装置と、情報処理装置とを備え、
前記集音装置は、
周囲からの音声を取得する集音部と、
前記集音部が取得した前記音声を音声認識装置へ送信する送信部と、
を有し、
前記文字情報出力装置は、
前記集音装置が送信した前記音声を前記音声認識装置が変換することによって得られた文字を示す文字情報の送信先とする前記情報処理装置を特定する特定部と、
前記特定部が特定した前記情報処理装置へ前記文字情報を送信する送信部と、
を有し、
前記情報処理装置は、
前記文字情報を受信する受信部と、
前記受信部が受信した前記文字情報に対応する、コンテンツに関する処理を決定する決定部と、
前記決定部が決定した前記処理を実行する実行部と、
を有する、情報処理システム。
【請求項2】
前記情報処理装置の前記決定部は、映像の再生、録画、検索、及び映像に関する情報の出力のうち少なくとも1つの処理を、コンテンツに関する処理として決定する、請求項1に記載の情報処理システム。
【請求項3】
前記文字情報出力装置は、前記集音装置と前記情報処理装置とを関連付けた情報を記憶する記憶部をさらに有し、
前記文字情報出力装置の前記特定部は、前記記憶部において前記音声を取得した前記集音装置に関連付けられた前記情報処理装置を、前記文字情報の送信先として特定する、請求項1又は2に記載の情報処理システム。
【請求項4】
前記情報処理装置は、周囲から取得した音声を前記音声認識装置へ送信する第2集音装置として機能し、
前記情報処理装置の前記受信部は、前記文字情報出力装置を経由せずに、前記情報処理装置が取得した前記音声を前記音声認識装置が変換することによって得られた文字を示す前記文字情報を受信する、請求項1から3のいずれか一項に記載の情報処理システム。
【請求項5】
前記文字情報出力装置の前記送信部は、前記文字が示す単語と、前記単語の種類とを示す前記文字情報を送信する、請求項1から4のいずれか一項に記載の情報処理システム。
【請求項6】
前記情報処理装置の前記決定部は、前記種類が動作を示す場合に、前記単語に対応するように前記情報処理装置を操作する処理を決定し、前記種類が動作を示さない場合に、前記単語を用いてコンテンツを検索する処理を決定する、請求項5に記載の情報処理システム。
【請求項7】
前記情報処理装置の前記決定部は、前記コンテンツが放送中であるか又は放送予定であるかによって、前記処理を変更する、請求項1から6のいずれか一項に記載の情報処理システム。
【請求項8】
前記情報処理装置は、単語同士の関連性を示す情報を記憶する記憶部をさらに有し、
前記実行部は、前記文字が示す単語と、前記記憶部において前記単語に関連付けられた単語とを用いて、前記コンテンツを検索する、請求項1から7のいずれか一項に記載の情報処理システム。
【請求項9】
集音装置と、文字情報出力装置と、情報処理装置とを備えるシステムにおいて、
前記集音装置は、
周囲からの音声を取得するステップと、
前記取得するステップが取得した前記音声を音声認識装置へ送信するステップと、
を実行し、
前記文字情報出力装置は、
前記集音装置が送信した前記音声を前記音声認識装置が変換することによって得られた文字を示す文字情報の送信先とする前記情報処理装置を特定するステップと、
前記特定するステップが特定した前記情報処理装置へ前記文字情報を送信するステップと、
を実行し、
前記情報処理装置は、
前記文字情報を受信するステップと、
前記受信するステップが受信した前記文字情報に対応する、コンテンツに関する処理を決定するステップと、
前記決定するステップが決定した前記処理を実行するステップと、
を実行する情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツに関する処理を行う情報処理システム及び情報処理方法に関する。
【背景技術】
【0002】
セットトップボックス(Set Top Box;STB)等の映像コンテンツに関する処理を行う情報処理装置を、ユーザの音声によって制御する技術が開発されている(例えば、特許文献1参照)。ユーザの宅内には、スマートスピーカ等の据え置きの集音装置が設けられていることがあり、そのような集音装置を用いて情報処理装置に対する音声を取得できると便利である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2017−530567号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、集音装置及び情報処理装置は別々の装置であるため、集音装置が情報処理装置と連携する機能を有していない場合には、集音装置は情報処理装置へ音声に基づく指示を与えることができない。集音装置に情報処理装置と連携する機能を付与するためには、集音装置を置き換えたり、集音装置の機能をアップデートしたりする必要があるため、大きな手間が掛かる。
【0005】
本発明は上述の点に鑑みてなされたものであり、集音装置を用いて情報処理装置を制御するために掛かる手間を削減できる情報処理システム及び情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の情報処理システムは、集音装置と、文字情報出力装置と、情報処理装置とを備え、前記集音装置は、周囲からの音声を取得する集音部と、前記集音部が取得した前記音声を音声認識装置へ送信する送信部と、を有し、前記文字情報出力装置は、前記集音装置が送信した前記音声を前記音声認識装置が変換することによって得られた文字を示す文字情報の送信先とする前記情報処理装置を特定する特定部と、前記特定部が特定した前記情報処理装置へ前記文字情報を送信する送信部と、を有し、前記情報処理装置は、前記文字情報を受信する受信部と、前記受信部が受信した前記文字情報に対応する、コンテンツに関する処理を決定する決定部と、前記決定部が決定した前記処理を実行する実行部と、を有する。
【0007】
前記情報処理装置の前記決定部は、映像の再生、録画、検索、及び映像に関する情報の出力のうち少なくとも1つの処理を、コンテンツに関する処理として決定してもよい。
【0008】
前記文字情報出力装置は、前記集音装置と前記情報処理装置とを関連付けた情報を記憶する記憶部をさらに有し、前記文字情報出力装置の前記特定部は、前記記憶部において前記音声を取得した前記集音装置に関連付けられた前記情報処理装置を、前記文字情報の送信先として特定してもよい。
【0009】
前記情報処理装置は、周囲から取得した音声を前記音声認識装置へ送信する第2集音装置として機能し、前記情報処理装置の前記受信部は、前記文字情報出力装置を経由せずに、前記情報処理装置が取得した前記音声を前記音声認識装置が変換することによって得られた文字を示す前記文字情報を受信してもよい。
【0010】
前記文字情報出力装置の前記送信部は、前記文字が示す単語と、前記単語の種類とを示す前記文字情報を送信してもよい。
【0011】
前記情報処理装置の前記決定部は、前記種類が動作を示す場合に、前記単語に対応するように前記情報処理装置を操作する処理を決定し、前記種類が動作を示さない場合に、前記単語を用いてコンテンツを検索する処理を決定してもよい。
【0012】
前記情報処理装置の前記決定部は、前記コンテンツが放送中であるか又は放送予定であるかによって、前記処理を変更してもよい。
【0013】
前記情報処理装置は、単語同士の関連性を示す情報を記憶する記憶部をさらに有し、前記実行部は、前記文字が示す単語と、前記記憶部において前記単語に関連付けられた単語とを用いて、前記コンテンツを検索してもよい。
【0014】
本発明の第2の態様の情報処理方法は、集音装置と、文字情報出力装置と、情報処理装置とを備えるシステムにおいて、前記集音装置は、周囲からの音声を取得するステップと、前記取得するステップが取得した前記音声を音声認識装置へ送信するステップと、を実行し、前記文字情報出力装置は、前記集音装置が送信した前記音声を前記音声認識装置が変換することによって得られた文字を示す文字情報の送信先とする前記情報処理装置を特定するステップと、前記特定するステップが特定した前記情報処理装置へ前記文字情報を送信するステップと、を実行し、前記情報処理装置は、前記文字情報を受信するステップと、前記受信するステップが受信した前記文字情報に対応する、コンテンツに関する処理を決定するステップと、前記決定するステップが決定した前記処理を実行するステップと、を実行する。
【発明の効果】
【0015】
本発明によれば、集音装置を用いて情報処理装置を制御するために掛かる手間を削減できるという効果を奏する。
【図面の簡単な説明】
【0016】
図1】実施形態に係る情報処理システムの模式図である。
図2】集音装置が音声を取得した場合の処理を示す模式図である。
図3】情報処理装置が音声を取得した場合の処理を示す模式図である。
図4】実施形態に係る情報処理システムのブロック図である。
図5】実施形態に係る情報処理システムのブロック図である。
図6】処理決定部がコンテンツに関する処理を決定する方法を示す模式図である。
図7】処理実行部がコンテンツを検索する方法を示す模式図である。
図8】実施形態に係る情報処理方法のシーケンス図である。
図9】実施形態に係る情報処理方法のシーケンス図である。
【0017】
[情報処理システムSの概要]
図1は、本実施形態に係る情報処理システムSの模式図である。情報処理システムSは、情報処理装置1と、集音装置2と、音声認識装置3と、文字情報出力装置4とを含む。情報処理システムSは、その他のサーバ、端末等の機器を含んでもよい。
【0018】
情報処理装置1は、映像等のコンテンツに関する処理を行うコンピュータである。情報処理装置1は、コンテンツ又はコンテンツに関する情報を表示可能な、液晶ディスプレイ等の表示部に接続されている。また、情報処理装置1は、周囲の音声を取得可能なマイクロフォン等の集音部を有している。さらに情報処理装置1は、音声認識装置3又は文字情報出力装置4から受信した文字情報に基づいて、コンテンツに関する処理を行う。コンテンツに関する処理は、例えば映像の再生、録画、検索、又は映像に関する情報の出力である。情報処理装置1は、インターネット、ローカルエリアネットワーク等のネットワークNを介して、有線又は無線で音声認識装置3及び文字情報出力装置4と通信する。
【0019】
集音装置2は、周囲の音声を取得可能なマイクロフォン等の集音部を有する集音装置である。集音装置2は、ネットワークNを介して、有線又は無線で音声認識装置3と通信する。
【0020】
音声認識装置3は、情報処理装置1又は集音装置2が取得した音声を文字に変換する処理を行うコンピュータである。音声認識装置3は、音声を文字に変換することによって得られた文字を示す文字情報を、情報処理装置1又は文字情報出力装置4へ送信する。文字情報は、音声を変換することにより得られた文字が示す単語と、単語の種類(品詞等)とを含む。音声認識装置3は、ネットワークNを介して、有線又は無線で情報処理装置1、集音装置2及び文字情報出力装置4と通信する。
【0021】
文字情報出力装置4は、音声認識装置3が音声を変換することによって得られた文字を示す文字情報を、情報処理装置1へ送信するコンピュータである。文字情報出力装置4は、ネットワークNを介して、有線又は無線で情報処理装置1及び音声認識装置3と通信する。
【0022】
情報処理システムSが行う情報処理方法の概略を、図2図3を用いて以下に説明する。情報処理システムSは、集音装置2及び情報処理装置1のどちらが音声を取得したかによって、図2及び図3に示す異なる処理を行う。
【0023】
図2は、集音装置2が音声を取得した場合の処理を示す模式図である。第1集音装置としての集音装置2は、ユーザの音声を取得すると、取得した音声を音声認識装置3へ送信する。音声認識装置3は、集音装置2から受信した音声を文字に変換し、得られた文字を示す文字情報を文字情報出力装置4へ送信する。
【0024】
文字情報出力装置4は、音声認識装置3から文字情報を受信し、受信した文字情報の送信先とする情報処理装置1をユーザ情報に基づいて特定する。ユーザ情報は、ユーザごとに送信先を特定するための情報であり、文字情報出力装置4に予め記憶されている。そして文字情報出力装置4は、特定した情報処理装置1へ文字情報を送信する。
【0025】
情報処理装置1は、文字情報出力装置4から文字情報を受信し、受信した文字情報に対応するコンテンツに関する処理を行う。このように第1集音装置としての集音装置2が音声を取得した場合に、音声認識装置3は、文字情報出力装置4を介してユーザ情報に基づいて特定された情報処理装置1へ文字情報を送信する。これにより、情報処理システムSは、集音装置2と情報処理装置1とが直接連携されていない場合であっても、集音装置2が取得した音声に基づいて生成された文字情報を情報処理装置1へ送信し、コンテンツに関する処理を行わせることができる。
【0026】
図3は、情報処理装置1が音声を取得した場合の処理を示す模式図である。第2集音装置としての情報処理装置1は、ユーザの音声を取得すると、取得した音声を音声認識装置3へ送信する。音声認識装置3は、集音装置2から受信した音声を文字に変換し、得られた文字を示す文字情報を情報処理装置1へ送信する。
【0027】
情報処理装置1は、音声認識装置3から文字情報を受信し、受信した文字情報に対応するコンテンツに関する処理を行う。このように第2集音装置としての情報処理装置1が音声を取得した場合に、音声認識装置3は、音声の送信元である情報処理装置1へ文字情報を直接送信する。これにより、情報処理システムSは、ユーザが音声を発してから情報処理装置1がコンテンツに関する処理を行うまでの待ち時間を短縮できる。
【0028】
[情報処理システムSの構成]
図4図5は、本実施形態に係る情報処理システムSのブロック図である。図4図5において、矢印は主なデータの流れを示しており、図4図5に示したもの以外のデータの流れがあってよい。図4図5において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図4図5に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に分かれて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。
【0029】
図4に示すように、集音装置2は、制御部21と、記憶部22と、集音部23とを有する。集音部23は、周囲の音声を取得するマイクロフォンを含む。集音部23は、複数のマイクロフォンを含んでもよい。集音部23は、取得した音声を示す信号を、制御部21に入力する。
【0030】
記憶部22は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ等を含む記憶媒体である。記憶部22は、制御部21が実行するプログラムを予め記憶している。
【0031】
制御部21は、例えばCPU(Central Processing Unit)等のプロセッサであり、記憶部22に記憶されたプログラムを実行することにより、音声送信部211として機能する。制御部21の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部21の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
【0032】
図4に示すように、情報処理装置1は、制御部11と、記憶部12と、集音部13と、表示部14とを有する。制御部11は、音声送信部111と、文字情報受信部112と、処理決定部113と、処理実行部114とを有する。記憶部12は、関連情報記憶部121と、映像記憶部122とを有する。
【0033】
表示部14は、各種情報を表示するための、液晶ディスプレイ等の表示装置を含む。表示部14は、制御部11が出力した信号に従って情報を表示する。表示部14は、コネクタ等を介して情報処理装置1の外部に接続されてもよい。この場合に、表示部14は、テレビジョン受像機であってもよい。集音部13は、周囲の音声を取得するマイクロフォンを含む。集音部13は、複数のマイクロフォンを含んでもよい。集音部13は、取得した音声を示す信号を、制御部11に入力する。集音部13は、コネクタ等を介して情報処理装置1の外部に接続されてもよい。
【0034】
記憶部12は、ROM、RAM、ハードディスクドライブ等を含む記憶媒体である。記憶部12は、制御部11が実行するプログラムを予め記憶している。関連情報記憶部121は、単語同士の関連性を示す関連情報(例えば類義語辞書)を予め記憶している。映像記憶部122は、録画した映像を記憶する。関連情報記憶部121及び映像記憶部122は、それぞれ記憶部12上の記憶領域であってもよく、あるいは記憶部12上で構成されたデータベースであってもよい。
【0035】
制御部11は、例えばCPU等のプロセッサであり、記憶部12に記憶されたプログラムを実行することにより、音声送信部111、文字情報受信部112、処理決定部113及び処理実行部114として機能する。制御部11の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部11の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
【0036】
情報処理装置1は、ユーザによる操作を受け付けるリモートコントローラ(リモコン)を備えてもよい。リモートコントローラは、赤外線や無線信号を用いて、ユーザによる操作を制御部11に入力する。この場合に、集音部13は、リモートコントローラ上に設けられてもよい。リモートコントローラ上の集音部13は、赤外線や無線信号を用いて、取得した音声を示す信号を制御部11に入力する。
【0037】
図5に示すように、音声認識装置3は、制御部31と、記憶部32とを有する。制御部31は、音声受信部311と、音声認識部312と、文字情報送信部313とを有する。記憶部32は、ROM、RAM、ハードディスクドライブ等を含む記憶媒体である。記憶部32は、制御部31が実行するプログラムを予め記憶している。
【0038】
制御部31は、例えばCPU等のプロセッサであり、記憶部32に記憶されたプログラムを実行することにより、音声受信部311、音声認識部312及び文字情報送信部313として機能する。制御部31の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部31の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
【0039】
図5に示すように、文字情報出力装置4は、制御部41と、記憶部42とを有する。制御部41は、文字情報受信部411と、送信先特定部412と、文字情報送信部413とを有する。記憶部42は、ユーザ情報記憶部421を有する。
【0040】
記憶部42は、ROM、RAM、ハードディスクドライブ等を含む記憶媒体である。記憶部42は、制御部41が実行するプログラムを予め記憶している。ユーザ情報記憶部421は、ユーザが有する集音装置2及び情報処理装置1を関連付けたユーザ情報を予め記憶している。ユーザ情報記憶部421は、記憶部42上の記憶領域であってもよく、あるいは記憶部42上で構成されたデータベースであってもよい。
【0041】
制御部41は、例えばCPU等のプロセッサであり、記憶部42に記憶されたプログラムを実行することにより、文字情報受信部411、送信先特定部412及び文字情報送信部413として機能する。制御部41の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部41の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
【0042】
本実施形態に係る情報処理システムSは、図4図5に示す具体的な構成に限定されない。例えば音声認識装置3及び文字情報出力装置4は、一体化されて1つの装置として構成されてもよい。
【0043】
[情報処理方法の説明]
情報処理システムSが実行する情報処理方法を以下に説明する。まずユーザは、情報処理装置1に対する操作を示す音声を発する。操作を示す音声は、例えば「A田B子の出演番組を録画して」のような動作を示す単語を含む文章、又は「A田B子」のような動作を示さない単語である。
【0044】
情報処理装置1の集音部13又は集音装置2の集音部23は、ユーザが発した音声を取得する。情報処理装置1の音声送信部111は、集音部13が取得した音声を、ネットワークNを介して音声認識装置3へ送信する。このとき音声送信部111は、情報処理装置1の識別情報を、音声とともに音声認識装置3へ送信する。情報処理装置1の識別情報は、例えば情報処理装置1に割り振られたIDや、情報処理装置1のネットワークアドレス等、情報処理装置1を特定可能な情報である。
【0045】
集音装置2の音声送信部211は、集音部23が取得した音声を、ネットワークNを介して音声認識装置3へ送信する。このとき音声送信部211は、集音装置2の識別情報を、音声とともに音声認識装置3へ送信する。集音装置2の識別情報は、例えば集音装置2に割り振られたIDや、集音装置2のネットワークアドレス等、集音装置2を特定可能な情報である。
【0046】
音声認識装置3において、音声受信部311は、情報処理装置1又は集音装置2が送信した音声を受信する。このとき、音声受信部311は、音声の送信元である情報処理装置1又は集音装置2の識別情報を受信する。
【0047】
音声認識部312は、音声受信部311が受信した音声を文字に変換する。音声認識部312は、音声を文字に変換するために、既知の音声認識技術を用いることができる。このとき音声認識部312は、音声を変換することにより得られた文字が示す単語と、単語の種類(品詞等)とを特定する。音声認識部312は、文字が示す単語及びその種類を特定するために、既知の形態素解析技術を用いることができる。
【0048】
音声受信部311が情報処理装置1から音声を受信していた場合に、文字情報送信部313は、音声認識部312が音声を変換することによって得られた文字が示す単語と、単語の種類とを示す文字情報を、情報処理装置1の識別情報を用いて情報処理装置1へ送信する。このように、情報処理装置1が音声を取得した場合には、音声認識装置3は送信元の情報処理装置1へ直接文字情報を返すことができるため、文字情報出力装置4が行う処理は省略される。
【0049】
音声受信部311が集音装置2から音声を受信していた場合に、文字情報送信部313は、音声認識部312が音声を変換することによって得られた文字が示す単語と、単語の種類とを示す文字情報を、音声を取得した集音装置2の識別情報とともに文字情報出力装置4へ送信する。このように、集音装置2が音声を取得した場合には、音声認識装置3は文字情報の送信先とする情報処理装置1を特定できないため、文字情報出力装置4を介して情報処理装置1へ文字情報を送信する。
【0050】
文字情報出力装置4において、文字情報受信部411は、音声認識装置3が送信した文字情報と、音声を取得した集音装置2の識別情報とを受信する。送信先特定部412は、文字情報受信部411が受信した集音装置2の識別情報と、ユーザ情報記憶部421に予め記憶されたユーザ情報とに基づいて、文字情報の送信先とする情報処理装置1を特定する。
【0051】
具体的には、ユーザ情報記憶部421は、ユーザごとに、集音装置2の識別情報と、情報処理装置1の識別情報とを関連付けたユーザ情報を予め記憶している。例えば文字情報出力装置4は、所定のWebサイトで、ユーザが所有している集音装置2の識別情報と、情報処理装置1の識別情報との入力を受け付けることによって、ユーザ情報記憶部421にユーザ情報を登録する。
【0052】
送信先特定部412は、文字情報受信部411が受信した集音装置2の識別情報に関連付けられたユーザ情報をユーザ情報記憶部421から取得し、取得したユーザ情報が示す情報処理装置1の識別情報を送付先として特定する。
【0053】
別の方法として、送信先特定部412は、文字情報出力装置4と通信可能なユーザ管理サーバから、ネットワークNを介してユーザ情報を取得してもよい。ユーザ管理サーバは、例えば通信事業者が運営するコンピュータであり、ユーザごとに、集音装置2の識別情報と、情報処理装置1の識別情報とを関連付けたユーザ情報を予め記憶している。送信先特定部412は、文字情報受信部411が受信した集音装置2の識別情報を示す問い合わせをユーザ管理サーバに送信し、問い合わせに応じたユーザ管理サーバから集音装置2の識別情報に関連付けられたユーザ情報を受信し、受信したユーザ情報が示す情報処理装置1の識別情報を送付先として特定する。また、文字情報出力装置4とユーザ管理サーバとは、一体化されて1つの装置として構成されてもよい。
【0054】
文字情報送信部413は、文字情報受信部411が受信した文字情報を、送信先特定部412が特定した情報処理装置1の識別情報を用いて情報処理装置1へ送信する。このように本実施形態に係る情報処理システムSでは、文字情報出力装置4が集音装置2と情報処理装置1とを関連付けたユーザ情報を管理しているため、音声認識装置3にユーザ情報を管理する機能を追加する必要がなく、既存の音声認識装置3を本実施形態に係る情報処理システムSに流用できる。
【0055】
情報処理装置1において、文字情報受信部112は、音声認識装置3又は文字情報出力装置4が送信した文字情報を受信する。処理決定部113は、文字情報受信部112が受信した文字情報に基づいて、コンテンツに関する処理(例えば映像の再生、録画、検索、又は映像に関する情報の出力)を決定する。処理決定部113がコンテンツに関する処理を決定する方法を、図6を用いて説明する。
【0056】
図6は、処理決定部113がコンテンツに関する処理を決定する方法を示す模式図である。処理決定部113は、文字情報受信部112が受信した文字情報が示す、音声を変換することによって得られた文字が示す単語と、単語の種類とを取得する。文字情報が複数の単語を示す場合に、処理決定部113は、各単語の種類を取得する。
【0057】
処理決定部113は、取得したいずれかの単語の種類が動作を示す場合に、該単語に対応するように情報処理装置1を操作する処理を決定する。ここで動作を示す単語の種類は、「録画して」、「見たい」、「調べて」等の動詞と、「録画」、「再生」、「検索」等の動作を表す名詞とを含む。
【0058】
例えば「録画して」及び「録画」の単語は、情報処理装置1に映像を録画させる処理に対応する。例えば「見たい」及び「再生」の単語は、情報処理装置1に映像を再生させる処理に対応する。例えば「調べて」及び「検索」の単語は、情報処理装置1に映像又は映像に関する情報を検索させる処理に対応する。文字情報が示す単語と、情報処理装置1を操作する処理との間の関係は、予め情報処理装置1に設定される。
【0059】
図6の上の例では、処理決定部113は、文字情報が示す単語に合致する録画可能な複数のコンテンツを示す画面Aを表示部14に表示する処理を決定している。処理決定部113は、文字情報が示す単語に合致する録画可能なコンテンツが1つである場合に、画面Aを表示せずに該コンテンツを録画する処理を決定してもよい。
【0060】
さらに表示部14が画面Aを表示している状態でユーザが追加の音声を発した場合に、処理決定部113は、追加の音声について文字情報受信部112が受信した文字情報と、表示中の画面Aとに基づいて、コンテンツに関する処理を決定してもよい。例えば文字情報受信部112が受信した文字情報が「1番」を示す場合に、処理決定部113は、画面Aが含む複数のコンテンツのうち1番が割り振られたコンテンツを録画する処理を決定する。
【0061】
処理決定部113は、文字情報が示す単語に合致するコンテンツが、放送中であるか、又は放送予定であるかによって、異なる処理を決定してもよい。例えば処理決定部113は、文字情報が示す単語に合致するコンテンツが放送中である場合に、該コンテンツを再生(視聴)する処理を決定する。処理決定部113は、文字情報が示す単語に合致するコンテンツが放送予定である場合に、該コンテンツを録画又は再生を予約する処理を決定する。これにより処理決定部113は、コンテンツが放送中か放送予定かによって、適切な処理を自動的に決定できる。
【0062】
処理決定部113は、取得した単語の種類が動作を示さない場合に、インターネットのWebサイト、テレビジョン放送、映像配信サービス、映像記憶部122に記憶されている映像等、複数の情報提供者を横断してコンテンツを検索する処理を決定する。図6の下の例では、処理決定部113は、単語を用いて検索した検索結果を示す画面Bを表示部14に表示する処理を決定している。
【0063】
処理実行部114は、処理決定部113が決定した、コンテンツに関する処理を実行する。具体的には、処理実行部114は、処理決定部113が映像の再生を決定した場合に、テレビジョン放送、映像配信サービス又は映像記憶部122から取得した映像を表示部14上で再生する。
【0064】
また、処理実行部114は、処理決定部113が映像の録画を決定した場合に、テレビジョン放送又は映像配信サービスから取得した映像を映像記憶部122に記憶させる。また、処理実行部114は、処理決定部113が映像に関連する情報の出力を決定した場合に、映像の出演者の情報や、映像に関連付けられたWebサイトに関する情報を、ネットワークNを介して取得し、表示部14上に表示する。
【0065】
また、処理実行部114は、処理決定部113がコンテンツの検索を決定した場合に、テレビジョン放送で放送中又は放送予定の映像、映像配信サービスで配信されている映像、及び映像記憶部122に記憶されている映像の中から、コンテンツを検索する。処理実行部114は、コンテンツを検索する処理を行う際に、ユーザが発した音声から変換された文字が示す単語に、該単語に関連する単語を追加して(これをクエリ拡張という)、検索をする。
【0066】
図7(a)、図7(b)は、処理実行部114がコンテンツを検索する方法を示す模式図である。図7(a)では、処理実行部114は、類義語に基づいてクエリ拡張をする。情報処理装置1の関連情報記憶部121には、単語同士の関連性を示す関連情報として、類義語辞書が予め記憶されている。類義語辞書は、互いに類似した意味を有する単語同士を関連付けた情報である。
【0067】
処理実行部114は、検索をする前に、関連情報記憶部121において、ユーザが発した音声から変換された文字が示す単語に関連付けられた類義語を取得する。そして処理実行部114は、ユーザが発した音声から変換された文字が示す単語と、該単語に関連付けられた類義語とを用いて、インターネットのWebサイト、テレビジョン放送、映像配信サービス、映像記憶部122に記憶されている映像等のコンテンツを検索する。
【0068】
図7(b)では、処理実行部114は、サービス名のバリエーションに基づいてクエリ拡張をする。テレビジョン放送や映像配信サービスのサービス名には、様々な別名や略称のバリエーションが存在する場合がある。情報処理装置1の関連情報記憶部121には、単語同士の関連性を示す関連情報として、サービス名のバリエーションを示す情報が予め記憶されている。
【0069】
処理実行部114は、検索をする前に、まずユーザが発した音声から変換された文字が示す単語を、該単語に関連付けられた所定のサービス名に変換する(これを収束という)。単語をサービス名に変換する規則は、予め情報処理装置1に設定される。そして処理実行部114は、関連情報記憶部121において、収束によって得られたサービス名に関連付けられたサービス名のバリエーションを取得する。そして処理実行部114は、ユーザが発した音声から変換された文字が示す単語と、該単語に基づいて取得したサービス名のバリエーションとを用いて、インターネットのWebサイト、テレビジョン放送、映像配信サービス、映像記憶部122に記憶されている映像等のコンテンツを検索する。
【0070】
処理実行部114は、図7(b)に示すサービス名に基づくクエリ拡張に加えて、図7(a)に示す類義語に基づくクエリ拡張を行ってもよい。
【0071】
このように処理実行部114は、ユーザが発した音声から変換された文字が示す単語だけでなく該単語に対して所定の関係性を有する単語を用いて検索するため、ユーザに対して適切な検索結果を出力できる。
【0072】
[情報処理方法のシーケンス]
図8図9は、本実施形態に係る情報処理方法のシーケンス図である。図8は集音装置2が音声を取得した場合のシーケンスを表しており、図9は情報処理装置1が音声を取得した場合のシーケンスを表している。
【0073】
図8のシーケンスを以下に説明する。まず集音装置2において、集音部23は、ユーザが発した音声を取得する。音声送信部211は、集音部23が取得した音声を、音声認識装置3へ送信する(S11)。このとき音声送信部211は、集音装置2の識別情報を、音声とともに音声認識装置3へ送信する。
【0074】
音声認識装置3において、音声受信部311は、集音装置2が送信した音声と、音声の送信元である集音装置2の識別情報とを受信する。音声認識部312は、音声受信部311が受信した音声を文字に変換する(S12)。このとき音声認識部312は、音声を変換することにより得られた文字が示す単語と、単語の種類とを特定する。
【0075】
文字情報送信部313は、音声認識部312が音声を変換することによって得られた文字が示す単語と、単語の種類とを示す文字情報を、音声を取得した集音装置2の識別情報とともに文字情報出力装置4へ送信する(S13)。
【0076】
文字情報出力装置4において、文字情報受信部411は、音声認識装置3が送信した文字情報と、音声を取得した集音装置2の識別情報とを受信する。送信先特定部412は、文字情報受信部411が受信した集音装置2の識別情報と、ユーザ情報記憶部421に予め記憶されたユーザ情報とに基づいて、文字情報の送信先とする情報処理装置1を特定する(S14)。
【0077】
文字情報送信部413は、文字情報受信部411が受信した文字情報を、送信先特定部412が特定した情報処理装置1の識別情報を用いて情報処理装置1へ送信する(S15)。
【0078】
情報処理装置1において、文字情報受信部112は、文字情報出力装置4が送信した文字情報を受信する。処理決定部113は、文字情報受信部112が受信した文字情報に基づいて、コンテンツに関する処理(例えば映像の再生、録画、検索、又は映像に関する情報の出力)を決定する(S16)。処理実行部114は、処理決定部113が決定した、コンテンツに関する処理を実行する(S17)。
【0079】
図9のシーケンスを以下に説明する。まず情報処理装置1において、集音部13は、ユーザが発した音声を取得する。音声送信部111は、集音部13が取得した音声を、音声認識装置3へ送信する(S21)。このとき音声送信部211は、情報処理装置1の識別情報を、音声とともに音声認識装置3へ送信する。
【0080】
音声認識装置3において、音声受信部311は、情報処理装置1が送信した音声と、音声の送信元である情報処理装置1の識別情報とを受信する。音声認識部312は、音声受信部311が受信した音声を文字に変換する(S22)。このとき音声認識部312は、音声を変換することにより得られた文字が示す単語と、単語の種類とを特定する。
【0081】
文字情報送信部313は、音声認識部312が音声を変換することによって得られた文字が示す単語と、単語の種類とを示す文字情報を、情報処理装置1の識別情報を用いて情報処理装置1へ送信する(S23)。
【0082】
情報処理装置1において、文字情報受信部112は、音声認識装置3が送信した文字情報を受信する。処理決定部113は、文字情報受信部112が受信した文字情報に基づいて、コンテンツに関する処理(例えば映像の再生、録画、検索、又は映像に関する情報の出力)を決定する(S24)。処理実行部114は、処理決定部113が決定した、コンテンツに関する処理を実行する(S25)。
【0083】
[本実施形態の効果]
本実施形態に係る情報処理システムSは、集音装置2が音声を取得した場合に、集音装置2と情報処理装置1とが直接連携されていない場合であっても、文字情報出力装置4が送信先として特定した情報処理装置1へ文字情報を送信し、コンテンツに関する処理を行わせる。したがって、集音装置2に情報処理装置1と連携する機能を付与するために、集音装置2を置き換えたり、集音装置2の機能をアップデートしたりする必要がない。
【0084】
また、情報処理システムSは、情報処理装置1が音声を取得した場合に、音声認識装置3から音声の送信元である情報処理装置1へ文字情報を直接送信するため、ユーザが音声を発してから情報処理装置1がコンテンツに関する処理を行うまでの待ち時間を短縮できる。
【0085】
また、情報処理装置1は音声認識装置3又は文字情報出力装置4から受信した、音声から変換された文字に基づいて自身が行う処理を決定するため、音声認識装置3は音声に基づいて情報処理装置1を操作するコマンド(例えば再生コマンド、録画コマンド等)を生成する必要がない。すなわち、音声認識装置3は、音声を文字に変換すればよく、情報処理装置1固有のコマンドを生成する必要がない。そのため、新たな種類の情報処理装置1に対応する際に、新たなコマンドを生成できるように音声認識装置3の機能をアップデートする手間が掛からない。
【0086】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
【0087】
情報処理装置1、集音装置2、音声認識装置3及び文字情報出力装置4のプロセッサは、図8図9に示す方法に含まれる各ステップ(工程)の主体となる。すなわち、情報処理装置1、集音装置2、音声認識装置3及び文字情報出力装置4のプロセッサは、図8図9に示す方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して情報処理システムSの各部を制御することによって、図8図9に示す方法を実行する。図8図9に示す方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
【符号の説明】
【0088】
S 情報処理システム
1 情報処理装置
11 制御部
111 音声送信部
112 文字情報受信部
113 処理決定部
114 処理実行部
12 記憶部
121 関連情報記憶部
2 集音装置
21 制御部
211 音声送信部
23 集音部
3 音声認識装置
4 文字情報出力装置
41 制御部
412 送信先特定部
413 文字情報送信部
42 記憶部
421 ユーザ情報記憶部
図1
図2
図3
図4
図5
図6
図7
図8
図9