IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特開2022-113569スマートスピーカー、処理方法及び処理プログラム
<>
  • 特開-スマートスピーカー、処理方法及び処理プログラム 図1
  • 特開-スマートスピーカー、処理方法及び処理プログラム 図2
  • 特開-スマートスピーカー、処理方法及び処理プログラム 図3
  • 特開-スマートスピーカー、処理方法及び処理プログラム 図4
  • 特開-スマートスピーカー、処理方法及び処理プログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022113569
(43)【公開日】2022-08-04
(54)【発明の名称】スマートスピーカー、処理方法及び処理プログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20220728BHJP
   G10L 15/06 20130101ALI20220728BHJP
   G10L 15/00 20130101ALI20220728BHJP
【FI】
G10L15/22 453
G10L15/06 400Z
G10L15/06 500Z
G10L15/00 200Z
【審査請求】有
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021009891
(22)【出願日】2021-01-25
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】佐藤 昌紀
(57)【要約】
【課題】ユーザの所定の音声命令や問いかけをトリガーとして限定することなく、柔軟に音声認識機能を実行することができる。
【解決手段】スマートスピーカー10は、音声データの入力を受け付ける受付部11と、受付部によって受け付けられた音声データを解析して会話の内容を特定する特定部14と、特定部14によって特定された会話の内容に応じて、所定の処理の開始と開始する処理の内容とを決定する決定部15と、決定部15によって決定された処理の内容に応じて、所定の処理を実行する実行部16と、を有する。
【選択図】図2
【特許請求の範囲】
【請求項1】
音声データの入力を受け付ける受付部と、
前記受付部によって受け付けられた音声データを解析して会話の内容を特定する特定部と、
前記特定部によって特定された会話の内容に応じて、所定の処理の開始と開始する処理の内容とを決定する決定部と、
前記決定部によって決定された処理の内容に応じて、所定の処理を実行する実行部と、
を有することを特徴とするスマートスピーカー。
【請求項2】
前記実行部は、所定の遅延時間後に前記所定の処理の実行結果を出力することを特徴とする請求項1に記載のスマートスピーカー。
【請求項3】
それぞれ異なる特徴を有する音声データを解析して会話の内容を特定する複数のモデルと、
入力された前記音声データの特徴に応じて、前記複数のモデルのいずれかを選択する選択部と、
を有し、
前記特定部は、前記選択部によって選択されたモデルを用いて前記音声データを解析して会話の内容を特定することを特徴とする請求項2に記載のスマートスピーカー。
【請求項4】
前記複数のモデルは、入力された前記音声データに応じて前記遅延時間を推算する機能を有し、
前記決定部は、前記選択部によって選択されたモデルを用いて前記音声データに応じた遅延時間を決定し、
前記実行部は、前記決定部が設定した遅延時間後、前記会話の内容に応じて、前記所定の処理の実行結果を出力することを特徴とする請求項3に記載のスマートスピーカー。
【請求項5】
前記複数のモデルは、会話の内容及び次の発言が開始されるまでの時間をパラメータとして、前記遅延時間を学習することを特徴とする請求項4に記載のスマートスピーカー。
【請求項6】
前記複数のモデルは、前記所定の処理の実行結果を保持する保持時間を推算する機能を有し、
前記決定部は、前記選択部によって選択されたモデルを用いて前記音声データに応じた前記保持時間を決定し、
前記実行部は、前記決定部が決定した遅延時間後、前記保持時間に達した際に、前記所定の処理の実行結果を破棄することを特徴とする請求項4または5に記載のスマートスピーカー。
【請求項7】
スマートスピーカーが実行する処理方法であって、
音声データの入力を受け付ける受付工程と、
前記受付工程において受け付けられた音声データを解析して会話の内容を特定する特定工程と、
前記特定工程において特定された会話の内容に応じて、所定の処理の開始と開始する処理の内容とを決定する決定工程と、
前記決定工程において決定された処理の内容に応じて、所定の処理を実行する実行工程と、
を含んだことを特徴とする処理方法。
【請求項8】
音声データの入力を受け付ける受付ステップと、
前記受付ステップにおいて受け付けられた音声データを解析して会話の内容を特定する特定ステップと、
前記特定ステップにおいて特定された会話の内容に応じて、所定の処理の開始と開始する処理の内容とを決定する決定ステップと、
前記決定ステップにおいて決定された処理の内容に応じて、所定の処理を実行する実行ステップと、
をコンピュータに実行させるための処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スマートスピーカー、処理方法及び処理プログラムに関する。
【背景技術】
【0002】
音声認識を活用した技術群が様々な企業によりソフトウェアとして応用され、スマートスピーカー等の製品が多く世の中に出回っている。一般的に、スマートスピーカーに搭載されている音声認識エンジンの起動は、人間により問いかけることがトリガーとなっていることが一般的である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-064267号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のスマートスピーカーは、ユーザの音声による所定の音声命令や問いかけによる音声入力がトリガーとなっているため、その他の音声データ、例えば、テレビの音声、雑談などを音声入力として扱うことができない。
【0005】
本発明は、上記に鑑みてなされたものであって、ユーザの所定の音声命令や問いかけをトリガーとして限定することなく、柔軟に音声認識機能を実行することができるスマートスピーカー、処理方法及び処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明のスマートスピーカーは、音声データの入力を受け付ける受付部と、受付部によって受け付けられた音声データを解析して会話の内容を特定する特定部と、特定部によって特定された会話の内容に応じて、所定の処理の開始と開始する処理の内容とを決定する決定部と、決定部によって決定された処理の内容に応じて、所定の処理を実行する実行部と、を有することを特徴とする。
【発明の効果】
【0007】
本発明によれば、ユーザの所定の音声命令や問いかけをトリガーとして限定することなく、柔軟に音声認識機能を実行することができる。
【図面の簡単な説明】
【0008】
図1図1は、実施の形態における処理内容を説明する図である。
図2図2は、実施の形態に係るスマートスピーカーの構成の一例を示すブロック図である。
図3図3は、モデルの学習処理について説明する図である。
図4図4は、実施の形態に係る処理方法の処理手順を示すフローチャートである。
図5図5は、プログラムを実行するコンピュータを示す図である。
【発明を実施するための形態】
【0009】
以下に、本願に係るスマートスピーカー、処理方法及び処理プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係るスマートスピーカー、処理方法及び処理プログラムが限定されるものではない。
【0010】
[実施の形態]
以下の実施の形態では、実施の形態に係るスマートスピーカー、処理方法及び処理プログラムの処理の流れを順に説明し、最後に実施の形態による効果を説明する。
【0011】
まず、実施の形態について説明する。図1は、実施の形態における処理内容を説明する図である。本実施の形態に係るスマートスピーカーは、ユーザによる所定の音声命令や問いかけに限らず、その他の各種音声データも入力として扱う。そして、本実施の形態に係るスマートスピーカーは、入力を受け付けた各音声データを基に自動的にトリガーを決定して音声認識処理を起動させ、補充情報等の音声出力を可能とする。
【0012】
例えば、本実施の形態に係るスマートスピーカーは、テレビ(TV)の音声を入力とし、TV視聴中に自動で音声認識を行い、TVにおける放映内容を補充する補充情報(豆知識等)を解説する。例えば、TVが天気予報を放映していた場合、TV音声で出力されていない天気に関する情報を補充情報として解説する。或いは、スマートスピーカーは、複数人による会話についても自動で音声認識を行い、会話内容に対する補充情報や、会話内容に適したバックミュージックを音声出力する。このように様々な音声データを処理するためには、各種音声データにそれぞれ対応した音声認識モデルにより、音声認識処理を実行させることが必要である。
【0013】
そこで、本実施の形態に係るスマートスピーカーは、各種音声データに対応する音声認識モデルを使い分けて音声認識を行う。例えば、図1に示すように、スマートスピーカーは、TVの音声データを処理可能であるTV音声用モデル、スマートスピーカーのユーザの音声を処理可能である音声用モデル、及び、複数人の会話の音声データを処理可能である会話用モデルを用いる。そして、スマートスピーカーは、音声データが入力されると、適切なモデルへルーティングする前処理を行うことによって、音声データの種別に応じたモデルを用いて音声認識を行い、高精度な音声認識処理を実現する。
【0014】
また、本実施の形態に係るスマートスピーカーは、会話に割り込むことができるようなタイミング、すなわち遅延時間経過後に、音声認識の処理結果を出力することで、不快な割込みが起こさないようにする。この際、スマートスピーカーは、遅延している処理が多い場合には、所定の保持時間に達した古い処理結果から破棄し、処理を円滑化している。
【0015】
[スマートスピーカーの構成]
実施の形態に係るスマートスピーカーの構成を説明する。図2は、実施の形態に係るスマートスピーカーの構成の一例を示すブロック図である。
【0016】
実施の形態に係るスマートスピーカー10は、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。スマートスピーカー10は、それぞれ、NIC(Network Interface Card)等を有し、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。また、スマートスピーカー10は、音声データの入力を受け付ける音声入力デバイス、処理結果を音声で出力するスピーカーを有する。
【0017】
図1に示すように、スマートスピーカー10は、受付部11、モデル12、選択部13、特定部14、決定部15、実行部16及び出力部17を有する。
【0018】
受付部11は、音声データの入力を受け付ける。本実施の形態では、TVから出力されるTV音声、スマートスピーカーのユーザの音声、複数人による会話の音声を、受付部11が入力を受け付ける音声データの一例として説明する。
【0019】
モデル12は、それぞれ異なる特徴を有する音声データを解析して会話の内容を特定する音声認識処理を行う複数のモデルを有する。例えば、モデル12は、TV音声用モデル121、音声用モデル122及び会話用モデル123を有する。
【0020】
TV音声用モデル121は、TV音声を解析する。音声用モデル122は、スマートスピーカーユーザの音声を解析する。会話用モデル123は、複数による会話の音声を解析し、人ごとに音声を分類して会話の内容を特定する。TV音声用モデル121、音声用モデル122及び会話用モデル123は、会話の内容として、例えば、キーワード、会話の後の沈黙、雰囲気(声のトーン、波長帯域)を特定する。各モデルは、音声認識対象の音声データを予め学習しており、ユーザによる使用に応じて適宜再学習をすることで、カスタマイズされる。
【0021】
そして、TV音声用モデル121、音声用モデル122及び会話用モデル123は、入力された音声データに応じて遅延時間を推算してもよい。例えば、各モデルは、対象とする音声データごとに、特定された会話の内容(キーワード、会話の後の沈黙、雰囲気(声のトーン、波長帯域)に応じて、それぞれ遅延時間を推算する。さらに、TV音声用モデル121、音声用モデル122及び会話用モデル123は、出力対象の処理結果、すなわち、所定の音声認識の処理の実行結果を保持する保持時間を推算してもよい。なお、遅延時間及び保持時間は、会話に割り込んで出力する設定の場合に推算される。
【0022】
図3は、モデルの学習処理について説明する図である。図3に示すように、各モデルは、それぞれ解析対象となる音声の、会話の内容、及び、次の発言が開始されるまでの時間(話の間の時間)をパラメータとし、学習することで、解析対象となる音声ごとに、話者の話の間を推算し、遅延時間及び保持時間を算出する。各モデルは、ユーザによる使用に応じて適宜再学習をすることで、遅延時間及び保持時間についてもカスタマイズされる。
【0023】
選択部13は、ノイズ、生活音等の除去を行う。そして、選択部13は、入力された音声データの特徴に応じて、モデル12における複数のモデルのいずれかを選択する。選択部13は、入力された音声データの特徴に応じて、入力された音声データが、TV音声、スマートスピーカーのユーザの音声、複数人(ユーザを含む場合と含まない場合がある。)による会話の音声のいずれかであるかを判別し、判別した音声の種類に応じたモデルを選択する。選択部13は、例えば、TV音声は、上下の周波数帯域が限られている等の特徴を基に判別する。
【0024】
例えば、選択部13は、予めユーザの音声を登録する。ここで、選択部13は、ユーザが複数人で会話している可能性もあるので、その点を考慮して判別処理を行う。例えば、選択部13は、まず、入力された音声データが、ユーザの音声であるか否かを判別する。そして、選択部13は、入力された音声データが、ユーザの音声でない場合には、ユーザを含む複数による会話の音声であるか否かを判別し、その後、TV音声であるか、ユーザを含まない複数人の会話の音声であるかを判別してもよい。例えば、選択部13は、入力された音声データがユーザの音声である場合及び複数人の会話ではない場合には、音声用モデル122を選択する。なお、選択部13は、ユーザを含む複数による会話の音声である場合であって会話からユーザの音声を分離できた場合には、音声用モデル122を選択して、分離したユーザ音声を処理させてもよい。選択部13は、入力された音声データが、TV音声である場合には、TV音声用モデル121を選択する。選択部13は、入力された音声データが、複数人(ユーザを含む場合と含まない場合がある。)の会話の音声である場合には、会話用モデル123を選択する。選択部13は、入力された音声が、対象処理外の種別の音声である場合には、以降の処理を実行しないことを選択してもよい。
【0025】
また、選択部13は、複数の音声データである場合には、それぞれの音声に分離して、優先的に処理する音声の種別を設定し、該音声の種別に応じたモデルを選択する。選択部13は、例えば、会話とTV音声が入力された場合には、TV音声を優先的に処理することを選択して、TV音声用モデル121を選択する。また、選択部13は、例えば、会話とTV音声が入力された場合には、会話を優先的に処理することを選択して、会話用モデル123を選択してもよい。
【0026】
特定部14は、受付部11によって受け付けられた音声データを解析して会話の内容(キーワード、会話の後の沈黙、雰囲気)を特定する。特定部14は、選択部13によって選択されたモデルを用いて、音声データを解析することで、的確に会話の内容を特定することができる。そして、決定部15は、音声データ以外の情報、例えば、画像解析を行い、ユーザの表情や、盛り上がりの有無を特定してもよい。
【0027】
決定部15は、特定部14によって特定された会話の内容に応じて、所定の処理の開始と開始する処理の内容とを決定する。例えば、処理の内容は、会話の内容、例えば、キーワード、会話の後の沈黙、雰囲気に応じた、補充情報(豆知識等)の出力、音楽の出力等である。所定の処理の開始は、割り込んでよいと判断される遅延時間である。決定部15は、例えば、決定部15は、会話が続いていない場合(空白)、キーワード(盛り上がっている時に出てくるワード)、雰囲気(声のトーン、波長帯域)を基に、所定の処理の開始(トリガー)を決める。そして、決定部15は、会話の内容、例えば、キーワード、会話の後の沈黙、雰囲気を基に、補充情報(豆知識等)の出力、音楽の出力等の処理の内容を決定する。
【0028】
決定部15は、所定の遅延時間後に、所定の処理の開始を決定し、実行部16(後述)に所定の処理の実行結果を出力させる。例えば、キーワードごとに予め遅延時間が設定されており、決定部15は、特定部14によって特定されたキーワードを基に、該キーワードに対して設定された遅延時間を、所定の処理の開始タイミングとなる遅延時間として決定する。また、会話の後の沈黙が続く場合に対しては、所定の遅延時間が設定され、会話が盛り上がっている場合には、沈黙時の場合よりも長い遅延時間が設定される。また、講義中である場合には、講師の講義の補助のために、沈黙時の場合よりも短い遅延時間が設定される。また、例えば、処理の内容やスマートスピーカー10のリソースに応じて保持時間が予め設定されていてもよい。保持時間は、すぐに割り込めなかった際に、処理の実行結果の出力を待機し、実行結果を保持する時間である。
【0029】
また、決定部15は、選択部13によって選択されたモデルを用いて、音声データに応じた遅延時間を決定してもよい。そして、決定部15は、選択部13によって選択されたモデルを用いて、音声データに応じた保持時間を決定してもよい。
【0030】
実行部16は、決定部15によって決定された処理の内容に応じて、所定の処理を実行する。出力部17は、実行部が実行した処理の実行結果を音声出力する。実行部16は、所定の処理として、例えば、情報検索を行い、会話の内容やTV音声で出力された情報に対する補充情報(豆知識等)を出力する。
【0031】
具体的には、特定部14は、所定の処理として、キーワードを抽出し、実行部16は、抽出されたキーワードをもとに情報検索を行う。特定部14は、キーワードの抽出として、予め各種キーワードを学習済みのニューラルネットワーク等で構成されたモデルを用いてもよい。また、特定部14は、形態素解析の実行や、文章の特徴、文章の形式(例えば、質問形式)、疑問の時に使う言葉などの検出を行う。そして、決定部15は、「~かも」や疑問形の文章を認識し、その文章に出てくる単語をキーワードとして実行部16に情報を検索させる。なお、決定部15は、疑問形の文章の認識の際に、語尾が上がる部分を予め学習させたニューラルネットワーク等で構成されたモデルを用いてもよい。また、特定部14は、TV音声の場合には、今検索が増加してきている傾向を見て、検索が増加しているキーワードを抽出し、決定部15は、このキーワードで実行部16に情報検索を実行させてもよい。例えば、特定部14は、数式等を利用して、検索数の傾きが所定の傾きよりも急になっているかを判定して、傾向を判別してもよい。また、実行部16は、信頼できるソースを選択して、情報検索を行い、取得した情報を成形して、出力部17から出力する。また、実行部16は、会話の内容に適した音楽をバックミュージックとして、出力部17から出力する。
【0032】
実行部16は、所定の遅延時間後に所定の処理の実行結果を出力する。実行部16は、決定部15が決定した遅延時間後、会話の内容に応じて、所定の処理の実行結果を出力する。実行部16は、決定部15が決定した遅延時間に達した際に、会話が行われていた場合には、割り込みを行わず、処理の実行結果の出力を待機し、実行結果を保持する。そして、実行部16は、決定部15が決定した遅延時間後、保持時間に達した際に、出力せずに保持していた所定の処理の実行結果を破棄する。
【0033】
[処理の流れ]
次に、スマートスピーカー10における処理方法の流れについて説明する。図4は、実施の形態に係る処理方法の処理手順を示すフローチャートである。
【0034】
図4に示すように、音声データの入力を受け付けると(ステップS1)、選択部13は、入力された音声データの特徴に応じて、モデル12における複数のモデルのいずれかを選択する(ステップS2)。
【0035】
続いて、特定部14は、受付部11によって受け付けられた音声データを解析して会話の内容を特定する(ステップS3)。決定部15は、特定部14によって特定された会話の内容に応じて、所定の処理の開始と開始する処理の内容とを決定する(ステップS4)。続いて、決定部15は、遅延時間及び保持時間を決定する(ステップS5)。決定部15は、予め設定された遅延時間及び保持時間のうち、会話の内容に対応する遅延時間及び保持時間を選択する。或いは、決定部15は、選択部13によって選択されたモデルが推算した遅延時間及び保持時間を採用する。
【0036】
実行部16は、決定部15によって決定された処理の内容に応じて、所定の処理を実行し(ステップS6)、決定部15によって決定された遅延時間に達したか否かを判定する(ステップS7)。実行部16は、遅延時間に達していない場合には(ステップS7:No)、ステップS7の判定処理を繰り返す。
【0037】
遅延時間に達した場合(ステップS7:Yes)、実行部16は、割込み可能であるかを判定する(ステップS8)。割込み可能である場合(ステップS8:Yes),実行部16は、処理の実行結果の出力を音声で出力する(ステップS9)。
【0038】
これに対し、割込み可能でない場合(ステップS8:No)、実行部16は、保持時間に達したか否かを判定する(ステップS10)。そして、実行部16は、保持時間に達していない場合(ステップS10:No)、ステップS8に戻り、ステップS8の判定処理を行う。また、保持時間に達した場合(ステップS10:Yes)、実行部16は、出力せずに保持していた処理の実行結果を破棄する(ステップS11)。
【0039】
[実施の形態の効果]
このように、本実施の形態では、受け付けられた音声データを解析して会話の内容を特定し、特定された会話の内容に応じて、所定の処理の開始と開始する処理の内容とを決定し、決定された処理の内容に応じて、所定の処理を実行する。
【0040】
したがって、本実施の形態では、ユーザの問いかけによる音声入力をトリガーとする必要がなく、他の音声、TV音声、雑談等の会話を入力として、自動的にトリガーを決定し、音声認識処理を起動させ、豆知識や音楽等を音声出力する。このため、本実施の形態によれば、ユーザの所定の音声命令や問いかけをトリガーとして限定することなく、柔軟に音声認識機能を実行することができるため、音声認識技術の用途をさらに拡張することが可能になる。
【0041】
そして、本実施の形態では、音声の種別ごとに、音声認識のモデルをそれぞれ用意し、入力された音声データの特徴に応じて、複数のモデルのいずれかを選択し、選択したモデルを用いて、音声認識処理を実行する。このように、本実施の形態では、各種音声データに対応する音声認識モデルを使い分けて音声認識を行うため、精度の高い音声認識処理を実行することが可能になる。
【0042】
また、本実施の形態では、所定の遅延時間後に豆知識や音楽等を音声出力する。この際、本実施の形態では、各モデルが、話者の話の間を推算し、会話に割り込むことができるタイミング(遅延時間)を推算することで、不快な割込みは起こらないように遅延させている。また、本実施の形態では、各モデルは、会話の内容及び次の発言が開始されるまでの時間をパラメータとして、遅延時間を学習するため、適切な割り込みタイミングを推算することができる。そして、本実施の形態では、複数のモデルが、所定の処理の実行結果、例えば、豆知識や音楽等の音声出力を保持する保持時間を推算することで、古い音声出力から削除して、会話の内容からずれた不要な出力が出力されることを抑制している。
【0043】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUやGPU及び当該CPUやGPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0044】
また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0045】
[プログラム]
また、上記実施形態において説明したスマートスピーカー10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態におけるスマートスピーカー10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
【0046】
図5は、プログラムを実行するコンピュータを示す図である。図5に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
【0047】
メモリ1010は、図5に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図5に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0048】
ここで、図5に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の、プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
【0049】
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
【0050】
なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0051】
上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0052】
10 スマートスピーカー
11 受付部
12 モデル
13 選択部
14 特定部
15 決定部
16 実行部
17 出力部
121 TV音声用モデル
122 音声用モデル
123 会話用モデル
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2022-04-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声データの入力を受け付ける受付部と、
それぞれ異なる特徴を有する音声データを解析して会話の内容を特定する複数のモデルと、
入力された前記音声データの特徴に応じて、前記複数のモデルのいずれかを選択する選択部と、
前記選択部によって選択されたモデルを用いて、前記受付部によって受け付けられた音声データを解析して会話の内容を特定する特定部と、
前記特定部によって特定された会話の内容に応じて、所定の処理の開始として、割り込んでよいと判断される遅延時間開始する処理の内容とを決定する決定部と、
前記決定部によって決定された処理の内容に応じて、所定の処理を実行し、前記割り込んでよいと判断される遅延時間後に前記所定の処理の実行結果を出力する実行部と、
を有し、
前記複数のモデルは、入力された前記音声データに応じて前記遅延時間を推算する機能を有し、
前記決定部は、前記選択部によって選択されたモデルを用いて前記音声データに応じた遅延時間を決定し、
前記実行部は、前記決定部が決定した遅延時間後、前記会話の内容に応じて、前記所定の処理の実行結果を出力することを特徴とするスマートスピーカー。
【請求項2】
前記複数のモデルは、会話の内容及び次の発言が開始されるまでの時間をパラメータとして、前記遅延時間を学習することを特徴とする請求項に記載のスマートスピーカー。
【請求項3】
前記複数のモデルは、前記所定の処理の実行結果を保持する保持時間を推算する機能を有し、
前記決定部は、前記選択部によって選択されたモデルを用いて前記音声データに応じた前記保持時間を決定し、
前記実行部は、前記決定部が決定した遅延時間後、前記保持時間に達した際に、前記所定の処理の実行結果を破棄することを特徴とする請求項またはに記載のスマートスピーカー。
【請求項4】
スマートスピーカーが実行する処理方法であって、
音声データの入力を受け付ける受付工程と、
入力された前記音声データの特徴に応じて、それぞれ異なる特徴を有する音声データを解析して会話の内容を特定する複数のモデルのいずれかを選択する選択工程と、
前記選択工程において選択されたモデルを用いて、前記受付工程によって受け付けられた音声データを解析して会話の内容を特定する特定工程と、
前記特定工程において特定された会話の内容に応じて、所定の処理の開始として、割り込んでよいと判断される遅延時間開始する処理の内容とを決定する決定工程と、
前記決定工程において決定された処理の内容に応じて、所定の処理を実行し、前記割り込んでよいと判断される遅延時間後に前記所定の処理の実行結果を出力する実行工程と、
を含み、
前記複数のモデルは、入力された前記音声データに応じて前記遅延時間を推算する機能を有し、
前記決定工程は、前記選択工程において選択されたモデルを用いて前記音声データに応じた遅延時間を決定し、
前記実行工程は、前記決定工程において決定された遅延時間後、前記会話の内容に応じて、前記所定の処理の実行結果を出力することを特徴とする処理方法。
【請求項5】
音声データの入力を受け付ける受付ステップと、
入力された前記音声データの特徴に応じて、それぞれ異なる特徴を有する音声データを解析して会話の内容を特定する複数のモデルのいずれかを選択する選択ステップと、
前記選択ステップにおいて選択されたモデルを用いて、前記受付ステップにおいて受け付けられた音声データを解析して会話の内容を特定する特定ステップと、
前記特定ステップにおいて特定された会話の内容に応じて、所定の処理の開始として、割り込んでよいと判断される遅延時間開始する処理の内容とを決定する決定ステップと、
前記決定ステップにおいて決定された処理の内容に応じて、所定の処理を実行し、前記割り込んでよいと判断される遅延時間後に前記所定の処理の実行結果を出力する実行ステップと、
をコンピュータに実行させ
前記複数のモデルは、入力された前記音声データに応じて前記遅延時間を推算する機能を有し、
前記決定ステップは、前記選択ステップにおいて選択されたモデルを用いて前記音声データに応じた遅延時間を決定し、
前記実行ステップは、前記決定ステップにおいて決定された遅延時間後、前記会話の内容に応じて、前記所定の処理の実行結果を出力するための処理プログラム。