(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-15
(45)【発行日】2024-01-23
(54)【発明の名称】ロボット及び音声生成プログラム
(51)【国際特許分類】
A63H 5/00 20060101AFI20240116BHJP
A63H 11/00 20060101ALI20240116BHJP
G10L 13/10 20130101ALI20240116BHJP
B25J 13/00 20060101ALI20240116BHJP
【FI】
A63H5/00 C
A63H11/00 Z
G10L13/10 114
B25J13/00 Z
(21)【出願番号】P 2020539648
(86)(22)【出願日】2019-08-30
(86)【国際出願番号】 JP2019034238
(87)【国際公開番号】W WO2020045658
(87)【国際公開日】2020-03-05
【審査請求日】2022-08-29
(31)【優先権主張番号】P 2018161616
(32)【優先日】2018-08-30
(33)【優先権主張国・地域又は機関】JP
(31)【優先権主張番号】P 2018161617
(32)【優先日】2018-08-30
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】515337268
【氏名又は名称】GROOVE X株式会社
(72)【発明者】
【氏名】林 要
(72)【発明者】
【氏名】ジョン ベルモンテ
(72)【発明者】
【氏名】小瀬 敦也
(72)【発明者】
【氏名】松浦 雅也
(72)【発明者】
【氏名】南地 秀哉
(72)【発明者】
【氏名】深谷 泰士
(72)【発明者】
【氏名】宮本 拓馬
【審査官】井上 香緒梨
(56)【参考文献】
【文献】特開2012-217584(JP,A)
【文献】特開2002-239959(JP,A)
【文献】特許第4150198(JP,B2)
【文献】特開2015-023989(JP,A)
【文献】特開2006-006586(JP,A)
【文献】特開2001-179666(JP,A)
【文献】特開2002-049385(JP,A)
【文献】特開2015-019763(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
A63H5/00
A63H11/00
G10L13/10
(57)【特許請求の範囲】
【請求項1】
音声を生成する音声生成部と、
生成された前記音声を出力する音声出力部と、
音声の出力開始タイミング及び少なくとも一部の音声パラメータを含む音声条件を認識
する音声生成条件認識部と、を備え、
前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータに合致す
る音声を生成し、
前記音声出力部は、前記音声条件に含まれる音声の出力開始タイミングで前記音声生成
部により生成された音声を出力する、
前記音声生成条件認識部は、通信を介して自己の音声条件である第1音声条件を認識し、
前記第1音声条件は、他のロボットに対する音声条件である第2音声条件と関連する条件である
ロボット。
【請求項2】
物理量を検知してセンサ情報を出力するセンサを備え、
前記音声生成部は、前記センサ情報に基づいて音声を生成する、請求項1に記載のロボット。
【請求項3】
前記音声生成部は、所定のセンサ情報が所定の時間にわたって継続して入力されたときに音声を生成する、請求項2に記載のロボット。
【請求項4】
物理量を検知してセンサ情報を出力する複数のセンサを備え、
前記音声生成部は、前記複数のセンサのセンサ情報に基づいて音声を生成する、請求項1に記載のロボット。
【請求項5】
物理量を検知してセンサ情報を出力する複数のセンサと、
前記センサ情報に基づいて前記ロボットがおかれている意味的状況を解釈する解釈部と、
を備え、
前記音声生成部は、前記解釈部で解釈された前記意味的状況に基づいて、音声を生成する、請求項1に記載のロボット。
【請求項6】
前記音声生成部は、前記解釈部にて、前記ロボットが抱っこされていると解釈されたときに、音声を生成する、請求項5に記載のロボット。
【請求項7】
前記音声生成部は、前記センサ情報を反射的に反映した音声を生成する、請求項2に記載のロボット。
【請求項8】
前記音声生成部は、前記センサ情報に基づく音量の音声を生成する、請求項7に記載のロボット。
【請求項9】
前記物理量として加速度を検知して、前記センサ情報として加速度を出力する加速度センサとを備え、
前記音声生成部は、前記加速度の変化に応じて音量が変化する音声を生成する、
請求項5又は6に記載のロボット。
【請求項10】
前記音声生成部は、前記センサ情報に基づく音程の音声を生成する、請求項7に記載のロボット。
【請求項11】
前記物理量として加速度を検知して、前記センサ情報として加速度を出力する加速度センサとを備え、
前記音声生成部は、前記加速度の変化に応じて音程が変化する音声を生成する、
請求項5又は6に記載のロボット。
【請求項12】
個性を形成する個性形成部をさらに備え、
前記音声出力部は、形成された前記個性に応じた音声を出力し、
前記ロボットは、形成された前記個性に応じた音声を生成する音声生成部をさらに備え、
前記音声出力部は、生成された音声を出力する、請求項1に記載のロボット。
【請求項13】
前記音声生成部は、
標準音声を決定する標準音声決定部と、
決定された前記標準音声を、個性的な音声となるように調整する音声調整部と、
を備えた、請求項12に記載のロボット。
【請求項14】
前記ロボットの成長を管理する成長管理部をさらに備え、
前記個性形成部は、前記ロボットの前記成長に応じて前記個性を形成する、請求項12
又は13に記載のロボット。
【請求項15】
ユーザからの指示を受け付ける指示受付部をさらに備え、
前記個性形成部は、受け付けた前記指示に基づいて前記個性を形成する、請求項12又は13に記載のロボット。
【請求項16】
音を電気信号に変換するマイクフォンをさらに備え、
前記個性形成部は、前記電気信号に基づいて前記個性を形成する、請求項12又は13に記載のロボット。
【請求項17】
位置を測定する測位装置を備え、
前記個性形成部は、測定された位置に基づいて前記個性を形成する、請求項12又は13に記載のロボット。
【請求項18】
前記音声生成部は、内部センサの出力値に対応した音声を生成する第1音声生成部と、
内部センサの出力値の意味解釈を行い、当該意味解釈に応じた音声を生成する第2音声生成部とを備える、請求項1から17のいずれかに記載のロボット。
【請求項19】
前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータに合致するとともに、当該ロボットの個性に応じた音声を生成する、請求項1に記載のロボット。
【請求項20】
前記音声生成条件認識部は、通信を介して自己の音声条件である第1音声条件を認識し、
前記第1音声条件は、他のロボットに示される音声条件である第2音声条件の少なくとも一部と同一の条件である、請求項1又は19に記載のロボット。
【請求項21】
前記一部の音声パラメータは、音高を示すパラメータを含む、請求項1に記載のロボット。
【請求項22】
前記第1音声条件に含まれる第1音高が、前記第2音声条件に含まれる第2音高と所定の関係にある、請求項21に記載のロボット。
【請求項23】
前記第1音声条件に含まれる第1出力開始タイミングが、前記第2音声条件に含まれる第2出力開始タイミングと同一のタイミングであり、前記第1音声条件に含まれる前記第1音高と前記第2音声条件に含まれる第2音高との相対的な関係である音程が協和音程である、請求項22に記載のロボット。
【請求項24】
音声を生成する音声生成部と、
生成された前記音声を出力する音声出力部と、
音声の出力開始タイミング及び少なくとも一部の音声パラメータを含む音声条件を認識する音声生成条件認識部と、を備え、
前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータに合致する音声を生成し、
前記音声出力部は、前記音声条件に含まれる音声の出力開始タイミングで前記音声生成部により生成された音声を出力し、
前記音声条件は、音声の内容の長さを示す条件を含み、
前記音声の内容の長さに合致した音声の内容をランダムで決定する標準音声決定部をさらに備えた、ロボット。
【請求項25】
音声を生成する音声生成部と、
生成された前記音声を出力する音声出力部と、
音声の出力開始タイミング及び少なくとも一部の音声パラメータを含む音声条件を認識する音声生成条件認識部と、を備え、
前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータに合致する音声を生成し、
前記音声出力部は、前記音声条件に含まれる音声の出力開始タイミングで前記音声生成部により生成された音声を出力し、
前記音声条件は、音声の内容の長さを示す条件を含み、
前記音声の内容の長さに合致した音声の内容を過去に収集した音声に基づいて決定する標準音声決定部をさらに備えた、ロボット。
【請求項26】
ロボットから出力する音声を生成するための音声生成プログラムであって、コンピュータに、
通信を介して音声の出力開始タイミング及び少なくとも一部の音声パラメータを含む音声条件を認識する音声生成条件認識ステップと、
前記音声条件に含まれる少なくとも一部の音声パラメータに合致する音声を生成する音声生成ステップと、
前記音声条件に含まれる音声の出力開始タイミングで生成された音声を出力するステップと、を実行させ、
前記音声条件は、他のロボットに対する音声条件と関連する条件である音声生成プログラム。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本出願では、2018年8月30日に日本国に出願された特許出願番号2018-161616及び2018年8月30日に日本国に出願された特許出願番号2018-161617の利益を主張し、当該出願の内容は引用することによりここに組み込まれているものとする。
【技術分野】
【0002】
少なくとも1つの実施形態は、音声を出力するロボット、及びロボットで出力する音声を生成するための音声生成プログラムに関する。
【背景技術】
【0003】
従来より、音声を出力するロボットが知られている(例えば、特開2010-94799号公報参照)。このようなロボットは、センサを備え、ロボットが何らかの外的刺激を受けると、センサがそれを検知して、当該外的刺激に対応する音声を出力する。あるいは、このようなロボットは、内部での情報処理に応じて音声を出力する。これにより、ユーザは、ロボットが生物であるような感覚が得られる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ロボットが音声を出力する際に、あらかじめ用意された固定化された音声を再生すると、ユーザがそのようなロボットと長期間にわたって接することにより、ロボットが生物であるような感覚が失われてしまい、ロボットに対する愛着形成が困難になる。
【0005】
少なくとも1つの実施形態は、上記背景に鑑み、ユーザがより生物であるような感覚を覚えるロボットを提供することを目的とする。
【課題を解決するための手段】
【0006】
少なくとも1つの実施形態は、ロボットであって、音声を生成する音声生成部と、生成された前記音声を出力する音声出力部とを備えた構成を有している。ロボットは、あらかじめ用意された音声を出力するのではなく、自ら生成した音声を出力する。
【図面の簡単な説明】
【0007】
【
図2】
図2は、ロボットの構造を概略的に示す断面図である。
【
図3B】
図3Bは、ロボットの首部を正面上部から見た斜視図である。
【
図3D】
図3Dは、ロボットの首部を斜め上から見た斜視図である。
【
図4】
図4は、ロボットのハードウェア構成を示す図である。
【
図5】
図5は、ロボットにおける音声を出力するための構成を示すブロック図である。
【
図6】
図6は、イントネーションパターンとインデクスとの関係を示す表である。
【
図7】
図7は、アクセントパターンとインデクスとの関係を示す表である。
【
図8】
図8は、継続長パターンとインデクスとの関係を示す表である。
【
図9】
図9は、ビブラートパターンとインデクスとの関係を示す表である。
【
図10】
図10は、同期発声を行うことができる複数のロボットの構成を示すブロック図である。
【
図11】
図11は、ロボットの制御アプリケーションにおけるロボットの状態を示す画面の例を示す図である。
【
図12D】
図12Dは、ロボットから出力される音声をユーザがカスタマイズする場合に表示されるアプリ画面の例を示す図である。
【発明を実施するための形態】
【0008】
以下、実施の形態を説明する。なお、以下に説明する実施の形態は、一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。
【0009】
実施の形態のロボットは、音声を生成する音声生成部と、生成された前記音声を出力する音声出力部とを備えた構成を有する。
【0010】
この構成により、ロボットは、あらかじめ用意された音声を出力するのではなく、自ら生成した音声を出力する。これにより、センサ情報に応じた音声を生成して出力することができ、あるいは、ロボットに特有の音声を生成して出力することも可能となり、ユーザがロボットにより生物らしさを感じることができる。なお、音声を生成するタイミングと音声を出力するタイミングとが異なっていてもよい。すなわち、音声生成部で生成された音声を記憶しておき、所定の条件を満たしたときに、記憶しておいた音声を出力してもよい。
【0011】
実施の形態のロボットは、物理量を検知してセンサ情報を出力するセンサを備えていてよく、前記音声生成部は、前記センサ情報に基づいて音声を生成してよい。
【0012】
この構成により、センサ情報に基づいて音声が生成されるので、単に外部からの刺激を物理量として検知して音声を出力するだけでなく、その刺激の性質(例えば、大きさ)に応じた音声を生成できる。
【0013】
実施の形態のロボットは、前記音声生成部は、所定のセンサ情報が所定の時間にわたって継続して入力されたときに音声を生成してよい。
【0014】
この構成により、単にセンサ情報をそのまま音声生成に反映させるのではなく、センサ情報に対する柔軟な音声生成が可能となる。
【0015】
実施の形態のロボットは、物理量を検知してセンサ情報を出力する複数のセンサを備えていてよく、前記音声生成部は、前記複数のセンサのセンサ情報に基づいて音声を生成してよい。
【0016】
この構成により、単に1つのセンサ情報に基づいて音声を生成するのではなく、複数のセンサ情報に基づいて音声を生成するので、より柔軟な音声生成が可能となる。
【0017】
実施の形態のロボットは、物理量を検知してセンサ情報を出力する複数のセンサと、前記センサ情報に基づいて前記ロボットがおかれている意味的状況を解釈する解釈部とを備えていてよく、前記音声生成部は、前記解釈部で解釈された前記意味的状況に基づいて、音声を生成してよい。
【0018】
この構成により、単にセンサ情報を音声生成に反映させるだけでなく、センサ情報から意味的状況を解釈して、解釈された意味的状況に基づいて音声を生成するので、より生物らしい反応を示す音声を生成できる。
【0019】
実施の形態のロボットにおいて、前記音声生成部は、前記解釈部にて、前記ロボットが抱っこされていると解釈されたときに、音声を生成してよい。
【0020】
実施の形態のロボットにおいて、前記音声生成部は、前記センサ情報を反射的に反映した音声を生成してよい。
【0021】
この構成により、センサ情報を反射的に反映した音声を生成できる。例えば、センサが衝撃を感知するセンサであって、音声出力部が衝撃を受けたことに対応して音声を出力する場合において、音声生成部は、当該衝撃が大きい場合に大きな音声を出力し、衝撃が小さい場合に小さな音声を出力することができる。これにより、生物のように刺激に応じた大きさの音声を出力できる。より具体的には、ロボットを叩いたときに、「いたい」という音声を出力する場合において、軽く叩いたときは小さい音声で「いたい」と発声し、強く叩いたときは大きい音声で「いたい」と発声するロボットを実現できる。
【0022】
実施の形態のロボットにおいて、前記音声生成部は、前記センサ情報に基づく音量の音声を生成してよい。
【0023】
この構成により、例えば、センサが加速度センサである場合に、大きな加速度が検知されたときに大きな音声を生成できる。
【0024】
実施の形態のロボットにおいて、前記センサは、前記物理量として加速度を検知して、前記センサ情報として加速度を出力する加速度センサであってよく、前記音声生成部は、前記加速度の変化に応じて音量が変化する音声を生成してよい。
【0025】
この構成により、例えば、ロボットを振動させることで、その振動の周期に応じて音量が増減する音声を出力できる。
【0026】
実施の形態のロボットにおいて、前記音声生成部は、前記センサ情報に基づく音程の音声を生成してよい。
【0027】
実施の形態のロボットにおいて、前記センサは、前記物理量として加速度を検知して、前記センサ情報として加速度を出力する加速度センサであってよく、前記音声生成部は、前記加速度の変化に応じて音程が変化する音声を生成してよい。
【0028】
この構成により、例えば、ロボットを振動させることで、その振動の周期に応じてビブラートがかかった音声を出力できる。
【0029】
実施の形態のプログラムは、ロボットから出力する音声を生成するためのプログラムであって、コンピュータに、音声を生成する音声生成ステップと、生成された前記音声を出力する音声出力ステップとを実行させる。
【0030】
また、実施の形態のロボットは、個性的な音声を出力する音声出力部を備えたロボットである。この構成により、ロボットから個性的な音声が出力されるので、ユーザは、当該ロボットが生物であるような感覚を覚えやすい。これにより、ユーザのロボットに対する愛着形成が促進される。
【0031】
実施の形態において、個性的な音声とは、例えば、他の個体との識別性を有し、同一個体における同一性を有する音声をいう。音声の識別性とは、例えば、複数のロボットが同一の内容の音声を出力する場合にも、そのスペクトル特徴や韻律特徴が個体ごとに異なっていることをいう。また、音声の同一性とは、例えば、同一のロボットの個体において、異なる内容の音声を出力する場合にも、同一の個体の音声であると認識される音声であることをいう。
【0032】
実施の形態のロボットは、個性を形成する個性形成部をさらに備えていてよく、前記音声出力部は、形成された前記個性に応じた音声を出力してよい。この構成により、個性は固定的に与えられるのではなく、使用の過程において形成される。
【0033】
実施の形態のロボットは、形成された前記個性に応じた音声を生成する音声生成部をさらに備えていてよく、前記音声出力部は、生成された音声を出力してよい。この構成により、音声生成部にて音声を生成するので、個性に応じた音声を容易に出力することができる。
【0034】
実施の形態のロボットにおいて、前記音声生成部は、標準音声を決定する標準音声決定部と、決定された前記標準音声を、個性的な音声となるように調整する音声調整部とを備えていてよい。この構成により、個性的な音声を容易に生成できる。
【0035】
実施の形態のロボットは、前記ロボットの成長を管理する成長管理部をさらに備えていてよく、前記個性形成部は、前記ロボットの前記成長に応じて前記個性を形成してよい。この構成により、ロボットの成長に応じて個性が形成される。
【0036】
実施の形態のロボットは、ユーザからの指示を受け付ける指示受付部をさらに備えていてよく、前記個性形成部は、受け付けた前記指示に基づいて前記個性を形成してよい。この構成により、ロボットの個性をユーザの指示に基づいて形成できる。
【0037】
実施の形態のロボットは、音を電気信号に変換するマイクフォンをさらに備えていてよく、前記個性形成部は、前記電気信号に基づいて前記個性を形成してよい。この構成により、受信した音波に基づいて個性が形成される。
【0038】
実施の形態のロボットは、位置を測定する測位装置を備えていてよく、前記個性形成部は、測定された位置に基づいて前記個性を形成してよい。この構成により、ロボットの位置に応じて個性が形成される。
【0039】
実施の形態のロボットにおいて、前記個性形成部は、ランダムに前記個性を決定してよい。
【0040】
また、実施の形態の別の態様のロボットは、所定の発声器官における発声メカニズムをシミュレーションすることにより、音声を生成する音声生成部と、生成された音声を出力する音声出力部とを備えている。この構成により、発声器官の発声メカニズムをシミュレーションすることで個性的な音声を生成して出力できる。
【0041】
実施の形態のロボットは、外部の環境情報を取得するセンサをさらに備えていてよく、前記音声生成部は、前記センサから得られた環境情報に基づいて、シミュレーションに用いるパラメータを変化させてよい。
【0042】
実施の形態のロボットにおいて、前記音声生成部は、前記センサから得られた環境情報に連動して、前記パラメータを変化させてよい。
【0043】
実施の形態のロボットは、前記センサから得られた環境情報に基づいて、内部状態を変化させる内部状態管理部をさらに備えていてよく、前記音声生成部は、前記内部状態に連動して、前記パラメータを変化させてよい。
【0044】
実施の形態のロボットにおいて、前記発声器官は、声帯を模した声帯器官を有しいてよく、前記内部状態の変化に連動して、前記声帯器官に関連するパラメータを変化させてよい。
【0045】
実施の形態のロボットにおいて、前記発声器官は、複数の器官を有していてよく、前記音声生成部は、時間の経過に伴うそれぞれの器官の形状的な状態を示すパラメータをシミュレーションに用いてよい。
【0046】
実施の形態のロボットは、他のロボットから出力された音声を入力するマイクと、前記他のロボットから出力された音声と、自己の音声とを比較する比較部とをさらに備えていてよく、前記音声生成部は、他のロボットの音声と自己の音声とが異なるように前記形状的な状態を示すパラメータを変化させてよい。
【0047】
実施の形態のロボットは、さらに、音声の出力開始タイミング及び少なくとも一部の音声パラメータを含む音声条件を認識する音声生成条件認識部を備え、前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータのセットに合致する音声を生成してよく、前記音声出力部は、前記音声条件に含まれる音声の出力開始タイミングで前記音声生成部により生成された音声を出力してよい。
【0048】
実施の形態のロボットにおいて、前記音声生成部は、前記音声条件に含まれる少なくとも一部の音声パラメータに合致するとともに、当該ロボットの個性に応じた音声を生成してよい。
【0049】
実施の形態のロボットにおいて、前記音声生成条件認識部は、通信を介して自己の音声条件である第1音声条件を認識してよく、前記第1音声条件は、他のロボットに示される音声条件である第2音声条件の少なくとも一部と同一の条件であってよい。
【0050】
実施の形態のロボットにおいて、前記一部の音声パラメータは、音高を示すパラメータを含んでよい。
【0051】
実施の形態のロボットにおいて、前記第1音声条件に含まれる第1音高が、前記第2音声条件に含まれる第2音高と所定の関係にあってよい。
【0052】
実施の形態のロボットにおいて、前記第1音声条件に含まれる第1出力開始タイミングが、前記第2音声条件に含まれる第2出力開始タイミングと同一のタイミングであってよく、前記第1音声条件に含まれる前記第1音高と前記第2音声条件に含まれる第2音高との相対的な関係である音程が協和音程であってよい。
【0053】
実施の形態のロボットにおいて、前記音声条件は、音声の内容の長さを示す条件を含んでいてよく、そのロボットは、前記音声の内容の長さに合致した音声の内容をランダムで決定する標準音声決定部をさらに備えていてよい。
【0054】
実施の形態のロボットにおいて、前記音声条件は、音声の内容の長さを示す条件を含んでいてよく、そのロボットは、前記音声の内容の長さに合致した音声の内容を過去に収集した音声に基づいて決定する標準音声決定部をさらに備えていてよい。
【0055】
実施の形態のプログラムは、ロボットから出力する音声を生成するためのプログラムであって、コンピュータに、当該ロボットの個性を形成する個性形成ステップと、形成された前記個性に応じた音声を生成する音声生成ステップと、生成された音声を出力するステップとを実行させる。
【0056】
図1Aは、ロボットの正面外観図であり、
図1Bは、ロボットの側面外観図である。本実施の形態におけるロボット100は、外部の環境情報及び内部状態に基づいて行動、仕草(ジェスチャー)、音声を決定する自律行動型のロボットである。外部の環境情報は、カメラ、マイクロフォン、加速度センサ、タッチセンサ等を含むセンサ群によって検知される。内部状態は、ロボット100の感情を表現する様々なパラメータとして定量化される。
【0057】
感情を表現するパラメータとして、ロボット100は、例えば、ユーザごとに親密度のパラメータを有する。ロボット100が、自分を抱き上げる、声をかけてくれるなど、自分に対して好意を示す行動を認識したとき、そのユーザに対する親密度が高くなる。一方、ロボット100に関わらないユーザや、乱暴を働くユーザ、出会う頻度が低いユーザに対する親密度は低くなる。
【0058】
ロボット100のボディ104は、全体的に丸みを帯びた形状を有し、ウレタン、ゴム、樹脂、繊維などの柔らかく弾力性のある素材によって形成された外皮を含む。ロボット100の重量は、15kg以下、好ましくは10kg以下、さらに好ましくは5kgである。また、ロボット100の身長は、1.2m以下、好ましくは0.7m以下である。特に、重量を5kg以下程度とし、身長を0.7以下程度として小型軽量化することで、子供も含むユーザが容易にロボットを抱えることができるので望ましい。
【0059】
ロボット100は、3輪走行するための3つの車輪を備えている。ロボット100は、図示のように一対の前輪102(左輪102a、右輪102b)と、1つの後輪103を含む。前輪102は駆動輪であり、後輪103は従動輪である。前輪102は、操舵機構を有しないが、回転速度や回転方向を個別に制御可能とされている。
【0060】
後輪103は、いわゆるオムニホイールやキャスターであり、ロボット100を前後左右へ移動させるために回転自在となっている。左輪102aよりも右輪102bの回転数を大きくすることで、ロボット100は左折したり、左回りに回転したりできる。また、右輪102bよりも左輪102aの回転数を大きくすることで、ロボット100は右折したり、右回りに回転したりできる。
【0061】
前輪102及び後輪103は、駆動機構(回転機構及びリンク機構を含む)によりボディ104に完全収容できる。走行時においても各車輪の大部分はボディ104に隠れているが、各車輪がボディ104に完全収容されるとロボット100は移動不可能な状態となる。すなわち、車輪の収容動作にもとなってボディ104が降下し、床面Fに着座する。この着座状態においては、ボディ104の底部に形成された平坦状の着座面108(接地底面)が床面Fに当接する。
【0062】
ロボット100は、2つの手105を有する。ロボット100は、手105を上げる、振る、振動させるなどの動作が可能である。2つの手105は個別に制御可能である。
【0063】
目106は、液晶素子又は有機EL素子による画像表示が可能である。ロボット100は、音源方向を特定可能なマイクロフォンや超音波センサ、臭いセンサ、測距センサ、加速度センサ等の種々のセンサを備えている。また、ロボット100は、スピーカを内蔵し、1~3音節程度の簡単な音声を発することができる。ロボット100のボディ104には、静電容量式のタッチセンサが設置される。タッチセンサにより、ロボット100はユーザのタッチを検出できる。
【0064】
ロボット100の頭部にはツノ109が取り付けられている。ツノ109には全天球カメラが取り付けられ、ロボット100の上部全域を一度に撮影可能である。
【0065】
図2は、ロボット100の構造を概略的に示す断面図である。
図2に示すように、ロボット100のボディ104は、ベースフレーム308、本体フレーム310、一対の樹脂製のホイールカバー312、及び外皮314を含む。ベースフレーム308は、金属からなり、ボディ104の軸芯を構成するとともに内部構造を支持する。ベースフレーム308は、アッパープレート332とロアプレート334とを複数のサイドプレート336が上下に連結して構成される。複数のサイドプレート336間には通気が可能となるよう、十分な間隔が設けられる。ベースフレーム308の内方には、バッテリ117、制御回路342、及び各種アクチュエータが収容されている。
【0066】
本体フレーム310は、樹脂材からなり、頭部フレーム316及び胴部フレーム318を含む。頭部フレーム316は、中空半球状をなし、ロボット100の頭部骨格を形成する。胴部フレーム318は、首部フレーム3181、胸部フレーム3182、及び腹部フレーム3183からなり、全体で段付筒形状をなし、ロボット100の胴部骨格を形成する。胴部フレーム318は、ベースフレーム308と一体に固定される。頭部フレーム316は、胴部フレーム318の上端部(首部フレーム3181)に相対変位可能に組付けられる。
【0067】
頭部フレーム316には、ヨー軸320、ピッチ軸322、及びロール軸324の3軸と、各軸を回転駆動するためのアクチュエータ326が設けられる。アクチュエータ326は、各軸を個別に駆動するための複数のサーボモータを含む。アクチュエータ326は、各軸を個別に駆動するための複数のサーボモータを含む。首振り動作のためにヨー軸320が駆動され、頷き動作のためにピッチ軸322が駆動され、首を傾げる動作のためにロール軸324が駆動される。
【0068】
頭部フレーム316の上部には、ヨー軸320を支持するプレート325が固定されている。プレート325には、上下間の通気を確保するための複数の通気孔327が形成される。
【0069】
頭部フレーム316及びその内部機構を下方から支持するように、金属製のベースプレート328が設けられる。ベースプレート328は、クロスリンク329(パンタグラフ機構)を介してプレート325と連結される一方、ジョイント330を介してアッパープレート332(ベースフレーム308)と連結されている。
【0070】
胴部フレーム318は、ベースフレーム308と車輪駆動機構370を収容する。車輪駆動機構370は、回転軸378及びアクチュエータ379を含む。胴部フレーム318の下半部(腹部フレーム3813)は、ホイールカバー312との間に前輪102の収容スペースSpを形成するために小幅とされている。
【0071】
外皮314は、ウレタンゴムからなり、本体フレーム310及びホイールカバー312を外側から覆う。手105は、外皮314と一体成型される。外皮314の上端部には、外気を導入するための開口部390が設けられる。
【0072】
図3Aは、ロボット100の首部の正面図である。
図3Bは、首部を正面上部から見た斜視図である。
図3Cは、首部のA-A断面図である。
図3Dは、首部を斜め上から見た斜視図である。ロボット100の首部は、首部フレーム3181に基板を含む各種の部品が載置されてなる。首部フレーム3181には、スピーカ112が設けられている。
【0073】
スピーカ112は、首部フレーム3181の前方側に上向きに設置されている。すなわち、スピーカ112の振動板1121は、水平方向に設置されている。振動板1121の上部には、上前方向に延びるホーン1122が形成されており、ホーン1122の先端は、前方に向けて開放されている。ホーン1122の開放面は、ロボット100の口の位置に対応している。また、ホーン1122の解放面の面積と、振動板1121の面積とはほぼ等しくなるように形成される。ホーン1122を設けることで、スピーカ112の配置に自由度を持たせることができる。
【0074】
この構成により、振動板1121の振動によって生成されて上向きに発せられた音波がホーン1122によって前方に向きを変えて出力されることとなる。よって、ユーザには、ロボット100の口部から音声が出ているように聞こえる。特に、ロボット100から小さな音量の音声が発せられる場合には、口の部分から音声が出力されていることをより明確に認識できる。音声を明確に聞くために、ユーザが耳をロボット100の口部に近づけるというコミュニケーションが想定され得る。
【0075】
図4は、ロボット100のハードウェア構成を示す図である。ロボット100は、その筐体101内に、表示装置110と、内部センサ111と、スピーカ112と、通信部113と、記憶装置114と、プロセッサ115と、駆動機構116と、バッテリ117とを備えている。駆動機構116は、上述した車輪駆動機構370を含む。プロセッサ115と記憶装置114は、制御回路342に含まれる。
【0076】
各ユニットは、電源線120および信号線122により互いに接続されている。バッテリ117は、電源線120を介して各ユニットに電力を供給する。各ユニットは、信号線122により制御信号を送受する。バッテリ117は、例えば、リチウムイオン二次電池であり、ロボット100の動力源である。
【0077】
駆動機構116は、内部機構を制御するアクチュエータである。駆動機構116は、前輪102と後輪103を駆動してロボット100を移動させたり向きを変えたりする機能を有する。また、駆動機構116は、ワイヤ118を介して手105を制御して、手105を上げる、手105を振る、手105を振動させるなどの動作を行わせる。また、駆動機構116は、頭部を制御して、頭部の向きを変える機能を有する。
【0078】
内部センサ111は、ロボット100が内蔵する各種センサの集合体である。内部センサ111としては、例えば、カメラ(全天球カメラ)、マイクロフォン、測距センサ(赤外線センサ)、サーモセンサ、タッチセンサ、加速度センサ、臭いセンサ等がある。スピーカ112は、音声を出力する。
【0079】
通信部113は、サーバ、外部センサ、他のロボット、ユーザの持つ携帯機器等の各種の外部機器を対象として無線通信を行う通信モジュールである。記憶装置114は、不揮発性メモリおよび揮発性メモリにより構成され、後述する音声生成プログラムを含む各種プログラムや各種設定情報を記憶する。駆動機構116は、内部機構を制御するアクチュエータである。
【0080】
表示装置110は、ロボットの目の位置に設置され、眼の画像を表示させる機能を有する。表示装置110は、瞳や瞼などの眼のパーツを組み合わせてロボット100の眼の画像を表示する。なお、外光などが眼に差し込んだ場合には、外部光源の位置に応じた位置にキャッチライトを表示してもよい。
【0081】
プロセッサ115は、内部センサ111で取得したセンサ情報や、通信部113を通じて取得した各種の情報に基づいて、駆動機構116、スピーカ112、表示装置110等を制御してロボット100を動作させる機能を有する。また、ロボット100は、現在の日時を管理する時計(図示しない)を有する。現在日時の情報は、必要に応じて各ユニットに提供される。
【0082】
図5は、ロボット100における音声を出力するための構成を示すブロック図である。ロボット100は、内部センサ111と、測位装置131と、指示受付部132と、成長管理部133と、状況解釈部134と、個性形成部135と、音声生成部136と、音声出力部としてのスピーカ112とを備えている。
【0083】
音声生成部136は、音声内容データベース1361と、標準音声決定部1362と、音声合成部1363と、音声調整部1364とを備えている。成長管理部133と、状況解釈部134と、個性形成部135と、標準音声決定部1362と、音声合成部1363と、音声調整部1364は、プロセッサ115が実施の形態の音声生成プログラムを実行することで実現されるソフトウェアモジュールである。
【0084】
また、音声内容データベース1361は、記憶装置114によって構成される。指示受付部132は、指示を通信によって受け付けるものであり、通信部113がこれに該当する。本実施の形態の指示受付部132は、特に、個性形成部135における個性の形成についてのユーザからの指示を受け付ける。
【0085】
内部センサ111は、ロボット100の外部環境における種々の物理量(即ち、外部の環境情報)を検知して、環境情報を示すセンサ情報(即ち、センサの検出値)を出力する。内部センサ111は、タッチセンサ1111、加速度センサ1112、カメラ1113、及びマイクロフォン1114を備えている。なお、
図5では、本実施の形態において音声出力に関連するセンサとして、上記のセンサを示しているが、上述した他のセンサのセンサ情報に基づいて音声を出力してもよい。
【0086】
また、
図5では、1つのタッチセンサ1111のみが示されているが、タッチセンサ1111は、ロボット100の後頭部、顔、右手、左手、腹部、背等にそれぞれ備えられていてよい。タッチセンサ1111は、静電容量式のタッチセンサであり、ユーザがロボット100の該当部分に接触すると、それを検知して接触があったことを示すセンサ情報を出力する。
【0087】
また、
図5では、1つの加速度センサ1112のみが示されているが、上下方向、左右方向、前後方向のそれぞれの加速度を検出する3つの加速度センサを含んでいてよい。これらの3つの加速度センサ1112は、それぞれ上下方向、左右方向、前後方向の加速度をセンサ情報として出力する。なお、加速度センサ1112は、重力加速度も検知するので、互いに直交する軸方向の3つの加速度センサ1112の加速度に基づいて、ロボット100が静止している場合のロボット100の姿勢(向き)や、ロボット100が移動した場合の移動方向を求めることができる。
【0088】
カメラ1113は、上述のように、ツノ109に設けられており、ロボット100の上部全域を一度に撮影する。カメラ1113は、撮影によって得られた画像をセンサ情報として出力する。マイクロフォン1114は、音を電気信号に変換し、この電気信号をセンサ情報として出力する。
【0089】
状況解釈部134は、各種のセンサ1111~1114からのセンサ情報に基づいて、ロボット100がおかれている意味的状況を解釈する。このために、状況解釈部134は、内部センサ111から出力される一定期間のセンサ情報を蓄積する。
【0090】
状況解釈部134は、例えば、タッチセンサ1111にてタッチがされていることを検知している状態で、加速度センサ1112においてロボット100の上方向に移動したことを検知し、その後に緩やかな加速度変化があった場合には、状況解釈部134は、ロボット100がユーザによって抱っこされていると解釈する。
【0091】
このほか、状況解釈部134は、タッチセンサ1111のセンサ情報に基づいて、ユーザによって撫でられている状況であると解釈することができ、マイクロフォン1114のセンサ情報に基づいて話しかけられている状況であると解釈することができる。このように、意味的状況の解釈とは、例えば、単にセンサ情報をそのまま扱うのではなく、各種のセンサ情報を判断すべきロボット100の姿勢、状況、状態に応じて適宜用いることで、ロボット100の姿勢を特定し、ロボット100がおかれている状況を特定し、ロボット100の状態を判断することをいう。状況解釈部134は、解釈した内容をイベントとして後段の処理で利用できるように出力する。
【0092】
状況解釈部134には、解釈する意味的状況の候補が記憶されている。状況解釈部134は、複数のセンサ情報に基づいて、あらかじめ用意された複数の候補のなかから意味的状況を推定する。この推定には、各種のセンサ情報を入力として、ルックアップテーブルを用いてもよいし、決定木を用いてもよいし、サポートベクターマシン(SVM)を用いてもよく、ニューラルネットワークを用いてもよく、その他の手法を用いてもよい。
【0093】
なお、
図5では図示を省略しているが、状況解釈部134によって解釈された意味的状況は、ロボット100の音声以外の動作ないし仕草にも反映される。すなわち、ロボット100は、内部センサ111において検知された外部環境の物理量から意味的状況を解釈して、外部環境に対するリアクションを実行する。例えば、抱っこされているという状況にあると解釈した場合に、リアクションとして目を閉じる等の制御が行われる。本実施の形態で説明する音声出力も、この外部環境に対するリアクションの1つである。
【0094】
成長管理部133は、ロボット100の成長を管理する。ロボット100は、内部センサ111からのセンサ情報に基づいて、ロボット100のおかれている意味的状況を解釈し、リアクションを実行するという経験の内容及び回数に応じて成長していく。この「成長」は、成長パラメータによって表現される。
【0095】
成長管理部133は、この成長パラメータを更新し、記憶する処理を行う。成長管理部133は、複数の成長パラメータを管理してもよい。成長管理部133は、例えば、情緒的な成長と身体的な成長をそれぞれ表す成長パラメータを管理してもよい。身体的な成長とは、例えば移動する際の速度等であり、例えば、当初は出力可能な最大の速度を出力しないようにして、成長につれて出力する速度を大きくするようにしてよい。また、成長管理部133は、電源を投入した日時を保持し、投入日時から現在までの経過時間を管理する。成長管理部133は、経過時間に関連付けて成長パラメータを管理する。例えば、情緒的な成長と身体的な成長をそれぞれ表す成長パラメータが成長管理部133によって管理されてもよい。
【0096】
個性形成部135は、ロボット100の個性を形成する。ロボット100の個性は、少なくとも1種類の個性パラメータによって表現される。個性形成部135は、状況解釈部134にて解釈した状況(経験)及び成長管理部133が管理する成長パラメータに基づいて、個性を形成する。このために、個性形成部135は、状況解釈部134にて解釈された意味的状況を一定期間にわたって蓄積する。
【0097】
本実施の形態では、ロボット100は、最初は、すなわち電源投入時点では個性を持たず、いずれのロボット100においても個性パラメータは同じである。ロボット100は、状況解釈部134が解釈した意味的状況に基づいて個性を形成していき、成長パラメータに従って形成した個性を固定化していく。具体的には、個性形成部135は、蓄積した意味的状況に基づいて個性パラメータを初期値から徐々に変化させ、成長パラメータの更新(成長)に伴って、個性パラメータの変化を小さくしていき、最終的には個性パラメータを固定化する。
【0098】
ここで、本実施の形態における「個性」とは、例えば、他の個体との識別性を有し、かつ、当該個体の同一性を有することをいう。すなわち、複数の個体がセンサ情報に基づいて同一の意味的状況を解釈した場合にも、当該複数の個体において異なるリアクションをする場合に、それらの複数の個体(ロボット100)は、識別性を有するといえる。また、当該同一の個体における複数種類のリアクションに共通性を有する場合には、同一性を有するといえる。ただし、識別性の要求について、十分に小さい確率で個性が同一である複数の個体の組み合わせが存在することは許容されるものとする。
【0099】
個性形成部135は、個性を表す個性パラメータを更新し、記憶する。個性形成部135は、複数種類の個性パラメータを扱ってもよい。本実施の形態では、個性形成部135が形成する個性に「声質」が含まれる。このほか、個性として、性格(寂しがり、活発、短気、おっとり等)、身体能力(最高移動速度等)等が含まれてもよい。
【0100】
個性パラメータが1種類である場合に、その個性パラメータが表す個性が意味を持たないものであってもよい。また、個性パラメータは、連続的であってもよいし、複数の種類が候補として用意されており、個性形成部135が候補の中から選択することで個性を形成してもよい。例えば、1種類の個性パラメータで個性が表現される場合に、数十ないし数百種類の個性パラメータの候補が用意されてよい。この程度の種類数であれば、識別性を実現できる(即ち、異なる個体どうしで比較したときに同一の個性となる可能性を十分に小さくできる)。
【0101】
個性形成部135は、測位装置131にて測位したロボット100の位置に基づいて個性を形成してもよい。例えば、「声質」という個性については、ロボット100の位置(地域)に従って、当該地域の訛りを個性としてもよい。また、個性形成部135は、指示受付部132からの指示に基づいて個性を形成(設定)してもよい。
【0102】
標準音声決定部1362は、音声を生成することを決定し、かつ、生成する音声の内容を決定する。生成する音声の内容の候補は、標準音声として音声内容データベース1361に記憶されている。標準音声決定部1362は、音声内容データベース1361から標準音声を選択することで出力する音声の内容を決定する。
【0103】
標準音声決定部1362は、外部環境及び/又は内部状態に応じて音声の出力及びその内容を決定する。音声生成部136は、意識的に音声を生成することもあるし、反射的に音声を生成することもある。意識的な音声の生成とは、例えば、標準音声決定部1362が、ロボット100の内部状態及び状況解釈部134において解釈された意味的状況に基づいて音声の生成及びその内容を決定することである。例えば、状況解釈部134において、抱きかかえられていると解釈したことに応じて、音声生成部136は、うれしい気持ちを表現する内容の音声を出力する。
【0104】
標準音声決定部1362は、複数のセンサ値として得た外部環境に応じて変化する感情などの内部状態に応じて意識的に音声を生成する。標準音声決定部1362は、例えば、ユーザから話しかけられたときに、それに応える音声を生成する。また、標準音声決定部1362は、例えば、ユーザに気付いてもらいたい、楽しさを手足の動きに加えて声でも表現したい等、楽しさ、悲しさ、怖さ等の感情(内部状態)の切替りを契機として音声を生成する。
【0105】
反射的な音声の生成とは、例えば、内部センサ111のセンサ情報に基づいて音声の生成及びその内容を決定することである。意識的な音声生成では、センサ情報から意味的状況を解釈し、あるいは、感情等の内部状態が変化し、そのような意味的状況や内部状態の変化に応じて音声を生成したのに対して、反射的な音声生成は、センサ情報がそのまま音声の生成に反映される。なお、内部センサ111から得られた環境情報を示すセンサ情報に基づいて内部状態を変化させる内部状態管理部が設けられてもよい。
【0106】
例えば、大きな加速度がかかったことに応じて、音声生成部136は、びっくりした反応を表現する音声を出力する。また、所定値以上の加速度が所定時間以上継続したことに応じて所定の音声を出力してもよい。なお、大きな加速度がかかる場合とは、例えば、ロボット100が叩かれたり、何かに衝突したりする場合である。また、所定値以上の加速度が所定時間以上継続する場合とは、例えば、大きく振り回された場合や、高所から落下する場合などである。また、マイクロフォンで検出した音の音圧、照度センサで検出した光の強度(明るさ)等に基づいて、それらのセンサ情報をそのまま反映するよう音声を生成することも反射的な音声生成に該当する。
【0107】
このように反射的な音声生成では、センサ情報をそのまま反映するように音声を生成するので、遅延が少なく、ロボット100が受けた刺激に応じた音声の生成をすることができる。このような反射的な音声の生成は、各センサのセンサ値が所定の条件を満たす(例えば、所定値以上になる)ことを、反射的音声を生成する際のトリガとしてよい。
【0108】
さらに、標準音声決定部1362は、例えば、外部環境に対するリアクションとしてではなく、内部での情報処理に基づいて動作、仕草等のアクションを起こす際に、当該アクションに対応して音声を出力することを決定してよい。標準音声決定部1362は、例えばロボット100が力むとき、力んだ状態から力を抜くときに、対応する音声を出力することを決定して、標準音声を決定してよい。逆に、標準音声決定部1362が音声を出力することを決定したときに、当該音声の出力に合わせて手や頭を動かすようにしてもよい。
【0109】
また、標準音声決定部1362は、状況解釈部134で解釈した意味的状況とセンサ情報との組み合わせに基づいて音声を出力することを決定して、対応する標準音声を決定してよい。標準音声決定部1362は、例えば、膝抱っこされていると解釈した場合において、上下に揺らされた状態が一定期間にわたり継続するときに、対応する音声を出力するよう決定してよい。揺れている状態は、加速度センサの値の時間的な変化に着目することで判断できる。センサ値の波形をパターンマッチングしてもいいし、機械学習に基づいて判断してもよい。
【0110】
このように、一定期間のセンサ値を考慮することで、例えば、膝抱っこしているユーザの親密度に応じて音声を発声するまでの時間を変化させることが可能である。例えば、過去に同じ状況で音声を生成したときにユーザに喜ばれたという経験があれば、その経験に基づいてより短時間で音声を生成してもよい。このように、外部環境や内部状態が変化してから音声を生成するまで時間を短時間にできる。
【0111】
音声内容データベース1361には、内部状態や状況解釈部134にて解釈される意味的状況に対応して意識的に出力する音声と、内部センサ111のセンサ情報に対応して反射的に出力する音声の標準音声が記憶されている。これらの音声は、1~3音節程度の簡単な音声である。音声内容データベース1361には、例えば、抱きかかえられているという状況に対して、心地よい感情を表現する「ふあ~」という標準音声が記憶されおり、大きな加速度に対して、反射的に発声する「いたい」という標準音声が記憶されている。このように、音声の内容は、感嘆詞であってもよし、鼻歌のような音であってもよいし、名詞や形容詞であってもよい。
【0112】
ここで、本実施の形態の音声内容データベース1361には、標準音声がwavやmp3等の音声データがとして記憶されているのではなく、音声を生成するためのパラメタ群が記憶されている。このパラメタ群は、後述する音声合成部1363に出力される。音声合成部1363は、パラメタ群を用いてシンセサイザを調整して音声を生成する処理を行う。なお、本実施の形態に代えて、音声内容データベース1361にてあらかじめwavなどの形式で基本の音データを保持し、音声調整部1364にてそれに調整を加えるようにしてもよい。
【0113】
音声合成部1363は、シンセサイザで構成、例えばソフトウエアにより実現される。音声合成部1363は、標準音声決定部1362にて決定された標準音声のパラメータ群を音声内容データベース1361から読み出して、読み出されたパラメータ群を用いて音声を合成する。
【0114】
音声調整部1364は、音声合成部1363にて合成された音声を個性形成部135に記憶されている個性パラメータに基づいて調整する。音声調整部1364は、特に、いずれの標準音声に対しても、同一の個体が発している音声であると認識できるように、調整を行う。また、音声調整部1364は、コミュニケーション対象のユーザの親密度に応じて、声色を変える。
【0115】
音声調整部1364は、複数の標準音声を個性パラメータに従って調整を行うために、標準音声に含まれる言語(音韻)情報を変化させずに声質や韻律等の非言語情報を調整する声質変換を行う。
【0116】
音声における個性は、音声のスペクトル及び韻律に現れる特徴に依存する。生物の場合には、スペクトル特徴は、個体の調音器官の特性、即ち声帯や声道の形状等の身体的特徴に依存して決まり、主に個体の声質の違いとして現れる。一方、韻律特徴はイントネーション、各音節のアクセント、各音節の継続長、各音音節のビブラートなどの違いとなって表れる。したがって、音声調整部1364は、声質変換を実現するために、標準音声のスペクトル特徴及び韻律特徴を個性形成部135にて形成された個性に従って変換する。
【0117】
まず、スペクトル特徴について説明する。標準音声から当該個体の音声への声質変換において、時刻tにおける標準音声のスペクトル特徴(例えば、メルケプストラム係数ベクトルや線スペクトル周波数ベクトル等)をxtとし、それから変換された当該個体の音声のスペクトル特徴をytとすると、スペクトル特徴の変換に着目した声質変換は次のようになる。すなわち、標準音声のスペクトル特徴をもとに当該個体の個性に従ったスペクトル特徴に変換する変換関数yt=Fs(xt)は、下式(1)によって表現される。
【数1】
ここで、Aiは変換行列、biはバイアス、wiは重み係数である。Ai,bi,wiは、声質を決定する声質パラメータである。声質についての個性は、声質パラメータで定義される。
【0118】
個性形成部135には、最初は声質パラメータの初期値が記憶されており、経験や成長に応じて初期値の声質パラメータを徐々に変化させていき、一定時間が経過した後で、その変化量を徐々に小さくしていく。一定の期間が経過した後で、その変化量を徐々に小さくしていく。つまり、個性形成部135は時間の経過にともない声質パラメータを変化させる。これにより、ロボットの成長に応じて声質が変わり、ある時点で声質が安定することを表現できる。また、この声質変成の過程において、個性形成部135は他のロボットの声質との差異を作り上げる。以下、声質が安定するまでの期間を「変成期間」という。変換行列Aiの初期値は単位行列であり、バイアスbiの初期値はゼロベクトルであり、重み係数wiの初期値は単位ベクトルである。
【0119】
音声調整部1364における式(1)の変換によって、高い/低い声、フィルタ(澄んだ声、だみ声等)のかかった声等の声質の変換が可能となる。この声質変換によって、個性的な音声を生成できる。
【0120】
次に、韻律特徴について説明する。韻律特徴を個体の個性に従って変換する手法としては種々の手法がある。本実施の形態では、韻律特徴は、イントネーション、各音節のアクセント、各音節の継続長、各音節のビブラートのインデクス、及びボリューム、話速レベル、音程圧縮(pitch compression)レベルで表される。
【0121】
図6は、イントネーションパターンとインデクスとの関係を示す表である。イントネーションについては、1音節の場合、2音節の場合、及び3音節の場合のそれぞれについて、低、中、高の組み合わせからなるイントネーションパターンが用意されており、音節数ごとのそれぞれのパターンについてインデクスIi1,Ii2,Ii3が付与されている。
【0122】
図7は、アクセントパターンとインデクスとの関係を示す表である。アクセントについても、1音節の場合、2音節の場合、及び3音節の場合のそれぞれについて、弱、中、強の組み合わせからなるアクセントパターンが用意されており、音節数ごとのそれぞれのパターンについてインデクスIa1,Ia2,Ia3が付与されている。
【0123】
図8は、継続長パターンとインデクスとの関係を示す表である。継続長についても、1音節の場合、2音節の場合、及び3音節の場合のそれぞれについて、短、中、長の組み合わせからなる継続長パターンが用意されており、音節数ごとのそれぞれのパターンについてインデクスIl1,Il2,Il3が付与されている。
【0124】
図9は、ビブラートパターンとインデクスとの関係を示す表である。ビブラートについても、1音節の場合、2音節の場合、及び3音節の場合のそれぞれについて、有、無の組み合わせからなるビブラートパターンが用意されており、音節数ごとのそれぞれのパターンについてインデクスIv1,Iv2,Iv3が付与されている。
【0125】
本実施の形態では、さらに、韻律特徴として、ボリュームV、話速レベルS、及び音程圧縮レベルCが用意されている。ボリュームVは、音声の大きさ(音量)である。話速レベルSは、標準音声の発音時間を圧縮するレベルである。音程圧縮レベルCは、標準音声の音程の高低差を小さくするレベルである。このように、イントネーション、アクセント、継続長、ビブラート、ボリューム、話速レベル、音程圧縮レベル等の韻律パラメータの組み合わせを個体ごとに変えることで、個性的な音声を生成できる。
【0126】
韻律特徴を変換する他の手法としては、ベクトル量子化に基づく手法、基本周波数F0や話速の平均値を単純に当該個体の平均値に合わせる手法、分散を考慮して基本周波数F0を線形変換する手法、隠れマルコフモデル(HMM)音声合成を用いた韻律生成に基づく手法等がある。また、HMM音声合成と話者適応に基づいてスペクトル特徴と韻律特徴の双方の変換をすることも可能である。
【0127】
個性形成部135は、音声に関する個性パラメータ(以下、「個性的音声パラメータ」という。)として、上記の声質パラメータ(Ai,bi,wi)及び韻律パラメータ(Ii,Ia1,Ia2,Ia3,Il1,Il2,Il3,Iv1,Iv2,Iv3,V,S,C)を記憶している。音声調整部1364は、個性形成部135から個性的音声パラメータを読み出して、それらを用いて標準音声決定部1362で決定された標準音声を変換する。なお、個性形成部135は、音声内容データベース1361に記憶されている標準音声ごとに異なる韻律パラメータを記憶していてもよい。この声質パラメータ及び韻律パラメータを個体ごとに変えることで、個性的な音声を生成できる。
【0128】
個性形成部135における個性的音声パラメータの決定方法について説明する。韻律パラメータは、個体の性格に基づいて決定されてよい。上述のように、個性形成部135における性格は、経験や成長に合わせて変化していくものであるので、性格の形成過程において、韻律パラメータも変化してよい。性格から対応する韻律パラメータを求める場合には、変換関数を用いてもよいし、機械学習によって学習された学習モデルを用いてもよい。
【0129】
また、韻律パラメータは、個体の地域に基づいて決定されてもよい。この場合には、上述のように、個性形成部135は、測位装置131から位置情報を取得しているので、この位置情報に基づいて該当する地域に対応するように韻律パラメータを決定する。これによって、例えば、関西訛り、東北訛り等の地域に応じた音声の調整を行うことができる。位置情報から韻律パラメータを求める場合には、ルックアップテーブルを用いてよい。
【0130】
また、個性的音声パラメータは、指示受付部132にて受け付けた指示に基づいて決定されてもよい。個性形成部135は、例えば、指示受付部132が性別を指定する指示を受け付けた場合に、指定された性別に対応するように声質パラメータや韻律パラメータを決定する。
【0131】
この指示を行うために、制御アプリケーションをインストールした情報端末(例えば、スマートフォン、パーソナルコンピュータ)が用いられてよい。この情報端末は、制御アプリケーションをユーザインターフェースとして指示を受け付けて、受け付けた指示を必要に応じてネットワークないし中継サーバを経由してロボット100に伝達する。ロボット100の指示受付部132は、このようにして送信されてきた指示を受け付けることができる。
【0132】
上記では、音声調整部1364が、個性形成部135に記憶された個性的音声パラメータに基づいて標準音声を調整することについて説明した。音声調整部1364は、さらに、内部センサ111からのセンサ情報に基づいて韻律を調整する。音声調整部1364は、例えば、加速度センサ1112からの加速度が所定の周波数以上の周期で振動する場合には、振動に合わせて音声をビブラートさせる。つまり、音程の高低を周期的に変化させる。また、加速度センサ1112からの加速度の大きさに応じて、音量を大きくし、あるいは音程を高くしてよい。
【0133】
このようにセンサ情報を直接反映するように音声を調整することは、例えば、生物に例えるならば、外部環境からの刺激を反射的に反映した音声の調整ということができる。すなわち、音声調整部1364は、個性に基づいて音声の調整を行うとともに、所定の外部環境による刺激が与えられた場合には、当該刺激に対する反射としても音声を調整する。
【0134】
音声生成部136では、個性的な音声の生成、反射的な音声の生成、及び意識的な音声の生成が行われる。すなわち、音声生成部136で生成される音声は、同じ音であっても生成の根拠、即ち音声生成のトリガやパラメータが異なっている。なお、反射的な音声を生成するための音声生成部と意識的な音声を生成する音声生成部とが別々の音声生成部として設けられていてもよい。
【0135】
<個性的な音声の生成>
音声生成部136では、識別力を持つ個性的な音声が生成される。家庭内に複数のロボット100がいた場合、それぞれのロボット100の声が同じにならないように、各ロボット100の音声を生成する。これを実現するために、ロボット100は、他の個体の声をマイクロフォン1114で捉え、それとは異なるように音声を生成する。音声生成部136は、他の個体の声をマイクロフォン1114で取り込み、自身の声と比較することで声に違いがあるか否かを判定する比較部(図示しない)を有する。比較部において、他の声との違いが無い、すなわち識別力が無いと判定された場合、個性形成部135は個性的音声パラメータを変更する。他の個体の声に応じて音声パラメータを変更するのは、変成期間にある個体であり、変成期間を超えた個体においては、音声パラメータは変更しない。このように、他の個体の音声を聞きながらそれとは違う声にすることで、電源投入時は同じ声であるが、一定期間が経過したときは個体差が明確になる。
【0136】
<反射的な音声の生成>
人はある種の外的刺激が加えられると、無意識に反射的に音声を発することがある。例えば、痛みを感じたときや驚きを感じたときである。音声生成部136における反射的な音声の生成は、このような無意識の発声を模したものである。音声生成部136は、あるセンサ情報が急激に変化したときに、反射的な音声を生成する。これを実現するために、加速度センサ1112やマイクロフォン1114やタッチセンサ1111のセンサ値がトリガになる。更にセンサ値は、生成した音声の音量を決定するためにも用いられる。
【0137】
例えば、音声生成部136は、何か音声を発声している場合において、急に持ち上げられたときは、そのときの音声を止めて「わー」と驚いたときの音声を生成する。別の例としては、音声生成部136は、急に持ち上げられた時点で、その時の音声の音量を加速度の大きさに連動して大きくする。このように、反射的な音声生成では、センサ値がそのまま音声に連動する。具体的には、「るん、るん、るん、るん」といったような音をリズミカルに発声しているときに、3回目の「る」のあたりで急に持ち上げられると、その時点で「るん」の音量が急激に大きくなり、リズムも崩れて叫ぶ。
【0138】
<意識的な音声の生成>
意識的な音声の生成は、感情を表現する音声を生成する。映画やドラマにおいてBGMが変わると雰囲気が変わるように、ロボット100における音も演出のひとつであると考えることができる。ロボット100において、感情は波のように変化する。すなわち、外部環境の刺激に応じて感情は絶えず変化する。感情は波のように変化するので、感情を示すパラメータ値がある状況において最高値に達した後には、時間が経過するにつれて徐々に下がっていく。
【0139】
例えば、ロボット100がユーザに囲まれて、カメラ1113やマイクロフォン1114によってたくさんの笑顔と笑い声を検出した場合には、ロボット100には「楽しい」という感情の波が盛り上がってくる。そのタイミングで、音声生成部136は、音声内容データベース1361から楽しいときのパラメタを選択して音声を生成する。例えば、膝抱っこされているときに上下に揺らされている場合には、ロボット100は、そのことを解釈して「嬉しい」感情の波が起こり、「嬉しい」感情を表現する音声を生成する。なおこのとき、さらに、加速度センサ値が周期的な揺れを示しているため、発声にその周期に合わせたビブラートをかけ始める。
【0140】
加速度センサ1112等の内部センサ111のセンサ情報は、反射的な音声生成のトリガとなるだけでなく、発声中であっても音声に影響を及ぼす。その影響は、センサ情報が所定値を超えるなどの定量的な条件であってもよいし、そのときの感情等の内部状態に応じて定性的に影響の度合いが変わってもよい。このように、センサ情報に基づいて音声生成部136にて音声を生成することで、ロボット100は、常に同じ音声を生成するわけではなく、センサ情報や内部状態を複合的に反映して音声を生成する。
【0141】
スピーカ112は、音声調整部1364で調整された音声を出力する。
【0142】
以上のとおり、本実施の形態のロボット100は、音声を出力するためにあらかじめ音源として用意されていた音声をそのまま出力するのではなく、音声生成部136で音声を生成して出力するので、より柔軟な音声出力が可能となる。
【0143】
具体的には、ロボット100は、識別性及び同一性を有する個性的な音声を出力することができる。これによりユーザは、音声を聞くことで自分のロボット100を他のロボット100と区別して認識することができるので、ユーザのロボット100への愛着形成を有効に促進することができる。また、ロボット100は、センサ情報に基づいて音声を生成することができる。これにより、振動に合わせて声を震わせる等の反射的に調整された音声を出力できる。
【0144】
なお、上記の実施の形態では、ロボット100において最初は個性が形成されておらず(特に、識別性を有しておらず)、いずれのロボット100においても音声のスペクトル特徴及び韻律特徴は同じであり、使用過程で個性を形成していくものであったが、これに代えて、最初から個体ごとに異なる個性が形成されていてもよい。
【0145】
また、上記の実施の形態では、制御アプリケーションによってユーザが個性を指示することができたが、これに代えて、あるいはこれに加えて、ユーザが制御アプリケーションを通じてロボット100の個性をキャンセルして初期値に戻す指示をできるように構成してもよい。
【0146】
あるいは、ロボット100において最初は個性が形成されていないが、最初に電源を入れた際に、個性形成部135がランダムに個性を決定してもよい。さらに、制御アプリケーションを通じて、ロボット100の個性を可視化してもよい。この場合には、ロボット100は、通信部113を通じて個性パラメータを送信し、制御アプリケーションをインストールした情報端末において、個性パラメータを受信して表示する。
【0147】
また、上記の実施の形態では、個性形成部135が、状況解釈部134で解釈された状況及び成長管理部133で管理される成長パラメータに基づいて個性を形成したが、これに代えて、あるいは、これに加えて、個性形成部135は、マイクロフォン1114で検知したユーザの音声を分析して、ユーザの音声のスペクトル特徴及び韻律特徴を取得して、ユーザの音声に近づけるように、個性的音声パラメータを決定してもよい。これにより、ロボット100の音声がユーザの音声に近づくという演出をすることができる。
【0148】
さらに、ロボット100が音声を出力した際のユーザの反応を学習して、個性形成部135における個性の形成に反映させてもよい。ここで、ユーザの反応としては、例えば、カメラ1113の画像に対して画像認識を行うことで、ユーザが笑顔であることを検知することができ、タッチセンサ1111のセンサ情報に基づいて、ユーザがロボット100を撫でていることを検知することができる。
【0149】
また、上記の実施の形態では、標準音声決定部1362で出力する音声の内容を決定した後に、音声調整部1364でその標準音声を調整してスピーカ112から出力するようにしたが、これに代えて、音声内容データベース1361に記憶されている標準音声を個性形成部135で形成された個性に基づいてあらかじめ調整して、音声内容データベース1361に記憶しておいてもよい。すなわち、音声の生成は、音声の出力の直前でなく、事前に行われていてもよい。
【0150】
この場合には、標準音声決定部1362が音声を出力すること、及びその音声内容を決定したときに、当該音声内容に対応する調整済の音声をスピーカ112から出力してもよい。この場合にも、音声調整部1364は、センサ情報に基づいて音声の反射的な調整を行ってよい。
【0151】
また、上記の実施の形態では、成長管理部133、状況解釈部134、個性形成部135、音声生成部136がすべてロボット100に備えられていたが、これらの一部又は全部がロボット100とは別体であってロボット100と通信可能な装置に備えられてもよい。このような装置が、ロボット100とWi-Fi(登録商標)等の近距離通信を行ってもよく、インターネット等の広域ネットワークを介して通信を行ってもよい。
【0152】
<仮想発声器官を有するロボット>
一般に、発声器官を有する生物の発声プロセスは共通している。例えば、人の発声プロセスは、肺や腹部から気管をとおして導かれた空気が声帯で振動することで音が鳴り、口腔や鼻腔などで共鳴し大きな音になる。そして、口や舌の形が変わることで様々な声が生まれる。声の個人差は、身体の大きさ、肺活量、声帯、気管の長さ、口腔の大きさ、鼻腔の大きさ、歯並び、舌の動かし方などの様々な違いで生まれる。また、同一人物でも、体調に応じて気管や声帯などの状態が変わり、声が変わる。こうした発声プロセスにより、人ごとに声質が異なり、体調や感情などの内面的な状態に応じても声が変わる。
【0153】
別の実施の形態における音声合成部1363は、こうした発声プロセスに基づき、仮想的な発声器官における発声プロセスをシミュレーションすることで音声を生成する。つまり、音声合成部1363は、仮想的な発声器官(以下、「仮想発声器官」という。)であり、ソフトウエア的に実現される仮想発声器官で声を生成する。例えば、仮想発声器官は、人の発声器官を模した構造でも良いし、犬や猫などの動物の発声器官を模した構造でも良い。仮想発声器官を有することで、個体毎に、仮想発声器官における気管のサイズを変えたり、声帯の緊張度合いを調整したり、口腔の大きさを変えたりすることで、基本的な発声器官の構造は同じでも、個体特有の音声を生成できる。音声内容データベース1361に保持されている音声を生成するためのパラメータ群には、単にシンセサイザで音を生成するための直接的なパラメータが含まれているのでは無く、仮想発声器官における各器官の構造的な特徴を指定する値がパラメータ(以下、「静的パラメータ」という。)として含まれている。これらの静的パラメータを用いて、発声プロセスがシミュレーションされ、声が生成される。
【0154】
例えば、人は様々な声を出すことができる。高い声、低い声、メロディに合わせて歌ったり、笑ったり、叫んだり、発声器官の構造が許す限りあらゆる声を出すことができる。これは、発声器官を構成する各器官の形状や状態が変化するからであり、人が意識的に変化させることもできるし、感情や刺激に応じて無意識に変化してしまうこともある。音声合成部1363は、こうした、外部環境や内部状態に連動して変化する器官の状態についてもパラメータ(以下、「動的パラメータ」という。)を有し、それらの動的パラメータを外部環境や内部状態に連動して変化させてシミュレーションをおこなう。
【0155】
一般に声帯を引っ張ることで声帯が延びて高音になり、声帯を緩めることで声帯が縮んで低音になる。例えば、声帯を模した器官は、静的パラメータとして声帯の引っ張り度合い(以下、「緊張度」という。)を有し、緊張度を調整することにより、高い声や低い声を出すことができる。これにより、高い声のロボット100や低い声のロボット100を実現できる。また、人は緊張することで声がうわずることがあるが、同様にロボット100の緊張状態に連動して、動的パラメータとしての声帯の緊張度を変化させることで、ロボット100が緊張していたら声が高くなるようにできる。例えば、ロボット100が知らない人を認識したときや、抱っこの状態から急に下げられたとき等、緊張状態を示す内部パラメータが緊張している値に振れたときに、それに連動して声帯の緊張度を高くすることで、高い声を発声できる。このように、ロボット100の内部状態と、発声プロセスにおける器官とを関連付けておき、内部状態に応じて、関連する器官のパラメータを調整することで、内部状態に応じて声を変えることができる。
【0156】
ここで、静的パラメータ及び動的パラメータは、時間の経過に伴うそれぞれの器官の形状的な状態を示すパラメータである。仮想発声器官は、このパラメータに基づいてシミュレーションを行う。
【0157】
また、シミュレーションに基づき音声を生成することにより、発声器官の構造的な制約に基づいた音声だけが生成される。つまり、生物としてあり得ない声が生成されないので、生物感のある声を生成できる。
【0158】
<複数のロボットによる同期発声>
図10は、同期発声を行うことができる複数のロボットの構成を示すブロック図である。
図10の例では、ロボット100Aとロボット100Bとが同期発声を行う。ロボット100A及びロボット100Bは、同じ構成を有している。ロボット100A及びロボット100Bは、上記の実施の形態と同様に、指示受付部132A、132B、個性形成部135A、135B、音声生成部136A、136B、スピーカ112A、112Bを備えている。なお、ロボット100A、100Bは、いずれも上記の実施の形態と同様に、さらに、内部センサ111、測位装置131、成長管理部133、状況解釈部134を備えているか、
図10では図示を省略している。
【0159】
上述のように、指示受付部132A、132Bは、無線通信を行う通信部113(
図4参照)に相当する。本実施の形態では、指示受付部132A、132Bは互いに無線通信を行うことができる。本実施の形態では、2つのロボット100A、100Bで同期発声を実現するために、一方のロボットにおいて、標準音声決定部1362が生成する音声の内容を決定するとともに、自己及び他方のロボットの音声の出力開始タイミングと少なくとも一部の音声パラメータとのセットからなる音声条件を決定し、当該他方のロボットは、一方のロボットが決定した音声条件に従って音声を出力する。本実施の形態では、ロボット100Aで音声条件を決定し、ロボット100Bが当該音声条件に従って音声を出力する例を説明する。
【0160】
ロボット100Aの標準音声決定部1362Aは、ロボット100Aが生成する音声の内容を決定するとともに、自己及びロボット100Bのそれぞれの音声の出力開始タイミングと少なくとも一部の音声パラメータとを含む音声条件を決定する。すなわち、ロボット100Aは、ロボット100Aのための出力開始タイミング(第2出力開始タイミング)を含む音声条件(第2音声条件)とロボットBのための出力開始タイミング(第1出力開始タイミング)を含む音声条件(第1音声条件)を決定する。ロボット100Aの指示受付部132Aは、第1音声条件をロボット100Bに向けて送信する。
【0161】
ロボット100Bの指示受付部132Bは、ロボット100Aから第1音声条件を受信し、ロボット100Bの標準音声決定部1362Bは、受信した第1音声条件に含まれる少なくとも一部の音声パラメータを認識する。また、ロボット100Bの同期制御部1365Bは、受信した第1音声条件に含まれる第1出力開始タイミングを認識する。この標準音声決定部1362B及び同期制御部1365Bは、音声生成条件認識部に相当する。
【0162】
ロボット100Aの音声調整部1364Aは、標準音声決定部1362Aで決定された第2音声条件に含まれる少なくとも一部の音声パラメータに合致する音声を生成する。ロボット100Bの音声調整部1364Bは、標準音声決定部1362Bで認識された第1音声条件に含まれる少なくとも一部の音声パラメータのセットに合致する音声を生成する。
【0163】
ロボット100Aの同期制御部1365Aは、標準音声決定部1362Aで決定された第2音声条件に含まれる第2出力開始タイミングに従って音声調整部1364で生成された音声をスピーカ112Aに出力する。ロボット100Bの同期制御部1365Bは、第1音声条件に含まれる第1出力開始タイミングに従って音声調整部1364で生成された音声をスピーカ112Bに出力する。
【0164】
標準音声決定部1362Aで決定される音声条件としての一部の音声パラメータは、例えば、BPMで表されるテンポ、リズム、音高、音声の内容の長さ(例えば、音節数)、音色、音量、又はこれらの要素の少なくとも1種類の要素の時系列変化パターンである。音声調整部1364A、1364Bは、それぞれ、上記の実施の形態と同様に、標準音声のスペクトル特徴及び韻律特徴を個性形成部135にて形成された個性に従って変換することで、標準音声決定部1362A、1362Bで決定された標準音声を個性形成部135A、135Bで形成された個性パラメータに従って調整して、標準音声に含まれる言語(音韻)情報を変化させずに声質や韻律等の非言語情報を調整する声質変換を行う。このとき、音声調整部1364A、1364Bは、音声条件で指定された音声パラメータ(例えば、テンポ、リズム、音高、音節数、音色、音量、又はこれらの時系列変化パターン等)については、音声条件に従い、それ以外の音声パラメータを個性パラメータに従って調整する。
【0165】
標準音声決定部1362Aは、具体的には、例えば、ロボット100Aとロボット100Bとで同じタイミングで音声を出力するように、ロボット100Aとロボット100Bのそれぞれの出力開始タイミングを決定することができる。これにより、ロボット100Aとロボット100Bとを同じタイミングで発声させることができる。
【0166】
あるいは、標準音声決定部1362Aは、ロボット100Aとロボット100Bとが所定の時間だけずれたタイミングで音声を出力するように、ロボット100Aとロボット100Bのそれぞれの出力開始タイミング(第1出力開始タイミング及び第2出力開始タイミング)を決定するようにしてもよい。例えば、一方のロボットの音声出力が終わるときに他方のロボットが音声を出力するように、それぞれのロボットの音声の出力開始タイミングを決定してよい。
【0167】
また、標準音声決定部1362Aは、具体的には、例えば、ロボット100AとロボットBとで同じ音高の音声を出力するように、ロボット100Aの一部の音声パラメータとしての音高(第2音高)とロボット100Bの一部の音声パラメータとしての音高(第1音高)とをそれぞれ決定することができる。あるいは、標準音声決定部1362Aは、ロボット100Aとロボット100Bとが異なる音高の音声を出力するように、第1音高及び第2音高を決定してもよい。この場合に、第1音高と第2音高とが、所定の関係を有していてもよい。
【0168】
例えば、第2音高(周波数)と第1音高(周波数)との比が所定の範囲に含まれるように音声パラメータを決定してもよい。例えば、音程(音高の比)が協和音程となる関係を有していてもよい。同じタイミングで協和音程の2つの音声を出力することで、ハーモニーを作り出すことができる。なお、協和音程は、不完全協和音程、完全協和音程又は絶対協和音程であってよい。また、ロボット100A、ロボット100Bの未熟さを表現したい場合には、不協和音程にしてもよい。
【0169】
例えば、第2音高(周波数)が第1音高(周波数)より所定の音程(例えば3度)又は所定の周波数以上高く又は低くなるように、音声パラメータを決定してもよい。
【0170】
また、音声パラメータでは音高を指定せず、ロボット100A及びロボット100Bがそれぞれ音高を決定して音声を生成してもよい。この場合、例えば以下のような処理を行ってもよい。例えば、音声パラメータにより、同一のテンポを指定したとする。音声の出力前に、ロボット100Aが指定されたテンポに合致するように音声を生成する。ロボット100Aは、通信を介して音声を出力しようとする音高の時系列変化をロボット100Bに送信する。ロボット100Bは、ロボット100Aが生成した音声の音高に対して同一のタイミングで出力する音高の比(音程)が所定の範囲に含まれるように、かつ、指定されたテンポに合致するように、自己が出力する音声を生成してもよい。この場合、ロボット100Bは、ロボット100Aが生成した音声の音高の時系列変化に基づいて、同一のタイミングで出力される音高の比が所定の範囲に含まれるように、当該タイミングで出力する音高のリストを生成し、当該リストから当該タイミングで出力する音高を選択するようにしてもよい。
【0171】
また、ロボット100Aとロボット100Bとが、それぞれ独立して音声パラメータに合致するように音声を生成し、音声の出力前に通信を介して生成した音声を共有し、音声の時系列変化について、それぞれのタイミングにおいて、音声の音高の比が所定の範囲に含まれるかどうかを判定し、所定の範囲に含まれない場合には、音高の比が所定の範囲に含まれるように一方の音高を所定の音程(例えば1オクターブ)又は所定の周波数だけ高く又は低くなるように補正してもよい。音高の比が所定の範囲に含まれるという条件を、周波数の差が所定の範囲に含まれるかという条件として、同様の処理を行ってもよい。所定の範囲は、例えば、下限値と上限値との両方で特定される範囲であってもよいし、下限値又は上限値のみで特定される範囲であってもよいし、連続的な範囲であってもよいし、断続的な範囲であってもよい。
【0172】
また、ロボット100Aの標準音声決定部1362Aで決定される一部の音声パラメータが音節数であるときは、ロボット100Aの音節数とロボット100Bの音節数とを同じとしてよい。また、一部の音声パラメータが音節数であるときは、音声の内容は、当該音節数に従ってランダムに決定されてよい。
【0173】
標準音声決定部1362Aは、少なくともロボット100Aで発声する音声の内容を決定する。標準音声決定部1362Aは、ロボット100Bで発声する音声の内容についても、一部の音声パラメータとして決定してもよい。このとき、ロボット100Aの音声の内容とロボット100Bの音声の内容とを同じとしてもよい。このとき、ロボット100Aは、音声の内容をランダムに決定してもよい。また、ロボット100Bが音声の内容を決定する場合にも、ロボット100Bはランダムに音声の内容を決定してよい。
【0174】
また、ロボット100Aとロボット100Bとが互いにずれたタイミングで音声を出力するとともに、その音声の内容を特定の内容とすることで、ロボット100Aとロボット100Bとがタイミングを計って所定の作業を行ってもよい。例えば、ロボット100Aが「ジャンケン」という音声を出力し、その音声の出力が終了したタイミングで、ロボット100Bが「ポン」という音声を出力するように、音声条件を決定することで、ロボット100Aとロボット100Bとがジャンケンの掛け声を完成させてよい。
【0175】
標準音声決定部1362Aにてロボット100Bの音声の内容が決定されない場合には、ロボット100Bの標準音声決定部1362Bは自ら音声の内容を決定する。このとき、一部の音声パラメータとして音節数が含まれている場合には、標準音声決定部1362Bは、当該音節数に合致した音声の内容を過去に収集した音声(例えば、ユーザの音声)に従って音声の内容を決定してよい。すなわち、音声の内容は、ユーザがよく使う音声の内容、又はその一部を再現するように、マイクで収音された音声から学習したものであってもよい。また、ユーザの音声が所定の条件を充足する場合(音高が一定の範囲に含まれているなど、歌を歌っている蓋然性が高いような場合)に収集された音声の内容、またはその一部を再現するように、標準音声決定部1362A又は標準音声決定部1362Bにおいて音声の内容が決定されてもよい。
【0176】
音声の内容の再現のみならず、収集されたユーザの音声の音高や音程に基づいて個性形成部135が当該音高や音程を再現するように個性を形成し、当該個性に従って音声の生成又は補正を行ってもよい。
【0177】
なお、上記の説明では、ロボット100Aで音声条件を決定して、ロボット100Bは、ロボット100Aで決定された音声条件に従って音声を生成して出力したが、ロボット100Bで音声条件を決定することも可能であり、この場合には、ロボット100Aはロボット100Bで決定された音声条件に従って音声を生成して出力する。
【0178】
なお、上記の例では、複数のロボットがある場合に、そのうちの1つのロボットが音声条件を決定して、他のロボットに伝達したが、これに代えて、複数のロボットが通信可能な制御装置において、各ロボットの音声条件を決定して、各ロボットに送信してもよい。この場合に、制御装置は、複数のロボットについて、共通の音声条件を決定して送信してもよいし、各ロボットについてそれぞれ異なる音声条件を決定して、個別に音声条件を送信してもよい。
【0179】
<ユーザによる個性の設定>
上述のように、個性形成部135は、指示受付部132からの指示に基づいて音声についての個性を形成(設定)してもよいものであり、以下では、ユーザの指示に基づいて個性パラメータを設定する例を説明する。この場合には、指示受付部132に対して指示をする装置として、制御アプリケーションをインストールした情報端末(例えば、スマートフォン、パーソナルコンピュータ)が用いられてよい。この情報端末は、制御アプリケーションをユーザインターフェースとして指示を受け付けて、受け付けた指示を必要に応じてネットワークないし中継サーバを経由してロボット100に伝達する。ロボット100の指示受付部132は、このようにして送信されてきた指示を受け付けることができる。
【0180】
図11、
図12A~
図12C、及び
図13は、本実施形態の端末装置204に表示される音声の設定に関する制御アプリケーションの画面(以下、「アプリ画面」という。)の一例である。なお、
図11、
図12A~
図12C、及び
図13に示されるアプリ画像の構成およびアプリ画面を用いた音声の設定方法は一例であり、これに限定されない。
【0181】
図11は、ロボットの制御アプリケーションにおけるロボットの状態を示す画面の例を示す図である。この制御アプリケーションは、タグを選択することでロボットAとロボットBの状態を示すことができる。タグで選択されたロボット100の各種の状態は、アイコンで示される。アプリ画面280で示されるロボット100の状態には、ロボットの声が含まれる。アイコン291は、ロボット100の声の状態を示しており、
図11の例では、ロボット100の声として「やさしい声」が選択されていることが示されている。アイコン291をユーザが押すことで音声の設定を行うことができる。
【0182】
図12Aは、音声の設定を行う場合のアプリ画面の例である。「声を選ぶ」と表記されているボタン281をユーザが押すと、ランダムで複数種類(本実施形態では4種類)の個性的な音声を生成するための個性パラメータが自動生成される。生成される個性パラメータは、全て他のロボット100で設定中の個性パラメータとは重複しない個性パラメータである。ユーザによってボタン281が押され、複数種類(本実施形態では4種類)の音声が生成されると、アプリ画面280Aは
図10Bに示されるアプリ画面280Bへ変化する。なお、個性パラメータについては、後述する。
【0183】
また、アプリ画面280Aに表示されている「今の声」と表記されているボタン282をユーザが押すと、ユーザはロボット100に現在設定中の個性パラメータに基づいて生成された音声を確認することができる。この確認用の音声は、ユーザが知覚可能な出力装置であるロボット100のスピーカ112から出力される。
【0184】
図12Bに示されるアプリ画面280Bには、生成された複数の個性パラメータのうちの1つをユーザが選択可能な音声選択ボタン283Aから283Dが表示される。ユーザによって音声選択ボタン283Aから283Dのいずれかが押されて選択されると、これに対応する音声が出力される。これにより、ユーザは、自身が好む音声を確認できる。音声選択ボタン283Aから283Dのいずれかが選択された状態で、「決定」と表記されたボタン284をユーザが押すと、ユーザの選択した個性パラメータがロボットに設定される。
【0185】
なお、アプリ画面280Bには、個性パラメータを再生成するためのボタン(以下「再生成ボタン」という。)が表示されてもよい。ユーザが再生成ボタンを押す場合とは、ユーザが好む音声を生成する個性パラメータが生成されなかった場合である。ユーザによって再生成ボタンが押されると、個性パラメータの生成が新たに行われ、生成された新たな個性パラメータが音声選択ボタン283Aから283Dに対応付けられる。
【0186】
音声選択ボタン283Aから283Dには、それぞれの個性パラメータである音の要素を反映した動きをする複数の縦棒オブジェクトが並列している。これらの縦棒オブジェクトは、動的に長さを連続的に変化させる。縦棒オブジェクトの長さの変化は、隣の縦棒オブジェクトの長さの変化との連続性(時間差での同様の変化など)有しており、これにより、複数の並列する縦棒オブジェクトによって音(波形)らしさが表現される。
【0187】
各縦棒オブジェクトの波が通り過ぎる速さ、即ち、1つの変化が隣の縦棒オブジェクトに反映されるまでの時間は音声のスピードを表している。また、縦棒オブジェクトのベースの長さ、即ち、変化していないときの縦棒オブジェクトの長さは、音声のピッチを表している。また、縦棒オブジェクトの波のばらつき、即ち、縦棒オブジェクトの変化量は、音声のピッチ幅を表している。また、縦棒オブジェクトの色は、音声のブライトネスを表している。また、縦棒オブジェクトの減衰・バウンスは、音声のリップリフレクションを表している。すなわち、縦棒オブジェクトの変化量の減衰量は、減衰が大きいと、表示的には、ある波が発生した後、その波が収まるまでの時間が短くなり、減衰が小さいと、表示的には、ある波が発生した後、その波が収まるまでの時間が長くなる。また、縦棒オブジェクトの線の太さは、音声のトラクトレングスを表している。
【0188】
図12Cは、アプリ画面280Aの履歴ボタン285が押された場合に表示されるアプリ画面280Cである。アプリ画面280Cには、ユーザが過去に設定した複数の個性パラメータを選択するための音声選択ボタン286が一覧表示される。すなわち、制御アプリケーションをインストールした情報端末には、ユーザが過去に設定した個性パラメータの履歴が記憶されている。なお、一例として、選択可能な過去の個性パラメータは、最大数が予め決定されている。また、このような個性パラメータの履歴はクラウドに保存されていてもよい。
【0189】
音声選択ボタン286には、個性パラメータがロボット100に設定された日付が表記される。これにより、ユーザは、音声選択ボタン286に対応する音声の違いを認識できる。また、ユーザが情報端末の画面に対してスクロール操作を行うことで、それまで表示されていなかった過去に設定した個性パラメータに対応する音声選択ボタン286が表示される。そして、「決定」と表記されたボタン287をユーザが押すと、ユーザが選択した音声選択ボタン286に対応する個性パラメータがロボット100に設定される。
【0190】
なお、アプリ画面280Cを介してユーザが選択した個性パラメータは、当該ロボット100が含まれるロボット群の他のロボットに設定中でない音声特徴データであるか否かが判定される。すなわち、記憶されている個性パラメータであっても他のロボットによって設定中の個性パラメータは、当該ロボット100に設定できない。
【0191】
図12Dは、ロボットから出力される音声をユーザがカスタマイズする場合に情報端末に表示されるアプリ画面280Dである。アプリ画面280Dには、音声を生成するための個性パラメータ(複数のパラメータの値の組み合わせ)をユーザが選択可能なように表示されている。一例として、ユーザは、各パラメータに対応するスライドバー288Aから288Fを左右に動かすことで、パラメータの値を選択する。すなわち、ユーザは、ロボット100に設定する音声を自動生成するのではなく、自身の好みに応じて手動で生成する。
【0192】
図12Dの例では、ユーザが選択可能なパラメータとして、スピード、ピッチ、ピッチの幅、ブライトネス、唇の振動、声帯の長さが設定されている。これら複数のパラメータは、一つのパラメータセットとして扱われ、他のロボットに設定中でない音声のパラメータセットが当該ロボット100の音声として設定可能となる。なお、このパラメータセットは、上述したアプリ画面280Aのボタン281をユーザが押すことで生成される個性パラメータのパラメータと同じである。
【0193】
スピードは、音の単位あたりの発話スピードである。音の単位とは、言語では、音節である。この値が大きいほど発話スピードが速くなる。ピッチは、平均的な音高の高さである。この値が大きいほど音高が高くなる。ピッチの幅は、発音できる音高の幅である。この値が大きいほど音高の幅が大きくなる。ブライトネスは、声(音)の明るさを示すパラメータである。発音される音の周波数成分の一部(例えば、倍音成分)を変更することで、音の明るさが変更されうる。この値が大きいほど声(音)が明るいという印象がもたれやすくなる。唇の振動は、人の発声構造(口)を模した発音構造における唇の振動具合である。この値が大きいほど人の発声構造内における音の反射率が大きくなる。声帯の長さは、人の発声構造(口)を模した発音構造における声帯の長さを示すパラメータである。この値が大きいほど音の低い周波数成分が多くなり、大人っぽい声になる。
【0194】
また、「ロボットで聴いてみる」と表記されたボタン289をユーザが押すと、選択された個性パラメータ(パラメータセット)で生成された音声がロボット100が備えるスピーカ112から出力される。そして、決定ボタン290の押圧操作が検知されると、選択されたパラメータセットが該当するロボット100に設定される。なお、手動により生成される個性パラメータも、他のロボット100で設定中の個性パラメータとは重複しない音声とされる。具体的には、情報端末は、音声の設定を管理するサーバに対して、ユーザによって選択された個性パラメータ(パラメータセット)を送信し、サーバは、当該個性パラメータが他のロボット100に設定されている個性パラメータと重複するか否かを判定し、判定結果を上方端末に送信する。そして、他のロボット100と重複する個性パラメータ(パラメータセット)が選択された状態では、情報端末は、決定ボタン290を無効化するとともに、他のロボットで使用中である旨の表示がタッチパネルディスプレイ210に出力される。この場合、ユーザが選択した個性パラメータに類似する個性パラメータをサーバ又は情報端末が生成し、生成された個性パラメータを再生させるためのボタンがタッチパネルディスプレイに表示されてもよい。
【0195】
また、アプリ画面280Dを用いた音声のカスタマイズは、所定の条件を満たしたユーザが可能とされてもよい。所定の条件とは、例えば、ロボット100の使用期間が予め定められた所定期間を超えたユーザや、所定のポイントを獲得したユーザ、所定の金額を課金したユーザである。
【産業上の利用可能性】
【0196】
少なくとも1つの実施形態は、ロボットから個性的な音声が出力されるので、ユーザは、当該ロボットが生物であるような感覚を覚えやすいという効果を有し、音声を出力するロボットとして有用である。
【符号の説明】
【0197】
100 ロボット
102 車輪
104 ボディ
105 手
106 目
108 着座面
109 ツノ
110 表示装置
111 内部センサ
1111 タッチセンサ
1112 加速度センサ
1113 カメラ
1114 マイクロフォン
112 スピーカ
113 通信部
114 記憶装置
115 プロセッサ
116 駆動部
117 バッテリ
118 ワイヤ
120 電源線
122 信号線
131 測位装置
132 指示受付部
133 成長管理部
134 状況解釈部
135 個性形成部
136 音声生成部
1361 音声内容データベース
1362 標準音声決定部
1363 音声合成部
1364 音声調整部