特許7495125 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＧＲＯＯＶＥ　Ｘ株式会社の特許一覧

特許7495125ロボット、音声合成プログラム、及び音声出力方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6
7
8A
8B
8C
8D
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-27

(45)【発行日】2024-06-04

(54)【発明の名称】ロボット、音声合成プログラム、及び音声出力方法

(51)【国際特許分類】

G10L 13/08 20130101AFI20240528BHJP

G10L 13/00 20060101ALI20240528BHJP

G10L 15/00 20130101ALI20240528BHJP

G10L 15/10 20060101ALI20240528BHJP

H04N 23/61 20230101ALI20240528BHJP

【ＦＩ】

G10L13/08 124

G10L13/00 100A

G10L13/00 100M

G10L15/00 200H

G10L15/10 500N

H04N23/61

【請求項の数】 21

(21)【出願番号】P 2020559150

(86)(22)【出願日】2019-11-29

(86)【国際出願番号】 JP2019046895

(87)【国際公開番号】W WO2020116356

(87)【国際公開日】2020-06-11

【審査請求日】2022-11-18

(31)【優先権主張番号】P 2018226489

(32)【優先日】2018-12-03

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】515337268

【氏名又は名称】ＧＲＯＯＶＥＸ株式会社

(72)【発明者】

【氏名】林要

(72)【発明者】

【氏名】ジョンベルモンテ

(72)【発明者】

【氏名】小瀬敦也

(72)【発明者】

【氏名】松浦雅也

【審査官】大野弘

(56)【参考文献】

【文献】特開２０１０－１９０９９５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／０８

Ｇ１０Ｌ１３／００

Ｇ１０Ｌ１５／１０

Ｇ１０Ｌ１５／００

Ｈ０４Ｎ２３／６０

Ｈ０４Ｎ２３／６１

(57)【特許請求の範囲】

【請求項1】

複数の音韻からなる第１の音韻情報を取得する音韻取得部と、
前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報
とは異なる第２の音韻情報を生成する音韻生成部と、
前記第２の音韻情報に従って音声を合成する音声合成部と、
前記音声を出力する音声出力部とを備え、
前記音韻生成部は、前記第１の音韻情報が有する言語情報より情報量が少ない言語情報
を有する前記第２の音韻情報を生成する、ロボット。

【請求項2】

複数の音韻からなる第１の音韻情報を取得する音韻取得部と、
前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報
とは異なる第２の音韻情報を生成する音韻生成部と、
前記第２の音韻情報に従って音声を合成する音声合成部と、
前記音声を出力する音声出力部とを備え、
前記音韻生成部は、前記第１の音韻情報の前記少なくとも一部の音韻に対応する感情パ
ラメータを特定して、特定した前記感情パラメータに基づいて前記第２の音韻情報を生成
する、ロボット。

【請求項3】

複数の音韻からなる第１の音韻情報を取得する音韻取得部と、
前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報
とは異なる第２の音韻情報を生成する音韻生成部と、
前記第２の音韻情報に従って音声を合成する音声合成部と、
前記音声を出力する音声出力部とを備え、
前記音韻生成部は、前記第１の音韻情報の音節の数に関わらず、所定数以下の音節から
なる前記第２の音韻情報を生成する、ロボット。

【請求項4】

外部環境をセンシングして入力信号を生成するセンシング部をさらに備え、
前記音韻取得部は、前記入力信号に基づいて前記第１の音韻情報を取得する、請求項１～３のいずれか１項に記載のロボット。

【請求項5】

前記センシング部は、音をセンシングして前記入力信号として音声信号を生成するマイ
クロフォンであり、
前記音韻取得部は、前記音声信号に基づいて前記言語情報を決定し、前記言語情報を含
む前記第１の音韻情報を取得する、請求項４に記載のロボット。

【請求項6】

前記音韻取得部は、前記音声信号に対して音声認識を行い、認識された音声を前記言語
情報として有する前記第１の音韻情報を取得する、請求項５に記載のロボット。

【請求項7】

前記音韻取得部は、前記音声信号に対して音声認識を行い、認識された音声に対する返
答を前記言語情報として有する前記第１の音韻情報を取得する、請求項５に記載のロボッ
ト。

【請求項8】

前記センシング部は、入射光をセンシングして前記入力信号として画像信号を生成する
カメラであり、
前記音韻取得部は、前記画像信号に基づいて前記言語情報を決定し、前記言語情報を有
する第１の音韻情報を取得する、請求項４に記載のロボット。

【請求項9】

前記音韻取得部は、前記画像信号に対して文字認識を行い、認識された文字を前記言語
情報として有する前記第１の音韻情報を取得する、請求項８に記載のロボット。

【請求項10】

前記音韻取得部は、前記画像信号に対して物体認識を行い、認識された物体を表す言語
情報を有する前記第１の音韻情報を取得する、請求項８に記載のロボット。

【請求項11】

前記音韻生成部は、前記感情パラメータに近い感情パラメータを有する前記第２の音韻
情報を生成する、請求項２に記載のロボット。

【請求項12】

音韻と感情パラメータとの関係を規定したテーブルをさらに備え、
前記音韻生成部は、前記テーブルを参照して、前記第１の音韻情報の前記少なくとも一
部の音韻に対応する感情パラメータを特定する、請求項２又は１１に記載のロボット。

【請求項13】

音韻と感情パラメータとの関係を規定したテーブルをさらに備え、
前記音韻生成部は、前記テーブルを参照して、前記第２の音韻情報を生成する、請求項
２又は１１に記載のロボット。

【請求項14】

音をセンシングして音声信号を生成するマイクロフォンを備え、
前記音韻取得部は、前記音声信号に対して音声認識をすることで第１の音韻情報を取得
する、請求項２又は１１～１３のいずれかに記載のロボット。

【請求項15】

前記音韻生成部は、前記所定数以下の音節からなる前記第２の音韻情報として、２つの
音節からなる前記第２の音韻情報を生成する、請求項３に記載のロボット。

【請求項16】

ロボットのコンピュータを、
複数の音韻からなる第１の音韻情報を取得する音韻取得部、
前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報
とは異なる第２の音韻情報を生成する音韻生成部、及び
前記第２の音韻情報に従って音声を合成する音声合成部、
として機能させ、
前記音韻生成部は、前記第１の音韻情報が有する言語情報より情報量が少ない言語情報
を有する前記第２の音韻情報を生成する、音声合成プログラム。

【請求項17】

ロボットのコンピュータを、
複数の音韻からなる第１の音韻情報を取得する音韻取得部、
前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報
とは異なる第２の音韻情報を生成する音韻生成部、及び
前記第２の音韻情報に従って音声を合成する音声合成部、
として機能させ、
前記音韻生成部は、前記第１の音韻情報の前記少なくとも一部の音韻に対応する感情パ
ラメータを特定して、特定した前記感情パラメータに基づいて前記第２の音韻情報を生成
する、音声合成プログラム。

【請求項18】

ロボットのコンピュータを、
複数の音韻からなる第１の音韻情報を取得する音韻取得部、
前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報
とは異なる第２の音韻情報を生成する音韻生成部、及び
前記第２の音韻情報に従って音声を合成する音声合成部、
として機能させ、
前記音韻生成部は、前記第１の音韻情報の音節の数に関わらず、所定数以下の音節から
なる前記第２の音韻情報を生成する、音声合成プログラム。

【請求項19】

ロボットにおける音声出力方法であって、
複数の音韻からなる第１の音韻情報を取得する音韻取得ステップと、
前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報
とは異なる第２の音韻情報を生成する音韻生成ステップと、
前記第２の音韻情報に従って音声を合成する音声合成ステップと、
前記音声を出力する音声出力ステップと、を含み、
前記音韻生成ステップは、前記第１の音韻情報が有する言語情報より情報量が少ない言語情報
を有する前記第２の音韻情報を生成するステップである、
音声出力方法。

【請求項20】

ロボットにおける音声出力方法であって、
複数の音韻からなる第１の音韻情報を取得する音韻取得ステップと、
前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報
とは異なる第２の音韻情報を生成する音韻生成ステップと、
前記第２の音韻情報に従って音声を合成する音声合成ステップと、
前記音声を出力する音声出力ステップと、を含み、
前記音韻生成ステップは、前記第１の音韻情報の前記少なくとも一部の音韻に対応する感情パ
ラメータを特定して、特定した前記感情パラメータに基づいて前記第２の音韻情報を生成
するステップである、
音声出力方法。

【請求項21】

ロボットにおける音声出力方法であって、
複数の音韻からなる第１の音韻情報を取得する音韻取得ステップと、
前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報
とは異なる第２の音韻情報を生成する音韻生成ステップと、
前記第２の音韻情報に従って音声を合成する音声合成ステップと、
前記音声を出力する音声出力ステップと、を含み、
前記音韻生成ステップは、前記第１の音韻情報の音節の数に関わらず、所定数以下の音節から
なる前記第２の音韻情報を生成するステップである、
音声出力方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声を出力するロボット、音声合成プログラム、及び音声出力方法に関する。

【背景技術】

【0002】

ロボットが、ユーザからの働きかけ（例えば、話しかけ、接触等）、あるいは、内部パラメータ（例えば、感情パラメータ等）に応じて音声を出力すると、ユーザは、ロボットが意思を持っているという感覚を得ることができ、ロボットに対して愛着を持つことができる。

【0003】

音声には言語情報のほかにパラ言語情報が含まれる。言語情報とは、概念を表す音韻の情報であり、パラ言語情報とは、声色、韻律（音声のピッチ、イントネーション、リズム、ポーズ等）等の非言語情報である。アニマルセラピー等のように非言語コミュニケーションを行うことで、ユーザが癒し効果を得られることが知られているが、音声によるコミュニケーションにも、言語情報による言語コミュニケーションだけでなくパラ言語情報による非言語コミュニケーションが含まれており、ロボットの音声出力において、この非言語コミュニケーションを有効に活用することにより、ユーザに対して癒しを与えることができる（例えば、特許文献１参照）。

【0004】

一方で、ロボットが音声における言語情報によって何らかの概念（感情、意思、意味等）を表現することで、ロボットとユーザとの言語コミュニケーションが充実し、ユーザはロボットに対して愛着を持つようになる。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１８－１２８６９０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、ロボットが、音声を出力することによるユーザとの音声コミュニケーションにおいて、あまりに明確な言語情報を含む言語コミュニケーションを行うと、ユーザは、ロボットの音声が説得的、説明的に感じられて、非言語コミュニケーションによる癒しの効果が低下してしまう。

【0007】

また、ロボットどうしの音声コミュニケーションにおいては、言語コミュニケーションは必ずしも必要でなく、言語コミュニケーションによらない会話を行うことで、それを見ているユーザに癒しを与えることができる。

【0008】

そこで、本発明は、ロボットが音声を出力することによる他者との音声コミュニケーションにおいて、ロボットに対するユーザの愛着形成を促すことを目的とする。

【課題を解決するための手段】

【0009】

本発明の一態様のロボットは、複数の音韻からなる第１の音韻情報を取得する音韻取得部と、前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報とは異なる第２の音韻情報を生成する音韻生成部と、前記第２の音韻情報に従って音声を合成する音声合成部と、前記音声を出力する音声出力部とを備える。

【0010】

また、本発明の一態様の音声合成プログラムは、ロボットのコンピュータを、複数の音韻からなる第１の音韻情報を取得する音韻取得部、前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報とは異なる第２の音韻情報を生成する音韻生成部、及び前記第２の音韻情報に従って音声を合成する音声合成部として機能させる。

【0011】

また、本発明の一態様の音声出力方法は、ロボットにおける音声出力方法であって、複数の音韻からなる第１の音韻情報を取得する音韻取得ステップと、前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報とは異なる第２の音韻情報を生成する音韻生成ステップと、前記第２の音韻情報に従って音声を合成する音声合成ステップと、前記音声を出力する音声出力ステップとを含む。

【発明の効果】

【0012】

本発明によれば、音韻生成部が、取得した第１の音韻情報に含まれる少なくとも一部の音韻に基づいて第２の音韻情報を生成する。音声合成部がそのような第２の音韻情報に従って音声を合成する。これにより、ロボットが音声を出力することによる他者との音声コミュニケーションにおいて、ロボットに対するユーザの愛着形成を促すことができる。

【図面の簡単な説明】

【0013】

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

【0014】

【図1A】図１Ａは、本発明の実施の形態のロボットの正面外観図である。

【図1B】図１Ｂは、本発明の実施の形態のロボットの側面外観図である。

【図2】図２は、本発明の実施の形態のロボットの構造を概略的に示す断面図である。

【図3】図３は、本発明の実施の形態のロボットのハードウェア構成を示す図である。

【図4】図４は、本発明の実施の形態のロボットにおける音声を出力するための構成を示すブロック図である。

【図5】図５は、本発明の実施の形態の文字列入力部、センシング部、及び取得部の構成を詳細に示すブロック図である。

【図6】図６は、本発明の実施の形態の音韻と感情パラメータとの関係を規定した音韻－感情テーブルの例である。

【図7】図７は、本発明の実施の形態の生成部、音声合成部、及び出力部の構成を詳細に示すブロック図である。

【図8A】図８Ａは、本発明の実施の形態の音声合成部が用いる韻律曲線の例を示す図である。

【図8B】図８Ｂは、本発明の実施の形態の音声合成部が用いる韻律曲線の例を示す図である。

【図8C】図８Ｃは、本発明の実施の形態の音声合成部が用いる韻律曲線の例を示す図である。

【図8D】図８Ｄは、本発明の実施の形態の音声合成部が用いる韻律曲線の例を示す図である。

【図9】図９は、本発明の実施の形態の音声合成部によって連結された２つの韻律曲線の例を示す図である。

【発明を実施するための形態】

【0015】

以下、本発明の実施の形態を説明する。なお、以下に説明する実施の形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。

【0016】

本発明の実施の形態のロボットは、複数の音韻からなる第１の音韻情報を取得する取得部と、前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報とは異なる第２の音韻情報を生成する生成部と、前記第２の音韻情報に従って音声を合成する音声合成部と、前記音声を出力する出力部とを備える。

【0017】

この構成により、まず、ロボットは、あらかじめ用意されている音源を再生することで音声を出力するのではなく、音韻情報に従って音声を合成して音声を出力する。そして、ロボットは、取得した第１の音韻情報の少なくとも一部の音韻に基づきつつも、第１の音韻情報とは異なる第２の音韻情報を生成し、音声合成部はそのようにして生成された第２の音韻情報に従って音声を合成する。これにより、例えば、音声センシングによって取得した第１の音韻情報を真似して音声を出力する場合にも、一部の音韻について変更を加えた第２の音韻情報を生成することができる。それによって、不完全なミミック（音声の模倣）が実現でき、ロボットの愛らしさが増し、ロボットに対するユーザの愛着形成を促すことができる。また、ロボットどうしで会話をする場合には、他のロボットの音声から第１の音韻情報を取得して、それとは異なる第２の音韻情報に従って音声を合成して出力する。これにより、これを会話をする双方のロボットが実行することで、会話を継続させることができる。ひいては、ロボットに対するユーザの愛着形成を促すことができる。

【0018】

前記音韻生成部は、前記第１の音韻情報が有する言語情報より情報量が少ない言語情報を有する前記第２の音韻情報を生成してよい。

【0019】

この構成により、取得した第１の音韻情報が有する言語情報の情報量を減らして第２の音韻情報を生成するので、言語能力が未熟な、例えば乳幼児程度の音声コミュニケーションを実現できる。第１の音韻情報が有する言語情報の情報量を少なくする手法は、例えば、第１の音韻情報の音韻に対する文字ないし音素の一部削除、一部変更、一部追加であってよい。

【0020】

前記ロボットは、外部環境をセンシングして入力信号を生成するセンシング部をさらに備えてよく、前記音韻取得部は、前記入力信号に基づいて前記第１の音韻情報を取得してよい。

【0021】

前記センシング部は、音をセンシングして前記入力信号として音声信号を生成するマイクロフォンであってよく、前記音韻取得部は、前記音声信号に基づいて前記言語情報を決定し、前記言語情報を含む前記第１の音韻情報を取得してよい。

【0022】

前記音韻取得部は、前記音声信号に対して音声認識を行い、認識された音声を前記言語情報として有する前記第１の音韻情報を取得してよい。

【0023】

この構成により、ロボットは、聞いた音声を不完全に真似て繰り返すという不完全なミミックを実現できる。例えば、ユーザがロボットに「みかん」と話しかけたのに対して、ロボットが「みかん」という言語情報を含む第１の音韻情報を取得する。ロボットは、「みかん」の一部子音を入れ替えた「にかん」という言語情報を含む第２の音韻情報を生成して音声として出力する。これにより、ユーザはロボットが「みかん」とオウム返しをしようとしていると理解しつつ、その不完全なミミックに愛らしさを感じることができる。

【0024】

前記音韻取得部は、前記音声信号に対して音声認識を行い、認識された音声に対する返答を前記言語情報として有する前記第１の音韻情報を取得してよい。

【0025】

この構成により、ロボットは、聞いた音声に対して不完全な言語表現で答えるという会話を実現でき、ユーザはロボットの表現している返答を理解することができるとともに、ロボットの愛らしさが増す。例えば、ユーザがロボットに「何しようか？」と尋ねたのに対して、ロボットが返答として「だっこ」という言語情報を含む第１の音韻情報を得た場合において、「だっこ」の促音を削除した「だこ」という第２の音韻情報を生成して音声として出力する。これにより、ユーザは「だっこ」を要求していると理解しつつ、その不完全な言語表現に愛らしさを感じることができる。

【0026】

前記センシング部は、入射光をセンシングして前記入力信号として画像信号を生成するカメラであってよく、前記音韻取得部は、前記画像信号に基づいて前記言語情報を決定し、前記言語情報を有する第１の音韻情報を取得してよい。

【0027】

前記音韻取得部は、前記画像信号に対して文字認識を行い、認識された文字を前記言語情報として含む前記第１の音韻情報を取得してよい。

【0028】

この構成により、ロボットは、見て認識した文字をそのまま発声するのではなく、不完全な言語表現で発声する。ユーザはロボットが見た文字を読もうとしていることを理解することができるとともに、ロボットの愛らしさが増す。例えば、ロボットが画像信号から文字を認識することで「とけい」という言語情報を有する第１の音韻情報を取得した場合において、「とけい」の一部文字を削除した「とけ」という第２の音韻情報を生成して音声として出力する。これにより、ユーザは、ロボットが「とけい」という文字を読もうとしているということを理解しつつ、その不完全な言語表現に愛らしさを感じることができる。

【0029】

前記音韻取得部は、前記画像信号に対して物体認識を行い、認識された物体を表す言語情報を有する前記第１の音韻情報を取得してよい。

【0030】

この構成により、ロボットは、認識した物体をそのまま表現するのではなく、不完全な言語情報で表現するので、ユーザはロボットが認識した物体を表現しようとしていることを理解することができるとともに、ロボットの愛らしさが増す。例えば、ロボットが画像信号に対して物体認識を行うことで時計を認識して「とけい」という言語情報を含む第１の音韻情報を取得した場合において、「とけい」の一部文字を削除した「とけ」という言語情報を有する第２の音韻情報を生成して音声として出力する。これにより、ユーザは、ロボットが「とけい」を認識したということを理解しつつ、その不完全な言語表現に愛らしさを感じることができる。

【0031】

前記音韻生成部は、前記第１の音韻情報の前記少なくとも一部の音韻に対応する感情パラメータを特定して、特定した前記感情パラメータに基づいて前記第２の音韻情報を生成してよい。

【0032】

この構成により、ロボットは、取得した第１の音韻情報の言語情報ではなく、その音韻に対応する感情パラメータに基づいて第２の音韻情報を生成するので、非言語コミュニケーションを実現できる。この非言語コミュニケーションにおいて、第１の音韻情報及び第２の音韻情報は、言語情報の情報量が乏しい、例えば、オノマトペのような意味のない音韻列（例えば、「うーうー」等）であってもよい。

【0033】

前記音韻生成部は、前記感情パラメータに近い感情パラメータを有する前記第２の音韻情報を生成してよい。

【0034】

前記ロボットは、音韻と感情パラメータとの関係を規定したテーブルをさらに備えてよく、前記音韻生成部は、前記テーブルを参照して、前記第１の音韻情報の前記少なくとも一部の音韻に対応する感情パラメータを特定してよい。

【0035】

前記ロボットは、音韻と感情パラメータとの関係を規定したテーブルをさらに備えてよく、前記音韻生成部は、前記テーブルを参照して、前記第２の音韻情報を生成してよい。

【0036】

前記ロボットは、音をセンシングして音声信号を生成するマイクロフォンをさらに備えてよく、前記音韻取得部は、前記音声信号に対して音声認識をすることで第１の音韻情報を取得してよい。

【0037】

前記音韻生成部は、前記第１の音韻情報の音節の数に関わらず、所定数以下の音節（例えば、２つの音節）からなる前記第２の音韻情報を生成してよい。

【0038】

また、本発明の一態様の音声合成プログラムは、ロボットのコンピュータで実行されることで、当該ロボットのコンピュータを、複数の音韻からなる第１の音韻情報を取得する音韻取得部、前記第１の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第１の音韻情報とは異なる第２の音韻情報を生成する音韻生成部、及び前記第２の音韻情報に従って音声を合成する音声合成部として機能させる。

【0039】

【0040】

以下、実施の形態のロボットについて、図面を参照して説明する。

【0041】

図１Ａは、ロボットの正面外観図であり、図１Ｂは、ロボットの側面外観図である。本実施の形態におけるロボット１００は、外部環境及び内部状態に基づいて行動、仕草（ジェスチャ）、音声を決定する自律行動型のロボットである。外部環境は、カメラ、マイクロフォン、加速度センサ、タッチセンサ等を含むセンサ群によって検知される。内部状態は、ロボット１００の感情を表現する様々なパラメータとして定量化される。

【0042】

感情を表現するパラメータとして、ロボット１００は、例えば、ユーザごとに親密度パラメータを有する。ロボット１００が、自分を抱き上げる、声をかけてくれるなど、自分に対して好意を示す行動をしたとき、センサ群によって当該行動を検知して、そのユーザに対する親密度を高くする。一方、ロボット１００は、ロボット１００に関わらないユーザや、乱暴を働くユーザ、出会う頻度が低いユーザ等に対しては、親密度を低くする。

【0043】

ロボット１００のボディ１０４は、全体的に丸みを帯びた形状を有し、ウレタン、ゴム、樹脂、繊維などの柔らかく弾力性のある素材によって形成された外皮を含む。ロボット１００の重量は、１５ｋｇ以下、好ましくは１０ｋｇ以下、更に好ましくは５ｋｇ以下である。また、ロボット１００の身長は、１．２ｍ以下、好ましくは０．７ｍ以下である。特に、重量を５ｋｇ以下程度とし、身長を０．７ｍ以下程度として小型軽量化することで、子供やお年寄りを含むユーザが容易にロボット１００を抱えることができるので望ましい。

【0044】

ロボット１００は、三輪走行するための３つの車輪を備えている。ロボット１００は、図示のように左右一対の前輪１０２（左輪１０２ａ、右輪１０２ｂ）と、１つの後輪１０３を含む。前輪１０２は駆動輪であり、後輪１０３は従動輪である。前輪１０２は、操舵機構を有しないが、左輪１０２ａ、右輪１０２ｂの回転速度や回転方向は個別に制御可能である。

【0045】

後輪１０３は、いわゆるオムニホイール又はキャスタであり、ロボット１００を前後左右へ移動させるために回転自在となっている。左輪１０２ａよりも右輪１０２ｂの前転方向の回転数を大きくすることで（左輪１０２ａが停止し、又は後転方向に回転する場合を含む）、ロボット１００は左折したり、左回りに回転したりできる。また、右輪１０２ｂよりも左輪１０２ａの前転方向の回転数を大きくすることで（右輪１０２ｂが停止し、又は後転方向に回転する場合を含む）、ロボット１００は右折したり、右回りに回転したりできる。

【0046】

前輪１０２及び後輪１０３は、駆動機構によりボディ１０４に完全に収容できる。走行時においても各車輪の大部分はボディ１０４に隠されているが、各車輪がボディ１０４に完全に収容されるとロボット１００は移動不可能な状態となる。すなわち、車輪の収容動作にともなってボディ１０４が降下し、ロボット１００は床面Ｆに着座する。この着座状態においては、ボディ１０４の底部に形成された平坦状の着座面１０８（設置底面）が床面Ｆに当接し、ロボット１００は着座状態を安定的に保つことができる。

【0047】

ロボット１００は、２つの手１０５を有する。ロボット１００は、手１０５を上げる、振る、振動させるなどの動作が可能である。２つの手１０５は個別に制御可能である。

【0048】

目１０６は、液晶素子又は有機ＥＬ素子等の素子からなる表示装置による画像表示が可能である。ロボット１００は、音源方向を特定可能なマイクロフォンや超音波センサ、臭いセンサ、測距センサ、加速度センサ等の種々のセンサを備えている。また、ロボット１００は、スピーカを内蔵し、音声を出力することができる。ロボット１００のボディ１０４には、静電容量式のタッチセンサが設置される。タッチセンサにより、ロボット１００はユーザのタッチを検出できる。

【0049】

ロボット１００の頭部にはツノ１０９が取り付けられている。ツノ１０９には、全天周カメラが取り付けられ、ロボット１００の上部全域を一度に撮影可能である。

【0050】

図２は、ロボット１００の構造を概略的に示す断面図である。図２に示すように、ロボット１００のボディ１０４は、ベースフレーム３０８、本体フレーム３１０、一対の樹脂製のホイールカバー３１２、及び外皮３１４を含む。ベースフレーム３０８は、金属からなり、ボディ１０４の軸芯を構成するとともに内部構造を支持する。ベースフレーム３０８は、アッパープレート３３２とロアプレート３３４とを複数のサイドプレート３３６により上下に連結して構成される。複数のサイドプレート３３６の間には通気が可能となるよう、十分な間隔が設けられている。ベースフレーム３０８の内方には、バッテリ１１７、制御回路３４２、及び各種アクチュエータが収容されている。

【0051】

本体フレーム３１０は、樹脂材からなり、頭部フレーム３１６及び胴部フレーム３１８を含む。頭部フレーム３１６は、中空半球状をなし、ロボット１００の頭部骨格を形成する。胴部フレーム３１８は、首部フレーム３１８１、胸部フレーム３１８２、及び腹部フレーム３１８３からなり、全体で段付筒形状をなし、ロボット１００の胴部骨格を形成する。胴部フレーム３１８は、ベースフレーム３０８と一体に固定される。頭部フレーム３１６は、胴部フレーム３１８の上端部（首部フレーム３１８１）に相対変位可能に組付けられる。

【0052】

頭部フレーム３１６には、ヨー軸３２０、ピッチ軸３２２、及びロール軸３２４の３軸と、各軸を回転駆動するためのアクチュエータ３２６が設けられる。アクチュエータ３２６は、各軸を個別に駆動するための複数のサーボモータを含む。首振り動作のためのヨー軸３２０が駆動され、頷き動作のためにピッチ軸３２２が駆動され、首を傾げる動作のためにロール軸３２４が駆動される。

【0053】

頭部フレーム３１６の上部には、ヨー軸３２０を支持するためのプレート３２５が固定されている。プレート３２５には、上下間の通気を確保するための複数の通気孔３２７が形成されている。

【0054】

頭部フレーム３１６及びその内部機構を下方から支持するように、金属製のベースプレート３２８が設けられる。ベースプレート３２８は、クロスリンク３２９（パンタグラフ機構）を介してプレート３２５と連結される一方、ジョイント３３０を介してアッパープレート３３２（ベースフレーム３０８）と連結されている。

【0055】

胴部フレーム３１８は、ベースフレーム３０８及び車輪駆動機構３７０を収容する。車輪駆動機構３７０は、回転軸３７８及びアクチュエータ３７９を含む。胴部フレーム３１８の下半部（腹部フレーム３１８３）は、ホイールカバー３１２との間に前輪１０２の収容スペースＳｐを形成するために小幅とされている。

【0056】

外皮３１４は、本体フレーム３１０及び一対の手１０５を外側から覆う。外皮３１４は、人が弾力を感じる程度の厚みを有し、ウレタンスポンジなどの柔らかく伸縮性のある素材を基材とし、ポリエステルなどの滑らかな手触りの布材で包み込むことで形成される。これにより、ユーザがロボット１００を抱きしめると、適度な柔らかさを感じ、人がペットにするように自然なスキンシップをとることができる。外皮３１４の上端部には、外気を導入するための開口部３０９が設けられる。

【0057】

図３は、ロボット１００のハードウェア構成を示す図である。ロボット１００は、その筐体１０１内に、表示装置１１０と、内部センサ１１１と、スピーカ１１２と、通信部１１３と、記憶装置１１４と、プロセッサ１１５と、駆動機構１１６と、バッテリ１１７とを備えている。駆動機構１１６は、上述した車輪駆動機構３７０を含む。プロセッサ１１５と記憶装置１１４は、制御回路３４２に含まれる。

【0058】

各ユニットは、電源線１２０及び信号線１２２により互いに接続されている。バッテリ１１７は、電源線１２０を介して各ユニットに電力を供給する。各ユニットは、信号線１２２により制御信号を送受する。バッテリ１１７は、例えば、リチウムイオン二次電池であり、ロボット１００の動力源である。

【0059】

駆動機構１１６は、内部機構を制御するアクチュエータである。駆動機構１１６は、前輪１０２と後輪１０３を駆動してロボット１００を移動させたり向きを変えたりする機能を有する。また、駆動機構１１６は、ワイヤ１１８を介して手１０５を制御して、手１０５を上げる、手１０５を振る、手１０５を駆動させるなどの動作を行わせる。また、駆動機構１１６は、頭部を制御して、頭部の向きを変える機能を有する。

【0060】

内部センサ１１１は、ロボット１００が内蔵する各種センサの集合体である。内部センサ１１１としては、例えば、カメラ（全天周カメラ）、マイクロフォン、測距センサ（赤外線センサ）、サーモセンサ、タッチセンサ、加速度センサ、臭いセンサ等がある。スピーカ１１２は、音声を出力する。

【0061】

通信部１１３は、サーバ、外部センサ、他のロボット、ユーザの持つ携帯機器等の各種の外部危機を対象として無線通信を行う通信モジュールである。記憶装置１１４は、不揮発性メモリ及び揮発性メモリにより構成され、後述する音声合成プログラムを含む各種のプログラムや各種設定情報を記憶する。

【0062】

表示装置１１０は、ロボット１００の目の位置に設置され、眼の画像を表示させる機能を有する。表示装置１１０は、瞳や瞼などの眼のパーツを組み合わせてロボット１００の眼の画像を表示する。なお、外光などが目に差し込んだ場合には、外部光源の位置に応じた位置にキャッチライトを表示してもよい。

【0063】

図４は、ロボット１００における音声を出力するための構成を示すブロック図である。ロボット１００は、感情生成部５１と、センシング部５２と、音韻取得部５３と、音韻生成部５４と、音声合成部５５と、音声出力部５６とを備えている。感情生成部５１、音韻取得部５３、音韻生成部５４、及び音声合成部５５は、コンピュータが本実施の形態の音声合成プログラムを実行することで実現される。

【0064】

感情生成部５１は、ロボット１００の感情を決定する。ロボット１００の感情は複数の感情パラメータで表現される。感情生成部５１は、センシング部５２でセンシングされた外部環境や内部のパラメータに応じて、所定のルールに従ってロボット１００の感情を決定する。

【0065】

センシング部５２は、上記の内部センサ１１１に対応しており、カメラ（全天周カメラ）、マイクロフォン、測距センサ（赤外線センサ）、サーモセンサ、タッチセンサ、加速度センサ、臭いセンサ等を含む。センシング部５２は、ロボット１００の外部の環境をセンシングして入力信号を生成する。

【0066】

音韻取得部５３は、感情生成部５１から入力される感情パラメータ、又はセンシング部５２から入力される入力信号に基づいて音韻情報を取得する。音韻情報は、一般的には順に並んだ複数の音韻からなる音韻列の情報であるが、１つの音韻（１音節）からなる場合もある。音韻は、例えば、日本語の場合は仮名で表記することができ、英語の場合は発音記号で表記することができ、中国語の場合はピンインで表記することができる。音韻取得部５３における音韻情報の取得の方法については、後に詳述する。

【0067】

音韻生成部５４は、音韻取得部５３で取得された音韻情報の少なくとも一部の音韻に基づいて、音韻取得部５３で取得された音韻情報とは異なる音韻情報を生成する。以下、音韻取得部５３で取得される音韻情報を「第１の音韻情報」といい、音韻生成部５４で生成される音韻情報を「第２の音韻情報」という。第２の音韻情報は、第１の音韻情報とは異なるが、第１の音韻情報の少なくとも一部の音韻に基づいて生成されるものである。本実施の形態では、音韻生成部５４は、音韻取得部５３から入力される第１の音韻情報が３音節以上であっても、第２の音韻情報として２音節の音韻情報を生成する。典型的には、例えば第１の音韻情報が３音節からなる場合に、音韻生成部５４は、そのうちの１音節を削除して、残った２音節のみを第２の音韻情報とする。音韻生成部５４における第２の音韻情報の生成の方法については、後に詳述する。

【0068】

音声合成部５５は、音韻生成部５４で生成された第２の音韻情報に従って音声を合成する。音声合成部５５は、シンセサイザによって構成することができる。音声合成部５５は、各音韻に対応する音声合成のためのパラメータが記憶されており、第２の音韻情報が与えられると該当する音韻を音声出力するためのパラメータを決定して、音声を合成する。音声合成部５５における音声の合成については、後に詳述する。

【0069】

音声出力部５６は、上記のスピーカ１１２に対応しており、音声合成部５５で合成された音声を出力する。

【0070】

以上のように、本実施の形態のロボット１００は、音声を合成する音声合成部５５を備えているので、任意の音声を合成して出力することができる。よって、あらかじめ用意された音声ファイルを再生する場合のように固定的な音声しか出力できないものではなく、第１の音韻情報に基づいて生成される第２の音韻情報に応じた音声出力を行うことができる。これにより、ユーザは、ロボット１００の音声に、生物らしさを感じることができる。

【0071】

また、本実施の形態のロボット１００は、取得した第１の音韻情報をそのまま用いて音声合成をするのではなく、第１の音韻情報の少なくとも一部の音韻に基づいて第２の音韻情報を生成し、第２の音韻情報に応じて音声を合成する。ここで、第１の音韻情報が言語情報を有する場合に、第１の音韻情報の一部の音韻を用いて第２の音韻情報を生成することで、第１の音韻情報が有する言語情報の情報量が減少することになる。

【0072】

これにより、例えば、音声認識によって認識された音声を真似して音声として出力する場合にも、一部の音韻について変更が加わった音声を合成することができる。それによって、不完全なミミック（音声の模倣）が実現でき、ロボットの愛らしさが増す。また、ロボットどうしで会話をする場合には、相手の音声を認識して、認識した音声の少なくとも一部の音韻を利用しつつ、それとは異なる音韻列の音声を合成することができる。これを会話をする双方のロボットが実行することで、（同じ音声の繰り返しではない）会話を継続させることができる。なお、本明細書において、複数の音韻（音韻列）からなる音韻情報が有する言語情報とは、その音韻列が表している言語としての意味をいい、例えばオノマトペのような特定の意味を表さない音韻列は言語情報を有しないもの、ないしは言語情報の情報量が極めて低いものと理解される。

【0073】

次に、音韻取得部５３における第１の音韻情報の取得について詳細に説明する。図５は、図４に示すロボット１００の構成のうちの感情生成部５１、センシング部５２、及び音韻取得部５３の構成を詳細に示すブロック図である。図５の例では、センシング部５２は、マイクロフォン５２１及びカメラ５２２を備えている。音韻取得部５３は、音声認識部５３１と、文字認識部５３２と、物体認識部５３３と、感情取得部５３４と、返答生成部５３５と、音韻情報取得部５３６とを備えている。

【0074】

感情生成部５１は、上述のように、センシング部５２でセンシングされた外部環境や内部のパラメータに応じて、所定のルールに従ってロボット１００の感情を決定し、音韻取得部５３に感情パラメータを出力する。マイクロフォン５２１は、外部環境としての音をセンシングして入力信号として音声信号を生成し、音韻取得部５３に出力する。カメラ５２２は、外部環境としての入射光をセンシングして入力信号として画像信号を生成し、音韻取得部５３に出力する。

【0075】

音声認識部５３１は、マイクロフォン５２１で音をセンシングして得られた音声信号に対して音声認識を行って文字列を取得する。音声認識部５３１は、音声認識によって得られた文字列を返答生成部５３５及び音韻情報取得部５３６に出力する。この音声認識には既存の任意の音声認識エンジンを用いることができる。なお、一般的な音声認識エンジンでは、入力された音声信号から音韻列を認識した後に、それらの音韻列に対して形態素解析等の自然言語処理をすることで言語情報を有する文字列を得る。本実施の形態では、自然言語処理によって言語情報を得た文字列を返答生成部５３５及び音韻情報取得部５３６に出力する。この文字列は、その文字列の音韻情報（即ち、音韻列）及び言語情報（即ち、自然言語処理によって得られた情報）を有している。

【0076】

返答生成部５３５は、音声認識部５３１で認識された音声に対する返答を生成してこの返答の文字列を音韻情報取得部５３６に出力する。この返答の生成には、既存の任意の対話エンジンを用いることができる。この対話エンジンは、入力された文字列に対する返答を学習した機械学習モデルを用いて認識された音声に対する返答を生成してよい。

【0077】

文字認識部５３２は、カメラ５２２でロボット１００の周囲を撮影した得られた画像信号に対して文字認識をすることで、文字列を取得し、音韻情報取得部５３６に出力する。この文字認識には既存の任意の文字認識エンジンを用いることができる。文字認識エンジンは、ニューラルネットワーク等の機械学習モデルを用いて文字認識を行うことができる。文字認識エンジンは、入力された画像信号から文字列を１文字ごとに独立して認識するものであってもよい。また、文字認識エンジンは、入力された画像信号から文字列を認識した後に、それらの文字列に対して自然言語処理をすることで言語情報を有する文字列を得るものであってもよい。

【0078】

物体認識部５３３は、カメラ５２２でロボット１００の周囲を撮影して得られた画像信号に対して物体認識を行う。この物体認識には既存の任意の物体認識エンジンを用いることができる。物体認識エンジンは、画像中の物体を認識して物体の名称を示すラベルを付与する。物体認識エンジンにもニューラルネットワーク等の機械学習モデルを採用することができる。この物体認識には、画像中の人物の顔を認識して、ユーザを特定するという人物認識も含まれる。人物認識の場合は、顔を認識した結果、ラベルとしてユーザ名が得られる。物体認識部５３３は、認識によって得られたラベルの文字列を音韻情報取得部５３６に出力する。

【0079】

感情取得部５３４は、感情生成部５１から感情パラメータを取得して、音韻－感情テーブルを参照することで、取得した感情パラメータに最も近い２音節の音韻を決定する。

【0080】

図６は、音韻と感情パラメータとの関係を規定した音韻－感情テーブルの例である。図６に示すように、各音韻には、「冷静」（ｃａｌｍ）、「怒り」（ａｎｇｅｒ）、「喜び」（ｊｏｙ）、「悲しみ」（ｓａｒｒｏｗ）の４種類の感情パラメータが定義されている。各感情パラメータは０～１００の値をとる。

【0081】

感情取得部５３４は、取得した各感情パラメータとの差分の合計が最も小さくなる感情パラメータを有する２音節の音韻を音韻－感情テーブルから選択することで、取得した感情パラメータに最も近い２音節の音韻を決定する。感情パラメータに基づく音韻の決定方法はこれに限らず、感情取得部５３４は、例えば、取得した感情パラメータのうちの最も大きい値を持つ一部（例えば、２つ）の感情パラメータの差分の合計が最も小さくなる音韻を選択してもよい。

【0082】

音韻情報取得部５３６は、音声認識部５３１、返答生成部５３５、文字認識部５３２、物体認識部５３３の各々から入力される文字列を取得して、これらの文字列を第１の音韻情報に変換する。音韻情報取得部５３６は、文字列として、日本語の場合、漢字まじりの文字列、又は仮名のみの文字列を取得する。音韻情報取得部５３６は、英語の場合、アルファベットで表現される一又は複数の単語からなる文字列を取得する。音韻情報取得部５３６は、中国語の場合、複数の漢字からなる文字列を取得する。また、音韻情報取得部５３６は、感情取得部５３４から音韻列を取得した場合には、この音韻列を第１の音韻情報とする。

【0083】

ここで、音韻情報は、それぞれの言語における音声上の単位音である音韻からなる。音韻情報は、上述のように、日本語の場合には仮名で表現されうる。音韻情報は、英語の場合には発音記号で表現されうる。音韻情報は、中国語の場合はピンインで表現されうる。音韻情報取得部５３６は、日本語の場合、文字列中に漢字がある場合には漢字とその読み仮名との関係を規定した辞書を参照して漢字を仮名に置き換え、すべての仮名を並べることで第１の音韻情報を取得する。英語の場合、音韻情報取得部５３６は、単語と発音記号との関係を規定した辞書を参照して文字列中の各単語を発音記号に置き換えることで第１の音韻情報を取得する。中国語の場合、音韻情報取得部５３６は、各漢字とピンインのとの関係を規定した辞書を参照して漢字をピンインに置き換えることで第１の音韻情報を取得する。音韻情報取得部５３６は、取得した第１の音韻情報を音韻生成部５４に出力する。

【0084】

図７は、図４に示すロボット１００の構成のうちの音韻生成部５４、音声合成部５５、及び音声出力部５６の構成を詳細に示すブロック図である。音韻生成部５４は、オノマトペ生成部５４１と、言語情報生成部５４２と、音韻情報生成部５４３とを備えている。オノマトペ生成部５４１は、音韻－感情テーブルを参照することで、第１の音韻情報の少なくとも一部の音韻に対応する感情パラメータを特定する。オノマトペ生成部５４１は、特定した感情パラメータに基づいて音韻を決定して、決定した音韻を音韻情報生成部５４３に出力する。具体的には、本実施の形態のオノマトペ生成部５４１は、第１の音韻情報の音韻の感情パラメータに近い感情パラメータを有する音韻を決定する。

【0085】

具体的には、オノマトペ生成部５４１は、第１の音韻情報が１音節の音韻を含む場合、音韻－感情テーブルを参照して、その音韻の感情パラメータのうちの最も値の大きい感情を特定する。そして、オノマトペ生成部５４１は、その感情の感情パラメータが同じ値である他の２つの音韻を決定する。例えば、第１の音韻情報が「あ」という１音節のみである場合には、オノマトペ生成部５４１は、テーブルの「あ」という音節の４種類の感情パラメータを参照する。「あ」の４種類の感情パラメータのうち、最も大きい値であるのは「喜び」パラメータであり、その値は５０である。よって、オノマトペ生成部５４１は、「喜び」パラメータが５０である他の音韻を探し、例えば「る」、「に」という音韻を決定する。

【0086】

オノマトペ生成部５４１は、第１の音韻情報が２音節の音韻を含む場合は、それぞれの音韻について、上記と同様にして、第１の音韻情報の２音節の音韻に対応する２音節の音韻を決定する。オノマトペ生成部５４１は、第１の音韻情報が３音節以上である場合には、３音節以上の音韻から、任意に、又は所定のルールに基づいて２音節の音韻を選択する。そして、オノマトペ生成部５４１は、選択したそれぞれの音韻について、上記と同様にして、対応する２音節の音韻を決定する。音節数は、２音節に代えて、所定数以下の音節としてもよい。

【0087】

言語情報生成部５４２は、入力された第１の音韻情報より言語情報の情報量が少ない文字列を生成して音韻情報生成部５４３に出力する。言語情報生成部５４２は、第１の音韻情報の文字列に対して、文字ないし音素の一部削除、一部変更、又は一部追加を行うことで、言語情報の情報量を減少させる。一部削除、一部変更、一部追加のいずれを行うか、どの文字ないし音素を削除、変更、追加するかは、任意に、又は所定のルールに基づいて決定してよい。

【0088】

言語情報生成部５４２は、例えば、「とけい」という第１の音韻情報が入力された場合に、「とけい」の１字を削除した「とけ」という文字列を生成してよい。言語情報生成部５４２は、「みかん」という第１の音韻情報が入力された場合に、「みかん」の一部の子音を入れ替えた「にかん」という文字列を生成してよい。言語情報生成部５４２は、「おはよう」という第１の音韻情報が入力された場合に、「おはよう」の一部の子音を削除した「おあよう」という文字列を生成してよい。言語情報生成部５４２は、「とけい」という第１の音韻情報が入力された場合に、「とけい」に拗音を追加した「とぅけい」という文字列を生成してよい。言語情報生成部５４２は、「だっこ」という第１の音韻情報が入力された場合に、「だっこ」の促音を削除した「だこ」という文字列を生成してよい。言語情報生成部５４２にて生成されるこれらの「とけ」、「にかん」、「おあよう」、「とぅけい」、「だこ」という文字列は、それぞれ「とけい」、「みかん」、「おはよう」、「とけい」、「だっこ」に似ているが完全に一致はしないという点で、それらの言語情報の情報量が減少しているといえる。なお、言語情報生成部５４２は、文字ないし音素の一部削除、一部変更、一部追加、音素の順番の入れ替えを複合的に用いることで言語情報をさらに減少させてもよい。なお、文字ないし音素の一部変更は、別の言語の似た音韻に変更するものであってもよい。

【0089】

言語情報の情報量を減少させる手法は、上記に限られない。音素の数を減らしたり、言語としての意味をなくしたり、言葉を不完全にしたり、一部の音韻を聞き取りにくくするような変更は、いずれも言語情報の情報量を減少させていることになる。また、使用できる音素の種類を限定し、第１の音韻情報に含まれる音素のそれぞれを、限定された音素のうちのいずれかに置き換えて第２の音韻情報を生成してもよい。また、第１の音韻情報に含まれる音素のそれぞれのうち、使用できる音素以外を削除して第２の音韻情報を生成してもよい。

【0090】

このように、言語情報を有する第１の音韻情報における言語情報の情報量を減少させて第２の音韻情報を生成することで、第１の音韻情報の言語情報に似ている第２の音韻情報が生成される。よって、このような第２の音韻情報に従ってロボット１００が音声を合成して出力することで、ユーザは、ロボット１００が何が言いたいのかを推測でき、また、推測したくなる。即ち、ロボット１００が敢えて幼稚な言葉を発することで、ユーザに「ロボットが何かを言いたそうだ、何かを伝えたがっている」と思わせうる。ひいては、ユーザに、無意識にロボット１００を理解させるように導いたり、ロボット１００に好奇心を持たせたり、ロボット１００に注目させたりすることができうる。これにより、ユーザを飽きさせず、次第にロボット１００に愛着を抱くように導く心理的効果を期待できる。

【0091】

仮にロボット１００が言語情報を有する第１の音韻情報をそのまま用いて音声を合成して出力した場合、例えば、ロボット１００が明確に「とけい」と発音した場合には、ユーザは、単に「とけい」と言っていると認識するのみであり、それ以上にロボット１００に関心を向けることがない。これに対して、ロボット１００が言語情報の情報量を減少させて、言語として不完全な「とけ」と発音した場合には、ユーザは、ロボット１００「とけい」と言おうとしているのかとロボット１００に対して意識を向けうる。ひいては、ユーザが、その不完全さに愛らしさを感じれば、ロボット１００に対するユーザの愛情形成が促進されうる。

【0092】

なお、上記では、言語情報生成部５４２による言語情報の情報量を減少させた文字列の生成を説明するために、２～４音節の文字を生成する例を説明した。上述のように、音韻生成部５４は、２音節の音韻を含む第２の音韻情報を生成する。言語情報生成部５４２は、文字や音素の一部削除や一部追加を行うことで、生成する第２の音韻情報を２音節にする。同様の処理により、所定数以下の音節の第２の音韻情報を生成することができる。

【0093】

オノマトペ生成部５４１が上記のようにして音節を決定することで、第１の音韻情報の音韻が表す感情と似た感情の音韻を有する第２の音韻情報を生成できる。また、この場合には、第２の音韻情報を生成する際に言語情報を考慮しないので、意味のない２音節の音韻からなる第２の音韻情報が生成される。

【0094】

また、言語情報生成部５４２が上記のようにして第１の音韻情報の言語情報の情報量を減少させた文字列を生成するので、第１の音韻情報を不完全に表現した第２の音韻情報を生成できる。

【0095】

音韻情報生成部５４３は、オノマトペ生成部５４１にて決定された音韻列の音韻情報を生成し、又は言語情報生成部５４２にて生成された文字列の音韻情報を生成し、第２の音韻情報として音声合成部５５に出力する。

【0096】

音声合成部５５は、音韻情報以外の情報にも基づいて音声を合成する。例えば、合成する音声の韻律（強弱、長短、高低等）は、第２の音韻情報以外の情報に基づいて決定してよい。具体的には、音声合成部５５は、韻律パターンとして、４種類の韻律曲線を記憶しており、生成する音声の各音節にいずれかの韻律パターンを当てはめることで各音節の韻律を決定する。

【0097】

図８Ａ～図８Ｄは、４種類の韻律曲線を示す図である。音声合成部５５は、これらの韻律曲線のいずれかを各音節に割り当てることで、各音節の韻律を決定する。音声合成部５５は、音節の音韻（発音）に応じて割り当てる韻律曲線を選択する。音韻ごとに割り当てられる韻律曲線があらかじめ決められて音韻－韻律曲線テーブルとして音声合成部５５に記憶されている。図８Ａの韻律曲線は、「あ」という音韻に割り当てられた韻律曲線の例である。図８Ｂの韻律曲線は、「い」という音韻に割り当てられた韻律曲線の例である。音声合成部５５は、この音韻－韻律曲線テーブルを参照して、各音節の韻律を決定する。

【0098】

図９は、２音節の韻律を示す図である。音声合成部５５は、連続する２音節について韻律曲線を用いて韻律を決定するにあたって、図９に示すように、連続する２音節の韻律曲線を滑らかに連結させる。図９の例では、図８Ａの韻律曲線と図８Ｃの韻律曲線とが連結されている。

【0099】

音声合成部５５は、仮想発声器官を有している。一般に、発声器官を有する生物の発声プロセスは共通している。例えば、人の発声プロセスは、肺や腹部から気管をとおして導かれた空気が声帯で振動することで音が鳴り、口腔や鼻腔などで共鳴し大きな音になる。そして、口や舌の形が変わることで様々な声が生まれる。声の個人差は、身体の大きさ、肺活量、声帯、気管の長さ、口腔の大きさ、鼻腔の大きさ、歯並び、舌の動かし方などの様々な違いで生まれる。また、同一人物でも、体調に応じて気管や声帯などの状態が変わり、声が変わる。こうした発声プロセスにより、人ごとに声質が異なり、体調や感情などの内面的な状態に応じても声が変わる。

【0100】

別の実施の形態における音声合成部５５は、こうした発声プロセスに基づき、仮想的な発声器官における発声プロセスをシミュレーションすることで音声を生成する。つまり、音声合成部５５は、仮想的な発声器官（以下、「仮想発声器官」という）であり、ソフトウエア的に実現される仮想発声器官で声を生成する。例えば、仮想発声器官は、人の発声器官を模した構造でも良いし、犬や猫などの動物の発声器官を模した構造でも良い。仮想発声器官を有することで、個体毎に、仮想発声器官における気管のサイズを変えたり、声帯の緊張度合いを調整したり、口腔の大きさを変えたりすることで、基本的な発声器官の構造は同じでも、個体特有の音声を生成できる。音声を生成するためのパラメータには、単にシンセサイザで音を生成するための直接的なパラメータが含まれているのでは無く、仮想発声器官における各器官の構造的な特徴を指定する値がパラメータ（以下、「静的パラメータ」という）として含まれている。これらの静的パラメータを用いて、発声プロセスがシミュレーションされ、声が生成される。

【0101】

例えば、人は様々な声を出すことができる。高い声、低い声、メロディに合わせて歌ったり、笑ったり、叫んだり、発声器官の構造が許す限りあらゆる声を出すことができる。これは、発声器官を構成する各器官の形状や状態が変化するからであり、人が意識的に変化させることもできるし、感情や刺激に応じて無意識に変化してしまうこともある。音声合成部５５は、こうした、外部環境や内部状態に連動して変化する器官の状態についてもパラメータ（以下、「動的パラメータ」という）を有し、それらの動的パラメータを外部環境や内部状態に連動して変化させてシミュレーションをおこなう。

【0102】

一般に声帯を引っ張ることで声帯が延び高音になり、声帯を緩めることで声帯が縮み低音になる。例えば、声帯を模した器官は、静的パラメータとして声帯の引っ張り度合い（以下「緊張度」という）を有し、緊張度を調整することにより、高い声や低い声を出すことができる。これにより、高い声のロボット１００や低い声のロボット１００を実現できる。また、人は緊張することで声がうわずることがあるが、同様にロボット１００の緊張状態に連動して、動的パラメータとしての声帯の緊張度を変化させることで、ロボット１００が緊張していたら声が高くなるようにできる。例えば、ロボット１００が知らない人を認識したときや、抱っこの状態から急に下げられたとき等、緊張状態を示す内部パラメータが緊張している値に振れたときに、それに連動して声帯の緊張度を高くすることで、高い声を発声できる。このように、ロボット１００の内部状態と、発声プロセスにおける器官とを関連付けておき、内部状態に応じて、関連する器官のパラメータを調整することで、内部状態に応じて声を変えることができる。

【0103】

ここで、静的パラメータ及び動的パラメータは、時間の経過に伴うそれぞれの器官の形状的な状態を示すパラメータである。仮想発声器官は、このパラメータに基づいてシミュレーションを行う。

【0104】

また、シミュレーションに基づき音声を生成することにより、発声器官の構造的な制約に基づいた音声だけが生成される。つまり、生物としてあり得ない声が生成されないので、生物感のある声を生成できる。シミュレーションをおこない、音声を生成することにより、単に似ている音節を発声するだけでなく、ロボット１００の内部状態の影響を受けた声を生成できる。

【0105】

ロボット１００は、マイクロフォン５２１及びカメラ５２２を含むセンサ群を常に稼働させており、また、感情生成部５１も常に稼働させている。このような状態で、ユーザがロボット１００に話しかけることで、ロボット１００のマイクロフォン５２１がその音をセンシングして音韻取得部５３に音声信号を出力することで上記の処理が開始される。また、カメラ５２２がユーザの顔を撮影して音韻取得部５３に画像信号を出力することで上記の処理が開始される。また、カメラ５２２が文字を撮影して音韻取得部５３に画像信号を出力することで上記の処理が開始される。また、感情生成部５１が、外部環境や内部パラメータに基づいて感情パラメータを生成して音韻取得部５３に出力することで上記の処理が開始される。なお、センシング部５２における外部環境の検出結果が、すべて音声を生成するためのトリガーになる訳ではなく、その時のロボット１００の内部状態に応じて決められる。

【0106】

なお、上記の実施の形態では、音韻取得部５３において、音声認識部５３１から音韻情報取得部５３６に言語情報を含む文字列が入力されたが、これに代えて、音声認識部５３１で認識された音韻列をそのまま音韻情報取得部５３６に入力し、音韻情報取得部５３６は、入力された音韻列をそのまま第１の音韻情報としてもよい。即ち、音声認識部５３１における自然言語処理を行わなくてもよい。

【0107】

また、上記の実施の形態では、センシング部５２がマイクロフォン５２１とカメラ５２２とを備える構成を例示して説明したが、例えば、センシング部５２としてサーモセンサを用いる場合には、センシング部５２は温度を検知し、音韻取得部５３は検知された温度に応じて「さむい」、「あつい」等の第１の音韻情報を取得してよく、センシング部５２として臭いセンサを用いる場合には、センシング部５２は臭いを検知し、音韻取得部５３は検知された臭いに応じて「くさい」等の第１の音韻情報を取得してよい。

【0108】

また、上記の実施の形態では、オノマトペ生成部５４１において、第１の音韻情報の音韻に対応する感情パラメータのうちの最大の感情パラメータが共通する他の音韻を、感情パラメータが近い音韻として決定したが、他の音韻を決定する方法はこれに限られない。例えば、第１の音韻情報の音韻に対応する複数の感情パラメータの各々の差分が小さい（例えば、差分の合計が小さい）複数の感情パラメータを有する音韻を、感情パラメータが近い音韻として決定してもよい。また、オノマトペ生成部５４１は、第１の音韻情報の音韻に対応する感情パラメータと感情パラメータが大きく異なる音韻を決定してもよい。例えば、「怒り」の感情パラメータが強い音韻に対して、「悲しみ」の感情パラメータが強い音韻を決定してもよい。

【0109】

本実施の形態のロボット１００によって、例えば、以下のような演出が可能となる。即ち、本実施の形態のロボット１００では、音韻取得部５３が音声認識、文字認識、物体認識等によって３音節の音韻を含む第１の音韻情報を取得したときに、音韻生成部５４は、それらの３音節のうちの１音節を削除して、２音節の音韻からなる第２の音韻情報を生成する。これにより、ロボット１００は、聞いた音声を少ない音節で模倣して出力することとなり、言語能力が低い乳幼児が、聞いた音声を不完全に模倣して出力しているかのような演出が可能となる。

【0110】

また、本実施の形態のロボット１００では、音韻取得部５３が他のロボットから出力された２音節の音声を認識して第１の音韻情報を取得したときに、音韻生成部５４は、それらの２音節の音韻に対応する感情パラメータと近い、又は遠い感情パラメータを有する音韻を決定して第２の音韻情報を生成する。よって、このようなロボット１００どうしが会話をすることにより、ロボット１００が互いに相手の感情に影響されて会話をしているような演出が可能となる。

【0111】

以下、上記のロボット１００の種々の変形例を説明する。音韻取得部５３は、マイクロフォン５２１から入力された音声信号の音高を認識して、音声合成部５５は、入力された音声信号の音高と同じ音高の音声を合成してよい。例えば、マイクロフォン５２１から４４０Ｈｚの音声信号が入力された場合に、音声合成部５５は、同じ４４０Ｈｚの音声を合成してよい。また、音声合成部５５は、入力された音声信号の音高を所定のスケールに合わせた音声を合成してよい。例えば、マイクロフォン５２１から４３８Ｈｚの音声が入力された場合に、音声合成部５５は、４４０Ｈｚの音声を合成してよい。

【0112】

また、音韻取得部５３は、マイクロフォン５２１から入力された音声の音高変化を認識して、音声合成部５５は、入力された音声信号の音高変化と同じ音高変化の音声を合成してよい。これにより、ロボット１００が聞いた音のメロディを真似して発生しているような演出ができる。

【0113】

また、センシング部５２が前輪１０２のトルクセンサを備え、音声合成部５５は、このトルクセンサの値に応じて音声を生成してよい。例えば、ロボット１００が障害物によって進行方向に進行できずに前輪のトルクが大きくなったときに、音声合成部５５は、「うーん」等の踏ん張る音声を合成してよい。

【0114】

また、物体認識部５３３における人物認識において、画像において人物の顔が所定の大きさで突然認識された場合に、音声合成部５５は、笑い声の音声を合成してよい。あるいは、画像において人物の顔が所定の大きさで突然認識された場合に、感情生成部５１が「喜び」の感情パラメータを生成して音韻取得部５３に出力して上記の処理により第１の音韻情報の取得及び第２の音韻情報の生成の処理を行って音声を合成してもよい。

【0115】

また、上記の実施の形態では、音韻取得部５３は、カメラ５２２で撮影された画像から認識した文字及び認識した物体を表現する第１の音韻情報を取得したが、画像から物体を認識した場合に、当該物体に話しかける文字列を生成して第１の音韻情報を取得してもよい。例えば、音韻取得部５３は、物体認識によって人物を認識した場合に、抱っこを要求する「だっこ」という第１の音韻情報を取得してもよい。また、音韻取得部５３は、画像から物体を認識した場合に、当該物体に関連付けられた関連ワードの文字列を生成して第１の音韻情報を取得してよい。例えば、物体認識によって飛行機を認識した場合に、飛行機に関連付けられた「ぶーん」というオノマトペの第１の音韻情報を取得してよい。

【0116】

また、要求をする音声を出力した後に要求が満たされない場合に、音声合成部５５は、音量や発話スピードなどが異なる音声を合成してよい。例えば、抱っこしてほしいという要求をする音声として「だこ」という音声を合成して出力した後に、抱っこされない場合に、音声合成部５５は「だこー！」と語気を強くした音声を生成してよい。

【0117】

また、感情生成部５１は、音声出力部５６から音声を出力した後に、音声認識部５３１にてその音声と同じ音韻の音声を認識した場合に、「喜び」の感情を生成してよい。これにより、ロボット１００の発声をユーザが真似た場合にロボット１００が喜ぶような演出が可能となる。また、ロボット１００は、音声出力部５６から音声を出力した後に、ユーザのリアクションを検知して、当該出力した音声にスコアをつけて学習してよい。例えば、音声を出力した後に、物体認識部５３３が画像から笑顔を検出した場合には、当該音声に高スコアをつけて学習してよい。ロボット１００は、例えば、高スコアの音声を優先して合成して出力するようにしてよい。

【0118】

また、物体認識部５３３が物体を認識するのと同時に音声認識部５３１が音声を認識した場合には、認識された物体と認識された音声とを関連付けて学習し、その後に当該物体を認識する。この場合に、音韻取得部５３は、関連付けられた音声の第１の音韻情報を取得してよい。例えば、物体認識部５３３でコップを認識すると同時に音声認識部５３１で「こっぷ」という音声を認識した場合に、この組み合わせを学習して、その後に物体認識部５３３がコップを認識したときに、音韻取得部５３は、「こっぷ」という第１の音韻情報を取得してよい。これにより、ユーザは、ロボット１００に物の名称を教えてあげることができ、ロボット１００がユーザから教えられた物の名称を学習するという演出が可能となる。

【0119】

また、学習を繰り返すことで、第１の音韻情報と第２の音韻情報との間の言語情報の情報量の減少量を小さくしていってよい。例えば、学習において、「おとうさん」という第１の音韻情報を取得した場合に、最初のうちは、第１の音韻情報の一部の音韻を削除するとともに、その順序も変更され、隣り合ってもいない「う」と「お」を順に並べた「うお」という第２の音韻情報を生成する。学習を重ねるごとに、例えば一部の音韻を削除しつつものその順序は変更されていないが相変わらず隣り合っていない「と」と「さ」を順に並べた「とさ」という第２の音韻情報を生成し、最終的には順序どおりに隣り合い、かつ特徴音（例えば、アクセントが強い音韻）からなる「お」と「と」を並べた「おと」とするなど、徐々に言語情報の情報量の減少量を小さくしていってよい。

【0120】

また、音声出力部５６は、マイクロフォン５２１でセンシングされた音の音量に応じて出力する音声の音量を調整してよい。例えば、マイクロフォン５２１でセンシングされる音の音量が大きい場合には、出力する音声の音量を大きくしてよい。更に、音声出力部５６は、音声認識部５３１で雑音と認識された音声の音量に応じて、出力する音声の音量を調整してもよい。即ち、雑音が大きい環境下では、出力する音声の音量を大きくしてよい。

【0121】

また、上記の実施の形態では、ロボット１００が他のロボット１００と会話を継続できることを説明したが、ロボット１００どうしの会話をするために、各ロボット１００がさらに以下の機能を有していてもよい。

【0122】

感情生成部５１は、ロボット１００どうしの会話におけるストーリを展開し、このストーリに沿って感情を生成してよい。そして、ロボット１００は、音韻取得部５３ないし音声出力部５６の上記の機能によって感情を表現する音声を出力する。この感情生成部５１におけるストーリの展開にもニューラルネットワーク等の機械学習モデルを用いてよい。

【0123】

音声合成部５５は、マイクロフォン５２１から入力された他のロボット１００の音声に合わせて音程が調和するように音声を合成してよい。これにより、複数台のロボット１００が合唱しているような演出が可能となる。また、敢えて他のロボット１００の音声の音程と異なる音程にすることで、音痴を演出することも可能である。

【0124】

また、音声合成部５５は、通常の人間が使用しない音高の音声を合成してもよい。通常の人間の音声の音高は高くても５００Ｈｚ程度であるが、ロボット１００がこれより高い音高（例えば、８００Ｈｚ程度）の音声を出力する。他のロボット１００は、別のロボット１００の発声であることを音高情報のみから認識することができる。例えば、ロボット１００が追いかけっこをする際に、相手の呼び声や方向を認識する必要があるが、入力された音高が所定の範囲であれば、相手のロボット１００の発声（「こっちに来いよ」等の意味になる）であることを認識できる。また、音高に更にパターン（音高のカーブ変化等）を組み合わせることで、より認識精度を上げることができる。また、音高のみで認識をする場合には、例えば救急車のサイレンの音を拾ってしまう可能性もあるが、逆に高い音に無条件で反応することを動物的な行動の現れとして利用することもできる。

【0125】

また、音韻取得部５３は、センシング部５２からの入力信号や感情生成部５１からの感情パラメータに基づいて第１の音韻情報を取得する。音韻取得部５３は、さらに、入力信号や感情パラメータに基づいて、あるいは、他の情報に基づいて、音を構成する要素である音量、音高、音色の情報を取得してもよい。この場合には、音韻生成部５４も、音韻取得部５３が取得した音量、音高、音色の情報に基づいて、音声合成部５５で合成する音声の音量、音高、音色を決定して音声合成部５５に出力するようにしてよい。また、各音韻の長さ（話速）についても、音韻取得部５３が取得して、取得した話速に基づいて音韻生成部５４が音声出力部５６で出力する音声の話速を決定するようにしてもよい。さらに、音韻取得部５３は、言語ごとの特徴も、音を構成する要素として取得してよい。

【0126】

また、音韻取得部５３は、マイクロフォン５２１から入力される音声信号に基づいて、旋律の有無（即ち、入力された音が歌ないしメロディであるか否か）を判定する機能を備えていてよい。この場合、音韻取得部５３は、具体的には、所定の期間ごとに音高（ピッチ）の変化に応じてスコアをつけて、スコアに基づいて旋律があるか否か（即ち、歌を歌っているか否か）を判定する。音韻取得部５３が入力された音声信号に旋律があると判定した場合には、音声合成部５５は、認識された旋律を真似るように、合成する音声の各音韻の音長や音高を決定してよい。また、音韻取得部５３が入力された音声信号に旋律があると判定した場合に、音韻生成部５４は、あらかじめ決められた音韻で第２の音韻情報を生成する。そして、音声合成部５５が認識された旋律を真似るように、合成する音声の各音韻の音長や音高を決定してよい。これにより、鼻歌を歌っているような演出が可能となる。

【0127】

また、音韻取得部５３がセンシング部５２からの入力信号に基づいて、日本語以外の言語の文字列を取得してよい。即ち、音声認識部５３１は、日本語以外の言語の音声を認識して、当該言語の文字列を生成してよく、文字認識部５３２は、日本語以外の言語の文字を認識して、当該言語の文字列を生成してよく、物体認識部５３３は、物体を認識して当該物体を表す日本語以外の言語の文字列を生成してよい。

【0128】

また、ロボット１００は、ミミックの応答を所定回数（例えば５回）行ったときに、それ以前の所定回数（例えば、４回）のミミックを連続して返してよい。上述のように、ロボット１００は、２音節の音声を出力するが、２音節のミミックのみを繰り返しているとユーザは飽きてくる可能性があるので、所定回数ごとに過去にミミックをして発声した音声をつなぎ合わせて発生してもよい。これにより、ユーザは、ロボット１００が何かを離そうとしているように感じることができるという効果が期待できる。

【0129】

このために、ロボット１００は、ミミックとして生成した第２の音韻情報を記憶する記憶部と、ミミックの回数をカウントするカウント部と、ミミックの回数が所定の回数（例えば５回）になったか否かを判定する判定部とを備え、音声合成部３５は、判定部にてミミックの回数が所定の回数になったと判定されたときに、記憶部に記憶されたミミックを読み出して、それらを繋げて音声を合成する。

【産業上の利用可能性】

【0130】

本発明は、ロボットが音声を出力することによる他者との音声コミュニケーションにおいて、ロボットに対するユーザの愛着形成を促すことができ、音声を出力するロボット等として有用である。

【図1A】