(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024108175
(43)【公開日】2024-08-09
(54)【発明の名称】ロボット、音声合成プログラム、及び音声出力方法
(51)【国際特許分類】
G10L 13/08 20130101AFI20240802BHJP
H04N 23/61 20230101ALI20240802BHJP
G10L 15/00 20130101ALN20240802BHJP
G10L 15/10 20060101ALN20240802BHJP
【FI】
G10L13/08 122
G10L13/08 124
H04N23/61
G10L15/00 200B
G10L15/10 500N
【審査請求】有
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2024080505
(22)【出願日】2024-05-16
(62)【分割の表示】P 2020559150の分割
【原出願日】2019-11-29
(31)【優先権主張番号】P 2018226489
(32)【優先日】2018-12-03
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】515337268
【氏名又は名称】GROOVE X株式会社
(72)【発明者】
【氏名】林 要
(72)【発明者】
【氏名】ジョン ベルモンテ
(72)【発明者】
【氏名】小瀬 敦也
(72)【発明者】
【氏名】松浦 雅也
【テーマコード(参考)】
5C122
【Fターム(参考)】
5C122DA27
5C122FH11
5C122FH14
5C122FJ04
5C122FJ05
(57)【要約】 (修正有)
【課題】 ロボットが音声を出力することによる他者との音声コミュニケーションにおいて、言語コミュニケーションを軽減したコミュニケーションを行うことを目的とする。
【解決手段】ロボット100は、外部環境をセンシングして入力信号を生成するセンシング部52と、入力信号に基づいて複数の音韻からなる第1の音韻情報を取得する音韻取得部53と、第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、第1の音韻情報とは異なる第2の音韻情報を生成する音韻生成部54と、第2の音韻情報に従って音声を合成する音声合成部55と、音声を出力する音声出力部56とを備えている。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
複数の音韻からなる第1の音韻情報を取得する音韻取得部と、
前記第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第1の音韻情報とは異なる第2の音韻情報を生成する音韻生成部と、
前記第2の音韻情報に従って音声を合成する音声合成部と、
前記音声を出力する音声出力部と、
を備えるロボット。
【請求項2】
前記音韻生成部は、前記第1の音韻情報が有する言語情報より情報量が少ない言語情報を有する前記第2の音韻情報を生成する、請求項1に記載のロボット。
【請求項3】
外部環境をセンシングして入力信号を生成するセンシング部をさらに備え、
前記音韻取得部は、前記入力信号に基づいて前記第1の音韻情報を取得する、請求項2に記載のロボット。
【請求項4】
前記センシング部は、音をセンシングして前記入力信号として音声信号を生成するマイクロフォンであり、
前記音韻取得部は、前記音声信号に基づいて前記言語情報を決定し、前記言語情報を含む前記第1の音韻情報を取得する、請求項3に記載のロボット。
【請求項5】
前記音韻取得部は、前記音声信号に対して音声認識を行い、認識された音声を前記言語情報として有する前記第1の音韻情報を取得する、請求項4に記載のロボット。
【請求項6】
前記音韻取得部は、前記音声信号に対して音声認識を行い、認識された音声に対する返答を前記言語情報として有する前記第1の音韻情報を取得する、請求項4に記載のロボット。
【請求項7】
前記センシング部は、入射光をセンシングして前記入力信号として画像信号を生成するカメラであり、
前記音韻取得部は、前記画像信号に基づいて前記言語情報を決定し、前記言語情報を有する第1の音韻情報を取得する、請求項3に記載のロボット。
【請求項8】
前記音韻取得部は、前記画像信号に対して文字認識を行い、認識された文字を前記言語情報として有する前記第1の音韻情報を取得する、請求項7に記載のロボット。
【請求項9】
前記音韻取得部は、前記画像信号に対して物体認識を行い、認識された物体を表す言語情報を有する前記第1の音韻情報を取得する、請求項7に記載のロボット。
【請求項10】
前記音韻生成部は、前記第1の音韻情報の前記少なくとも一部の音韻に対応する感情パラメータを特定して、特定した前記感情パラメータに基づいて前記第2の音韻情報を生成する、請求項1に記載のロボット。
【請求項11】
前記音韻生成部は、前記感情パラメータに近い感情パラメータを有する前記第2の音韻情報を生成する、請求項10に記載のロボット。
【請求項12】
音韻と感情パラメータとの関係を規定したテーブルをさらに備え、
前記音韻生成部は、前記テーブルを参照して、前記第1の音韻情報の前記少なくとも一部の音韻に対応する感情パラメータを特定する、請求項10又は11に記載のロボット。
【請求項13】
音韻と感情パラメータとの関係を規定したテーブルをさらに備え、
前記音韻生成部は、前記テーブルを参照して、前記第2の音韻情報を生成する、請求項10又は11に記載のロボット。
【請求項14】
前記センシング部は、音をセンシングして前記入力信号として音声信号を生成するマイクロフォンであり、
前記音韻取得部は、前記音声信号に対して音声認識をすることで第1の音韻情報を取得する、請求項10~13のいずれかに記載のロボット。
【請求項15】
前記音韻生成部は、前記第1の音韻情報の音節の数に関わらず、所定数以下の音節からなる前記第2の音韻情報を生成する、請求項1~14のいずれかに記載のロボット。
【請求項16】
前記音韻生成部は、前記所定数以下の音節からなる前記第2の音韻情報として、2つの音節からなる前記第2の音韻情報を生成する、請求項15に記載のロボット。
【請求項17】
ロボットのコンピュータを、
複数の音韻からなる第1の音韻情報を取得する音韻取得部、
前記第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第1の音韻情報とは異なる第2の音韻情報を生成する音韻生成部、及び
前記第2の音韻情報に従って音声を合成する音声合成部、
として機能させる音声合成プログラム。
【請求項18】
ロボットにおける音声出力方法であって、
複数の音韻からなる第1の音韻情報を取得する音韻取得ステップと、
前記第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第1の音韻情報とは異なる第2の音韻情報を生成する音韻生成ステップと、
前記第2の音韻情報に従って音声を合成する音声合成ステップと、
前記音声を出力する音声出力ステップと、
を含む音声出力方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を出力するロボット、音声合成プログラム、及び音声出力方法に関する。
【背景技術】
【0002】
ロボットが、ユーザからの働きかけ(例えば、話しかけ、接触等)、あるいは、内部パラメータ(例えば、感情パラメータ等)に応じて音声を出力すると、ユーザは、ロボットが意思を持っているという感覚を得ることができ、ロボットに対して愛着を持つことができる。
【0003】
音声には言語情報のほかにパラ言語情報が含まれる。言語情報とは、概念を表す音韻の情報であり、パラ言語情報とは、声色、韻律(音声のピッチ、イントネーション、リズム、ポーズ等)等の非言語情報である。アニマルセラピー等のように非言語コミュニケーションを行うことで、ユーザが癒し効果を得られることが知られているが、音声によるコミュニケーションにも、言語情報による言語コミュニケーションだけでなくパラ言語情報による非言語コミュニケーションが含まれており、ロボットの音声出力において、この非言語コミュニケーションを有効に活用することにより、ユーザに対して癒しを与えることができる(例えば、特許文献1参照)。
【0004】
一方で、ロボットが音声における言語情報によって何らかの概念(感情、意思、意味等)を表現することで、ロボットとユーザとの言語コミュニケーションが充実し、ユーザはロボットに対して愛着を持つようになる。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、ロボットが、音声を出力することによるユーザとの音声コミュニケーションにおいて、あまりに明確な言語情報を含む言語コミュニケーションを行うと、ユーザは、ロボットの音声が説得的、説明的に感じられて、非言語コミュニケーションによる癒しの効果が低下してしまう。
【0007】
また、ロボットどうしの音声コミュニケーションにおいては、言語コミュニケーションは必ずしも必要でなく、言語コミュニケーションによらない会話を行うことで、それを見ているユーザに癒しを与えることができる。
【0008】
そこで、本発明は、ロボットが音声を出力することによる他者との音声コミュニケーションにおいて、ロボットに対するユーザの愛着形成を促すことを目的とする。
【課題を解決するための手段】
【0009】
本発明の一態様のロボットは、複数の音韻からなる第1の音韻情報を取得する音韻取得部と、前記第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第1の音韻情報とは異なる第2の音韻情報を生成する音韻生成部と、前記第2の音韻情報に従って音声を合成する音声合成部と、前記音声を出力する音声出力部とを備える。
【0010】
また、本発明の一態様の音声合成プログラムは、ロボットのコンピュータを、複数の音韻からなる第1の音韻情報を取得する音韻取得部、前記第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第1の音韻情報とは異なる第2の音韻情報を生成する音韻生成部、及び前記第2の音韻情報に従って音声を合成する音声合成部として機能させる。
【0011】
また、本発明の一態様の音声出力方法は、ロボットにおける音声出力方法であって、複数の音韻からなる第1の音韻情報を取得する音韻取得ステップと、前記第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第1の音韻情報とは異なる第2の音韻情報を生成する音韻生成ステップと、前記第2の音韻情報に従って音声を合成する音声合成ステップと、前記音声を出力する音声出力ステップとを含む。
【発明の効果】
【0012】
本発明によれば、音韻生成部が、取得した第1の音韻情報に含まれる少なくとも一部の音韻に基づいて第2の音韻情報を生成する。音声合成部がそのような第2の音韻情報に従って音声を合成する。これにより、ロボットが音声を出力することによる他者との音声コミュニケーションにおいて、ロボットに対するユーザの愛着形成を促すことができる。
【図面の簡単な説明】
【0013】
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
【0014】
【
図1A】
図1Aは、本発明の実施の形態のロボットの正面外観図である。
【
図1B】
図1Bは、本発明の実施の形態のロボットの側面外観図である。
【
図2】
図2は、本発明の実施の形態のロボットの構造を概略的に示す断面図である。
【
図3】
図3は、本発明の実施の形態のロボットのハードウェア構成を示す図である。
【
図4】
図4は、本発明の実施の形態のロボットにおける音声を出力するための構成を示すブロック図である。
【
図5】
図5は、本発明の実施の形態の文字列入力部、センシング部、及び取得部の構成を詳細に示すブロック図である。
【
図6】
図6は、本発明の実施の形態の音韻と感情パラメータとの関係を規定した音韻-感情テーブルの例である。
【
図7】
図7は、本発明の実施の形態の生成部、音声合成部、及び出力部の構成を詳細に示すブロック図である。
【
図8A】
図8Aは、本発明の実施の形態の音声合成部が用いる韻律曲線の例を示す図である。
【
図8B】
図8Bは、本発明の実施の形態の音声合成部が用いる韻律曲線の例を示す図である。
【
図8C】
図8Cは、本発明の実施の形態の音声合成部が用いる韻律曲線の例を示す図である。
【
図8D】
図8Dは、本発明の実施の形態の音声合成部が用いる韻律曲線の例を示す図である。
【
図9】
図9は、本発明の実施の形態の音声合成部によって連結された2つの韻律曲線の例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態を説明する。なお、以下に説明する実施の形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。
【0016】
本発明の実施の形態のロボットは、複数の音韻からなる第1の音韻情報を取得する取得部と、前記第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第1の音韻情報とは異なる第2の音韻情報を生成する生成部と、前記第2の音韻情報に従って音声を合成する音声合成部と、前記音声を出力する出力部とを備える。
【0017】
この構成により、まず、ロボットは、あらかじめ用意されている音源を再生することで音声を出力するのではなく、音韻情報に従って音声を合成して音声を出力する。そして、ロボットは、取得した第1の音韻情報の少なくとも一部の音韻に基づきつつも、第1の音韻情報とは異なる第2の音韻情報を生成し、音声合成部はそのようにして生成された第2の音韻情報に従って音声を合成する。これにより、例えば、音声センシングによって取得した第1の音韻情報を真似して音声を出力する場合にも、一部の音韻について変更を加えた第2の音韻情報を生成することができる。それによって、不完全なミミック(音声の模倣)が実現でき、ロボットの愛らしさが増し、ロボットに対するユーザの愛着形成を促すことができる。また、ロボットどうしで会話をする場合には、他のロボットの音声から第1の音韻情報を取得して、それとは異なる第2の音韻情報に従って音声を合成して出力する。これにより、これを会話をする双方のロボットが実行することで、会話を継続させることができる。ひいては、ロボットに対するユーザの愛着形成を促すことができる。
【0018】
前記音韻生成部は、前記第1の音韻情報が有する言語情報より情報量が少ない言語情報を有する前記第2の音韻情報を生成してよい。
【0019】
この構成により、取得した第1の音韻情報が有する言語情報の情報量を減らして第2の音韻情報を生成するので、言語能力が未熟な、例えば乳幼児程度の音声コミュニケーションを実現できる。第1の音韻情報が有する言語情報の情報量を少なくする手法は、例えば、第1の音韻情報の音韻に対する文字ないし音素の一部削除、一部変更、一部追加であってよい。
【0020】
前記ロボットは、外部環境をセンシングして入力信号を生成するセンシング部をさらに備えてよく、前記音韻取得部は、前記入力信号に基づいて前記第1の音韻情報を取得してよい。
【0021】
前記センシング部は、音をセンシングして前記入力信号として音声信号を生成するマイクロフォンであってよく、前記音韻取得部は、前記音声信号に基づいて前記言語情報を決定し、前記言語情報を含む前記第1の音韻情報を取得してよい。
【0022】
前記音韻取得部は、前記音声信号に対して音声認識を行い、認識された音声を前記言語情報として有する前記第1の音韻情報を取得してよい。
【0023】
この構成により、ロボットは、聞いた音声を不完全に真似て繰り返すという不完全なミミックを実現できる。例えば、ユーザがロボットに「みかん」と話しかけたのに対して、ロボットが「みかん」という言語情報を含む第1の音韻情報を取得する。ロボットは、「みかん」の一部子音を入れ替えた「にかん」という言語情報を含む第2の音韻情報を生成して音声として出力する。これにより、ユーザはロボットが「みかん」とオウム返しをしようとしていると理解しつつ、その不完全なミミックに愛らしさを感じることができる。
【0024】
前記音韻取得部は、前記音声信号に対して音声認識を行い、認識された音声に対する返答を前記言語情報として有する前記第1の音韻情報を取得してよい。
【0025】
この構成により、ロボットは、聞いた音声に対して不完全な言語表現で答えるという会話を実現でき、ユーザはロボットの表現している返答を理解することができるとともに、ロボットの愛らしさが増す。例えば、ユーザがロボットに「何しようか?」と尋ねたのに対して、ロボットが返答として「だっこ」という言語情報を含む第1の音韻情報を得た場合において、「だっこ」の促音を削除した「だこ」という第2の音韻情報を生成して音声として出力する。これにより、ユーザは「だっこ」を要求していると理解しつつ、その不完全な言語表現に愛らしさを感じることができる。
【0026】
前記センシング部は、入射光をセンシングして前記入力信号として画像信号を生成するカメラであってよく、前記音韻取得部は、前記画像信号に基づいて前記言語情報を決定し、前記言語情報を有する第1の音韻情報を取得してよい。
【0027】
前記音韻取得部は、前記画像信号に対して文字認識を行い、認識された文字を前記言語情報として含む前記第1の音韻情報を取得してよい。
【0028】
この構成により、ロボットは、見て認識した文字をそのまま発声するのではなく、不完全な言語表現で発声する。ユーザはロボットが見た文字を読もうとしていることを理解することができるとともに、ロボットの愛らしさが増す。例えば、ロボットが画像信号から文字を認識することで「とけい」という言語情報を有する第1の音韻情報を取得した場合において、「とけい」の一部文字を削除した「とけ」という第2の音韻情報を生成して音声として出力する。これにより、ユーザは、ロボットが「とけい」という文字を読もうとしているということを理解しつつ、その不完全な言語表現に愛らしさを感じることができる。
【0029】
前記音韻取得部は、前記画像信号に対して物体認識を行い、認識された物体を表す言語情報を有する前記第1の音韻情報を取得してよい。
【0030】
この構成により、ロボットは、認識した物体をそのまま表現するのではなく、不完全な言語情報で表現するので、ユーザはロボットが認識した物体を表現しようとしていることを理解することができるとともに、ロボットの愛らしさが増す。例えば、ロボットが画像信号に対して物体認識を行うことで時計を認識して「とけい」という言語情報を含む第1の音韻情報を取得した場合において、「とけい」の一部文字を削除した「とけ」という言語情報を有する第2の音韻情報を生成して音声として出力する。これにより、ユーザは、ロボットが「とけい」を認識したということを理解しつつ、その不完全な言語表現に愛らしさを感じることができる。
【0031】
前記音韻生成部は、前記第1の音韻情報の前記少なくとも一部の音韻に対応する感情パラメータを特定して、特定した前記感情パラメータに基づいて前記第2の音韻情報を生成してよい。
【0032】
この構成により、ロボットは、取得した第1の音韻情報の言語情報ではなく、その音韻に対応する感情パラメータに基づいて第2の音韻情報を生成するので、非言語コミュニケーションを実現できる。この非言語コミュニケーションにおいて、第1の音韻情報及び第2の音韻情報は、言語情報の情報量が乏しい、例えば、オノマトペのような意味のない音韻列(例えば、「うーうー」等)であってもよい。
【0033】
前記音韻生成部は、前記感情パラメータに近い感情パラメータを有する前記第2の音韻情報を生成してよい。
【0034】
前記ロボットは、音韻と感情パラメータとの関係を規定したテーブルをさらに備えてよく、前記音韻生成部は、前記テーブルを参照して、前記第1の音韻情報の前記少なくとも一部の音韻に対応する感情パラメータを特定してよい。
【0035】
前記ロボットは、音韻と感情パラメータとの関係を規定したテーブルをさらに備えてよく、前記音韻生成部は、前記テーブルを参照して、前記第2の音韻情報を生成してよい。
【0036】
前記ロボットは、音をセンシングして音声信号を生成するマイクロフォンをさらに備えてよく、前記音韻取得部は、前記音声信号に対して音声認識をすることで第1の音韻情報を取得してよい。
【0037】
前記音韻生成部は、前記第1の音韻情報の音節の数に関わらず、所定数以下の音節(例えば、2つの音節)からなる前記第2の音韻情報を生成してよい。
【0038】
また、本発明の一態様の音声合成プログラムは、ロボットのコンピュータで実行されることで、当該ロボットのコンピュータを、複数の音韻からなる第1の音韻情報を取得する音韻取得部、前記第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第1の音韻情報とは異なる第2の音韻情報を生成する音韻生成部、及び前記第2の音韻情報に従って音声を合成する音声合成部として機能させる。
【0039】
また、本発明の一態様の音声出力方法は、ロボットにおける音声出力方法であって、複数の音韻からなる第1の音韻情報を取得する音韻取得ステップと、前記第1の音韻情報に含まれる少なくとも一部の音韻に基づいて、前記第1の音韻情報とは異なる第2の音韻情報を生成する音韻生成ステップと、前記第2の音韻情報に従って音声を合成する音声合成
ステップと、前記音声を出力する音声出力ステップとを含む。
【0040】
以下、実施の形態のロボットについて、図面を参照して説明する。
【0041】
図1Aは、ロボットの正面外観図であり、
図1Bは、ロボットの側面外観図である。本実施の形態におけるロボット100は、外部環境及び内部状態に基づいて行動、仕草(ジェスチャ)、音声を決定する自律行動型のロボットである。外部環境は、カメラ、マイクロフォン、加速度センサ、タッチセンサ等を含むセンサ群によって検知される。内部状態は、ロボット100の感情を表現する様々なパラメータとして定量化される。
【0042】
感情を表現するパラメータとして、ロボット100は、例えば、ユーザごとに親密度パラメータを有する。ロボット100が、自分を抱き上げる、声をかけてくれるなど、自分に対して好意を示す行動をしたとき、センサ群によって当該行動を検知して、そのユーザに対する親密度を高くする。一方、ロボット100は、ロボット100に関わらないユーザや、乱暴を働くユーザ、出会う頻度が低いユーザ等に対しては、親密度を低くする。
【0043】
ロボット100のボディ104は、全体的に丸みを帯びた形状を有し、ウレタン、ゴム、樹脂、繊維などの柔らかく弾力性のある素材によって形成された外皮を含む。ロボット100の重量は、15kg以下、好ましくは10kg以下、更に好ましくは5kg以下である。また、ロボット100の身長は、1.2m以下、好ましくは0.7m以下である。特に、重量を5kg以下程度とし、身長を0.7m以下程度として小型軽量化することで、子供やお年寄りを含むユーザが容易にロボット100を抱えることができるので望ましい。
【0044】
ロボット100は、三輪走行するための3つの車輪を備えている。ロボット100は、図示のように左右一対の前輪102(左輪102a、右輪102b)と、1つの後輪103を含む。前輪102は駆動輪であり、後輪103は従動輪である。前輪102は、操舵機構を有しないが、左輪102a、右輪102bの回転速度や回転方向は個別に制御可能である。
【0045】
後輪103は、いわゆるオムニホイール又はキャスタであり、ロボット100を前後左右へ移動させるために回転自在となっている。左輪102aよりも右輪102bの前転方向の回転数を大きくすることで(左輪102aが停止し、又は後転方向に回転する場合を含む)、ロボット100は左折したり、左回りに回転したりできる。また、右輪102bよりも左輪102aの前転方向の回転数を大きくすることで(右輪102bが停止し、又は後転方向に回転する場合を含む)、ロボット100は右折したり、右回りに回転したりできる。
【0046】
前輪102及び後輪103は、駆動機構によりボディ104に完全に収容できる。走行時においても各車輪の大部分はボディ104に隠されているが、各車輪がボディ104に完全に収容されるとロボット100は移動不可能な状態となる。すなわち、車輪の収容動作にともなってボディ104が降下し、ロボット100は床面Fに着座する。この着座状態においては、ボディ104の底部に形成された平坦状の着座面108(設置底面)が床面Fに当接し、ロボット100は着座状態を安定的に保つことができる。
【0047】
ロボット100は、2つの手105を有する。ロボット100は、手105を上げる、振る、振動させるなどの動作が可能である。2つの手105は個別に制御可能である。
【0048】
目106は、液晶素子又は有機EL素子等の素子からなる表示装置による画像表示が可能である。ロボット100は、音源方向を特定可能なマイクロフォンや超音波センサ、臭
いセンサ、測距センサ、加速度センサ等の種々のセンサを備えている。また、ロボット100は、スピーカを内蔵し、音声を出力することができる。ロボット100のボディ104には、静電容量式のタッチセンサが設置される。タッチセンサにより、ロボット100はユーザのタッチを検出できる。
【0049】
ロボット100の頭部にはツノ109が取り付けられている。ツノ109には、全天周カメラが取り付けられ、ロボット100の上部全域を一度に撮影可能である。
【0050】
図2は、ロボット100の構造を概略的に示す断面図である。
図2に示すように、ロボット100のボディ104は、ベースフレーム308、本体フレーム310、一対の樹脂製のホイールカバー312、及び外皮314を含む。ベースフレーム308は、金属からなり、ボディ104の軸芯を構成するとともに内部構造を支持する。ベースフレーム308は、アッパープレート332とロアプレート334とを複数のサイドプレート336により上下に連結して構成される。複数のサイドプレート336の間には通気が可能となるよう、十分な間隔が設けられている。ベースフレーム308の内方には、バッテリ117、制御回路342、及び各種アクチュエータが収容されている。
【0051】
本体フレーム310は、樹脂材からなり、頭部フレーム316及び胴部フレーム318を含む。頭部フレーム316は、中空半球状をなし、ロボット100の頭部骨格を形成する。胴部フレーム318は、首部フレーム3181、胸部フレーム3182、及び腹部フレーム3183からなり、全体で段付筒形状をなし、ロボット100の胴部骨格を形成する。胴部フレーム318は、ベースフレーム308と一体に固定される。頭部フレーム316は、胴部フレーム318の上端部(首部フレーム3181)に相対変位可能に組付けられる。
【0052】
頭部フレーム316には、ヨー軸320、ピッチ軸322、及びロール軸324の3軸と、各軸を回転駆動するためのアクチュエータ326が設けられる。アクチュエータ326は、各軸を個別に駆動するための複数のサーボモータを含む。首振り動作のためのヨー軸320が駆動され、頷き動作のためにピッチ軸322が駆動され、首を傾げる動作のためにロール軸324が駆動される。
【0053】
頭部フレーム316の上部には、ヨー軸320を支持するためのプレート325が固定されている。プレート325には、上下間の通気を確保するための複数の通気孔327が形成されている。
【0054】
頭部フレーム316及びその内部機構を下方から支持するように、金属製のベースプレート328が設けられる。ベースプレート328は、クロスリンク329(パンタグラフ機構)を介してプレート325と連結される一方、ジョイント330を介してアッパープレート332(ベースフレーム308)と連結されている。
【0055】
胴部フレーム318は、ベースフレーム308及び車輪駆動機構370を収容する。車輪駆動機構370は、回転軸378及びアクチュエータ379を含む。胴部フレーム318の下半部(腹部フレーム3183)は、ホイールカバー312との間に前輪102の収容スペースSpを形成するために小幅とされている。
【0056】
外皮314は、本体フレーム310及び一対の手105を外側から覆う。外皮314は、人が弾力を感じる程度の厚みを有し、ウレタンスポンジなどの柔らかく伸縮性のある素材を基材とし、ポリエステルなどの滑らかな手触りの布材で包み込むことで形成される。これにより、ユーザがロボット100を抱きしめると、適度な柔らかさを感じ、人がペットにするように自然なスキンシップをとることができる。外皮314の上端部には、外気
を導入するための開口部309が設けられる。
【0057】
図3は、ロボット100のハードウェア構成を示す図である。ロボット100は、その筐体101内に、表示装置110と、内部センサ111と、スピーカ112と、通信部113と、記憶装置114と、プロセッサ115と、駆動機構116と、バッテリ117とを備えている。駆動機構116は、上述した車輪駆動機構370を含む。プロセッサ115と記憶装置114は、制御回路342に含まれる。
【0058】
各ユニットは、電源線120及び信号線122により互いに接続されている。バッテリ117は、電源線120を介して各ユニットに電力を供給する。各ユニットは、信号線122により制御信号を送受する。バッテリ117は、例えば、リチウムイオン二次電池であり、ロボット100の動力源である。
【0059】
駆動機構116は、内部機構を制御するアクチュエータである。駆動機構116は、前輪102と後輪103を駆動してロボット100を移動させたり向きを変えたりする機能を有する。また、駆動機構116は、ワイヤ118を介して手105を制御して、手105を上げる、手105を振る、手105を駆動させるなどの動作を行わせる。また、駆動機構116は、頭部を制御して、頭部の向きを変える機能を有する。
【0060】
内部センサ111は、ロボット100が内蔵する各種センサの集合体である。内部センサ111としては、例えば、カメラ(全天周カメラ)、マイクロフォン、測距センサ(赤外線センサ)、サーモセンサ、タッチセンサ、加速度センサ、臭いセンサ等がある。スピーカ112は、音声を出力する。
【0061】
通信部113は、サーバ、外部センサ、他のロボット、ユーザの持つ携帯機器等の各種の外部危機を対象として無線通信を行う通信モジュールである。記憶装置114は、不揮発性メモリ及び揮発性メモリにより構成され、後述する音声合成プログラムを含む各種のプログラムや各種設定情報を記憶する。
【0062】
表示装置110は、ロボット100の目の位置に設置され、眼の画像を表示させる機能を有する。表示装置110は、瞳や瞼などの眼のパーツを組み合わせてロボット100の眼の画像を表示する。なお、外光などが目に差し込んだ場合には、外部光源の位置に応じた位置にキャッチライトを表示してもよい。
【0063】
図4は、ロボット100における音声を出力するための構成を示すブロック図である。ロボット100は、感情生成部51と、センシング部52と、音韻取得部53と、音韻生成部54と、音声合成部55と、音声出力部56とを備えている。感情生成部51、音韻取得部53、音韻生成部54、及び音声合成部55は、コンピュータが本実施の形態の音声合成プログラムを実行することで実現される。
【0064】
感情生成部51は、ロボット100の感情を決定する。ロボット100の感情は複数の感情パラメータで表現される。感情生成部51は、センシング部52でセンシングされた外部環境や内部のパラメータに応じて、所定のルールに従ってロボット100の感情を決定する。
【0065】
センシング部52は、上記の内部センサ111に対応しており、カメラ(全天周カメラ)、マイクロフォン、測距センサ(赤外線センサ)、サーモセンサ、タッチセンサ、加速度センサ、臭いセンサ等を含む。センシング部52は、ロボット100の外部の環境をセンシングして入力信号を生成する。
【0066】
音韻取得部53は、感情生成部51から入力される感情パラメータ、又はセンシング部52から入力される入力信号に基づいて音韻情報を取得する。音韻情報は、一般的には順に並んだ複数の音韻からなる音韻列の情報であるが、1つの音韻(1音節)からなる場合もある。音韻は、例えば、日本語の場合は仮名で表記することができ、英語の場合は発音記号で表記することができ、中国語の場合はピンインで表記することができる。音韻取得部53における音韻情報の取得の方法については、後に詳述する。
【0067】
音韻生成部54は、音韻取得部53で取得された音韻情報の少なくとも一部の音韻に基づいて、音韻取得部53で取得された音韻情報とは異なる音韻情報を生成する。以下、音韻取得部53で取得される音韻情報を「第1の音韻情報」といい、音韻生成部54で生成される音韻情報を「第2の音韻情報」という。第2の音韻情報は、第1の音韻情報とは異なるが、第1の音韻情報の少なくとも一部の音韻に基づいて生成されるものである。本実施の形態では、音韻生成部54は、音韻取得部53から入力される第1の音韻情報が3音節以上であっても、第2の音韻情報として2音節の音韻情報を生成する。典型的には、例えば第1の音韻情報が3音節からなる場合に、音韻生成部54は、そのうちの1音節を削除して、残った2音節のみを第2の音韻情報とする。音韻生成部54における第2の音韻情報の生成の方法については、後に詳述する。
【0068】
音声合成部55は、音韻生成部54で生成された第2の音韻情報に従って音声を合成する。音声合成部55は、シンセサイザによって構成することができる。音声合成部55は、各音韻に対応する音声合成のためのパラメータが記憶されており、第2の音韻情報が与えられると該当する音韻を音声出力するためのパラメータを決定して、音声を合成する。音声合成部55における音声の合成については、後に詳述する。
【0069】
音声出力部56は、上記のスピーカ112に対応しており、音声合成部55で合成された音声を出力する。
【0070】
以上のように、本実施の形態のロボット100は、音声を合成する音声合成部55を備えているので、任意の音声を合成して出力することができる。よって、あらかじめ用意された音声ファイルを再生する場合のように固定的な音声しか出力できないものではなく、第1の音韻情報に基づいて生成される第2の音韻情報に応じた音声出力を行うことができる。これにより、ユーザは、ロボット100の音声に、生物らしさを感じることができる。
【0071】
また、本実施の形態のロボット100は、取得した第1の音韻情報をそのまま用いて音声合成をするのではなく、第1の音韻情報の少なくとも一部の音韻に基づいて第2の音韻情報を生成し、第2の音韻情報に応じて音声を合成する。ここで、第1の音韻情報が言語情報を有する場合に、第1の音韻情報の一部の音韻を用いて第2の音韻情報を生成することで、第1の音韻情報が有する言語情報の情報量が減少することになる。
【0072】
これにより、例えば、音声認識によって認識された音声を真似して音声として出力する場合にも、一部の音韻について変更が加わった音声を合成することができる。それによって、不完全なミミック(音声の模倣)が実現でき、ロボットの愛らしさが増す。また、ロボットどうしで会話をする場合には、相手の音声を認識して、認識した音声の少なくとも一部の音韻を利用しつつ、それとは異なる音韻列の音声を合成することができる。これを会話をする双方のロボットが実行することで、(同じ音声の繰り返しではない)会話を継続させることができる。なお、本明細書において、複数の音韻(音韻列)からなる音韻情報が有する言語情報とは、その音韻列が表している言語としての意味をいい、例えばオノマトペのような特定の意味を表さない音韻列は言語情報を有しないもの、ないしは言語情報の情報量が極めて低いものと理解される。
【0073】
次に、音韻取得部53における第1の音韻情報の取得について詳細に説明する。
図5は、
図4に示すロボット100の構成のうちの感情生成部51、センシング部52、及び音韻取得部53の構成を詳細に示すブロック図である。
図5の例では、センシング部52は、マイクロフォン521及びカメラ522を備えている。音韻取得部53は、音声認識部531と、文字認識部532と、物体認識部533と、感情取得部534と、返答生成部535と、音韻情報取得部536とを備えている。
【0074】
感情生成部51は、上述のように、センシング部52でセンシングされた外部環境や内部のパラメータに応じて、所定のルールに従ってロボット100の感情を決定し、音韻取得部53に感情パラメータを出力する。マイクロフォン521は、外部環境としての音をセンシングして入力信号として音声信号を生成し、音韻取得部53に出力する。カメラ522は、外部環境としての入射光をセンシングして入力信号として画像信号を生成し、音韻取得部53に出力する。
【0075】
音声認識部531は、マイクロフォン521で音をセンシングして得られた音声信号に対して音声認識を行って文字列を取得する。音声認識部531は、音声認識によって得られた文字列を返答生成部535及び音韻情報取得部536に出力する。この音声認識には既存の任意の音声認識エンジンを用いることができる。なお、一般的な音声認識エンジンでは、入力された音声信号から音韻列を認識した後に、それらの音韻列に対して形態素解析等の自然言語処理をすることで言語情報を有する文字列を得る。本実施の形態では、自然言語処理によって言語情報を得た文字列を返答生成部535及び音韻情報取得部536に出力する。この文字列は、その文字列の音韻情報(即ち、音韻列)及び言語情報(即ち、自然言語処理によって得られた情報)を有している。
【0076】
返答生成部535は、音声認識部531で認識された音声に対する返答を生成してこの返答の文字列を音韻情報取得部536に出力する。この返答の生成には、既存の任意の対話エンジンを用いることができる。この対話エンジンは、入力された文字列に対する返答を学習した機械学習モデルを用いて認識された音声に対する返答を生成してよい。
【0077】
文字認識部532は、カメラ522でロボット100の周囲を撮影した得られた画像信号に対して文字認識をすることで、文字列を取得し、音韻情報取得部536に出力する。この文字認識には既存の任意の文字認識エンジンを用いることができる。文字認識エンジンは、ニューラルネットワーク等の機械学習モデルを用いて文字認識を行うことができる。文字認識エンジンは、入力された画像信号から文字列を1文字ごとに独立して認識するものであってもよい。また、文字認識エンジンは、入力された画像信号から文字列を認識した後に、それらの文字列に対して自然言語処理をすることで言語情報を有する文字列を得るものであってもよい。
【0078】
物体認識部533は、カメラ522でロボット100の周囲を撮影して得られた画像信号に対して物体認識を行う。この物体認識には既存の任意の物体認識エンジンを用いることができる。物体認識エンジンは、画像中の物体を認識して物体の名称を示すラベルを付与する。物体認識エンジンにもニューラルネットワーク等の機械学習モデルを採用することができる。この物体認識には、画像中の人物の顔を認識して、ユーザを特定するという人物認識も含まれる。人物認識の場合は、顔を認識した結果、ラベルとしてユーザ名が得られる。物体認識部533は、認識によって得られたラベルの文字列を音韻情報取得部536に出力する。
【0079】
感情取得部534は、感情生成部51から感情パラメータを取得して、音韻-感情テーブルを参照することで、取得した感情パラメータに最も近い2音節の音韻を決定する。
【0080】
図6は、音韻と感情パラメータとの関係を規定した音韻-感情テーブルの例である。
図6に示すように、各音韻には、「冷静」(calm)、「怒り」(anger)、「喜び」(joy)、「悲しみ」(sarrow)の4種類の感情パラメータが定義されている。各感情パラメータは0~100の値をとる。
【0081】
感情取得部534は、取得した各感情パラメータとの差分の合計が最も小さくなる感情パラメータを有する2音節の音韻を音韻-感情テーブルから選択することで、取得した感情パラメータに最も近い2音節の音韻を決定する。感情パラメータに基づく音韻の決定方法はこれに限らず、感情取得部534は、例えば、取得した感情パラメータのうちの最も大きい値を持つ一部(例えば、2つ)の感情パラメータの差分の合計が最も小さくなる音韻を選択してもよい。
【0082】
音韻情報取得部536は、音声認識部531、返答生成部535、文字認識部532、物体認識部533の各々から入力される文字列を取得して、これらの文字列を第1の音韻情報に変換する。音韻情報取得部536は、文字列として、日本語の場合、漢字まじりの文字列、又は仮名のみの文字列を取得する。音韻情報取得部536は、英語の場合、アルファベットで表現される一又は複数の単語からなる文字列を取得する。音韻情報取得部536は、中国語の場合、複数の漢字からなる文字列を取得する。また、音韻情報取得部536は、感情取得部534から音韻列を取得した場合には、この音韻列を第1の音韻情報とする。
【0083】
ここで、音韻情報は、それぞれの言語における音声上の単位音である音韻からなる。音韻情報は、上述のように、日本語の場合には仮名で表現されうる。音韻情報は、英語の場合には発音記号で表現されうる。音韻情報は、中国語の場合はピンインで表現されうる。音韻情報取得部536は、日本語の場合、文字列中に漢字がある場合には漢字とその読み仮名との関係を規定した辞書を参照して漢字を仮名に置き換え、すべての仮名を並べることで第1の音韻情報を取得する。英語の場合、音韻情報取得部536は、単語と発音記号との関係を規定した辞書を参照して文字列中の各単語を発音記号に置き換えることで第1の音韻情報を取得する。中国語の場合、音韻情報取得部536は、各漢字とピンインのとの関係を規定した辞書を参照して漢字をピンインに置き換えることで第1の音韻情報を取得する。音韻情報取得部536は、取得した第1の音韻情報を音韻生成部54に出力する。
【0084】
図7は、
図4に示すロボット100の構成のうちの音韻生成部54、音声合成部55、及び音声出力部56の構成を詳細に示すブロック図である。音韻生成部54は、オノマトペ生成部541と、言語情報生成部542と、音韻情報生成部543とを備えている。オノマトペ生成部541は、音韻-感情テーブルを参照することで、第1の音韻情報の少なくとも一部の音韻に対応する感情パラメータを特定する。オノマトペ生成部541は、特定した感情パラメータに基づいて音韻を決定して、決定した音韻を音韻情報生成部543に出力する。具体的には、本実施の形態のオノマトペ生成部541は、第1の音韻情報の音韻の感情パラメータに近い感情パラメータを有する音韻を決定する。
【0085】
具体的には、オノマトペ生成部541は、第1の音韻情報が1音節の音韻を含む場合、音韻-感情テーブルを参照して、その音韻の感情パラメータのうちの最も値の大きい感情を特定する。そして、オノマトペ生成部541は、その感情の感情パラメータが同じ値である他の2つの音韻を決定する。例えば、第1の音韻情報が「あ」という1音節のみである場合には、オノマトペ生成部541は、テーブルの「あ」という音節の4種類の感情パラメータを参照する。「あ」の4種類の感情パラメータのうち、最も大きい値であるのは「喜び」パラメータであり、その値は50である。よって、オノマトペ生成部541は、
「喜び」パラメータが50である他の音韻を探し、例えば「る」、「に」という音韻を決定する。
【0086】
オノマトペ生成部541は、第1の音韻情報が2音節の音韻を含む場合は、それぞれの音韻について、上記と同様にして、第1の音韻情報の2音節の音韻に対応する2音節の音韻を決定する。オノマトペ生成部541は、第1の音韻情報が3音節以上である場合には、3音節以上の音韻から、任意に、又は所定のルールに基づいて2音節の音韻を選択する。そして、オノマトペ生成部541は、選択したそれぞれの音韻について、上記と同様にして、対応する2音節の音韻を決定する。音節数は、2音節に代えて、所定数以下の音節としてもよい。
【0087】
言語情報生成部542は、入力された第1の音韻情報より言語情報の情報量が少ない文字列を生成して音韻情報生成部543に出力する。言語情報生成部542は、第1の音韻情報の文字列に対して、文字ないし音素の一部削除、一部変更、又は一部追加を行うことで、言語情報の情報量を減少させる。一部削除、一部変更、一部追加のいずれを行うか、どの文字ないし音素を削除、変更、追加するかは、任意に、又は所定のルールに基づいて決定してよい。
【0088】
言語情報生成部542は、例えば、「とけい」という第1の音韻情報が入力された場合に、「とけい」の1字を削除した「とけ」という文字列を生成してよい。言語情報生成部542は、「みかん」という第1の音韻情報が入力された場合に、「みかん」の一部の子音を入れ替えた「にかん」という文字列を生成してよい。言語情報生成部542は、「おはよう」という第1の音韻情報が入力された場合に、「おはよう」の一部の子音を削除した「おあよう」という文字列を生成してよい。言語情報生成部542は、「とけい」という第1の音韻情報が入力された場合に、「とけい」に拗音を追加した「とぅけい」という文字列を生成してよい。言語情報生成部542は、「だっこ」という第1の音韻情報が入力された場合に、「だっこ」の促音を削除した「だこ」という文字列を生成してよい。言語情報生成部542にて生成されるこれらの「とけ」、「にかん」、「おあよう」、「とぅけい」、「だこ」という文字列は、それぞれ「とけい」、「みかん」、「おはよう」、「とけい」、「だっこ」に似ているが完全に一致はしないという点で、それらの言語情報の情報量が減少しているといえる。なお、言語情報生成部542は、文字ないし音素の一部削除、一部変更、一部追加、音素の順番の入れ替えを複合的に用いることで言語情報をさらに減少させてもよい。なお、文字ないし音素の一部変更は、別の言語の似た音韻に変更するものであってもよい。
【0089】
言語情報の情報量を減少させる手法は、上記に限られない。音素の数を減らしたり、言語としての意味をなくしたり、言葉を不完全にしたり、一部の音韻を聞き取りにくくするような変更は、いずれも言語情報の情報量を減少させていることになる。また、使用できる音素の種類を限定し、第1の音韻情報に含まれる音素のそれぞれを、限定された音素のうちのいずれかに置き換えて第2の音韻情報を生成してもよい。また、第1の音韻情報に含まれる音素のそれぞれのうち、使用できる音素以外を削除して第2の音韻情報を生成してもよい。
【0090】
このように、言語情報を有する第1の音韻情報における言語情報の情報量を減少させて第2の音韻情報を生成することで、第1の音韻情報の言語情報に似ている第2の音韻情報が生成される。よって、このような第2の音韻情報に従ってロボット100が音声を合成して出力することで、ユーザは、ロボット100が何が言いたいのかを推測でき、また、推測したくなる。即ち、ロボット100が敢えて幼稚な言葉を発することで、ユーザに「ロボットが何かを言いたそうだ、何かを伝えたがっている」と思わせうる。ひいては、ユーザに、無意識にロボット100を理解させるように導いたり、ロボット100に好奇心
を持たせたり、ロボット100に注目させたりすることができうる。これにより、ユーザを飽きさせず、次第にロボット100に愛着を抱くように導く心理的効果を期待できる。
【0091】
仮にロボット100が言語情報を有する第1の音韻情報をそのまま用いて音声を合成して出力した場合、例えば、ロボット100が明確に「とけい」と発音した場合には、ユーザは、単に「とけい」と言っていると認識するのみであり、それ以上にロボット100に関心を向けることがない。これに対して、ロボット100が言語情報の情報量を減少させて、言語として不完全な「とけ」と発音した場合には、ユーザは、ロボット100「とけい」と言おうとしているのかとロボット100に対して意識を向けうる。ひいては、ユーザが、その不完全さに愛らしさを感じれば、ロボット100に対するユーザの愛情形成が促進されうる。
【0092】
なお、上記では、言語情報生成部542による言語情報の情報量を減少させた文字列の生成を説明するために、2~4音節の文字を生成する例を説明した。上述のように、音韻生成部54は、2音節の音韻を含む第2の音韻情報を生成する。言語情報生成部542は、文字や音素の一部削除や一部追加を行うことで、生成する第2の音韻情報を2音節にする。同様の処理により、所定数以下の音節の第2の音韻情報を生成することができる。
【0093】
オノマトペ生成部541が上記のようにして音節を決定することで、第1の音韻情報の音韻が表す感情と似た感情の音韻を有する第2の音韻情報を生成できる。また、この場合には、第2の音韻情報を生成する際に言語情報を考慮しないので、意味のない2音節の音韻からなる第2の音韻情報が生成される。
【0094】
また、言語情報生成部542が上記のようにして第1の音韻情報の言語情報の情報量を減少させた文字列を生成するので、第1の音韻情報を不完全に表現した第2の音韻情報を生成できる。
【0095】
音韻情報生成部543は、オノマトペ生成部541にて決定された音韻列の音韻情報を生成し、又は言語情報生成部542にて生成された文字列の音韻情報を生成し、第2の音韻情報として音声合成部55に出力する。
【0096】
音声合成部55は、音韻情報以外の情報にも基づいて音声を合成する。例えば、合成する音声の韻律(強弱、長短、高低等)は、第2の音韻情報以外の情報に基づいて決定してよい。具体的には、音声合成部55は、韻律パターンとして、4種類の韻律曲線を記憶しており、生成する音声の各音節にいずれかの韻律パターンを当てはめることで各音節の韻律を決定する。
【0097】
図8A~
図8Dは、4種類の韻律曲線を示す図である。音声合成部55は、これらの韻律曲線のいずれかを各音節に割り当てることで、各音節の韻律を決定する。音声合成部55は、音節の音韻(発音)に応じて割り当てる韻律曲線を選択する。音韻ごとに割り当てられる韻律曲線があらかじめ決められて音韻-韻律曲線テーブルとして音声合成部55に記憶されている。
図8Aの韻律曲線は、「あ」という音韻に割り当てられた韻律曲線の例である。
図8Bの韻律曲線は、「い」という音韻に割り当てられた韻律曲線の例である。音声合成部55は、この音韻-韻律曲線テーブルを参照して、各音節の韻律を決定する。
【0098】
図9は、2音節の韻律を示す図である。音声合成部55は、連続する2音節について韻律曲線を用いて韻律を決定するにあたって、
図9に示すように、連続する2音節の韻律曲線を滑らかに連結させる。
図9の例では、
図8Aの韻律曲線と
図8Cの韻律曲線とが連結されている。
【0099】
音声合成部55は、仮想発声器官を有している。一般に、発声器官を有する生物の発声プロセスは共通している。例えば、人の発声プロセスは、肺や腹部から気管をとおして導かれた空気が声帯で振動することで音が鳴り、口腔や鼻腔などで共鳴し大きな音になる。そして、口や舌の形が変わることで様々な声が生まれる。声の個人差は、身体の大きさ、肺活量、声帯、気管の長さ、口腔の大きさ、鼻腔の大きさ、歯並び、舌の動かし方などの様々な違いで生まれる。また、同一人物でも、体調に応じて気管や声帯などの状態が変わり、声が変わる。こうした発声プロセスにより、人ごとに声質が異なり、体調や感情などの内面的な状態に応じても声が変わる。
【0100】
別の実施の形態における音声合成部55は、こうした発声プロセスに基づき、仮想的な発声器官における発声プロセスをシミュレーションすることで音声を生成する。つまり、音声合成部55は、仮想的な発声器官(以下、「仮想発声器官」という)であり、ソフトウエア的に実現される仮想発声器官で声を生成する。例えば、仮想発声器官は、人の発声器官を模した構造でも良いし、犬や猫などの動物の発声器官を模した構造でも良い。仮想発声器官を有することで、個体毎に、仮想発声器官における気管のサイズを変えたり、声帯の緊張度合いを調整したり、口腔の大きさを変えたりすることで、基本的な発声器官の構造は同じでも、個体特有の音声を生成できる。音声を生成するためのパラメータには、単にシンセサイザで音を生成するための直接的なパラメータが含まれているのでは無く、仮想発声器官における各器官の構造的な特徴を指定する値がパラメータ(以下、「静的パラメータ」という)として含まれている。これらの静的パラメータを用いて、発声プロセスがシミュレーションされ、声が生成される。
【0101】
例えば、人は様々な声を出すことができる。高い声、低い声、メロディに合わせて歌ったり、笑ったり、叫んだり、発声器官の構造が許す限りあらゆる声を出すことができる。これは、発声器官を構成する各器官の形状や状態が変化するからであり、人が意識的に変化させることもできるし、感情や刺激に応じて無意識に変化してしまうこともある。音声合成部55は、こうした、外部環境や内部状態に連動して変化する器官の状態についてもパラメータ(以下、「動的パラメータ」という)を有し、それらの動的パラメータを外部環境や内部状態に連動して変化させてシミュレーションをおこなう。
【0102】
一般に声帯を引っ張ることで声帯が延び高音になり、声帯を緩めることで声帯が縮み低音になる。例えば、声帯を模した器官は、静的パラメータとして声帯の引っ張り度合い(以下「緊張度」という)を有し、緊張度を調整することにより、高い声や低い声を出すことができる。これにより、高い声のロボット100や低い声のロボット100を実現できる。また、人は緊張することで声がうわずることがあるが、同様にロボット100の緊張状態に連動して、動的パラメータとしての声帯の緊張度を変化させることで、ロボット100が緊張していたら声が高くなるようにできる。例えば、ロボット100が知らない人を認識したときや、抱っこの状態から急に下げられたとき等、緊張状態を示す内部パラメータが緊張している値に振れたときに、それに連動して声帯の緊張度を高くすることで、高い声を発声できる。このように、ロボット100の内部状態と、発声プロセスにおける器官とを関連付けておき、内部状態に応じて、関連する器官のパラメータを調整することで、内部状態に応じて声を変えることができる。
【0103】
ここで、静的パラメータ及び動的パラメータは、時間の経過に伴うそれぞれの器官の形状的な状態を示すパラメータである。仮想発声器官は、このパラメータに基づいてシミュレーションを行う。
【0104】
また、シミュレーションに基づき音声を生成することにより、発声器官の構造的な制約に基づいた音声だけが生成される。つまり、生物としてあり得ない声が生成されないので、生物感のある声を生成できる。シミュレーションをおこない、音声を生成することによ
り、単に似ている音節を発声するだけでなく、ロボット100の内部状態の影響を受けた声を生成できる。
【0105】
ロボット100は、マイクロフォン521及びカメラ522を含むセンサ群を常に稼働させており、また、感情生成部51も常に稼働させている。このような状態で、ユーザがロボット100に話しかけることで、ロボット100のマイクロフォン521がその音をセンシングして音韻取得部53に音声信号を出力することで上記の処理が開始される。また、カメラ522がユーザの顔を撮影して音韻取得部53に画像信号を出力することで上記の処理が開始される。また、カメラ522が文字を撮影して音韻取得部53に画像信号を出力することで上記の処理が開始される。また、感情生成部51が、外部環境や内部パラメータに基づいて感情パラメータを生成して音韻取得部53に出力することで上記の処理が開始される。なお、センシング部52における外部環境の検出結果が、すべて音声を生成するためのトリガーになる訳ではなく、その時のロボット100の内部状態に応じて決められる。
【0106】
なお、上記の実施の形態では、音韻取得部53において、音声認識部531から音韻情報取得部536に言語情報を含む文字列が入力されたが、これに代えて、音声認識部531で認識された音韻列をそのまま音韻情報取得部536に入力し、音韻情報取得部536は、入力された音韻列をそのまま第1の音韻情報としてもよい。即ち、音声認識部531における自然言語処理を行わなくてもよい。
【0107】
また、上記の実施の形態では、センシング部52がマイクロフォン521とカメラ522とを備える構成を例示して説明したが、例えば、センシング部52としてサーモセンサを用いる場合には、センシング部52は温度を検知し、音韻取得部53は検知された温度に応じて「さむい」、「あつい」等の第1の音韻情報を取得してよく、センシング部52として臭いセンサを用いる場合には、センシング部52は臭いを検知し、音韻取得部53は検知された臭いに応じて「くさい」等の第1の音韻情報を取得してよい。
【0108】
また、上記の実施の形態では、オノマトペ生成部541において、第1の音韻情報の音韻に対応する感情パラメータのうちの最大の感情パラメータが共通する他の音韻を、感情パラメータが近い音韻として決定したが、他の音韻を決定する方法はこれに限られない。例えば、第1の音韻情報の音韻に対応する複数の感情パラメータの各々の差分が小さい(例えば、差分の合計が小さい)複数の感情パラメータを有する音韻を、感情パラメータが近い音韻として決定してもよい。また、オノマトペ生成部541は、第1の音韻情報の音韻に対応する感情パラメータと感情パラメータが大きく異なる音韻を決定してもよい。例えば、「怒り」の感情パラメータが強い音韻に対して、「悲しみ」の感情パラメータが強い音韻を決定してもよい。
【0109】
本実施の形態のロボット100によって、例えば、以下のような演出が可能となる。即ち、本実施の形態のロボット100では、音韻取得部53が音声認識、文字認識、物体認識等によって3音節の音韻を含む第1の音韻情報を取得したときに、音韻生成部54は、それらの3音節のうちの1音節を削除して、2音節の音韻からなる第2の音韻情報を生成する。これにより、ロボット100は、聞いた音声を少ない音節で模倣して出力することとなり、言語能力が低い乳幼児が、聞いた音声を不完全に模倣して出力しているかのような演出が可能となる。
【0110】
また、本実施の形態のロボット100では、音韻取得部53が他のロボットから出力された2音節の音声を認識して第1の音韻情報を取得したときに、音韻生成部54は、それらの2音節の音韻に対応する感情パラメータと近い、又は遠い感情パラメータを有する音韻を決定して第2の音韻情報を生成する。よって、このようなロボット100どうしが会
話をすることにより、ロボット100が互いに相手の感情に影響されて会話をしているような演出が可能となる。
【0111】
以下、上記のロボット100の種々の変形例を説明する。音韻取得部53は、マイクロフォン521から入力された音声信号の音高を認識して、音声合成部55は、入力された音声信号の音高と同じ音高の音声を合成してよい。例えば、マイクロフォン521から440Hzの音声信号が入力された場合に、音声合成部55は、同じ440Hzの音声を合成してよい。また、音声合成部55は、入力された音声信号の音高を所定のスケールに合わせた音声を合成してよい。例えば、マイクロフォン521から438Hzの音声が入力された場合に、音声合成部55は、440Hzの音声を合成してよい。
【0112】
また、音韻取得部53は、マイクロフォン521から入力された音声の音高変化を認識して、音声合成部55は、入力された音声信号の音高変化と同じ音高変化の音声を合成してよい。これにより、ロボット100が聞いた音のメロディを真似して発生しているような演出ができる。
【0113】
また、センシング部52が前輪102のトルクセンサを備え、音声合成部55は、このトルクセンサの値に応じて音声を生成してよい。例えば、ロボット100が障害物によって進行方向に進行できずに前輪のトルクが大きくなったときに、音声合成部55は、「うーん」等の踏ん張る音声を合成してよい。
【0114】
また、物体認識部533における人物認識において、画像において人物の顔が所定の大きさで突然認識された場合に、音声合成部55は、笑い声の音声を合成してよい。あるいは、画像において人物の顔が所定の大きさで突然認識された場合に、感情生成部51が「喜び」の感情パラメータを生成して音韻取得部53に出力して上記の処理により第1の音韻情報の取得及び第2の音韻情報の生成の処理を行って音声を合成してもよい。
【0115】
また、上記の実施の形態では、音韻取得部53は、カメラ522で撮影された画像から認識した文字及び認識した物体を表現する第1の音韻情報を取得したが、画像から物体を認識した場合に、当該物体に話しかける文字列を生成して第1の音韻情報を取得してもよい。例えば、音韻取得部53は、物体認識によって人物を認識した場合に、抱っこを要求する「だっこ」という第1の音韻情報を取得してもよい。また、音韻取得部53は、画像から物体を認識した場合に、当該物体に関連付けられた関連ワードの文字列を生成して第1の音韻情報を取得してよい。例えば、物体認識によって飛行機を認識した場合に、飛行機に関連付けられた「ぶーん」というオノマトペの第1の音韻情報を取得してよい。
【0116】
また、要求をする音声を出力した後に要求が満たされない場合に、音声合成部55は、音量や発話スピードなどが異なる音声を合成してよい。例えば、抱っこしてほしいという要求をする音声として「だこ」という音声を合成して出力した後に、抱っこされない場合に、音声合成部55は「だこー!」と語気を強くした音声を生成してよい。
【0117】
また、感情生成部51は、音声出力部56から音声を出力した後に、音声認識部531にてその音声と同じ音韻の音声を認識した場合に、「喜び」の感情を生成してよい。これにより、ロボット100の発声をユーザが真似た場合にロボット100が喜ぶような演出が可能となる。また、ロボット100は、音声出力部56から音声を出力した後に、ユーザのリアクションを検知して、当該出力した音声にスコアをつけて学習してよい。例えば、音声を出力した後に、物体認識部533が画像から笑顔を検出した場合には、当該音声に高スコアをつけて学習してよい。ロボット100は、例えば、高スコアの音声を優先して合成して出力するようにしてよい。
【0118】
また、物体認識部533が物体を認識するのと同時に音声認識部531が音声を認識した場合には、認識された物体と認識された音声とを関連付けて学習し、その後に当該物体を認識する。この場合に、音韻取得部53は、関連付けられた音声の第1の音韻情報を取得してよい。例えば、物体認識部533でコップを認識すると同時に音声認識部531で「こっぷ」という音声を認識した場合に、この組み合わせを学習して、その後に物体認識部533がコップを認識したときに、音韻取得部53は、「こっぷ」という第1の音韻情報を取得してよい。これにより、ユーザは、ロボット100に物の名称を教えてあげることができ、ロボット100がユーザから教えられた物の名称を学習するという演出が可能となる。
【0119】
また、学習を繰り返すことで、第1の音韻情報と第2の音韻情報との間の言語情報の情報量の減少量を小さくしていってよい。例えば、学習において、「おとうさん」という第1の音韻情報を取得した場合に、最初のうちは、第1の音韻情報の一部の音韻を削除するとともに、その順序も変更され、隣り合ってもいない「う」と「お」を順に並べた「うお」という第2の音韻情報を生成する。学習を重ねるごとに、例えば一部の音韻を削除しつつものその順序は変更されていないが相変わらず隣り合っていない「と」と「さ」を順に並べた「とさ」という第2の音韻情報を生成し、最終的には順序どおりに隣り合い、かつ特徴音(例えば、アクセントが強い音韻)からなる「お」と「と」を並べた「おと」とするなど、徐々に言語情報の情報量の減少量を小さくしていってよい。
【0120】
また、音声出力部56は、マイクロフォン521でセンシングされた音の音量に応じて出力する音声の音量を調整してよい。例えば、マイクロフォン521でセンシングされる音の音量が大きい場合には、出力する音声の音量を大きくしてよい。更に、音声出力部56は、音声認識部531で雑音と認識された音声の音量に応じて、出力する音声の音量を調整してもよい。即ち、雑音が大きい環境下では、出力する音声の音量を大きくしてよい。
【0121】
また、上記の実施の形態では、ロボット100が他のロボット100と会話を継続できることを説明したが、ロボット100どうしの会話をするために、各ロボット100がさらに以下の機能を有していてもよい。
【0122】
感情生成部51は、ロボット100どうしの会話におけるストーリを展開し、このストーリに沿って感情を生成してよい。そして、ロボット100は、音韻取得部53ないし音声出力部56の上記の機能によって感情を表現する音声を出力する。この感情生成部51におけるストーリの展開にもニューラルネットワーク等の機械学習モデルを用いてよい。
【0123】
音声合成部55は、マイクロフォン521から入力された他のロボット100の音声に合わせて音程が調和するように音声を合成してよい。これにより、複数台のロボット100が合唱しているような演出が可能となる。また、敢えて他のロボット100の音声の音程と異なる音程にすることで、音痴を演出することも可能である。
【0124】
また、音声合成部55は、通常の人間が使用しない音高の音声を合成してもよい。通常の人間の音声の音高は高くても500Hz程度であるが、ロボット100がこれより高い音高(例えば、800Hz程度)の音声を出力する。他のロボット100は、別のロボット100の発声であることを音高情報のみから認識することができる。例えば、ロボット100が追いかけっこをする際に、相手の呼び声や方向を認識する必要があるが、入力された音高が所定の範囲であれば、相手のロボット100の発声(「こっちに来いよ」等の意味になる)であることを認識できる。また、音高に更にパターン(音高のカーブ変化等)を組み合わせることで、より認識精度を上げることができる。また、音高のみで認識をする場合には、例えば救急車のサイレンの音を拾ってしまう可能性もあるが、逆に高い音
に無条件で反応することを動物的な行動の現れとして利用することもできる。
【0125】
また、音韻取得部53は、センシング部52からの入力信号や感情生成部51からの感情パラメータに基づいて第1の音韻情報を取得する。音韻取得部53は、さらに、入力信号や感情パラメータに基づいて、あるいは、他の情報に基づいて、音を構成する要素である音量、音高、音色の情報を取得してもよい。この場合には、音韻生成部54も、音韻取得部53が取得した音量、音高、音色の情報に基づいて、音声合成部55で合成する音声の音量、音高、音色を決定して音声合成部55に出力するようにしてよい。また、各音韻の長さ(話速)についても、音韻取得部53が取得して、取得した話速に基づいて音韻生成部54が音声出力部56で出力する音声の話速を決定するようにしてもよい。さらに、音韻取得部53は、言語ごとの特徴も、音を構成する要素として取得してよい。
【0126】
また、音韻取得部53は、マイクロフォン521から入力される音声信号に基づいて、旋律の有無(即ち、入力された音が歌ないしメロディであるか否か)を判定する機能を備えていてよい。この場合、音韻取得部53は、具体的には、所定の期間ごとに音高(ピッチ)の変化に応じてスコアをつけて、スコアに基づいて旋律があるか否か(即ち、歌を歌っているか否か)を判定する。音韻取得部53が入力された音声信号に旋律があると判定した場合には、音声合成部55は、認識された旋律を真似るように、合成する音声の各音韻の音長や音高を決定してよい。また、音韻取得部53が入力された音声信号に旋律があると判定した場合に、音韻生成部54は、あらかじめ決められた音韻で第2の音韻情報を生成する。そして、音声合成部55が認識された旋律を真似るように、合成する音声の各音韻の音長や音高を決定してよい。これにより、鼻歌を歌っているような演出が可能となる。
【0127】
また、音韻取得部53がセンシング部52からの入力信号に基づいて、日本語以外の言語の文字列を取得してよい。即ち、音声認識部531は、日本語以外の言語の音声を認識して、当該言語の文字列を生成してよく、文字認識部532は、日本語以外の言語の文字を認識して、当該言語の文字列を生成してよく、物体認識部533は、物体を認識して当該物体を表す日本語以外の言語の文字列を生成してよい。
【0128】
また、ロボット100は、ミミックの応答を所定回数(例えば5回)行ったときに、それ以前の所定回数(例えば、4回)のミミックを連続して返してよい。上述のように、ロボット100は、2音節の音声を出力するが、2音節のミミックのみを繰り返しているとユーザは飽きてくる可能性があるので、所定回数ごとに過去にミミックをして発声した音声をつなぎ合わせて発生してもよい。これにより、ユーザは、ロボット100が何かを離そうとしているように感じることができるという効果が期待できる。
【0129】
このために、ロボット100は、ミミックとして生成した第2の音韻情報を記憶する記憶部と、ミミックの回数をカウントするカウント部と、ミミックの回数が所定の回数(例えば5回)になったか否かを判定する判定部とを備え、音声合成部35は、判定部にてミミックの回数が所定の回数になったと判定されたときに、記憶部に記憶されたミミックを読み出して、それらを繋げて音声を合成する。
【産業上の利用可能性】
【0130】
本発明は、ロボットが音声を出力することによる他者との音声コミュニケーションにおいて、ロボットに対するユーザの愛着形成を促すことができ、音声を出力するロボット等として有用である。
【手続補正書】
【提出日】2024-06-17
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
マイクロフォンと、
前記マイクロフォンから入力される音声信号に基づいて、旋律の有無を判定する音韻取得部とを備えるロボット。
【請求項2】
前記音韻取得部は、所定期間ごとの音高の変化に応じて前記旋律の有無を判定するように構成されている請求項1記載のロボット。
【請求項3】
前記音韻取得部が入力された音声信号に旋律があると判定した場合、認識された旋律に基づいて音声を合成する音声合成部を備える請求項1記載のロボット。
【請求項4】
前記音韻取得部が入力された音声信号に旋律があると判定した場合、あらかじめ定められた音韻に基づいて音声を合成する音声合成部を備える請求項1記載のロボット。
【請求項5】
前記音韻取得部が入力された音声信号に旋律があると判定した場合、当該旋律をまねるように音声を合成する音声合成部を備える請求項1記載のロボット。