(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0021】
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
【0022】
本発明の実施形態に係る人工知能会話システムは、ユーザとの会話に基づいて動作するインタフェースを提供する電子機器によって実現されてよい。ここで、人工知能会話システムは、ユーザの感情に対応して豊かで自然な機械の表現を実現することができる。
【0023】
本発明の実施形態に係る人工知能会話方法は、上述した電子機器によって実行されてよい。ここで、電子機器では、本発明の一実施形態に係るコンピュータプログラムをインストールして駆動してよく、電子機器は、駆動されるコンピュータプログラムの制御に従って本発明の一実施形態に係る人工知能会話方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合され、人工知能会話方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に格納されてよい。
【0024】
図1は、本発明の一実施形態における、会話基盤インタフェースを活用したサービス環境の例を示した図である。
図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内のデバイスを連結して制御する技術において、ユーザとの会話に基づいて動作するインタフェースを提供する電子機器100が、ユーザ110の発話から受信した音声入力「電気消して」を認識及び分析し、家の中で電子機器100と内部ネットワークを介して連係する室内照明機器120であるライトの電源を制御する例を示している。
【0025】
例えば宅内のデバイスは、上述した室内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器のようなエネルギー消費装置、ドアロックや監視カメラのような保安機器など、オンライン上で連結して制御可能な多様なデバイスを含んでよい。また、内部ネットワークは、イーサネット(Ethernet)(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術、ブルートゥース(Bluetooth)(登録商標)、UWB(ultra Wide Band)、ジグビー(ZigBee)(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
【0026】
電子機器100は、宅内のデバイスのうちの1つであってよい。例えば電子機器100は、家の中に備えられた人工知能スピーカや会話ロボット、ロボット清掃機などのようなデバイスのうちの1つであってよい。また、電子機器100は、スマートフォン(smartphone)、携帯電話、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットなどのようなユーザ110のモバイル機器であってもよい。このように電子機器100は、ユーザ110の感情を認識し、これに対応する動作のために各種デバイスと連結可能な機能を含む機器であれば特に制限されることはない。また、実施形態によっては、上述したユーザ110のモバイル機器が宅内のデバイスとして含まれてもよい。
【0027】
図2は、本発明の一実施形態における、会話基盤インタフェースを活用したサービス環境の他の例を示した図である。
図2は、ユーザとの会話に基づいて動作するインタフェースを提供する電子機器100が、ユーザ110の発話から受信した音声入力「今日の天気」を認識及び分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で出力する例を示している。
【0028】
例えば外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。
【0029】
図2の実施形態でも、電子機器100は、宅内のデバイスのうちの1つであるか、ユーザ110のモバイル機器のうちの1つであってよく、ユーザ110の感情を認識して処理するための機能と、外部ネットワークを介して外部サーバ210に接続し、外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を含む機器であれば特に制限されることはない。
【0030】
このように、本発明の実施形態に係る電子機器100は、会話基盤インタフェースを利用してユーザ110の音声入力及び/又は顔映像を含むユーザ命令を処理することができる機器であれば特に制限されることはない。例えば電子機器100は、ユーザの感情を直接に認識及び分析し、これに対応する動作を実行することによってユーザ命令を処理してもよいが、実施形態によっては、ユーザの感情認識や分析、ユーザに提供される音声や情報合成などの処理を、電子機器100と連係する外部のプラットフォームで実行することも可能である。
【0031】
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。
図3は、電子機器310、クラウド人工知能プラットフォーム320及びコンテンツ・サービス330を示している。
【0032】
一例として、電子機器310は、宅内に備えられたデバイスを意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310でインストール及び駆動されるアプリケーション(以下、アプリとする)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310でインストール及び駆動されるアプリの開発のためのソフトウェア開発キット(SDK:Software Development Kit)及び/又は開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310でインストール及び駆動されるアプリが、クラウド人工知能プラットフォーム320の提供する機能を活用することができるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340によって提供されるソフトウェア開発キット(SDK)及び/又は開発文書を利用して開発した機器やアプリが、インタフェースコネクト340によって提供されるAPIを利用して、クラウド人工知能プラットフォーム320によって提供される機能を活用することを可能にする。
【0033】
ここで、クラウド人工知能プラットフォーム320は、会話基盤のサービスを提供するための機能を提供してよい。例えばクラウド人工知能プラットフォーム320は、受信した音声入力及び/又は顔映像を認識して出力する情報を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声入力及び/又は顔映像に従って適合する情報を出力するために適切な会話を決定するための会話処理モジュール323、受信した音声入力及び/又は顔映像に適合する機能を勧めるための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するようにサポートするニューラル機械翻訳(Neural Machine Translation:NMT)325などのように、会話基盤サービスを提供するための多様なモジュールを含んでよい。
【0034】
例えば
図1及び
図2の実施形態において、電子機器100は、ユーザ110の音声入力及び/又は顔映像を、インタフェースコネクト340で提供するAPIを利用してクラウド人工知能プラットフォーム320に送信してよい。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力及び/又は顔映像を、上述したモジュール(321〜325)を活用してユーザ110の感情を認識及び分析してよく、ユーザ110の感情に応じて適切な返答音声を合成して提供したり、適切な動作を勧めたりしてよい。
【0035】
また、拡張キット350は、第三者であるコンテンツ開発者又は会社がクラウド人工知能プラットフォーム320に基づいて新たな人工知能会話基盤機能を実現することが可能な開発キットを提供してよい。例えば
図2の実施形態において、電子機器100が受信したユーザ110の音声入力及び/又は顔映像を外部サーバ210に送信すると、外部サーバ210は、拡張キット350で提供されるAPIを利用してクラウド人工知能プラットフォーム320に音声入力及び/又は顔映像を送信してよい。この場合、上述したように、クラウド人工知能プラットフォーム320は、受信した音声入力及び/又は顔映像を認識及び分析して適切な返答情報を合成して提供したり、音声入力及び/又は顔映像に基づいて処理しなければならない機能に関する推薦情報を外部サーバ210に提供したりしてよい。一例として、
図2において、外部サーバ210が、音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信すると、クラウド人工知能プラットフォーム320では、音声入力「今日の天気」の認識によって抽出されるキーワード「今日」及び「天気」を受信してよい。この場合、外部サーバ210は、キーワード「今日」及び「天気」から「今日の天気は・・・」のようなテキスト情報を生成した後、生成したテキスト情報をクラウド人工知能プラットフォーム320に再び送信してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報から音声を合成して外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」が処理されるようになる。
【0036】
このとき、電子機器100は、音声入力及び/又は顔映像に対応するデバイス動作やコンテンツ提供のために、本発明の実施形態に係る人工知能会話方法を実行してよい。
【0037】
図4は、本発明の一実施形態における、電子機器及びサーバの内部構成を説明するためのブロック図である。
図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210やクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
【0038】
電子機器410とサーバ420は、メモリ411、421、プロセッサ412、422、通信モジュール413、423及び入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)及びディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMやディスクドライブのような永久大容量記憶装置は、メモリ411、421とは区分される、別の永久記憶装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器410にインストールされ、特定のサービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者又はアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
【0039】
プロセッサ412、422は、基本的な算術、ロジック及び入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421又は通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えばプロセッサ412、422は、メモリ411、421のような記録装置に格納されたプログラムコードに従って受信される命令を実行するように構成されてよい。
【0040】
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよいし、電子機器410及び/又はサーバ420が他の電子機器又は他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412が、メモリ411のような記録装置に格納されたプログラムコードに従って生成した要求が、通信モジュール413の制御に従ってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423とネットワーク430を経て電子機器410の通信モジュール213を通じて電子機器410に受信されてもよい。例えば通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410が更に含むことのできる格納媒体(上述した永久記憶装置)に格納されてよい。
【0041】
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば入力装置は、マイク、キーボード又はマウス、カメラなどの装置を、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結するかサーバ420が含むことのできる入力又は出力のための装置(図示せず)とのインタフェースのための手段であってよい。
【0042】
また、他の実施形態において、電子機器410及びサーバ420は、
図4の構成要素よりも少ないか、それよりも多い構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、全地球測位システム(GPS:Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素を更に含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合は、スマートフォンに一般的に含まれる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が電子機器410に更に含まれるように実現されてよい。
【0043】
本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイク及び/又はユーザの顔映像を受信するためのカメラを入力/出力装置415として基本的に含んでよく、ユーザの感情に対応する音声やオーディオコンテンツのような音を出力するためのスピーカ、ユーザの感情に対応する感情情報を視覚的に出力するためのディスプレイ、ユーザの感情に対応する動作情報を出力するためのデバイスのうちの少なくとも1つを入力/出力装置415として更に含んでよい。
【0044】
図5は、本発明の一実施形態における、人工知能会話方法の例を示したフローチャートである。本発明の実施形態に係る人工知能会話方法は、上述した電子機器410のようなコンピュータ装置によって実行されてよい。このとき、電子機器410のプロセッサ412は、メモリ411に含まれるオペレーティングシステムのコードや少なくとも1つのプログラムのコードによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ412は、電子機器410に格納されたコードが提供する制御命令に従って電子機器410が、
図5の人工知能会話方法に含まれる段階を実行するように電子機器410を制御してよい。
【0045】
段階S511において、電子機器410は、会話基盤インタフェースによってユーザの音声入力を受信してよい。例えば電子機器410は、会話基盤インタフェースとして、電子機器410に含まれるマイク又は電子機器410と連動するマイクのような音声入力装置により、ユーザの発話による音声入力を受信してよい。
【0046】
段階S512において、電子機器410は、会話基盤インタフェースによってユーザの顔映像を受信してよい。例えば電子機器410は、会話基盤インタフェースとして、電子機器410に含まれるカメラ又は電子機器410と連動するカメラのような映像入力装置により、ユーザの顔映像を受信してよい。
【0047】
段階S521において、電子機器410は、段階S511で受信した音声入力の文章の意図を抽出してよい。電子機器410は、ユーザの音声入力の文章自体に含まれる辞書的な意図を判断するものであって、一例として、文脈自由文法(context−free grammar)及び依存文法(dependency grammar)などを利用することで、認識された音声入力に対する文章の意図を分析してよい。電子機器410は、文脈自由文法を利用して各単語又は構文の意味役割(semantic role)及び各単語や構文の文法的関連性を把握してよく、依存文法を利用して文章の文法性又は意味的有効性を把握してよい。文章に文脈自由文法が適用されると、文章の単語又は構文に意味役割が付加され、文章全体に対して分析された意図が決定されてよい。上述した文章の意図を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
【0048】
段階S522において、電子機器410は、段階S511で受信した音声入力の文章から感情情報(以下、「文章感情情報」とする)を抽出してよい。ここで、文章感情情報は、感情種類と感情強度(感情程度)を含んでよい。感情を示す用語、すなわち感情用語は、事前に定められ、一定の基準に従って複数の感情種類(例えば喜び、悲しみ、驚き、悩み、苦しみ、不安、恐怖、嫌悪、怒りなど)のいずれかに分類され、感情用語の強弱に従って複数の感情強度の等級(例えば1〜10)のいずれかに分類されてよい。感情用語は、感情を示す特定の単語はもちろん、特定の単語を含んだ句節や文章などを含んでもよい。例えば「好きです」や「辛いです」のような単語、あるいは「とても好きです」のような句節や文章などが感情用語の範疇に含まれてよい。一例として、電子機器410は、ユーザの音声入力による文章から形態素を抽出した後、抽出された形態素から予め定められた感情用語を抽出し、抽出された感情用語に対応する感情種類と感情強度を分類してよい。電子機器410は、音声入力の文章に複数の感情用語が含まれる場合には、感情用語が属する感情種類と感情強度に応じて加重値を計算してよく、これに基づいて文章の感情情報に対する感情ベクトルを計算することにより、該当の文章を代表する感情情報を抽出してよい。上述した文章感情情報を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
【0049】
段階S523において、電子機器410は、段階S512で受信した顔映像から感情情報(以下、「顔感情情報」とする)を抽出してよい。電子機器410は、映像に基づいて顔の表情から感情種類と感情強度を含む顔感情情報を抽出してよい。顔の表情は、眉毛、目、鼻、口、肌のような顔の要素に変形が起こるときに発生する顔の筋肉の収縮によって現れるが、顔の表情の強度は、顔の特徴の幾何学的変化又は筋肉表現の密度によって決定されてよい。一例として、電子機器410は、表情による特徴を抽出するための関心領域(例えば目領域、眉毛領域、鼻領域、口領域など)を抽出した後、関心領域から特徴点(point)を抽出し、特徴点を利用して一定の特徴値を決定してよい。特徴値は、それぞれの特徴点の距離などによって人間の表情を示す特定の数値に該当する。電子機器410は、決定された特徴値を感情感応値モデルに適用するために、映像に示された特徴値に対する数値の程度に応じて一定の強度値を決定し、予め用意されたマッピングテーブルを利用して各特定値の数値にマッチングする一定の強度値を決定する。マッピングテーブルは、感情感応値モデルに応じて事前に用意される。電子機器410は、感情感応値モデルと強度値をマッピングさせ、該当の強度値を感情感応値モデルに適用した結果に従って決定された感情の種類と強度を抽出してよい。上述した顔感情情報を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
【0050】
段階S531において、電子機器410は、段階S522で抽出された文章感情情報と段階S523で抽出された顔感情情報を総合してユーザ感情を判断してよい。一例として、電子機器410は、文章感情情報と顔感情情報に従って加重値を計算してよく、これに基づいて総合的なユーザ感情を判断してよい。
【0051】
段階S532において、電子機器410は、段階S521で抽出された文章の意図と段階S531で判断されたユーザ感情を総合してユーザの最終意図を判断してよい。電子機器410は、文章の意図とユーザ感情に従って加重値を計算してよく、これに基づいて文章自体が示す辞書的な意図、音声入力による文章が示す感情、顔映像の表情が示す感情を総合することによって最終的な会話の意図を判断してよい。
【0052】
段階S541において、電子機器410は、ユーザの最終意図に対応する返答文章を選択してよい。返答文章は、意図別に複数の文章セットが事前に定められてよく、これにより電子機器410は、ユーザの最終意図に該当する文章セットのうちから、選択回数などを考慮した推薦方式、あるいはランダム推薦方式などによって返答文章を選択してよい。さらに、返答文章は、感情種類及び/又は感情強度に基づいて一定の基準に分類されてよく、これにより電子機器410は、ユーザの最終意図に含まれる感情種類及び/又は感情強度に対応する返答文章を選択することも可能である。上述した返答文章を選択する技術は例示的なものに過ぎず、これに限定されるものでもなく、学習に基づいてユーザの最終意図への返答文章を生成する技術などのように、周知の他の技術を利用することも可能である。
【0053】
段階S551において、電子機器410は、段階S541で選択された返答文章から感情情報(以下、「返答感情情報」とする)を抽出してよい。このとき、返答感情情報は、感情種類と感情強度を含んでよい。感情用語は、事前に定められ、一定の基準に従って複数の感情種類(例えば喜び、悲しみ、驚き、悩み、苦しみ、不安、恐怖、嫌悪、怒りなど)のいずれかに分類され、感情用語の強弱に従って複数の感情強度の等級(例えば1〜10)のいずれかに分類されてよい。一例として、電子機器410は、返答文章から形態素を抽出した後、抽出された形態素から事前に定められた感情用語を抽出し、抽出された感情用語に対応する感情種類と感情強度を分類してよい。電子機器410は、返答文章に複数の感情用語が含まれる場合には、それぞれの感情用語による感情種類と感情強度を抽出してよい。上述した返答感情情報を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
【0054】
段階S561において、電子機器410は、段階S531で判断されたユーザ感情に対応する即時呼応感情を判断してよい。電子機器410は、文章感情情報と顔感情情報を総合して判断したユーザ感情に対して即時に対応する感情を判断してよい。このとき、電子機器410は、ユーザの音声入力や顔映像をリアルタイムでトラッキングし、即時に呼応することができる感情を判断してよい。即時呼応感情に関する情報にも同じように、感情種類と感情強度が含まれてよい。例えばユーザが悲しい話をしたり悲しい顔をすれば「悲しみ」を、驚いた話をしたり驚いた顔をすれば「驚き」を即時呼応感情として決定してよい。したがって、電子機器410は、ユーザの音声入力及び/又は顔映像に基づいてリアルタイムで判断されるユーザ感情に対し、即刻で対応するための呼応感情を決定してよい。
【0055】
段階S570において、電子機器410は、段階S541で選択された返答文章と、段階S551で抽出された返答感情情報、及び段階S561で判断された即時呼応感情を組み合わせた統合返答情報を生成してよい。統合返答情報には、視覚的、聴覚的、触覚的出力などを行うことができる、可能な複数の互いに異なる情報が含まれてよく、一例として、音声返答、表情情報、動作情報などが含まれてよい。統合返答情報を生成する過程については、以下で具体的に説明する。
【0056】
段階S581において、電子機器410は、ユーザの最終意図に対し、電子機器410に含まれるスピーカ又は電子機器410と連動するスピーカのような音声出力装置から、統合返答情報による音声返答を出力してよい。
【0057】
段階S582において、電子機器410は、ユーザの最終意図に対し、電子機器410に含まれるディスプレイ又は電子機器410と連動するディスプレイのような映像出力装置から、統合返答情報による表情情報を出力してよい。例えば映像出力装置は、会話基盤インタフェースに、該当する所定のキャラクタを表示してよく、ユーザの音声入力や顔映像に対応する返答として該当のキャラクタに表情情報を反映させてよい。
【0058】
段階S583において、電子機器410は、ユーザの最終意図に対し、電子機器410に含まれるモータ制御動作装置又は電子機器410と連動するモータ制御動作装置から、統合返答情報による動作情報を出力してよい。例えば電子機器410が会話ロボットである場合、ユーザの最終意図に対応する統合返答情報に従って該当の返答に関連する動作を実行させてよい。
【0059】
電子機器410は、段階S570で組み合わせた統合返答情報を各種デバイスから出力してよい。例えば返答文章の音声ファイルは、スピーカから出力されてよく、返答文章から抽出された感情情報は、これに対応する表情アニメーションや動作のためにディスプレイ装置及びモータ制御動作装置のうちの少なくとも1つのデバイスから出力されてよい。
【0060】
図6は、本発明の一実施形態における、統合返答生成段階570の例を示したフローチャートである。
【0061】
段階S601において、電子機器410は、段階S541で選択された返答文章を音声ファイルに変換してよい。言い換えれば、電子機器410は、TTS(text to speech)音声合成機を利用して返答文章の音声ファイルを抽出してよい。
【0062】
段階S602において、電子機器410は、返答文章に含まれる感情用語の各々について、音声ファイル内における位置値を抽出してよい。電子機器410は、返答文章の音声ファイルにおいて感情用語が位置する地点を把握してよい。例えば、返答文章「嫌なことが多いと思いますが、いつか良いことが起こるでしょう」において、感情用語に該当する「嫌な」と「良い」の位置値をそれぞれ抽出してよい。
【0063】
段階S603において、電子機器410は、返答文章から抽出された返答感情情報、ユーザ感情に対応する即時呼応感情情報、返答文章の音声ファイル及び音声ファイル内の感情用語毎の位置値を利用することで、統合返答のための同期(synchronizing)を実行してよい。電子機器410は、音声ファイルにおける各感情用語の位置値に基づき、返答文章の音声ファイルと返答文章から抽出された返答感情情報とを同期してよい。一例として、電子機器410は、音声ファイルが出力される前に即時呼応感情を出力し、即時呼応感情が出力された後に音声ファイルを出力するが、音声ファイルの出力と共に、各感情用語の位置値に対応する時点に該当の感情が出力されるようにする返答出力制御情報を生成してよく、ユーザの最終意図に対応する統合返答がなされるように、上述した返答出力制御情報と共に、返答文章の音声ファイルを返答出力装置(例えば音声出力装置、映像出力装置、モータ制御動作装置など)に伝達してよい。このとき、返答出力装置では、装置別に定められた規則に従って、ユーザの最終意図に対応する返答データとして、返答出力制御情報に合わせて統合返答情報を出力してよい。
【0064】
図7〜
図9は、本発明の一実施形態における、統合返答情報の例を示した図である。
【0065】
図7は、ユーザの音声入力「好きな食べ物は何ですか?」に対して生成された統合返答情報の例を示したものである。
【0066】
図7の例では、ユーザの音声入力701「好きな食べ物は何ですか?」に対し、返答文章702として「チキンが大好きです!太るのは嫌ですが。」が選択され、音声入力701に対して即時呼応感情[悩み(種類)、5(強度)]が判断され、返答文章702に含まれる感情用語<大好きです>に対して感情情報[喜び、10]及び音声ファイル内の位置値0.5秒(sec)が抽出され、感情用語<嫌ですが>に対して感情情報[苦しみ、5]及び音声ファイル内の位置値1.5秒(sec)が抽出されたとする。
【0067】
これにより、電子機器410は、返答文章702の音声ファイル710を出力することに先立ち、音声入力701に対して直ちに即時呼応感情[悩み、5]を優先的に出力し、この後に音声ファイル710を出力するようになるが、音声ファイル710において感情用語<大好きです>が登場する0.5sec時点に感情[喜び、10]を出力し、続いて感情用語<嫌ですが>が登場する1.5sec時点に感情[苦しみ、5]を出力するための返答出力制御情報720を生成してよい。
【0068】
図8は、ユーザの音声入力「このごろ何だか憂鬱なの。」に対して生成された統合返答情報の例を示したものである。
【0069】
図8の例では、ユーザの音声入力801「このごろ何だか憂鬱なの。」に対し、返答文章802として「心配ですね。甘いチョコレートを食べてみては?気分が優れるかも。」が選択され、音声入力801に対して即時呼応感情[悲しみ、7]が判断され、返答文章802に含まれた感情用語<心配です>に対して感情情報[不安、5]及び音声ファイル内の位置値0.0secが抽出され、感情用語<優れるかも>に対して感情情報[喜び、5]及び音声ファイル内の位置値2.5secが抽出されたとする。
【0070】
これにより、電子機器410は、返答文章802の音声ファイル810を出力するに先立ち、音声入力801に対して直ちに即時呼応感情[悲しみ、7]を優先的に出力し、この後に音声ファイル810を出力するようになるが、音声ファイル810において感情用語<心配です>が登場する0.0sec時点に感情[不安、5]を出力し、続いて感情用語<優れるかも>が登場する2.5sec時点に感情[喜び、5]を出力するための返答出力制御情報820を生成してよい。
【0071】
図9は、ユーザの音声入力「週末は旅行に行くの!」に対して生成された統合返答情報の例を示したものである。
【0072】
図9の例では、ユーザの音声入力901「週末は旅行に行くの!」に対し、返答文章902として「楽しいご旅行を!車には気を付けて。」が選択され、音声入力901に対して即時呼応感情[驚き、5]が判断され、返答文章902に含まれた感情用語<楽しい>に対して感情情報[喜び、8]及び音声ファイル内の位置値0.0secが抽出され、感情用語<気を付けて>に対して感情情報[不安、5]及び音声ファイル内の位置値2.2secが抽出されたとする。
【0073】
これにより、電子機器410は、返答文章902の音声ファイル910を出力するに先立ち、音声入力901に対して直ちに即時呼応感情[驚異、5]を優先的に出力し、この後に音声ファイル910を出力するようになるが、音声ファイル910において感情用語<楽しい>が登場する0.0sec時点に感情[喜び、8]を出力し、続いて感情用語<気を付けて>が登場する2.2sec時点に感情[不安、5]を出力するための返答出力制御情報920を生成してよい。
【0074】
したがって、電子機器410は、ユーザの最終意図に対応する返答文章の音声ファイルを出力する過程において、音声ファイルの特定の領域で現れる特定の感情を音声形態、ディスプレイ形態、動作形態などで表現することができるし、返答音声を出力する前に、ユーザの音声入力及び/又は顔映像からリアルタイムで判断されるユーザ感情に対して即時に対応するための即時呼応感情を出力することができる。
【0075】
このように、本発明の実施形態によると、人間の感情を把握し、これに対応する多様な感情を音声、視覚、動作などのように統合情報で表現することのできる環境を通じ、人間−機械間の情緒的共感を促すことができる。
【0076】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、及び/又はハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置及び構成要素は、プロセッサ、コントローラ、算術論理演算装置(ALU:arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、フィールドプログラマグルゲートアレイ(FPGA:field programmable gate array)、プログラム可能論理ユニット(PLU:programmable logic unit)、マイクロプロセッサ、又は命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)及びOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理及び生成してもよい。理解の便宜のために、1つの処理装置が使用されるように説明されることがあるが、当業者には、処理装置が複数個の処理要素及び/又は複数種類の処理要素を含んでもよいことが理解されよう。例えば処理装置は、複数個のプロセッサ又は1つのプロセッサ及び1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0077】
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの1つ以上の組み合わせを含んでもよく、所望のとおりに動作するように処理装置を構成したり、独立的又は集合的に処理装置に命令したりしてよい。ソフトウェア及び/又はデータは、処理装置に基づいて解釈されたり、処理装置に命令又はデータを提供したりするために、任意の種類の機械、コンポーネント、物理装置、コンピュータ格納媒体又は装置に具現化されてよい。ソフトウェアは、ネットワークに接続したコンピュータシステム上に分散され、分散された状態で格納されて実行されてもよい。ソフトウェア及びデータは、1つ以上のコンピュータ読み取り可能な記録媒体に格納されてもよい。
【0078】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータによって実行可能なプログラムを継続して格納するか、実行又はダウンロードのために一時的に格納するものであってもよい。また、媒体は、単一又は数個のハードウェアが結合した形態の多様な記録手段又は格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されるものではなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープのような磁気媒体、CD−ROM及びDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、及びROM、RAM、フラッシュメモリなどを含み、プログラム命令語が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを流通するアプリストア、他の多様なソフトウェアを供給又は流通するサイト、サーバなどで管理する記録媒体又は格納媒体も挙げられる。
【0079】
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正及び変形が可能であろう。例えば説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたり又は組み合わされたり、他の構成要素又は均等物によって代替又は置換されたとしても、適切な結果を達成することができる。
【0080】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。