(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2026085697
(43)【公開日】2026-05-25
(54)【発明の名称】システム
(51)【国際特許分類】
G06Q 50/20 20120101AFI20260518BHJP
G10L 15/00 20130101ALI20260518BHJP
G08B 25/04 20060101ALI20260518BHJP
G08B 21/02 20060101ALI20260518BHJP
【FI】
G06Q50/20
G10L15/00 200B
G08B25/04 K
G08B21/02
【審査請求】未請求
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2024198492
(22)【出願日】2024-11-13
(71)【出願人】
【識別番号】591280485
【氏名又は名称】ソフトバンクグループ株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】星野 静
【テーマコード(参考)】
5C086
5C087
5L050
【Fターム(参考)】
5C086AA22
5C086CA09
5C086CB26
5C086FA06
5C086FA17
5C087AA09
5C087AA10
5C087AA37
5C087DD03
5C087EE14
5C087FF01
5C087FF02
5C087GG08
5C087GG09
5C087GG10
5C087GG17
5C087GG66
5C087GG84
5L050CC11
5L050CC20
5L050CC34
5L050CC46
(57)【要約】
【課題】システムを提供する。
【解決手段】
ユーザーからの音声入力をテキストデータに変換する手段と、
ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいてレシピを生成する手段と、
生成されたレシピを視覚および音声指示として表示する手段と、
ユーザーの操作をモニタリングし、危険な状況を検出する手段と、
検出された危険に対して警告を発する手段と、
を含むシステム。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザーからの音声入力をテキストデータに変換する手段と、
ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいてレシピを生成する手段と、
生成されたレシピを視覚および音声指示として表示する手段と、
ユーザーの操作をモニタリングし、危険な状況を検出する手段と、
検出された危険に対して警告を発する手段と、
を含むシステム。
【請求項2】
ユーザーからの問い合わせに対する応答を生成する手段を備えた、請求項1記載のシステム。
【請求項3】
ユーザーのスキルレベルに応じたレシピの調整を行う手段を備えた、請求項1記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の技術は、システムに関する。
【背景技術】
【0002】
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
現代の社会において、共働き家庭や多忙な親が増加しており、留守番をする子供たちが自分で安全に食事を準備する必要性が高まっている。しかし、料理の経験が浅い子供にとって、食材の取り扱いや調理プロセスに伴う危険性は依然として高く、安全で健康的な食事を準備することが困難である。このため、子供が安全に料理を学び、親がいない状況でも安心して調理を行える環境の提供が求められている。
【課題を解決するための手段】
【0005】
本発明は、ユーザーの音声入力をテキストデータに変換する音声認識技術を用いることで、子供が作成したい料理を簡単に選択できる手段を提供する。さらに、ユーザーの年齢、技量、アレルギー情報、並びに所持する材料に基づいてレシピを生成し、そのレシピを視覚および音声によるガイドとして提供する手段を具備することで、料理初心者でも理解しやすい調理手順を示す。加えて、調理中のユーザーの動作をモニタリングし、安全を確保するための危険検知と警告発信の手段を用意することで、料理中の事故を未然に防ぐ。これにより、子供が楽しみながら安全に料理を学び、自立して調理を行うことを可能にする。
【0006】
「音声入力」とは、ユーザーが話した言葉を機械に取り込むためのデータ形式である。
【0007】
「テキストデータ」とは、情報を文字列として表現するデータ形式である。
【0008】
「ユーザー」とは、システムを利用する子供を含む任意の利用者である。
【0009】
「年齢」とは、ユーザーの生まれてからの経過年数を示す情報である。
【0010】
「技量」とは、ユーザーが持つ特定の能力やスキルのレベルを示す情報である。
【0011】
「アレルギー情報」とは、ユーザーが特定の食品または物質に対して過敏反応を示す情報である。
【0012】
「材料」とは、料理を作るために使用される食材や成分である。
【0013】
「レシピ」とは、料理を作るための手順や使用する材料の指示を含む情報である。
【0014】
「視覚指示」とは、画面上に表示されるイラストやテキストでユーザーに手順を示す情報である。
【0015】
「音声指示」とは、音声を通じてユーザーに手順や注意を伝える情報である。
【0016】
「モニタリング」とは、ユーザーの動作や環境を常時観察し、記録することである。
【0017】
「危険」とは、ユーザーに害を及ぼす可能性がある状況を示す概念である。
【0018】
「警告」とは、危険があることをユーザーに伝え、注意を促すためのメッセージである。
【図面の簡単な説明】
【0019】
【
図1】第1実施形態に係るデータ処理システムの構成の一例を示す概念図である。
【
図2】第1実施形態に係るデータ処理装置及びスマートデバイスの要部機能の一例を示す概念図である。
【
図3】第2実施形態に係るデータ処理システムの構成の一例を示す概念図である。
【
図4】第2実施形態に係るデータ処理装置及びスマート眼鏡の要部機能の一例を示す概念図である。
【
図5】第3実施形態に係るデータ処理システムの構成の一例を示す概念図である。
【
図6】第3実施形態に係るデータ処理装置及びヘッドセット型端末の要部機能の一例を示す概念図である。
【
図7】第4実施形態に係るデータ処理システムの構成の一例を示す概念図である。
【
図8】第4実施形態に係るデータ処理装置及びロボットの要部機能の一例を示す概念図である。
【
図9】複数の感情がマッピングされる感情マップを示す。
【
図10】複数の感情がマッピングされる感情マップを示す。
【
図11】実施例1におけるデータ処理システムの処理の流れを示すシーケンス図である。
【
図12】応用例1におけるデータ処理システムの処理の流れを示すシーケンス図である。
【
図13】感情エンジンを組み合わせた場合の実施例2におけるデータ処理システムの処理の流れを示すシーケンス図である。
【
図14】感情エンジンを組み合わせた場合の応用例2におけるデータ処理システムの処理の流れを示すシーケンス図である。
【発明を実施するための形態】
【0020】
以下、添付図面に従って本開示の技術に係るシステムの実施形態の一例について説明する。
【0021】
先ず、以下の説明で使用される文言について説明する。
【0022】
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、APU(Accelerated Processing Unit)等が挙げられる。
【0023】
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。
【0024】
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。
【0025】
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。
【0026】
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
【0027】
[第1実施形態]
【0028】
図1には、第1実施形態に係るデータ処理システム10の構成の一例が示されている。
【0029】
図1に示すように、データ処理システム10は、データ処理装置12及びスマートデバイス14を備えている。データ処理装置12の一例としては、サーバが挙げられる。
【0030】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0031】
スマートデバイス14は、コンピュータ36、受付装置38、出力装置40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、受付装置38、出力装置40、及びカメラ42も、バス52に接続されている。
【0032】
受付装置38は、タッチパネル38A及びマイクロフォン38B等を備えており、ユーザ入力を受け付ける。タッチパネル38Aは、指示体(例えば、ペン又は指等)の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン38Bは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部46Aは、タッチパネル38A及びマイクロフォン38Bによって受け付けたユーザ入力を示すデータをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が、ユーザ入力を示すデータを取得する。
【0033】
出力装置40は、ディスプレイ40A及びスピーカ40B等を備えており、データをユーザ20が知覚可能な表現形(例えば、音声及び/又はテキスト)で出力することでデータをユーザ20に対して提示する。ディスプレイ40Aは、プロセッサ46からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ40Bは、プロセッサ46からの指示に従って音声を出力する。カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。
【0034】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。
【0035】
図2には、データ処理装置12及びスマートデバイス14の要部機能の一例が示されている。
【0036】
図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。
【0037】
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
【0038】
スマートデバイス14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。受付出力プログラム60は、データ処理システム10によって特定処理プログラム56と併用される。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0039】
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0040】
この発明は、子供が安全に料理を学び、自立して調理を行うためのシステムであり、音声入力、テキスト変換、レシピ生成、視覚および音声ガイド、危険検知、警告発信の各機能を統合している。システムは主にサーバ、端末、ユーザから構成されている。
【0041】
サーバは、システムの中核を担い、ユーザの入力を処理するAIモデルをホストする。ユーザの音声入力がテキストデータに変換されると、サーバはそのデータを参照し、レシピデータベースから関連情報を取得する。さらに、ユーザの年齢、技量、アレルギー情報に基づいてレシピをカスタマイズする。サーバは最終的なレシピと料理手順をフォーマットし、視覚および音声ガイドとして端末に送信する。
【0042】
端末は、ユーザによって操作されるデバイスであり、視覚的なアニメーションや音声ガイドを通じてユーザとサーバ間のインターフェースを提供する。端末はサーバから送られてきたレシピと手順を受け取り、ユーザに対して逐次的に提示する。ユーザの進行状況に応じて、次のステップへとガイドし、必要に応じて警告を発信する。
【0043】
ユーザは、システムの中心的な利用者であり、端末を通じてシステムと対話し、自らの希望に沿った料理を実行する。例えば、ユーザが「チョコレートクッキーを作りたい」と端末に入力すると、システム全体のプロセスが開始される。ユーザは端末上のガイドに従い、材料を準備し、指示に基づいて調理を進める。包丁を使う際やオーブンの温度設定といった危険性の高いステップでは、端末がリアルタイムで注意喚起を行うことができる。
【0044】
このように本システムは、視覚的および音声的な補助を組み合わせることで、ユーザが容易に料理を学び、安全かつ効率的に調理を進めることを可能にするシステムの実施形態を提供する。
【0045】
以下に、処理の流れについて説明する。
【0046】
ステップ1:
【0047】
ユーザが端末に向かって希望する料理名を音声で入力する。例えば、「チョコレートクッキーを作りたい」と発話する。
【0048】
ステップ2:
【0049】
端末がユーザの音声を録音し、音声認識技術を使用してテキストデータに変換する。このテキストデータには料理名が含まれる。
【0050】
ステップ3:
【0051】
端末が変換されたテキストデータを含むリクエストをサーバに送信する。このリクエストには、ユーザ情報(年齢、技量、アレルギー情報など)も含まれる。
【0052】
ステップ4:
【0053】
サーバがリクエストを受け取り、ユーザ情報に基づいて適切なレシピをデータベースから取得する。さらに、ユーザのニーズに合わせてレシピをカスタマイズする。
【0054】
ステップ5:
【0055】
サーバがカスタマイズしたレシピと調理手順を視覚および音声ガイド形式にフォーマットし、端末へ送信する。
【0056】
ステップ6:
【0057】
端末が送られてきたデータを受け取り、ユーザに視覚的なアニメーションと音声ガイドを提供する。これにより、ユーザはステップごとに指示を受けながら調理を進める。
【0058】
ステップ7:
【0059】
ユーザが端末の指示に基づいて、材料を集め、調理を開始する。ガイドに従って具体的な手順を実行する。
【0060】
ステップ8:
【0061】
端末がユーザの調理中の動作をモニタリングし、包丁や火器を使用する際などの危険を検知した場合に警告を発信することで、安全を確保する。
【0062】
ステップ9:
【0063】
ユーザが不明点や質問がある場合、端末に音声で問い合わせを行う。例えば、「次は何をすればいいの?」と尋ねる。
【0064】
ステップ10:
【0065】
サーバがユーザの質問を受け取って適切な応答を生成し、端末に送信する。
【0066】
ステップ11:
【0067】
端末がサーバからの応答を音声と視覚でユーザに伝え、調理プロセスをサポートする。
【0068】
ステップ12:
【0069】
ユーザが全ての調理ステップを完了し、料理が完成する。端末が「お疲れ様です。料理が完成しました!」と通知してフィードバックを提供する。
【0070】
(実施例1)
【0071】
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0072】
この発明が解決しようとする課題は、未熟な技能を持つユーザ、特に子供が安全かつ効果的に料理を学ぶことが困難であるという点である。料理手順の不適切な理解や危険な調理工程における事故のリスクを低減し、ユーザが自信を持って調理に取り組める支援が必要である。
【0073】
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0074】
この発明では、サーバは、ユーザ入力音声を文字データに変換する処理装置と、年齢、技能レベル、健康情報を基に料理手順を構成する処理装置と、生成された料理手順を表示および音声で提供する処理装置と、を含む。これにより、ユーザは自らの状況や能力に応じた安全で効果的な料理体験を享受することが可能となる。
【0075】
「ユーザ入力音声の文字データへの変換」とは、ユーザが発する音声をデジタル信号として認識し、これをテキスト形式に変換する処理である。
【0076】
「年齢、技能レベル、健康情報を基にした料理手順の構成」とは、ユーザの属性に応じて最適なレシピや手順を選定し、調理の学習と実践を支援するためにこれをカスタマイズすることである。
【0077】
「生成された料理手順の表示および音声での提供」とは、ユーザが理解しやすいように視覚および音声によって提供されるインターフェースで、調理手順を案内することである。
【0078】
「ユーザの作業状況の監視」とは、ユーザの調理過程を追跡し、プロセスの進捗や安全性を評価することである。
【0079】
「安全性に関する脅威の検知」とは、調理中の危険性が伴う行動や状態を検知し、事故を未然に防ぐためのプロセスである。
【0080】
「注意喚起の実施」とは、ユーザに対し、音声または視覚の手段を用いて注意を促し、安全に調理を進めるよう警告を行うことである。
【0081】
本発明は、ユーザが安全に料理を学び自立して調理できることを目的としたシステムである。このシステムは、サーバ、端末、ユーザから構成される。
【0082】
サーバは、システムの中心的な役割を果たし、ユーザ入力音声を文字データに変換するための音声認識APIを利用する。ここでは、音声データをGoogle(登録商標)の音声認識APIや一般的な音声認識ソフトウェアを使用してテキストデータに変換する。このテキストデータを基に、生成AIモデルを使用してレシピを生成する。生成AIモデルとしては、一般的な自然言語処理モデルが利用可能であり、プロンプト文としては「8歳の子供向けに、簡単で安全なチョコレートクッキーのレシピを生成して」が挙げられる。さらに、サーバはデータベースにアクセスし、ユーザの年齢、技能レベル、健康情報を考慮したレシピのカスタマイズを行う。カスタマイズされたレシピは視覚ガイドと音声ガイドとしてフォーマットされ、端末に送信される。
【0083】
端末は、サーバから送信された視覚および音声ガイドを用いて、ユーザに対して手順を案内するデバイスである。タブレットやスマートフォンなどのデバイス上で、アニメーションや音声による逐次的な指導が行われる。端末は、ユーザの調理進行をモニターし、必要に応じて安全性に関する注意喚起を行うことが可能である。例えば、包丁を使用する際には、端末がリアルタイムで注意を促す音声警告を発する。
【0084】
ユーザは、端末を操作しガイドに従って調理を行う主体である。ユーザは端末に向かって希望する料理内容を音声で入力し、提供されるガイドに基づいて材料を用意し、手順に従って安全に調理を進める。具体的な例として、「チョコレートクッキーを作りたい」と希望をサーバに伝え、提供されるレシピと手順に従って調理を進めていく。
【0085】
このようにして、本システムはユーザが理解しやすく、安全に料理を学ぶための支援を提供することが可能である。
【0086】
実施例1における特定処理の流れについて
図11を用いて説明する。
【0087】
ステップ1:
【0088】
ユーザは、端末に向かって希望する料理内容を音声で入力する。例えば、「チョコレートクッキーを作りたい」と話しかける。この音声が入力データとなる。
【0089】
ステップ2:
【0090】
端末は、録音された音声データをデジタル信号としてサーバに送信する。これがサーバへの入力となる。
【0091】
ステップ3:
【0092】
サーバは、音声認識APIを利用して受け取った音声データをテキストデータに変換する。この変換処理により、「チョコレートクッキーを作りたい」というテキストが出力される。ここで、音声入力というアナログデータがデジタルなテキストデータへ加工される。
【0093】
ステップ4:
【0094】
サーバは、生成AIモデルにプロンプト文を入力する。「8歳の子供向けに、簡単で安全なチョコレートクッキーのレシピを生成して」というプロンプトに基づき、AIモデルがレシピデータを生成する。これが次の処理の入力データとなる。
【0095】
ステップ5:
【0096】
サーバは、生成されたレシピデータを確認し、ユーザのプロフィール情報(年齢、技能レベル、健康情報)を考慮してレシピをカスタマイズする。例えば、子供が使いやすいように材料の重量を調整したり、工程を簡易化するといった加工が行われる。これにより、ユーザに最適化されたレシピが出力される。
【0097】
ステップ6:
【0098】
サーバは、カスタマイズされたレシピを視覚および音声ガイドとしてフォーマットし、端末に送信する。これが端末への入力データである。
【0099】
ステップ7:
【0100】
端末は、受け取ったガイドデータをもとに、ユーザに対して視覚および音声で料理手順を案内する。レシピ順にしたがってアニメーションや音声で各ステップを分かりやすく表示する。
【0101】
ステップ8:
【0102】
端末は、ユーザの操作状況をリアルタイムで監視し、危険が伴う工程では音声警告や画面表示により注意を促す。例えば、包丁を使う場面やオーブンの加熱に関する警告を出す。この出力はユーザの安全を確保するためのものである。
【0103】
ステップ9:
【0104】
ユーザは、視覚および音声ガイドにしたがって調理を進める。これにより、ユーザは安全で効果的に料理を完成させることが可能となる。出力として、完成した料理が結果となる。
【0105】
(応用例1)
【0106】
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0107】
子供が安全に効果的に料理を学ぶための支援システムにおいて、子供の年齢や技術レベルに応じた柔軟な料理手順の提供、およびリアルタイムでの危険検知と警告を可能とすることが求められている。また、インタラクティブなインターフェースを用いて、子供の興味を引き出すとともに、料理への主体的な参加を促進する方法が必要である。
【0108】
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0109】
この発明では、サーバは、ユーザーからの音声入力をテキストデータに変換する手段と、ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいて料理手順を生成する手段と、生成された料理手順を視覚および音声指示として表示する手段と、ユーザーの操作を監視し、危険な状況を検出する手段と、を含む。これにより、子供が安全かつ興味深く料理を学ぶことが可能となる。
【0110】
「ユーザーからの音声入力をテキストデータに変換する手段」とは、音声形式の情報をデジタルテキスト形式に変換する技術を指す。
【0111】
「ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいて料理手順を生成する手段」とは、ユーザーに合わせた最適な料理手順を作成するアルゴリズムまたはプログラムを指す。
【0112】
「生成された料理手順を視覚および音声指示として表示する手段」とは、生成された指示をユーザーに視覚的および聴覚的に伝達するための表示装置またはプログラムを指す。
【0113】
「ユーザーの操作を監視し、危険な状況を検出する手段」とは、ユーザーの行動を追跡し、安全性を判断するためのセンサーやソフトウェアによる監視機能を指す。
【0114】
「ヴィジュアルインターフェースを提供するための手段」とは、ユーザーとシステムの間の情報のやりとりを視覚的に行うためのデザインまたはプラットフォームを指す。
【0115】
「ユーザーの行動を追跡し、所定の判断基準に基づいて安全性を評価する手段」とは、行動ログを分析し、安全性について自動的に判断するためのアルゴリズムまたはシステムを指す。
【0116】
本発明を実施するためのシステムは、サーバ、端末、ユーザの3つの主要な要素から構成されている。サーバは、システムの中核を担う部分であり、ユーザの提供する音声入力をテキストに変換し、それに基づいて料理手順を生成する。具体的には、サーバはGoogle Speech-to-Text APIを利用して音声をテキストデータに変換する。このテキストデータは、サーバ内でホストされるAIモデル、例としてOpenAI(登録商標)のGPT-3(登録商標)を用いることができる、を用いたレシピ生成エンジンによって処理される。エンジンは、ユーザの年齢、技量、アレルギー情報、および保有材料を考慮に入れ、最適な料理手順を生成する。
【0117】
端末は、ユーザとのインターフェースを担う装置である。端末はサーバから送信された料理手順を受信し、視覚および音声でユーザにガイドするためにUnityやFlutter(登録商標)といった開発プラットフォームを利用することができる。また、端末はSpeech Synthesis APIを用いて音声ガイドを実現する。ユーザの行動をリアルタイムで監視し、OpenCVなどのライブラリを使用して危険な状況を認識し、警告を発信する機能も備えている。
【0118】
ユーザは、端末を通じてシステムと対話し、自らが希望する料理を安全に学び進めるために、このシステムを利用する。例えば、8歳の子供が「スパゲッティを作りたい」とリクエストした場合、AIモデルは以下のプロンプト文を受け取る:「子供がスパゲッティを安全かつ簡単に作れるレシピを考えてください。年齢は8歳で、使用する機材は家庭用のものに限ります。」システムはこの情報をもとに、子供向けの安全で理解しやすい手順を生成し、端末を通じて視覚と音声で案内する。このようにして、本発明は、ユーザが興味を持ち、能動的に料理を学べる環境を提供することが可能である。
【0119】
応用例1における特定処理の流れについて
図12を用いて説明する。
【0120】
ステップ1:
【0121】
ユーザは、端末に料理の情報を音声入力する。この音声入力は、ユーザのリクエストに基づくもので、具体的には作りたい料理や要求事項を含む。
【0122】
ステップ2:
【0123】
端末は音声データをGoogle Speech-to-Text APIを用いてテキストデータに変換する。この変換により、音声の内容がサーバで理解可能なデジタル形式となる。入力は音声データであり、出力は対応するテキストデータである。
【0124】
ステップ3:
【0125】
サーバは入力テキストを受け取り、AIモデル(例:OpenAI GPT-3)を用いてプロンプト文を生成する。このプロンプト文には、ユーザの要求に基づいて最適化された料理手順を出力するための情報が含まれる。入力は変換されたテキストであり、出力はプロンプト文である。
【0126】
ステップ4:
【0127】
サーバは生成したプロンプト文を用いて、AIモデルに基づいてカスタマイズされた料理手順を生成する。このプロセスでは、ユーザの年齢、技量、アレルギー情報、および保有材料を考慮する。入力はプロンプト文であり、出力は最適化された料理手順である。
【0128】
ステップ5:
【0129】
端末は、サーバから送信された料理手順を受け取り、UnityやFlutterを利用して視覚および音声ガイドを生成する。このガイドは、ユーザが直感的にステップを理解しやすくするためのものである。入力はカスタマイズされた料理手順であり、出力は視覚および音声インターフェースである。
【0130】
ステップ6:
【0131】
ユーザは、端末のガイドに従い、料理を進める。端末は、ユーザの操作や動作をリアルタイムで監視し、OpenCVライブラリなどを使用して危険な状況を検出する。入力はユーザの動作データであり、出力は危険時の警告アラートである。
【0132】
ステップ7:
【0133】
端末が危険を検出した場合、即座に音声と視覚で警告を発し、ユーザに対して適切な安全措置を促す。この時、ユーザの進行を一時停止し、状況が安全になるまで次のステップをガイドしない。入力は危険検出情報であり、出力は警告インターフェースである。
【0134】
更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
【0135】
この発明は、子供を含むユーザが安全に料理を学び、自立して調理を行うことを可能にするシステムである。システムは、音声入力をテキストデータに変換する、ユーザの年齢や技量、アレルギー情報、保有材料に基づきレシピを生成する、そして視覚および音声ガイドを提供する手段を持つ。また、ユーザの操作をモニタリングして危険を検出し、それに対して警告を発信する機能を備えている。これに加えて、本発明は感情エンジンを組み込み、ユーザの感情を認識してシステムの動作を調整する新たな能力を提供する。
【0136】
サーバは、ユーザの音声入力を受信し、音声認識技術を用いてテキストデータに変換する。これに基づいて、サーバはユーザデータを参照し、適切なレシピをデータベースから取得しカスタマイズする。サーバはさらに、感情エンジンを用いてユーザの感情状態を分析し、ユーザの感情に応じたレシピの提案や調整を行う。その結果を視覚および音声ガイド形式にフォーマットして端末に送信する。
【0137】
端末は、サーバから送られてきたデータを基に、ユーザに視覚的なアニメーションと音声ガイドを提供する。端末はユーザがどのような感情状態にあるかを把握し、その状態に応じてガイドのトーンや内容を調整する。例えば、ユーザが不安な場合は、より詳細な説明や励ましの言葉を提供することが可能である。また、端末はユーザの操作状況をモニタリングし、センサーやカメラを通じて危険を検出した場合には、警告を発信する。感情エンジンはここでも重要な役割を担い、警告の優先度や伝え方をユーザの精神状態に合わせて調整する。
【0138】
ユーザは、料理を開始する際に端末で希望する料理名を入力する。その後、端末の指示に従って調理を進めるが、特に感情的に不安定な場合や初めての作業に対し、端末がユーザの感情を考慮したサポートを提供する。例えば、料理が思うように進まない時に、端末がユーザの感情を感知して、「大丈夫、リラックスして進めていきましょう」といったサポートを行う。
【0139】
こうした総合的な機能により、本システムは、ユーザが単に料理を学ぶだけでなく、感情面でのサポートを受けながら安全で楽しい調理体験を提供することができる。
【0140】
以下に、処理の流れについて説明する。
【0141】
ステップ1:
【0142】
ユーザが端末に向かって作りたい料理を音声で入力する。例:「ラザニアを作りたい」と発話する。
【0143】
ステップ2:
【0144】
端末がユーザの音声を録音し、音声認識エンジンを使用して音声データをテキストデータに変換する。このテキストにはユーザの料理希望が含まれる。
【0145】
ステップ3:
【0146】
端末が変換されたテキストデータをサーバに送信し、ユーザ情報、年齢、スキルレベル、アレルギー情報を含むリクエストを送る。
【0147】
ステップ4:
【0148】
サーバがリクエストを受信し、データベースから該当するレシピを取得する。ユーザのスキルレベルに応じてレシピを調整し、次にレシピをカスタマイズする。
【0149】
ステップ5:
【0150】
サーバがユーザの年齢、スキルレベル、アレルギー情報に基づいてレシピをカスタマイズし、感情エンジンを使用して、ユーザの感情を推定するために追加のデータ(例:音声や表情)を分析する。
【0151】
ステップ6:
【0152】
サーバが分析したユーザの感情に基づき、調整されたレシピとガイドを音声および視覚データとしてフォーマットし、端末に送信する。
【0153】
ステップ7:
【0154】
端末がサーバからのデータを受信し、画面上にレシピ手順を視覚的に表示し、ユーザに音声ガイドを提供する。ユーザの感情状態に調整された穏やかなトーンで指示を行う。
【0155】
ステップ8:
【0156】
ユーザが端末の視覚および音声ガイドに従い、調理工程を実行する。材料を集めたり、指示に従って作業を進める。
【0157】
ステップ9:
【0158】
端末がセンサーやユーザのフィードバックを通じてユーザの操作をモニターし、包丁や火器の使用など危険が予測される場合に警告を発する。ユーザの感情に合わせて警告の強さを調整する。
【0159】
ステップ10:
【0160】
ユーザが調理中に疑問があれば端末に問い合わせる。例えば、「もっと詳しく教えて」といった形で質問をする。
【0161】
ステップ11:
【0162】
サーバがユーザの質問を受け取り、その内容を解析して、適切な答えを生成し、端末に送信する。
【0163】
ステップ12:
【0164】
端末がサーバからの応答を音声およびテキストでユーザに伝え、料理の進行をサポートする。
【0165】
ステップ13:
【0166】
ユーザが全ての工程を完了し、料理を仕上げる。端末が「素晴らしいですね!料理が完成しました!」とフィードバックを提供し、ユーザを称賛する。
【0167】
(実施例2)
【0168】
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0169】
現代社会において、料理を安全に学び、実践することは重要なスキルである。しかし、特に子供や料理初心者にとっては、料理の過程で使用する道具や加熱器具による危険性が存在するため、安心して学習することが難しい。また、学習者のスキルレベルや精神状態に応じて適切に調整されたガイドを提供することができないため、個別のニーズに対応することが困難である。これにより、料理学習のプロセスが不十分でストレスフルなものとなり、結果的に学習意欲の低下や安全確保の失敗を招く可能性がある。
【0170】
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0171】
この発明では、サーバは、音響入力を文字情報に転換する手段と、利用者の年齢、技術レベル、アレルギー情報、並びに保有材料に基づいて手順を生成する手段と、生成された手順を視覚及び音声で案内する手段と、を含む。これにより、利用者の安全確保をしつつ、個々の利用者に対して最適化された調理学習環境を提供することが可能となる。
【0172】
「音響入力を文字情報に転換する手段」とは、利用者が発する音声データをデジタルテキストに変換する技術を指し、音声認識技術を利用して音声を文字化する機能を有するものである。
【0173】
「文字情報」とは、音声データから変換され、デジタル形式で記録されたテキストデータを指し、サーバにおけるさらなる処理や分析を可能にするものである。
【0174】
「利用者の年齢、技術レベル、アレルギー情報、並びに保有材料に基づいて手順を生成する手段」とは、個々の利用者の基本情報や状況に応じて、最適な調理手順を提案するためのアルゴリズム及びデータベースを利用する技術を指すものである。
【0175】
「視覚及び音声で案内する手段」とは、生成された調理手順をユーザフレンドリーな形式で提示するために、ディスプレイ装置及び音声合成技術を用いて案内情報を提供する技術を指すものである。
【0176】
「利用者の操作を監視し、危険な状況を検出する手段」とは、センサーやカメラを通じて利用者の動作をリアルタイムで監視し、潜在的な危険を特定するための技術を指すものである。
【0177】
「警告を発する手段」とは、特定された危険に対して利用者に警告や注意を促すために、視覚的および聴覚的な方法を通じてメッセージを伝達する技術を指すものである。
【0178】
「感情状態を解析し、これに応じた手順及び警告を調整する手段」とは、利用者の感情を識別し、その結果に基づいて調理手順や警告内容を動的に最適化するための感情分析技術を指すものである。
【0179】
このシステムは、ユーザが安全且つ効率的に料理を学ぶことを目的として構築されたものである。ユーザは、まず端末に向かって希望する料理を音声で入力する。端末は、内蔵されたマイクロフォンを用いて音声データを取得し、それをサーバに送信する。
【0180】
サーバは、音声認識技術を用いて音声データをテキストデータに変換する。この用途には、一般に利用されている音声認識サービスを採用する。例えば、「音響入力を文字情報に転換する手段」としては、一般的な音声認識プラットフォームを用いることが可能である。変換されたテキストデータを基に、サーバはユーザの年齢、技術レベル、アレルギー情報、保有材料を考慮しながら、最適な料理手順(レシピ)をデータベースから生成する。これには、一般的なデータベース管理システムを使用する。
【0181】
次に、サーバは感情解析技術を用い、ユーザの感情状態を評価する。この解析には、一般的な感情分析APIを利用することが可能である。評価結果に応じて、ユーザの状況に適した手順や警告メッセージを生成する。例えば、ユーザが不安な場合には、詳細で安心感のある指南が提供される。
【0182】
その後、サーバは調整されたレシピとガイドを端末に送信する。端末は、受け取ったデータを基にユーザに視覚及び音声で案内を行う。視覚案内にはディスプレイ装置を、音声案内にはテキスト音声変換技術を活用する。この実施態様により、ユーザは現状に応じた案内を受けることができる。具体例として、ユーザがオムライスの作り方を知りたい場合、プロンプト文として「オムライスを簡単に作る方法を教えてください。必要な材料と具体的な手順があると嬉しいです。」と入力することが考えられる。
【0183】
このシステムにより、ユーザは安全且つ個別の状況に適応した調理学習を行うことができる。また、危険が予測される場合には、リアルタイムの監視を通じて端末が適切な警告を発することにより、料理中の安全性を確保することが可能である。
【0184】
実施例2における特定処理の流れについて
図13を用いて説明する。
【0185】
ステップ1:
【0186】
ユーザは、端末に向かって料理の希望や関連情報を音声で入力する。端末はマイクロフォンを通じてこの音響データをキャプチャし、音声ファイルとして保存する。入力はユーザの音声であり、出力は音声ファイル形式のデータである。端末は、オンデバイスで音声ファイルを圧縮し、サーバへの転送準備を行う。
【0187】
ステップ2:
【0188】
サーバは、端末から送信された音声ファイルを受信する。受信された音声ファイルは、音声認識システムを通じて解析され、テキストデータに変換される。ここでの入力は音声ファイルで、出力は文字データである。サーバはその文字データを処理し、料理名や必要な材料などの情報を抽出する。
【0189】
ステップ3:
【0190】
サーバは、抽出した文字データを基に、ユーザの基本情報を参照して最適なレシピを検索する。入力は文字データとユーザ情報で、出力はカスタマイズされたレシピデータである。ユーザの年齢、技量、アレルギー情報、保有材料を考慮し、適切なデータベースクエリが実行される。
【0191】
ステップ4:
【0192】
サーバは、感情分析エンジンを用いて、ユーザからの文字データや可能な履歴情報を解析し、感情状態を評価する。入力は文字データとそれに付随する履歴情報であり、出力は感情状態の評価結果である。この結果を基に、レシピの内容や案内方法を柔軟に調整する処理が行われる。
【0193】
ステップ5:
【0194】
サーバは、調整されたレシピと案内方法を視覚及び音声案内形式にフォーマットし、端末に送信する。入力はカスタマイズされたレシピデータと感情評価結果で、出力はフォーマットされたガイドデータである。
【0195】
ステップ6:
【0196】
端末は、サーバから受信したガイドデータに基づいて、ユーザに視覚的な案内をディスプレイし、音声音声合成技術を用いて音声案内を提供する。入力はガイドデータで、出力はディスプレイ上の視覚情報及びスピーカーから流れる音声情報である。
【0197】
ステップ7:
【0198】
端末は、内蔵センサーやカメラを利用してユーザの操作をリアルタイムで監視し、安全性の確保を行う。入力はセンサー及びカメラからのデータで、出力は安全措置が必要な場合、警告メッセージである。また、ユーザの操作に応じて、さらなる詳細ガイドが必要な場合に、それを動的に提供する。
【0199】
(応用例2)
【0200】
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0201】
現代社会において、初心者や子供が安全でかつ有意義に調理スキルを学ぶことが求められている。しかし、従来の調理支援システムは、ユーザーの技量や感情状態を考慮した個別対応が不十分であり、特に感情状態を活用した調整機能を持たないために、ユーザーがストレスを感じやすく、調理体験の質を低下させる可能性があるという問題がある。
【0202】
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0203】
この発明では、サーバは、ユーザーからの音声入力をテキストデータに変換する手段と、ユーザーの年代、技術レベル、アレルギー情報、および物品に基づいて製法を生成する手段と、ユーザーの感情状態を認識し、システムの動作を調整する手段と、を含む。これにより、ユーザー個々の特徴に応じた最適かつ柔軟な調理サポートが可能となる。
【0204】
「ユーザー」とは、このシステムを利用して調理を行う人間を指す。
【0205】
「音声入力をテキストデータに変換する手段」とは、ユーザーからの音声情報を文字情報に変換するための方法を意味する。
【0206】
「年代」とは、ユーザーの年齢層や成長段階を示す情報である。
【0207】
「技術レベル」とは、ユーザーの調理に関する知識や技能の程度を表す情報である。
【0208】
「アレルギー情報」とは、ユーザーが持つ食物アレルギーに関する情報である。
【0209】
「物品に基づいて製法を生成する手段」とは、ユーザーが持つ材料に基づいて調理方法を作成するための方法を指す。
【0210】
「視覚および音声指示として表示する手段」とは、生成された調理情報をユーザーに分かりやすく示すための方法である。
【0211】
「監視し、危険な状況を検出する手段」とは、ユーザーの動作を常に観察し、安全を害する可能性のある状態を認識するための方法を意味する。
【0212】
「警告を発する手段」とは、検出された危険性に対してユーザーに注意を促すための方法である。
【0213】
「感情状態を認識し、システムの動作を調整する手段」とは、ユーザーの感情的な反応を分析し、システムの提供する指示やサポートを適宜変更するための方法を指す。
【0214】
この発明を実施するためのシステムは、複数の機能を組み合わせて、ユーザーに対して安全かつ教育的な調理体験を提供するものである。以下に具体的な形態を示す。
【0215】
サーバは、クラウドベースで音声認識技術と自然言語処理技術を動かすプラットフォームを用いる。具体的には、Amazon AWS(登録商標)やGoogle Cloud AIを活用し、さらにOpenAIのAPIを通じてユーザーからの音声入力をテキストデータに変換する。この音声データは感情エンジンによりユーザーの感情を分析するために使用される。感情分析に基づき、ユーザーに対して提供するレシピやアドバイスを動的に調整する。
【0216】
端末は、スマートフォンが該当し、ユーザーに対して視覚および音声ガイドを提供するための役割を担う。サーバから受け取ったデータを基に、ユーザーの年齢、技量、アレルギー、保有材料を考慮したレシピを表示し、調理中のユーザーの動作や感情を監視する。内蔵カメラやセンサーを用いて危険を検出し、リアルタイムで警告を発することができる。
【0217】
ユーザは、調理の各ステップを進める際に端末からの指示を受け取り、必要に応じて音声で質問を行う。このとき、ユーザーの感情が不安定であれば、端末は積極的に励ましの言葉や詳細な説明を提供し、ユーザーの感情に寄り添った対応を行う。これにより、ユーザーは安心して調理を続けることができる。
【0218】
具体例として、ユーザーが初めてフルーツサラダを作る場合、端末は「次にリンゴを切ります。切り方が不安でしたらゆっくり進めても大丈夫です」といったサポートを音声で提供することが可能である。
【0219】
生成AIモデルへのプロンプト例として、「ユーザーがフルーツサラダの途中で混乱している場合、どのようなサポートを提供すべきか?」が考えられる。このプロンプトにより、AIは適切なアドバイスやガイダンスを生成することができる。
【0220】
応用例2における特定処理の流れについて
図14を用いて説明する。
【0221】
ステップ1:
【0222】
サーバは、ユーザーからの音声入力を受信し、クラウドベースの音声認識技術を用いてテキストデータに変換する。入力はユーザーの音声であり、出力はテキストデータである。この変換において、音声認識APIが用いられ、ノイズ除去や音声の特徴抽出といったデータ加工が行われる。
【0223】
ステップ2:
【0224】
サーバは、テキストデータからユーザーの年齢、技量、アレルギー情報、および保有材料を参照し、適切なレシピをデータベースから生成する。入力はテキストデータとユーザープロフィール情報であり、出力はユーザーに最適化されたレシピ情報である。データベースのクエリ処理を行って、条件に一致するレシピを選択する。
【0225】
ステップ3:
【0226】
サーバは、感情エンジンを用いてユーザーの感情状態を分析し、レシピやアドバイスをユーザーの感情に応じて調整する。入力はユーザーのテキストデータおよびプロファイルデータであり、出力は感情を反映した調整済みのレシピ情報である。自然言語処理と感情分析を行い、ユーザーに適切な指示内容を決定する。
【0227】
ステップ4:
【0228】
端末は、サーバから受け取った調整済みのレシピ情報を基に、視覚および音声でユーザーに指示を提供する。入力はサーバからのレシピ情報であり、出力はユーザーへの視覚指示ならびに音声指示である。端末アプリケーションがこれを管理し、デジタルインターフェースを介してユーザーに提示する。
【0229】
ステップ5:
【0230】
ユーザーが調理中の動作を行い、その様子を端末が内蔵するカメラやセンサーで監視する。入力はユーザーの調理行動であり、出力は検出された危険または安全に関するデータである。画像処理技術を用いて、危険な行動をリアルタイムで見つけ出す。
【0231】
ステップ6:
【0232】
端末は、危険が検出された場合、ユーザーに警告を発する。入力は検出された危険情報であり、出力はユーザーへの警告メッセージである。音声およびビジュアル警告を提供することで、ユーザーに即座に注意を促す。
【0233】
ステップ7:
【0234】
ユーザーが感情的に不安を感じた場合、端末は感情データに基づき優しい言葉や励ましのメッセージを提供する。入力はユーザーの感情データであり、出力は励ましの言葉である。これにおいて生成AIモデルを用い、プロンプト文を生成してユーザーの感情を安定させるための適切な言葉を生成する。
【0235】
特定処理部290は、特定処理の結果をスマートデバイス14に送信する。スマートデバイス14では、制御部46Aが、出力装置40に対して特定処理の結果を出力させる。マイクロフォン38Bは、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン38Bによって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【0236】
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(登録商標)(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(登録商標)(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【0237】
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマートデバイス14によって特定処理が行われるようにしてもよい。
【0238】
[第2実施形態]
【0239】
図3には、第2実施形態に係るデータ処理システム210の構成の一例が示されている。
【0240】
図3に示すように、データ処理システム210は、データ処理装置12及びスマート眼鏡214を備えている。データ処理装置12の一例としては、サーバが挙げられる。
【0241】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0242】
スマート眼鏡214は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、及びカメラ42も、バス52に接続されている。
【0243】
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
【0244】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
【0245】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
【0246】
図4には、データ処理装置12及びスマート眼鏡214の要部機能の一例が示されている。
図4に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
【0247】
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
【0248】
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
【0249】
スマート眼鏡214では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0250】
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0251】
この発明は、子供が安全に料理を学び、自立して調理を行うためのシステムであり、音声入力、テキスト変換、レシピ生成、視覚および音声ガイド、危険検知、警告発信の各機能を統合している。システムは主にサーバ、端末、ユーザから構成されている。
【0252】
サーバは、システムの中核を担い、ユーザの入力を処理するAIモデルをホストする。ユーザの音声入力がテキストデータに変換されると、サーバはそのデータを参照し、レシピデータベースから関連情報を取得する。さらに、ユーザの年齢、技量、アレルギー情報に基づいてレシピをカスタマイズする。サーバは最終的なレシピと料理手順をフォーマットし、視覚および音声ガイドとして端末に送信する。
【0253】
端末は、ユーザによって操作されるデバイスであり、視覚的なアニメーションや音声ガイドを通じてユーザとサーバ間のインターフェースを提供する。端末はサーバから送られてきたレシピと手順を受け取り、ユーザに対して逐次的に提示する。ユーザの進行状況に応じて、次のステップへとガイドし、必要に応じて警告を発信する。
【0254】
ユーザは、システムの中心的な利用者であり、端末を通じてシステムと対話し、自らの希望に沿った料理を実行する。例えば、ユーザが「チョコレートクッキーを作りたい」と端末に入力すると、システム全体のプロセスが開始される。ユーザは端末上のガイドに従い、材料を準備し、指示に基づいて調理を進める。包丁を使う際やオーブンの温度設定といった危険性の高いステップでは、端末がリアルタイムで注意喚起を行うことができる。
【0255】
このように本システムは、視覚的および音声的な補助を組み合わせることで、ユーザが容易に料理を学び、安全かつ効率的に調理を進めることを可能にするシステムの実施形態を提供する。
【0256】
以下に、処理の流れについて説明する。
【0257】
ステップ1:
【0258】
ユーザが端末に向かって希望する料理名を音声で入力する。例えば、「チョコレートクッキーを作りたい」と発話する。
【0259】
ステップ2:
【0260】
端末がユーザの音声を録音し、音声認識技術を使用してテキストデータに変換する。このテキストデータには料理名が含まれる。
【0261】
ステップ3:
【0262】
端末が変換されたテキストデータを含むリクエストをサーバに送信する。このリクエストには、ユーザ情報(年齢、技量、アレルギー情報など)も含まれる。
【0263】
ステップ4:
【0264】
サーバがリクエストを受け取り、ユーザ情報に基づいて適切なレシピをデータベースから取得する。さらに、ユーザのニーズに合わせてレシピをカスタマイズする。
【0265】
ステップ5:
【0266】
サーバがカスタマイズしたレシピと調理手順を視覚および音声ガイド形式にフォーマットし、端末へ送信する。
【0267】
ステップ6:
【0268】
端末が送られてきたデータを受け取り、ユーザに視覚的なアニメーションと音声ガイドを提供する。これにより、ユーザはステップごとに指示を受けながら調理を進める。
【0269】
ステップ7:
【0270】
ユーザが端末の指示に基づいて、材料を集め、調理を開始する。ガイドに従って具体的な手順を実行する。
【0271】
ステップ8:
【0272】
端末がユーザの調理中の動作をモニタリングし、包丁や火器を使用する際などの危険を検知した場合に警告を発信することで、安全を確保する。
【0273】
ステップ9:
【0274】
ユーザが不明点や質問がある場合、端末に音声で問い合わせを行う。例えば、「次は何をすればいいの?」と尋ねる。
【0275】
ステップ10:
【0276】
サーバがユーザの質問を受け取って適切な応答を生成し、端末に送信する。
【0277】
ステップ11:
【0278】
端末がサーバからの応答を音声と視覚でユーザに伝え、調理プロセスをサポートする。
【0279】
ステップ12:
【0280】
ユーザが全ての調理ステップを完了し、料理が完成する。端末が「お疲れ様です。料理が完成しました!」と通知してフィードバックを提供する。
【0281】
(実施例1)
【0282】
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0283】
この発明が解決しようとする課題は、未熟な技能を持つユーザ、特に子供が安全かつ効果的に料理を学ぶことが困難であるという点である。料理手順の不適切な理解や危険な調理工程における事故のリスクを低減し、ユーザが自信を持って調理に取り組める支援が必要である。
【0284】
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0285】
この発明では、サーバは、ユーザ入力音声を文字データに変換する処理装置と、年齢、技能レベル、健康情報を基に料理手順を構成する処理装置と、生成された料理手順を表示および音声で提供する処理装置と、を含む。これにより、ユーザは自らの状況や能力に応じた安全で効果的な料理体験を享受することが可能となる。
【0286】
「ユーザ入力音声の文字データへの変換」とは、ユーザが発する音声をデジタル信号として認識し、これをテキスト形式に変換する処理である。
【0287】
「年齢、技能レベル、健康情報を基にした料理手順の構成」とは、ユーザの属性に応じて最適なレシピや手順を選定し、調理の学習と実践を支援するためにこれをカスタマイズすることである。
【0288】
「生成された料理手順の表示および音声での提供」とは、ユーザが理解しやすいように視覚および音声によって提供されるインターフェースで、調理手順を案内することである。
【0289】
「ユーザの作業状況の監視」とは、ユーザの調理過程を追跡し、プロセスの進捗や安全性を評価することである。
【0290】
「安全性に関する脅威の検知」とは、調理中の危険性が伴う行動や状態を検知し、事故を未然に防ぐためのプロセスである。
【0291】
「注意喚起の実施」とは、ユーザに対し、音声または視覚の手段を用いて注意を促し、安全に調理を進めるよう警告を行うことである。
【0292】
本発明は、ユーザが安全に料理を学び自立して調理できることを目的としたシステムである。このシステムは、サーバ、端末、ユーザから構成される。
【0293】
サーバは、システムの中心的な役割を果たし、ユーザ入力音声を文字データに変換するための音声認識APIを利用する。ここでは、音声データをGoogleの音声認識APIや一般的な音声認識ソフトウェアを使用してテキストデータに変換する。このテキストデータを基に、生成AIモデルを使用してレシピを生成する。生成AIモデルとしては、一般的な自然言語処理モデルが利用可能であり、プロンプト文としては「8歳の子供向けに、簡単で安全なチョコレートクッキーのレシピを生成して」が挙げられる。さらに、サーバはデータベースにアクセスし、ユーザの年齢、技能レベル、健康情報を考慮したレシピのカスタマイズを行う。カスタマイズされたレシピは視覚ガイドと音声ガイドとしてフォーマットされ、端末に送信される。
【0294】
端末は、サーバから送信された視覚および音声ガイドを用いて、ユーザに対して手順を案内するデバイスである。タブレットやスマートフォンなどのデバイス上で、アニメーションや音声による逐次的な指導が行われる。端末は、ユーザの調理進行をモニターし、必要に応じて安全性に関する注意喚起を行うことが可能である。例えば、包丁を使用する際には、端末がリアルタイムで注意を促す音声警告を発する。
【0295】
ユーザは、端末を操作しガイドに従って調理を行う主体である。ユーザは端末に向かって希望する料理内容を音声で入力し、提供されるガイドに基づいて材料を用意し、手順に従って安全に調理を進める。具体的な例として、「チョコレートクッキーを作りたい」と希望をサーバに伝え、提供されるレシピと手順に従って調理を進めていく。
【0296】
このようにして、本システムはユーザが理解しやすく、安全に料理を学ぶための支援を提供することが可能である。
【0297】
実施例1における特定処理の流れについて
図11を用いて説明する。
【0298】
ステップ1:
【0299】
ユーザは、端末に向かって希望する料理内容を音声で入力する。例えば、「チョコレートクッキーを作りたい」と話しかける。この音声が入力データとなる。
【0300】
ステップ2:
【0301】
端末は、録音された音声データをデジタル信号としてサーバに送信する。これがサーバへの入力となる。
【0302】
ステップ3:
【0303】
サーバは、音声認識APIを利用して受け取った音声データをテキストデータに変換する。この変換処理により、「チョコレートクッキーを作りたい」というテキストが出力される。ここで、音声入力というアナログデータがデジタルなテキストデータへ加工される。
【0304】
ステップ4:
【0305】
サーバは、生成AIモデルにプロンプト文を入力する。「8歳の子供向けに、簡単で安全なチョコレートクッキーのレシピを生成して」というプロンプトに基づき、AIモデルがレシピデータを生成する。これが次の処理の入力データとなる。
【0306】
ステップ5:
【0307】
サーバは、生成されたレシピデータを確認し、ユーザのプロフィール情報(年齢、技能レベル、健康情報)を考慮してレシピをカスタマイズする。例えば、子供が使いやすいように材料の重量を調整したり、工程を簡易化するといった加工が行われる。これにより、ユーザに最適化されたレシピが出力される。
【0308】
ステップ6:
【0309】
サーバは、カスタマイズされたレシピを視覚および音声ガイドとしてフォーマットし、端末に送信する。これが端末への入力データである。
【0310】
ステップ7:
【0311】
端末は、受け取ったガイドデータをもとに、ユーザに対して視覚および音声で料理手順を案内する。レシピ順にしたがってアニメーションや音声で各ステップを分かりやすく表示する。
【0312】
ステップ8:
【0313】
端末は、ユーザの操作状況をリアルタイムで監視し、危険が伴う工程では音声警告や画面表示により注意を促す。例えば、包丁を使う場面やオーブンの加熱に関する警告を出す。この出力はユーザの安全を確保するためのものである。
【0314】
ステップ9:
【0315】
ユーザは、視覚および音声ガイドにしたがって調理を進める。これにより、ユーザは安全で効果的に料理を完成させることが可能となる。出力として、完成した料理が結果となる。
【0316】
(応用例1)
【0317】
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0318】
子供が安全に効果的に料理を学ぶための支援システムにおいて、子供の年齢や技術レベルに応じた柔軟な料理手順の提供、およびリアルタイムでの危険検知と警告を可能とすることが求められている。また、インタラクティブなインターフェースを用いて、子供の興味を引き出すとともに、料理への主体的な参加を促進する方法が必要である。
【0319】
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0320】
この発明では、サーバは、ユーザーからの音声入力をテキストデータに変換する手段と、ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいて料理手順を生成する手段と、生成された料理手順を視覚および音声指示として表示する手段と、ユーザーの操作を監視し、危険な状況を検出する手段と、を含む。これにより、子供が安全かつ興味深く料理を学ぶことが可能となる。
【0321】
「ユーザーからの音声入力をテキストデータに変換する手段」とは、音声形式の情報をデジタルテキスト形式に変換する技術を指す。
【0322】
「ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいて料理手順を生成する手段」とは、ユーザーに合わせた最適な料理手順を作成するアルゴリズムまたはプログラムを指す。
【0323】
「生成された料理手順を視覚および音声指示として表示する手段」とは、生成された指示をユーザーに視覚的および聴覚的に伝達するための表示装置またはプログラムを指す。
【0324】
「ユーザーの操作を監視し、危険な状況を検出する手段」とは、ユーザーの行動を追跡し、安全性を判断するためのセンサーやソフトウェアによる監視機能を指す。
【0325】
「ヴィジュアルインターフェースを提供するための手段」とは、ユーザーとシステムの間の情報のやりとりを視覚的に行うためのデザインまたはプラットフォームを指す。
【0326】
「ユーザーの行動を追跡し、所定の判断基準に基づいて安全性を評価する手段」とは、行動ログを分析し、安全性について自動的に判断するためのアルゴリズムまたはシステムを指す。
【0327】
本発明を実施するためのシステムは、サーバ、端末、ユーザの3つの主要な要素から構成されている。サーバは、システムの中核を担う部分であり、ユーザの提供する音声入力をテキストに変換し、それに基づいて料理手順を生成する。具体的には、サーバはGoogle Speech-to-Text APIを利用して音声をテキストデータに変換する。このテキストデータは、サーバ内でホストされるAIモデル、例としてOpenAIのGPT-3を用いることができる、を用いたレシピ生成エンジンによって処理される。エンジンは、ユーザの年齢、技量、アレルギー情報、および保有材料を考慮に入れ、最適な料理手順を生成する。
【0328】
端末は、ユーザとのインターフェースを担う装置である。端末はサーバから送信された料理手順を受信し、視覚および音声でユーザにガイドするためにUnityやFlutterといった開発プラットフォームを利用することができる。また、端末はSpeech Synthesis APIを用いて音声ガイドを実現する。ユーザの行動をリアルタイムで監視し、OpenCVなどのライブラリを使用して危険な状況を認識し、警告を発信する機能も備えている。
【0329】
ユーザは、端末を通じてシステムと対話し、自らが希望する料理を安全に学び進めるために、このシステムを利用する。例えば、8歳の子供が「スパゲッティを作りたい」とリクエストした場合、AIモデルは以下のプロンプト文を受け取る:「子供がスパゲッティを安全かつ簡単に作れるレシピを考えてください。年齢は8歳で、使用する機材は家庭用のものに限ります。」システムはこの情報をもとに、子供向けの安全で理解しやすい手順を生成し、端末を通じて視覚と音声で案内する。このようにして、本発明は、ユーザが興味を持ち、能動的に料理を学べる環境を提供することが可能である。
【0330】
応用例1における特定処理の流れについて
図12を用いて説明する。
【0331】
ステップ1:
【0332】
ユーザは、端末に料理の情報を音声入力する。この音声入力は、ユーザのリクエストに基づくもので、具体的には作りたい料理や要求事項を含む。
【0333】
ステップ2:
【0334】
端末は音声データをGoogle Speech-to-Text APIを用いてテキストデータに変換する。この変換により、音声の内容がサーバで理解可能なデジタル形式となる。入力は音声データであり、出力は対応するテキストデータである。
【0335】
ステップ3:
【0336】
サーバは入力テキストを受け取り、AIモデル(例:OpenAI GPT-3)を用いてプロンプト文を生成する。このプロンプト文には、ユーザの要求に基づいて最適化された料理手順を出力するための情報が含まれる。入力は変換されたテキストであり、出力はプロンプト文である。
【0337】
ステップ4:
【0338】
サーバは生成したプロンプト文を用いて、AIモデルに基づいてカスタマイズされた料理手順を生成する。このプロセスでは、ユーザの年齢、技量、アレルギー情報、および保有材料を考慮する。入力はプロンプト文であり、出力は最適化された料理手順である。
【0339】
ステップ5:
【0340】
端末は、サーバから送信された料理手順を受け取り、UnityやFlutterを利用して視覚および音声ガイドを生成する。このガイドは、ユーザが直感的にステップを理解しやすくするためのものである。入力はカスタマイズされた料理手順であり、出力は視覚および音声インターフェースである。
【0341】
ステップ6:
【0342】
ユーザは、端末のガイドに従い、料理を進める。端末は、ユーザの操作や動作をリアルタイムで監視し、OpenCVライブラリなどを使用して危険な状況を検出する。入力はユーザの動作データであり、出力は危険時の警告アラートである。
【0343】
ステップ7:
【0344】
端末が危険を検出した場合、即座に音声と視覚で警告を発し、ユーザに対して適切な安全措置を促す。この時、ユーザの進行を一時停止し、状況が安全になるまで次のステップをガイドしない。入力は危険検出情報であり、出力は警告インターフェースである。
【0345】
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
【0346】
この発明は、子供を含むユーザが安全に料理を学び、自立して調理を行うことを可能にするシステムである。システムは、音声入力をテキストデータに変換する、ユーザの年齢や技量、アレルギー情報、保有材料に基づきレシピを生成する、そして視覚および音声ガイドを提供する手段を持つ。また、ユーザの操作をモニタリングして危険を検出し、それに対して警告を発信する機能を備えている。これに加えて、本発明は感情エンジンを組み込み、ユーザの感情を認識してシステムの動作を調整する新たな能力を提供する。
【0347】
サーバは、ユーザの音声入力を受信し、音声認識技術を用いてテキストデータに変換する。これに基づいて、サーバはユーザデータを参照し、適切なレシピをデータベースから取得しカスタマイズする。サーバはさらに、感情エンジンを用いてユーザの感情状態を分析し、ユーザの感情に応じたレシピの提案や調整を行う。その結果を視覚および音声ガイド形式にフォーマットして端末に送信する。
【0348】
端末は、サーバから送られてきたデータを基に、ユーザに視覚的なアニメーションと音声ガイドを提供する。端末はユーザがどのような感情状態にあるかを把握し、その状態に応じてガイドのトーンや内容を調整する。例えば、ユーザが不安な場合は、より詳細な説明や励ましの言葉を提供することが可能である。また、端末はユーザの操作状況をモニタリングし、センサーやカメラを通じて危険を検出した場合には、警告を発信する。感情エンジンはここでも重要な役割を担い、警告の優先度や伝え方をユーザの精神状態に合わせて調整する。
【0349】
ユーザは、料理を開始する際に端末で希望する料理名を入力する。その後、端末の指示に従って調理を進めるが、特に感情的に不安定な場合や初めての作業に対し、端末がユーザの感情を考慮したサポートを提供する。例えば、料理が思うように進まない時に、端末がユーザの感情を感知して、「大丈夫、リラックスして進めていきましょう」といったサポートを行う。
【0350】
こうした総合的な機能により、本システムは、ユーザが単に料理を学ぶだけでなく、感情面でのサポートを受けながら安全で楽しい調理体験を提供することができる。
【0351】
以下に、処理の流れについて説明する。
【0352】
ステップ1:
【0353】
ユーザが端末に向かって作りたい料理を音声で入力する。例:「ラザニアを作りたい」と発話する。
【0354】
ステップ2:
【0355】
端末がユーザの音声を録音し、音声認識エンジンを使用して音声データをテキストデータに変換する。このテキストにはユーザの料理希望が含まれる。
【0356】
ステップ3:
【0357】
端末が変換されたテキストデータをサーバに送信し、ユーザ情報、年齢、スキルレベル、アレルギー情報を含むリクエストを送る。
【0358】
ステップ4:
【0359】
サーバがリクエストを受信し、データベースから該当するレシピを取得する。ユーザのスキルレベルに応じてレシピを調整し、次にレシピをカスタマイズする。
【0360】
ステップ5:
【0361】
サーバがユーザの年齢、スキルレベル、アレルギー情報に基づいてレシピをカスタマイズし、感情エンジンを使用して、ユーザの感情を推定するために追加のデータ(例:音声や表情)を分析する。
【0362】
ステップ6:
【0363】
サーバが分析したユーザの感情に基づき、調整されたレシピとガイドを音声および視覚データとしてフォーマットし、端末に送信する。
【0364】
ステップ7:
【0365】
端末がサーバからのデータを受信し、画面上にレシピ手順を視覚的に表示し、ユーザに音声ガイドを提供する。ユーザの感情状態に調整された穏やかなトーンで指示を行う。
【0366】
ステップ8:
【0367】
ユーザが端末の視覚および音声ガイドに従い、調理工程を実行する。材料を集めたり、指示に従って作業を進める。
【0368】
ステップ9:
【0369】
端末がセンサーやユーザのフィードバックを通じてユーザの操作をモニターし、包丁や火器の使用など危険が予測される場合に警告を発する。ユーザの感情に合わせて警告の強さを調整する。
【0370】
ステップ10:
【0371】
ユーザが調理中に疑問があれば端末に問い合わせる。例えば、「もっと詳しく教えて」といった形で質問をする。
【0372】
ステップ11:
【0373】
サーバがユーザの質問を受け取り、その内容を解析して、適切な答えを生成し、端末に送信する。
【0374】
ステップ12:
【0375】
端末がサーバからの応答を音声およびテキストでユーザに伝え、料理の進行をサポートする。
【0376】
ステップ13:
【0377】
ユーザが全ての工程を完了し、料理を仕上げる。端末が「素晴らしいですね!料理が完成しました!」とフィードバックを提供し、ユーザを称賛する。
【0378】
(実施例2)
【0379】
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0380】
現代社会において、料理を安全に学び、実践することは重要なスキルである。しかし、特に子供や料理初心者にとっては、料理の過程で使用する道具や加熱器具による危険性が存在するため、安心して学習することが難しい。また、学習者のスキルレベルや精神状態に応じて適切に調整されたガイドを提供することができないため、個別のニーズに対応することが困難である。これにより、料理学習のプロセスが不十分でストレスフルなものとなり、結果的に学習意欲の低下や安全確保の失敗を招く可能性がある。
【0381】
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0382】
この発明では、サーバは、音響入力を文字情報に転換する手段と、利用者の年齢、技術レベル、アレルギー情報、並びに保有材料に基づいて手順を生成する手段と、生成された手順を視覚及び音声で案内する手段と、を含む。これにより、利用者の安全確保をしつつ、個々の利用者に対して最適化された調理学習環境を提供することが可能となる。
【0383】
「音響入力を文字情報に転換する手段」とは、利用者が発する音声データをデジタルテキストに変換する技術を指し、音声認識技術を利用して音声を文字化する機能を有するものである。
【0384】
「文字情報」とは、音声データから変換され、デジタル形式で記録されたテキストデータを指し、サーバにおけるさらなる処理や分析を可能にするものである。
【0385】
「利用者の年齢、技術レベル、アレルギー情報、並びに保有材料に基づいて手順を生成する手段」とは、個々の利用者の基本情報や状況に応じて、最適な調理手順を提案するためのアルゴリズム及びデータベースを利用する技術を指すものである。
【0386】
「視覚及び音声で案内する手段」とは、生成された調理手順をユーザフレンドリーな形式で提示するために、ディスプレイ装置及び音声合成技術を用いて案内情報を提供する技術を指すものである。
【0387】
「利用者の操作を監視し、危険な状況を検出する手段」とは、センサーやカメラを通じて利用者の動作をリアルタイムで監視し、潜在的な危険を特定するための技術を指すものである。
【0388】
「警告を発する手段」とは、特定された危険に対して利用者に警告や注意を促すために、視覚的および聴覚的な方法を通じてメッセージを伝達する技術を指すものである。
【0389】
「感情状態を解析し、これに応じた手順及び警告を調整する手段」とは、利用者の感情を識別し、その結果に基づいて調理手順や警告内容を動的に最適化するための感情分析技術を指すものである。
【0390】
このシステムは、ユーザが安全且つ効率的に料理を学ぶことを目的として構築されたものである。ユーザは、まず端末に向かって希望する料理を音声で入力する。端末は、内蔵されたマイクロフォンを用いて音声データを取得し、それをサーバに送信する。
【0391】
サーバは、音声認識技術を用いて音声データをテキストデータに変換する。この用途には、一般に利用されている音声認識サービスを採用する。例えば、「音響入力を文字情報に転換する手段」としては、一般的な音声認識プラットフォームを用いることが可能である。変換されたテキストデータを基に、サーバはユーザの年齢、技術レベル、アレルギー情報、保有材料を考慮しながら、最適な料理手順(レシピ)をデータベースから生成する。これには、一般的なデータベース管理システムを使用する。
【0392】
次に、サーバは感情解析技術を用い、ユーザの感情状態を評価する。この解析には、一般的な感情分析APIを利用することが可能である。評価結果に応じて、ユーザの状況に適した手順や警告メッセージを生成する。例えば、ユーザが不安な場合には、詳細で安心感のある指南が提供される。
【0393】
その後、サーバは調整されたレシピとガイドを端末に送信する。端末は、受け取ったデータを基にユーザに視覚及び音声で案内を行う。視覚案内にはディスプレイ装置を、音声案内にはテキスト音声変換技術を活用する。この実施態様により、ユーザは現状に応じた案内を受けることができる。具体例として、ユーザがオムライスの作り方を知りたい場合、プロンプト文として「オムライスを簡単に作る方法を教えてください。必要な材料と具体的な手順があると嬉しいです。」と入力することが考えられる。
【0394】
このシステムにより、ユーザは安全且つ個別の状況に適応した調理学習を行うことができる。また、危険が予測される場合には、リアルタイムの監視を通じて端末が適切な警告を発することにより、料理中の安全性を確保することが可能である。
【0395】
実施例2における特定処理の流れについて
図13を用いて説明する。
【0396】
ステップ1:
【0397】
ユーザは、端末に向かって料理の希望や関連情報を音声で入力する。端末はマイクロフォンを通じてこの音響データをキャプチャし、音声ファイルとして保存する。入力はユーザの音声であり、出力は音声ファイル形式のデータである。端末は、オンデバイスで音声ファイルを圧縮し、サーバへの転送準備を行う。
【0398】
ステップ2:
【0399】
サーバは、端末から送信された音声ファイルを受信する。受信された音声ファイルは、音声認識システムを通じて解析され、テキストデータに変換される。ここでの入力は音声ファイルで、出力は文字データである。サーバはその文字データを処理し、料理名や必要な材料などの情報を抽出する。
【0400】
ステップ3:
【0401】
サーバは、抽出した文字データを基に、ユーザの基本情報を参照して最適なレシピを検索する。入力は文字データとユーザ情報で、出力はカスタマイズされたレシピデータである。ユーザの年齢、技量、アレルギー情報、保有材料を考慮し、適切なデータベースクエリが実行される。
【0402】
ステップ4:
【0403】
サーバは、感情分析エンジンを用いて、ユーザからの文字データや可能な履歴情報を解析し、感情状態を評価する。入力は文字データとそれに付随する履歴情報であり、出力は感情状態の評価結果である。この結果を基に、レシピの内容や案内方法を柔軟に調整する処理が行われる。
【0404】
ステップ5:
【0405】
サーバは、調整されたレシピと案内方法を視覚及び音声案内形式にフォーマットし、端末に送信する。入力はカスタマイズされたレシピデータと感情評価結果で、出力はフォーマットされたガイドデータである。
【0406】
ステップ6:
【0407】
端末は、サーバから受信したガイドデータに基づいて、ユーザに視覚的な案内をディスプレイし、音声音声合成技術を用いて音声案内を提供する。入力はガイドデータで、出力はディスプレイ上の視覚情報及びスピーカーから流れる音声情報である。
【0408】
ステップ7:
【0409】
端末は、内蔵センサーやカメラを利用してユーザの操作をリアルタイムで監視し、安全性の確保を行う。入力はセンサー及びカメラからのデータで、出力は安全措置が必要な場合、警告メッセージである。また、ユーザの操作に応じて、さらなる詳細ガイドが必要な場合に、それを動的に提供する。
【0410】
(応用例2)
【0411】
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0412】
現代社会において、初心者や子供が安全でかつ有意義に調理スキルを学ぶことが求められている。しかし、従来の調理支援システムは、ユーザーの技量や感情状態を考慮した個別対応が不十分であり、特に感情状態を活用した調整機能を持たないために、ユーザーがストレスを感じやすく、調理体験の質を低下させる可能性があるという問題がある。
【0413】
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0414】
この発明では、サーバは、ユーザーからの音声入力をテキストデータに変換する手段と、ユーザーの年代、技術レベル、アレルギー情報、および物品に基づいて製法を生成する手段と、ユーザーの感情状態を認識し、システムの動作を調整する手段と、を含む。これにより、ユーザー個々の特徴に応じた最適かつ柔軟な調理サポートが可能となる。
【0415】
「ユーザー」とは、このシステムを利用して調理を行う人間を指す。
【0416】
「音声入力をテキストデータに変換する手段」とは、ユーザーからの音声情報を文字情報に変換するための方法を意味する。
【0417】
「年代」とは、ユーザーの年齢層や成長段階を示す情報である。
【0418】
「技術レベル」とは、ユーザーの調理に関する知識や技能の程度を表す情報である。
【0419】
「アレルギー情報」とは、ユーザーが持つ食物アレルギーに関する情報である。
【0420】
「物品に基づいて製法を生成する手段」とは、ユーザーが持つ材料に基づいて調理方法を作成するための方法を指す。
【0421】
「視覚および音声指示として表示する手段」とは、生成された調理情報をユーザーに分かりやすく示すための方法である。
【0422】
「監視し、危険な状況を検出する手段」とは、ユーザーの動作を常に観察し、安全を害する可能性のある状態を認識するための方法を意味する。
【0423】
「警告を発する手段」とは、検出された危険性に対してユーザーに注意を促すための方法である。
【0424】
「感情状態を認識し、システムの動作を調整する手段」とは、ユーザーの感情的な反応を分析し、システムの提供する指示やサポートを適宜変更するための方法を指す。
【0425】
この発明を実施するためのシステムは、複数の機能を組み合わせて、ユーザーに対して安全かつ教育的な調理体験を提供するものである。以下に具体的な形態を示す。
【0426】
サーバは、クラウドベースで音声認識技術と自然言語処理技術を動かすプラットフォームを用いる。具体的には、Amazon AWSやGoogle Cloud AIを活用し、さらにOpenAIのAPIを通じてユーザーからの音声入力をテキストデータに変換する。この音声データは感情エンジンによりユーザーの感情を分析するために使用される。感情分析に基づき、ユーザーに対して提供するレシピやアドバイスを動的に調整する。
【0427】
端末は、スマートフォンが該当し、ユーザーに対して視覚および音声ガイドを提供するための役割を担う。サーバから受け取ったデータを基に、ユーザーの年齢、技量、アレルギー、保有材料を考慮したレシピを表示し、調理中のユーザーの動作や感情を監視する。内蔵カメラやセンサーを用いて危険を検出し、リアルタイムで警告を発することができる。
【0428】
ユーザは、調理の各ステップを進める際に端末からの指示を受け取り、必要に応じて音声で質問を行う。このとき、ユーザーの感情が不安定であれば、端末は積極的に励ましの言葉や詳細な説明を提供し、ユーザーの感情に寄り添った対応を行う。これにより、ユーザーは安心して調理を続けることができる。
【0429】
具体例として、ユーザーが初めてフルーツサラダを作る場合、端末は「次にリンゴを切ります。切り方が不安でしたらゆっくり進めても大丈夫です」といったサポートを音声で提供することが可能である。
【0430】
生成AIモデルへのプロンプト例として、「ユーザーがフルーツサラダの途中で混乱している場合、どのようなサポートを提供すべきか?」が考えられる。このプロンプトにより、AIは適切なアドバイスやガイダンスを生成することができる。
【0431】
応用例2における特定処理の流れについて
図14を用いて説明する。
【0432】
ステップ1:
【0433】
サーバは、ユーザーからの音声入力を受信し、クラウドベースの音声認識技術を用いてテキストデータに変換する。入力はユーザーの音声であり、出力はテキストデータである。この変換において、音声認識APIが用いられ、ノイズ除去や音声の特徴抽出といったデータ加工が行われる。
【0434】
ステップ2:
【0435】
サーバは、テキストデータからユーザーの年齢、技量、アレルギー情報、および保有材料を参照し、適切なレシピをデータベースから生成する。入力はテキストデータとユーザープロフィール情報であり、出力はユーザーに最適化されたレシピ情報である。データベースのクエリ処理を行って、条件に一致するレシピを選択する。
【0436】
ステップ3:
【0437】
サーバは、感情エンジンを用いてユーザーの感情状態を分析し、レシピやアドバイスをユーザーの感情に応じて調整する。入力はユーザーのテキストデータおよびプロファイルデータであり、出力は感情を反映した調整済みのレシピ情報である。自然言語処理と感情分析を行い、ユーザーに適切な指示内容を決定する。
【0438】
ステップ4:
【0439】
端末は、サーバから受け取った調整済みのレシピ情報を基に、視覚および音声でユーザーに指示を提供する。入力はサーバからのレシピ情報であり、出力はユーザーへの視覚指示ならびに音声指示である。端末アプリケーションがこれを管理し、デジタルインターフェースを介してユーザーに提示する。
【0440】
ステップ5:
【0441】
ユーザーが調理中の動作を行い、その様子を端末が内蔵するカメラやセンサーで監視する。入力はユーザーの調理行動であり、出力は検出された危険または安全に関するデータである。画像処理技術を用いて、危険な行動をリアルタイムで見つけ出す。
【0442】
ステップ6:
【0443】
端末は、危険が検出された場合、ユーザーに警告を発する。入力は検出された危険情報であり、出力はユーザーへの警告メッセージである。音声およびビジュアル警告を提供することで、ユーザーに即座に注意を促す。
【0444】
ステップ7:
【0445】
ユーザーが感情的に不安を感じた場合、端末は感情データに基づき優しい言葉や励ましのメッセージを提供する。入力はユーザーの感情データであり、出力は励ましの言葉である。これにおいて生成AIモデルを用い、プロンプト文を生成してユーザーの感情を安定させるための適切な言葉を生成する。
【0446】
特定処理部290は、特定処理の結果をスマート眼鏡214に送信する。スマート眼鏡214では、制御部46Aが、スピーカ240に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【0447】
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【0448】
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマート眼鏡214によって特定処理が行われるようにしてもよい。
【0449】
[第3実施形態]
【0450】
図5には、第3実施形態に係るデータ処理システム310の構成の一例が示されている。
【0451】
図5に示すように、データ処理システム310は、データ処理装置12及びヘッドセット型端末314を備えている。データ処理装置12の一例としては、サーバが挙げられる。
【0452】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0453】
ヘッドセット型端末314は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及びディスプレイ343を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及びディスプレイ343も、バス52に接続されている。
【0454】
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
【0455】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
【0456】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
【0457】
図6には、データ処理装置12及びヘッドセット型端末314の要部機能の一例が示されている。
図6に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
【0458】
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
【0459】
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
【0460】
ヘッドセット型端末314では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0461】
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0462】
この発明は、子供が安全に料理を学び、自立して調理を行うためのシステムであり、音声入力、テキスト変換、レシピ生成、視覚および音声ガイド、危険検知、警告発信の各機能を統合している。システムは主にサーバ、端末、ユーザから構成されている。
【0463】
サーバは、システムの中核を担い、ユーザの入力を処理するAIモデルをホストする。ユーザの音声入力がテキストデータに変換されると、サーバはそのデータを参照し、レシピデータベースから関連情報を取得する。さらに、ユーザの年齢、技量、アレルギー情報に基づいてレシピをカスタマイズする。サーバは最終的なレシピと料理手順をフォーマットし、視覚および音声ガイドとして端末に送信する。
【0464】
端末は、ユーザによって操作されるデバイスであり、視覚的なアニメーションや音声ガイドを通じてユーザとサーバ間のインターフェースを提供する。端末はサーバから送られてきたレシピと手順を受け取り、ユーザに対して逐次的に提示する。ユーザの進行状況に応じて、次のステップへとガイドし、必要に応じて警告を発信する。
【0465】
ユーザは、システムの中心的な利用者であり、端末を通じてシステムと対話し、自らの希望に沿った料理を実行する。例えば、ユーザが「チョコレートクッキーを作りたい」と端末に入力すると、システム全体のプロセスが開始される。ユーザは端末上のガイドに従い、材料を準備し、指示に基づいて調理を進める。包丁を使う際やオーブンの温度設定といった危険性の高いステップでは、端末がリアルタイムで注意喚起を行うことができる。
【0466】
このように本システムは、視覚的および音声的な補助を組み合わせることで、ユーザが容易に料理を学び、安全かつ効率的に調理を進めることを可能にするシステムの実施形態を提供する。
【0467】
以下に、処理の流れについて説明する。
【0468】
ステップ1:
【0469】
ユーザが端末に向かって希望する料理名を音声で入力する。例えば、「チョコレートクッキーを作りたい」と発話する。
【0470】
ステップ2:
【0471】
端末がユーザの音声を録音し、音声認識技術を使用してテキストデータに変換する。このテキストデータには料理名が含まれる。
【0472】
ステップ3:
【0473】
端末が変換されたテキストデータを含むリクエストをサーバに送信する。このリクエストには、ユーザ情報(年齢、技量、アレルギー情報など)も含まれる。
【0474】
ステップ4:
【0475】
サーバがリクエストを受け取り、ユーザ情報に基づいて適切なレシピをデータベースから取得する。さらに、ユーザのニーズに合わせてレシピをカスタマイズする。
【0476】
ステップ5:
【0477】
サーバがカスタマイズしたレシピと調理手順を視覚および音声ガイド形式にフォーマットし、端末へ送信する。
【0478】
ステップ6:
【0479】
端末が送られてきたデータを受け取り、ユーザに視覚的なアニメーションと音声ガイドを提供する。これにより、ユーザはステップごとに指示を受けながら調理を進める。
【0480】
ステップ7:
【0481】
ユーザが端末の指示に基づいて、材料を集め、調理を開始する。ガイドに従って具体的な手順を実行する。
【0482】
ステップ8:
【0483】
端末がユーザの調理中の動作をモニタリングし、包丁や火器を使用する際などの危険を検知した場合に警告を発信することで、安全を確保する。
【0484】
ステップ9:
【0485】
ユーザが不明点や質問がある場合、端末に音声で問い合わせを行う。例えば、「次は何をすればいいの?」と尋ねる。
【0486】
ステップ10:
【0487】
サーバがユーザの質問を受け取って適切な応答を生成し、端末に送信する。
【0488】
ステップ11:
【0489】
端末がサーバからの応答を音声と視覚でユーザに伝え、調理プロセスをサポートする。
【0490】
ステップ12:
【0491】
ユーザが全ての調理ステップを完了し、料理が完成する。端末が「お疲れ様です。料理が完成しました!」と通知してフィードバックを提供する。
【0492】
(実施例1)
【0493】
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0494】
この発明が解決しようとする課題は、未熟な技能を持つユーザ、特に子供が安全かつ効果的に料理を学ぶことが困難であるという点である。料理手順の不適切な理解や危険な調理工程における事故のリスクを低減し、ユーザが自信を持って調理に取り組める支援が必要である。
【0495】
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0496】
この発明では、サーバは、ユーザ入力音声を文字データに変換する処理装置と、年齢、技能レベル、健康情報を基に料理手順を構成する処理装置と、生成された料理手順を表示および音声で提供する処理装置と、を含む。これにより、ユーザは自らの状況や能力に応じた安全で効果的な料理体験を享受することが可能となる。
【0497】
「ユーザ入力音声の文字データへの変換」とは、ユーザが発する音声をデジタル信号として認識し、これをテキスト形式に変換する処理である。
【0498】
「年齢、技能レベル、健康情報を基にした料理手順の構成」とは、ユーザの属性に応じて最適なレシピや手順を選定し、調理の学習と実践を支援するためにこれをカスタマイズすることである。
【0499】
「生成された料理手順の表示および音声での提供」とは、ユーザが理解しやすいように視覚および音声によって提供されるインターフェースで、調理手順を案内することである。
【0500】
「ユーザの作業状況の監視」とは、ユーザの調理過程を追跡し、プロセスの進捗や安全性を評価することである。
【0501】
「安全性に関する脅威の検知」とは、調理中の危険性が伴う行動や状態を検知し、事故を未然に防ぐためのプロセスである。
【0502】
「注意喚起の実施」とは、ユーザに対し、音声または視覚の手段を用いて注意を促し、安全に調理を進めるよう警告を行うことである。
【0503】
本発明は、ユーザが安全に料理を学び自立して調理できることを目的としたシステムである。このシステムは、サーバ、端末、ユーザから構成される。
【0504】
サーバは、システムの中心的な役割を果たし、ユーザ入力音声を文字データに変換するための音声認識APIを利用する。ここでは、音声データをGoogleの音声認識APIや一般的な音声認識ソフトウェアを使用してテキストデータに変換する。このテキストデータを基に、生成AIモデルを使用してレシピを生成する。生成AIモデルとしては、一般的な自然言語処理モデルが利用可能であり、プロンプト文としては「8歳の子供向けに、簡単で安全なチョコレートクッキーのレシピを生成して」が挙げられる。さらに、サーバはデータベースにアクセスし、ユーザの年齢、技能レベル、健康情報を考慮したレシピのカスタマイズを行う。カスタマイズされたレシピは視覚ガイドと音声ガイドとしてフォーマットされ、端末に送信される。
【0505】
端末は、サーバから送信された視覚および音声ガイドを用いて、ユーザに対して手順を案内するデバイスである。タブレットやスマートフォンなどのデバイス上で、アニメーションや音声による逐次的な指導が行われる。端末は、ユーザの調理進行をモニターし、必要に応じて安全性に関する注意喚起を行うことが可能である。例えば、包丁を使用する際には、端末がリアルタイムで注意を促す音声警告を発する。
【0506】
ユーザは、端末を操作しガイドに従って調理を行う主体である。ユーザは端末に向かって希望する料理内容を音声で入力し、提供されるガイドに基づいて材料を用意し、手順に従って安全に調理を進める。具体的な例として、「チョコレートクッキーを作りたい」と希望をサーバに伝え、提供されるレシピと手順に従って調理を進めていく。
【0507】
このようにして、本システムはユーザが理解しやすく、安全に料理を学ぶための支援を提供することが可能である。
【0508】
実施例1における特定処理の流れについて
図11を用いて説明する。
【0509】
ステップ1:
【0510】
ユーザは、端末に向かって希望する料理内容を音声で入力する。例えば、「チョコレートクッキーを作りたい」と話しかける。この音声が入力データとなる。
【0511】
ステップ2:
【0512】
端末は、録音された音声データをデジタル信号としてサーバに送信する。これがサーバへの入力となる。
【0513】
ステップ3:
【0514】
サーバは、音声認識APIを利用して受け取った音声データをテキストデータに変換する。この変換処理により、「チョコレートクッキーを作りたい」というテキストが出力される。ここで、音声入力というアナログデータがデジタルなテキストデータへ加工される。
【0515】
ステップ4:
【0516】
サーバは、生成AIモデルにプロンプト文を入力する。「8歳の子供向けに、簡単で安全なチョコレートクッキーのレシピを生成して」というプロンプトに基づき、AIモデルがレシピデータを生成する。これが次の処理の入力データとなる。
【0517】
ステップ5:
【0518】
サーバは、生成されたレシピデータを確認し、ユーザのプロフィール情報(年齢、技能レベル、健康情報)を考慮してレシピをカスタマイズする。例えば、子供が使いやすいように材料の重量を調整したり、工程を簡易化するといった加工が行われる。これにより、ユーザに最適化されたレシピが出力される。
【0519】
ステップ6:
【0520】
サーバは、カスタマイズされたレシピを視覚および音声ガイドとしてフォーマットし、端末に送信する。これが端末への入力データである。
【0521】
ステップ7:
【0522】
端末は、受け取ったガイドデータをもとに、ユーザに対して視覚および音声で料理手順を案内する。レシピ順にしたがってアニメーションや音声で各ステップを分かりやすく表示する。
【0523】
ステップ8:
【0524】
端末は、ユーザの操作状況をリアルタイムで監視し、危険が伴う工程では音声警告や画面表示により注意を促す。例えば、包丁を使う場面やオーブンの加熱に関する警告を出す。この出力はユーザの安全を確保するためのものである。
【0525】
ステップ9:
【0526】
ユーザは、視覚および音声ガイドにしたがって調理を進める。これにより、ユーザは安全で効果的に料理を完成させることが可能となる。出力として、完成した料理が結果となる。
【0527】
(応用例1)
【0528】
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0529】
子供が安全に効果的に料理を学ぶための支援システムにおいて、子供の年齢や技術レベルに応じた柔軟な料理手順の提供、およびリアルタイムでの危険検知と警告を可能とすることが求められている。また、インタラクティブなインターフェースを用いて、子供の興味を引き出すとともに、料理への主体的な参加を促進する方法が必要である。
【0530】
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0531】
この発明では、サーバは、ユーザーからの音声入力をテキストデータに変換する手段と、ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいて料理手順を生成する手段と、生成された料理手順を視覚および音声指示として表示する手段と、ユーザーの操作を監視し、危険な状況を検出する手段と、を含む。これにより、子供が安全かつ興味深く料理を学ぶことが可能となる。
【0532】
「ユーザーからの音声入力をテキストデータに変換する手段」とは、音声形式の情報をデジタルテキスト形式に変換する技術を指す。
【0533】
「ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいて料理手順を生成する手段」とは、ユーザーに合わせた最適な料理手順を作成するアルゴリズムまたはプログラムを指す。
【0534】
「生成された料理手順を視覚および音声指示として表示する手段」とは、生成された指示をユーザーに視覚的および聴覚的に伝達するための表示装置またはプログラムを指す。
【0535】
「ユーザーの操作を監視し、危険な状況を検出する手段」とは、ユーザーの行動を追跡し、安全性を判断するためのセンサーやソフトウェアによる監視機能を指す。
【0536】
「ヴィジュアルインターフェースを提供するための手段」とは、ユーザーとシステムの間の情報のやりとりを視覚的に行うためのデザインまたはプラットフォームを指す。
【0537】
「ユーザーの行動を追跡し、所定の判断基準に基づいて安全性を評価する手段」とは、行動ログを分析し、安全性について自動的に判断するためのアルゴリズムまたはシステムを指す。
【0538】
本発明を実施するためのシステムは、サーバ、端末、ユーザの3つの主要な要素から構成されている。サーバは、システムの中核を担う部分であり、ユーザの提供する音声入力をテキストに変換し、それに基づいて料理手順を生成する。具体的には、サーバはGoogle Speech-to-Text APIを利用して音声をテキストデータに変換する。このテキストデータは、サーバ内でホストされるAIモデル、例としてOpenAIのGPT-3を用いることができる、を用いたレシピ生成エンジンによって処理される。エンジンは、ユーザの年齢、技量、アレルギー情報、および保有材料を考慮に入れ、最適な料理手順を生成する。
【0539】
端末は、ユーザとのインターフェースを担う装置である。端末はサーバから送信された料理手順を受信し、視覚および音声でユーザにガイドするためにUnityやFlutterといった開発プラットフォームを利用することができる。また、端末はSpeech Synthesis APIを用いて音声ガイドを実現する。ユーザの行動をリアルタイムで監視し、OpenCVなどのライブラリを使用して危険な状況を認識し、警告を発信する機能も備えている。
【0540】
ユーザは、端末を通じてシステムと対話し、自らが希望する料理を安全に学び進めるために、このシステムを利用する。例えば、8歳の子供が「スパゲッティを作りたい」とリクエストした場合、AIモデルは以下のプロンプト文を受け取る:「子供がスパゲッティを安全かつ簡単に作れるレシピを考えてください。年齢は8歳で、使用する機材は家庭用のものに限ります。」システムはこの情報をもとに、子供向けの安全で理解しやすい手順を生成し、端末を通じて視覚と音声で案内する。このようにして、本発明は、ユーザが興味を持ち、能動的に料理を学べる環境を提供することが可能である。
【0541】
応用例1における特定処理の流れについて
図12を用いて説明する。
【0542】
ステップ1:
【0543】
ユーザは、端末に料理の情報を音声入力する。この音声入力は、ユーザのリクエストに基づくもので、具体的には作りたい料理や要求事項を含む。
【0544】
ステップ2:
【0545】
端末は音声データをGoogle Speech-to-Text APIを用いてテキストデータに変換する。この変換により、音声の内容がサーバで理解可能なデジタル形式となる。入力は音声データであり、出力は対応するテキストデータである。
【0546】
ステップ3:
【0547】
サーバは入力テキストを受け取り、AIモデル(例:OpenAI GPT-3)を用いてプロンプト文を生成する。このプロンプト文には、ユーザの要求に基づいて最適化された料理手順を出力するための情報が含まれる。入力は変換されたテキストであり、出力はプロンプト文である。
【0548】
ステップ4:
【0549】
サーバは生成したプロンプト文を用いて、AIモデルに基づいてカスタマイズされた料理手順を生成する。このプロセスでは、ユーザの年齢、技量、アレルギー情報、および保有材料を考慮する。入力はプロンプト文であり、出力は最適化された料理手順である。
【0550】
ステップ5:
【0551】
端末は、サーバから送信された料理手順を受け取り、UnityやFlutterを利用して視覚および音声ガイドを生成する。このガイドは、ユーザが直感的にステップを理解しやすくするためのものである。入力はカスタマイズされた料理手順であり、出力は視覚および音声インターフェースである。
【0552】
ステップ6:
【0553】
ユーザは、端末のガイドに従い、料理を進める。端末は、ユーザの操作や動作をリアルタイムで監視し、OpenCVライブラリなどを使用して危険な状況を検出する。入力はユーザの動作データであり、出力は危険時の警告アラートである。
【0554】
ステップ7:
【0555】
端末が危険を検出した場合、即座に音声と視覚で警告を発し、ユーザに対して適切な安全措置を促す。この時、ユーザの進行を一時停止し、状況が安全になるまで次のステップをガイドしない。入力は危険検出情報であり、出力は警告インターフェースである。
【0556】
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
【0557】
この発明は、子供を含むユーザが安全に料理を学び、自立して調理を行うことを可能にするシステムである。システムは、音声入力をテキストデータに変換する、ユーザの年齢や技量、アレルギー情報、保有材料に基づきレシピを生成する、そして視覚および音声ガイドを提供する手段を持つ。また、ユーザの操作をモニタリングして危険を検出し、それに対して警告を発信する機能を備えている。これに加えて、本発明は感情エンジンを組み込み、ユーザの感情を認識してシステムの動作を調整する新たな能力を提供する。
【0558】
サーバは、ユーザの音声入力を受信し、音声認識技術を用いてテキストデータに変換する。これに基づいて、サーバはユーザデータを参照し、適切なレシピをデータベースから取得しカスタマイズする。サーバはさらに、感情エンジンを用いてユーザの感情状態を分析し、ユーザの感情に応じたレシピの提案や調整を行う。その結果を視覚および音声ガイド形式にフォーマットして端末に送信する。
【0559】
端末は、サーバから送られてきたデータを基に、ユーザに視覚的なアニメーションと音声ガイドを提供する。端末はユーザがどのような感情状態にあるかを把握し、その状態に応じてガイドのトーンや内容を調整する。例えば、ユーザが不安な場合は、より詳細な説明や励ましの言葉を提供することが可能である。また、端末はユーザの操作状況をモニタリングし、センサーやカメラを通じて危険を検出した場合には、警告を発信する。感情エンジンはここでも重要な役割を担い、警告の優先度や伝え方をユーザの精神状態に合わせて調整する。
【0560】
ユーザは、料理を開始する際に端末で希望する料理名を入力する。その後、端末の指示に従って調理を進めるが、特に感情的に不安定な場合や初めての作業に対し、端末がユーザの感情を考慮したサポートを提供する。例えば、料理が思うように進まない時に、端末がユーザの感情を感知して、「大丈夫、リラックスして進めていきましょう」といったサポートを行う。
【0561】
こうした総合的な機能により、本システムは、ユーザが単に料理を学ぶだけでなく、感情面でのサポートを受けながら安全で楽しい調理体験を提供することができる。
【0562】
以下に、処理の流れについて説明する。
【0563】
ステップ1:
【0564】
ユーザが端末に向かって作りたい料理を音声で入力する。例:「ラザニアを作りたい」と発話する。
【0565】
ステップ2:
【0566】
端末がユーザの音声を録音し、音声認識エンジンを使用して音声データをテキストデータに変換する。このテキストにはユーザの料理希望が含まれる。
【0567】
ステップ3:
【0568】
端末が変換されたテキストデータをサーバに送信し、ユーザ情報、年齢、スキルレベル、アレルギー情報を含むリクエストを送る。
【0569】
ステップ4:
【0570】
サーバがリクエストを受信し、データベースから該当するレシピを取得する。ユーザのスキルレベルに応じてレシピを調整し、次にレシピをカスタマイズする。
【0571】
ステップ5:
【0572】
サーバがユーザの年齢、スキルレベル、アレルギー情報に基づいてレシピをカスタマイズし、感情エンジンを使用して、ユーザの感情を推定するために追加のデータ(例:音声や表情)を分析する。
【0573】
ステップ6:
【0574】
サーバが分析したユーザの感情に基づき、調整されたレシピとガイドを音声および視覚データとしてフォーマットし、端末に送信する。
【0575】
ステップ7:
【0576】
端末がサーバからのデータを受信し、画面上にレシピ手順を視覚的に表示し、ユーザに音声ガイドを提供する。ユーザの感情状態に調整された穏やかなトーンで指示を行う。
【0577】
ステップ8:
【0578】
ユーザが端末の視覚および音声ガイドに従い、調理工程を実行する。材料を集めたり、指示に従って作業を進める。
【0579】
ステップ9:
【0580】
端末がセンサーやユーザのフィードバックを通じてユーザの操作をモニターし、包丁や火器の使用など危険が予測される場合に警告を発する。ユーザの感情に合わせて警告の強さを調整する。
【0581】
ステップ10:
【0582】
ユーザが調理中に疑問があれば端末に問い合わせる。例えば、「もっと詳しく教えて」といった形で質問をする。
【0583】
ステップ11:
【0584】
サーバがユーザの質問を受け取り、その内容を解析して、適切な答えを生成し、端末に送信する。
【0585】
ステップ12:
【0586】
端末がサーバからの応答を音声およびテキストでユーザに伝え、料理の進行をサポートする。
【0587】
ステップ13:
【0588】
ユーザが全ての工程を完了し、料理を仕上げる。端末が「素晴らしいですね!料理が完成しました!」とフィードバックを提供し、ユーザを称賛する。
【0589】
(実施例2)
【0590】
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0591】
現代社会において、料理を安全に学び、実践することは重要なスキルである。しかし、特に子供や料理初心者にとっては、料理の過程で使用する道具や加熱器具による危険性が存在するため、安心して学習することが難しい。また、学習者のスキルレベルや精神状態に応じて適切に調整されたガイドを提供することができないため、個別のニーズに対応することが困難である。これにより、料理学習のプロセスが不十分でストレスフルなものとなり、結果的に学習意欲の低下や安全確保の失敗を招く可能性がある。
【0592】
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0593】
この発明では、サーバは、音響入力を文字情報に転換する手段と、利用者の年齢、技術レベル、アレルギー情報、並びに保有材料に基づいて手順を生成する手段と、生成された手順を視覚及び音声で案内する手段と、を含む。これにより、利用者の安全確保をしつつ、個々の利用者に対して最適化された調理学習環境を提供することが可能となる。
【0594】
「音響入力を文字情報に転換する手段」とは、利用者が発する音声データをデジタルテキストに変換する技術を指し、音声認識技術を利用して音声を文字化する機能を有するものである。
【0595】
「文字情報」とは、音声データから変換され、デジタル形式で記録されたテキストデータを指し、サーバにおけるさらなる処理や分析を可能にするものである。
【0596】
「利用者の年齢、技術レベル、アレルギー情報、並びに保有材料に基づいて手順を生成する手段」とは、個々の利用者の基本情報や状況に応じて、最適な調理手順を提案するためのアルゴリズム及びデータベースを利用する技術を指すものである。
【0597】
「視覚及び音声で案内する手段」とは、生成された調理手順をユーザフレンドリーな形式で提示するために、ディスプレイ装置及び音声合成技術を用いて案内情報を提供する技術を指すものである。
【0598】
「利用者の操作を監視し、危険な状況を検出する手段」とは、センサーやカメラを通じて利用者の動作をリアルタイムで監視し、潜在的な危険を特定するための技術を指すものである。
【0599】
「警告を発する手段」とは、特定された危険に対して利用者に警告や注意を促すために、視覚的および聴覚的な方法を通じてメッセージを伝達する技術を指すものである。
【0600】
「感情状態を解析し、これに応じた手順及び警告を調整する手段」とは、利用者の感情を識別し、その結果に基づいて調理手順や警告内容を動的に最適化するための感情分析技術を指すものである。
【0601】
このシステムは、ユーザが安全且つ効率的に料理を学ぶことを目的として構築されたものである。ユーザは、まず端末に向かって希望する料理を音声で入力する。端末は、内蔵されたマイクロフォンを用いて音声データを取得し、それをサーバに送信する。
【0602】
サーバは、音声認識技術を用いて音声データをテキストデータに変換する。この用途には、一般に利用されている音声認識サービスを採用する。例えば、「音響入力を文字情報に転換する手段」としては、一般的な音声認識プラットフォームを用いることが可能である。変換されたテキストデータを基に、サーバはユーザの年齢、技術レベル、アレルギー情報、保有材料を考慮しながら、最適な料理手順(レシピ)をデータベースから生成する。これには、一般的なデータベース管理システムを使用する。
【0603】
次に、サーバは感情解析技術を用い、ユーザの感情状態を評価する。この解析には、一般的な感情分析APIを利用することが可能である。評価結果に応じて、ユーザの状況に適した手順や警告メッセージを生成する。例えば、ユーザが不安な場合には、詳細で安心感のある指南が提供される。
【0604】
その後、サーバは調整されたレシピとガイドを端末に送信する。端末は、受け取ったデータを基にユーザに視覚及び音声で案内を行う。視覚案内にはディスプレイ装置を、音声案内にはテキスト音声変換技術を活用する。この実施態様により、ユーザは現状に応じた案内を受けることができる。具体例として、ユーザがオムライスの作り方を知りたい場合、プロンプト文として「オムライスを簡単に作る方法を教えてください。必要な材料と具体的な手順があると嬉しいです。」と入力することが考えられる。
【0605】
このシステムにより、ユーザは安全且つ個別の状況に適応した調理学習を行うことができる。また、危険が予測される場合には、リアルタイムの監視を通じて端末が適切な警告を発することにより、料理中の安全性を確保することが可能である。
【0606】
実施例2における特定処理の流れについて
図13を用いて説明する。
【0607】
ステップ1:
【0608】
ユーザは、端末に向かって料理の希望や関連情報を音声で入力する。端末はマイクロフォンを通じてこの音響データをキャプチャし、音声ファイルとして保存する。入力はユーザの音声であり、出力は音声ファイル形式のデータである。端末は、オンデバイスで音声ファイルを圧縮し、サーバへの転送準備を行う。
【0609】
ステップ2:
【0610】
サーバは、端末から送信された音声ファイルを受信する。受信された音声ファイルは、音声認識システムを通じて解析され、テキストデータに変換される。ここでの入力は音声ファイルで、出力は文字データである。サーバはその文字データを処理し、料理名や必要な材料などの情報を抽出する。
【0611】
ステップ3:
【0612】
サーバは、抽出した文字データを基に、ユーザの基本情報を参照して最適なレシピを検索する。入力は文字データとユーザ情報で、出力はカスタマイズされたレシピデータである。ユーザの年齢、技量、アレルギー情報、保有材料を考慮し、適切なデータベースクエリが実行される。
【0613】
ステップ4:
【0614】
サーバは、感情分析エンジンを用いて、ユーザからの文字データや可能な履歴情報を解析し、感情状態を評価する。入力は文字データとそれに付随する履歴情報であり、出力は感情状態の評価結果である。この結果を基に、レシピの内容や案内方法を柔軟に調整する処理が行われる。
【0615】
ステップ5:
【0616】
サーバは、調整されたレシピと案内方法を視覚及び音声案内形式にフォーマットし、端末に送信する。入力はカスタマイズされたレシピデータと感情評価結果で、出力はフォーマットされたガイドデータである。
【0617】
ステップ6:
【0618】
端末は、サーバから受信したガイドデータに基づいて、ユーザに視覚的な案内をディスプレイし、音声音声合成技術を用いて音声案内を提供する。入力はガイドデータで、出力はディスプレイ上の視覚情報及びスピーカーから流れる音声情報である。
【0619】
ステップ7:
【0620】
端末は、内蔵センサーやカメラを利用してユーザの操作をリアルタイムで監視し、安全性の確保を行う。入力はセンサー及びカメラからのデータで、出力は安全措置が必要な場合、警告メッセージである。また、ユーザの操作に応じて、さらなる詳細ガイドが必要な場合に、それを動的に提供する。
【0621】
(応用例2)
【0622】
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0623】
現代社会において、初心者や子供が安全でかつ有意義に調理スキルを学ぶことが求められている。しかし、従来の調理支援システムは、ユーザーの技量や感情状態を考慮した個別対応が不十分であり、特に感情状態を活用した調整機能を持たないために、ユーザーがストレスを感じやすく、調理体験の質を低下させる可能性があるという問題がある。
【0624】
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0625】
この発明では、サーバは、ユーザーからの音声入力をテキストデータに変換する手段と、ユーザーの年代、技術レベル、アレルギー情報、および物品に基づいて製法を生成する手段と、ユーザーの感情状態を認識し、システムの動作を調整する手段と、を含む。これにより、ユーザー個々の特徴に応じた最適かつ柔軟な調理サポートが可能となる。
【0626】
「ユーザー」とは、このシステムを利用して調理を行う人間を指す。
【0627】
「音声入力をテキストデータに変換する手段」とは、ユーザーからの音声情報を文字情報に変換するための方法を意味する。
【0628】
「年代」とは、ユーザーの年齢層や成長段階を示す情報である。
【0629】
「技術レベル」とは、ユーザーの調理に関する知識や技能の程度を表す情報である。
【0630】
「アレルギー情報」とは、ユーザーが持つ食物アレルギーに関する情報である。
【0631】
「物品に基づいて製法を生成する手段」とは、ユーザーが持つ材料に基づいて調理方法を作成するための方法を指す。
【0632】
「視覚および音声指示として表示する手段」とは、生成された調理情報をユーザーに分かりやすく示すための方法である。
【0633】
「監視し、危険な状況を検出する手段」とは、ユーザーの動作を常に観察し、安全を害する可能性のある状態を認識するための方法を意味する。
【0634】
「警告を発する手段」とは、検出された危険性に対してユーザーに注意を促すための方法である。
【0635】
「感情状態を認識し、システムの動作を調整する手段」とは、ユーザーの感情的な反応を分析し、システムの提供する指示やサポートを適宜変更するための方法を指す。
【0636】
この発明を実施するためのシステムは、複数の機能を組み合わせて、ユーザーに対して安全かつ教育的な調理体験を提供するものである。以下に具体的な形態を示す。
【0637】
サーバは、クラウドベースで音声認識技術と自然言語処理技術を動かすプラットフォームを用いる。具体的には、Amazon AWSやGoogle Cloud AIを活用し、さらにOpenAIのAPIを通じてユーザーからの音声入力をテキストデータに変換する。この音声データは感情エンジンによりユーザーの感情を分析するために使用される。感情分析に基づき、ユーザーに対して提供するレシピやアドバイスを動的に調整する。
【0638】
端末は、スマートフォンが該当し、ユーザーに対して視覚および音声ガイドを提供するための役割を担う。サーバから受け取ったデータを基に、ユーザーの年齢、技量、アレルギー、保有材料を考慮したレシピを表示し、調理中のユーザーの動作や感情を監視する。内蔵カメラやセンサーを用いて危険を検出し、リアルタイムで警告を発することができる。
【0639】
ユーザは、調理の各ステップを進める際に端末からの指示を受け取り、必要に応じて音声で質問を行う。このとき、ユーザーの感情が不安定であれば、端末は積極的に励ましの言葉や詳細な説明を提供し、ユーザーの感情に寄り添った対応を行う。これにより、ユーザーは安心して調理を続けることができる。
【0640】
具体例として、ユーザーが初めてフルーツサラダを作る場合、端末は「次にリンゴを切ります。切り方が不安でしたらゆっくり進めても大丈夫です」といったサポートを音声で提供することが可能である。
【0641】
生成AIモデルへのプロンプト例として、「ユーザーがフルーツサラダの途中で混乱している場合、どのようなサポートを提供すべきか?」が考えられる。このプロンプトにより、AIは適切なアドバイスやガイダンスを生成することができる。
【0642】
応用例2における特定処理の流れについて
図14を用いて説明する。
【0643】
ステップ1:
【0644】
サーバは、ユーザーからの音声入力を受信し、クラウドベースの音声認識技術を用いてテキストデータに変換する。入力はユーザーの音声であり、出力はテキストデータである。この変換において、音声認識APIが用いられ、ノイズ除去や音声の特徴抽出といったデータ加工が行われる。
【0645】
ステップ2:
【0646】
サーバは、テキストデータからユーザーの年齢、技量、アレルギー情報、および保有材料を参照し、適切なレシピをデータベースから生成する。入力はテキストデータとユーザープロフィール情報であり、出力はユーザーに最適化されたレシピ情報である。データベースのクエリ処理を行って、条件に一致するレシピを選択する。
【0647】
ステップ3:
【0648】
サーバは、感情エンジンを用いてユーザーの感情状態を分析し、レシピやアドバイスをユーザーの感情に応じて調整する。入力はユーザーのテキストデータおよびプロファイルデータであり、出力は感情を反映した調整済みのレシピ情報である。自然言語処理と感情分析を行い、ユーザーに適切な指示内容を決定する。
【0649】
ステップ4:
【0650】
端末は、サーバから受け取った調整済みのレシピ情報を基に、視覚および音声でユーザーに指示を提供する。入力はサーバからのレシピ情報であり、出力はユーザーへの視覚指示ならびに音声指示である。端末アプリケーションがこれを管理し、デジタルインターフェースを介してユーザーに提示する。
【0651】
ステップ5:
【0652】
ユーザーが調理中の動作を行い、その様子を端末が内蔵するカメラやセンサーで監視する。入力はユーザーの調理行動であり、出力は検出された危険または安全に関するデータである。画像処理技術を用いて、危険な行動をリアルタイムで見つけ出す。
【0653】
ステップ6:
【0654】
端末は、危険が検出された場合、ユーザーに警告を発する。入力は検出された危険情報であり、出力はユーザーへの警告メッセージである。音声およびビジュアル警告を提供することで、ユーザーに即座に注意を促す。
【0655】
ステップ7:
【0656】
ユーザーが感情的に不安を感じた場合、端末は感情データに基づき優しい言葉や励ましのメッセージを提供する。入力はユーザーの感情データであり、出力は励ましの言葉である。これにおいて生成AIモデルを用い、プロンプト文を生成してユーザーの感情を安定させるための適切な言葉を生成する。
【0657】
特定処理部290は、特定処理の結果をヘッドセット型端末314に送信する。ヘッドセット型端末314では、制御部46Aが、スピーカ240及びディスプレイ343に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【0658】
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【0659】
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ヘッドセット型端末314によって特定処理が行われるようにしてもよい。
【0660】
[第4実施形態]
【0661】
図7には、第4実施形態に係るデータ処理システム410の構成の一例が示されている。
【0662】
図7に示すように、データ処理システム410は、データ処理装置12及びロボット414を備えている。データ処理装置12の一例としては、サーバが挙げられる。
【0663】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0664】
ロボット414は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及び制御対象443を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及び制御対象443も、バス52に接続されている。
【0665】
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
【0666】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
【0667】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
【0668】
制御対象443は、表示装置、目部のLED、並びに、腕、手及び足等を駆動するモータ等を含む。ロボット414の姿勢や仕草は、腕、手及び足等のモータを制御することにより制御される。ロボット414の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット414の目部のLEDの発光状態を制御することによっても、ロボット414の表情を表現できる。
【0669】
図8には、データ処理装置12及びロボット414の要部機能の一例が示されている。
図8に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
【0670】
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
【0671】
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
【0672】
ロボット414では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0673】
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【0674】
この発明は、子供が安全に料理を学び、自立して調理を行うためのシステムであり、音声入力、テキスト変換、レシピ生成、視覚および音声ガイド、危険検知、警告発信の各機能を統合している。システムは主にサーバ、端末、ユーザから構成されている。
【0675】
サーバは、システムの中核を担い、ユーザの入力を処理するAIモデルをホストする。ユーザの音声入力がテキストデータに変換されると、サーバはそのデータを参照し、レシピデータベースから関連情報を取得する。さらに、ユーザの年齢、技量、アレルギー情報に基づいてレシピをカスタマイズする。サーバは最終的なレシピと料理手順をフォーマットし、視覚および音声ガイドとして端末に送信する。
【0676】
端末は、ユーザによって操作されるデバイスであり、視覚的なアニメーションや音声ガイドを通じてユーザとサーバ間のインターフェースを提供する。端末はサーバから送られてきたレシピと手順を受け取り、ユーザに対して逐次的に提示する。ユーザの進行状況に応じて、次のステップへとガイドし、必要に応じて警告を発信する。
【0677】
ユーザは、システムの中心的な利用者であり、端末を通じてシステムと対話し、自らの希望に沿った料理を実行する。例えば、ユーザが「チョコレートクッキーを作りたい」と端末に入力すると、システム全体のプロセスが開始される。ユーザは端末上のガイドに従い、材料を準備し、指示に基づいて調理を進める。包丁を使う際やオーブンの温度設定といった危険性の高いステップでは、端末がリアルタイムで注意喚起を行うことができる。
【0678】
このように本システムは、視覚的および音声的な補助を組み合わせることで、ユーザが容易に料理を学び、安全かつ効率的に調理を進めることを可能にするシステムの実施形態を提供する。
【0679】
以下に、処理の流れについて説明する。
【0680】
ステップ1:
【0681】
ユーザが端末に向かって希望する料理名を音声で入力する。例えば、「チョコレートクッキーを作りたい」と発話する。
【0682】
ステップ2:
【0683】
端末がユーザの音声を録音し、音声認識技術を使用してテキストデータに変換する。このテキストデータには料理名が含まれる。
【0684】
ステップ3:
【0685】
端末が変換されたテキストデータを含むリクエストをサーバに送信する。このリクエストには、ユーザ情報(年齢、技量、アレルギー情報など)も含まれる。
【0686】
ステップ4:
【0687】
サーバがリクエストを受け取り、ユーザ情報に基づいて適切なレシピをデータベースから取得する。さらに、ユーザのニーズに合わせてレシピをカスタマイズする。
【0688】
ステップ5:
【0689】
サーバがカスタマイズしたレシピと調理手順を視覚および音声ガイド形式にフォーマットし、端末へ送信する。
【0690】
ステップ6:
【0691】
端末が送られてきたデータを受け取り、ユーザに視覚的なアニメーションと音声ガイドを提供する。これにより、ユーザはステップごとに指示を受けながら調理を進める。
【0692】
ステップ7:
【0693】
ユーザが端末の指示に基づいて、材料を集め、調理を開始する。ガイドに従って具体的な手順を実行する。
【0694】
ステップ8:
【0695】
端末がユーザの調理中の動作をモニタリングし、包丁や火器を使用する際などの危険を検知した場合に警告を発信することで、安全を確保する。
【0696】
ステップ9:
【0697】
ユーザが不明点や質問がある場合、端末に音声で問い合わせを行う。例えば、「次は何をすればいいの?」と尋ねる。
【0698】
ステップ10:
【0699】
サーバがユーザの質問を受け取って適切な応答を生成し、端末に送信する。
【0700】
ステップ11:
【0701】
端末がサーバからの応答を音声と視覚でユーザに伝え、調理プロセスをサポートする。
【0702】
ステップ12:
【0703】
ユーザが全ての調理ステップを完了し、料理が完成する。端末が「お疲れ様です。料理が完成しました!」と通知してフィードバックを提供する。
【0704】
(実施例1)
【0705】
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【0706】
この発明が解決しようとする課題は、未熟な技能を持つユーザ、特に子供が安全かつ効果的に料理を学ぶことが困難であるという点である。料理手順の不適切な理解や危険な調理工程における事故のリスクを低減し、ユーザが自信を持って調理に取り組める支援が必要である。
【0707】
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0708】
この発明では、サーバは、ユーザ入力音声を文字データに変換する処理装置と、年齢、技能レベル、健康情報を基に料理手順を構成する処理装置と、生成された料理手順を表示および音声で提供する処理装置と、を含む。これにより、ユーザは自らの状況や能力に応じた安全で効果的な料理体験を享受することが可能となる。
【0709】
「ユーザ入力音声の文字データへの変換」とは、ユーザが発する音声をデジタル信号として認識し、これをテキスト形式に変換する処理である。
【0710】
「年齢、技能レベル、健康情報を基にした料理手順の構成」とは、ユーザの属性に応じて最適なレシピや手順を選定し、調理の学習と実践を支援するためにこれをカスタマイズすることである。
【0711】
「生成された料理手順の表示および音声での提供」とは、ユーザが理解しやすいように視覚および音声によって提供されるインターフェースで、調理手順を案内することである。
【0712】
「ユーザの作業状況の監視」とは、ユーザの調理過程を追跡し、プロセスの進捗や安全性を評価することである。
【0713】
「安全性に関する脅威の検知」とは、調理中の危険性が伴う行動や状態を検知し、事故を未然に防ぐためのプロセスである。
【0714】
「注意喚起の実施」とは、ユーザに対し、音声または視覚の手段を用いて注意を促し、安全に調理を進めるよう警告を行うことである。
【0715】
本発明は、ユーザが安全に料理を学び自立して調理できることを目的としたシステムである。このシステムは、サーバ、端末、ユーザから構成される。
【0716】
サーバは、システムの中心的な役割を果たし、ユーザ入力音声を文字データに変換するための音声認識APIを利用する。ここでは、音声データをGoogleの音声認識APIや一般的な音声認識ソフトウェアを使用してテキストデータに変換する。このテキストデータを基に、生成AIモデルを使用してレシピを生成する。生成AIモデルとしては、一般的な自然言語処理モデルが利用可能であり、プロンプト文としては「8歳の子供向けに、簡単で安全なチョコレートクッキーのレシピを生成して」が挙げられる。さらに、サーバはデータベースにアクセスし、ユーザの年齢、技能レベル、健康情報を考慮したレシピのカスタマイズを行う。カスタマイズされたレシピは視覚ガイドと音声ガイドとしてフォーマットされ、端末に送信される。
【0717】
端末は、サーバから送信された視覚および音声ガイドを用いて、ユーザに対して手順を案内するデバイスである。タブレットやスマートフォンなどのデバイス上で、アニメーションや音声による逐次的な指導が行われる。端末は、ユーザの調理進行をモニターし、必要に応じて安全性に関する注意喚起を行うことが可能である。例えば、包丁を使用する際には、端末がリアルタイムで注意を促す音声警告を発する。
【0718】
ユーザは、端末を操作しガイドに従って調理を行う主体である。ユーザは端末に向かって希望する料理内容を音声で入力し、提供されるガイドに基づいて材料を用意し、手順に従って安全に調理を進める。具体的な例として、「チョコレートクッキーを作りたい」と希望をサーバに伝え、提供されるレシピと手順に従って調理を進めていく。
【0719】
このようにして、本システムはユーザが理解しやすく、安全に料理を学ぶための支援を提供することが可能である。
【0720】
実施例1における特定処理の流れについて
図11を用いて説明する。
【0721】
ステップ1:
【0722】
ユーザは、端末に向かって希望する料理内容を音声で入力する。例えば、「チョコレートクッキーを作りたい」と話しかける。この音声が入力データとなる。
【0723】
ステップ2:
【0724】
端末は、録音された音声データをデジタル信号としてサーバに送信する。これがサーバへの入力となる。
【0725】
ステップ3:
【0726】
サーバは、音声認識APIを利用して受け取った音声データをテキストデータに変換する。この変換処理により、「チョコレートクッキーを作りたい」というテキストが出力される。ここで、音声入力というアナログデータがデジタルなテキストデータへ加工される。
【0727】
ステップ4:
【0728】
サーバは、生成AIモデルにプロンプト文を入力する。「8歳の子供向けに、簡単で安全なチョコレートクッキーのレシピを生成して」というプロンプトに基づき、AIモデルがレシピデータを生成する。これが次の処理の入力データとなる。
【0729】
ステップ5:
【0730】
サーバは、生成されたレシピデータを確認し、ユーザのプロフィール情報(年齢、技能レベル、健康情報)を考慮してレシピをカスタマイズする。例えば、子供が使いやすいように材料の重量を調整したり、工程を簡易化するといった加工が行われる。これにより、ユーザに最適化されたレシピが出力される。
【0731】
ステップ6:
【0732】
サーバは、カスタマイズされたレシピを視覚および音声ガイドとしてフォーマットし、端末に送信する。これが端末への入力データである。
【0733】
ステップ7:
【0734】
端末は、受け取ったガイドデータをもとに、ユーザに対して視覚および音声で料理手順を案内する。レシピ順にしたがってアニメーションや音声で各ステップを分かりやすく表示する。
【0735】
ステップ8:
【0736】
端末は、ユーザの操作状況をリアルタイムで監視し、危険が伴う工程では音声警告や画面表示により注意を促す。例えば、包丁を使う場面やオーブンの加熱に関する警告を出す。この出力はユーザの安全を確保するためのものである。
【0737】
ステップ9:
【0738】
ユーザは、視覚および音声ガイドにしたがって調理を進める。これにより、ユーザは安全で効果的に料理を完成させることが可能となる。出力として、完成した料理が結果となる。
【0739】
(応用例1)
【0740】
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【0741】
子供が安全に効果的に料理を学ぶための支援システムにおいて、子供の年齢や技術レベルに応じた柔軟な料理手順の提供、およびリアルタイムでの危険検知と警告を可能とすることが求められている。また、インタラクティブなインターフェースを用いて、子供の興味を引き出すとともに、料理への主体的な参加を促進する方法が必要である。
【0742】
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0743】
この発明では、サーバは、ユーザーからの音声入力をテキストデータに変換する手段と、ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいて料理手順を生成する手段と、生成された料理手順を視覚および音声指示として表示する手段と、ユーザーの操作を監視し、危険な状況を検出する手段と、を含む。これにより、子供が安全かつ興味深く料理を学ぶことが可能となる。
【0744】
「ユーザーからの音声入力をテキストデータに変換する手段」とは、音声形式の情報をデジタルテキスト形式に変換する技術を指す。
【0745】
「ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいて料理手順を生成する手段」とは、ユーザーに合わせた最適な料理手順を作成するアルゴリズムまたはプログラムを指す。
【0746】
「生成された料理手順を視覚および音声指示として表示する手段」とは、生成された指示をユーザーに視覚的および聴覚的に伝達するための表示装置またはプログラムを指す。
【0747】
「ユーザーの操作を監視し、危険な状況を検出する手段」とは、ユーザーの行動を追跡し、安全性を判断するためのセンサーやソフトウェアによる監視機能を指す。
【0748】
「ヴィジュアルインターフェースを提供するための手段」とは、ユーザーとシステムの間の情報のやりとりを視覚的に行うためのデザインまたはプラットフォームを指す。
【0749】
「ユーザーの行動を追跡し、所定の判断基準に基づいて安全性を評価する手段」とは、行動ログを分析し、安全性について自動的に判断するためのアルゴリズムまたはシステムを指す。
【0750】
本発明を実施するためのシステムは、サーバ、端末、ユーザの3つの主要な要素から構成されている。サーバは、システムの中核を担う部分であり、ユーザの提供する音声入力をテキストに変換し、それに基づいて料理手順を生成する。具体的には、サーバはGoogle Speech-to-Text APIを利用して音声をテキストデータに変換する。このテキストデータは、サーバ内でホストされるAIモデル、例としてOpenAIのGPT-3を用いることができる、を用いたレシピ生成エンジンによって処理される。エンジンは、ユーザの年齢、技量、アレルギー情報、および保有材料を考慮に入れ、最適な料理手順を生成する。
【0751】
端末は、ユーザとのインターフェースを担う装置である。端末はサーバから送信された料理手順を受信し、視覚および音声でユーザにガイドするためにUnityやFlutterといった開発プラットフォームを利用することができる。また、端末はSpeech Synthesis APIを用いて音声ガイドを実現する。ユーザの行動をリアルタイムで監視し、OpenCVなどのライブラリを使用して危険な状況を認識し、警告を発信する機能も備えている。
【0752】
ユーザは、端末を通じてシステムと対話し、自らが希望する料理を安全に学び進めるために、このシステムを利用する。例えば、8歳の子供が「スパゲッティを作りたい」とリクエストした場合、AIモデルは以下のプロンプト文を受け取る:「子供がスパゲッティを安全かつ簡単に作れるレシピを考えてください。年齢は8歳で、使用する機材は家庭用のものに限ります。」システムはこの情報をもとに、子供向けの安全で理解しやすい手順を生成し、端末を通じて視覚と音声で案内する。このようにして、本発明は、ユーザが興味を持ち、能動的に料理を学べる環境を提供することが可能である。
【0753】
応用例1における特定処理の流れについて
図12を用いて説明する。
【0754】
ステップ1:
【0755】
ユーザは、端末に料理の情報を音声入力する。この音声入力は、ユーザのリクエストに基づくもので、具体的には作りたい料理や要求事項を含む。
【0756】
ステップ2:
【0757】
端末は音声データをGoogle Speech-to-Text APIを用いてテキストデータに変換する。この変換により、音声の内容がサーバで理解可能なデジタル形式となる。入力は音声データであり、出力は対応するテキストデータである。
【0758】
ステップ3:
【0759】
サーバは入力テキストを受け取り、AIモデル(例:OpenAI GPT-3)を用いてプロンプト文を生成する。このプロンプト文には、ユーザの要求に基づいて最適化された料理手順を出力するための情報が含まれる。入力は変換されたテキストであり、出力はプロンプト文である。
【0760】
ステップ4:
【0761】
サーバは生成したプロンプト文を用いて、AIモデルに基づいてカスタマイズされた料理手順を生成する。このプロセスでは、ユーザの年齢、技量、アレルギー情報、および保有材料を考慮する。入力はプロンプト文であり、出力は最適化された料理手順である。
【0762】
ステップ5:
【0763】
端末は、サーバから送信された料理手順を受け取り、UnityやFlutterを利用して視覚および音声ガイドを生成する。このガイドは、ユーザが直感的にステップを理解しやすくするためのものである。入力はカスタマイズされた料理手順であり、出力は視覚および音声インターフェースである。
【0764】
ステップ6:
【0765】
ユーザは、端末のガイドに従い、料理を進める。端末は、ユーザの操作や動作をリアルタイムで監視し、OpenCVライブラリなどを使用して危険な状況を検出する。入力はユーザの動作データであり、出力は危険時の警告アラートである。
【0766】
ステップ7:
【0767】
端末が危険を検出した場合、即座に音声と視覚で警告を発し、ユーザに対して適切な安全措置を促す。この時、ユーザの進行を一時停止し、状況が安全になるまで次のステップをガイドしない。入力は危険検出情報であり、出力は警告インターフェースである。
【0768】
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
【0769】
この発明は、子供を含むユーザが安全に料理を学び、自立して調理を行うことを可能にするシステムである。システムは、音声入力をテキストデータに変換する、ユーザの年齢や技量、アレルギー情報、保有材料に基づきレシピを生成する、そして視覚および音声ガイドを提供する手段を持つ。また、ユーザの操作をモニタリングして危険を検出し、それに対して警告を発信する機能を備えている。これに加えて、本発明は感情エンジンを組み込み、ユーザの感情を認識してシステムの動作を調整する新たな能力を提供する。
【0770】
サーバは、ユーザの音声入力を受信し、音声認識技術を用いてテキストデータに変換する。これに基づいて、サーバはユーザデータを参照し、適切なレシピをデータベースから取得しカスタマイズする。サーバはさらに、感情エンジンを用いてユーザの感情状態を分析し、ユーザの感情に応じたレシピの提案や調整を行う。その結果を視覚および音声ガイド形式にフォーマットして端末に送信する。
【0771】
端末は、サーバから送られてきたデータを基に、ユーザに視覚的なアニメーションと音声ガイドを提供する。端末はユーザがどのような感情状態にあるかを把握し、その状態に応じてガイドのトーンや内容を調整する。例えば、ユーザが不安な場合は、より詳細な説明や励ましの言葉を提供することが可能である。また、端末はユーザの操作状況をモニタリングし、センサーやカメラを通じて危険を検出した場合には、警告を発信する。感情エンジンはここでも重要な役割を担い、警告の優先度や伝え方をユーザの精神状態に合わせて調整する。
【0772】
ユーザは、料理を開始する際に端末で希望する料理名を入力する。その後、端末の指示に従って調理を進めるが、特に感情的に不安定な場合や初めての作業に対し、端末がユーザの感情を考慮したサポートを提供する。例えば、料理が思うように進まない時に、端末がユーザの感情を感知して、「大丈夫、リラックスして進めていきましょう」といったサポートを行う。
【0773】
こうした総合的な機能により、本システムは、ユーザが単に料理を学ぶだけでなく、感情面でのサポートを受けながら安全で楽しい調理体験を提供することができる。
【0774】
以下に、処理の流れについて説明する。
【0775】
ステップ1:
【0776】
ユーザが端末に向かって作りたい料理を音声で入力する。例:「ラザニアを作りたい」と発話する。
【0777】
ステップ2:
【0778】
端末がユーザの音声を録音し、音声認識エンジンを使用して音声データをテキストデータに変換する。このテキストにはユーザの料理希望が含まれる。
【0779】
ステップ3:
【0780】
端末が変換されたテキストデータをサーバに送信し、ユーザ情報、年齢、スキルレベル、アレルギー情報を含むリクエストを送る。
【0781】
ステップ4:
【0782】
サーバがリクエストを受信し、データベースから該当するレシピを取得する。ユーザのスキルレベルに応じてレシピを調整し、次にレシピをカスタマイズする。
【0783】
ステップ5:
【0784】
サーバがユーザの年齢、スキルレベル、アレルギー情報に基づいてレシピをカスタマイズし、感情エンジンを使用して、ユーザの感情を推定するために追加のデータ(例:音声や表情)を分析する。
【0785】
ステップ6:
【0786】
サーバが分析したユーザの感情に基づき、調整されたレシピとガイドを音声および視覚データとしてフォーマットし、端末に送信する。
【0787】
ステップ7:
【0788】
端末がサーバからのデータを受信し、画面上にレシピ手順を視覚的に表示し、ユーザに音声ガイドを提供する。ユーザの感情状態に調整された穏やかなトーンで指示を行う。
【0789】
ステップ8:
【0790】
ユーザが端末の視覚および音声ガイドに従い、調理工程を実行する。材料を集めたり、指示に従って作業を進める。
【0791】
ステップ9:
【0792】
端末がセンサーやユーザのフィードバックを通じてユーザの操作をモニターし、包丁や火器の使用など危険が予測される場合に警告を発する。ユーザの感情に合わせて警告の強さを調整する。
【0793】
ステップ10:
【0794】
ユーザが調理中に疑問があれば端末に問い合わせる。例えば、「もっと詳しく教えて」といった形で質問をする。
【0795】
ステップ11:
【0796】
サーバがユーザの質問を受け取り、その内容を解析して、適切な答えを生成し、端末に送信する。
【0797】
ステップ12:
【0798】
端末がサーバからの応答を音声およびテキストでユーザに伝え、料理の進行をサポートする。
【0799】
ステップ13:
【0800】
ユーザが全ての工程を完了し、料理を仕上げる。端末が「素晴らしいですね!料理が完成しました!」とフィードバックを提供し、ユーザを称賛する。
【0801】
(実施例2)
【0802】
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【0803】
現代社会において、料理を安全に学び、実践することは重要なスキルである。しかし、特に子供や料理初心者にとっては、料理の過程で使用する道具や加熱器具による危険性が存在するため、安心して学習することが難しい。また、学習者のスキルレベルや精神状態に応じて適切に調整されたガイドを提供することができないため、個別のニーズに対応することが困難である。これにより、料理学習のプロセスが不十分でストレスフルなものとなり、結果的に学習意欲の低下や安全確保の失敗を招く可能性がある。
【0804】
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0805】
この発明では、サーバは、音響入力を文字情報に転換する手段と、利用者の年齢、技術レベル、アレルギー情報、並びに保有材料に基づいて手順を生成する手段と、生成された手順を視覚及び音声で案内する手段と、を含む。これにより、利用者の安全確保をしつつ、個々の利用者に対して最適化された調理学習環境を提供することが可能となる。
【0806】
「音響入力を文字情報に転換する手段」とは、利用者が発する音声データをデジタルテキストに変換する技術を指し、音声認識技術を利用して音声を文字化する機能を有するものである。
【0807】
「文字情報」とは、音声データから変換され、デジタル形式で記録されたテキストデータを指し、サーバにおけるさらなる処理や分析を可能にするものである。
【0808】
「利用者の年齢、技術レベル、アレルギー情報、並びに保有材料に基づいて手順を生成する手段」とは、個々の利用者の基本情報や状況に応じて、最適な調理手順を提案するためのアルゴリズム及びデータベースを利用する技術を指すものである。
【0809】
「視覚及び音声で案内する手段」とは、生成された調理手順をユーザフレンドリーな形式で提示するために、ディスプレイ装置及び音声合成技術を用いて案内情報を提供する技術を指すものである。
【0810】
「利用者の操作を監視し、危険な状況を検出する手段」とは、センサーやカメラを通じて利用者の動作をリアルタイムで監視し、潜在的な危険を特定するための技術を指すものである。
【0811】
「警告を発する手段」とは、特定された危険に対して利用者に警告や注意を促すために、視覚的および聴覚的な方法を通じてメッセージを伝達する技術を指すものである。
【0812】
「感情状態を解析し、これに応じた手順及び警告を調整する手段」とは、利用者の感情を識別し、その結果に基づいて調理手順や警告内容を動的に最適化するための感情分析技術を指すものである。
【0813】
このシステムは、ユーザが安全且つ効率的に料理を学ぶことを目的として構築されたものである。ユーザは、まず端末に向かって希望する料理を音声で入力する。端末は、内蔵されたマイクロフォンを用いて音声データを取得し、それをサーバに送信する。
【0814】
サーバは、音声認識技術を用いて音声データをテキストデータに変換する。この用途には、一般に利用されている音声認識サービスを採用する。例えば、「音響入力を文字情報に転換する手段」としては、一般的な音声認識プラットフォームを用いることが可能である。変換されたテキストデータを基に、サーバはユーザの年齢、技術レベル、アレルギー情報、保有材料を考慮しながら、最適な料理手順(レシピ)をデータベースから生成する。これには、一般的なデータベース管理システムを使用する。
【0815】
次に、サーバは感情解析技術を用い、ユーザの感情状態を評価する。この解析には、一般的な感情分析APIを利用することが可能である。評価結果に応じて、ユーザの状況に適した手順や警告メッセージを生成する。例えば、ユーザが不安な場合には、詳細で安心感のある指南が提供される。
【0816】
その後、サーバは調整されたレシピとガイドを端末に送信する。端末は、受け取ったデータを基にユーザに視覚及び音声で案内を行う。視覚案内にはディスプレイ装置を、音声案内にはテキスト音声変換技術を活用する。この実施態様により、ユーザは現状に応じた案内を受けることができる。具体例として、ユーザがオムライスの作り方を知りたい場合、プロンプト文として「オムライスを簡単に作る方法を教えてください。必要な材料と具体的な手順があると嬉しいです。」と入力することが考えられる。
【0817】
このシステムにより、ユーザは安全且つ個別の状況に適応した調理学習を行うことができる。また、危険が予測される場合には、リアルタイムの監視を通じて端末が適切な警告を発することにより、料理中の安全性を確保することが可能である。
【0818】
実施例2における特定処理の流れについて
図13を用いて説明する。
【0819】
ステップ1:
【0820】
ユーザは、端末に向かって料理の希望や関連情報を音声で入力する。端末はマイクロフォンを通じてこの音響データをキャプチャし、音声ファイルとして保存する。入力はユーザの音声であり、出力は音声ファイル形式のデータである。端末は、オンデバイスで音声ファイルを圧縮し、サーバへの転送準備を行う。
【0821】
ステップ2:
【0822】
サーバは、端末から送信された音声ファイルを受信する。受信された音声ファイルは、音声認識システムを通じて解析され、テキストデータに変換される。ここでの入力は音声ファイルで、出力は文字データである。サーバはその文字データを処理し、料理名や必要な材料などの情報を抽出する。
【0823】
ステップ3:
【0824】
サーバは、抽出した文字データを基に、ユーザの基本情報を参照して最適なレシピを検索する。入力は文字データとユーザ情報で、出力はカスタマイズされたレシピデータである。ユーザの年齢、技量、アレルギー情報、保有材料を考慮し、適切なデータベースクエリが実行される。
【0825】
ステップ4:
【0826】
サーバは、感情分析エンジンを用いて、ユーザからの文字データや可能な履歴情報を解析し、感情状態を評価する。入力は文字データとそれに付随する履歴情報であり、出力は感情状態の評価結果である。この結果を基に、レシピの内容や案内方法を柔軟に調整する処理が行われる。
【0827】
ステップ5:
【0828】
サーバは、調整されたレシピと案内方法を視覚及び音声案内形式にフォーマットし、端末に送信する。入力はカスタマイズされたレシピデータと感情評価結果で、出力はフォーマットされたガイドデータである。
【0829】
ステップ6:
【0830】
端末は、サーバから受信したガイドデータに基づいて、ユーザに視覚的な案内をディスプレイし、音声音声合成技術を用いて音声案内を提供する。入力はガイドデータで、出力はディスプレイ上の視覚情報及びスピーカーから流れる音声情報である。
【0831】
ステップ7:
【0832】
端末は、内蔵センサーやカメラを利用してユーザの操作をリアルタイムで監視し、安全性の確保を行う。入力はセンサー及びカメラからのデータで、出力は安全措置が必要な場合、警告メッセージである。また、ユーザの操作に応じて、さらなる詳細ガイドが必要な場合に、それを動的に提供する。
【0833】
(応用例2)
【0834】
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【0835】
現代社会において、初心者や子供が安全でかつ有意義に調理スキルを学ぶことが求められている。しかし、従来の調理支援システムは、ユーザーの技量や感情状態を考慮した個別対応が不十分であり、特に感情状態を活用した調整機能を持たないために、ユーザーがストレスを感じやすく、調理体験の質を低下させる可能性があるという問題がある。
【0836】
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0837】
この発明では、サーバは、ユーザーからの音声入力をテキストデータに変換する手段と、ユーザーの年代、技術レベル、アレルギー情報、および物品に基づいて製法を生成する手段と、ユーザーの感情状態を認識し、システムの動作を調整する手段と、を含む。これにより、ユーザー個々の特徴に応じた最適かつ柔軟な調理サポートが可能となる。
【0838】
「ユーザー」とは、このシステムを利用して調理を行う人間を指す。
【0839】
「音声入力をテキストデータに変換する手段」とは、ユーザーからの音声情報を文字情報に変換するための方法を意味する。
【0840】
「年代」とは、ユーザーの年齢層や成長段階を示す情報である。
【0841】
「技術レベル」とは、ユーザーの調理に関する知識や技能の程度を表す情報である。
【0842】
「アレルギー情報」とは、ユーザーが持つ食物アレルギーに関する情報である。
【0843】
「物品に基づいて製法を生成する手段」とは、ユーザーが持つ材料に基づいて調理方法を作成するための方法を指す。
【0844】
「視覚および音声指示として表示する手段」とは、生成された調理情報をユーザーに分かりやすく示すための方法である。
【0845】
「監視し、危険な状況を検出する手段」とは、ユーザーの動作を常に観察し、安全を害する可能性のある状態を認識するための方法を意味する。
【0846】
「警告を発する手段」とは、検出された危険性に対してユーザーに注意を促すための方法である。
【0847】
「感情状態を認識し、システムの動作を調整する手段」とは、ユーザーの感情的な反応を分析し、システムの提供する指示やサポートを適宜変更するための方法を指す。
【0848】
この発明を実施するためのシステムは、複数の機能を組み合わせて、ユーザーに対して安全かつ教育的な調理体験を提供するものである。以下に具体的な形態を示す。
【0849】
サーバは、クラウドベースで音声認識技術と自然言語処理技術を動かすプラットフォームを用いる。具体的には、Amazon AWSやGoogle Cloud AIを活用し、さらにOpenAIのAPIを通じてユーザーからの音声入力をテキストデータに変換する。この音声データは感情エンジンによりユーザーの感情を分析するために使用される。感情分析に基づき、ユーザーに対して提供するレシピやアドバイスを動的に調整する。
【0850】
端末は、スマートフォンが該当し、ユーザーに対して視覚および音声ガイドを提供するための役割を担う。サーバから受け取ったデータを基に、ユーザーの年齢、技量、アレルギー、保有材料を考慮したレシピを表示し、調理中のユーザーの動作や感情を監視する。内蔵カメラやセンサーを用いて危険を検出し、リアルタイムで警告を発することができる。
【0851】
ユーザは、調理の各ステップを進める際に端末からの指示を受け取り、必要に応じて音声で質問を行う。このとき、ユーザーの感情が不安定であれば、端末は積極的に励ましの言葉や詳細な説明を提供し、ユーザーの感情に寄り添った対応を行う。これにより、ユーザーは安心して調理を続けることができる。
【0852】
具体例として、ユーザーが初めてフルーツサラダを作る場合、端末は「次にリンゴを切ります。切り方が不安でしたらゆっくり進めても大丈夫です」といったサポートを音声で提供することが可能である。
【0853】
生成AIモデルへのプロンプト例として、「ユーザーがフルーツサラダの途中で混乱している場合、どのようなサポートを提供すべきか?」が考えられる。このプロンプトにより、AIは適切なアドバイスやガイダンスを生成することができる。
【0854】
応用例2における特定処理の流れについて
図14を用いて説明する。
【0855】
ステップ1:
【0856】
サーバは、ユーザーからの音声入力を受信し、クラウドベースの音声認識技術を用いてテキストデータに変換する。入力はユーザーの音声であり、出力はテキストデータである。この変換において、音声認識APIが用いられ、ノイズ除去や音声の特徴抽出といったデータ加工が行われる。
【0857】
ステップ2:
【0858】
サーバは、テキストデータからユーザーの年齢、技量、アレルギー情報、および保有材料を参照し、適切なレシピをデータベースから生成する。入力はテキストデータとユーザープロフィール情報であり、出力はユーザーに最適化されたレシピ情報である。データベースのクエリ処理を行って、条件に一致するレシピを選択する。
【0859】
ステップ3:
【0860】
サーバは、感情エンジンを用いてユーザーの感情状態を分析し、レシピやアドバイスをユーザーの感情に応じて調整する。入力はユーザーのテキストデータおよびプロファイルデータであり、出力は感情を反映した調整済みのレシピ情報である。自然言語処理と感情分析を行い、ユーザーに適切な指示内容を決定する。
【0861】
ステップ4:
【0862】
端末は、サーバから受け取った調整済みのレシピ情報を基に、視覚および音声でユーザーに指示を提供する。入力はサーバからのレシピ情報であり、出力はユーザーへの視覚指示ならびに音声指示である。端末アプリケーションがこれを管理し、デジタルインターフェースを介してユーザーに提示する。
【0863】
ステップ5:
【0864】
ユーザーが調理中の動作を行い、その様子を端末が内蔵するカメラやセンサーで監視する。入力はユーザーの調理行動であり、出力は検出された危険または安全に関するデータである。画像処理技術を用いて、危険な行動をリアルタイムで見つけ出す。
【0865】
ステップ6:
【0866】
端末は、危険が検出された場合、ユーザーに警告を発する。入力は検出された危険情報であり、出力はユーザーへの警告メッセージである。音声およびビジュアル警告を提供することで、ユーザーに即座に注意を促す。
【0867】
ステップ7:
【0868】
ユーザーが感情的に不安を感じた場合、端末は感情データに基づき優しい言葉や励ましのメッセージを提供する。入力はユーザーの感情データであり、出力は励ましの言葉である。これにおいて生成AIモデルを用い、プロンプト文を生成してユーザーの感情を安定させるための適切な言葉を生成する。
【0869】
特定処理部290は、特定処理の結果をロボット414に送信する。ロボット414では、制御部46Aが、スピーカ240及び制御対象443に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【0870】
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【0871】
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ロボット414によって特定処理が行われるようにしてもよい。
【0872】
なお、感情エンジンとしての感情特定モデル59は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情特定モデル59は、特定のマッピングである感情マップ(
図9参照)に従い、ユーザの感情を決定してよい。また、感情特定モデル59は、同様に、ロボットの感情を決定し、特定処理部290は、ロボットの感情を用いた特定処理を行うようにしてもよい。
【0873】
図9は、複数の感情がマッピングされる感情マップ400を示す図である。感情マップ400において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ400では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。
【0874】
これらの感情は、感情マップ400の3時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ400の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。
【0875】
感情マップ400の内側は心の中、感情マップ400の外側は行動を表すため、感情マップ400の外側に行くほど、感情が目に見える(行動に表れる)ようになる。
【0876】
ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図(音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文:https://ci.nii.ac.jp/naid/500000375379)に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。
【0877】
感情マップでは学習を促す感情が2つ定義される。1つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう1つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。
【0878】
感情特定モデル59は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ユーザの感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、
図10に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。
図10では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。
【0879】
以上、本開示に係るシステムをデータ処理装置12の機能を主として説明したが、本開示に係るシステムはサーバに実装されているとは限らない。本開示に係るシステムは、一般的な情報処理システムとして実装されていてもよい。本開示は、例えば、パーソナルコンピュータで動作するソフトウェアプログラム、スマートフォン等で動作するアプリケーションとして実装されてもよい。本開示に係る方法はSaaS(Software as a Service)形式でユーザに対して提供されてもよい。
【0880】
上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。例えば、データ生成モデル58が、データ処理装置12の外部装置に設けられ、当該外部装置において、入力データに応じたデータの生成を行うようにしてもよい。
【0881】
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。
【0882】
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。
【0883】
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。
【0884】
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。
【0885】
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。
【0886】
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
【0887】
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
【0888】
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
【0889】
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【0890】
以上の実施形態に関し、更に以下を開示する。
【0891】
(請求項1)
【0892】
ユーザーからの音声入力をテキストデータに変換する手段と、
【0893】
ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいてレシピを生成する手段と、
【0894】
生成されたレシピを視覚および音声指示として表示する手段と、
【0895】
ユーザーの操作をモニタリングし、危険な状況を検出する手段と、
【0896】
検出された危険に対して警告を発する手段と、
【0897】
を含むシステム。
【0898】
(請求項2)
【0899】
ユーザーからの問い合わせに対する応答を生成する手段を備えた、請求項1記載のシステム。
【0900】
(請求項3)
【0901】
ユーザーのスキルレベルに応じたレシピの調整を行う手段を備えた、請求項1記載のシステム。
【0902】
「実施例1」
【0903】
(請求項1)
【0904】
ユーザ入力音声を文字データに変換する処理装置と、
【0905】
年齢、技能レベル、健康情報を基に料理手順を構成する処理装置と、
【0906】
生成された料理手順を表示および音声で提供する処理装置と、
【0907】
ユーザの作業状況を監視し、安全性に関する脅威を検知する処理装置と、
【0908】
検知された脅威に対して注意喚起を行う処理装置と、
【0909】
を含む装置。
【0910】
(請求項2)
【0911】
ユーザからの疑問に対する回答を生成する処理装置を含む請求項1記載の装置。
【0912】
(請求項3)
【0913】
ユーザの能力に応じた料理手順の最適化を行う処理装置を含む請求項1記載の装置。
【0914】
「応用例1」
【0915】
(請求項1)
【0916】
ユーザーからの音声入力をテキストデータに変換する手段と、
【0917】
ユーザーの年齢、技量、アレルギー情報、および保有材料に基づいて料理手順を生成する手段と、
【0918】
生成された料理手順を視覚および音声指示として表示する手段と、
【0919】
ユーザーの操作を監視し、危険な状況を検出する手段と、
【0920】
検出された危険に対して警告を発する手段と、
【0921】
ヴィジュアルインターフェースを提供するための手段と、
【0922】
ユーザーの行動を追跡し、所定の判断基準に基づいて安全性を評価する手段と、
【0923】
を含むシステム。
【0924】
(請求項2)
【0925】
ユーザーからの問い合わせに対する応答を生成する手段を備えた、請求項1記載のシステム。
【0926】
(請求項3)
【0927】
ユーザーの技術レベルに応じた料理手順の調整を行う手段を備えた、請求項1記載のシステム。
【0928】
「感情エンジンを組み合わせた場合の実施例2」
【0929】
(請求項1)
【0930】
音響入力を文字情報に転換する手段と、
【0931】
利用者の年齢、技術レベル、アレルギー情報、並びに保有材料に基づいて手順を生成する手段と、
【0932】
生成された手順を視覚及び音声で案内する手段と、
【0933】
利用者の操作を監視し、危険な状況を検出する手段と、
【0934】
検出された危険に対して警告を発する手段と、
【0935】
利用者の感情状態を解析し、これに応じた手順及び警告を調整する手段と、
【0936】
を含むシステム。
【0937】
(請求項2)
【0938】
感情状態に基づいて利用者からの問い合わせへの応答を生成する手段を備えた、請求項1記載のシステム。
【0939】
(請求項3)
【0940】
利用者の技能レベル及び感情状態に応じた手順の調整を行う手段を備えた、請求項1記載のシステム。
【0941】
「感情エンジンを組み合わせた場合の応用例2」
【0942】
(請求項1)
【0943】
ユーザーからの音声入力をテキストデータに変換する手段と、
【0944】
ユーザーの年代、技術レベル、アレルギー情報、および物品に基づいて製法を生成する手段と、
【0945】
生成された製法を視覚および音声指示として表示する手段と、
【0946】
ユーザーの操作を監視し、危険な状況を検出する手段と、
【0947】
検出された危険に対して警告を発する手段と、
【0948】
ユーザーの感情状態を認識し、システムの動作を調整する手段と、
【0949】
を含むシステム。
【0950】
(請求項2)
【0951】
ユーザーからの問い合わせに対する応答を生成する手段を備えた、請求項1記載のシステム。
【0952】
(請求項3)
【0953】
ユーザーの技能レベルに応じた製法の調整を行う手段を備えた、請求項1記載のシステム。
【符号の説明】
【0954】
10、210、310、410 データ処理システム
12 データ処理装置
14 スマートデバイス
214 スマート眼鏡
314 ヘッドセット型端末
414 ロボット