IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクグループ株式会社の特許一覧

<>
  • 特許-システム 図1
  • 特許-システム 図2
  • 特許-システム 図3
  • 特許-システム 図4
  • 特許-システム 図5
  • 特許-システム 図6
  • 特許-システム 図7
  • 特許-システム 図8
  • 特許-システム 図9
  • 特許-システム 図10
  • 特許-システム 図11
  • 特許-システム 図12
  • 特許-システム 図13
  • 特許-システム 図14
  • 特許-システム 図15
  • 特許-システム 図16
  • 特許-システム 図17
  • 特許-システム 図18
  • 特許-システム 図19
  • 特許-システム 図20
  • 特許-システム 図21
  • 特許-システム 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-02-03
(45)【発行日】2025-02-12
(54)【発明の名称】システム
(51)【国際特許分類】
   G06F 3/01 20060101AFI20250204BHJP
   G06F 3/16 20060101ALI20250204BHJP
   G09B 21/00 20060101ALI20250204BHJP
   G06T 7/00 20170101ALI20250204BHJP
   G06T 7/20 20170101ALI20250204BHJP
   G06T 7/70 20170101ALI20250204BHJP
   G06V 40/20 20220101ALI20250204BHJP
   G10L 13/00 20060101ALI20250204BHJP
   G06Q 50/22 20240101ALN20250204BHJP
【FI】
G06F3/01 510
G06F3/01 560
G06F3/16 680
G06F3/16 650
G06F3/16 690
G09B21/00 D
G06T7/00 660Z
G06T7/20 300Z
G06T7/70 A
G06V40/20
G06T7/00 350C
G10L13/00 100K
G09B21/00 B
G06Q50/22
【請求項の数】 5
(21)【出願番号】P 2024050961
(22)【出願日】2024-03-27
【審査請求日】2024-03-27
(31)【優先権主張番号】P 2023158524
(32)【優先日】2023-09-22
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】591280485
【氏名又は名称】ソフトバンクグループ株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】玉橋丈児
【審査官】田中 洋行
(56)【参考文献】
【文献】特開2022-037957(JP,A)
【文献】特開2022-180282(JP,A)
【文献】国際公開第2018/021040(WO,A1)
【文献】特開2019-159193(JP,A)
【文献】米国特許出願公開第2020/0258422(US,A1)
【文献】特表2017-535388(JP,A)
【文献】特表2020-521167(JP,A)
【文献】沼田崇志 ほか,ユーザの感情の種類と原因を考慮した対話エージェントの応答モデルの開発,インタラクション2019論文集,一般社団法人 情報処理学会,2019年02月27日,pp.923-926
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/048-3/04895
G09B 21/00
G06F 3/16
G06T 7/00
G06T 7/20
G06T 7/70
G06V 40/20
G10L 13/00
G06Q 50/22
(57)【特許請求の範囲】
【請求項1】
生成AIを活用し、周囲の環境データを解析する手段と、
情報通信技術装置を介して前記生成AIにアクセスする手段と、
リアルタイムで前記環境データを取得する手段と、
環境内の物体又は人物の特徴を識別する手段と、
音声又は触覚による情報伝達を行う手段を含み、
前記取得する手段は、カメラ又はセンサーを用いて、周囲の環境データを取得し、
前記アクセスする手段は、情報通信技術装置を介して前記生成AIにアクセスし、
前記解析する手段及び前記識別する手段は、環境データが表す周囲の物体又は人物の位置、形状、又は動きを識別することを指示するプロンプト文に基づいて、前記生成AIを用いて、前記取得した環境データを解析することにより、周囲の物体又は人物の位置、形状、又は動きを識別し、
前記情報伝達を行う手段は、周囲の物体又は人物の位置、形状、又は動きを識別した結果を、音声メッセージ又は触覚フィードバックによりユーザに提供し、
前記取得する手段は、更に、カメラ又はセンサーを用いて、前記ユーザが参加している会議又はイベントでの周囲の環境データを取得すると共に、前記会議又はイベントで用いられている文書又は資料を取得し、
前記解析する手段及び前記識別する手段は、更に、環境データが表す前記会議又はイベントでの反応又は雰囲気を分析することを指示するプロンプト文に基づいて、前記生成AIを用いて、前記取得した環境データを解析することにより、前記会議又はイベントでの反応又は雰囲気を分析すると共に、前記カメラにより撮影された前記文書又は資料の文字情報を音声で読み上げるリクエストに基づいて、前記生成AIを用いて、前記文書又は資料の文字情報を音声で読み上げる応答を生成し、
前記情報伝達を行う手段は、前記会議又はイベントでの反応又は雰囲気を分析した結果を、音声メッセージ又は触覚フィードバックにより前記ユーザに提供すると共に、前記応答を再生し、
前記取得する手段は、更に、前記ユーザがいる店内の商品の位置を表す商品情報を含む環境データを取得し、
前記解析する手段及び前記識別する手段は、更に、環境データが表す商品情報と、前記ユーザの位置情報との組み合わせから、前記ユーザから入力された、商品に関する質問に対応する応答を生成することを指示するプロンプト文に基づいて、前記生成AIを用いて、前記取得した環境データを解析することにより、前記ユーザの位置情報と前記商品情報の組み合わせから、前記ユーザから入力された、商品に関する質問に対応する応答を生成し、
前記情報伝達を行う手段は、前記生成した前記応答を、音声メッセージにより前記ユーザに提供するシステム。
【請求項2】
感情エンジンを用いて、前記ユーザの感情状態を推測する手段を更に含み、
前記情報伝達を行う手段は、前記生成AIを用いて、前記ユーザの感情状態に応じて、前記ユーザに提供する音声メッセージを調整して、前記音声メッセージを前記ユーザに提供する請求項1記載のシステム。
【請求項3】
感情エンジンを用いて、前記ユーザの感情状態を推測する手段を更に含み、
前記情報伝達を行う手段は、前記生成AIを用いて、前記ユーザの感情状態に応じた音楽を生成して、前記音楽を前記ユーザに提供する請求項1記載のシステム。
【請求項4】
感情エンジンを用いて、前記ユーザの感情状態を推測する手段を更に含み、
前記情報伝達を行う手段は、前記ユーザの感情状態に応じて、前記ユーザに提供する触覚フィードバックの強度又はパターンを調整して、前記触覚フィードバックを前記ユーザに提供する請求項1記載のシステム。
【請求項5】
感情エンジンを用いて、前記ユーザの周囲の人の感情状態を推測する手段を更に含み、
前記情報伝達を行う手段は、前記周囲の人の感情状態に応じて、前記ユーザに提供する触覚フィードバックの強度又はパターンを調整して、前記触覚フィードバックを前記ユーザに提供する請求項1記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の技術は、システムに関する。
【背景技術】
【0002】
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2022-180282号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
視覚障害者が日常生活を送る上で、周囲の環境を理解し、安全に移動することは大きな課題である。また、社会参加を促進するためには、視覚情報を補完する形で情報を提供する手段が求められている。
【課題を解決するための手段】
【0005】
本発明は、生成AIを活用し、視界の代替となる情報を提供する。ユーザーはスマートデバイスやヘッドセットを介してAIにアクセスし、リアルタイムで環境の情報を取得することができる。AIは周囲の物体や人物を認識し、声や音声メッセージ、触覚フィードバックなどの形で情報を伝える。これにより、視覚障害者は安全な移動や環境の理解をサポートされ、社会参加の向上が実現する。
【図面の簡単な説明】
【0006】
図1】第1実施形態に係るデータ処理システムの構成の一例を示す概念図である。
図2】第1実施形態に係るデータ処理装置及びスマートデバイスの要部機能の一例を示す概念図である。
図3】第2実施形態に係るデータ処理システムの構成の一例を示す概念図である。
図4】第2実施形態に係るデータ処理装置及びスマート眼鏡の要部機能の一例を示す概念図である。
図5】第3実施形態に係るデータ処理システムの構成の一例を示す概念図である。
図6】第3実施形態に係るデータ処理装置及びヘッドセット型端末の要部機能の一例を示す概念図である。
図7】第4実施形態に係るデータ処理システムの構成の一例を示す概念図である。
図8】第4実施形態に係るデータ処理装置及びロボットの要部機能の一例を示す概念図である。
図9】複数の感情がマッピングされる感情マップを示す。
図10】複数の感情がマッピングされる感情マップを示す。
図11】形態例1の実施例1におけるデータ処理システムの処理の流れを示すシーケンス図である。
図12】形態例1の応用例1におけるデータ処理システムの処理の流れを示すシーケンス図である。
図13】形態例2の実施例2におけるデータ処理システムの処理の流れを示すシーケンス図である。
図14】形態例2の応用例2におけるデータ処理システムの処理の流れを示すシーケンス図である。
図15】形態例3の実施例3におけるデータ処理システムの処理の流れを示すシーケンス図である。
図16】形態例3の応用例3におけるデータ処理システムの処理の流れを示すシーケンス図である。
図17】感情エンジンを組み合わせた場合の形態例1の実施例1におけるデータ処理システムの処理の流れを示すシーケンス図である。
図18】感情エンジンを組み合わせた場合の形態例1の応用例1におけるデータ処理システムの処理の流れを示すシーケンス図である。
図19】感情エンジンを組み合わせた場合の形態例2の実施例2におけるデータ処理システムの処理の流れを示すシーケンス図である。
図20】感情エンジンを組み合わせた場合の形態例2の応用例2におけるデータ処理システムの処理の流れを示すシーケンス図である。
図21】感情エンジンを組み合わせた場合の形態例3の実施例3におけるデータ処理システムの処理の流れを示すシーケンス図である。
図22】感情エンジンを組み合わせた場合の形態例3の応用例3におけるデータ処理システムの処理の流れを示すシーケンス図である。
【発明を実施するための形態】
【0007】
以下、添付図面に従って本開示の技術に係るシステムの実施形態の一例について説明する。
【0008】
先ず、以下の説明で使用される文言について説明する。
【0009】
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、APU(Accelerated Processing Unit)、又はTPU(Tensor Processing Unit)等が挙げられる。
【0010】
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。
【0011】
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。
【0012】
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。
【0013】
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
【0014】
[第1実施形態]
【0015】
図1には、第1実施形態に係るデータ処理システム10の構成の一例が示されている。
【0016】
図1に示すように、データ処理システム10は、データ処理装置12及びスマートデバイス14を備えている。データ処理装置12の一例としては、サーバが挙げられる。
【0017】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0018】
スマートデバイス14は、コンピュータ36、受付装置38、出力装置40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、受付装置38、出力装置40、及びカメラ42も、バス52に接続されている。
【0019】
受付装置38は、タッチパネル38A及びマイクロフォン38B等を備えており、ユーザ入力を受け付ける。タッチパネル38Aは、指示体(例えば、ペン又は指等)の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン38Bは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部46Aは、タッチパネル38A及びマイクロフォン38Bによって受け付けたユーザ入力を示すデータをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が、ユーザ入力を示すデータを取得する。
【0020】
出力装置40は、ディスプレイ40A及びスピーカ40B等を備えており、データをユーザ20が知覚可能な表現形(例えば、音声及び/又はテキスト)で出力することでデータをユーザ20に対して提示する。ディスプレイ40Aは、プロセッサ46からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ40Bは、プロセッサ46からの指示に従って音声を出力する。カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。
【0021】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。
【0022】
図2には、データ処理装置12及びスマートデバイス14の要部機能の一例が示されている。
【0023】
図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。
【0024】
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
【0025】
スマートデバイス14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。受付出力プログラム60は、データ処理システム10によって特定処理プログラム56と併用される。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0026】
次に、データ処理装置12の特定処理部290による特定処理について説明する。
【0027】
「形態例1」
【0028】
本発明の形態は、視覚障害者がスマートデバイスやヘッドセットを装着し、生成AIにアクセスする。生成AIは、カメラやセンサーから取得した情報を解析し、視覚障害者に対して周囲の環境情報を提供する。具体的には、AIは物体や人物の位置、形状、動きなどを認識し、音声メッセージや触覚フィードバックを通じて視覚障害者に伝える。
【0029】
「形態例2」
【0030】
具体例として、視覚障害者が街を歩く場合、生成AIは前方にある障害物や交差点、信号の状態などを認識し、視覚障害者に音声メッセージで伝える。また、人々の動きや声から人々の存在とその動向を推測し、視覚障害者に触覚フィードバックを提供する。これにより、視覚障害者は周囲の状況を理解し、安全に移動することが可能となる。
【0031】
「形態例3」
【0032】
さらに、生成AIは視覚障害者の社会参加を支援する。例えば、会議やイベントでの人々の反応や雰囲気を分析し、視覚障害者に伝える。また、視覚障害者が読みたい書籍や資料の文字情報を読み取り、音声で読み上げる。これにより、視覚障害者は社会活動をより豊かに、自立して行うことが可能となる。
【0033】
以下に、各形態例の処理の流れについて説明する。
【0034】
「形態例1」
【0035】
ステップ1:視覚障害者がスマートデバイスやヘッドセットを装着し、生成AIにアクセスする。
【0036】
ステップ2:生成AIは、カメラやセンサーから取得した情報を解析する。
【0037】
ステップ3:AIは物体や人物の位置、形状、動きなどを認識し、音声メッセージや触覚フィードバックを通じて視覚障害者に伝える。
【0038】
「形態例2」
【0039】
ステップ1:視覚障害者が街を歩く場合、生成AIは前方にある障害物や交差点、信号の状態などを認識する。
【0040】
ステップ2:AIは人々の動きや声から人々の存在とその動向を推測する。
【0041】
ステップ3:AIは視覚障害者に音声メッセージで情報を伝え、また触覚フィードバックを提供する。これにより、視覚障害者は周囲の状況を理解し、安全に移動することが可能となる。
【0042】
「形態例3」
【0043】
ステップ1:生成AIは視覚障害者の社会参加を支援する。例えば、会議やイベントでの人々の反応や雰囲気を分析する。
【0044】
ステップ2:AIは視覚障害者が読みたい書籍や資料の文字情報を読み取る。
【0045】
ステップ3:AIは情報を音声で読み上げ、視覚障害者に伝える。これにより、視覚障害者は社会活動をより豊かに、自立して行うことが可能となる。
【0046】
(実施例1)
【0047】
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0048】
現在の技術では、視覚障害者が自立して移動する際に直面する困難は多く、周囲の環境情報を安全かつ効果的に取得する手段が限られている。特に、人や物体の位置、形状、動きなどの詳細な情報をリアルタイムで提供するシステムの欠如は、視覚障害者の移動の自由度を制限し、社会参加の機会を減少させる大きな要因である。このため、視覚障害者が周囲の環境をより深く理解し、安全に移動できるよう支援する新たな技術的解決策が求められている。
【0049】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0050】
この発明では、サーバは、生成AIモデルを用いて環境データを解析する手段と、解析結果を音声メッセージや触覚フィードバックとして変換する手段と、収集した環境データをリアルタイムで処理する手段と、を含む。これにより、視覚障害者は周囲の人物や物体の位置、形状、動きなどの詳細な情報を音声や触覚フィードバックを通じてリアルタイムで受け取ることが可能となる。結果として、視覚障害者の安全な移動をサポートし、社会参加の機会を拡大することが可能となる。
【0051】
「生成AI」は、人工知能の一種であり、データから学習して特定のタスクを実行するためのモデルやアルゴリズムを生成する技術である。
【0052】
「スマートデバイス」は、インターネットに接続でき、アプリケーションを実行することにより多機能を提供するポータブル電子機器である。
【0053】
「ヘッドセット」は、一般に音声出力(スピーカー)と音声入力(マイクロフォン)の機能を備え、頭部に装着することで使用するデバイスである。
【0054】
「リアルタイムで環境の情報を取得する手段」は、現在の状況や変化を即座に捉え、遅延なく情報を提供するプロセスまたは技術である。
【0055】
「周囲の物体や人物を認識する手段」は、視覚的、聴覚的、またはその他のセンサー情報を分析し、特定の環境内の物体や人物の存在や位置を特定する技術である。
【0056】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」は、音声や振動などの感覚的手段を用いて、ユーザーに情報を提供する方法である。
【0057】
この発明を実施するための形態は、視覚障害者が周囲の環境を理解し、安全に移動できるよう支援するシステムに関連している。このシステムは、特定のハードウェアおよびソフトウェアを用いて実装される。
【0058】
サーバは、生成AIモデルをホストしている。このAIモデルは、環境から収集されたデータを解析し、物体や人物の位置、形状、動きなどの情報を識別するために設計されている。使用されるソフトウェアには、例えばOpenAIのGPTやGoogleのTensorFlowがカスタマイズされた形で含まれる。これらのソフトウェアは、複雑なデータ解析と学習能力を提供し、システムの精度と効率を高める。
【0059】
端末は、スマートデバイスやヘッドセットなど、視覚障害者が装着するデバイスである。これらのデバイスには、環境データを収集するためのカメラやセンサーが搭載されている。収集されたデータは、サーバに送信され、生成AIモデルによって解析される。
【0060】
解析結果は、端末に送り返され、音声メッセージや触覚フィードバックとして視覚障害者に提供される。このフィードバックにより、ユーザは周囲の環境をより深く理解し、安全に移動するための情報を得ることができる。
【0061】
具体例としては、「周囲の人物と物体の位置と動きを識別し、その情報を音声メッセージで伝えてください。」というプロンプト文が挙げられる。このプロンプトは、生成AIモデルによる解析の対象となるデータの種類を指示するものである。
【0062】
この発明を実施するための形態は、視覚障害者が直面する日常の課題を解決するために、先進的な技術を活用することに焦点を当てている。ハードウェアとソフトウェアの組み合わせにより、リアルタイムで環境情報を提供し、視覚障害者の自立を支援することを目的としている。
【0063】
特定処理の流れについて図11を用いて説明する。
【0064】
ステップ1:端末は、視覚障害者が装着しているスマートデバイスやヘッドセットに搭載されたカメラやセンサーから、周囲の環境データを収集する。このステップの入力は、端末のカメラやセンサーによって取得される周囲の環境の映像や音声、温度、距離などのデータである。出力は、収集された生の環境データである。
【0065】
ステップ2:端末は、収集した環境データをサーバに送信する。このステップでは、無線通信技術を用いてデータの送信が行われる。入力は、ステップ1で収集された環境データであり、出力はサーバに送信されたデータである。
【0066】
ステップ3:サーバは、受信した環境データを生成AIモデルによって解析する。この解析には、物体認識、人物認識、動き検出などの処理が含まれる。入力は、ステップ2で受信した環境データであり、出力は解析結果である。この解析結果には、周囲の物体や人物の位置、形状、動きなどの情報が含まれる。
【0067】
ステップ4:サーバは、解析結果をもとに、視覚障害者に有用な情報を生成する。この情報は、音声メッセージや触覚フィードバックの形で提供される。入力はステップ3の解析結果であり、出力は視覚障害者に伝えるための情報である。
【0068】
ステップ5:端末は、サーバから受信した情報を視覚障害者に伝える。これには、端末に内蔵されたスピーカーや触覚フィードバックデバイスが使用される。入力はステップ4で生成された情報であり、出力は視覚障害者が認識可能な音声メッセージや触覚フィードバックである。
【0069】
具体的な動作の例として、「周囲の人物と物体の位置と動きを識別し、その情報を音声メッセージで伝えてください」というプロンプト文に基づく処理が挙げられる。この場合、端末はカメラを用いて周囲を撮影し、そのデータをサーバに送信する。サーバはこのデータを解析して、人物や物体の位置と動きを特定し、この情報を視覚障害者に向けた音声メッセージとして端末に送り返す。端末はこのメッセージをスピーカーを通じて視覚障害者に伝える。
【0070】
(応用例1)
【0071】
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0072】
現在、視覚障害者が実店舗での買い物を行う際に直面する主な課題は、店内のレイアウトや商品の位置を把握することの難しさにあります。また、障害物を回避しながら安全に移動することも大きな課題です。これらの課題は、視覚障害者が自立して買い物を楽しむことを妨げ、社会参加の機会を限定してしまいます。
【0073】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0074】
この発明では、サーバは、スマートデバイスやヘッドセットを介して生成AIにアクセスする手段と、リアルタイムで店内環境の情報を取得し解析する手段と、周囲の物体や人物を認識し、その位置や形状を特定する手段と、音声メッセージや触覚フィードバックを通じて視覚障害者に情報を伝達する手段を含む。これにより、視覚障害者が実店舗内での商品の位置や障害物の存在を把握し、安全に移動しながら効率的に買い物をすることが可能となる。
【0075】
「生成AI」は、人工知能の一種であり、環境データを解析し、その解析結果に基づいてユーザーに有益な情報を生成・提供するシステムである。
【0076】
「スマートデバイス」は、インターネットに接続でき、多機能な処理を実行できるポータブルな電子機器である。
【0077】
「ヘッドセット」は、耳に装着することで音声通信や音声案内を受けることができる装置である。
【0078】
「リアルタイムで環境の情報を取得する手段」は、現在の時間とほぼ同期して、周囲の環境に関するデータを収集・更新するプロセスである。
【0079】
「周囲の物体や人物を認識する手段」は、カメラやセンサー等の入力から物体や人物の存在、位置、形状を特定し識別する技術である。
【0080】
「声や音声メッセージ」は、人間の耳で聞くことができる音波の形で情報を伝達する方法である。
【0081】
「触覚フィードバック」は、触覚によってユーザーに情報を提供する技術であり、振動や圧力の変化を通じて情報を伝える。
【0082】
この発明を実施するための形態には、スマートデバイスやヘッドセットを介した生成AIの活用が含まれる。サーバは、生成AIモデルを用いて、スマートデバイスやヘッドセットから送信される環境データを解析する。この解析により、周囲の物体や人物の位置、形状、動きを識別し、視覚障害者に対して音声メッセージや触覚フィードバックを通じて情報を伝達する。
【0083】
使用するハードウェアには、スマートデバイスやヘッドセットが含まれる。これらのデバイスは、内蔵されたカメラやセンサーを通じてリアルタイムの環境データを取得し、サーバに送信する。サーバでは、OpenCVやTensorFlowなどのソフトウェアライブラリを用いて物体検出や画像解析を行い、得られた情報を音声合成システムを通じてユーザに伝達する。
【0084】
例えば、ユーザがスマート眼鏡を装着して店内に入る場合、「前方に商品棚があります。安全な経路は、直進です。」といった案内が音声で提供される。この情報は、スマート眼鏡のカメラで取得された映像データを解析して生成される。また、ユーザが特定の商品を探している場合、生成AIは「右に曲がると商品が見つかります。」といった具体的な指示を提供する。これにより、視覚障害者は安全に移動しながら必要な商品を効率的に見つけることができる。
【0085】
特定処理の流れについて図12を用いて説明する。
【0086】
ステップ1:端末のカメラとセンサーが周囲の環境データを取得する。このステップでは、ユーザが装着しているスマートデバイスやヘッドセットのカメラとセンサーが、周囲の物体、人物、障害物などの情報をリアルタイムで収集する。入力は、光学的イメージや距離センサーからのデータであり、出力はデジタル化された環境データとしてサーバに送信される。
【0087】
ステップ2:サーバが環境データを解析する。受信した環境データは、生成AIモデルによって解析され、周囲の物体や人物の位置、形状、動きが特定される。このステップの入力は、ステップ1からのデジタル化された環境データであり、出力は解析結果としての物体識別情報や動きのパターンである。
【0088】
ステップ3:解析結果に基づき、ユーザに情報を伝達する。サーバは、解析結果をもとに、ユーザが理解しやすい形式の音声メッセージや触覚フィードバックを生成する。例えば、商品の位置案内や障害物の警告がこれに該当する。入力は、ステップ2の物体識別情報や動きのパターンであり、出力はユーザのスマートデバイスやヘッドセットを通じて提供される音声メッセージや触覚フィードバックである。
【0089】
ステップ4:ユーザが提供された情報をもとに行動を調整する。ユーザは、受け取った音声メッセージや触覚フィードバックを基に、店内での移動経路を調整したり、特定の商品を探したりする。このステップの入力は、ステップ3からの情報であり、出力はユーザの行動変更、例えば特定の方向への移動や商品の手に取りである。
【0090】
この処理の流れにより、視覚障害者は実店舗内で安全にかつ効率的に買い物を行うことが可能となる。
【0091】
(実施例2)
【0092】
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0093】
現在、視覚障害者が街を歩く際に直面する最大の課題は、障害物の存在や交通の状態、周囲の人々の動きなど、安全な移動に必要な情報を直接視覚的に得られないことである。このため、彼らは移動の際に多大な不安と危険にさらされる。さらに、視覚障害者が社会参加を行う際に、周囲の人々とのコミュニケーションや活動の同期が困難である点も大きな問題である。
【0094】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0095】
この発明では、サーバは、外部センサーからのデータをリアルタイムで収集する手段と、生成AIモデルを活用して収集したデータから周囲の環境や人物の状況を解析する手段と、解析結果に基づいて視覚障害者に適切な指示や情報を音声メッセージ及び触覚フィードバックの形で提供する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確に理解し、安全に移動すること、また社会参加の際のコミュニケーションや活動の同期を容易に行うことが可能となる。
【0096】
「リアルタイムで外部センサーからの環境データを収集する手段」とは、スマートデバイスや専用デバイスに搭載されたカメラ、マイク、GPSなどのセンサーを通じて、現在の周囲の環境に関するデータを即時に取得し、解析のためにサーバに送信するプロセスである。
【0097】
「生成AIモデルを活用して収集した環境データから周囲の物体や人物の位置、動向を解析する手段」とは、機械学習技術を用いて訓練された人工知能モデルが、収集されたデータを基に物体の位置や人物の動きなどの情報を抽出し、解釈する方法である。
【0098】
「解析結果に基づいて視覚障害者に対して指示や情報を音声メッセージ及び触覚フィードバックの形で提供する手段」とは、AIによる解析結果をもとに、視覚障害者が理解しやすい形式である音声や振動などを用いて、必要な情報や適切な行動指示を直接ユーザーに伝達する方法である。
【0099】
「スマートデバイスや専用デバイスを介してAIにアクセスし、リアルタイムで情報を伝達する手段」とは、スマートフォンやタブレット、専用のウェアラブルデバイスなど、インターネットに接続されたデバイスを通じて、サーバ上のAIと通信し、収集されたデータの送信や解析結果の受信を行うプロセスである。
【0100】
この発明を実施するための形態においては、視覚障害者が周囲の環境を理解し、安全に移動できるようにするためのシステムが提供される。このシステムは、主に外部センサーからのデータ収集、生成AIモデルによるデータ解析、及び音声メッセージや触覚フィードバックを通じた情報提供の三つの主要な構成要素から成る。
【0101】
サーバは、クラウドベースの計算リソースを使用して、生成AIモデルをホストする。このAIモデルは、TensorFlowやPyTorchといった機械学習フレームワーク上で実行され、外部センサーから収集されたデータを解析するために用いられる。具体的には、スマートデバイスや専用デバイスに組み込まれたカメラから送信される画像データや、マイクから送信される音声データを処理する。
【0102】
端末は、視覚障害者が携帯するスマートデバイスや専用デバイスであり、カメラ、マイク、GPSなどの外部センサーを通じて環境データを収集し、これをサーバに送信する。さらに、サーバからの指示に基づいて、音声メッセージや触覚フィードバックを視覚障害者に提供する。たとえば、サーバから「前方3メートルに障害物あり。左に進むように」という指示が端末に送られると、端末はこのメッセージを音声で出力し、視覚障害者に障害物を避けるための指示を提供する。
【0103】
ユーザーは、提供された音声メッセージや触覚フィードバックを基に、周囲の状況を理解し、障害物を避けるなどして安全に移動する。また、人の動きや存在を示す触覚フィードバックによって、他の歩行者との衝突を避けることができる。このように、本発明は、視覚障害者がより自立して安全に移動するための具体的な方法を提供する。
【0104】
特定処理の流れについて図13を用いて説明する。
【0105】
ステップ1:外部センサーからのデータ収集
【0106】
端末は、視覚障害者の持つスマートデバイスや専用デバイスに内蔵されたカメラ、マイク、GPSなどの外部センサーを通じて、周囲の環境データを収集する。このステップの入力は、周囲の画像、音声、位置情報であり、出力はこれらのデータのデジタル化された形式である。端末はこれらのデータをサーバに送信するために、データを一時的に保存し、ネットワーク経由で送信可能な形式に変換する。
【0107】
ステップ2:データの解析と指示の生成
【0108】
サーバは、端末から送信されたデータを受け取り、生成AIモデルを使用してこれらのデータから周囲の環境、障害物の位置、人の動きなどを解析する。このステップの入力は、画像データ、音声データ、位置情報であり、出力は障害物の位置や人の動向などの解析結果である。生成AIモデルは、この解析結果に基づいて、視覚障害者に提供すべき具体的な指示や情報を生成する。
【0109】
ステップ3:情報の提供
【0110】
端末は、サーバから受け取った指示や情報を、音声メッセージや触覚フィードバックとして視覚障害者に提供する。このステップの入力は、サーバから送信された指示や情報であり、出力は視覚障害者が直接受け取る音声メッセージや触覚フィードバックである。端末は、テキストを音声に変換する音声合成技術を使用して指示を音声メッセージとして出力し、触覚フィードバック装置を通じて必要な情報を触感として提供する。
【0111】
これらのステップを通じて、視覚障害者は周囲の環境をより良く理解し、障害物を避けるための具体的な指示を受けることができる。また、周囲の人々の動きや位置に関する情報を得ることにより、安全に移動することが可能となる。このプロセスはリアルタイムで行われ、視覚障害者が社会参加を行う際のサポートを大きく向上させる。
【0112】
(応用例2)
【0113】
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0114】
現代社会において、個人の安全は重要な懸念事項である。特に、独りで外出する際や夜間に外出する際に、周囲の環境や人物に対する認識とその安全への影響を正確に理解することは、個人の安全を確保する上で不可欠である。しかし、現在の技術では、特定の環境下での個人の安全を実時間で支援し、不審な人物の接近や緊急事態の発生を即座に警告する効果的な手段が限られている。このような背景の下、個人が自身の安全を能動的に管理し、危険から身を守るための支援技術の開発が求められている。
【0115】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0116】
この発明では、サーバは、リアルタイムでの環境情報取得手段と、周囲の物体や人物を認識する手段と、ユーザーに対して声や音声メッセージ、触覚フィードバックを介して情報を伝達する手段と、を含む。これにより、ユーザーは周囲の状況をリアルタイムで把握し、安全に対する意識を高めることが可能となる。また、このシステムを用いることで、不審な人物の接近や緊急事態の発生時に即座に警告を受けることができ、適切な対応を取ることが可能となる。このように、この発明は個人の安全を確保する上で重要な支援を提供する。
【0117】
「生成AI」は、機械学習の技術を基にした人工知能の一種で、入力データに基づき、環境の情報や物体、人物の状態を認識し、ユーザーに対して有益な情報を生成して提供するシステムである。
【0118】
「リアルタイムでの環境情報取得手段」は、センサーやカメラ、マイクロフォンなどのデバイスを利用して、その瞬間の周囲の状況や音声を即座に捉え、分析するための技術や方法である。
【0119】
「周囲の物体や人物を認識する手段」は、画像認識技術や音声認識技術を用いて、周囲に存在する物体や人物の特徴を特定し、その情報を理解するための技術や方法である。
【0120】
「声や音声メッセージ」は、システムが生成した情報をユーザーに伝達するために用いる、聴覚によって受け取れる言語情報の形式である。
【0121】
「触覚フィードバック」は、デバイスからユーザーへ物理的な振動や圧力といった感覚を通じて情報を伝える手段である。
【0122】
この発明を実施するための形態では、端末としてスマートフォンやスマート眼鏡、ヘッドマウントディスプレイを使用し、これらの端末に組み込まれたカメラやマイクロフォンを通じて周囲の環境情報をリアルタイムで取得する。取得した情報は、生成AIモデルが搭載されたサーバに送信される。サーバは、深層学習フレームワークを用いて、画像認識技術や音声認識技術により周囲の物体や人物を認識し、その状況に応じた適切な反応を生成する。生成された情報は、声や音声メッセージ、触覚フィードバックの形でユーザーに伝達される。
【0123】
使用するハードウェアとしては、Qualcomm Snapdragonプロセッサを搭載したスマートフォンや、Google Glassのようなウェアラブルデバイスが挙げられる。ソフトウェアには、TensorFlowやPyTorchなどの機械学習フレームワークが用いられる。
【0124】
具体例として、ユーザーが夜間に歩いている際に、不審な人物が近づいてくる場面をカメラが捉えた場合、サーバは「注意: 後ろから人が近づいています。速やかに安全な場所へ移動してください」という音声メッセージを生成し、端末を通じてユーザーに伝達する。また、緊急事態が発生した場合には、「緊急事態が発生しました。すぐに安全な場所へ避難してください」という触覚フィードバックを提供することも可能である。このようにして、この発明はユーザーが周囲の状況をリアルタイムで把握し、安全を確保するための具体的な手段を提供する。
【0125】
特定処理の流れについて図14を用いて説明する。
【0126】
ステップ1:端末が周囲の環境情報を収集する。このステップでは、スマートフォンやスマート眼鏡、ヘッドマウントディスプレイに組み込まれたカメラとマイクロフォンを使用して、周囲の映像と音声をリアルタイムで収集する。この時、端末は映像と音声データを入力として取得し、それをサーバに送信する準備をする。
【0127】
ステップ2:収集した環境情報をサーバに送信する。端末は、ステップ1で収集した映像と音声データをサーバに送信する。このプロセスでは、インターネットを介してデータがサーバに転送される。
【0128】
ステップ3:サーバが環境情報を解析する。サーバに送信された映像と音声データは、生成AIモデルによって解析される。このAIモデルは、深層学習フレームワークを用いて、映像から周囲の物体や人物を認識し、音声データからは環境の音や会話を解析する。このステップの出力は、解析結果であり、具体的な状況認識や潜在的な危険の識別が含まれる。
【0129】
ステップ4:解析結果に基づいて適切な反応を生成する。サーバは、ステップ3で得られた解析結果を基に、ユーザーに伝達すべき情報を生成する。この情報は、安全に関する警告や指示など、ユーザーがその場で取るべき適切な行動に関するものである。生成される情報の形式は、音声メッセージや触覚フィードバックなどがある。
【0130】
ステップ5:生成された情報をユーザーに伝達する。サーバは、ステップ4で生成した情報を端末に送信し、端末はその情報をユーザーに伝達する。音声メッセージの場合はスピーカーを通じて、触覚フィードバックの場合はデバイスの振動機能を利用して、ユーザーに情報が伝えられる。このステップで、ユーザーは自身の安全を確保するための具体的な情報を受け取る。
【0131】
(実施例3)
【0132】
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0133】
視覚障害者は、会議やイベントなどの社会活動に参加する際、周囲の反応や雰囲気を視覚的に捉えることができない。また、読みたい書籍や資料の文字情報を独立して読むことが難しい。これらの課題は、視覚障害者が社会活動において自立して参加することを制限する要因となっている。
【0134】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0135】
この発明では、サーバは、会議やイベントでの反応や雰囲気を分析する手段と、文書や資料の文字情報を音声で読み上げる手段と、音声入力によるプロンプト文を解釈し、適切な応答を生成する手段と、を含む。これにより、視覚障害者が社会活動における周囲の状況を理解し、必要な情報を独立して取得することが可能となる。
【0136】
「生成AI」は、学習したデータを基に新たな情報を生成することが可能な人工知能の一種である。
【0137】
「会議やイベントでの反応や雰囲気を分析する手段」は、特定の集まりや行事における参加者の感情や空気を理解し、それを言語化または他の形式で表現する機能を指す。
【0138】
「文書や資料の文字情報を音声で読み上げる手段」は、印刷または電子的に提供されたテキスト情報を、音声出力に変換するプロセスや装置を指す。
【0139】
「スマートデバイスやヘッドセットを介してAIにアクセスする手段」は、インテリジェントな電子機器や音声出力装置を使用して、人工知能システムとの通信や操作を行う方法を指す。
【0140】
「リアルタイムで環境の情報を取得する手段」は、現在の時点で周囲の状況やデータを即座に収集し、分析する機能を指す。
【0141】
「周囲の物体や人物を認識する手段」は、カメラやセンサーなどを用いて、近くの物や人を特定し、識別する技術や方法を指す。
【0142】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」は、音の波形や振動などを利用して、情報をユーザーに直接的に伝達する方法を指す。
【0143】
「音声入力によるプロンプト文を解釈し、適切な応答を生成する機能」は、ユーザーからの口頭での指示や問いかけを理解し、それに対する情報や反応を提供する人工知能の能力を指す。
【0144】
この発明を実施するための形態は、主にサーバ、端末、ユーザの三者間で構成される。サーバは、生成AIモデルを搭載しており、このモデルは視覚障害者が社会活動に参加する際に直面する課題を解決するために設計されている。端末は、主にスマートデバイスやヘッドセットといった形態をとり、ユーザからの入力をサーバへと伝達する役割を果たす。ユーザは、視覚障害者であり、このシステムを通じて社会活動における情報の取得や理解を深めることができる。
【0145】
サーバ上で動作する生成AIモデルは、例えばOpenAIのGPTやGoogleのBERTなどの先進的な技術を用いて実装される。このモデルは、会議やイベントの映像や音声データを分析し、その場の雰囲気や反応をテキスト情報として抽出する。また、文書や資料の画像から文字情報を読み取り、これを音声データへ変換する機能も有する。
【0146】
端末は、ユーザの声によるプロンプト文をマイクを通じて受け取り、これをテキストデータに変換してサーバに送信する。また、端末のカメラを使用して文書や資料の画像を撮影し、これをサーバに送信する。サーバは受信したデータを生成AIモデルによって処理し、適切な応答を生成する。
【0147】
具体的な使用例として、ユーザが「今の会議の雰囲気を教えて」というプロンプト文を音声で入力した場合、端末はこの入力をテキストに変換し、サーバに送信する。サーバ上の生成AIモデルは、会議の雰囲気に関する情報を分析・抽出し、その結果をテキストで端末に送信する。端末はこのテキストを音声に変換し、ユーザに読み上げる。また、ユーザが「このページを読んで」とリクエストした場合、端末は文書の画像を撮影し、サーバに送信する。サーバは画像からテキストを抽出し、これを音声に変換して端末に送信する。端末はこの音声をユーザに読み上げる。
【0148】
この形態により、視覚障害者は社会活動における情報の取得や理解を助けるための具体的な支援を受けることが可能となる。
【0149】
特定処理の流れについて図15を用いて説明する。
【0150】
ステップ1:ユーザが端末に対して音声入力を行う。この音声入力には、会議やイベントの雰囲気を問うプロンプト文や、読み上げを希望する文書に関するリクエストが含まれる。端末はこの音声を受け取り、テキストデータに変換する。
【0151】
ステップ2:変換されたテキストデータは、インターネット経由でサーバに送信される。サーバはこのデータを受信し、生成AIモデルによる処理のために準備する。
【0152】
ステップ3:会議やイベントの雰囲気に関するリクエストの場合、サーバは生成AIモデルを使用して、提供された音声や映像データから雰囲気や反応を分析する。文書読み上げのリクエストの場合、サーバは端末から送信された文書の画像データを受信し、テキスト抽出を行う。
【0153】
ステップ4:生成AIモデルは、分析または抽出された情報を基に、適切なテキストレスポンスを生成する。会議の雰囲気に関するリクエストでは、その場の感情やキーポイントを要約したレスポンスを、文書読み上げのリクエストでは、抽出されたテキスト情報を生成する。
【0154】
ステップ5:生成されたテキストレスポンスは、サーバから端末に送信される。端末はこのテキストを受け取り、内蔵されたテキストから音声への変換機能を用いて、音声データに変換する。
【0155】
ステップ6:変換された音声データはユーザに対して出力される。この出力により、ユーザは会議やイベントの雰囲気を理解したり、文書の内容を聞くことが可能となる。
【0156】
この処理フローを通じて、視覚障害者は社会活動における情報の取得と理解を深めることができ、より自立した参加が可能となる。
【0157】
(応用例3)
【0158】
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0159】
視覚障害者が販売場所での買い物を行う際、商品の位置や情報、店内の雰囲気や人々の反応を把握することが困難であるという課題がある。このため、視覚障害者は独立して買い物をすることに制約を感じる場合があり、その社会参加の機会が限定されてしまう。また、販売場所での安全な移動や商品選択に必要な情報を効率的に提供するシステムが不足していることも問題である。
【0160】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0161】
この発明では、サーバは、生成AIを活用して視覚障害者に対して販売場所内の商品情報および人々の反応の分析を基にした音声案内を提供する手段と、リアルタイムで環境の情報を取得し、それを解析して音声による案内情報を生成する手段と、販売場所内の商品の位置や特売情報を含む環境データを活用する手段と、を含む。これにより、視覚障害者が販売場所での商品選択や移動を安全かつ効率的に行い、社会参加の機会を拡大することが可能となる。
【0162】
「生成AI」は、機械学習や深層学習の技術を基にしたアルゴリズムであり、特定の入力から人間が理解しやすい形式での出力を生成するシステムである。
【0163】
「視覚障害者」は、視力の障害により、一般的な視覚情報を認識することが困難な人を指す。
【0164】
「販売場所内の商品情報」は、商品の種類、価格、配置場所、特売情報など、商品購入に必要な情報全般を含む。
【0165】
「人々の反応の分析を基にした音声案内」は、周囲の人々の表情、言葉、動作などの反応を解析し、その情報を基に作成された音声による指示や情報提供を指す。
【0166】
「リアルタイムで環境の情報を取得する手段」は、現在の時間に即して、周囲の環境データを継続的に収集する方法や技術を指す。
【0167】
「音声による案内情報を生成する手段」は、収集した情報やデータを解析し、それを基に視覚障害者に有用な指示や情報を音声形式で提供するプロセスを指す。
【0168】
「販売場所内の商品の位置や特売情報を含む環境データ」は、商品がどこに配置されているか、どの商品が特売中であるかを示す情報を含む、販売場所の状態や条件に関する全般的なデータである。
【0169】
「サーバ」は、データの収集、処理、保存、およびクライアントへの情報提供を行うコンピュータシステムまたはソフトウェアのことである。
【0170】
この発明を実施するための形態は、視覚障害者が販売場所での買い物をサポートするシステムに関するものである。このシステムは、生成AIモデルを活用し、販売場所内の商品情報および人々の反応の分析を基にした音声案内を提供する。サーバは、リアルタイムで環境の情報を取得し、それを解析して音声による案内情報を生成する機能を持つ。また、サーバは、販売場所内の商品の位置や特売情報を含む環境データを活用する機能も有する。このシステムの実装には、スマートデバイスやヘッドセットなどの端末が使用され、これらの端末を通じて視覚障害者は生成AIにアクセスする。端末は、声や音声メッセージ、触覚フィードバックなどの形で情報をユーザに伝える機能を有する。
【0171】
使用するハードウェアとしては、スマートデバイス(例:スマートフォン)、店内設置のカメラやセンサーがあり、ソフトウェアとしては音声認識・合成システム、位置情報サービス、生成AIモデル(例:OpenAIのGPT-4)が使用される。このシステムにより、視覚障害者は販売場所での商品選択や移動を安全かつ効率的に行い、社会参加の機会を拡大することができる。
【0172】
具体例としては、ユーザがスマートデバイスを使用して「近くの特売のお菓子は?」と問いかけると、サーバは店内の環境データを解析し、生成AIモデルにより「あなたの近くには、特売中のチョコレートがあります。右手方向、3メートル先の棚の上です」という案内情報を生成し、端末を通じて音声メッセージでユーザに伝える。このプロセスは、ユーザの位置情報と店内の商品情報を組み合わせて、最適な案内を提供することを可能にする。
【0173】
特定処理の流れについて図16を用いて説明する。
【0174】
ステップ1:ユーザが端末に対して質問を入力する。
【0175】
ユーザはスマートデバイスを使用して特定の商品情報や店内の案内に関する質問を音声で入力する。この音声入力は、端末に搭載された音声認識システムによってテキストデータに変換される。
【0176】
ステップ2:端末が質問のテキストデータをサーバに送信する。
【0177】
変換されたテキストデータは、インターネットを介してサーバに送信される。サーバはこのテキストデータを受け取り、処理のための入力として使用する。
【0178】
ステップ3:サーバがテキストデータを解析し、適切な応答を生成するためのプロンプトを生成AIモデルに送信する。
【0179】
サーバは受け取ったテキストデータを解析し、ユーザの質問に基づいて具体的な応答を生成するためのプロンプトを形成する。このプロンプトは生成AIモデルに送信され、応答の生成に使用される。
【0180】
ステップ4:生成AIモデルがプロンプトに基づいて応答を生成する。
【0181】
生成AIモデルはサーバから受け取ったプロンプトを処理し、ユーザの質問に適切な応答を生成する。この応答には、店内の商品位置や特売情報、店内環境の説明などが含まれる場合がある。
【0182】
ステップ5:サーバが生成した応答を音声データに変換する。
【0183】
サーバは生成AIモデルから受け取った応答テキストを音声合成システムを用いて音声データに変換する。この音声データはユーザに情報を伝達するために使用される。
【0184】
ステップ6:サーバが音声データを端末に送信する。
【0185】
音声データは再びインターネットを介してユーザの端末に送信される。端末はこの音声データを受け取り、ユーザに対して音声出力する。
【0186】
ステップ7:ユーザが音声出力を聞いて情報を得る。
【0187】
ユーザは端末からの音声出力を通じて、質問に対する応答としての商品情報や店内の案内情報を聞く。これにより、ユーザは必要な情報を得て、販売場所での買い物を効率的に行うことができる。
【0188】
更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
【0189】
「形態例1」
【0190】
本発明の一実施形態では、生成AIはユーザの感情を認識する感情エンジンを有している。感情エンジンは、ユーザの声調、表情、行動などから感情を推測し、その情報を生成AIに提供する。生成AIは、感情エンジンから提供された情報を基に、ユーザに対する情報提供の方法を調整する。例えば、ユーザが怒っていると感じた場合、生成AIは情報の伝達方法を穏やかにするか、または必要な情報のみを伝達する。これにより、ユーザの感情状態に応じた適切な対応が可能となる。
【0191】
「形態例2」
【0192】
また、本発明の別の実施形態では、感情エンジンはユーザの生体情報(例えば、心拍数や皮膚の電気伝導度)も分析する。これにより、ユーザの感情状態をより正確に把握することが可能となる。生成AIは、この生体情報を基にユーザの感情状態を推測し、情報提供の方法を調整する。例えば、ユーザが緊張していると感じた場合、生成AIはリラックスするための音楽を提供するなど、ユーザの感情状態を改善するための対応を行う。
【0193】
「形態例3」
【0194】
さらに、本発明の別の実施形態では、生成AIはユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する。例えば、ユーザが驚いていると感じた場合、生成AIは強い触覚フィードバックを提供してユーザの注意を引く。一方、ユーザがリラックスしていると感じた場合、生成AIは穏やかな触覚フィードバックを提供する。これにより、ユーザの感情状態に適した触覚フィードバックを提供することが可能となる。
【0195】
以下に、各形態例の処理の流れについて説明する。
【0196】
「形態例1」
【0197】
ステップ1:ユーザの声調、表情、行動などから感情を推測する感情エンジンが動作を開始する。
【0198】
ステップ2:感情エンジンは推測した感情情報を生成AIに提供する。
【0199】
ステップ3:生成AIは、感情エンジンから提供された情報を基に、ユーザに対する情報提供の方法を調整する。
【0200】
「形態例2」
【0201】
ステップ1:感情エンジンはユーザの生体情報(例えば、心拍数や皮膚の電気伝導度)を分析する。
【0202】
ステップ2:生成AIは、この生体情報を基にユーザの感情状態を推測し、情報提供の方法を調整する。
【0203】
ステップ3:生成AIは、ユーザの感情状態を改善するための対応を行う。例えば、ユーザが緊張していると感じた場合、生成AIはリラックスするための音楽を提供する。
【0204】
「形態例3」
【0205】
ステップ1:生成AIはユーザの感情状態を感情エンジンから取得する。
【0206】
ステップ2:生成AIは、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する。
【0207】
ステップ3:生成AIは、調整した触覚フィードバックをユーザに提供する。
【0208】
(実施例1)
【0209】
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0210】
視覚障害者が日常生活や社会活動を行う際に直面する、周囲の環境を正確に理解しにくいという課題である。従来の支援技術では、環境の情報を一方的に提供するだけであり、ユーザの感情状態を考慮した情報提供が不足している点も問題である。これにより、ユーザが情報を受け入れにくい場合や、緊急を要する状況での適切な対応が難しい状況がある。
【0211】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0212】
この発明では、サーバは、携帯端末やヘッドセットから送信された環境データを解析する手段と、ユーザの感情状態を推測する手段と、解析した環境情報と感情情報を基に情報提供方法を調整する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確にかつ容易に理解することが可能となり、その感情状態に応じた適切な情報提供が実現する。また、この適応的な情報提供により、視覚障害者の安全な移動支援と社会参加の向上が可能となる。
【0213】
「生成AI」とは、機械学習や深層学習の技術を用いて訓練されたアルゴリズムであり、入力されたデータから新たな情報を生成または解析する能力を持つシステムである。
【0214】
「環境データ」とは、ユーザの周囲の物理的な状況や状態に関する情報であり、画像、音声、位置情報など、センサーやカメラを通じて収集されたデータを指す。
【0215】
「携帯端末」とは、スマートフォンやタブレットなど、持ち運びが可能で、無線通信機能を備えた電子デバイスである。
【0216】
「ヘッドセット」とは、耳に装着することで音声通信や音楽の聴取が可能な装置であり、視覚障害者支援システムでは、音声メッセージの伝達や音声入力の受付けに用いられる。
【0217】
「ユーザの感情状態」とは、ユーザの現在の心理的な状況や感情の状態を指し、声のトーン、表情、行動などから推測される。
【0218】
「情報提供方法を調整する」とは、受け取った環境データとユーザの感情状態に基づき、情報を伝える際の方法(例えば、音声メッセージのトーンや触覚フィードバックの強度)を適切に変更することを指す。
【0219】
この発明を実施するための形態は、視覚障害者が装着する携帯端末やヘッドセットと、これらを制御するサーバ上で動作する生成AIモデルを中心に構成される。携帯端末やヘッドセットには、環境を認識するためのカメラやセンサー、そしてユーザの感情状態を推測するためのマイクロフォンが含まれる。これらのハードウェアを通じて収集されたデータは、無線通信技術を用いてサーバに送信される。
【0220】
サーバ上では、TensorFlowやPyTorchといった機械学習フレームワークを使用した生成AIモデルが、送信されたデータの解析を行う。この解析には、画像認識技術を用いた物体や人物の位置、形状、動きの特定や、音声解析技術を用いたユーザの感情状態の推測が含まれる。解析結果に基づき、生成AIモデルは、ユーザに最適な情報提供方法を決定し、その情報を音声メッセージや触覚フィードバックの形で携帯端末やヘッドセットを通じてユーザに伝達する。
【0221】
例えば、ユーザが公園を歩いている際に、携帯端末のカメラが前方のベンチや歩いている人を捉え、このデータがサーバに送信される。サーバ上の生成AIモデルは、この画像からベンチの位置や歩いている人の動きを解析し、ユーザに「右側3メートル先にベンチがあります。前方に人が歩いています」という音声メッセージを提供する。同時に、ユーザの声調から感情を推測し、必要に応じてメッセージのトーンを調整する。
【0222】
このように、この発明は、環境認識と感情推測の両方を統合した情報提供システムを提供する。これにより、視覚障害者は周囲の環境をより詳細にかつ適切に理解することができ、その感情状態に応じたカスタマイズされた情報提供を受けることが可能となる。このシステムは、視覚障害者の日常生活の質の向上と社会参加の促進に寄与することが期待される。
【0223】
特定処理の流れについて図17を用いて説明する。
【0224】
ステップ1:環境データの収集
【0225】
端末は、カメラやセンサーを用いて周囲の環境データを収集する。このデータには、画像、音声、位置情報が含まれる。入力として環境からの生データがあり、出力としては、この生データをデジタル情報に変換した形式が得られる。端末はこの変換プロセスを通じて、可視光画像や音声データ、GPSからの位置情報をサーバに送信する。
【0226】
ステップ2:データ解析と感情推測
【0227】
サーバは、受け取った環境データを生成AIモデルと感情エンジンを用いて解析する。生成AIモデルは画像認識を行い、人物や物体の位置、形状、動きを特定する。感情エンジンは音声データからユーザの感情状態を推測する。入力としては端末から送信された環境データがあり、出力としては物体の識別情報とユーザの感情状態が得られる。サーバはこのプロセスを通じて、周囲の環境とユーザの感情の両方に関する詳細な情報を生成する。
【0228】
ステップ3:情報提供方法の決定
【0229】
サーバ上の生成AIモデルは、解析した環境情報と感情情報を組み合わせて、ユーザに対する情報提供方法を決定する。このプロセスでは、情報の伝達方法をユーザの感情状態に適応させることが可能である。入力としては環境情報とユーザの感情状態があり、出力としては、適応された情報提供方法の指示が得られる。サーバはこの指示に基づいて端末に情報伝達方法を送信する。
【0230】
ステップ4:情報の伝達
【0231】
端末はサーバから受け取った指示に従い、音声メッセージや触覚フィードバックを通じてユーザに情報を提供する。このステップでは、入力としてサーバからの指示があり、出力としてはユーザが理解できる形での情報伝達が行われる。端末はこのプロセスを通じて、例えば「前方に横断歩道があります」という音声メッセージや、近くに人がいることを示す触覚フィードバックをユーザに提供する。
【0232】
(応用例1)
【0233】
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0234】
現代社会において、視覚障害者は移動や日常生活において多くの困難に直面しています。特に外出時には、周囲の環境を正確に把握することが難しく、安全な移動や社会参加に際して障害となっているのが現状です。また、情報の伝達方法が限定されているため、視覚障害者が感じる不安やストレスを軽減する手段が不足しています。このような状況下で、視覚障害者がより安全に、かつ自信を持って社会に参加するための支援方法の開発が求められています。
【0235】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0236】
この発明では、サーバは、生成AIを利用して環境情報を解析し、その解析結果に基づきユーザーに対して視覚情報の代わりとなる音声メッセージや触覚フィードバックを提供する手段と、スマートデバイスやヘッドセットを介してAIにアクセスし、リアルタイムで環境データを取得する手段と、カメラやセンサーを用いて周囲の物体や人物、その動きや形状を認識する手段と、ユーザーの感情状態を推測し、その情報を元に情報提供の方法を調整する感情エンジンを有する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確に理解し、安全な移動や社会参加を実現することが可能となる。さらに、ユーザーの感情状態に応じた情報伝達方法を採用することで、ユーザーが感じる不安やストレスを軽減し、より快適な社会参加をサポートすることができます。
【0237】
「生成AI」とは、人工知能技術を基にして環境データを解析し、その解析結果を元にユーザーに対して情報を提供するシステムである。
【0238】
「音声メッセージ」とは、言葉による情報伝達手段の一つで、音声によって情報をユーザーに伝えるメッセージである。
【0239】
「触覚フィードバック」とは、触感を通じて情報を伝達する手段であり、デバイスからユーザーへの物理的な刺激によって情報を提供する方法である。
【0240】
「スマートデバイス」とは、インターネットに接続できる機能を持ち、複数のスマート機能を統合したポータブル電子デバイスである。
【0241】
「ヘッドセット」とは、頭部に装着することで音声通信や音声出力を可能にする装置であり、この文脈では音声メッセージや触覚フィードバックを受け取るために用いられる。
【0242】
「カメラやセンサー」とは、周囲の環境や物体を画像やデータとして捉えるためのデバイスであり、この情報を生成AIが解析するために使用される。
【0243】
「感情エンジン」とは、ユーザーの声調、表情、行動などから感情状態を推測し、その情報を基に情報提供の方法を調整する技術やシステムである。
【0244】
この発明を実施するための形態は、視覚障害者が外出時や日常生活において周囲の環境をより安全かつ効果的に理解するためのシステムである。このシステムは、生成AI、スマートデバイスやヘッドセット、カメラやセンサー、そして感情エンジンを含む。
【0245】
サーバには生成AIが搭載されており、このAIはカメラやセンサーから送信される環境データを解析する。解析されたデータは、物体の位置、形状、動きといった情報を含み、この情報は音声メッセージや触覚フィードバックを通じてユーザーに伝えられる。スマートデバイスやヘッドセットは、ユーザーがこの情報を受け取るためのインターフェイスとして機能し、リアルタイムで環境データを生成AIに送信する。
【0246】
感情エンジンは、ユーザーの声調、表情、行動から感情状態を推測し、その情報を生成AIに提供する。生成AIは、この感情情報を基に情報提供の方法を調整し、例えば、ユーザーが不安や恐怖を感じている場合は、より穏やかな声調で必要な情報を提供する。
【0247】
このシステムを実現するためには、スマートデバイスやヘッドセットにカメラやセンサー、そして感情エンジンを組み込む必要がある。また、サーバ側では、生成AIがこれらのデータを処理し、適切なフィードバックを生成するためのアルゴリズムが必要である。
【0248】
具体例として、ユーザーが交差点に近づいている場合、カメラとセンサーはその位置と周囲の車両の動きを捉え、生成AIはこの情報を基に「右から車が近づいています。安全な時を見計らって渡ってください」という音声メッセージを生成し、ヘッドセットを通じてユーザーに伝える。また、ユーザーが緊張していることを感情エンジンが感知した場合、生成AIは情報の伝達方法をより穏やかなものに調整する。
【0249】
この形態により、視覚障害者は周囲の環境をより安全に、かつ効果的に理解し、日常生活や社会参加においてより高い自立性を実現することができる。
【0250】
特定処理の流れについて図18を用いて説明する。
【0251】
ステップ1:環境データの収集
【0252】
端末に搭載されたカメラやセンサーは、ユーザーの周囲の環境データを収集する。このデータには、物体の位置、形状、動きといった情報が含まれる。この収集されたデータは、リアルタイムでサーバに送信される。
【0253】
ステップ2:感情状態の推測
【0254】
端末に搭載された感情エンジンは、ユーザーの声調、表情、行動から感情状態を推測する。この推測された感情状態は、情報提供の方法を調整するためにサーバに送信される。
【0255】
ステップ3:データの解析と情報の生成
【0256】
サーバに搭載された生成AIは、ステップ1とステップ2で収集・送信された環境データと感情状態のデータを解析する。この解析に基づいて、ユーザーにとって有用な情報が生成される。例えば、交差点の安全な渡り方や周囲の物体に関する情報などが含まれる。
【0257】
ステップ4:情報の伝達
【0258】
生成された情報は、サーバから端末に送信され、端末はこの情報を音声メッセージや触覚フィードバックの形でユーザーに伝える。この際、ユーザーの感情状態に基づいて、情報伝達の方法が調整される。例えば、ユーザーが不安を感じている場合は、より穏やかな声調で情報が伝えられる。
【0259】
ステップ5:フィードバックの受取と応答
【0260】
ユーザーは、提供された情報を基に行動を取る。同時に、ユーザーの反応や追加の感情状態は、端末を通じて再度サーバにフィードバックされる。このフィードバックは、システムの精度を向上させるために利用される。
【0261】
このプロセスを通じて、ユーザーは周囲の環境についての理解を深めることができ、安全かつ効果的に日常生活や社会参加が可能となる。また、システムはユーザーの感情状態に敏感に対応し、よりパーソナライズされた情報提供が実現される。
【0262】
(実施例2)
【0263】
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0264】
視覚障害者が直面する主な課題の一つは、外出時に周囲の環境を安全に、かつ効果的に認識することが困難であることだ。これには、障害物の存在、人々の動き、交通状況の変化など、様々な要因が関与する。さらに、情報の提供方法がユーザの感情状態や個別のニーズに適応していない場合、不安やストレスを引き起こす可能性がある。従来の支援技術では、これらの課題に対して十分な解決策を提供できていない。
【0265】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0266】
この発明では、サーバは、生成AIを活用して視界の代替となる情報を提供する手段と、リアルタイムで環境の情報を取得し、周囲の物体や人物を認識する手段と、ユーザの生体情報を解析し、その感情状態を推測する手段と、を含む。これにより、視覚障害者は周囲の環境を安全に認識し、その移動をサポートする音声メッセージや触覚フィードバックを受け取ることが可能となる。また、ユーザの感情状態に応じて情報提供の方法が調整されるため、ユーザのストレスが軽減され、より快適に外出することが可能となる。
【0267】
「生成AI」は、人工知能の一種で、入力されたデータから新しい情報やデータを生成する技術である。
【0268】
「視界の代替となる情報」は、視覚に頼ることができない人々が、周囲の環境や状況を理解するために使用される、視覚以外の感覚(聴覚、触覚など)に基づく情報である。
【0269】
「スマートデバイス」は、インターネットや他のデバイスと接続することができ、複数の機能を持つ電子機器である。
【0270】
「ヘッドセット」は、一般に頭部に装着し、音声の入力(マイク)と出力(ヘッドホン)の両方を提供する装置である。
【0271】
「リアルタイムで環境の情報を取得する手段」は、ユーザの周囲の環境から情報を即時に収集し、分析する技術やプロセスである。
【0272】
「周囲の物体や人物を認識する手段」は、カメラ、センサー、音声認識技術などを用いて、物体や人物の存在、位置、動作を識別し理解する技術である。
【0273】
「声や音声メッセージ、触覚フィードバック」は、音声や振動などの非視覚的な方法を通じて、ユーザに情報を伝達する手段である。
【0274】
「ユーザの生体情報」は、心拍数、皮膚の電気伝導度など、ユーザの身体的状態を示すデータである。
【0275】
「感情状態を推測する手段」は、ユーザの生体情報や行動パターンから、その時点での感情や心理的状態を分析し理解する技術である。
【0276】
「情報提供の方法を調整する手段」は、ユーザの状態やニーズに応じて、情報の伝達方法(例えば、メッセージの内容や提示の仕方)を最適化する技術やプロセスである。
【0277】
この発明を実施するための形態は、視覚障害者が外出時に周囲の環境を理解し、安全に移動することをサポートするためのシステムである。このシステムは、生成AIモデル、スマートデバイス、センサー、ヘッドセット、および生体情報測定装置を活用して構成される。
【0278】
サーバ上に配置された生成AIモデルは、スマートデバイスやセンサーから送信されるデータを基にして、周囲の物体や人物の位置、動き、またユーザの生体情報を解析する。この解析には、高度なデータ加工とデータ演算が含まれる。使用するハードウェアには、高解像度カメラ、マイク、心拍数センサー、皮膚電気伝導度センサーなどがあり、ソフトウェアには画像認識アルゴリズム、音声認識アルゴリズム、および感情状態分析アルゴリズムが含まれる。
【0279】
端末は、スマートデバイス(スマートフォンやタブレット)を指し、内蔵されたカメラやマイクを使用して周囲の情報を収集し、サーバに送信する。また、端末はサーバからの応答を受け取り、音声メッセージや触覚フィードバックとしてユーザに伝達する。ヘッドセットは、音声メッセージをユーザに直接伝えるために使用される。
【0280】
具体例として、ユーザが街を歩いている状況を想定する。端末のカメラは前方の障害物を捉え、「前方3メートルに椅子がある」というプロンプト文に基づいて生成AIモデルが音声メッセージを生成し、ヘッドセットを通じてユーザに伝える。同時に、端末はマイクを使用して周囲の音を捉え、人々の動きを解析し、手首に装着された触覚デバイスを通じて触覚フィードバックを提供する。ユーザの生体情報が示す感情状態に基づき、「ユーザの心拍数が高いことから緊張している」と判断した場合、リラックスするための音楽を提供するプロンプト文が生成AIモデルによって処理される。
【0281】
この形態により、視覚障害者は周囲の環境に関する豊富な情報を得ることができ、感情状態に配慮した情報提供によって外出時の安心感が向上する。
【0282】
特定処理の流れについて図19を用いて説明する。
【0283】
ステップ1:環境データの収集
【0284】
端末は、内蔵されたカメラとマイク、生体情報センサーを使用して、ユーザの周囲の環境データとユーザの生体情報を収集する。このステップの入力は、周囲の光景と音、ユーザの心拍数や皮膚の電気伝導度であり、出力は収集した環境データと生体情報のデジタル表現である。端末はこれらのデータをデジタル情報に変換して処理する。
【0285】
ステップ2:データの送信と解析
【0286】
収集されたデータは、無線通信を介してサーバに送信される。サーバ上の生成AIモデルは、送信された環境データと生体情報を解析し、周囲の物体や人物の位置、動き、ユーザの感情状態を識別する。このステップの入力は、環境データと生体情報であり、出力は物体や人物の識別情報とユーザの感情状態である。サーバはデータを解析し、識別情報と感情状態を推測する。
【0287】
ステップ3:情報提供の調整とフィードバックの生成
【0288】
生成AIモデルは、解析結果に基づいて、ユーザに提供する情報の内容と形式を調整する。ユーザが緊張している場合はリラックスするための音楽を選択し、障害物の位置情報は音声メッセージで、周囲の人々の動きは触覚フィードバックで伝える。このステップの入力は、物体や人物の識別情報とユーザの感情状態であり、出力は音声メッセージや触覚フィードバック、音楽などの情報提供内容である。サーバは解析結果に基づいて適切なフィードバックを生成し、端末に送信する。
【0289】
ステップ4:フィードバックの伝達
【0290】
端末はサーバから送信されたフィードバックを受け取り、音声メッセージはヘッドセットを通じて、触覚フィードバックは触覚デバイスを通じて、音楽は端末のスピーカーまたはヘッドセットからユーザに伝える。このステップの入力は、サーバからのフィードバックであり、出力はユーザが認識可能な形での情報提供である。端末は受け取ったフィードバックを適切な出力装置を通じてユーザに伝達する。
【0291】
これらのステップを通じて、視覚障害者は周囲の環境をより安全かつ効率的に認識し、感情状態に応じたカスタマイズされたサポートを受けることが可能となる。
【0292】
(応用例2)
【0293】
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0294】
現状では、視覚障害者を含むユーザーが自動運転車両を使用する際に、周囲の環境や状況を正確に認識し、安全かつ快適に移動することが困難である。特に、周囲の車両や障害物、信号の状態を理解することが難しく、またユーザーの感情状態に応じた情報提供や環境調整が行われていないため、移動中の不安やストレスが増大することがある。
【0295】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0296】
この発明では、サーバは、環境の動的な要素をリアルタイムで認識し情報を提供する手段と、車載システムやヘッドセットを介してAIにアクセスする手段と、車両の周囲の環境情報を取得するためのセンサーやカメラからの入力データを解析する手段と、周囲の車両、障害物、信号状態を認識する手段と、声や音声メッセージ、触覚フィードバック、生体情報に基づく感情状態の調整を行う手段と、を含む。これにより、ユーザーが周囲の環境や状況を正確に理解し、安全かつ快適に移動することが可能となる。また、ユーザーの感情状態に応じた情報提供や環境調整により、移動中の不安やストレスを軽減し、より快適な移動体験を実現することができる。
【0297】
「生成AI」は、人工知能技術の一種であり、複雑なデータを解析し、それに基づいて新しい情報や推論を生成するシステムである。
【0298】
「環境の動的な要素をリアルタイムで認識し情報を提供する手段」とは、センサーやカメラなどの入力データを解析し、周囲の変化する状況(車両の動き、障害物の存在、信号の変化など)を即時に検出し、その情報をユーザーに伝達する機能を指す。
【0299】
「車載システムやヘッドセットを介してAIにアクセスする手段」とは、自動運転車両内の組み込みシステムや、ユーザーが身につけるヘッドセットなどを通じて、生成AIと連携し、情報のやり取りを行うインターフェースを指す。
【0300】
「センサーやカメラからの入力データを解析する手段」とは、車両周辺の環境データを捉えるために設置されたセンサーやカメラが収集したデータを、リアルタイムで処理・解析し、環境情報を把握する機能を指す。
【0301】
「周囲の車両、障害物、信号状態を認識する手段」とは、自動運転車両がその周囲の物体や他の車両、交通信号などの状況を正確に理解し、これらの情報をベースに安全な運転判断を行うための技術やシステムを指す。
【0302】
「声や音声メッセージ、触覚フィードバック、生体情報に基づく感情状態の調整を行う手段」とは、ユーザーへの情報提供を音声や触覚フィードバックを通じて行い、さらにユーザーの生体情報を分析して感情状態を推定し、それに応じた情報提供や環境調整を実施する機能を指す。
【0303】
この発明を実施するための形態は、自動運転車両において、視覚障害者を含むユーザーが安全かつ快適に移動するための支援システムである。このシステムは、車載センサーやカメラ、生成AIモデル、音声合成エンジン、触覚フィードバックデバイス、生体情報センサーなどを組み合わせて構成される。
【0304】
サーバは、車載センサーやカメラからの入力データを受け取り、これを解析して車両の周囲の環境情報を認識する。この環境情報には、他の車両、障害物、信号の状態などが含まれる。生成AIモデルを用いて、この情報を基にして、ユーザーに対する音声メッセージや触覚フィードバックを生成する。また、ユーザーの生体情報センサーから収集されるデータ(例えば、心拍数や皮膚の電気伝導度)を分析し、ユーザーの感情状態を推測する。この感情状態に応じて、情報提供の方法や環境を調整することで、ユーザーの心理的快適性を向上させる。
【0305】
例えば、サーバが車両の右側から接近してくる他の車両を検出した場合、生成AIモデルを用いて「右側から車両が接近しています。注意してください」という音声メッセージを生成し、音声合成エンジンを通じてユーザーに伝える。同時に、ユーザーが緊張していると感じた場合は、「リラックスできる音楽を提供してください」というプロンプトを生成AIモデルに送り、音楽を流してユーザーをリラックスさせる。
【0306】
この形態では、車両に取り付けられたカメラやセンサー、触覚フィードバックデバイス、心拍数センサーや皮膚電気伝導度センサーなどの生体情報センサー、生成AIモデル、音声合成エンジンなどのハードウェアとソフトウェアが重要な役割を果たす。これらを適切に組み合わせることで、視覚障害者を含む全てのユーザーに対して、周囲の環境をより良く理解し、安全かつ快適に移動するためのサポートを提供することができる。
【0307】
特定処理の流れについて図20を用いて説明する。
【0308】
ステップ1:環境データの収集
【0309】
サーバは、車載センサーやカメラから送信される周囲の環境データを収集する。このデータには、障害物の位置、近くの車両の動き、信号の状態などが含まれる。入力されたこれらのデータを基に、サーバは周囲の状況を把握するためのデータ加工やデータ演算を行う。
【0310】
ステップ2:環境データの解析
【0311】
収集した環境データは、生成AIモデルによって解析される。この解析により、車両の周囲に存在する障害物の位置、近接する車両の動向、信号の状態などが認識される。解析結果は、ユーザーに情報を提供するための基礎として使用される。
【0312】
ステップ3:ユーザーの生体情報の収集と分析
【0313】
サーバは、ユーザーの生体情報センサーから心拍数や皮膚の電気伝導度などのデータを収集する。これらのデータは分析され、ユーザーの感情状態を推測するために使用される。この推測結果は、情報提供方法や環境調整の決定に役立てられる。
【0314】
ステップ4:情報提供方法の決定
【0315】
サーバは、解析された環境データとユーザーの感情状態を考慮して、最適な情報提供方法を決定する。例えば、ユーザーが緊張していると感じた場合、リラックスできる音楽を提供することを決定する。この決定プロセスには、生成AIモデルが使用される。
【0316】
ステップ5:情報の提供
【0317】
決定された情報提供方法に基づき、サーバは音声メッセージや触覚フィードバック、適切な音楽の提供などを行う。これらの情報提供は、ユーザーに対して最適な体験を提供するためにカスタマイズされる。たとえば、「右側から車両が接近しています。注意してください」という音声メッセージがユーザーに伝えられることがある。
【0318】
このプログラムの処理により、自動運転車両を使用するユーザーは、周囲の環境をより良く理解し、安全かつ快適に移動することが可能になる。また、ユーザーの感情状態に応じた情報提供や環境調整によって、移動中の不安やストレスを軽減できる。
【0319】
(実施例3)
【0320】
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0321】
視覚障害者が日常生活や社会活動において直面する情報アクセスの障壁を低減することである。具体的には、会議やイベントにおける周囲の人々の反応や雰囲気の理解、読みたい書籍や資料の内容へのアクセス、及び自身の感情状態に適応した触覚フィードバックの提供が挙げられる。これらの課題は、視覚障害者の社会参加の向上と自立した生活を制限する主要な要因である。
【0322】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0323】
この発明では、サーバは、音声データをテキストデータに変換する手段と、生成AIモデルを用いてテキストデータから環境の雰囲気や人々の反応を分析する手段と、テキストデータを音声情報に変換してユーザに伝える手段と、ユーザの感情状態をモニタリングする手段と、ユーザの感情状態に基づいて触覚フィードバックの強度やパターンを調整する手段と、会議やイベントの音声をリアルタイムで収集する手段と、を含む。これにより、視覚障害者が周囲の環境をより深く理解し、社会活動に積極的に参加すること、読みたい内容を音声情報として容易にアクセスすること、及び感情状態に応じた適切な触覚フィードバックを受け取ることが可能となる。
【0324】
「音声データをテキストデータに変換する手段」とは、収集された音声情報を文字情報に変換するプロセスや装置を指す。この変換には、音声認識技術が用いられる。
【0325】
「生成AIモデルを用いてテキストデータから環境の雰囲気や人々の反応を分析する手段」とは、文字情報を解析し、その情報から周囲の状況や人々の感情、反応などを理解するための技術や方法を指す。この分析には、自然言語処理技術が用いられる。
【0326】
「テキストデータを音声情報に変換してユーザに伝える手段」とは、解析された文字情報を音声として再生し、ユーザに伝達するプロセスや装置を指す。この変換には、テキスト音声変換技術が用いられる。
【0327】
「ユーザの感情状態をモニタリングする手段」とは、ユーザの声のトーン、表情、体の動きなどから感情状態を識別し、分析する技術や方法を指す。このモニタリングには、音声分析技術やセンサー技術が用いられることがある。
【0328】
「ユーザの感情状態に基づいて触覚フィードバックの強度やパターンを調整する手段」とは、ユーザの現在の感情状態に応じて、触覚デバイスを通じて提供されるフィードバックの種類や程度を変更する技術や方法を指す。この調整には、感情分析結果を基にしたフィードバック制御アルゴリズムが用いられる。
【0329】
「会議やイベントの音声をリアルタイムで収集する手段」とは、生の音声情報をその場で直接捉え、デジタルデータとして記録する技術や装置を指す。この収集には、マイクロフォンや音声記録システムが用いられる。
【0330】
この発明を実施するための形態では、サーバと端末(スマートデバイス)、及びユーザ(視覚障害者)が中心となる。サーバは、音声認識技術、自然言語処理技術、テキスト音声変換技術、感情分析技術、及び触覚フィードバック制御技術を備えている。端末は、音声収集機能、感情状態モニタリング機能、及び触覚フィードバック提供機能を備えている。具体的なハードウェアとソフトウェアには、Google Cloud Speech-to-Text(音声認識)、OpenAIのGPT(テキスト分析と生成)、Amazon Polly(テキストから音声への変換)、及びTesseract OCR(文字認識)が含まれる。
【0331】
サーバは、端末から受信した音声データをGoogle Cloud Speech-to-Textを用いてテキストデータに変換する。次に、このテキストデータをOpenAIのGPTを用いて分析し、会議やイベントの雰囲気、人々の反応などの情報を抽出する。分析結果はテキストデータとして、Amazon Pollyを用いて音声情報に変換される。この音声情報は端末を通じてユーザに伝達される。
【0332】
端末は、マイクロフォンを用いて会議やイベントの音声をリアルタイムで収集し、サーバに送信する。また、端末はユーザの声のトーンや体の動きをモニタリングし、感情状態を分析するためのデータをサーバに送信する。サーバはこのデータを分析し、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する指示を端末に送信する。端末はこの指示に基づき、触覚デバイスを通じてユーザに適切なフィードバックを提供する。
【0333】
具体例としては、サーバが「会議の雰囲気を分析し、その概要を音声で提供せよ」というプロンプト文に基づいて処理を行い、端末が「今、話者が冗談を言ったことで、参加者から笑い声が上がっている」という音声情報をユーザに伝達するシナリオがある。また、ユーザが読みたい書籍のページを端末のカメラでスキャンし、「このページのテキストを読み取り、音声で読み上げせよ」というプロンプトに基づいて、テキストを音声情報に変換して提供する場合も含まれる。
【0334】
この形態により、視覚障害者は周囲の環境や会議の内容を理解しやすくなり、読みたい資料を音声でアクセスできるようになる。さらに、自身の感情状態に適応した触覚フィードバックにより、より豊かな情報を得ることが可能となる。
【0335】
特定処理の流れについて図21を用いて説明する。
【0336】
ステップ1:
【0337】
端末は、マイクロフォンを用いて会議やイベントの音声を収集する。この音声データはサーバに送信される。入力は生の音声データであり、出力はデジタル化された音声データである。このステップでは、音声データの収集とデジタル化が行われる。
【0338】
ステップ2:
【0339】
サーバは、受け取った音声データをGoogle Cloud Speech-to-Textを用いてテキストデータに変換する。入力はデジタル化された音声データであり、出力はテキストデータである。このプロセスでは、音声認識技術を用いて、音声情報を文字情報に変換するデータ加工が行われる。
【0340】
ステップ3:
【0341】
サーバは、変換されたテキストデータをOpenAIのGPTを用いて分析し、会議やイベントの雰囲気や人々の反応などの情報を抽出する。入力はテキストデータであり、出力は分析結果のテキストデータ(雰囲気や反応の要約)である。このステップでは、自然言語処理技術を用いて、テキストデータから有用な情報を抽出するデータ演算が行われる。
【0342】
ステップ4:
【0343】
サーバは、分析結果をテキストとしてAmazon Pollyを用いて音声情報に変換し、この音声情報を端末に送信する。入力は分析結果のテキストデータであり、出力は音声情報である。このプロセスでは、テキストから音声への変換が行われ、ユーザに対して理解しやすい形で情報が提供される。
【0344】
ステップ5:
【0345】
端末は、サーバから受信した音声情報をユーザに伝達する。このステップでは、端末のスピーカーを通じて音声情報が再生される。入力は音声情報であり、出力はユーザが聞くことができる音声メッセージである。
【0346】
ステップ6:
【0347】
端末は、ユーザの声のトーンや体の動きをモニタリングし、感情状態を分析するためのデータをサーバに送信する。入力はユーザの声や動きのデータであり、出力は感情状態の分析結果である。このステップでは、感情分析技術を用いて、ユーザの感情状態を識別するデータ演算が行われる。
【0348】
ステップ7:
【0349】
サーバは、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する指示を端末に送信する。入力は感情状態の分析結果であり、出力は触覚フィードバックの指示である。このステップでは、ユーザの感情状態を基にした触覚フィードバックのカスタマイズが行われる。
【0350】
ステップ8:
【0351】
端末は、サーバからの指示に基づき、触覚デバイスを通じてユーザに適切なフィードバックを提供する。このステップでは、ユーザが触覚フィードバックを通じて感情状態に応じた反応を受け取る。入力は触覚フィードバックの指示であり、出力はユーザの感覚に伝わる触覚フィードバックである。
【0352】
(応用例3)
【0353】
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0354】
現代社会において、視覚障害者やセキュリティ関連の従事者は、環境の理解や安全な移動、異常行動や危険状況の即時認識といった課題に直面しています。特に、視覚障害者が社会参加を行う際やセキュリティ関連の従事者が緊急状況に迅速に対応する必要がある場合、周囲の環境や人々の感情状態を効果的に把握する手段が限られていることが問題です。また、使用者の感情状態に応じた適切な触覚フィードバックを提供することで、より安全で快適な社会生活を送るためのサポートが不十分であることも課題となっています。
【0355】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0356】
この発明では、サーバは、生成AIを活用して視界の代替となる情報を提供する手段と、リアルタイムで周囲の人々の感情状態を分析し、異常な行動や状況を感知する際に適切な触覚フィードバックを提供する手段と、使用者の感情状態に応じた触覚フィードバックの強度やパターンを調整する手段と、を含む。これにより、視覚障害者が社会活動をより豊かに、自立して行うことが可能となり、セキュリティ関連の従事者が緊急状況においても周囲の環境や人々の感情状態を効果的に把握し、迅速に対応することが可能となる。
【0357】
「生成AI」とは、人工知能の一形態であり、学習データから独立して新たな情報や反応を生成し、特定のタスクを自動で行うシステムである。
【0358】
「視界の代替となる情報を提供する手段」とは、視覚情報に代わる形で、音声や触覚フィードバックを通じて、使用者に必要な情報を伝えるシステムや方法である。
【0359】
「スマートデバイスやヘッドセットを介してAIにアクセスする手段」とは、スマートフォン、タブレット、ヘッドマウントディスプレイなどのデバイスを用いて、AI機能やサービスに接続し利用するための方法やシステムである。
【0360】
「リアルタイムで環境の情報を取得する手段」とは、周囲の状況や変化を即時に捉え、分析・処理することが可能なシステムや技術である。
【0361】
「周囲の物体や人物を認識する手段」とは、カメラやセンサー等を通じて得られる画像や音声データから、物体や人物を特定し、それらの情報を解析するシステムやアルゴリズムである。
【0362】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」とは、音声合成技術や振動パターンを用いて、使用者に情報を伝達する方法である。
【0363】
「リアルタイムで周囲の人々の感情状態を分析し、異常な行動や状況を感知する際に適切な触覚フィードバックを提供する手段」とは、環境内の人々の表情や声のトーンを解析し、それに基づいて異常を警告するための触覚フィードバックを即座に発生させるシステムや方法である。
【0364】
「使用者の感情状態に応じた触覚フィードバックの強度やパターンを調整する手段」とは、使用者の現在の感情や心理状態を評価し、それに適合するように触覚フィードバックの出力を調節するシステムや技術である。
【0365】
この発明を実施するための形態には、視覚障害者やセキュリティ関連の従事者に対して、環境情報や人々の感情状態に基づくリアルタイムの警告と触覚フィードバックを提供するシステムが含まれる。このシステムは、生成AIモデル、スマートデバイス(スマート眼鏡やヘッドマウントディスプレイ)、感情分析ソフトウェア、触覚フィードバックデバイスから構成される。
【0366】
サーバは、生成AIモデルを用いて周囲の環境データから人々の感情状態を分析する。この分析には、OpenCVやTensorFlowなどの機械学習ライブラリが使用される。端末(スマート眼鏡やヘッドマウントディスプレイ)は、カメラやマイクを介して環境データを収集し、サーバに送信する。サーバからの分析結果は、端末を介してユーザに伝えられ、必要に応じて触覚フィードバックデバイスを通じて感覚的な警告が提供される。
【0367】
このシステムを用いることで、ユーザは周囲の環境や人々の感情状態をより深く理解することができ、安全性と快適性を向上させる。特に、視覚障害者は社会活動においてより自立した行動が可能になり、セキュリティ関連の従事者は緊急状況において迅速かつ効果的に対応することが可能になる。
【0368】
具体例としては、「あるセキュリティガードが、パトロール中にスマート眼鏡を着用しています。彼の眼鏡にインストールされたアプリケーションは、周囲の人々の顔をリアルタイムでスキャンし、その表情から感情状態を分析します。怒りや攻撃的な感情が検出された場合、ガードの眼鏡は即座に強い振動を発し、警告する」というシナリオが考えられる。このプロセスは、セキュリティガードや視覚障害者が周囲の状況をよりよく理解し、適切な対応をとるためのものである。
【0369】
特定処理の流れについて図22を用いて説明する。
【0370】
ステップ1:端末は、カメラとマイクを使用して周囲の環境データを収集する。この収集データには、周囲の人々の顔の映像と声の音声が含まれる。入力として周囲の映像と音声を受け取り、出力としてデータファイルを生成する。
【0371】
ステップ2:端末は、収集した環境データをサーバに送信する。このステップでは、収集された映像と音声データがサーバに向けて転送される。入力として端末からのデータファイルを受け取り、サーバへのデータ送信という出力を行う。
【0372】
ステップ3:サーバは、受け取った環境データを使用して、生成AIモデルを通じて周囲の人々の感情状態を分析する。このプロセスには、画像認識と音声認識の技術が用いられ、感情分析結果が生成される。入力として映像と音声データを受け取り、出力として感情分析結果を生成する。
【0373】
ステップ4:サーバは、感情分析結果に基づいて、適切な触覚フィードバックの指示を端末に送信する。この指示には、フィードバックの強度やパターンの情報が含まれる。入力として感情分析結果を受け取り、出力として触覚フィードバックの指示を生成する。
【0374】
ステップ5:端末は、サーバから受け取った触覚フィードバックの指示に基づいて、ユーザに触覚フィードバックを提供する。このフィードバックは、端末またはユーザが着用している触覚フィードバックデバイスを通じて行われる。入力として触覚フィードバックの指示を受け取り、出力としてユーザに対する具体的な触覚フィードバックの実行を行う。
【0375】
これらのステップを通じて、システムは周囲の環境や人々の感情状態を効果的に把握し、ユーザにリアルタイムで適切な警告と触覚フィードバックを提供する。これにより、視覚障害者の安全な移動や社会参加のサポート、セキュリティ関連の従事者の迅速な状況把握と対応が可能となる。
【0376】
特定処理部290は、特定処理の結果をスマートデバイス14に送信する。スマートデバイス14では、制御部46Aが、出力装置40に対して特定処理の結果を出力させる。マイクロフォン38Bは、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン38Bによって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【0377】
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【0378】
生成AIの他の例としては、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)が挙げられる。
【0379】
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマートデバイス14によって特定処理が行われるようにしてもよい。
【0380】
[第2実施形態]
【0381】
図3には、第2実施形態に係るデータ処理システム210の構成の一例が示されている。
【0382】
図3に示すように、データ処理システム210は、データ処理装置12及びスマート眼鏡214を備えている。データ処理装置12の一例としては、サーバが挙げられる。
【0383】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0384】
スマート眼鏡214は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、及びカメラ42も、バス52に接続されている。
【0385】
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
【0386】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
【0387】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
【0388】
図4には、データ処理装置12及びスマート眼鏡214の要部機能の一例が示されている。図4に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
【0389】
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
【0390】
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
【0391】
スマート眼鏡214では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0392】
次に、データ処理装置12の特定処理部290による特定処理について説明する。
【0393】
「形態例1」
【0394】
本発明の形態は、視覚障害者がスマートデバイスやヘッドセットを装着し、生成AIにアクセスする。生成AIは、カメラやセンサーから取得した情報を解析し、視覚障害者に対して周囲の環境情報を提供する。具体的には、AIは物体や人物の位置、形状、動きなどを認識し、音声メッセージや触覚フィードバックを通じて視覚障害者に伝える。
【0395】
「形態例2」
【0396】
具体例として、視覚障害者が街を歩く場合、生成AIは前方にある障害物や交差点、信号の状態などを認識し、視覚障害者に音声メッセージで伝える。また、人々の動きや声から人々の存在とその動向を推測し、視覚障害者に触覚フィードバックを提供する。これにより、視覚障害者は周囲の状況を理解し、安全に移動することが可能となる。
【0397】
「形態例3」
【0398】
さらに、生成AIは視覚障害者の社会参加を支援する。例えば、会議やイベントでの人々の反応や雰囲気を分析し、視覚障害者に伝える。また、視覚障害者が読みたい書籍や資料の文字情報を読み取り、音声で読み上げる。これにより、視覚障害者は社会活動をより豊かに、自立して行うことが可能となる。
【0399】
以下に、各形態例の処理の流れについて説明する。
【0400】
「形態例1」
【0401】
ステップ1:視覚障害者がスマートデバイスやヘッドセットを装着し、生成AIにアクセスする。
【0402】
ステップ2:生成AIは、カメラやセンサーから取得した情報を解析する。
【0403】
ステップ3:AIは物体や人物の位置、形状、動きなどを認識し、音声メッセージや触覚フィードバックを通じて視覚障害者に伝える。
【0404】
「形態例2」
【0405】
ステップ1:視覚障害者が街を歩く場合、生成AIは前方にある障害物や交差点、信号の状態などを認識する。
【0406】
ステップ2:AIは人々の動きや声から人々の存在とその動向を推測する。
【0407】
ステップ3:AIは視覚障害者に音声メッセージで情報を伝え、また触覚フィードバックを提供する。これにより、視覚障害者は周囲の状況を理解し、安全に移動することが可能となる。
【0408】
「形態例3」
【0409】
ステップ1:生成AIは視覚障害者の社会参加を支援する。例えば、会議やイベントでの人々の反応や雰囲気を分析する。
【0410】
ステップ2:AIは視覚障害者が読みたい書籍や資料の文字情報を読み取る。
【0411】
ステップ3:AIは情報を音声で読み上げ、視覚障害者に伝える。これにより、視覚障害者は社会活動をより豊かに、自立して行うことが可能となる。
【0412】
(実施例1)
【0413】
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0414】
現在の技術では、視覚障害者が自立して移動する際に直面する困難は多く、周囲の環境情報を安全かつ効果的に取得する手段が限られている。特に、人や物体の位置、形状、動きなどの詳細な情報をリアルタイムで提供するシステムの欠如は、視覚障害者の移動の自由度を制限し、社会参加の機会を減少させる大きな要因である。このため、視覚障害者が周囲の環境をより深く理解し、安全に移動できるよう支援する新たな技術的解決策が求められている。
【0415】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0416】
この発明では、サーバは、生成AIモデルを用いて環境データを解析する手段と、解析結果を音声メッセージや触覚フィードバックとして変換する手段と、収集した環境データをリアルタイムで処理する手段と、を含む。これにより、視覚障害者は周囲の人物や物体の位置、形状、動きなどの詳細な情報を音声や触覚フィードバックを通じてリアルタイムで受け取ることが可能となる。結果として、視覚障害者の安全な移動をサポートし、社会参加の機会を拡大することが可能となる。
【0417】
「生成AI」は、人工知能の一種であり、データから学習して特定のタスクを実行するためのモデルやアルゴリズムを生成する技術である。
【0418】
「スマートデバイス」は、インターネットに接続でき、アプリケーションを実行することにより多機能を提供するポータブル電子機器である。
【0419】
「ヘッドセット」は、一般に音声出力(スピーカー)と音声入力(マイクロフォン)の機能を備え、頭部に装着することで使用するデバイスである。
【0420】
「リアルタイムで環境の情報を取得する手段」は、現在の状況や変化を即座に捉え、遅延なく情報を提供するプロセスまたは技術である。
【0421】
「周囲の物体や人物を認識する手段」は、視覚的、聴覚的、またはその他のセンサー情報を分析し、特定の環境内の物体や人物の存在や位置を特定する技術である。
【0422】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」は、音声や振動などの感覚的手段を用いて、ユーザーに情報を提供する方法である。
【0423】
この発明を実施するための形態は、視覚障害者が周囲の環境を理解し、安全に移動できるよう支援するシステムに関連している。このシステムは、特定のハードウェアおよびソフトウェアを用いて実装される。
【0424】
サーバは、生成AIモデルをホストしている。このAIモデルは、環境から収集されたデータを解析し、物体や人物の位置、形状、動きなどの情報を識別するために設計されている。使用されるソフトウェアには、例えばOpenAIのGPTやGoogleのTensorFlowがカスタマイズされた形で含まれる。これらのソフトウェアは、複雑なデータ解析と学習能力を提供し、システムの精度と効率を高める。
【0425】
端末は、スマートデバイスやヘッドセットなど、視覚障害者が装着するデバイスである。これらのデバイスには、環境データを収集するためのカメラやセンサーが搭載されている。収集されたデータは、サーバに送信され、生成AIモデルによって解析される。
【0426】
解析結果は、端末に送り返され、音声メッセージや触覚フィードバックとして視覚障害者に提供される。このフィードバックにより、ユーザは周囲の環境をより深く理解し、安全に移動するための情報を得ることができる。
【0427】
具体例としては、「周囲の人物と物体の位置と動きを識別し、その情報を音声メッセージで伝えてください。」というプロンプト文が挙げられる。このプロンプトは、生成AIモデルによる解析の対象となるデータの種類を指示するものである。
【0428】
この発明を実施するための形態は、視覚障害者が直面する日常の課題を解決するために、先進的な技術を活用することに焦点を当てている。ハードウェアとソフトウェアの組み合わせにより、リアルタイムで環境情報を提供し、視覚障害者の自立を支援することを目的としている。
【0429】
特定処理の流れについて図11を用いて説明する。
【0430】
ステップ1:端末は、視覚障害者が装着しているスマートデバイスやヘッドセットに搭載されたカメラやセンサーから、周囲の環境データを収集する。このステップの入力は、端末のカメラやセンサーによって取得される周囲の環境の映像や音声、温度、距離などのデータである。出力は、収集された生の環境データである。
【0431】
ステップ2:端末は、収集した環境データをサーバに送信する。このステップでは、無線通信技術を用いてデータの送信が行われる。入力は、ステップ1で収集された環境データであり、出力はサーバに送信されたデータである。
【0432】
ステップ3:サーバは、受信した環境データを生成AIモデルによって解析する。この解析には、物体認識、人物認識、動き検出などの処理が含まれる。入力は、ステップ2で受信した環境データであり、出力は解析結果である。この解析結果には、周囲の物体や人物の位置、形状、動きなどの情報が含まれる。
【0433】
ステップ4:サーバは、解析結果をもとに、視覚障害者に有用な情報を生成する。この情報は、音声メッセージや触覚フィードバックの形で提供される。入力はステップ3の解析結果であり、出力は視覚障害者に伝えるための情報である。
【0434】
ステップ5:端末は、サーバから受信した情報を視覚障害者に伝える。これには、端末に内蔵されたスピーカーや触覚フィードバックデバイスが使用される。入力はステップ4で生成された情報であり、出力は視覚障害者が認識可能な音声メッセージや触覚フィードバックである。
【0435】
具体的な動作の例として、「周囲の人物と物体の位置と動きを識別し、その情報を音声メッセージで伝えてください」というプロンプト文に基づく処理が挙げられる。この場合、端末はカメラを用いて周囲を撮影し、そのデータをサーバに送信する。サーバはこのデータを解析して、人物や物体の位置と動きを特定し、この情報を視覚障害者に向けた音声メッセージとして端末に送り返す。端末はこのメッセージをスピーカーを通じて視覚障害者に伝える。
【0436】
(応用例1)
【0437】
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0438】
現在、視覚障害者が実店舗での買い物を行う際に直面する主な課題は、店内のレイアウトや商品の位置を把握することの難しさにあります。また、障害物を回避しながら安全に移動することも大きな課題です。これらの課題は、視覚障害者が自立して買い物を楽しむことを妨げ、社会参加の機会を限定してしまいます。
【0439】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0440】
この発明では、サーバは、スマートデバイスやヘッドセットを介して生成AIにアクセスする手段と、リアルタイムで店内環境の情報を取得し解析する手段と、周囲の物体や人物を認識し、その位置や形状を特定する手段と、音声メッセージや触覚フィードバックを通じて視覚障害者に情報を伝達する手段を含む。これにより、視覚障害者が実店舗内での商品の位置や障害物の存在を把握し、安全に移動しながら効率的に買い物をすることが可能となる。
【0441】
「生成AI」は、人工知能の一種であり、環境データを解析し、その解析結果に基づいてユーザーに有益な情報を生成・提供するシステムである。
【0442】
「スマートデバイス」は、インターネットに接続でき、多機能な処理を実行できるポータブルな電子機器である。
【0443】
「ヘッドセット」は、耳に装着することで音声通信や音声案内を受けることができる装置である。
【0444】
「リアルタイムで環境の情報を取得する手段」は、現在の時間とほぼ同期して、周囲の環境に関するデータを収集・更新するプロセスである。
【0445】
「周囲の物体や人物を認識する手段」は、カメラやセンサー等の入力から物体や人物の存在、位置、形状を特定し識別する技術である。
【0446】
「声や音声メッセージ」は、人間の耳で聞くことができる音波の形で情報を伝達する方法である。
【0447】
「触覚フィードバック」は、触覚によってユーザーに情報を提供する技術であり、振動や圧力の変化を通じて情報を伝える。
【0448】
この発明を実施するための形態には、スマートデバイスやヘッドセットを介した生成AIの活用が含まれる。サーバは、生成AIモデルを用いて、スマートデバイスやヘッドセットから送信される環境データを解析する。この解析により、周囲の物体や人物の位置、形状、動きを識別し、視覚障害者に対して音声メッセージや触覚フィードバックを通じて情報を伝達する。
【0449】
使用するハードウェアには、スマートデバイスやヘッドセットが含まれる。これらのデバイスは、内蔵されたカメラやセンサーを通じてリアルタイムの環境データを取得し、サーバに送信する。サーバでは、OpenCVやTensorFlowなどのソフトウェアライブラリを用いて物体検出や画像解析を行い、得られた情報を音声合成システムを通じてユーザに伝達する。
【0450】
例えば、ユーザがスマート眼鏡を装着して店内に入る場合、「前方に商品棚があります。安全な経路は、直進です。」といった案内が音声で提供される。この情報は、スマート眼鏡のカメラで取得された映像データを解析して生成される。また、ユーザが特定の商品を探している場合、生成AIは「右に曲がると商品が見つかります。」といった具体的な指示を提供する。これにより、視覚障害者は安全に移動しながら必要な商品を効率的に見つけることができる。
【0451】
特定処理の流れについて図12を用いて説明する。
【0452】
ステップ1:端末のカメラとセンサーが周囲の環境データを取得する。このステップでは、ユーザが装着しているスマートデバイスやヘッドセットのカメラとセンサーが、周囲の物体、人物、障害物などの情報をリアルタイムで収集する。入力は、光学的イメージや距離センサーからのデータであり、出力はデジタル化された環境データとしてサーバに送信される。
【0453】
ステップ2:サーバが環境データを解析する。受信した環境データは、生成AIモデルによって解析され、周囲の物体や人物の位置、形状、動きが特定される。このステップの入力は、ステップ1からのデジタル化された環境データであり、出力は解析結果としての物体識別情報や動きのパターンである。
【0454】
ステップ3:解析結果に基づき、ユーザに情報を伝達する。サーバは、解析結果をもとに、ユーザが理解しやすい形式の音声メッセージや触覚フィードバックを生成する。例えば、商品の位置案内や障害物の警告がこれに該当する。入力は、ステップ2の物体識別情報や動きのパターンであり、出力はユーザのスマートデバイスやヘッドセットを通じて提供される音声メッセージや触覚フィードバックである。
【0455】
ステップ4:ユーザが提供された情報をもとに行動を調整する。ユーザは、受け取った音声メッセージや触覚フィードバックを基に、店内での移動経路を調整したり、特定の商品を探したりする。このステップの入力は、ステップ3からの情報であり、出力はユーザの行動変更、例えば特定の方向への移動や商品の手に取りである。
【0456】
この処理の流れにより、視覚障害者は実店舗内で安全にかつ効率的に買い物を行うことが可能となる。
【0457】
(実施例2)
【0458】
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0459】
現在、視覚障害者が街を歩く際に直面する最大の課題は、障害物の存在や交通の状態、周囲の人々の動きなど、安全な移動に必要な情報を直接視覚的に得られないことである。このため、彼らは移動の際に多大な不安と危険にさらされる。さらに、視覚障害者が社会参加を行う際に、周囲の人々とのコミュニケーションや活動の同期が困難である点も大きな問題である。
【0460】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0461】
この発明では、サーバは、外部センサーからのデータをリアルタイムで収集する手段と、生成AIモデルを活用して収集したデータから周囲の環境や人物の状況を解析する手段と、解析結果に基づいて視覚障害者に適切な指示や情報を音声メッセージ及び触覚フィードバックの形で提供する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確に理解し、安全に移動すること、また社会参加の際のコミュニケーションや活動の同期を容易に行うことが可能となる。
【0462】
「リアルタイムで外部センサーからの環境データを収集する手段」とは、スマートデバイスや専用デバイスに搭載されたカメラ、マイク、GPSなどのセンサーを通じて、現在の周囲の環境に関するデータを即時に取得し、解析のためにサーバに送信するプロセスである。
【0463】
「生成AIモデルを活用して収集した環境データから周囲の物体や人物の位置、動向を解析する手段」とは、機械学習技術を用いて訓練された人工知能モデルが、収集されたデータを基に物体の位置や人物の動きなどの情報を抽出し、解釈する方法である。
【0464】
「解析結果に基づいて視覚障害者に対して指示や情報を音声メッセージ及び触覚フィードバックの形で提供する手段」とは、AIによる解析結果をもとに、視覚障害者が理解しやすい形式である音声や振動などを用いて、必要な情報や適切な行動指示を直接ユーザーに伝達する方法である。
【0465】
「スマートデバイスや専用デバイスを介してAIにアクセスし、リアルタイムで情報を伝達する手段」とは、スマートフォンやタブレット、専用のウェアラブルデバイスなど、インターネットに接続されたデバイスを通じて、サーバ上のAIと通信し、収集されたデータの送信や解析結果の受信を行うプロセスである。
【0466】
この発明を実施するための形態においては、視覚障害者が周囲の環境を理解し、安全に移動できるようにするためのシステムが提供される。このシステムは、主に外部センサーからのデータ収集、生成AIモデルによるデータ解析、及び音声メッセージや触覚フィードバックを通じた情報提供の三つの主要な構成要素から成る。
【0467】
サーバは、クラウドベースの計算リソースを使用して、生成AIモデルをホストする。このAIモデルは、TensorFlowやPyTorchといった機械学習フレームワーク上で実行され、外部センサーから収集されたデータを解析するために用いられる。具体的には、スマートデバイスや専用デバイスに組み込まれたカメラから送信される画像データや、マイクから送信される音声データを処理する。
【0468】
端末は、視覚障害者が携帯するスマートデバイスや専用デバイスであり、カメラ、マイク、GPSなどの外部センサーを通じて環境データを収集し、これをサーバに送信する。さらに、サーバからの指示に基づいて、音声メッセージや触覚フィードバックを視覚障害者に提供する。たとえば、サーバから「前方3メートルに障害物あり。左に進むように」という指示が端末に送られると、端末はこのメッセージを音声で出力し、視覚障害者に障害物を避けるための指示を提供する。
【0469】
ユーザーは、提供された音声メッセージや触覚フィードバックを基に、周囲の状況を理解し、障害物を避けるなどして安全に移動する。また、人の動きや存在を示す触覚フィードバックによって、他の歩行者との衝突を避けることができる。このように、本発明は、視覚障害者がより自立して安全に移動するための具体的な方法を提供する。
【0470】
特定処理の流れについて図13を用いて説明する。
【0471】
ステップ1:外部センサーからのデータ収集
【0472】
端末は、視覚障害者の持つスマートデバイスや専用デバイスに内蔵されたカメラ、マイク、GPSなどの外部センサーを通じて、周囲の環境データを収集する。このステップの入力は、周囲の画像、音声、位置情報であり、出力はこれらのデータのデジタル化された形式である。端末はこれらのデータをサーバに送信するために、データを一時的に保存し、ネットワーク経由で送信可能な形式に変換する。
【0473】
ステップ2:データの解析と指示の生成
【0474】
サーバは、端末から送信されたデータを受け取り、生成AIモデルを使用してこれらのデータから周囲の環境、障害物の位置、人の動きなどを解析する。このステップの入力は、画像データ、音声データ、位置情報であり、出力は障害物の位置や人の動向などの解析結果である。生成AIモデルは、この解析結果に基づいて、視覚障害者に提供すべき具体的な指示や情報を生成する。
【0475】
ステップ3:情報の提供
【0476】
端末は、サーバから受け取った指示や情報を、音声メッセージや触覚フィードバックとして視覚障害者に提供する。このステップの入力は、サーバから送信された指示や情報であり、出力は視覚障害者が直接受け取る音声メッセージや触覚フィードバックである。端末は、テキストを音声に変換する音声合成技術を使用して指示を音声メッセージとして出力し、触覚フィードバック装置を通じて必要な情報を触感として提供する。
【0477】
これらのステップを通じて、視覚障害者は周囲の環境をより良く理解し、障害物を避けるための具体的な指示を受けることができる。また、周囲の人々の動きや位置に関する情報を得ることにより、安全に移動することが可能となる。このプロセスはリアルタイムで行われ、視覚障害者が社会参加を行う際のサポートを大きく向上させる。
【0478】
(応用例2)
【0479】
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0480】
現代社会において、個人の安全は重要な懸念事項である。特に、独りで外出する際や夜間に外出する際に、周囲の環境や人物に対する認識とその安全への影響を正確に理解することは、個人の安全を確保する上で不可欠である。しかし、現在の技術では、特定の環境下での個人の安全を実時間で支援し、不審な人物の接近や緊急事態の発生を即座に警告する効果的な手段が限られている。このような背景の下、個人が自身の安全を能動的に管理し、危険から身を守るための支援技術の開発が求められている。
【0481】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0482】
この発明では、サーバは、リアルタイムでの環境情報取得手段と、周囲の物体や人物を認識する手段と、ユーザーに対して声や音声メッセージ、触覚フィードバックを介して情報を伝達する手段と、を含む。これにより、ユーザーは周囲の状況をリアルタイムで把握し、安全に対する意識を高めることが可能となる。また、このシステムを用いることで、不審な人物の接近や緊急事態の発生時に即座に警告を受けることができ、適切な対応を取ることが可能となる。このように、この発明は個人の安全を確保する上で重要な支援を提供する。
【0483】
「生成AI」は、機械学習の技術を基にした人工知能の一種で、入力データに基づき、環境の情報や物体、人物の状態を認識し、ユーザーに対して有益な情報を生成して提供するシステムである。
【0484】
「リアルタイムでの環境情報取得手段」は、センサーやカメラ、マイクロフォンなどのデバイスを利用して、その瞬間の周囲の状況や音声を即座に捉え、分析するための技術や方法である。
【0485】
「周囲の物体や人物を認識する手段」は、画像認識技術や音声認識技術を用いて、周囲に存在する物体や人物の特徴を特定し、その情報を理解するための技術や方法である。
【0486】
「声や音声メッセージ」は、システムが生成した情報をユーザーに伝達するために用いる、聴覚によって受け取れる言語情報の形式である。
【0487】
「触覚フィードバック」は、デバイスからユーザーへ物理的な振動や圧力といった感覚を通じて情報を伝える手段である。
【0488】
この発明を実施するための形態では、端末としてスマートフォンやスマート眼鏡、ヘッドマウントディスプレイを使用し、これらの端末に組み込まれたカメラやマイクロフォンを通じて周囲の環境情報をリアルタイムで取得する。取得した情報は、生成AIモデルが搭載されたサーバに送信される。サーバは、深層学習フレームワークを用いて、画像認識技術や音声認識技術により周囲の物体や人物を認識し、その状況に応じた適切な反応を生成する。生成された情報は、声や音声メッセージ、触覚フィードバックの形でユーザーに伝達される。
【0489】
使用するハードウェアとしては、Qualcomm Snapdragonプロセッサを搭載したスマートフォンや、Google Glassのようなウェアラブルデバイスが挙げられる。ソフトウェアには、TensorFlowやPyTorchなどの機械学習フレームワークが用いられる。
【0490】
具体例として、ユーザーが夜間に歩いている際に、不審な人物が近づいてくる場面をカメラが捉えた場合、サーバは「注意: 後ろから人が近づいています。速やかに安全な場所へ移動してください」という音声メッセージを生成し、端末を通じてユーザーに伝達する。また、緊急事態が発生した場合には、「緊急事態が発生しました。すぐに安全な場所へ避難してください」という触覚フィードバックを提供することも可能である。このようにして、この発明はユーザーが周囲の状況をリアルタイムで把握し、安全を確保するための具体的な手段を提供する。
【0491】
特定処理の流れについて図14を用いて説明する。
【0492】
ステップ1:端末が周囲の環境情報を収集する。このステップでは、スマートフォンやスマート眼鏡、ヘッドマウントディスプレイに組み込まれたカメラとマイクロフォンを使用して、周囲の映像と音声をリアルタイムで収集する。この時、端末は映像と音声データを入力として取得し、それをサーバに送信する準備をする。
【0493】
ステップ2:収集した環境情報をサーバに送信する。端末は、ステップ1で収集した映像と音声データをサーバに送信する。このプロセスでは、インターネットを介してデータがサーバに転送される。
【0494】
ステップ3:サーバが環境情報を解析する。サーバに送信された映像と音声データは、生成AIモデルによって解析される。このAIモデルは、深層学習フレームワークを用いて、映像から周囲の物体や人物を認識し、音声データからは環境の音や会話を解析する。このステップの出力は、解析結果であり、具体的な状況認識や潜在的な危険の識別が含まれる。
【0495】
ステップ4:解析結果に基づいて適切な反応を生成する。サーバは、ステップ3で得られた解析結果を基に、ユーザーに伝達すべき情報を生成する。この情報は、安全に関する警告や指示など、ユーザーがその場で取るべき適切な行動に関するものである。生成される情報の形式は、音声メッセージや触覚フィードバックなどがある。
【0496】
ステップ5:生成された情報をユーザーに伝達する。サーバは、ステップ4で生成した情報を端末に送信し、端末はその情報をユーザーに伝達する。音声メッセージの場合はスピーカーを通じて、触覚フィードバックの場合はデバイスの振動機能を利用して、ユーザーに情報が伝えられる。このステップで、ユーザーは自身の安全を確保するための具体的な情報を受け取る。
【0497】
(実施例3)
【0498】
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0499】
視覚障害者は、会議やイベントなどの社会活動に参加する際、周囲の反応や雰囲気を視覚的に捉えることができない。また、読みたい書籍や資料の文字情報を独立して読むことが難しい。これらの課題は、視覚障害者が社会活動において自立して参加することを制限する要因となっている。
【0500】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0501】
この発明では、サーバは、会議やイベントでの反応や雰囲気を分析する手段と、文書や資料の文字情報を音声で読み上げる手段と、音声入力によるプロンプト文を解釈し、適切な応答を生成する手段と、を含む。これにより、視覚障害者が社会活動における周囲の状況を理解し、必要な情報を独立して取得することが可能となる。
【0502】
「生成AI」は、学習したデータを基に新たな情報を生成することが可能な人工知能の一種である。
【0503】
「会議やイベントでの反応や雰囲気を分析する手段」は、特定の集まりや行事における参加者の感情や空気を理解し、それを言語化または他の形式で表現する機能を指す。
【0504】
「文書や資料の文字情報を音声で読み上げる手段」は、印刷または電子的に提供されたテキスト情報を、音声出力に変換するプロセスや装置を指す。
【0505】
「スマートデバイスやヘッドセットを介してAIにアクセスする手段」は、インテリジェントな電子機器や音声出力装置を使用して、人工知能システムとの通信や操作を行う方法を指す。
【0506】
「リアルタイムで環境の情報を取得する手段」は、現在の時点で周囲の状況やデータを即座に収集し、分析する機能を指す。
【0507】
「周囲の物体や人物を認識する手段」は、カメラやセンサーなどを用いて、近くの物や人を特定し、識別する技術や方法を指す。
【0508】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」は、音の波形や振動などを利用して、情報をユーザーに直接的に伝達する方法を指す。
【0509】
「音声入力によるプロンプト文を解釈し、適切な応答を生成する機能」は、ユーザーからの口頭での指示や問いかけを理解し、それに対する情報や反応を提供する人工知能の能力を指す。
【0510】
この発明を実施するための形態は、主にサーバ、端末、ユーザの三者間で構成される。サーバは、生成AIモデルを搭載しており、このモデルは視覚障害者が社会活動に参加する際に直面する課題を解決するために設計されている。端末は、主にスマートデバイスやヘッドセットといった形態をとり、ユーザからの入力をサーバへと伝達する役割を果たす。ユーザは、視覚障害者であり、このシステムを通じて社会活動における情報の取得や理解を深めることができる。
【0511】
サーバ上で動作する生成AIモデルは、例えばOpenAIのGPTやGoogleのBERTなどの先進的な技術を用いて実装される。このモデルは、会議やイベントの映像や音声データを分析し、その場の雰囲気や反応をテキスト情報として抽出する。また、文書や資料の画像から文字情報を読み取り、これを音声データへ変換する機能も有する。
【0512】
端末は、ユーザの声によるプロンプト文をマイクを通じて受け取り、これをテキストデータに変換してサーバに送信する。また、端末のカメラを使用して文書や資料の画像を撮影し、これをサーバに送信する。サーバは受信したデータを生成AIモデルによって処理し、適切な応答を生成する。
【0513】
具体的な使用例として、ユーザが「今の会議の雰囲気を教えて」というプロンプト文を音声で入力した場合、端末はこの入力をテキストに変換し、サーバに送信する。サーバ上の生成AIモデルは、会議の雰囲気に関する情報を分析・抽出し、その結果をテキストで端末に送信する。端末はこのテキストを音声に変換し、ユーザに読み上げる。また、ユーザが「このページを読んで」とリクエストした場合、端末は文書の画像を撮影し、サーバに送信する。サーバは画像からテキストを抽出し、これを音声に変換して端末に送信する。端末はこの音声をユーザに読み上げる。
【0514】
この形態により、視覚障害者は社会活動における情報の取得や理解を助けるための具体的な支援を受けることが可能となる。
【0515】
特定処理の流れについて図15を用いて説明する。
【0516】
ステップ1:ユーザが端末に対して音声入力を行う。この音声入力には、会議やイベントの雰囲気を問うプロンプト文や、読み上げを希望する文書に関するリクエストが含まれる。端末はこの音声を受け取り、テキストデータに変換する。
【0517】
ステップ2:変換されたテキストデータは、インターネット経由でサーバに送信される。サーバはこのデータを受信し、生成AIモデルによる処理のために準備する。
【0518】
ステップ3:会議やイベントの雰囲気に関するリクエストの場合、サーバは生成AIモデルを使用して、提供された音声や映像データから雰囲気や反応を分析する。文書読み上げのリクエストの場合、サーバは端末から送信された文書の画像データを受信し、テキスト抽出を行う。
【0519】
ステップ4:生成AIモデルは、分析または抽出された情報を基に、適切なテキストレスポンスを生成する。会議の雰囲気に関するリクエストでは、その場の感情やキーポイントを要約したレスポンスを、文書読み上げのリクエストでは、抽出されたテキスト情報を生成する。
【0520】
ステップ5:生成されたテキストレスポンスは、サーバから端末に送信される。端末はこのテキストを受け取り、内蔵されたテキストから音声への変換機能を用いて、音声データに変換する。
【0521】
ステップ6:変換された音声データはユーザに対して出力される。この出力により、ユーザは会議やイベントの雰囲気を理解したり、文書の内容を聞くことが可能となる。
【0522】
この処理フローを通じて、視覚障害者は社会活動における情報の取得と理解を深めることができ、より自立した参加が可能となる。
【0523】
(応用例3)
【0524】
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0525】
視覚障害者が販売場所での買い物を行う際、商品の位置や情報、店内の雰囲気や人々の反応を把握することが困難であるという課題がある。このため、視覚障害者は独立して買い物をすることに制約を感じる場合があり、その社会参加の機会が限定されてしまう。また、販売場所での安全な移動や商品選択に必要な情報を効率的に提供するシステムが不足していることも問題である。
【0526】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0527】
この発明では、サーバは、生成AIを活用して視覚障害者に対して販売場所内の商品情報および人々の反応の分析を基にした音声案内を提供する手段と、リアルタイムで環境の情報を取得し、それを解析して音声による案内情報を生成する手段と、販売場所内の商品の位置や特売情報を含む環境データを活用する手段と、を含む。これにより、視覚障害者が販売場所での商品選択や移動を安全かつ効率的に行い、社会参加の機会を拡大することが可能となる。
【0528】
「生成AI」は、機械学習や深層学習の技術を基にしたアルゴリズムであり、特定の入力から人間が理解しやすい形式での出力を生成するシステムである。
【0529】
「視覚障害者」は、視力の障害により、一般的な視覚情報を認識することが困難な人を指す。
【0530】
「販売場所内の商品情報」は、商品の種類、価格、配置場所、特売情報など、商品購入に必要な情報全般を含む。
【0531】
「人々の反応の分析を基にした音声案内」は、周囲の人々の表情、言葉、動作などの反応を解析し、その情報を基に作成された音声による指示や情報提供を指す。
【0532】
「リアルタイムで環境の情報を取得する手段」は、現在の時間に即して、周囲の環境データを継続的に収集する方法や技術を指す。
【0533】
「音声による案内情報を生成する手段」は、収集した情報やデータを解析し、それを基に視覚障害者に有用な指示や情報を音声形式で提供するプロセスを指す。
【0534】
「販売場所内の商品の位置や特売情報を含む環境データ」は、商品がどこに配置されているか、どの商品が特売中であるかを示す情報を含む、販売場所の状態や条件に関する全般的なデータである。
【0535】
「サーバ」は、データの収集、処理、保存、およびクライアントへの情報提供を行うコンピュータシステムまたはソフトウェアのことである。
【0536】
この発明を実施するための形態は、視覚障害者が販売場所での買い物をサポートするシステムに関するものである。このシステムは、生成AIモデルを活用し、販売場所内の商品情報および人々の反応の分析を基にした音声案内を提供する。サーバは、リアルタイムで環境の情報を取得し、それを解析して音声による案内情報を生成する機能を持つ。また、サーバは、販売場所内の商品の位置や特売情報を含む環境データを活用する機能も有する。このシステムの実装には、スマートデバイスやヘッドセットなどの端末が使用され、これらの端末を通じて視覚障害者は生成AIにアクセスする。端末は、声や音声メッセージ、触覚フィードバックなどの形で情報をユーザに伝える機能を有する。
【0537】
使用するハードウェアとしては、スマートデバイス(例:スマートフォン)、店内設置のカメラやセンサーがあり、ソフトウェアとしては音声認識・合成システム、位置情報サービス、生成AIモデル(例:OpenAIのGPT-4)が使用される。このシステムにより、視覚障害者は販売場所での商品選択や移動を安全かつ効率的に行い、社会参加の機会を拡大することができる。
【0538】
具体例としては、ユーザがスマートデバイスを使用して「近くの特売のお菓子は?」と問いかけると、サーバは店内の環境データを解析し、生成AIモデルにより「あなたの近くには、特売中のチョコレートがあります。右手方向、3メートル先の棚の上です」という案内情報を生成し、端末を通じて音声メッセージでユーザに伝える。このプロセスは、ユーザの位置情報と店内の商品情報を組み合わせて、最適な案内を提供することを可能にする。
【0539】
特定処理の流れについて図16を用いて説明する。
【0540】
ステップ1:ユーザが端末に対して質問を入力する。
【0541】
ユーザはスマートデバイスを使用して特定の商品情報や店内の案内に関する質問を音声で入力する。この音声入力は、端末に搭載された音声認識システムによってテキストデータに変換される。
【0542】
ステップ2:端末が質問のテキストデータをサーバに送信する。
【0543】
変換されたテキストデータは、インターネットを介してサーバに送信される。サーバはこのテキストデータを受け取り、処理のための入力として使用する。
【0544】
ステップ3:サーバがテキストデータを解析し、適切な応答を生成するためのプロンプトを生成AIモデルに送信する。
【0545】
サーバは受け取ったテキストデータを解析し、ユーザの質問に基づいて具体的な応答を生成するためのプロンプトを形成する。このプロンプトは生成AIモデルに送信され、応答の生成に使用される。
【0546】
ステップ4:生成AIモデルがプロンプトに基づいて応答を生成する。
【0547】
生成AIモデルはサーバから受け取ったプロンプトを処理し、ユーザの質問に適切な応答を生成する。この応答には、店内の商品位置や特売情報、店内環境の説明などが含まれる場合がある。
【0548】
ステップ5:サーバが生成した応答を音声データに変換する。
【0549】
サーバは生成AIモデルから受け取った応答テキストを音声合成システムを用いて音声データに変換する。この音声データはユーザに情報を伝達するために使用される。
【0550】
ステップ6:サーバが音声データを端末に送信する。
【0551】
音声データは再びインターネットを介してユーザの端末に送信される。端末はこの音声データを受け取り、ユーザに対して音声出力する。
【0552】
ステップ7:ユーザが音声出力を聞いて情報を得る。
【0553】
ユーザは端末からの音声出力を通じて、質問に対する応答としての商品情報や店内の案内情報を聞く。これにより、ユーザは必要な情報を得て、販売場所での買い物を効率的に行うことができる。
【0554】
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
【0555】
「形態例1」
【0556】
本発明の一実施形態では、生成AIはユーザの感情を認識する感情エンジンを有している。感情エンジンは、ユーザの声調、表情、行動などから感情を推測し、その情報を生成AIに提供する。生成AIは、感情エンジンから提供された情報を基に、ユーザに対する情報提供の方法を調整する。例えば、ユーザが怒っていると感じた場合、生成AIは情報の伝達方法を穏やかにするか、または必要な情報のみを伝達する。これにより、ユーザの感情状態に応じた適切な対応が可能となる。
【0557】
「形態例2」
【0558】
また、本発明の別の実施形態では、感情エンジンはユーザの生体情報(例えば、心拍数や皮膚の電気伝導度)も分析する。これにより、ユーザの感情状態をより正確に把握することが可能となる。生成AIは、この生体情報を基にユーザの感情状態を推測し、情報提供の方法を調整する。例えば、ユーザが緊張していると感じた場合、生成AIはリラックスするための音楽を提供するなど、ユーザの感情状態を改善するための対応を行う。
【0559】
「形態例3」
【0560】
さらに、本発明の別の実施形態では、生成AIはユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する。例えば、ユーザが驚いていると感じた場合、生成AIは強い触覚フィードバックを提供してユーザの注意を引く。一方、ユーザがリラックスしていると感じた場合、生成AIは穏やかな触覚フィードバックを提供する。これにより、ユーザの感情状態に適した触覚フィードバックを提供することが可能となる。
【0561】
以下に、各形態例の処理の流れについて説明する。
【0562】
「形態例1」
【0563】
ステップ1:ユーザの声調、表情、行動などから感情を推測する感情エンジンが動作を開始する。
【0564】
ステップ2:感情エンジンは推測した感情情報を生成AIに提供する。
【0565】
ステップ3:生成AIは、感情エンジンから提供された情報を基に、ユーザに対する情報提供の方法を調整する。
【0566】
「形態例2」
【0567】
ステップ1:感情エンジンはユーザの生体情報(例えば、心拍数や皮膚の電気伝導度)を分析する。
【0568】
ステップ2:生成AIは、この生体情報を基にユーザの感情状態を推測し、情報提供の方法を調整する。
【0569】
ステップ3:生成AIは、ユーザの感情状態を改善するための対応を行う。例えば、ユーザが緊張していると感じた場合、生成AIはリラックスするための音楽を提供する。
【0570】
「形態例3」
【0571】
ステップ1:生成AIはユーザの感情状態を感情エンジンから取得する。
【0572】
ステップ2:生成AIは、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する。
【0573】
ステップ3:生成AIは、調整した触覚フィードバックをユーザに提供する。
【0574】
(実施例1)
【0575】
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0576】
視覚障害者が日常生活や社会活動を行う際に直面する、周囲の環境を正確に理解しにくいという課題である。従来の支援技術では、環境の情報を一方的に提供するだけであり、ユーザの感情状態を考慮した情報提供が不足している点も問題である。これにより、ユーザが情報を受け入れにくい場合や、緊急を要する状況での適切な対応が難しい状況がある。
【0577】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0578】
この発明では、サーバは、携帯端末やヘッドセットから送信された環境データを解析する手段と、ユーザの感情状態を推測する手段と、解析した環境情報と感情情報を基に情報提供方法を調整する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確にかつ容易に理解することが可能となり、その感情状態に応じた適切な情報提供が実現する。また、この適応的な情報提供により、視覚障害者の安全な移動支援と社会参加の向上が可能となる。
【0579】
「生成AI」とは、機械学習や深層学習の技術を用いて訓練されたアルゴリズムであり、入力されたデータから新たな情報を生成または解析する能力を持つシステムである。
【0580】
「環境データ」とは、ユーザの周囲の物理的な状況や状態に関する情報であり、画像、音声、位置情報など、センサーやカメラを通じて収集されたデータを指す。
【0581】
「携帯端末」とは、スマートフォンやタブレットなど、持ち運びが可能で、無線通信機能を備えた電子デバイスである。
【0582】
「ヘッドセット」とは、耳に装着することで音声通信や音楽の聴取が可能な装置であり、視覚障害者支援システムでは、音声メッセージの伝達や音声入力の受付けに用いられる。
【0583】
「ユーザの感情状態」とは、ユーザの現在の心理的な状況や感情の状態を指し、声のトーン、表情、行動などから推測される。
【0584】
「情報提供方法を調整する」とは、受け取った環境データとユーザの感情状態に基づき、情報を伝える際の方法(例えば、音声メッセージのトーンや触覚フィードバックの強度)を適切に変更することを指す。
【0585】
この発明を実施するための形態は、視覚障害者が装着する携帯端末やヘッドセットと、これらを制御するサーバ上で動作する生成AIモデルを中心に構成される。携帯端末やヘッドセットには、環境を認識するためのカメラやセンサー、そしてユーザの感情状態を推測するためのマイクロフォンが含まれる。これらのハードウェアを通じて収集されたデータは、無線通信技術を用いてサーバに送信される。
【0586】
サーバ上では、TensorFlowやPyTorchといった機械学習フレームワークを使用した生成AIモデルが、送信されたデータの解析を行う。この解析には、画像認識技術を用いた物体や人物の位置、形状、動きの特定や、音声解析技術を用いたユーザの感情状態の推測が含まれる。解析結果に基づき、生成AIモデルは、ユーザに最適な情報提供方法を決定し、その情報を音声メッセージや触覚フィードバックの形で携帯端末やヘッドセットを通じてユーザに伝達する。
【0587】
例えば、ユーザが公園を歩いている際に、携帯端末のカメラが前方のベンチや歩いている人を捉え、このデータがサーバに送信される。サーバ上の生成AIモデルは、この画像からベンチの位置や歩いている人の動きを解析し、ユーザに「右側3メートル先にベンチがあります。前方に人が歩いています」という音声メッセージを提供する。同時に、ユーザの声調から感情を推測し、必要に応じてメッセージのトーンを調整する。
【0588】
このように、この発明は、環境認識と感情推測の両方を統合した情報提供システムを提供する。これにより、視覚障害者は周囲の環境をより詳細にかつ適切に理解することができ、その感情状態に応じたカスタマイズされた情報提供を受けることが可能となる。このシステムは、視覚障害者の日常生活の質の向上と社会参加の促進に寄与することが期待される。
【0589】
特定処理の流れについて図17を用いて説明する。
【0590】
ステップ1:環境データの収集
【0591】
端末は、カメラやセンサーを用いて周囲の環境データを収集する。このデータには、画像、音声、位置情報が含まれる。入力として環境からの生データがあり、出力としては、この生データをデジタル情報に変換した形式が得られる。端末はこの変換プロセスを通じて、可視光画像や音声データ、GPSからの位置情報をサーバに送信する。
【0592】
ステップ2:データ解析と感情推測
【0593】
サーバは、受け取った環境データを生成AIモデルと感情エンジンを用いて解析する。生成AIモデルは画像認識を行い、人物や物体の位置、形状、動きを特定する。感情エンジンは音声データからユーザの感情状態を推測する。入力としては端末から送信された環境データがあり、出力としては物体の識別情報とユーザの感情状態が得られる。サーバはこのプロセスを通じて、周囲の環境とユーザの感情の両方に関する詳細な情報を生成する。
【0594】
ステップ3:情報提供方法の決定
【0595】
サーバ上の生成AIモデルは、解析した環境情報と感情情報を組み合わせて、ユーザに対する情報提供方法を決定する。このプロセスでは、情報の伝達方法をユーザの感情状態に適応させることが可能である。入力としては環境情報とユーザの感情状態があり、出力としては、適応された情報提供方法の指示が得られる。サーバはこの指示に基づいて端末に情報伝達方法を送信する。
【0596】
ステップ4:情報の伝達
【0597】
端末はサーバから受け取った指示に従い、音声メッセージや触覚フィードバックを通じてユーザに情報を提供する。このステップでは、入力としてサーバからの指示があり、出力としてはユーザが理解できる形での情報伝達が行われる。端末はこのプロセスを通じて、例えば「前方に横断歩道があります」という音声メッセージや、近くに人がいることを示す触覚フィードバックをユーザに提供する。
【0598】
(応用例1)
【0599】
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0600】
現代社会において、視覚障害者は移動や日常生活において多くの困難に直面しています。特に外出時には、周囲の環境を正確に把握することが難しく、安全な移動や社会参加に際して障害となっているのが現状です。また、情報の伝達方法が限定されているため、視覚障害者が感じる不安やストレスを軽減する手段が不足しています。このような状況下で、視覚障害者がより安全に、かつ自信を持って社会に参加するための支援方法の開発が求められています。
【0601】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0602】
この発明では、サーバは、生成AIを利用して環境情報を解析し、その解析結果に基づきユーザーに対して視覚情報の代わりとなる音声メッセージや触覚フィードバックを提供する手段と、スマートデバイスやヘッドセットを介してAIにアクセスし、リアルタイムで環境データを取得する手段と、カメラやセンサーを用いて周囲の物体や人物、その動きや形状を認識する手段と、ユーザーの感情状態を推測し、その情報を元に情報提供の方法を調整する感情エンジンを有する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確に理解し、安全な移動や社会参加を実現することが可能となる。さらに、ユーザーの感情状態に応じた情報伝達方法を採用することで、ユーザーが感じる不安やストレスを軽減し、より快適な社会参加をサポートすることができます。
【0603】
「生成AI」とは、人工知能技術を基にして環境データを解析し、その解析結果を元にユーザーに対して情報を提供するシステムである。
【0604】
「音声メッセージ」とは、言葉による情報伝達手段の一つで、音声によって情報をユーザーに伝えるメッセージである。
【0605】
「触覚フィードバック」とは、触感を通じて情報を伝達する手段であり、デバイスからユーザーへの物理的な刺激によって情報を提供する方法である。
【0606】
「スマートデバイス」とは、インターネットに接続できる機能を持ち、複数のスマート機能を統合したポータブル電子デバイスである。
【0607】
「ヘッドセット」とは、頭部に装着することで音声通信や音声出力を可能にする装置であり、この文脈では音声メッセージや触覚フィードバックを受け取るために用いられる。
【0608】
「カメラやセンサー」とは、周囲の環境や物体を画像やデータとして捉えるためのデバイスであり、この情報を生成AIが解析するために使用される。
【0609】
「感情エンジン」とは、ユーザーの声調、表情、行動などから感情状態を推測し、その情報を基に情報提供の方法を調整する技術やシステムである。
【0610】
この発明を実施するための形態は、視覚障害者が外出時や日常生活において周囲の環境をより安全かつ効果的に理解するためのシステムである。このシステムは、生成AI、スマートデバイスやヘッドセット、カメラやセンサー、そして感情エンジンを含む。
【0611】
サーバには生成AIが搭載されており、このAIはカメラやセンサーから送信される環境データを解析する。解析されたデータは、物体の位置、形状、動きといった情報を含み、この情報は音声メッセージや触覚フィードバックを通じてユーザーに伝えられる。スマートデバイスやヘッドセットは、ユーザーがこの情報を受け取るためのインターフェイスとして機能し、リアルタイムで環境データを生成AIに送信する。
【0612】
感情エンジンは、ユーザーの声調、表情、行動から感情状態を推測し、その情報を生成AIに提供する。生成AIは、この感情情報を基に情報提供の方法を調整し、例えば、ユーザーが不安や恐怖を感じている場合は、より穏やかな声調で必要な情報を提供する。
【0613】
このシステムを実現するためには、スマートデバイスやヘッドセットにカメラやセンサー、そして感情エンジンを組み込む必要がある。また、サーバ側では、生成AIがこれらのデータを処理し、適切なフィードバックを生成するためのアルゴリズムが必要である。
【0614】
具体例として、ユーザーが交差点に近づいている場合、カメラとセンサーはその位置と周囲の車両の動きを捉え、生成AIはこの情報を基に「右から車が近づいています。安全な時を見計らって渡ってください」という音声メッセージを生成し、ヘッドセットを通じてユーザーに伝える。また、ユーザーが緊張していることを感情エンジンが感知した場合、生成AIは情報の伝達方法をより穏やかなものに調整する。
【0615】
この形態により、視覚障害者は周囲の環境をより安全に、かつ効果的に理解し、日常生活や社会参加においてより高い自立性を実現することができる。
【0616】
特定処理の流れについて図18を用いて説明する。
【0617】
ステップ1:環境データの収集
【0618】
端末に搭載されたカメラやセンサーは、ユーザーの周囲の環境データを収集する。このデータには、物体の位置、形状、動きといった情報が含まれる。この収集されたデータは、リアルタイムでサーバに送信される。
【0619】
ステップ2:感情状態の推測
【0620】
端末に搭載された感情エンジンは、ユーザーの声調、表情、行動から感情状態を推測する。この推測された感情状態は、情報提供の方法を調整するためにサーバに送信される。
【0621】
ステップ3:データの解析と情報の生成
【0622】
サーバに搭載された生成AIは、ステップ1とステップ2で収集・送信された環境データと感情状態のデータを解析する。この解析に基づいて、ユーザーにとって有用な情報が生成される。例えば、交差点の安全な渡り方や周囲の物体に関する情報などが含まれる。
【0623】
ステップ4:情報の伝達
【0624】
生成された情報は、サーバから端末に送信され、端末はこの情報を音声メッセージや触覚フィードバックの形でユーザーに伝える。この際、ユーザーの感情状態に基づいて、情報伝達の方法が調整される。例えば、ユーザーが不安を感じている場合は、より穏やかな声調で情報が伝えられる。
【0625】
ステップ5:フィードバックの受取と応答
【0626】
ユーザーは、提供された情報を基に行動を取る。同時に、ユーザーの反応や追加の感情状態は、端末を通じて再度サーバにフィードバックされる。このフィードバックは、システムの精度を向上させるために利用される。
【0627】
このプロセスを通じて、ユーザーは周囲の環境についての理解を深めることができ、安全かつ効果的に日常生活や社会参加が可能となる。また、システムはユーザーの感情状態に敏感に対応し、よりパーソナライズされた情報提供が実現される。
【0628】
(実施例2)
【0629】
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0630】
視覚障害者が直面する主な課題の一つは、外出時に周囲の環境を安全に、かつ効果的に認識することが困難であることだ。これには、障害物の存在、人々の動き、交通状況の変化など、様々な要因が関与する。さらに、情報の提供方法がユーザの感情状態や個別のニーズに適応していない場合、不安やストレスを引き起こす可能性がある。従来の支援技術では、これらの課題に対して十分な解決策を提供できていない。
【0631】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0632】
この発明では、サーバは、生成AIを活用して視界の代替となる情報を提供する手段と、リアルタイムで環境の情報を取得し、周囲の物体や人物を認識する手段と、ユーザの生体情報を解析し、その感情状態を推測する手段と、を含む。これにより、視覚障害者は周囲の環境を安全に認識し、その移動をサポートする音声メッセージや触覚フィードバックを受け取ることが可能となる。また、ユーザの感情状態に応じて情報提供の方法が調整されるため、ユーザのストレスが軽減され、より快適に外出することが可能となる。
【0633】
「生成AI」は、人工知能の一種で、入力されたデータから新しい情報やデータを生成する技術である。
【0634】
「視界の代替となる情報」は、視覚に頼ることができない人々が、周囲の環境や状況を理解するために使用される、視覚以外の感覚(聴覚、触覚など)に基づく情報である。
【0635】
「スマートデバイス」は、インターネットや他のデバイスと接続することができ、複数の機能を持つ電子機器である。
【0636】
「ヘッドセット」は、一般に頭部に装着し、音声の入力(マイク)と出力(ヘッドホン)の両方を提供する装置である。
【0637】
「リアルタイムで環境の情報を取得する手段」は、ユーザの周囲の環境から情報を即時に収集し、分析する技術やプロセスである。
【0638】
「周囲の物体や人物を認識する手段」は、カメラ、センサー、音声認識技術などを用いて、物体や人物の存在、位置、動作を識別し理解する技術である。
【0639】
「声や音声メッセージ、触覚フィードバック」は、音声や振動などの非視覚的な方法を通じて、ユーザに情報を伝達する手段である。
【0640】
「ユーザの生体情報」は、心拍数、皮膚の電気伝導度など、ユーザの身体的状態を示すデータである。
【0641】
「感情状態を推測する手段」は、ユーザの生体情報や行動パターンから、その時点での感情や心理的状態を分析し理解する技術である。
【0642】
「情報提供の方法を調整する手段」は、ユーザの状態やニーズに応じて、情報の伝達方法(例えば、メッセージの内容や提示の仕方)を最適化する技術やプロセスである。
【0643】
この発明を実施するための形態は、視覚障害者が外出時に周囲の環境を理解し、安全に移動することをサポートするためのシステムである。このシステムは、生成AIモデル、スマートデバイス、センサー、ヘッドセット、および生体情報測定装置を活用して構成される。
【0644】
サーバ上に配置された生成AIモデルは、スマートデバイスやセンサーから送信されるデータを基にして、周囲の物体や人物の位置、動き、またユーザの生体情報を解析する。この解析には、高度なデータ加工とデータ演算が含まれる。使用するハードウェアには、高解像度カメラ、マイク、心拍数センサー、皮膚電気伝導度センサーなどがあり、ソフトウェアには画像認識アルゴリズム、音声認識アルゴリズム、および感情状態分析アルゴリズムが含まれる。
【0645】
端末は、スマートデバイス(スマートフォンやタブレット)を指し、内蔵されたカメラやマイクを使用して周囲の情報を収集し、サーバに送信する。また、端末はサーバからの応答を受け取り、音声メッセージや触覚フィードバックとしてユーザに伝達する。ヘッドセットは、音声メッセージをユーザに直接伝えるために使用される。
【0646】
具体例として、ユーザが街を歩いている状況を想定する。端末のカメラは前方の障害物を捉え、「前方3メートルに椅子がある」というプロンプト文に基づいて生成AIモデルが音声メッセージを生成し、ヘッドセットを通じてユーザに伝える。同時に、端末はマイクを使用して周囲の音を捉え、人々の動きを解析し、手首に装着された触覚デバイスを通じて触覚フィードバックを提供する。ユーザの生体情報が示す感情状態に基づき、「ユーザの心拍数が高いことから緊張している」と判断した場合、リラックスするための音楽を提供するプロンプト文が生成AIモデルによって処理される。
【0647】
この形態により、視覚障害者は周囲の環境に関する豊富な情報を得ることができ、感情状態に配慮した情報提供によって外出時の安心感が向上する。
【0648】
特定処理の流れについて図19を用いて説明する。
【0649】
ステップ1:環境データの収集
【0650】
端末は、内蔵されたカメラとマイク、生体情報センサーを使用して、ユーザの周囲の環境データとユーザの生体情報を収集する。このステップの入力は、周囲の光景と音、ユーザの心拍数や皮膚の電気伝導度であり、出力は収集した環境データと生体情報のデジタル表現である。端末はこれらのデータをデジタル情報に変換して処理する。
【0651】
ステップ2:データの送信と解析
【0652】
収集されたデータは、無線通信を介してサーバに送信される。サーバ上の生成AIモデルは、送信された環境データと生体情報を解析し、周囲の物体や人物の位置、動き、ユーザの感情状態を識別する。このステップの入力は、環境データと生体情報であり、出力は物体や人物の識別情報とユーザの感情状態である。サーバはデータを解析し、識別情報と感情状態を推測する。
【0653】
ステップ3:情報提供の調整とフィードバックの生成
【0654】
生成AIモデルは、解析結果に基づいて、ユーザに提供する情報の内容と形式を調整する。ユーザが緊張している場合はリラックスするための音楽を選択し、障害物の位置情報は音声メッセージで、周囲の人々の動きは触覚フィードバックで伝える。このステップの入力は、物体や人物の識別情報とユーザの感情状態であり、出力は音声メッセージや触覚フィードバック、音楽などの情報提供内容である。サーバは解析結果に基づいて適切なフィードバックを生成し、端末に送信する。
【0655】
ステップ4:フィードバックの伝達
【0656】
端末はサーバから送信されたフィードバックを受け取り、音声メッセージはヘッドセットを通じて、触覚フィードバックは触覚デバイスを通じて、音楽は端末のスピーカーまたはヘッドセットからユーザに伝える。このステップの入力は、サーバからのフィードバックであり、出力はユーザが認識可能な形での情報提供である。端末は受け取ったフィードバックを適切な出力装置を通じてユーザに伝達する。
【0657】
これらのステップを通じて、視覚障害者は周囲の環境をより安全かつ効率的に認識し、感情状態に応じたカスタマイズされたサポートを受けることが可能となる。
【0658】
(応用例2)
【0659】
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0660】
現状では、視覚障害者を含むユーザーが自動運転車両を使用する際に、周囲の環境や状況を正確に認識し、安全かつ快適に移動することが困難である。特に、周囲の車両や障害物、信号の状態を理解することが難しく、またユーザーの感情状態に応じた情報提供や環境調整が行われていないため、移動中の不安やストレスが増大することがある。
【0661】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0662】
この発明では、サーバは、環境の動的な要素をリアルタイムで認識し情報を提供する手段と、車載システムやヘッドセットを介してAIにアクセスする手段と、車両の周囲の環境情報を取得するためのセンサーやカメラからの入力データを解析する手段と、周囲の車両、障害物、信号状態を認識する手段と、声や音声メッセージ、触覚フィードバック、生体情報に基づく感情状態の調整を行う手段と、を含む。これにより、ユーザーが周囲の環境や状況を正確に理解し、安全かつ快適に移動することが可能となる。また、ユーザーの感情状態に応じた情報提供や環境調整により、移動中の不安やストレスを軽減し、より快適な移動体験を実現することができる。
【0663】
「生成AI」は、人工知能技術の一種であり、複雑なデータを解析し、それに基づいて新しい情報や推論を生成するシステムである。
【0664】
「環境の動的な要素をリアルタイムで認識し情報を提供する手段」とは、センサーやカメラなどの入力データを解析し、周囲の変化する状況(車両の動き、障害物の存在、信号の変化など)を即時に検出し、その情報をユーザーに伝達する機能を指す。
【0665】
「車載システムやヘッドセットを介してAIにアクセスする手段」とは、自動運転車両内の組み込みシステムや、ユーザーが身につけるヘッドセットなどを通じて、生成AIと連携し、情報のやり取りを行うインターフェースを指す。
【0666】
「センサーやカメラからの入力データを解析する手段」とは、車両周辺の環境データを捉えるために設置されたセンサーやカメラが収集したデータを、リアルタイムで処理・解析し、環境情報を把握する機能を指す。
【0667】
「周囲の車両、障害物、信号状態を認識する手段」とは、自動運転車両がその周囲の物体や他の車両、交通信号などの状況を正確に理解し、これらの情報をベースに安全な運転判断を行うための技術やシステムを指す。
【0668】
「声や音声メッセージ、触覚フィードバック、生体情報に基づく感情状態の調整を行う手段」とは、ユーザーへの情報提供を音声や触覚フィードバックを通じて行い、さらにユーザーの生体情報を分析して感情状態を推定し、それに応じた情報提供や環境調整を実施する機能を指す。
【0669】
この発明を実施するための形態は、自動運転車両において、視覚障害者を含むユーザーが安全かつ快適に移動するための支援システムである。このシステムは、車載センサーやカメラ、生成AIモデル、音声合成エンジン、触覚フィードバックデバイス、生体情報センサーなどを組み合わせて構成される。
【0670】
サーバは、車載センサーやカメラからの入力データを受け取り、これを解析して車両の周囲の環境情報を認識する。この環境情報には、他の車両、障害物、信号の状態などが含まれる。生成AIモデルを用いて、この情報を基にして、ユーザーに対する音声メッセージや触覚フィードバックを生成する。また、ユーザーの生体情報センサーから収集されるデータ(例えば、心拍数や皮膚の電気伝導度)を分析し、ユーザーの感情状態を推測する。この感情状態に応じて、情報提供の方法や環境を調整することで、ユーザーの心理的快適性を向上させる。
【0671】
例えば、サーバが車両の右側から接近してくる他の車両を検出した場合、生成AIモデルを用いて「右側から車両が接近しています。注意してください」という音声メッセージを生成し、音声合成エンジンを通じてユーザーに伝える。同時に、ユーザーが緊張していると感じた場合は、「リラックスできる音楽を提供してください」というプロンプトを生成AIモデルに送り、音楽を流してユーザーをリラックスさせる。
【0672】
この形態では、車両に取り付けられたカメラやセンサー、触覚フィードバックデバイス、心拍数センサーや皮膚電気伝導度センサーなどの生体情報センサー、生成AIモデル、音声合成エンジンなどのハードウェアとソフトウェアが重要な役割を果たす。これらを適切に組み合わせることで、視覚障害者を含む全てのユーザーに対して、周囲の環境をより良く理解し、安全かつ快適に移動するためのサポートを提供することができる。
【0673】
特定処理の流れについて図20を用いて説明する。
【0674】
ステップ1:環境データの収集
【0675】
サーバは、車載センサーやカメラから送信される周囲の環境データを収集する。このデータには、障害物の位置、近くの車両の動き、信号の状態などが含まれる。入力されたこれらのデータを基に、サーバは周囲の状況を把握するためのデータ加工やデータ演算を行う。
【0676】
ステップ2:環境データの解析
【0677】
収集した環境データは、生成AIモデルによって解析される。この解析により、車両の周囲に存在する障害物の位置、近接する車両の動向、信号の状態などが認識される。解析結果は、ユーザーに情報を提供するための基礎として使用される。
【0678】
ステップ3:ユーザーの生体情報の収集と分析
【0679】
サーバは、ユーザーの生体情報センサーから心拍数や皮膚の電気伝導度などのデータを収集する。これらのデータは分析され、ユーザーの感情状態を推測するために使用される。この推測結果は、情報提供方法や環境調整の決定に役立てられる。
【0680】
ステップ4:情報提供方法の決定
【0681】
サーバは、解析された環境データとユーザーの感情状態を考慮して、最適な情報提供方法を決定する。例えば、ユーザーが緊張していると感じた場合、リラックスできる音楽を提供することを決定する。この決定プロセスには、生成AIモデルが使用される。
【0682】
ステップ5:情報の提供
【0683】
決定された情報提供方法に基づき、サーバは音声メッセージや触覚フィードバック、適切な音楽の提供などを行う。これらの情報提供は、ユーザーに対して最適な体験を提供するためにカスタマイズされる。たとえば、「右側から車両が接近しています。注意してください」という音声メッセージがユーザーに伝えられることがある。
【0684】
このプログラムの処理により、自動運転車両を使用するユーザーは、周囲の環境をより良く理解し、安全かつ快適に移動することが可能になる。また、ユーザーの感情状態に応じた情報提供や環境調整によって、移動中の不安やストレスを軽減できる。
【0685】
(実施例3)
【0686】
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0687】
視覚障害者が日常生活や社会活動において直面する情報アクセスの障壁を低減することである。具体的には、会議やイベントにおける周囲の人々の反応や雰囲気の理解、読みたい書籍や資料の内容へのアクセス、及び自身の感情状態に適応した触覚フィードバックの提供が挙げられる。これらの課題は、視覚障害者の社会参加の向上と自立した生活を制限する主要な要因である。
【0688】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0689】
この発明では、サーバは、音声データをテキストデータに変換する手段と、生成AIモデルを用いてテキストデータから環境の雰囲気や人々の反応を分析する手段と、テキストデータを音声情報に変換してユーザに伝える手段と、ユーザの感情状態をモニタリングする手段と、ユーザの感情状態に基づいて触覚フィードバックの強度やパターンを調整する手段と、会議やイベントの音声をリアルタイムで収集する手段と、を含む。これにより、視覚障害者が周囲の環境をより深く理解し、社会活動に積極的に参加すること、読みたい内容を音声情報として容易にアクセスすること、及び感情状態に応じた適切な触覚フィードバックを受け取ることが可能となる。
【0690】
「音声データをテキストデータに変換する手段」とは、収集された音声情報を文字情報に変換するプロセスや装置を指す。この変換には、音声認識技術が用いられる。
【0691】
「生成AIモデルを用いてテキストデータから環境の雰囲気や人々の反応を分析する手段」とは、文字情報を解析し、その情報から周囲の状況や人々の感情、反応などを理解するための技術や方法を指す。この分析には、自然言語処理技術が用いられる。
【0692】
「テキストデータを音声情報に変換してユーザに伝える手段」とは、解析された文字情報を音声として再生し、ユーザに伝達するプロセスや装置を指す。この変換には、テキスト音声変換技術が用いられる。
【0693】
「ユーザの感情状態をモニタリングする手段」とは、ユーザの声のトーン、表情、体の動きなどから感情状態を識別し、分析する技術や方法を指す。このモニタリングには、音声分析技術やセンサー技術が用いられることがある。
【0694】
「ユーザの感情状態に基づいて触覚フィードバックの強度やパターンを調整する手段」とは、ユーザの現在の感情状態に応じて、触覚デバイスを通じて提供されるフィードバックの種類や程度を変更する技術や方法を指す。この調整には、感情分析結果を基にしたフィードバック制御アルゴリズムが用いられる。
【0695】
「会議やイベントの音声をリアルタイムで収集する手段」とは、生の音声情報をその場で直接捉え、デジタルデータとして記録する技術や装置を指す。この収集には、マイクロフォンや音声記録システムが用いられる。
【0696】
この発明を実施するための形態では、サーバと端末(スマートデバイス)、及びユーザ(視覚障害者)が中心となる。サーバは、音声認識技術、自然言語処理技術、テキスト音声変換技術、感情分析技術、及び触覚フィードバック制御技術を備えている。端末は、音声収集機能、感情状態モニタリング機能、及び触覚フィードバック提供機能を備えている。具体的なハードウェアとソフトウェアには、Google Cloud Speech-to-Text(音声認識)、OpenAIのGPT(テキスト分析と生成)、Amazon Polly(テキストから音声への変換)、及びTesseract OCR(文字認識)が含まれる。
【0697】
サーバは、端末から受信した音声データをGoogle Cloud Speech-to-Textを用いてテキストデータに変換する。次に、このテキストデータをOpenAIのGPTを用いて分析し、会議やイベントの雰囲気、人々の反応などの情報を抽出する。分析結果はテキストデータとして、Amazon Pollyを用いて音声情報に変換される。この音声情報は端末を通じてユーザに伝達される。
【0698】
端末は、マイクロフォンを用いて会議やイベントの音声をリアルタイムで収集し、サーバに送信する。また、端末はユーザの声のトーンや体の動きをモニタリングし、感情状態を分析するためのデータをサーバに送信する。サーバはこのデータを分析し、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する指示を端末に送信する。端末はこの指示に基づき、触覚デバイスを通じてユーザに適切なフィードバックを提供する。
【0699】
具体例としては、サーバが「会議の雰囲気を分析し、その概要を音声で提供せよ」というプロンプト文に基づいて処理を行い、端末が「今、話者が冗談を言ったことで、参加者から笑い声が上がっている」という音声情報をユーザに伝達するシナリオがある。また、ユーザが読みたい書籍のページを端末のカメラでスキャンし、「このページのテキストを読み取り、音声で読み上げせよ」というプロンプトに基づいて、テキストを音声情報に変換して提供する場合も含まれる。
【0700】
この形態により、視覚障害者は周囲の環境や会議の内容を理解しやすくなり、読みたい資料を音声でアクセスできるようになる。さらに、自身の感情状態に適応した触覚フィードバックにより、より豊かな情報を得ることが可能となる。
【0701】
特定処理の流れについて図21を用いて説明する。
【0702】
ステップ1:
【0703】
端末は、マイクロフォンを用いて会議やイベントの音声を収集する。この音声データはサーバに送信される。入力は生の音声データであり、出力はデジタル化された音声データである。このステップでは、音声データの収集とデジタル化が行われる。
【0704】
ステップ2:
【0705】
サーバは、受け取った音声データをGoogle Cloud Speech-to-Textを用いてテキストデータに変換する。入力はデジタル化された音声データであり、出力はテキストデータである。このプロセスでは、音声認識技術を用いて、音声情報を文字情報に変換するデータ加工が行われる。
【0706】
ステップ3:
【0707】
サーバは、変換されたテキストデータをOpenAIのGPTを用いて分析し、会議やイベントの雰囲気や人々の反応などの情報を抽出する。入力はテキストデータであり、出力は分析結果のテキストデータ(雰囲気や反応の要約)である。このステップでは、自然言語処理技術を用いて、テキストデータから有用な情報を抽出するデータ演算が行われる。
【0708】
ステップ4:
【0709】
サーバは、分析結果をテキストとしてAmazon Pollyを用いて音声情報に変換し、この音声情報を端末に送信する。入力は分析結果のテキストデータであり、出力は音声情報である。このプロセスでは、テキストから音声への変換が行われ、ユーザに対して理解しやすい形で情報が提供される。
【0710】
ステップ5:
【0711】
端末は、サーバから受信した音声情報をユーザに伝達する。このステップでは、端末のスピーカーを通じて音声情報が再生される。入力は音声情報であり、出力はユーザが聞くことができる音声メッセージである。
【0712】
ステップ6:
【0713】
端末は、ユーザの声のトーンや体の動きをモニタリングし、感情状態を分析するためのデータをサーバに送信する。入力はユーザの声や動きのデータであり、出力は感情状態の分析結果である。このステップでは、感情分析技術を用いて、ユーザの感情状態を識別するデータ演算が行われる。
【0714】
ステップ7:
【0715】
サーバは、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する指示を端末に送信する。入力は感情状態の分析結果であり、出力は触覚フィードバックの指示である。このステップでは、ユーザの感情状態を基にした触覚フィードバックのカスタマイズが行われる。
【0716】
ステップ8:
【0717】
端末は、サーバからの指示に基づき、触覚デバイスを通じてユーザに適切なフィードバックを提供する。このステップでは、ユーザが触覚フィードバックを通じて感情状態に応じた反応を受け取る。入力は触覚フィードバックの指示であり、出力はユーザの感覚に伝わる触覚フィードバックである。
【0718】
(応用例3)
【0719】
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
【0720】
現代社会において、視覚障害者やセキュリティ関連の従事者は、環境の理解や安全な移動、異常行動や危険状況の即時認識といった課題に直面しています。特に、視覚障害者が社会参加を行う際やセキュリティ関連の従事者が緊急状況に迅速に対応する必要がある場合、周囲の環境や人々の感情状態を効果的に把握する手段が限られていることが問題です。また、使用者の感情状態に応じた適切な触覚フィードバックを提供することで、より安全で快適な社会生活を送るためのサポートが不十分であることも課題となっています。
【0721】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0722】
この発明では、サーバは、生成AIを活用して視界の代替となる情報を提供する手段と、リアルタイムで周囲の人々の感情状態を分析し、異常な行動や状況を感知する際に適切な触覚フィードバックを提供する手段と、使用者の感情状態に応じた触覚フィードバックの強度やパターンを調整する手段と、を含む。これにより、視覚障害者が社会活動をより豊かに、自立して行うことが可能となり、セキュリティ関連の従事者が緊急状況においても周囲の環境や人々の感情状態を効果的に把握し、迅速に対応することが可能となる。
【0723】
「生成AI」とは、人工知能の一形態であり、学習データから独立して新たな情報や反応を生成し、特定のタスクを自動で行うシステムである。
【0724】
「視界の代替となる情報を提供する手段」とは、視覚情報に代わる形で、音声や触覚フィードバックを通じて、使用者に必要な情報を伝えるシステムや方法である。
【0725】
「スマートデバイスやヘッドセットを介してAIにアクセスする手段」とは、スマートフォン、タブレット、ヘッドマウントディスプレイなどのデバイスを用いて、AI機能やサービスに接続し利用するための方法やシステムである。
【0726】
「リアルタイムで環境の情報を取得する手段」とは、周囲の状況や変化を即時に捉え、分析・処理することが可能なシステムや技術である。
【0727】
「周囲の物体や人物を認識する手段」とは、カメラやセンサー等を通じて得られる画像や音声データから、物体や人物を特定し、それらの情報を解析するシステムやアルゴリズムである。
【0728】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」とは、音声合成技術や振動パターンを用いて、使用者に情報を伝達する方法である。
【0729】
「リアルタイムで周囲の人々の感情状態を分析し、異常な行動や状況を感知する際に適切な触覚フィードバックを提供する手段」とは、環境内の人々の表情や声のトーンを解析し、それに基づいて異常を警告するための触覚フィードバックを即座に発生させるシステムや方法である。
【0730】
「使用者の感情状態に応じた触覚フィードバックの強度やパターンを調整する手段」とは、使用者の現在の感情や心理状態を評価し、それに適合するように触覚フィードバックの出力を調節するシステムや技術である。
【0731】
この発明を実施するための形態には、視覚障害者やセキュリティ関連の従事者に対して、環境情報や人々の感情状態に基づくリアルタイムの警告と触覚フィードバックを提供するシステムが含まれる。このシステムは、生成AIモデル、スマートデバイス(スマート眼鏡やヘッドマウントディスプレイ)、感情分析ソフトウェア、触覚フィードバックデバイスから構成される。
【0732】
サーバは、生成AIモデルを用いて周囲の環境データから人々の感情状態を分析する。この分析には、OpenCVやTensorFlowなどの機械学習ライブラリが使用される。端末(スマート眼鏡やヘッドマウントディスプレイ)は、カメラやマイクを介して環境データを収集し、サーバに送信する。サーバからの分析結果は、端末を介してユーザに伝えられ、必要に応じて触覚フィードバックデバイスを通じて感覚的な警告が提供される。
【0733】
このシステムを用いることで、ユーザは周囲の環境や人々の感情状態をより深く理解することができ、安全性と快適性を向上させる。特に、視覚障害者は社会活動においてより自立した行動が可能になり、セキュリティ関連の従事者は緊急状況において迅速かつ効果的に対応することが可能になる。
【0734】
具体例としては、「あるセキュリティガードが、パトロール中にスマート眼鏡を着用しています。彼の眼鏡にインストールされたアプリケーションは、周囲の人々の顔をリアルタイムでスキャンし、その表情から感情状態を分析します。怒りや攻撃的な感情が検出された場合、ガードの眼鏡は即座に強い振動を発し、警告する」というシナリオが考えられる。このプロセスは、セキュリティガードや視覚障害者が周囲の状況をよりよく理解し、適切な対応をとるためのものである。
【0735】
特定処理の流れについて図22を用いて説明する。
【0736】
ステップ1:端末は、カメラとマイクを使用して周囲の環境データを収集する。この収集データには、周囲の人々の顔の映像と声の音声が含まれる。入力として周囲の映像と音声を受け取り、出力としてデータファイルを生成する。
【0737】
ステップ2:端末は、収集した環境データをサーバに送信する。このステップでは、収集された映像と音声データがサーバに向けて転送される。入力として端末からのデータファイルを受け取り、サーバへのデータ送信という出力を行う。
【0738】
ステップ3:サーバは、受け取った環境データを使用して、生成AIモデルを通じて周囲の人々の感情状態を分析する。このプロセスには、画像認識と音声認識の技術が用いられ、感情分析結果が生成される。入力として映像と音声データを受け取り、出力として感情分析結果を生成する。
【0739】
ステップ4:サーバは、感情分析結果に基づいて、適切な触覚フィードバックの指示を端末に送信する。この指示には、フィードバックの強度やパターンの情報が含まれる。入力として感情分析結果を受け取り、出力として触覚フィードバックの指示を生成する。
【0740】
ステップ5:端末は、サーバから受け取った触覚フィードバックの指示に基づいて、ユーザに触覚フィードバックを提供する。このフィードバックは、端末またはユーザが着用している触覚フィードバックデバイスを通じて行われる。入力として触覚フィードバックの指示を受け取り、出力としてユーザに対する具体的な触覚フィードバックの実行を行う。
【0741】
これらのステップを通じて、システムは周囲の環境や人々の感情状態を効果的に把握し、ユーザにリアルタイムで適切な警告と触覚フィードバックを提供する。これにより、視覚障害者の安全な移動や社会参加のサポート、セキュリティ関連の従事者の迅速な状況把握と対応が可能となる。
【0742】
特定処理部290は、特定処理の結果をスマート眼鏡214に送信する。スマート眼鏡214では、制御部46Aが、スピーカ240に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【0743】
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【0744】
生成AIの他の例としては、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)が挙げられる。
【0745】
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマート眼鏡214によって特定処理が行われるようにしてもよい。
【0746】
[第3実施形態]
【0747】
図5には、第3実施形態に係るデータ処理システム310の構成の一例が示されている。
【0748】
図5に示すように、データ処理システム310は、データ処理装置12及びヘッドセット型端末314を備えている。データ処理装置12の一例としては、サーバが挙げられる。
【0749】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0750】
ヘッドセット型端末314は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及びディスプレイ343を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及びディスプレイ343も、バス52に接続されている。
【0751】
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
【0752】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
【0753】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
【0754】
図6には、データ処理装置12及びヘッドセット型端末314の要部機能の一例が示されている。図6に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
【0755】
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
【0756】
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
【0757】
ヘッドセット型端末314では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0758】
次に、データ処理装置12の特定処理部290による特定処理について説明する。
【0759】
「形態例1」
【0760】
本発明の形態は、視覚障害者がスマートデバイスやヘッドセットを装着し、生成AIにアクセスする。生成AIは、カメラやセンサーから取得した情報を解析し、視覚障害者に対して周囲の環境情報を提供する。具体的には、AIは物体や人物の位置、形状、動きなどを認識し、音声メッセージや触覚フィードバックを通じて視覚障害者に伝える。
【0761】
「形態例2」
【0762】
具体例として、視覚障害者が街を歩く場合、生成AIは前方にある障害物や交差点、信号の状態などを認識し、視覚障害者に音声メッセージで伝える。また、人々の動きや声から人々の存在とその動向を推測し、視覚障害者に触覚フィードバックを提供する。これにより、視覚障害者は周囲の状況を理解し、安全に移動することが可能となる。
【0763】
「形態例3」
【0764】
さらに、生成AIは視覚障害者の社会参加を支援する。例えば、会議やイベントでの人々の反応や雰囲気を分析し、視覚障害者に伝える。また、視覚障害者が読みたい書籍や資料の文字情報を読み取り、音声で読み上げる。これにより、視覚障害者は社会活動をより豊かに、自立して行うことが可能となる。
【0765】
以下に、各形態例の処理の流れについて説明する。
【0766】
「形態例1」
【0767】
ステップ1:視覚障害者がスマートデバイスやヘッドセットを装着し、生成AIにアクセスする。
【0768】
ステップ2:生成AIは、カメラやセンサーから取得した情報を解析する。
【0769】
ステップ3:AIは物体や人物の位置、形状、動きなどを認識し、音声メッセージや触覚
【0770】
フィードバックを通じて視覚障害者に伝える。
【0771】
「形態例2」
【0772】
ステップ1:視覚障害者が街を歩く場合、生成AIは前方にある障害物や交差点、信号の状態などを認識する。
【0773】
ステップ2:AIは人々の動きや声から人々の存在とその動向を推測する。
【0774】
ステップ3:AIは視覚障害者に音声メッセージで情報を伝え、また触覚フィードバックを提供する。これにより、視覚障害者は周囲の状況を理解し、安全に移動することが可能となる。
【0775】
「形態例3」
【0776】
ステップ1:生成AIは視覚障害者の社会参加を支援する。例えば、会議やイベントでの人々の反応や雰囲気を分析する。
【0777】
ステップ2:AIは視覚障害者が読みたい書籍や資料の文字情報を読み取る。
【0778】
ステップ3:AIは情報を音声で読み上げ、視覚障害者に伝える。これにより、視覚障害者は社会活動をより豊かに、自立して行うことが可能となる。
【0779】
(実施例1)
【0780】
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0781】
現在の技術では、視覚障害者が自立して移動する際に直面する困難は多く、周囲の環境情報を安全かつ効果的に取得する手段が限られている。特に、人や物体の位置、形状、動きなどの詳細な情報をリアルタイムで提供するシステムの欠如は、視覚障害者の移動の自由度を制限し、社会参加の機会を減少させる大きな要因である。このため、視覚障害者が周囲の環境をより深く理解し、安全に移動できるよう支援する新たな技術的解決策が求められている。
【0782】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0783】
この発明では、サーバは、生成AIモデルを用いて環境データを解析する手段と、解析結果を音声メッセージや触覚フィードバックとして変換する手段と、収集した環境データをリアルタイムで処理する手段と、を含む。これにより、視覚障害者は周囲の人物や物体の位置、形状、動きなどの詳細な情報を音声や触覚フィードバックを通じてリアルタイムで受け取ることが可能となる。結果として、視覚障害者の安全な移動をサポートし、社会参加の機会を拡大することが可能となる。
【0784】
「生成AI」は、人工知能の一種であり、データから学習して特定のタスクを実行するためのモデルやアルゴリズムを生成する技術である。
【0785】
「スマートデバイス」は、インターネットに接続でき、アプリケーションを実行することにより多機能を提供するポータブル電子機器である。
【0786】
「ヘッドセット」は、一般に音声出力(スピーカー)と音声入力(マイクロフォン)の機能を備え、頭部に装着することで使用するデバイスである。
【0787】
「リアルタイムで環境の情報を取得する手段」は、現在の状況や変化を即座に捉え、遅延なく情報を提供するプロセスまたは技術である。
【0788】
「周囲の物体や人物を認識する手段」は、視覚的、聴覚的、またはその他のセンサー情報を分析し、特定の環境内の物体や人物の存在や位置を特定する技術である。
【0789】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」は、音声や振動などの感覚的手段を用いて、ユーザーに情報を提供する方法である。
【0790】
この発明を実施するための形態は、視覚障害者が周囲の環境を理解し、安全に移動できるよう支援するシステムに関連している。このシステムは、特定のハードウェアおよびソフトウェアを用いて実装される。
【0791】
サーバは、生成AIモデルをホストしている。このAIモデルは、環境から収集されたデータを解析し、物体や人物の位置、形状、動きなどの情報を識別するために設計されている。使用されるソフトウェアには、例えばOpenAIのGPTやGoogleのTensorFlowがカスタマイズされた形で含まれる。これらのソフトウェアは、複雑なデータ解析と学習能力を提供し、システムの精度と効率を高める。
【0792】
端末は、スマートデバイスやヘッドセットなど、視覚障害者が装着するデバイスである。これらのデバイスには、環境データを収集するためのカメラやセンサーが搭載されている。収集されたデータは、サーバに送信され、生成AIモデルによって解析される。
【0793】
解析結果は、端末に送り返され、音声メッセージや触覚フィードバックとして視覚障害者に提供される。このフィードバックにより、ユーザは周囲の環境をより深く理解し、安全に移動するための情報を得ることができる。
【0794】
具体例としては、「周囲の人物と物体の位置と動きを識別し、その情報を音声メッセージで伝えてください。」というプロンプト文が挙げられる。このプロンプトは、生成AIモデルによる解析の対象となるデータの種類を指示するものである。
【0795】
この発明を実施するための形態は、視覚障害者が直面する日常の課題を解決するために、先進的な技術を活用することに焦点を当てている。ハードウェアとソフトウェアの組み合わせにより、リアルタイムで環境情報を提供し、視覚障害者の自立を支援することを目的としている。
【0796】
特定処理の流れについて図11を用いて説明する。
【0797】
ステップ1:端末は、視覚障害者が装着しているスマートデバイスやヘッドセットに搭載されたカメラやセンサーから、周囲の環境データを収集する。このステップの入力は、端末のカメラやセンサーによって取得される周囲の環境の映像や音声、温度、距離などのデータである。出力は、収集された生の環境データである。
【0798】
ステップ2:端末は、収集した環境データをサーバに送信する。このステップでは、無線通信技術を用いてデータの送信が行われる。入力は、ステップ1で収集された環境データであり、出力はサーバに送信されたデータである。
【0799】
ステップ3:サーバは、受信した環境データを生成AIモデルによって解析する。この解析には、物体認識、人物認識、動き検出などの処理が含まれる。入力は、ステップ2で受信した環境データであり、出力は解析結果である。この解析結果には、周囲の物体や人物の位置、形状、動きなどの情報が含まれる。
【0800】
ステップ4:サーバは、解析結果をもとに、視覚障害者に有用な情報を生成する。この情報は、音声メッセージや触覚フィードバックの形で提供される。入力はステップ3の解析結果であり、出力は視覚障害者に伝えるための情報である。
【0801】
ステップ5:端末は、サーバから受信した情報を視覚障害者に伝える。これには、端末に内蔵されたスピーカーや触覚フィードバックデバイスが使用される。入力はステップ4で生成された情報であり、出力は視覚障害者が認識可能な音声メッセージや触覚フィードバックである。
【0802】
具体的な動作の例として、「周囲の人物と物体の位置と動きを識別し、その情報を音声メッセージで伝えてください」というプロンプト文に基づく処理が挙げられる。この場合、端末はカメラを用いて周囲を撮影し、そのデータをサーバに送信する。サーバはこのデータを解析して、人物や物体の位置と動きを特定し、この情報を視覚障害者に向けた音声メッセージとして端末に送り返す。端末はこのメッセージをスピーカーを通じて視覚障害者に伝える。
【0803】
(応用例1)
【0804】
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0805】
現在、視覚障害者が実店舗での買い物を行う際に直面する主な課題は、店内のレイアウトや商品の位置を把握することの難しさにあります。また、障害物を回避しながら安全に移動することも大きな課題です。これらの課題は、視覚障害者が自立して買い物を楽しむことを妨げ、社会参加の機会を限定してしまいます。
【0806】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0807】
この発明では、サーバは、スマートデバイスやヘッドセットを介して生成AIにアクセスする手段と、リアルタイムで店内環境の情報を取得し解析する手段と、周囲の物体や人物を認識し、その位置や形状を特定する手段と、音声メッセージや触覚フィードバックを通じて視覚障害者に情報を伝達する手段を含む。これにより、視覚障害者が実店舗内での商品の位置や障害物の存在を把握し、安全に移動しながら効率的に買い物をすることが可能となる。
【0808】
「生成AI」は、人工知能の一種であり、環境データを解析し、その解析結果に基づいてユーザーに有益な情報を生成・提供するシステムである。
【0809】
「スマートデバイス」は、インターネットに接続でき、多機能な処理を実行できるポータブルな電子機器である。
【0810】
「ヘッドセット」は、耳に装着することで音声通信や音声案内を受けることができる装置である。
【0811】
「リアルタイムで環境の情報を取得する手段」は、現在の時間とほぼ同期して、周囲の環境に関するデータを収集・更新するプロセスである。
【0812】
「周囲の物体や人物を認識する手段」は、カメラやセンサー等の入力から物体や人物の存在、位置、形状を特定し識別する技術である。
【0813】
「声や音声メッセージ」は、人間の耳で聞くことができる音波の形で情報を伝達する方法である。
【0814】
「触覚フィードバック」は、触覚によってユーザーに情報を提供する技術であり、振動や圧力の変化を通じて情報を伝える。
【0815】
この発明を実施するための形態には、スマートデバイスやヘッドセットを介した生成AIの活用が含まれる。サーバは、生成AIモデルを用いて、スマートデバイスやヘッドセットから送信される環境データを解析する。この解析により、周囲の物体や人物の位置、形状、動きを識別し、視覚障害者に対して音声メッセージや触覚フィードバックを通じて情報を伝達する。
【0816】
使用するハードウェアには、スマートデバイスやヘッドセットが含まれる。これらのデバイスは、内蔵されたカメラやセンサーを通じてリアルタイムの環境データを取得し、サーバに送信する。サーバでは、OpenCVやTensorFlowなどのソフトウェアライブラリを用いて物体検出や画像解析を行い、得られた情報を音声合成システムを通じてユーザに伝達する。
【0817】
例えば、ユーザがスマート眼鏡を装着して店内に入る場合、「前方に商品棚があります。安全な経路は、直進です。」といった案内が音声で提供される。この情報は、スマート眼鏡のカメラで取得された映像データを解析して生成される。また、ユーザが特定の商品を探している場合、生成AIは「右に曲がると商品が見つかります。」といった具体的な指示を提供する。これにより、視覚障害者は安全に移動しながら必要な商品を効率的に見つけることができる。
【0818】
特定処理の流れについて図12を用いて説明する。
【0819】
ステップ1:端末のカメラとセンサーが周囲の環境データを取得する。このステップでは、ユーザが装着しているスマートデバイスやヘッドセットのカメラとセンサーが、周囲の物体、人物、障害物などの情報をリアルタイムで収集する。入力は、光学的イメージや距離センサーからのデータであり、出力はデジタル化された環境データとしてサーバに送信される。
【0820】
ステップ2:サーバが環境データを解析する。受信した環境データは、生成AIモデルによって解析され、周囲の物体や人物の位置、形状、動きが特定される。このステップの入力は、ステップ1からのデジタル化された環境データであり、出力は解析結果としての物体識別情報や動きのパターンである。
【0821】
ステップ3:解析結果に基づき、ユーザに情報を伝達する。サーバは、解析結果をもとに、ユーザが理解しやすい形式の音声メッセージや触覚フィードバックを生成する。例えば、商品の位置案内や障害物の警告がこれに該当する。入力は、ステップ2の物体識別情報や動きのパターンであり、出力はユーザのスマートデバイスやヘッドセットを通じて提供される音声メッセージや触覚フィードバックである。
【0822】
ステップ4:ユーザが提供された情報をもとに行動を調整する。ユーザは、受け取った音声メッセージや触覚フィードバックを基に、店内での移動経路を調整したり、特定の商品を探したりする。このステップの入力は、ステップ3からの情報であり、出力はユーザの行動変更、例えば特定の方向への移動や商品の手に取りである。
【0823】
この処理の流れにより、視覚障害者は実店舗内で安全にかつ効率的に買い物を行うことが可能となる。
【0824】
(実施例2)
【0825】
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0826】
現在、視覚障害者が街を歩く際に直面する最大の課題は、障害物の存在や交通の状態、周囲の人々の動きなど、安全な移動に必要な情報を直接視覚的に得られないことである。このため、彼らは移動の際に多大な不安と危険にさらされる。さらに、視覚障害者が社会参加を行う際に、周囲の人々とのコミュニケーションや活動の同期が困難である点も大きな問題である。
【0827】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0828】
この発明では、サーバは、外部センサーからのデータをリアルタイムで収集する手段と、生成AIモデルを活用して収集したデータから周囲の環境や人物の状況を解析する手段と、解析結果に基づいて視覚障害者に適切な指示や情報を音声メッセージ及び触覚フィードバックの形で提供する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確に理解し、安全に移動すること、また社会参加の際のコミュニケーションや活動の同期を容易に行うことが可能となる。
【0829】
「リアルタイムで外部センサーからの環境データを収集する手段」とは、スマートデバイスや専用デバイスに搭載されたカメラ、マイク、GPSなどのセンサーを通じて、現在の周囲の環境に関するデータを即時に取得し、解析のためにサーバに送信するプロセスである。
【0830】
「生成AIモデルを活用して収集した環境データから周囲の物体や人物の位置、動向を解析する手段」とは、機械学習技術を用いて訓練された人工知能モデルが、収集されたデータを基に物体の位置や人物の動きなどの情報を抽出し、解釈する方法である。
【0831】
「解析結果に基づいて視覚障害者に対して指示や情報を音声メッセージ及び触覚フィードバックの形で提供する手段」とは、AIによる解析結果をもとに、視覚障害者が理解しやすい形式である音声や振動などを用いて、必要な情報や適切な行動指示を直接ユーザーに伝達する方法である。
【0832】
「スマートデバイスや専用デバイスを介してAIにアクセスし、リアルタイムで情報を伝達する手段」とは、スマートフォンやタブレット、専用のウェアラブルデバイスなど、インターネットに接続されたデバイスを通じて、サーバ上のAIと通信し、収集されたデータの送信や解析結果の受信を行うプロセスである。
【0833】
この発明を実施するための形態においては、視覚障害者が周囲の環境を理解し、安全に移動できるようにするためのシステムが提供される。このシステムは、主に外部センサーからのデータ収集、生成AIモデルによるデータ解析、及び音声メッセージや触覚フィードバックを通じた情報提供の三つの主要な構成要素から成る。
【0834】
サーバは、クラウドベースの計算リソースを使用して、生成AIモデルをホストする。このAIモデルは、TensorFlowやPyTorchといった機械学習フレームワーク上で実行され、外部センサーから収集されたデータを解析するために用いられる。具体的には、スマートデバイスや専用デバイスに組み込まれたカメラから送信される画像データや、マイクから送信される音声データを処理する。
【0835】
端末は、視覚障害者が携帯するスマートデバイスや専用デバイスであり、カメラ、マイク、GPSなどの外部センサーを通じて環境データを収集し、これをサーバに送信する。さらに、サーバからの指示に基づいて、音声メッセージや触覚フィードバックを視覚障害者に提供する。たとえば、サーバから「前方3メートルに障害物あり。左に進むように」という指示が端末に送られると、端末はこのメッセージを音声で出力し、視覚障害者に障害物を避けるための指示を提供する。
【0836】
ユーザーは、提供された音声メッセージや触覚フィードバックを基に、周囲の状況を理解し、障害物を避けるなどして安全に移動する。また、人の動きや存在を示す触覚フィードバックによって、他の歩行者との衝突を避けることができる。このように、本発明は、視覚障害者がより自立して安全に移動するための具体的な方法を提供する。
【0837】
特定処理の流れについて図13を用いて説明する。
【0838】
ステップ1:外部センサーからのデータ収集
【0839】
端末は、視覚障害者の持つスマートデバイスや専用デバイスに内蔵されたカメラ、マイク、GPSなどの外部センサーを通じて、周囲の環境データを収集する。このステップの入力は、周囲の画像、音声、位置情報であり、出力はこれらのデータのデジタル化された形式である。端末はこれらのデータをサーバに送信するために、データを一時的に保存し、ネットワーク経由で送信可能な形式に変換する。
【0840】
ステップ2:データの解析と指示の生成
【0841】
サーバは、端末から送信されたデータを受け取り、生成AIモデルを使用してこれらのデータから周囲の環境、障害物の位置、人の動きなどを解析する。このステップの入力は、画像データ、音声データ、位置情報であり、出力は障害物の位置や人の動向などの解析結果である。生成AIモデルは、この解析結果に基づいて、視覚障害者に提供すべき具体的な指示や情報を生成する。
【0842】
ステップ3:情報の提供
【0843】
端末は、サーバから受け取った指示や情報を、音声メッセージや触覚フィードバックとして視覚障害者に提供する。このステップの入力は、サーバから送信された指示や情報であり、出力は視覚障害者が直接受け取る音声メッセージや触覚フィードバックである。端末は、テキストを音声に変換する音声合成技術を使用して指示を音声メッセージとして出力し、触覚フィードバック装置を通じて必要な情報を触感として提供する。
【0844】
これらのステップを通じて、視覚障害者は周囲の環境をより良く理解し、障害物を避けるための具体的な指示を受けることができる。また、周囲の人々の動きや位置に関する情報を得ることにより、安全に移動することが可能となる。このプロセスはリアルタイムで行われ、視覚障害者が社会参加を行う際のサポートを大きく向上させる。
【0845】
(応用例2)
【0846】
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【0847】
現代社会において、個人の安全は重要な懸念事項である。特に、独りで外出する際や夜間に外出する際に、周囲の環境や人物に対する認識とその安全への影響を正確に理解することは、個人の安全を確保する上で不可欠である。しかし、現在の技術では、特定の環境下での個人の安全を実時間で支援し、不審な人物の接近や緊急事態の発生を即座に警告する効果的な手段が限られている。このような背景の下、個人が自身の安全を能動的に管理し、危険から身を守るための支援技術の開発が求められている。
【0848】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0849】
この発明では、サーバは、リアルタイムでの環境情報取得手段と、周囲の物体や人物を認識する手段と、ユーザーに対して声や音声メッセージ、触覚フィードバックを介して情報を伝達する手段と、を含む。これにより、ユーザーは周囲の状況をリアルタイムで把握し、安全に対する意識を高めることが可能となる。また、このシステムを用いることで、不審な人物の接近や緊急事態の発生時に即座に警告を受けることができ、適切な対応を取ることが可能となる。このように、この発明は個人の安全を確保する上で重要な支援を提供する。
【0850】
「生成AI」は、機械学習の技術を基にした人工知能の一種で、入力データに基づき、環境の情報や物体、人物の状態を認識し、ユーザーに対して有益な情報を生成して提供するシステムである。
【0851】
「リアルタイムでの環境情報取得手段」は、センサーやカメラ、マイクロフォンなどのデバイスを利用して、その瞬間の周囲の状況や音声を即座に捉え、分析するための技術や方法である。
【0852】
「周囲の物体や人物を認識する手段」は、画像認識技術や音声認識技術を用いて、周囲に存在する物体や人物の特徴を特定し、その情報を理解するための技術や方法である。
【0853】
「声や音声メッセージ」は、システムが生成した情報をユーザーに伝達するために用いる、聴覚によって受け取れる言語情報の形式である。
【0854】
「触覚フィードバック」は、デバイスからユーザーへ物理的な振動や圧力といった感覚を通じて情報を伝える手段である。
【0855】
この発明を実施するための形態では、端末としてスマートフォンやスマート眼鏡、ヘッドマウントディスプレイを使用し、これらの端末に組み込まれたカメラやマイクロフォンを通じて周囲の環境情報をリアルタイムで取得する。取得した情報は、生成AIモデルが搭載されたサーバに送信される。サーバは、深層学習フレームワークを用いて、画像認識技術や音声認識技術により周囲の物体や人物を認識し、その状況に応じた適切な反応を生成する。生成された情報は、声や音声メッセージ、触覚フィードバックの形でユーザーに伝達される。
【0856】
使用するハードウェアとしては、Qualcomm Snapdragonプロセッサを搭載したスマートフォンや、Google Glassのようなウェアラブルデバイスが挙げられる。ソフトウェアには、TensorFlowやPyTorchなどの機械学習フレームワークが用いられる。
【0857】
具体例として、ユーザーが夜間に歩いている際に、不審な人物が近づいてくる場面をカメラが捉えた場合、サーバは「注意: 後ろから人が近づいています。速やかに安全な場所へ移動してください」という音声メッセージを生成し、端末を通じてユーザーに伝達する。また、緊急事態が発生した場合には、「緊急事態が発生しました。すぐに安全な場所へ避難してください」という触覚フィードバックを提供することも可能である。このようにして、この発明はユーザーが周囲の状況をリアルタイムで把握し、安全を確保するための具体的な手段を提供する。
【0858】
特定処理の流れについて図14を用いて説明する。
【0859】
ステップ1:端末が周囲の環境情報を収集する。このステップでは、スマートフォンやスマート眼鏡、ヘッドマウントディスプレイに組み込まれたカメラとマイクロフォンを使用して、周囲の映像と音声をリアルタイムで収集する。この時、端末は映像と音声データを入力として取得し、それをサーバに送信する準備をする。
【0860】
ステップ2:収集した環境情報をサーバに送信する。端末は、ステップ1で収集した映像と音声データをサーバに送信する。このプロセスでは、インターネットを介してデータがサーバに転送される。
【0861】
ステップ3:サーバが環境情報を解析する。サーバに送信された映像と音声データは、生成AIモデルによって解析される。このAIモデルは、深層学習フレームワークを用いて、映像から周囲の物体や人物を認識し、音声データからは環境の音や会話を解析する。このステップの出力は、解析結果であり、具体的な状況認識や潜在的な危険の識別が含まれる。
【0862】
ステップ4:解析結果に基づいて適切な反応を生成する。サーバは、ステップ3で得られた解析結果を基に、ユーザーに伝達すべき情報を生成する。この情報は、安全に関する警告や指示など、ユーザーがその場で取るべき適切な行動に関するものである。生成される情報の形式は、音声メッセージや触覚フィードバックなどがある。
【0863】
ステップ5:生成された情報をユーザーに伝達する。サーバは、ステップ4で生成した情報を端末に送信し、端末はその情報をユーザーに伝達する。音声メッセージの場合はスピーカーを通じて、触覚フィードバックの場合はデバイスの振動機能を利用して、ユーザーに情報が伝えられる。このステップで、ユーザーは自身の安全を確保するための具体的な情報を受け取る。
【0864】
(実施例3)
【0865】
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0866】
視覚障害者は、会議やイベントなどの社会活動に参加する際、周囲の反応や雰囲気を視覚的に捉えることができない。また、読みたい書籍や資料の文字情報を独立して読むことが難しい。これらの課題は、視覚障害者が社会活動において自立して参加することを制限する要因となっている。
【0867】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0868】
この発明では、サーバは、会議やイベントでの反応や雰囲気を分析する手段と、文書や資料の文字情報を音声で読み上げる手段と、音声入力によるプロンプト文を解釈し、適切な応答を生成する手段と、を含む。これにより、視覚障害者が社会活動における周囲の状況を理解し、必要な情報を独立して取得することが可能となる。
【0869】
「生成AI」は、学習したデータを基に新たな情報を生成することが可能な人工知能の一種である。
【0870】
「会議やイベントでの反応や雰囲気を分析する手段」は、特定の集まりや行事における参加者の感情や空気を理解し、それを言語化または他の形式で表現する機能を指す。
【0871】
「文書や資料の文字情報を音声で読み上げる手段」は、印刷または電子的に提供されたテキスト情報を、音声出力に変換するプロセスや装置を指す。
【0872】
「スマートデバイスやヘッドセットを介してAIにアクセスする手段」は、インテリジェントな電子機器や音声出力装置を使用して、人工知能システムとの通信や操作を行う方法を指す。
【0873】
「リアルタイムで環境の情報を取得する手段」は、現在の時点で周囲の状況やデータを即座に収集し、分析する機能を指す。
【0874】
「周囲の物体や人物を認識する手段」は、カメラやセンサーなどを用いて、近くの物や人を特定し、識別する技術や方法を指す。
【0875】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」は、音の波形や振動などを利用して、情報をユーザーに直接的に伝達する方法を指す。
【0876】
「音声入力によるプロンプト文を解釈し、適切な応答を生成する機能」は、ユーザーからの口頭での指示や問いかけを理解し、それに対する情報や反応を提供する人工知能の能力を指す。
【0877】
この発明を実施するための形態は、主にサーバ、端末、ユーザの三者間で構成される。サーバは、生成AIモデルを搭載しており、このモデルは視覚障害者が社会活動に参加する際に直面する課題を解決するために設計されている。端末は、主にスマートデバイスやヘッドセットといった形態をとり、ユーザからの入力をサーバへと伝達する役割を果たす。ユーザは、視覚障害者であり、このシステムを通じて社会活動における情報の取得や理解を深めることができる。
【0878】
サーバ上で動作する生成AIモデルは、例えばOpenAIのGPTやGoogleのBERTなどの先進的な技術を用いて実装される。このモデルは、会議やイベントの映像や音声データを分析し、その場の雰囲気や反応をテキスト情報として抽出する。また、文書や資料の画像から文字情報を読み取り、これを音声データへ変換する機能も有する。
【0879】
端末は、ユーザの声によるプロンプト文をマイクを通じて受け取り、これをテキストデータに変換してサーバに送信する。また、端末のカメラを使用して文書や資料の画像を撮影し、これをサーバに送信する。サーバは受信したデータを生成AIモデルによって処理し、適切な応答を生成する。
【0880】
具体的な使用例として、ユーザが「今の会議の雰囲気を教えて」というプロンプト文を音声で入力した場合、端末はこの入力をテキストに変換し、サーバに送信する。サーバ上の生成AIモデルは、会議の雰囲気に関する情報を分析・抽出し、その結果をテキストで端末に送信する。端末はこのテキストを音声に変換し、ユーザに読み上げる。また、ユーザが「このページを読んで」とリクエストした場合、端末は文書の画像を撮影し、サーバに送信する。サーバは画像からテキストを抽出し、これを音声に変換して端末に送信する。端末はこの音声をユーザに読み上げる。
【0881】
この形態により、視覚障害者は社会活動における情報の取得や理解を助けるための具体的な支援を受けることが可能となる。
【0882】
特定処理の流れについて図15を用いて説明する。
【0883】
ステップ1:ユーザが端末に対して音声入力を行う。この音声入力には、会議やイベントの雰囲気を問うプロンプト文や、読み上げを希望する文書に関するリクエストが含まれる。端末はこの音声を受け取り、テキストデータに変換する。
【0884】
ステップ2:変換されたテキストデータは、インターネット経由でサーバに送信される。サーバはこのデータを受信し、生成AIモデルによる処理のために準備する。
【0885】
ステップ3:会議やイベントの雰囲気に関するリクエストの場合、サーバは生成AIモデルを使用して、提供された音声や映像データから雰囲気や反応を分析する。文書読み上げのリクエストの場合、サーバは端末から送信された文書の画像データを受信し、テキスト抽出を行う。
【0886】
ステップ4:生成AIモデルは、分析または抽出された情報を基に、適切なテキストレスポンスを生成する。会議の雰囲気に関するリクエストでは、その場の感情やキーポイントを要約したレスポンスを、文書読み上げのリクエストでは、抽出されたテキスト情報を生成する。
【0887】
ステップ5:生成されたテキストレスポンスは、サーバから端末に送信される。端末はこのテキストを受け取り、内蔵されたテキストから音声への変換機能を用いて、音声データに変換する。
【0888】
ステップ6:変換された音声データはユーザに対して出力される。この出力により、ユーザは会議やイベントの雰囲気を理解したり、文書の内容を聞くことが可能となる。
【0889】
この処理フローを通じて、視覚障害者は社会活動における情報の取得と理解を深めることができ、より自立した参加が可能となる。
【0890】
(応用例3)
【0891】
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0892】
視覚障害者が販売場所での買い物を行う際、商品の位置や情報、店内の雰囲気や人々の反応を把握することが困難であるという課題がある。このため、視覚障害者は独立して買い物をすることに制約を感じる場合があり、その社会参加の機会が限定されてしまう。また、販売場所での安全な移動や商品選択に必要な情報を効率的に提供するシステムが不足していることも問題である。
【0893】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0894】
この発明では、サーバは、生成AIを活用して視覚障害者に対して販売場所内の商品情報および人々の反応の分析を基にした音声案内を提供する手段と、リアルタイムで環境の情報を取得し、それを解析して音声による案内情報を生成する手段と、販売場所内の商品の位置や特売情報を含む環境データを活用する手段と、を含む。これにより、視覚障害者が販売場所での商品選択や移動を安全かつ効率的に行い、社会参加の機会を拡大することが可能となる。
【0895】
「生成AI」は、機械学習や深層学習の技術を基にしたアルゴリズムであり、特定の入力から人間が理解しやすい形式での出力を生成するシステムである。
【0896】
「視覚障害者」は、視力の障害により、一般的な視覚情報を認識することが困難な人を指す。
【0897】
「販売場所内の商品情報」は、商品の種類、価格、配置場所、特売情報など、商品購入に必要な情報全般を含む。
【0898】
「人々の反応の分析を基にした音声案内」は、周囲の人々の表情、言葉、動作などの反応を解析し、その情報を基に作成された音声による指示や情報提供を指す。
【0899】
「リアルタイムで環境の情報を取得する手段」は、現在の時間に即して、周囲の環境データを継続的に収集する方法や技術を指す。
【0900】
「音声による案内情報を生成する手段」は、収集した情報やデータを解析し、それを基に視覚障害者に有用な指示や情報を音声形式で提供するプロセスを指す。
【0901】
「販売場所内の商品の位置や特売情報を含む環境データ」は、商品がどこに配置されているか、どの商品が特売中であるかを示す情報を含む、販売場所の状態や条件に関する全般的なデータである。
【0902】
「サーバ」は、データの収集、処理、保存、およびクライアントへの情報提供を行うコンピュータシステムまたはソフトウェアのことである。
【0903】
この発明を実施するための形態は、視覚障害者が販売場所での買い物をサポートするシステムに関するものである。このシステムは、生成AIモデルを活用し、販売場所内の商品情報および人々の反応の分析を基にした音声案内を提供する。サーバは、リアルタイムで環境の情報を取得し、それを解析して音声による案内情報を生成する機能を持つ。また、サーバは、販売場所内の商品の位置や特売情報を含む環境データを活用する機能も有する。このシステムの実装には、スマートデバイスやヘッドセットなどの端末が使用され、これらの端末を通じて視覚障害者は生成AIにアクセスする。端末は、声や音声メッセージ、触覚フィードバックなどの形で情報をユーザに伝える機能を有する。
【0904】
使用するハードウェアとしては、スマートデバイス(例:スマートフォン)、店内設置のカメラやセンサーがあり、ソフトウェアとしては音声認識・合成システム、位置情報サービス、生成AIモデル(例:OpenAIのGPT-4)が使用される。このシステムにより、視覚障害者は販売場所での商品選択や移動を安全かつ効率的に行い、社会参加の機会を拡大することができる。
【0905】
具体例としては、ユーザがスマートデバイスを使用して「近くの特売のお菓子は?」と問いかけると、サーバは店内の環境データを解析し、生成AIモデルにより「あなたの近くには、特売中のチョコレートがあります。右手方向、3メートル先の棚の上です」という案内情報を生成し、端末を通じて音声メッセージでユーザに伝える。このプロセスは、ユーザの位置情報と店内の商品情報を組み合わせて、最適な案内を提供することを可能にする。
【0906】
特定処理の流れについて図16を用いて説明する。
【0907】
ステップ1:ユーザが端末に対して質問を入力する。
【0908】
ユーザはスマートデバイスを使用して特定の商品情報や店内の案内に関する質問を音声で入力する。この音声入力は、端末に搭載された音声認識システムによってテキストデータに変換される。
【0909】
ステップ2:端末が質問のテキストデータをサーバに送信する。
【0910】
変換されたテキストデータは、インターネットを介してサーバに送信される。サーバはこのテキストデータを受け取り、処理のための入力として使用する。
【0911】
ステップ3:サーバがテキストデータを解析し、適切な応答を生成するためのプロンプトを生成AIモデルに送信する。
【0912】
サーバは受け取ったテキストデータを解析し、ユーザの質問に基づいて具体的な応答を生成するためのプロンプトを形成する。このプロンプトは生成AIモデルに送信され、応答の生成に使用される。
【0913】
ステップ4:生成AIモデルがプロンプトに基づいて応答を生成する。
【0914】
生成AIモデルはサーバから受け取ったプロンプトを処理し、ユーザの質問に適切な応答を生成する。この応答には、店内の商品位置や特売情報、店内環境の説明などが含まれる場合がある。
【0915】
ステップ5:サーバが生成した応答を音声データに変換する。
【0916】
サーバは生成AIモデルから受け取った応答テキストを音声合成システムを用いて音声データに変換する。この音声データはユーザに情報を伝達するために使用される。
【0917】
ステップ6:サーバが音声データを端末に送信する。
【0918】
音声データは再びインターネットを介してユーザの端末に送信される。端末はこの音声データを受け取り、ユーザに対して音声出力する。
【0919】
ステップ7:ユーザが音声出力を聞いて情報を得る。
【0920】
ユーザは端末からの音声出力を通じて、質問に対する応答としての商品情報や店内の案内情報を聞く。これにより、ユーザは必要な情報を得て、販売場所での買い物を効率的に行うことができる。
【0921】
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
【0922】
「形態例1」
【0923】
本発明の一実施形態では、生成AIはユーザの感情を認識する感情エンジンを有している。感情エンジンは、ユーザの声調、表情、行動などから感情を推測し、その情報を生成AIに提供する。生成AIは、感情エンジンから提供された情報を基に、ユーザに対する情報提供の方法を調整する。例えば、ユーザが怒っていると感じた場合、生成AIは情報の伝達方法を穏やかにするか、または必要な情報のみを伝達する。これにより、ユーザの感情状態に応じた適切な対応が可能となる。
【0924】
「形態例2」
【0925】
また、本発明の別の実施形態では、感情エンジンはユーザの生体情報(例えば、心拍数や皮膚の電気伝導度)も分析する。これにより、ユーザの感情状態をより正確に把握することが可能となる。生成AIは、この生体情報を基にユーザの感情状態を推測し、情報提供の方法を調整する。例えば、ユーザが緊張していると感じた場合、生成AIはリラックスするための音楽を提供するなど、ユーザの感情状態を改善するための対応を行う。
【0926】
「形態例3」
【0927】
さらに、本発明の別の実施形態では、生成AIはユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する。例えば、ユーザが驚いていると感じた場合、生成AIは強い触覚フィードバックを提供してユーザの注意を引く。一方、ユーザがリラックスしていると感じた場合、生成AIは穏やかな触覚フィードバックを提供する。これにより、ユーザの感情状態に適した触覚フィードバックを提供することが可能となる。
【0928】
以下に、各形態例の処理の流れについて説明する。
【0929】
「形態例1」
【0930】
ステップ1:ユーザの声調、表情、行動などから感情を推測する感情エンジンが動作を開始する。
【0931】
ステップ2:感情エンジンは推測した感情情報を生成AIに提供する。
【0932】
ステップ3:生成AIは、感情エンジンから提供された情報を基に、ユーザに対する情報提供の方法を調整する。
【0933】
「形態例2」
【0934】
ステップ1:感情エンジンはユーザの生体情報(例えば、心拍数や皮膚の電気伝導度)を分析する。
【0935】
ステップ2:生成AIは、この生体情報を基にユーザの感情状態を推測し、情報提供の方法を調整する。
【0936】
ステップ3:生成AIは、ユーザの感情状態を改善するための対応を行う。例えば、ユーザが緊張していると感じた場合、生成AIはリラックスするための音楽を提供する。
【0937】
「形態例3」
【0938】
ステップ1:生成AIはユーザの感情状態を感情エンジンから取得する。
【0939】
ステップ2:生成AIは、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する。
【0940】
ステップ3:生成AIは、調整した触覚フィードバックをユーザに提供する。
【0941】
(実施例1)
【0942】
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0943】
視覚障害者が日常生活や社会活動を行う際に直面する、周囲の環境を正確に理解しにくいという課題である。従来の支援技術では、環境の情報を一方的に提供するだけであり、ユーザの感情状態を考慮した情報提供が不足している点も問題である。これにより、ユーザが情報を受け入れにくい場合や、緊急を要する状況での適切な対応が難しい状況がある。
【0944】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0945】
この発明では、サーバは、携帯端末やヘッドセットから送信された環境データを解析する手段と、ユーザの感情状態を推測する手段と、解析した環境情報と感情情報を基に情報提供方法を調整する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確にかつ容易に理解することが可能となり、その感情状態に応じた適切な情報提供が実現する。また、この適応的な情報提供により、視覚障害者の安全な移動支援と社会参加の向上が可能となる。
【0946】
「生成AI」とは、機械学習や深層学習の技術を用いて訓練されたアルゴリズムであり、入力されたデータから新たな情報を生成または解析する能力を持つシステムである。
【0947】
「環境データ」とは、ユーザの周囲の物理的な状況や状態に関する情報であり、画像、音声、位置情報など、センサーやカメラを通じて収集されたデータを指す。
【0948】
「携帯端末」とは、スマートフォンやタブレットなど、持ち運びが可能で、無線通信機能を備えた電子デバイスである。
【0949】
「ヘッドセット」とは、耳に装着することで音声通信や音楽の聴取が可能な装置であり、視覚障害者支援システムでは、音声メッセージの伝達や音声入力の受付けに用いられる。
【0950】
「ユーザの感情状態」とは、ユーザの現在の心理的な状況や感情の状態を指し、声のトーン、表情、行動などから推測される。
【0951】
「情報提供方法を調整する」とは、受け取った環境データとユーザの感情状態に基づき、情報を伝える際の方法(例えば、音声メッセージのトーンや触覚フィードバックの強度)を適切に変更することを指す。
【0952】
この発明を実施するための形態は、視覚障害者が装着する携帯端末やヘッドセットと、これらを制御するサーバ上で動作する生成AIモデルを中心に構成される。携帯端末やヘッドセットには、環境を認識するためのカメラやセンサー、そしてユーザの感情状態を推測するためのマイクロフォンが含まれる。これらのハードウェアを通じて収集されたデータは、無線通信技術を用いてサーバに送信される。
【0953】
サーバ上では、TensorFlowやPyTorchといった機械学習フレームワークを使用した生成AIモデルが、送信されたデータの解析を行う。この解析には、画像認識技術を用いた物体や人物の位置、形状、動きの特定や、音声解析技術を用いたユーザの感情状態の推測が含まれる。解析結果に基づき、生成AIモデルは、ユーザに最適な情報提供方法を決定し、その情報を音声メッセージや触覚フィードバックの形で携帯端末やヘッドセットを通じてユーザに伝達する。
【0954】
例えば、ユーザが公園を歩いている際に、携帯端末のカメラが前方のベンチや歩いている人を捉え、このデータがサーバに送信される。サーバ上の生成AIモデルは、この画像からベンチの位置や歩いている人の動きを解析し、ユーザに「右側3メートル先にベンチがあります。前方に人が歩いています」という音声メッセージを提供する。同時に、ユーザの声調から感情を推測し、必要に応じてメッセージのトーンを調整する。
【0955】
このように、この発明は、環境認識と感情推測の両方を統合した情報提供システムを提供する。これにより、視覚障害者は周囲の環境をより詳細にかつ適切に理解することができ、その感情状態に応じたカスタマイズされた情報提供を受けることが可能となる。このシステムは、視覚障害者の日常生活の質の向上と社会参加の促進に寄与することが期待される。
【0956】
特定処理の流れについて図17を用いて説明する。
【0957】
ステップ1:環境データの収集
【0958】
端末は、カメラやセンサーを用いて周囲の環境データを収集する。このデータには、画像、音声、位置情報が含まれる。入力として環境からの生データがあり、出力としては、この生データをデジタル情報に変換した形式が得られる。端末はこの変換プロセスを通じて、可視光画像や音声データ、GPSからの位置情報をサーバに送信する。
【0959】
ステップ2:データ解析と感情推測
【0960】
サーバは、受け取った環境データを生成AIモデルと感情エンジンを用いて解析する。生成AIモデルは画像認識を行い、人物や物体の位置、形状、動きを特定する。感情エンジンは音声データからユーザの感情状態を推測する。入力としては端末から送信された環境データがあり、出力としては物体の識別情報とユーザの感情状態が得られる。サーバはこのプロセスを通じて、周囲の環境とユーザの感情の両方に関する詳細な情報を生成する。
【0961】
ステップ3:情報提供方法の決定
【0962】
サーバ上の生成AIモデルは、解析した環境情報と感情情報を組み合わせて、ユーザに対する情報提供方法を決定する。このプロセスでは、情報の伝達方法をユーザの感情状態に適応させることが可能である。入力としては環境情報とユーザの感情状態があり、出力としては、適応された情報提供方法の指示が得られる。サーバはこの指示に基づいて端末に情報伝達方法を送信する。
【0963】
ステップ4:情報の伝達
【0964】
端末はサーバから受け取った指示に従い、音声メッセージや触覚フィードバックを通じてユーザに情報を提供する。このステップでは、入力としてサーバからの指示があり、出力としてはユーザが理解できる形での情報伝達が行われる。端末はこのプロセスを通じて、例えば「前方に横断歩道があります」という音声メッセージや、近くに人がいることを示す触覚フィードバックをユーザに提供する。
【0965】
(応用例1)
【0966】
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0967】
現代社会において、視覚障害者は移動や日常生活において多くの困難に直面しています。特に外出時には、周囲の環境を正確に把握することが難しく、安全な移動や社会参加に際して障害となっているのが現状です。また、情報の伝達方法が限定されているため、視覚障害者が感じる不安やストレスを軽減する手段が不足しています。このような状況下で、視覚障害者がより安全に、かつ自信を持って社会に参加するための支援方法の開発が求められています。
【0968】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0969】
この発明では、サーバは、生成AIを利用して環境情報を解析し、その解析結果に基づきユーザーに対して視覚情報の代わりとなる音声メッセージや触覚フィードバックを提供する手段と、スマートデバイスやヘッドセットを介してAIにアクセスし、リアルタイムで環境データを取得する手段と、カメラやセンサーを用いて周囲の物体や人物、その動きや形状を認識する手段と、ユーザーの感情状態を推測し、その情報を元に情報提供の方法を調整する感情エンジンを有する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確に理解し、安全な移動や社会参加を実現することが可能となる。さらに、ユーザーの感情状態に応じた情報伝達方法を採用することで、ユーザーが感じる不安やストレスを軽減し、より快適な社会参加をサポートすることができます。
【0970】
「生成AI」とは、人工知能技術を基にして環境データを解析し、その解析結果を元にユーザーに対して情報を提供するシステムである。
【0971】
「音声メッセージ」とは、言葉による情報伝達手段の一つで、音声によって情報をユーザーに伝えるメッセージである。
【0972】
「触覚フィードバック」とは、触感を通じて情報を伝達する手段であり、デバイスからユーザーへの物理的な刺激によって情報を提供する方法である。
【0973】
「スマートデバイス」とは、インターネットに接続できる機能を持ち、複数のスマート機能を統合したポータブル電子デバイスである。
【0974】
「ヘッドセット」とは、頭部に装着することで音声通信や音声出力を可能にする装置であり、この文脈では音声メッセージや触覚フィードバックを受け取るために用いられる。
【0975】
「カメラやセンサー」とは、周囲の環境や物体を画像やデータとして捉えるためのデバイスであり、この情報を生成AIが解析するために使用される。
【0976】
「感情エンジン」とは、ユーザーの声調、表情、行動などから感情状態を推測し、その情報を基に情報提供の方法を調整する技術やシステムである。
【0977】
この発明を実施するための形態は、視覚障害者が外出時や日常生活において周囲の環境をより安全かつ効果的に理解するためのシステムである。このシステムは、生成AI、スマートデバイスやヘッドセット、カメラやセンサー、そして感情エンジンを含む。
【0978】
サーバには生成AIが搭載されており、このAIはカメラやセンサーから送信される環境データを解析する。解析されたデータは、物体の位置、形状、動きといった情報を含み、この情報は音声メッセージや触覚フィードバックを通じてユーザーに伝えられる。スマートデバイスやヘッドセットは、ユーザーがこの情報を受け取るためのインターフェイスとして機能し、リアルタイムで環境データを生成AIに送信する。
【0979】
感情エンジンは、ユーザーの声調、表情、行動から感情状態を推測し、その情報を生成AIに提供する。生成AIは、この感情情報を基に情報提供の方法を調整し、例えば、ユーザーが不安や恐怖を感じている場合は、より穏やかな声調で必要な情報を提供する。
【0980】
このシステムを実現するためには、スマートデバイスやヘッドセットにカメラやセンサー、そして感情エンジンを組み込む必要がある。また、サーバ側では、生成AIがこれらのデータを処理し、適切なフィードバックを生成するためのアルゴリズムが必要である。
【0981】
具体例として、ユーザーが交差点に近づいている場合、カメラとセンサーはその位置と周囲の車両の動きを捉え、生成AIはこの情報を基に「右から車が近づいています。安全な時を見計らって渡ってください」という音声メッセージを生成し、ヘッドセットを通じてユーザーに伝える。また、ユーザーが緊張していることを感情エンジンが感知した場合、生成AIは情報の伝達方法をより穏やかなものに調整する。
【0982】
この形態により、視覚障害者は周囲の環境をより安全に、かつ効果的に理解し、日常生活や社会参加においてより高い自立性を実現することができる。
【0983】
特定処理の流れについて図18を用いて説明する。
【0984】
ステップ1:環境データの収集
【0985】
端末に搭載されたカメラやセンサーは、ユーザーの周囲の環境データを収集する。このデータには、物体の位置、形状、動きといった情報が含まれる。この収集されたデータは、リアルタイムでサーバに送信される。
【0986】
ステップ2:感情状態の推測
【0987】
端末に搭載された感情エンジンは、ユーザーの声調、表情、行動から感情状態を推測する。この推測された感情状態は、情報提供の方法を調整するためにサーバに送信される。
【0988】
ステップ3:データの解析と情報の生成
【0989】
サーバに搭載された生成AIは、ステップ1とステップ2で収集・送信された環境データと感情状態のデータを解析する。この解析に基づいて、ユーザーにとって有用な情報が生成される。例えば、交差点の安全な渡り方や周囲の物体に関する情報などが含まれる。
【0990】
ステップ4:情報の伝達
【0991】
生成された情報は、サーバから端末に送信され、端末はこの情報を音声メッセージや触覚フィードバックの形でユーザーに伝える。この際、ユーザーの感情状態に基づいて、情報伝達の方法が調整される。例えば、ユーザーが不安を感じている場合は、より穏やかな声調で情報が伝えられる。
【0992】
ステップ5:フィードバックの受取と応答
【0993】
ユーザーは、提供された情報を基に行動を取る。同時に、ユーザーの反応や追加の感情状態は、端末を通じて再度サーバにフィードバックされる。このフィードバックは、システムの精度を向上させるために利用される。
【0994】
このプロセスを通じて、ユーザーは周囲の環境についての理解を深めることができ、安全かつ効果的に日常生活や社会参加が可能となる。また、システムはユーザーの感情状態に敏感に対応し、よりパーソナライズされた情報提供が実現される。
【0995】
(実施例2)
【0996】
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【0997】
視覚障害者が直面する主な課題の一つは、外出時に周囲の環境を安全に、かつ効果的に認識することが困難であることだ。これには、障害物の存在、人々の動き、交通状況の変化など、様々な要因が関与する。さらに、情報の提供方法がユーザの感情状態や個別のニーズに適応していない場合、不安やストレスを引き起こす可能性がある。従来の支援技術では、これらの課題に対して十分な解決策を提供できていない。
【0998】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【0999】
この発明では、サーバは、生成AIを活用して視界の代替となる情報を提供する手段と、リアルタイムで環境の情報を取得し、周囲の物体や人物を認識する手段と、ユーザの生体情報を解析し、その感情状態を推測する手段と、を含む。これにより、視覚障害者は周囲の環境を安全に認識し、その移動をサポートする音声メッセージや触覚フィードバックを受け取ることが可能となる。また、ユーザの感情状態に応じて情報提供の方法が調整されるため、ユーザのストレスが軽減され、より快適に外出することが可能となる。
【1000】
「生成AI」は、人工知能の一種で、入力されたデータから新しい情報やデータを生成する技術である。
【1001】
「視界の代替となる情報」は、視覚に頼ることができない人々が、周囲の環境や状況を理解するために使用される、視覚以外の感覚(聴覚、触覚など)に基づく情報である。
【1002】
「スマートデバイス」は、インターネットや他のデバイスと接続することができ、複数の機能を持つ電子機器である。
【1003】
「ヘッドセット」は、一般に頭部に装着し、音声の入力(マイク)と出力(ヘッドホン)の両方を提供する装置である。
【1004】
「リアルタイムで環境の情報を取得する手段」は、ユーザの周囲の環境から情報を即時に収集し、分析する技術やプロセスである。
【1005】
「周囲の物体や人物を認識する手段」は、カメラ、センサー、音声認識技術などを用いて、物体や人物の存在、位置、動作を識別し理解する技術である。
【1006】
「声や音声メッセージ、触覚フィードバック」は、音声や振動などの非視覚的な方法を通じて、ユーザに情報を伝達する手段である。
【1007】
「ユーザの生体情報」は、心拍数、皮膚の電気伝導度など、ユーザの身体的状態を示すデータである。
【1008】
「感情状態を推測する手段」は、ユーザの生体情報や行動パターンから、その時点での感情や心理的状態を分析し理解する技術である。
【1009】
「情報提供の方法を調整する手段」は、ユーザの状態やニーズに応じて、情報の伝達方法(例えば、メッセージの内容や提示の仕方)を最適化する技術やプロセスである。
【1010】
この発明を実施するための形態は、視覚障害者が外出時に周囲の環境を理解し、安全に移動することをサポートするためのシステムである。このシステムは、生成AIモデル、スマートデバイス、センサー、ヘッドセット、および生体情報測定装置を活用して構成される。
【1011】
サーバ上に配置された生成AIモデルは、スマートデバイスやセンサーから送信されるデータを基にして、周囲の物体や人物の位置、動き、またユーザの生体情報を解析する。この解析には、高度なデータ加工とデータ演算が含まれる。使用するハードウェアには、高解像度カメラ、マイク、心拍数センサー、皮膚電気伝導度センサーなどがあり、ソフトウェアには画像認識アルゴリズム、音声認識アルゴリズム、および感情状態分析アルゴリズムが含まれる。
【1012】
端末は、スマートデバイス(スマートフォンやタブレット)を指し、内蔵されたカメラやマイクを使用して周囲の情報を収集し、サーバに送信する。また、端末はサーバからの応答を受け取り、音声メッセージや触覚フィードバックとしてユーザに伝達する。ヘッドセットは、音声メッセージをユーザに直接伝えるために使用される。
【1013】
具体例として、ユーザが街を歩いている状況を想定する。端末のカメラは前方の障害物を捉え、「前方3メートルに椅子がある」というプロンプト文に基づいて生成AIモデルが音声メッセージを生成し、ヘッドセットを通じてユーザに伝える。同時に、端末はマイクを使用して周囲の音を捉え、人々の動きを解析し、手首に装着された触覚デバイスを通じて触覚フィードバックを提供する。ユーザの生体情報が示す感情状態に基づき、「ユーザの心拍数が高いことから緊張している」と判断した場合、リラックスするための音楽を提供するプロンプト文が生成AIモデルによって処理される。
【1014】
この形態により、視覚障害者は周囲の環境に関する豊富な情報を得ることができ、感情状態に配慮した情報提供によって外出時の安心感が向上する。
【1015】
特定処理の流れについて図19を用いて説明する。
【1016】
ステップ1:環境データの収集
【1017】
端末は、内蔵されたカメラとマイク、生体情報センサーを使用して、ユーザの周囲の環境データとユーザの生体情報を収集する。このステップの入力は、周囲の光景と音、ユーザの心拍数や皮膚の電気伝導度であり、出力は収集した環境データと生体情報のデジタル表現である。端末はこれらのデータをデジタル情報に変換して処理する。
【1018】
ステップ2:データの送信と解析
【1019】
収集されたデータは、無線通信を介してサーバに送信される。サーバ上の生成AIモデルは、送信された環境データと生体情報を解析し、周囲の物体や人物の位置、動き、ユーザの感情状態を識別する。このステップの入力は、環境データと生体情報であり、出力は物体や人物の識別情報とユーザの感情状態である。サーバはデータを解析し、識別情報と感情状態を推測する。
【1020】
ステップ3:情報提供の調整とフィードバックの生成
【1021】
生成AIモデルは、解析結果に基づいて、ユーザに提供する情報の内容と形式を調整する。ユーザが緊張している場合はリラックスするための音楽を選択し、障害物の位置情報は音声メッセージで、周囲の人々の動きは触覚フィードバックで伝える。このステップの入力は、物体や人物の識別情報とユーザの感情状態であり、出力は音声メッセージや触覚フィードバック、音楽などの情報提供内容である。サーバは解析結果に基づいて適切なフィードバックを生成し、端末に送信する。
【1022】
ステップ4:フィードバックの伝達
【1023】
端末はサーバから送信されたフィードバックを受け取り、音声メッセージはヘッドセットを通じて、触覚フィードバックは触覚デバイスを通じて、音楽は端末のスピーカーまたはヘッドセットからユーザに伝える。このステップの入力は、サーバからのフィードバックであり、出力はユーザが認識可能な形での情報提供である。端末は受け取ったフィードバックを適切な出力装置を通じてユーザに伝達する。
【1024】
これらのステップを通じて、視覚障害者は周囲の環境をより安全かつ効率的に認識し、感情状態に応じたカスタマイズされたサポートを受けることが可能となる。
【1025】
(応用例2)
【1026】
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
【1027】
現状では、視覚障害者を含むユーザーが自動運転車両を使用する際に、周囲の環境や状況を正確に認識し、安全かつ快適に移動することが困難である。特に、周囲の車両や障害物、信号の状態を理解することが難しく、またユーザーの感情状態に応じた情報提供や環境調整が行われていないため、移動中の不安やストレスが増大することがある。
【1028】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1029】
この発明では、サーバは、環境の動的な要素をリアルタイムで認識し情報を提供する手段と、車載システムやヘッドセットを介してAIにアクセスする手段と、車両の周囲の環境情報を取得するためのセンサーやカメラからの入力データを解析する手段と、周囲の車両、障害物、信号状態を認識する手段と、声や音声メッセージ、触覚フィードバック、生体情報に基づく感情状態の調整を行う手段と、を含む。これにより、ユーザーが周囲の環境や状況を正確に理解し、安全かつ快適に移動することが可能となる。また、ユーザーの感情状態に応じた情報提供や環境調整により、移動中の不安やストレスを軽減し、より快適な移動体験を実現することができる。
【1030】
「生成AI」は、人工知能技術の一種であり、複雑なデータを解析し、それに基づいて新しい情報や推論を生成するシステムである。
【1031】
「環境の動的な要素をリアルタイムで認識し情報を提供する手段」とは、センサーやカメラなどの入力データを解析し、周囲の変化する状況(車両の動き、障害物の存在、信号の変化など)を即時に検出し、その情報をユーザーに伝達する機能を指す。
【1032】
「車載システムやヘッドセットを介してAIにアクセスする手段」とは、自動運転車両内の組み込みシステムや、ユーザーが身につけるヘッドセットなどを通じて、生成AIと連携し、情報のやり取りを行うインターフェースを指す。
【1033】
「センサーやカメラからの入力データを解析する手段」とは、車両周辺の環境データを捉えるために設置されたセンサーやカメラが収集したデータを、リアルタイムで処理・解析し、環境情報を把握する機能を指す。
【1034】
「周囲の車両、障害物、信号状態を認識する手段」とは、自動運転車両がその周囲の物体や他の車両、交通信号などの状況を正確に理解し、これらの情報をベースに安全な運転判断を行うための技術やシステムを指す。
【1035】
「声や音声メッセージ、触覚フィードバック、生体情報に基づく感情状態の調整を行う手段」とは、ユーザーへの情報提供を音声や触覚フィードバックを通じて行い、さらにユーザーの生体情報を分析して感情状態を推定し、それに応じた情報提供や環境調整を実施する機能を指す。
【1036】
この発明を実施するための形態は、自動運転車両において、視覚障害者を含むユーザーが安全かつ快適に移動するための支援システムである。このシステムは、車載センサーやカメラ、生成AIモデル、音声合成エンジン、触覚フィードバックデバイス、生体情報センサーなどを組み合わせて構成される。
【1037】
サーバは、車載センサーやカメラからの入力データを受け取り、これを解析して車両の周囲の環境情報を認識する。この環境情報には、他の車両、障害物、信号の状態などが含まれる。生成AIモデルを用いて、この情報を基にして、ユーザーに対する音声メッセージや触覚フィードバックを生成する。また、ユーザーの生体情報センサーから収集されるデータ(例えば、心拍数や皮膚の電気伝導度)を分析し、ユーザーの感情状態を推測する。この感情状態に応じて、情報提供の方法や環境を調整することで、ユーザーの心理的快適性を向上させる。
【1038】
例えば、サーバが車両の右側から接近してくる他の車両を検出した場合、生成AIモデルを用いて「右側から車両が接近しています。注意してください」という音声メッセージを生成し、音声合成エンジンを通じてユーザーに伝える。同時に、ユーザーが緊張していると感じた場合は、「リラックスできる音楽を提供してください」というプロンプトを生成AIモデルに送り、音楽を流してユーザーをリラックスさせる。
【1039】
この形態では、車両に取り付けられたカメラやセンサー、触覚フィードバックデバイス、心拍数センサーや皮膚電気伝導度センサーなどの生体情報センサー、生成AIモデル、音声合成エンジンなどのハードウェアとソフトウェアが重要な役割を果たす。これらを適切に組み合わせることで、視覚障害者を含む全てのユーザーに対して、周囲の環境をより良く理解し、安全かつ快適に移動するためのサポートを提供することができる。
【1040】
特定処理の流れについて図20を用いて説明する。
【1041】
ステップ1:環境データの収集
【1042】
サーバは、車載センサーやカメラから送信される周囲の環境データを収集する。このデータには、障害物の位置、近くの車両の動き、信号の状態などが含まれる。入力されたこれらのデータを基に、サーバは周囲の状況を把握するためのデータ加工やデータ演算を行う。
【1043】
ステップ2:環境データの解析
【1044】
収集した環境データは、生成AIモデルによって解析される。この解析により、車両の周囲に存在する障害物の位置、近接する車両の動向、信号の状態などが認識される。解析結果は、ユーザーに情報を提供するための基礎として使用される。
【1045】
ステップ3:ユーザーの生体情報の収集と分析
【1046】
サーバは、ユーザーの生体情報センサーから心拍数や皮膚の電気伝導度などのデータを収集する。これらのデータは分析され、ユーザーの感情状態を推測するために使用される。この推測結果は、情報提供方法や環境調整の決定に役立てられる。
【1047】
ステップ4:情報提供方法の決定
【1048】
サーバは、解析された環境データとユーザーの感情状態を考慮して、最適な情報提供方法を決定する。例えば、ユーザーが緊張していると感じた場合、リラックスできる音楽を提供することを決定する。この決定プロセスには、生成AIモデルが使用される。
【1049】
ステップ5:情報の提供
【1050】
決定された情報提供方法に基づき、サーバは音声メッセージや触覚フィードバック、適切な音楽の提供などを行う。これらの情報提供は、ユーザーに対して最適な体験を提供するためにカスタマイズされる。たとえば、「右側から車両が接近しています。注意してください」という音声メッセージがユーザーに伝えられることがある。
【1051】
このプログラムの処理により、自動運転車両を使用するユーザーは、周囲の環境をより良く理解し、安全かつ快適に移動することが可能になる。また、ユーザーの感情状態に応じた情報提供や環境調整によって、移動中の不安やストレスを軽減できる。
【1052】
(実施例3)
【1053】
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【1054】
視覚障害者が日常生活や社会活動において直面する情報アクセスの障壁を低減することである。具体的には、会議やイベントにおける周囲の人々の反応や雰囲気の理解、読みたい書籍や資料の内容へのアクセス、及び自身の感情状態に適応した触覚フィードバックの提供が挙げられる。これらの課題は、視覚障害者の社会参加の向上と自立した生活を制限する主要な要因である。
【1055】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1056】
この発明では、サーバは、音声データをテキストデータに変換する手段と、生成AIモデルを用いてテキストデータから環境の雰囲気や人々の反応を分析する手段と、テキストデータを音声情報に変換してユーザに伝える手段と、ユーザの感情状態をモニタリングする手段と、ユーザの感情状態に基づいて触覚フィードバックの強度やパターンを調整する手段と、会議やイベントの音声をリアルタイムで収集する手段と、を含む。これにより、視覚障害者が周囲の環境をより深く理解し、社会活動に積極的に参加すること、読みたい内容を音声情報として容易にアクセスすること、及び感情状態に応じた適切な触覚フィードバックを受け取ることが可能となる。
【1057】
「音声データをテキストデータに変換する手段」とは、収集された音声情報を文字情報に変換するプロセスや装置を指す。この変換には、音声認識技術が用いられる。
【1058】
「生成AIモデルを用いてテキストデータから環境の雰囲気や人々の反応を分析する手段」とは、文字情報を解析し、その情報から周囲の状況や人々の感情、反応などを理解するための技術や方法を指す。この分析には、自然言語処理技術が用いられる。
【1059】
「テキストデータを音声情報に変換してユーザに伝える手段」とは、解析された文字情報を音声として再生し、ユーザに伝達するプロセスや装置を指す。この変換には、テキスト音声変換技術が用いられる。
【1060】
「ユーザの感情状態をモニタリングする手段」とは、ユーザの声のトーン、表情、体の動きなどから感情状態を識別し、分析する技術や方法を指す。このモニタリングには、音声分析技術やセンサー技術が用いられることがある。
【1061】
「ユーザの感情状態に基づいて触覚フィードバックの強度やパターンを調整する手段」とは、ユーザの現在の感情状態に応じて、触覚デバイスを通じて提供されるフィードバックの種類や程度を変更する技術や方法を指す。この調整には、感情分析結果を基にしたフィードバック制御アルゴリズムが用いられる。
【1062】
「会議やイベントの音声をリアルタイムで収集する手段」とは、生の音声情報をその場で直接捉え、デジタルデータとして記録する技術や装置を指す。この収集には、マイクロフォンや音声記録システムが用いられる。
【1063】
この発明を実施するための形態では、サーバと端末(スマートデバイス)、及びユーザ(視覚障害者)が中心となる。サーバは、音声認識技術、自然言語処理技術、テキスト音声変換技術、感情分析技術、及び触覚フィードバック制御技術を備えている。端末は、音声収集機能、感情状態モニタリング機能、及び触覚フィードバック提供機能を備えている。具体的なハードウェアとソフトウェアには、Google Cloud Speech-to-Text(音声認識)、OpenAIのGPT(テキスト分析と生成)、Amazon Polly(テキストから音声への変換)、及びTesseract OCR(文字認識)が含まれる。
【1064】
サーバは、端末から受信した音声データをGoogle Cloud Speech-to-Textを用いてテキストデータに変換する。次に、このテキストデータをOpenAIのGPTを用いて分析し、会議やイベントの雰囲気、人々の反応などの情報を抽出する。分析結果はテキストデータとして、Amazon Pollyを用いて音声情報に変換される。この音声情報は端末を通じてユーザに伝達される。
【1065】
端末は、マイクロフォンを用いて会議やイベントの音声をリアルタイムで収集し、サーバに送信する。また、端末はユーザの声のトーンや体の動きをモニタリングし、感情状態を分析するためのデータをサーバに送信する。サーバはこのデータを分析し、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する指示を端末に送信する。端末はこの指示に基づき、触覚デバイスを通じてユーザに適切なフィードバックを提供する。
【1066】
具体例としては、サーバが「会議の雰囲気を分析し、その概要を音声で提供せよ」というプロンプト文に基づいて処理を行い、端末が「今、話者が冗談を言ったことで、参加者から笑い声が上がっている」という音声情報をユーザに伝達するシナリオがある。また、ユーザが読みたい書籍のページを端末のカメラでスキャンし、「このページのテキストを読み取り、音声で読み上げせよ」というプロンプトに基づいて、テキストを音声情報に変換して提供する場合も含まれる。
【1067】
この形態により、視覚障害者は周囲の環境や会議の内容を理解しやすくなり、読みたい資料を音声でアクセスできるようになる。さらに、自身の感情状態に適応した触覚フィードバックにより、より豊かな情報を得ることが可能となる。
【1068】
特定処理の流れについて図21を用いて説明する。
【1069】
ステップ1:
【1070】
端末は、マイクロフォンを用いて会議やイベントの音声を収集する。この音声データはサーバに送信される。入力は生の音声データであり、出力はデジタル化された音声データである。このステップでは、音声データの収集とデジタル化が行われる。
【1071】
ステップ2:
【1072】
サーバは、受け取った音声データをGoogle Cloud Speech-to-Textを用いてテキストデータに変換する。入力はデジタル化された音声データであり、出力はテキストデータである。このプロセスでは、音声認識技術を用いて、音声情報を文字情報に変換するデータ加工が行われる。
【1073】
ステップ3:
【1074】
サーバは、変換されたテキストデータをOpenAIのGPTを用いて分析し、会議やイベントの雰囲気や人々の反応などの情報を抽出する。入力はテキストデータであり、出力は分析結果のテキストデータ(雰囲気や反応の要約)である。このステップでは、自然言語処理技術を用いて、テキストデータから有用な情報を抽出するデータ演算が行われる。
【1075】
ステップ4:
【1076】
サーバは、分析結果をテキストとしてAmazon Pollyを用いて音声情報に変換し、この音声情報を端末に送信する。入力は分析結果のテキストデータであり、出力は音声情報である。このプロセスでは、テキストから音声への変換が行われ、ユーザに対して理解しやすい形で情報が提供される。
【1077】
ステップ5:
【1078】
端末は、サーバから受信した音声情報をユーザに伝達する。このステップでは、端末のスピーカーを通じて音声情報が再生される。入力は音声情報であり、出力はユーザが聞くことができる音声メッセージである。
【1079】
ステップ6:
【1080】
端末は、ユーザの声のトーンや体の動きをモニタリングし、感情状態を分析するためのデータをサーバに送信する。入力はユーザの声や動きのデータであり、出力は感情状態の分析結果である。このステップでは、感情分析技術を用いて、ユーザの感情状態を識別するデータ演算が行われる。
【1081】
ステップ7:
【1082】
サーバは、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する指示を端末に送信する。入力は感情状態の分析結果であり、出力は触覚フィードバックの指示である。このステップでは、ユーザの感情状態を基にした触覚フィードバックのカスタマイズが行われる。
【1083】
ステップ8:
【1084】
端末は、サーバからの指示に基づき、触覚デバイスを通じてユーザに適切なフィードバックを提供する。このステップでは、ユーザが触覚フィードバックを通じて感情状態に応じた反応を受け取る。入力は触覚フィードバックの指示であり、出力はユーザの感覚に伝わる触覚フィードバックである。
【1085】
(応用例3)
【1086】
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
【1087】
現代社会において、視覚障害者やセキュリティ関連の従事者は、環境の理解や安全な移動、異常行動や危険状況の即時認識といった課題に直面しています。特に、視覚障害者が社会参加を行う際やセキュリティ関連の従事者が緊急状況に迅速に対応する必要がある場合、周囲の環境や人々の感情状態を効果的に把握する手段が限られていることが問題です。また、使用者の感情状態に応じた適切な触覚フィードバックを提供することで、より安全で快適な社会生活を送るためのサポートが不十分であることも課題となっています。
【1088】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1089】
この発明では、サーバは、生成AIを活用して視界の代替となる情報を提供する手段と、リアルタイムで周囲の人々の感情状態を分析し、異常な行動や状況を感知する際に適切な触覚フィードバックを提供する手段と、使用者の感情状態に応じた触覚フィードバックの強度やパターンを調整する手段と、を含む。これにより、視覚障害者が社会活動をより豊かに、自立して行うことが可能となり、セキュリティ関連の従事者が緊急状況においても周囲の環境や人々の感情状態を効果的に把握し、迅速に対応することが可能となる。
【1090】
「生成AI」とは、人工知能の一形態であり、学習データから独立して新たな情報や反応を生成し、特定のタスクを自動で行うシステムである。
【1091】
「視界の代替となる情報を提供する手段」とは、視覚情報に代わる形で、音声や触覚フィードバックを通じて、使用者に必要な情報を伝えるシステムや方法である。
【1092】
「スマートデバイスやヘッドセットを介してAIにアクセスする手段」とは、スマートフォン、タブレット、ヘッドマウントディスプレイなどのデバイスを用いて、AI機能やサービスに接続し利用するための方法やシステムである。
【1093】
「リアルタイムで環境の情報を取得する手段」とは、周囲の状況や変化を即時に捉え、分析・処理することが可能なシステムや技術である。
【1094】
「周囲の物体や人物を認識する手段」とは、カメラやセンサー等を通じて得られる画像や音声データから、物体や人物を特定し、それらの情報を解析するシステムやアルゴリズムである。
【1095】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」とは、音声合成技術や振動パターンを用いて、使用者に情報を伝達する方法である。
【1096】
「リアルタイムで周囲の人々の感情状態を分析し、異常な行動や状況を感知する際に適切な触覚フィードバックを提供する手段」とは、環境内の人々の表情や声のトーンを解析し、それに基づいて異常を警告するための触覚フィードバックを即座に発生させるシステムや方法である。
【1097】
「使用者の感情状態に応じた触覚フィードバックの強度やパターンを調整する手段」とは、使用者の現在の感情や心理状態を評価し、それに適合するように触覚フィードバックの出力を調節するシステムや技術である。
【1098】
この発明を実施するための形態には、視覚障害者やセキュリティ関連の従事者に対して、環境情報や人々の感情状態に基づくリアルタイムの警告と触覚フィードバックを提供するシステムが含まれる。このシステムは、生成AIモデル、スマートデバイス(スマート眼鏡やヘッドマウントディスプレイ)、感情分析ソフトウェア、触覚フィードバックデバイスから構成される。
【1099】
サーバは、生成AIモデルを用いて周囲の環境データから人々の感情状態を分析する。この分析には、OpenCVやTensorFlowなどの機械学習ライブラリが使用される。端末(スマート眼鏡やヘッドマウントディスプレイ)は、カメラやマイクを介して環境データを収集し、サーバに送信する。サーバからの分析結果は、端末を介してユーザに伝えられ、必要に応じて触覚フィードバックデバイスを通じて感覚的な警告が提供される。
【1100】
このシステムを用いることで、ユーザは周囲の環境や人々の感情状態をより深く理解することができ、安全性と快適性を向上させる。特に、視覚障害者は社会活動においてより自立した行動が可能になり、セキュリティ関連の従事者は緊急状況において迅速かつ効果的に対応することが可能になる。
【1101】
具体例としては、「あるセキュリティガードが、パトロール中にスマート眼鏡を着用しています。彼の眼鏡にインストールされたアプリケーションは、周囲の人々の顔をリアルタイムでスキャンし、その表情から感情状態を分析します。怒りや攻撃的な感情が検出された場合、ガードの眼鏡は即座に強い振動を発し、警告する」というシナリオが考えられる。このプロセスは、セキュリティガードや視覚障害者が周囲の状況をよりよく理解し、適切な対応をとるためのものである。
【1102】
特定処理の流れについて図22を用いて説明する。
【1103】
ステップ1:端末は、カメラとマイクを使用して周囲の環境データを収集する。この収集データには、周囲の人々の顔の映像と声の音声が含まれる。入力として周囲の映像と音声を受け取り、出力としてデータファイルを生成する。
【1104】
ステップ2:端末は、収集した環境データをサーバに送信する。このステップでは、収集された映像と音声データがサーバに向けて転送される。入力として端末からのデータファイルを受け取り、サーバへのデータ送信という出力を行う。
【1105】
ステップ3:サーバは、受け取った環境データを使用して、生成AIモデルを通じて周囲の人々の感情状態を分析する。このプロセスには、画像認識と音声認識の技術が用いられ、感情分析結果が生成される。入力として映像と音声データを受け取り、出力として感情分析結果を生成する。
【1106】
ステップ4:サーバは、感情分析結果に基づいて、適切な触覚フィードバックの指示を端末に送信する。この指示には、フィードバックの強度やパターンの情報が含まれる。入力として感情分析結果を受け取り、出力として触覚フィードバックの指示を生成する。
【1107】
ステップ5:端末は、サーバから受け取った触覚フィードバックの指示に基づいて、ユーザに触覚フィードバックを提供する。このフィードバックは、端末またはユーザが着用している触覚フィードバックデバイスを通じて行われる。入力として触覚フィードバックの指示を受け取り、出力としてユーザに対する具体的な触覚フィードバックの実行を行う。
【1108】
これらのステップを通じて、システムは周囲の環境や人々の感情状態を効果的に把握し、ユーザにリアルタイムで適切な警告と触覚フィードバックを提供する。これにより、視覚障害者の安全な移動や社会参加のサポート、セキュリティ関連の従事者の迅速な状況把握と対応が可能となる。
【1109】
特定処理部290は、特定処理の結果をヘッドセット型端末314に送信する。ヘッドセット型端末314では、制御部46Aが、スピーカ240及びディスプレイ343に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【1110】
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【1111】
生成AIの他の例としては、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)が挙げられる。
【1112】
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ヘッドセット型端末314によって特定処理が行われるようにしてもよい。
【1113】
[第4実施形態]
【1114】
図7には、第4実施形態に係るデータ処理システム410の構成の一例が示されている。
【1115】
図7に示すように、データ処理システム410は、データ処理装置12及びロボット414を備えている。データ処理装置12の一例としては、サーバが挙げられる。
【1116】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【1117】
ロボット414は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及び制御対象443を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及び制御対象443も、バス52に接続されている。
【1118】
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
【1119】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
【1120】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
【1121】
制御対象443は、表示装置、目部のLED、並びに、腕、手及び足等を駆動するモータ等を含む。ロボット414の姿勢や仕草は、腕、手及び足等のモータを制御することにより制御される。ロボット414の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット414の目部のLEDの発光状態を制御することによっても、ロボット414の表情を表現できる。
【1122】
図8には、データ処理装置12及びロボット414の要部機能の一例が示されている。図8に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
【1123】
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
【1124】
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
【1125】
ロボット414では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【1126】
次に、データ処理装置12の特定処理部290による特定処理について説明する。
【1127】
「形態例1」
【1128】
本発明の形態は、視覚障害者がスマートデバイスやヘッドセットを装着し、生成AIにアクセスする。生成AIは、カメラやセンサーから取得した情報を解析し、視覚障害者に対して周囲の環境情報を提供する。具体的には、AIは物体や人物の位置、形状、動きなど
【1129】
を認識し、音声メッセージや触覚フィードバックを通じて視覚障害者に伝える。
【1130】
「形態例2」
【1131】
具体例として、視覚障害者が街を歩く場合、生成AIは前方にある障害物や交差点、信号の状態などを認識し、視覚障害者に音声メッセージで伝える。また、人々の動きや声から人々の存在とその動向を推測し、視覚障害者に触覚フィードバックを提供する。これにより、視覚障害者は周囲の状況を理解し、安全に移動することが可能となる。
【1132】
「形態例3」
【1133】
さらに、生成AIは視覚障害者の社会参加を支援する。例えば、会議やイベントでの人々の反応や雰囲気を分析し、視覚障害者に伝える。また、視覚障害者が読みたい書籍や資料の文字情報を読み取り、音声で読み上げる。これにより、視覚障害者は社会活動をより豊かに、自立して行うことが可能となる。
【1134】
以下に、各形態例の処理の流れについて説明する。
【1135】
「形態例1」
【1136】
ステップ1:視覚障害者がスマートデバイスやヘッドセットを装着し、生成AIにアクセスする。
【1137】
ステップ2:生成AIは、カメラやセンサーから取得した情報を解析する。
【1138】
ステップ3:AIは物体や人物の位置、形状、動きなどを認識し、音声メッセージや触覚フィードバックを通じて視覚障害者に伝える。
【1139】
「形態例2」
【1140】
ステップ1:視覚障害者が街を歩く場合、生成AIは前方にある障害物や交差点、信号の状態などを認識する。
【1141】
ステップ2:AIは人々の動きや声から人々の存在とその動向を推測する。
【1142】
ステップ3:AIは視覚障害者に音声メッセージで情報を伝え、また触覚フィードバックを提供する。これにより、視覚障害者は周囲の状況を理解し、安全に移動することが可能となる。
【1143】
「形態例3」
【1144】
ステップ1:生成AIは視覚障害者の社会参加を支援する。例えば、会議やイベントでの人々の反応や雰囲気を分析する。
【1145】
ステップ2:AIは視覚障害者が読みたい書籍や資料の文字情報を読み取る。
【1146】
ステップ3:AIは情報を音声で読み上げ、視覚障害者に伝える。これにより、視覚障害者は社会活動をより豊かに、自立して行うことが可能となる。
【1147】
(実施例1)
【1148】
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1149】
現在の技術では、視覚障害者が自立して移動する際に直面する困難は多く、周囲の環境情報を安全かつ効果的に取得する手段が限られている。特に、人や物体の位置、形状、動きなどの詳細な情報をリアルタイムで提供するシステムの欠如は、視覚障害者の移動の自由度を制限し、社会参加の機会を減少させる大きな要因である。このため、視覚障害者が周囲の環境をより深く理解し、安全に移動できるよう支援する新たな技術的解決策が求められている。
【1150】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1151】
この発明では、サーバは、生成AIモデルを用いて環境データを解析する手段と、解析結果を音声メッセージや触覚フィードバックとして変換する手段と、収集した環境データをリアルタイムで処理する手段と、を含む。これにより、視覚障害者は周囲の人物や物体の位置、形状、動きなどの詳細な情報を音声や触覚フィードバックを通じてリアルタイムで受け取ることが可能となる。結果として、視覚障害者の安全な移動をサポートし、社会参加の機会を拡大することが可能となる。
【1152】
「生成AI」は、人工知能の一種であり、データから学習して特定のタスクを実行するためのモデルやアルゴリズムを生成する技術である。
【1153】
「スマートデバイス」は、インターネットに接続でき、アプリケーションを実行することにより多機能を提供するポータブル電子機器である。
【1154】
「ヘッドセット」は、一般に音声出力(スピーカー)と音声入力(マイクロフォン)の機能を備え、頭部に装着することで使用するデバイスである。
【1155】
「リアルタイムで環境の情報を取得する手段」は、現在の状況や変化を即座に捉え、遅延なく情報を提供するプロセスまたは技術である。
【1156】
「周囲の物体や人物を認識する手段」は、視覚的、聴覚的、またはその他のセンサー情報を分析し、特定の環境内の物体や人物の存在や位置を特定する技術である。
【1157】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」は、音声や振動などの感覚的手段を用いて、ユーザーに情報を提供する方法である。
【1158】
この発明を実施するための形態は、視覚障害者が周囲の環境を理解し、安全に移動できるよう支援するシステムに関連している。このシステムは、特定のハードウェアおよびソフトウェアを用いて実装される。
【1159】
サーバは、生成AIモデルをホストしている。このAIモデルは、環境から収集されたデータを解析し、物体や人物の位置、形状、動きなどの情報を識別するために設計されている。使用されるソフトウェアには、例えばOpenAIのGPTやGoogleのTensorFlowがカスタマイズされた形で含まれる。これらのソフトウェアは、複雑なデータ解析と学習能力を提供し、システムの精度と効率を高める。
【1160】
端末は、スマートデバイスやヘッドセットなど、視覚障害者が装着するデバイスである。これらのデバイスには、環境データを収集するためのカメラやセンサーが搭載されている。収集されたデータは、サーバに送信され、生成AIモデルによって解析される。
【1161】
解析結果は、端末に送り返され、音声メッセージや触覚フィードバックとして視覚障害者に提供される。このフィードバックにより、ユーザは周囲の環境をより深く理解し、安全に移動するための情報を得ることができる。
【1162】
具体例としては、「周囲の人物と物体の位置と動きを識別し、その情報を音声メッセージで伝えてください。」というプロンプト文が挙げられる。このプロンプトは、生成AIモデルによる解析の対象となるデータの種類を指示するものである。
【1163】
この発明を実施するための形態は、視覚障害者が直面する日常の課題を解決するために、先進的な技術を活用することに焦点を当てている。ハードウェアとソフトウェアの組み合わせにより、リアルタイムで環境情報を提供し、視覚障害者の自立を支援することを目的としている。
【1164】
特定処理の流れについて図11を用いて説明する。
【1165】
ステップ1:端末は、視覚障害者が装着しているスマートデバイスやヘッドセットに搭載されたカメラやセンサーから、周囲の環境データを収集する。このステップの入力は、端末のカメラやセンサーによって取得される周囲の環境の映像や音声、温度、距離などのデータである。出力は、収集された生の環境データである。
【1166】
ステップ2:端末は、収集した環境データをサーバに送信する。このステップでは、無線通信技術を用いてデータの送信が行われる。入力は、ステップ1で収集された環境データであり、出力はサーバに送信されたデータである。
【1167】
ステップ3:サーバは、受信した環境データを生成AIモデルによって解析する。この解析には、物体認識、人物認識、動き検出などの処理が含まれる。入力は、ステップ2で受信した環境データであり、出力は解析結果である。この解析結果には、周囲の物体や人物の位置、形状、動きなどの情報が含まれる。
【1168】
ステップ4:サーバは、解析結果をもとに、視覚障害者に有用な情報を生成する。この情報は、音声メッセージや触覚フィードバックの形で提供される。入力はステップ3の解析結果であり、出力は視覚障害者に伝えるための情報である。
【1169】
ステップ5:端末は、サーバから受信した情報を視覚障害者に伝える。これには、端末に内蔵されたスピーカーや触覚フィードバックデバイスが使用される。入力はステップ4で生成された情報であり、出力は視覚障害者が認識可能な音声メッセージや触覚フィードバックである。
【1170】
具体的な動作の例として、「周囲の人物と物体の位置と動きを識別し、その情報を音声メッセージで伝えてください」というプロンプト文に基づく処理が挙げられる。この場合、端末はカメラを用いて周囲を撮影し、そのデータをサーバに送信する。サーバはこのデータを解析して、人物や物体の位置と動きを特定し、この情報を視覚障害者に向けた音声メッセージとして端末に送り返す。端末はこのメッセージをスピーカーを通じて視覚障害者に伝える。
【1171】
(応用例1)
【1172】
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1173】
現在、視覚障害者が実店舗での買い物を行う際に直面する主な課題は、店内のレイアウトや商品の位置を把握することの難しさにあります。また、障害物を回避しながら安全に移動することも大きな課題です。これらの課題は、視覚障害者が自立して買い物を楽しむことを妨げ、社会参加の機会を限定してしまいます。
【1174】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1175】
この発明では、サーバは、スマートデバイスやヘッドセットを介して生成AIにアクセスする手段と、リアルタイムで店内環境の情報を取得し解析する手段と、周囲の物体や人物を認識し、その位置や形状を特定する手段と、音声メッセージや触覚フィードバックを通じて視覚障害者に情報を伝達する手段を含む。これにより、視覚障害者が実店舗内での商品の位置や障害物の存在を把握し、安全に移動しながら効率的に買い物をすることが可能となる。
【1176】
「生成AI」は、人工知能の一種であり、環境データを解析し、その解析結果に基づいてユーザーに有益な情報を生成・提供するシステムである。
【1177】
「スマートデバイス」は、インターネットに接続でき、多機能な処理を実行できるポータブルな電子機器である。
【1178】
「ヘッドセット」は、耳に装着することで音声通信や音声案内を受けることができる装置である。
【1179】
「リアルタイムで環境の情報を取得する手段」は、現在の時間とほぼ同期して、周囲の環境に関するデータを収集・更新するプロセスである。
【1180】
「周囲の物体や人物を認識する手段」は、カメラやセンサー等の入力から物体や人物の存在、位置、形状を特定し識別する技術である。
【1181】
「声や音声メッセージ」は、人間の耳で聞くことができる音波の形で情報を伝達する方法である。
【1182】
「触覚フィードバック」は、触覚によってユーザーに情報を提供する技術であり、振動や圧力の変化を通じて情報を伝える。
【1183】
この発明を実施するための形態には、スマートデバイスやヘッドセットを介した生成AIの活用が含まれる。サーバは、生成AIモデルを用いて、スマートデバイスやヘッドセットから送信される環境データを解析する。この解析により、周囲の物体や人物の位置、形状、動きを識別し、視覚障害者に対して音声メッセージや触覚フィードバックを通じて情報を伝達する。
【1184】
使用するハードウェアには、スマートデバイスやヘッドセットが含まれる。これらのデバイスは、内蔵されたカメラやセンサーを通じてリアルタイムの環境データを取得し、サーバに送信する。サーバでは、OpenCVやTensorFlowなどのソフトウェアライブラリを用いて物体検出や画像解析を行い、得られた情報を音声合成システムを通じてユーザに伝達する。
【1185】
例えば、ユーザがスマート眼鏡を装着して店内に入る場合、「前方に商品棚があります。安全な経路は、直進です。」といった案内が音声で提供される。この情報は、スマート眼鏡のカメラで取得された映像データを解析して生成される。また、ユーザが特定の商品を探している場合、生成AIは「右に曲がると商品が見つかります。」といった具体的な指示を提供する。これにより、視覚障害者は安全に移動しながら必要な商品を効率的に見つけることができる。
【1186】
特定処理の流れについて図12を用いて説明する。
【1187】
ステップ1:端末のカメラとセンサーが周囲の環境データを取得する。このステップでは、ユーザが装着しているスマートデバイスやヘッドセットのカメラとセンサーが、周囲の物体、人物、障害物などの情報をリアルタイムで収集する。入力は、光学的イメージや距離センサーからのデータであり、出力はデジタル化された環境データとしてサーバに送信される。
【1188】
ステップ2:サーバが環境データを解析する。受信した環境データは、生成AIモデルによって解析され、周囲の物体や人物の位置、形状、動きが特定される。このステップの入力は、ステップ1からのデジタル化された環境データであり、出力は解析結果としての物体識別情報や動きのパターンである。
【1189】
ステップ3:解析結果に基づき、ユーザに情報を伝達する。サーバは、解析結果をもとに、ユーザが理解しやすい形式の音声メッセージや触覚フィードバックを生成する。例えば、商品の位置案内や障害物の警告がこれに該当する。入力は、ステップ2の物体識別情報や動きのパターンであり、出力はユーザのスマートデバイスやヘッドセットを通じて提供される音声メッセージや触覚フィードバックである。
【1190】
ステップ4:ユーザが提供された情報をもとに行動を調整する。ユーザは、受け取った音声メッセージや触覚フィードバックを基に、店内での移動経路を調整したり、特定の商品を探したりする。このステップの入力は、ステップ3からの情報であり、出力はユーザの行動変更、例えば特定の方向への移動や商品の手に取りである。
【1191】
この処理の流れにより、視覚障害者は実店舗内で安全にかつ効率的に買い物を行うことが可能となる。
【1192】
(実施例2)
【1193】
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1194】
現在、視覚障害者が街を歩く際に直面する最大の課題は、障害物の存在や交通の状態、周囲の人々の動きなど、安全な移動に必要な情報を直接視覚的に得られないことである。このため、彼らは移動の際に多大な不安と危険にさらされる。さらに、視覚障害者が社会参加を行う際に、周囲の人々とのコミュニケーションや活動の同期が困難である点も大きな問題である。
【1195】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1196】
この発明では、サーバは、外部センサーからのデータをリアルタイムで収集する手段と、生成AIモデルを活用して収集したデータから周囲の環境や人物の状況を解析する手段と、解析結果に基づいて視覚障害者に適切な指示や情報を音声メッセージ及び触覚フィードバックの形で提供する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確に理解し、安全に移動すること、また社会参加の際のコミュニケーションや活動の同期を容易に行うことが可能となる。
【1197】
「リアルタイムで外部センサーからの環境データを収集する手段」とは、スマートデバイスや専用デバイスに搭載されたカメラ、マイク、GPSなどのセンサーを通じて、現在の周囲の環境に関するデータを即時に取得し、解析のためにサーバに送信するプロセスである。
【1198】
「生成AIモデルを活用して収集した環境データから周囲の物体や人物の位置、動向を解析する手段」とは、機械学習技術を用いて訓練された人工知能モデルが、収集されたデータを基に物体の位置や人物の動きなどの情報を抽出し、解釈する方法である。
【1199】
「解析結果に基づいて視覚障害者に対して指示や情報を音声メッセージ及び触覚フィードバックの形で提供する手段」とは、AIによる解析結果をもとに、視覚障害者が理解しやすい形式である音声や振動などを用いて、必要な情報や適切な行動指示を直接ユーザーに伝達する方法である。
【1200】
「スマートデバイスや専用デバイスを介してAIにアクセスし、リアルタイムで情報を伝達する手段」とは、スマートフォンやタブレット、専用のウェアラブルデバイスなど、インターネットに接続されたデバイスを通じて、サーバ上のAIと通信し、収集されたデータの送信や解析結果の受信を行うプロセスである。
【1201】
この発明を実施するための形態においては、視覚障害者が周囲の環境を理解し、安全に移動できるようにするためのシステムが提供される。このシステムは、主に外部センサーからのデータ収集、生成AIモデルによるデータ解析、及び音声メッセージや触覚フィードバックを通じた情報提供の三つの主要な構成要素から成る。
【1202】
サーバは、クラウドベースの計算リソースを使用して、生成AIモデルをホストする。このAIモデルは、TensorFlowやPyTorchといった機械学習フレームワーク上で実行され、外部センサーから収集されたデータを解析するために用いられる。具体的には、スマートデバイスや専用デバイスに組み込まれたカメラから送信される画像データや、マイクから送信される音声データを処理する。
【1203】
端末は、視覚障害者が携帯するスマートデバイスや専用デバイスであり、カメラ、マイク、GPSなどの外部センサーを通じて環境データを収集し、これをサーバに送信する。さらに、サーバからの指示に基づいて、音声メッセージや触覚フィードバックを視覚障害者に提供する。たとえば、サーバから「前方3メートルに障害物あり。左に進むように」という指示が端末に送られると、端末はこのメッセージを音声で出力し、視覚障害者に障害物を避けるための指示を提供する。
【1204】
ユーザーは、提供された音声メッセージや触覚フィードバックを基に、周囲の状況を理解し、障害物を避けるなどして安全に移動する。また、人の動きや存在を示す触覚フィードバックによって、他の歩行者との衝突を避けることができる。このように、本発明は、視覚障害者がより自立して安全に移動するための具体的な方法を提供する。
【1205】
特定処理の流れについて図13を用いて説明する。
【1206】
ステップ1:外部センサーからのデータ収集
【1207】
端末は、視覚障害者の持つスマートデバイスや専用デバイスに内蔵されたカメラ、マイク、GPSなどの外部センサーを通じて、周囲の環境データを収集する。このステップの入力は、周囲の画像、音声、位置情報であり、出力はこれらのデータのデジタル化された形式である。端末はこれらのデータをサーバに送信するために、データを一時的に保存し、ネットワーク経由で送信可能な形式に変換する。
【1208】
ステップ2:データの解析と指示の生成
【1209】
サーバは、端末から送信されたデータを受け取り、生成AIモデルを使用してこれらのデータから周囲の環境、障害物の位置、人の動きなどを解析する。このステップの入力は、画像データ、音声データ、位置情報であり、出力は障害物の位置や人の動向などの解析結果である。生成AIモデルは、この解析結果に基づいて、視覚障害者に提供すべき具体的な指示や情報を生成する。
【1210】
ステップ3:情報の提供
【1211】
端末は、サーバから受け取った指示や情報を、音声メッセージや触覚フィードバックとして視覚障害者に提供する。このステップの入力は、サーバから送信された指示や情報であり、出力は視覚障害者が直接受け取る音声メッセージや触覚フィードバックである。端末は、テキストを音声に変換する音声合成技術を使用して指示を音声メッセージとして出力し、触覚フィードバック装置を通じて必要な情報を触感として提供する。
【1212】
これらのステップを通じて、視覚障害者は周囲の環境をより良く理解し、障害物を避けるための具体的な指示を受けることができる。また、周囲の人々の動きや位置に関する情報を得ることにより、安全に移動することが可能となる。このプロセスはリアルタイムで行われ、視覚障害者が社会参加を行う際のサポートを大きく向上させる。
【1213】
(応用例2)
【1214】
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1215】
現代社会において、個人の安全は重要な懸念事項である。特に、独りで外出する際や夜間に外出する際に、周囲の環境や人物に対する認識とその安全への影響を正確に理解することは、個人の安全を確保する上で不可欠である。しかし、現在の技術では、特定の環境下での個人の安全を実時間で支援し、不審な人物の接近や緊急事態の発生を即座に警告する効果的な手段が限られている。このような背景の下、個人が自身の安全を能動的に管理し、危険から身を守るための支援技術の開発が求められている。
【1216】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1217】
この発明では、サーバは、リアルタイムでの環境情報取得手段と、周囲の物体や人物を認識する手段と、ユーザーに対して声や音声メッセージ、触覚フィードバックを介して情報を伝達する手段と、を含む。これにより、ユーザーは周囲の状況をリアルタイムで把握し、安全に対する意識を高めることが可能となる。また、このシステムを用いることで、不審な人物の接近や緊急事態の発生時に即座に警告を受けることができ、適切な対応を取ることが可能となる。このように、この発明は個人の安全を確保する上で重要な支援を提供する。
【1218】
「生成AI」は、機械学習の技術を基にした人工知能の一種で、入力データに基づき、環境の情報や物体、人物の状態を認識し、ユーザーに対して有益な情報を生成して提供するシステムである。
【1219】
「リアルタイムでの環境情報取得手段」は、センサーやカメラ、マイクロフォンなどのデバイスを利用して、その瞬間の周囲の状況や音声を即座に捉え、分析するための技術や方法である。
【1220】
「周囲の物体や人物を認識する手段」は、画像認識技術や音声認識技術を用いて、周囲に存在する物体や人物の特徴を特定し、その情報を理解するための技術や方法である。
【1221】
「声や音声メッセージ」は、システムが生成した情報をユーザーに伝達するために用いる、聴覚によって受け取れる言語情報の形式である。
【1222】
「触覚フィードバック」は、デバイスからユーザーへ物理的な振動や圧力といった感覚を通じて情報を伝える手段である。
【1223】
この発明を実施するための形態では、端末としてスマートフォンやスマート眼鏡、ヘッドマウントディスプレイを使用し、これらの端末に組み込まれたカメラやマイクロフォンを通じて周囲の環境情報をリアルタイムで取得する。取得した情報は、生成AIモデルが搭載されたサーバに送信される。サーバは、深層学習フレームワークを用いて、画像認識技術や音声認識技術により周囲の物体や人物を認識し、その状況に応じた適切な反応を生成する。生成された情報は、声や音声メッセージ、触覚フィードバックの形でユーザーに伝達される。
【1224】
使用するハードウェアとしては、Qualcomm Snapdragonプロセッサを搭載したスマートフォンや、Google Glassのようなウェアラブルデバイスが挙げられる。ソフトウェアには、TensorFlowやPyTorchなどの機械学習フレームワークが用いられる。
【1225】
具体例として、ユーザーが夜間に歩いている際に、不審な人物が近づいてくる場面をカメラが捉えた場合、サーバは「注意: 後ろから人が近づいています。速やかに安全な場所へ移動してください」という音声メッセージを生成し、端末を通じてユーザーに伝達する。また、緊急事態が発生した場合には、「緊急事態が発生しました。すぐに安全な場所へ避難してください」という触覚フィードバックを提供することも可能である。このようにして、この発明はユーザーが周囲の状況をリアルタイムで把握し、安全を確保するための具体的な手段を提供する。
【1226】
特定処理の流れについて図14を用いて説明する。
【1227】
ステップ1:端末が周囲の環境情報を収集する。このステップでは、スマートフォンやスマート眼鏡、ヘッドマウントディスプレイに組み込まれたカメラとマイクロフォンを使用して、周囲の映像と音声をリアルタイムで収集する。この時、端末は映像と音声データを入力として取得し、それをサーバに送信する準備をする。
【1228】
ステップ2:収集した環境情報をサーバに送信する。端末は、ステップ1で収集した映像と音声データをサーバに送信する。このプロセスでは、インターネットを介してデータがサーバに転送される。
【1229】
ステップ3:サーバが環境情報を解析する。サーバに送信された映像と音声データは、生成AIモデルによって解析される。このAIモデルは、深層学習フレームワークを用いて、映像から周囲の物体や人物を認識し、音声データからは環境の音や会話を解析する。このステップの出力は、解析結果であり、具体的な状況認識や潜在的な危険の識別が含まれる。
【1230】
ステップ4:解析結果に基づいて適切な反応を生成する。サーバは、ステップ3で得られた解析結果を基に、ユーザーに伝達すべき情報を生成する。この情報は、安全に関する警告や指示など、ユーザーがその場で取るべき適切な行動に関するものである。生成される情報の形式は、音声メッセージや触覚フィードバックなどがある。
【1231】
ステップ5:生成された情報をユーザーに伝達する。サーバは、ステップ4で生成した情報を端末に送信し、端末はその情報をユーザーに伝達する。音声メッセージの場合はスピーカーを通じて、触覚フィードバックの場合はデバイスの振動機能を利用して、ユーザーに情報が伝えられる。このステップで、ユーザーは自身の安全を確保するための具体的な情報を受け取る。
【1232】
(実施例3)
【1233】
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1234】
視覚障害者は、会議やイベントなどの社会活動に参加する際、周囲の反応や雰囲気を視覚的に捉えることができない。また、読みたい書籍や資料の文字情報を独立して読むことが難しい。これらの課題は、視覚障害者が社会活動において自立して参加することを制限する要因となっている。
【1235】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1236】
この発明では、サーバは、会議やイベントでの反応や雰囲気を分析する手段と、文書や資料の文字情報を音声で読み上げる手段と、音声入力によるプロンプト文を解釈し、適切な応答を生成する手段と、を含む。これにより、視覚障害者が社会活動における周囲の状況を理解し、必要な情報を独立して取得することが可能となる。
【1237】
「生成AI」は、学習したデータを基に新たな情報を生成することが可能な人工知能の一種である。
【1238】
「会議やイベントでの反応や雰囲気を分析する手段」は、特定の集まりや行事における参加者の感情や空気を理解し、それを言語化または他の形式で表現する機能を指す。
【1239】
「文書や資料の文字情報を音声で読み上げる手段」は、印刷または電子的に提供されたテキスト情報を、音声出力に変換するプロセスや装置を指す。
【1240】
「スマートデバイスやヘッドセットを介してAIにアクセスする手段」は、インテリジェントな電子機器や音声出力装置を使用して、人工知能システムとの通信や操作を行う方法を指す。
【1241】
「リアルタイムで環境の情報を取得する手段」は、現在の時点で周囲の状況やデータを即座に収集し、分析する機能を指す。
【1242】
「周囲の物体や人物を認識する手段」は、カメラやセンサーなどを用いて、近くの物や人を特定し、識別する技術や方法を指す。
【1243】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」は、音の波形や振動などを利用して、情報をユーザーに直接的に伝達する方法を指す。
【1244】
「音声入力によるプロンプト文を解釈し、適切な応答を生成する機能」は、ユーザーからの口頭での指示や問いかけを理解し、それに対する情報や反応を提供する人工知能の能力を指す。
【1245】
この発明を実施するための形態は、主にサーバ、端末、ユーザの三者間で構成される。サーバは、生成AIモデルを搭載しており、このモデルは視覚障害者が社会活動に参加する際に直面する課題を解決するために設計されている。端末は、主にスマートデバイスやヘッドセットといった形態をとり、ユーザからの入力をサーバへと伝達する役割を果たす。ユーザは、視覚障害者であり、このシステムを通じて社会活動における情報の取得や理解を深めることができる。
【1246】
サーバ上で動作する生成AIモデルは、例えばOpenAIのGPTやGoogleのBERTなどの先進的な技術を用いて実装される。このモデルは、会議やイベントの映像や音声データを分析し、その場の雰囲気や反応をテキスト情報として抽出する。また、文書や資料の画像から文字情報を読み取り、これを音声データへ変換する機能も有する。
【1247】
端末は、ユーザの声によるプロンプト文をマイクを通じて受け取り、これをテキストデータに変換してサーバに送信する。また、端末のカメラを使用して文書や資料の画像を撮影し、これをサーバに送信する。サーバは受信したデータを生成AIモデルによって処理し、適切な応答を生成する。
【1248】
具体的な使用例として、ユーザが「今の会議の雰囲気を教えて」というプロンプト文を音声で入力した場合、端末はこの入力をテキストに変換し、サーバに送信する。サーバ上の生成AIモデルは、会議の雰囲気に関する情報を分析・抽出し、その結果をテキストで端末に送信する。端末はこのテキストを音声に変換し、ユーザに読み上げる。また、ユーザが「このページを読んで」とリクエストした場合、端末は文書の画像を撮影し、サーバに送信する。サーバは画像からテキストを抽出し、これを音声に変換して端末に送信する。端末はこの音声をユーザに読み上げる。
【1249】
この形態により、視覚障害者は社会活動における情報の取得や理解を助けるための具体的な支援を受けることが可能となる。
【1250】
特定処理の流れについて図15を用いて説明する。
【1251】
ステップ1:ユーザが端末に対して音声入力を行う。この音声入力には、会議やイベントの雰囲気を問うプロンプト文や、読み上げを希望する文書に関するリクエストが含まれる。端末はこの音声を受け取り、テキストデータに変換する。
【1252】
ステップ2:変換されたテキストデータは、インターネット経由でサーバに送信される。サーバはこのデータを受信し、生成AIモデルによる処理のために準備する。
【1253】
ステップ3:会議やイベントの雰囲気に関するリクエストの場合、サーバは生成AIモデルを使用して、提供された音声や映像データから雰囲気や反応を分析する。文書読み上げのリクエストの場合、サーバは端末から送信された文書の画像データを受信し、テキスト抽出を行う。
【1254】
ステップ4:生成AIモデルは、分析または抽出された情報を基に、適切なテキストレスポンスを生成する。会議の雰囲気に関するリクエストでは、その場の感情やキーポイントを要約したレスポンスを、文書読み上げのリクエストでは、抽出されたテキスト情報を生成する。
【1255】
ステップ5:生成されたテキストレスポンスは、サーバから端末に送信される。端末はこのテキストを受け取り、内蔵されたテキストから音声への変換機能を用いて、音声データに変換する。
【1256】
ステップ6:変換された音声データはユーザに対して出力される。この出力により、ユーザは会議やイベントの雰囲気を理解したり、文書の内容を聞くことが可能となる。
【1257】
この処理フローを通じて、視覚障害者は社会活動における情報の取得と理解を深めることができ、より自立した参加が可能となる。
【1258】
(応用例3)
【1259】
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1260】
視覚障害者が販売場所での買い物を行う際、商品の位置や情報、店内の雰囲気や人々の反応を把握することが困難であるという課題がある。このため、視覚障害者は独立して買い物をすることに制約を感じる場合があり、その社会参加の機会が限定されてしまう。また、販売場所での安全な移動や商品選択に必要な情報を効率的に提供するシステムが不足していることも問題である。
【1261】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1262】
この発明では、サーバは、生成AIを活用して視覚障害者に対して販売場所内の商品情報および人々の反応の分析を基にした音声案内を提供する手段と、リアルタイムで環境の情報を取得し、それを解析して音声による案内情報を生成する手段と、販売場所内の商品の位置や特売情報を含む環境データを活用する手段と、を含む。これにより、視覚障害者が販売場所での商品選択や移動を安全かつ効率的に行い、社会参加の機会を拡大することが可能となる。
【1263】
「生成AI」は、機械学習や深層学習の技術を基にしたアルゴリズムであり、特定の入力から人間が理解しやすい形式での出力を生成するシステムである。
【1264】
「視覚障害者」は、視力の障害により、一般的な視覚情報を認識することが困難な人を指す。
【1265】
「販売場所内の商品情報」は、商品の種類、価格、配置場所、特売情報など、商品購入に必要な情報全般を含む。
【1266】
「人々の反応の分析を基にした音声案内」は、周囲の人々の表情、言葉、動作などの反応を解析し、その情報を基に作成された音声による指示や情報提供を指す。
【1267】
「リアルタイムで環境の情報を取得する手段」は、現在の時間に即して、周囲の環境データを継続的に収集する方法や技術を指す。
【1268】
「音声による案内情報を生成する手段」は、収集した情報やデータを解析し、それを基に視覚障害者に有用な指示や情報を音声形式で提供するプロセスを指す。
【1269】
「販売場所内の商品の位置や特売情報を含む環境データ」は、商品がどこに配置されているか、どの商品が特売中であるかを示す情報を含む、販売場所の状態や条件に関する全般的なデータである。
【1270】
「サーバ」は、データの収集、処理、保存、およびクライアントへの情報提供を行うコンピュータシステムまたはソフトウェアのことである。
【1271】
この発明を実施するための形態は、視覚障害者が販売場所での買い物をサポートするシステムに関するものである。このシステムは、生成AIモデルを活用し、販売場所内の商品情報および人々の反応の分析を基にした音声案内を提供する。サーバは、リアルタイムで環境の情報を取得し、それを解析して音声による案内情報を生成する機能を持つ。また、サーバは、販売場所内の商品の位置や特売情報を含む環境データを活用する機能も有する。このシステムの実装には、スマートデバイスやヘッドセットなどの端末が使用され、これらの端末を通じて視覚障害者は生成AIにアクセスする。端末は、声や音声メッセージ、触覚フィードバックなどの形で情報をユーザに伝える機能を有する。
【1272】
使用するハードウェアとしては、スマートデバイス(例:スマートフォン)、店内設置のカメラやセンサーがあり、ソフトウェアとしては音声認識・合成システム、位置情報サービス、生成AIモデル(例:OpenAIのGPT-4)が使用される。このシステムにより、視覚障害者は販売場所での商品選択や移動を安全かつ効率的に行い、社会参加の機会を拡大することができる。
【1273】
具体例としては、ユーザがスマートデバイスを使用して「近くの特売のお菓子は?」と問いかけると、サーバは店内の環境データを解析し、生成AIモデルにより「あなたの近くには、特売中のチョコレートがあります。右手方向、3メートル先の棚の上です」という案内情報を生成し、端末を通じて音声メッセージでユーザに伝える。このプロセスは、ユーザの位置情報と店内の商品情報を組み合わせて、最適な案内を提供することを可能にする。
【1274】
特定処理の流れについて図16を用いて説明する。
【1275】
ステップ1:ユーザが端末に対して質問を入力する。
【1276】
ユーザはスマートデバイスを使用して特定の商品情報や店内の案内に関する質問を音声で入力する。この音声入力は、端末に搭載された音声認識システムによってテキストデータに変換される。
【1277】
ステップ2:端末が質問のテキストデータをサーバに送信する。
【1278】
変換されたテキストデータは、インターネットを介してサーバに送信される。サーバはこのテキストデータを受け取り、処理のための入力として使用する。
【1279】
ステップ3:サーバがテキストデータを解析し、適切な応答を生成するためのプロンプトを生成AIモデルに送信する。
【1280】
サーバは受け取ったテキストデータを解析し、ユーザの質問に基づいて具体的な応答を生成するためのプロンプトを形成する。このプロンプトは生成AIモデルに送信され、応答の生成に使用される。
【1281】
ステップ4:生成AIモデルがプロンプトに基づいて応答を生成する。
【1282】
生成AIモデルはサーバから受け取ったプロンプトを処理し、ユーザの質問に適切な応答を生成する。この応答には、店内の商品位置や特売情報、店内環境の説明などが含まれる場合がある。
【1283】
ステップ5:サーバが生成した応答を音声データに変換する。
【1284】
サーバは生成AIモデルから受け取った応答テキストを音声合成システムを用いて音声データに変換する。この音声データはユーザに情報を伝達するために使用される。
【1285】
ステップ6:サーバが音声データを端末に送信する。
【1286】
音声データは再びインターネットを介してユーザの端末に送信される。端末はこの音声データを受け取り、ユーザに対して音声出力する。
【1287】
ステップ7:ユーザが音声出力を聞いて情報を得る。
【1288】
ユーザは端末からの音声出力を通じて、質問に対する応答としての商品情報や店内の案内情報を聞く。これにより、ユーザは必要な情報を得て、販売場所での買い物を効率的に行うことができる。
【1289】
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
【1290】
「形態例1」
【1291】
本発明の一実施形態では、生成AIはユーザの感情を認識する感情エンジンを有している。感情エンジンは、ユーザの声調、表情、行動などから感情を推測し、その情報を生成AIに提供する。生成AIは、感情エンジンから提供された情報を基に、ユーザに対する情報提供の方法を調整する。例えば、ユーザが怒っていると感じた場合、生成AIは情報の伝達方法を穏やかにするか、または必要な情報のみを伝達する。これにより、ユーザの感情状態に応じた適切な対応が可能となる。
【1292】
「形態例2」
【1293】
また、本発明の別の実施形態では、感情エンジンはユーザの生体情報(例えば、心拍数や皮膚の電気伝導度)も分析する。これにより、ユーザの感情状態をより正確に把握することが可能となる。生成AIは、この生体情報を基にユーザの感情状態を推測し、情報提供の方法を調整する。例えば、ユーザが緊張していると感じた場合、生成AIはリラックスするための音楽を提供するなど、ユーザの感情状態を改善するための対応を行う。
【1294】
「形態例3」
【1295】
さらに、本発明の別の実施形態では、生成AIはユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する。例えば、ユーザが驚いていると感じた場合、生成AIは強い触覚フィードバックを提供してユーザの注意を引く。一方、ユーザがリラックスしていると感じた場合、生成AIは穏やかな触覚フィードバックを提供する。これにより、ユーザの感情状態に適した触覚フィードバックを提供することが可能となる。
【1296】
以下に、各形態例の処理の流れについて説明する。
【1297】
「形態例1」
【1298】
ステップ1:ユーザの声調、表情、行動などから感情を推測する感情エンジンが動作を開始する。
【1299】
ステップ2:感情エンジンは推測した感情情報を生成AIに提供する。
【1300】
ステップ3:生成AIは、感情エンジンから提供された情報を基に、ユーザに対する情報提供の方法を調整する。
【1301】
「形態例2」
【1302】
ステップ1:感情エンジンはユーザの生体情報(例えば、心拍数や皮膚の電気伝導度)を分析する。
【1303】
ステップ2:生成AIは、この生体情報を基にユーザの感情状態を推測し、情報提供の方法を調整する。
【1304】
ステップ3:生成AIは、ユーザの感情状態を改善するための対応を行う。例えば、ユーザが緊張していると感じた場合、生成AIはリラックスするための音楽を提供する。
【1305】
「形態例3」
【1306】
ステップ1:生成AIはユーザの感情状態を感情エンジンから取得する。
【1307】
ステップ2:生成AIは、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する。
【1308】
ステップ3:生成AIは、調整した触覚フィードバックをユーザに提供する。
【1309】
(実施例1)
【1310】
次に、形態例1の実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1311】
視覚障害者が日常生活や社会活動を行う際に直面する、周囲の環境を正確に理解しにくいという課題である。従来の支援技術では、環境の情報を一方的に提供するだけであり、ユーザの感情状態を考慮した情報提供が不足している点も問題である。これにより、ユーザが情報を受け入れにくい場合や、緊急を要する状況での適切な対応が難しい状況がある。
【1312】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1313】
この発明では、サーバは、携帯端末やヘッドセットから送信された環境データを解析する手段と、ユーザの感情状態を推測する手段と、解析した環境情報と感情情報を基に情報提供方法を調整する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確にかつ容易に理解することが可能となり、その感情状態に応じた適切な情報提供が実現する。また、この適応的な情報提供により、視覚障害者の安全な移動支援と社会参加の向上が可能となる。
【1314】
「生成AI」とは、機械学習や深層学習の技術を用いて訓練されたアルゴリズムであり、入力されたデータから新たな情報を生成または解析する能力を持つシステムである。
【1315】
「環境データ」とは、ユーザの周囲の物理的な状況や状態に関する情報であり、画像、音声、位置情報など、センサーやカメラを通じて収集されたデータを指す。
【1316】
「携帯端末」とは、スマートフォンやタブレットなど、持ち運びが可能で、無線通信機能を備えた電子デバイスである。
【1317】
「ヘッドセット」とは、耳に装着することで音声通信や音楽の聴取が可能な装置であり、視覚障害者支援システムでは、音声メッセージの伝達や音声入力の受付けに用いられる。
【1318】
「ユーザの感情状態」とは、ユーザの現在の心理的な状況や感情の状態を指し、声のトーン、表情、行動などから推測される。
【1319】
「情報提供方法を調整する」とは、受け取った環境データとユーザの感情状態に基づき、情報を伝える際の方法(例えば、音声メッセージのトーンや触覚フィードバックの強度)を適切に変更することを指す。
【1320】
この発明を実施するための形態は、視覚障害者が装着する携帯端末やヘッドセットと、これらを制御するサーバ上で動作する生成AIモデルを中心に構成される。携帯端末やヘッドセットには、環境を認識するためのカメラやセンサー、そしてユーザの感情状態を推測するためのマイクロフォンが含まれる。これらのハードウェアを通じて収集されたデータは、無線通信技術を用いてサーバに送信される。
【1321】
サーバ上では、TensorFlowやPyTorchといった機械学習フレームワークを使用した生成AIモデルが、送信されたデータの解析を行う。この解析には、画像認識技術を用いた物体や人物の位置、形状、動きの特定や、音声解析技術を用いたユーザの感情状態の推測が含まれる。解析結果に基づき、生成AIモデルは、ユーザに最適な情報提供方法を決定し、その情報を音声メッセージや触覚フィードバックの形で携帯端末やヘッドセットを通じてユーザに伝達する。
【1322】
例えば、ユーザが公園を歩いている際に、携帯端末のカメラが前方のベンチや歩いている人を捉え、このデータがサーバに送信される。サーバ上の生成AIモデルは、この画像からベンチの位置や歩いている人の動きを解析し、ユーザに「右側3メートル先にベンチがあります。前方に人が歩いています」という音声メッセージを提供する。同時に、ユーザの声調から感情を推測し、必要に応じてメッセージのトーンを調整する。
【1323】
このように、この発明は、環境認識と感情推測の両方を統合した情報提供システムを提供する。これにより、視覚障害者は周囲の環境をより詳細にかつ適切に理解することができ、その感情状態に応じたカスタマイズされた情報提供を受けることが可能となる。このシステムは、視覚障害者の日常生活の質の向上と社会参加の促進に寄与することが期待される。
【1324】
特定処理の流れについて図17を用いて説明する。
【1325】
ステップ1:環境データの収集
【1326】
端末は、カメラやセンサーを用いて周囲の環境データを収集する。このデータには、画像、音声、位置情報が含まれる。入力として環境からの生データがあり、出力としては、この生データをデジタル情報に変換した形式が得られる。端末はこの変換プロセスを通じて、可視光画像や音声データ、GPSからの位置情報をサーバに送信する。
【1327】
ステップ2:データ解析と感情推測
【1328】
サーバは、受け取った環境データを生成AIモデルと感情エンジンを用いて解析する。生成AIモデルは画像認識を行い、人物や物体の位置、形状、動きを特定する。感情エンジンは音声データからユーザの感情状態を推測する。入力としては端末から送信された環境データがあり、出力としては物体の識別情報とユーザの感情状態が得られる。サーバはこのプロセスを通じて、周囲の環境とユーザの感情の両方に関する詳細な情報を生成する。
【1329】
ステップ3:情報提供方法の決定
【1330】
サーバ上の生成AIモデルは、解析した環境情報と感情情報を組み合わせて、ユーザに対する情報提供方法を決定する。このプロセスでは、情報の伝達方法をユーザの感情状態に適応させることが可能である。入力としては環境情報とユーザの感情状態があり、出力としては、適応された情報提供方法の指示が得られる。サーバはこの指示に基づいて端末に情報伝達方法を送信する。
【1331】
ステップ4:情報の伝達
【1332】
端末はサーバから受け取った指示に従い、音声メッセージや触覚フィードバックを通じてユーザに情報を提供する。このステップでは、入力としてサーバからの指示があり、出力としてはユーザが理解できる形での情報伝達が行われる。端末はこのプロセスを通じて、例えば「前方に横断歩道があります」という音声メッセージや、近くに人がいることを示す触覚フィードバックをユーザに提供する。
【1333】
(応用例1)
【1334】
次に、形態例1の応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1335】
現代社会において、視覚障害者は移動や日常生活において多くの困難に直面しています。特に外出時には、周囲の環境を正確に把握することが難しく、安全な移動や社会参加に際して障害となっているのが現状です。また、情報の伝達方法が限定されているため、視覚障害者が感じる不安やストレスを軽減する手段が不足しています。このような状況下で、視覚障害者がより安全に、かつ自信を持って社会に参加するための支援方法の開発が求められています。
【1336】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1337】
この発明では、サーバは、生成AIを利用して環境情報を解析し、その解析結果に基づきユーザーに対して視覚情報の代わりとなる音声メッセージや触覚フィードバックを提供する手段と、スマートデバイスやヘッドセットを介してAIにアクセスし、リアルタイムで環境データを取得する手段と、カメラやセンサーを用いて周囲の物体や人物、その動きや形状を認識する手段と、ユーザーの感情状態を推測し、その情報を元に情報提供の方法を調整する感情エンジンを有する手段と、を含む。これにより、視覚障害者が周囲の環境をより正確に理解し、安全な移動や社会参加を実現することが可能となる。さらに、ユーザーの感情状態に応じた情報伝達方法を採用することで、ユーザーが感じる不安やストレスを軽減し、より快適な社会参加をサポートすることができます。
【1338】
「生成AI」とは、人工知能技術を基にして環境データを解析し、その解析結果を元にユーザーに対して情報を提供するシステムである。
【1339】
「音声メッセージ」とは、言葉による情報伝達手段の一つで、音声によって情報をユーザーに伝えるメッセージである。
【1340】
「触覚フィードバック」とは、触感を通じて情報を伝達する手段であり、デバイスからユーザーへの物理的な刺激によって情報を提供する方法である。
【1341】
「スマートデバイス」とは、インターネットに接続できる機能を持ち、複数のスマート機能を統合したポータブル電子デバイスである。
【1342】
「ヘッドセット」とは、頭部に装着することで音声通信や音声出力を可能にする装置であり、この文脈では音声メッセージや触覚フィードバックを受け取るために用いられる。
【1343】
「カメラやセンサー」とは、周囲の環境や物体を画像やデータとして捉えるためのデバイスであり、この情報を生成AIが解析するために使用される。
【1344】
「感情エンジン」とは、ユーザーの声調、表情、行動などから感情状態を推測し、その情報を基に情報提供の方法を調整する技術やシステムである。
【1345】
この発明を実施するための形態は、視覚障害者が外出時や日常生活において周囲の環境をより安全かつ効果的に理解するためのシステムである。このシステムは、生成AI、スマートデバイスやヘッドセット、カメラやセンサー、そして感情エンジンを含む。
【1346】
サーバには生成AIが搭載されており、このAIはカメラやセンサーから送信される環境データを解析する。解析されたデータは、物体の位置、形状、動きといった情報を含み、この情報は音声メッセージや触覚フィードバックを通じてユーザーに伝えられる。スマートデバイスやヘッドセットは、ユーザーがこの情報を受け取るためのインターフェイスとして機能し、リアルタイムで環境データを生成AIに送信する。
【1347】
感情エンジンは、ユーザーの声調、表情、行動から感情状態を推測し、その情報を生成AIに提供する。生成AIは、この感情情報を基に情報提供の方法を調整し、例えば、ユーザーが不安や恐怖を感じている場合は、より穏やかな声調で必要な情報を提供する。
【1348】
このシステムを実現するためには、スマートデバイスやヘッドセットにカメラやセンサー、そして感情エンジンを組み込む必要がある。また、サーバ側では、生成AIがこれらのデータを処理し、適切なフィードバックを生成するためのアルゴリズムが必要である。
【1349】
具体例として、ユーザーが交差点に近づいている場合、カメラとセンサーはその位置と周囲の車両の動きを捉え、生成AIはこの情報を基に「右から車が近づいています。安全な時を見計らって渡ってください」という音声メッセージを生成し、ヘッドセットを通じてユーザーに伝える。また、ユーザーが緊張していることを感情エンジンが感知した場合、生成AIは情報の伝達方法をより穏やかなものに調整する。
【1350】
この形態により、視覚障害者は周囲の環境をより安全に、かつ効果的に理解し、日常生活や社会参加においてより高い自立性を実現することができる。
【1351】
特定処理の流れについて図18を用いて説明する。
【1352】
ステップ1:環境データの収集
【1353】
端末に搭載されたカメラやセンサーは、ユーザーの周囲の環境データを収集する。このデータには、物体の位置、形状、動きといった情報が含まれる。この収集されたデータは、リアルタイムでサーバに送信される。
【1354】
ステップ2:感情状態の推測
【1355】
端末に搭載された感情エンジンは、ユーザーの声調、表情、行動から感情状態を推測する。この推測された感情状態は、情報提供の方法を調整するためにサーバに送信される。
【1356】
ステップ3:データの解析と情報の生成
【1357】
サーバに搭載された生成AIは、ステップ1とステップ2で収集・送信された環境データと感情状態のデータを解析する。この解析に基づいて、ユーザーにとって有用な情報が生成される。例えば、交差点の安全な渡り方や周囲の物体に関する情報などが含まれる。
【1358】
ステップ4:情報の伝達
【1359】
生成された情報は、サーバから端末に送信され、端末はこの情報を音声メッセージや触覚フィードバックの形でユーザーに伝える。この際、ユーザーの感情状態に基づいて、情報伝達の方法が調整される。例えば、ユーザーが不安を感じている場合は、より穏やかな声調で情報が伝えられる。
【1360】
ステップ5:フィードバックの受取と応答
【1361】
ユーザーは、提供された情報を基に行動を取る。同時に、ユーザーの反応や追加の感情状態は、端末を通じて再度サーバにフィードバックされる。このフィードバックは、システムの精度を向上させるために利用される。
【1362】
このプロセスを通じて、ユーザーは周囲の環境についての理解を深めることができ、安全かつ効果的に日常生活や社会参加が可能となる。また、システムはユーザーの感情状態に敏感に対応し、よりパーソナライズされた情報提供が実現される。
【1363】
(実施例2)
【1364】
次に、形態例2の実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1365】
視覚障害者が直面する主な課題の一つは、外出時に周囲の環境を安全に、かつ効果的に認識することが困難であることだ。これには、障害物の存在、人々の動き、交通状況の変化など、様々な要因が関与する。さらに、情報の提供方法がユーザの感情状態や個別のニーズに適応していない場合、不安やストレスを引き起こす可能性がある。従来の支援技術では、これらの課題に対して十分な解決策を提供できていない。
【1366】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1367】
この発明では、サーバは、生成AIを活用して視界の代替となる情報を提供する手段と、リアルタイムで環境の情報を取得し、周囲の物体や人物を認識する手段と、ユーザの生体情報を解析し、その感情状態を推測する手段と、を含む。これにより、視覚障害者は周囲の環境を安全に認識し、その移動をサポートする音声メッセージや触覚フィードバックを受け取ることが可能となる。また、ユーザの感情状態に応じて情報提供の方法が調整されるため、ユーザのストレスが軽減され、より快適に外出することが可能となる。
【1368】
「生成AI」は、人工知能の一種で、入力されたデータから新しい情報やデータを生成する技術である。
【1369】
「視界の代替となる情報」は、視覚に頼ることができない人々が、周囲の環境や状況を理解するために使用される、視覚以外の感覚(聴覚、触覚など)に基づく情報である。
【1370】
「スマートデバイス」は、インターネットや他のデバイスと接続することができ、複数の機能を持つ電子機器である。
【1371】
「ヘッドセット」は、一般に頭部に装着し、音声の入力(マイク)と出力(ヘッドホン)の両方を提供する装置である。
【1372】
「リアルタイムで環境の情報を取得する手段」は、ユーザの周囲の環境から情報を即時に収集し、分析する技術やプロセスである。
【1373】
「周囲の物体や人物を認識する手段」は、カメラ、センサー、音声認識技術などを用いて、物体や人物の存在、位置、動作を識別し理解する技術である。
【1374】
「声や音声メッセージ、触覚フィードバック」は、音声や振動などの非視覚的な方法を通じて、ユーザに情報を伝達する手段である。
【1375】
「ユーザの生体情報」は、心拍数、皮膚の電気伝導度など、ユーザの身体的状態を示すデータである。
【1376】
「感情状態を推測する手段」は、ユーザの生体情報や行動パターンから、その時点での感情や心理的状態を分析し理解する技術である。
【1377】
「情報提供の方法を調整する手段」は、ユーザの状態やニーズに応じて、情報の伝達方法(例えば、メッセージの内容や提示の仕方)を最適化する技術やプロセスである。
【1378】
この発明を実施するための形態は、視覚障害者が外出時に周囲の環境を理解し、安全に移動することをサポートするためのシステムである。このシステムは、生成AIモデル、スマートデバイス、センサー、ヘッドセット、および生体情報測定装置を活用して構成される。
【1379】
サーバ上に配置された生成AIモデルは、スマートデバイスやセンサーから送信されるデータを基にして、周囲の物体や人物の位置、動き、またユーザの生体情報を解析する。この解析には、高度なデータ加工とデータ演算が含まれる。使用するハードウェアには、高解像度カメラ、マイク、心拍数センサー、皮膚電気伝導度センサーなどがあり、ソフトウェアには画像認識アルゴリズム、音声認識アルゴリズム、および感情状態分析アルゴリズムが含まれる。
【1380】
端末は、スマートデバイス(スマートフォンやタブレット)を指し、内蔵されたカメラやマイクを使用して周囲の情報を収集し、サーバに送信する。また、端末はサーバからの応答を受け取り、音声メッセージや触覚フィードバックとしてユーザに伝達する。ヘッドセットは、音声メッセージをユーザに直接伝えるために使用される。
【1381】
具体例として、ユーザが街を歩いている状況を想定する。端末のカメラは前方の障害物を捉え、「前方3メートルに椅子がある」というプロンプト文に基づいて生成AIモデルが音声メッセージを生成し、ヘッドセットを通じてユーザに伝える。同時に、端末はマイクを使用して周囲の音を捉え、人々の動きを解析し、手首に装着された触覚デバイスを通じて触覚フィードバックを提供する。ユーザの生体情報が示す感情状態に基づき、「ユーザの心拍数が高いことから緊張している」と判断した場合、リラックスするための音楽を提供するプロンプト文が生成AIモデルによって処理される。
【1382】
この形態により、視覚障害者は周囲の環境に関する豊富な情報を得ることができ、感情状態に配慮した情報提供によって外出時の安心感が向上する。
【1383】
特定処理の流れについて図19を用いて説明する。
【1384】
ステップ1:環境データの収集
【1385】
端末は、内蔵されたカメラとマイク、生体情報センサーを使用して、ユーザの周囲の環境データとユーザの生体情報を収集する。このステップの入力は、周囲の光景と音、ユーザの心拍数や皮膚の電気伝導度であり、出力は収集した環境データと生体情報のデジタル表現である。端末はこれらのデータをデジタル情報に変換して処理する。
【1386】
ステップ2:データの送信と解析
【1387】
収集されたデータは、無線通信を介してサーバに送信される。サーバ上の生成AIモデルは、送信された環境データと生体情報を解析し、周囲の物体や人物の位置、動き、ユーザの感情状態を識別する。このステップの入力は、環境データと生体情報であり、出力は物体や人物の識別情報とユーザの感情状態である。サーバはデータを解析し、識別情報と感情状態を推測する。
【1388】
ステップ3:情報提供の調整とフィードバックの生成
【1389】
生成AIモデルは、解析結果に基づいて、ユーザに提供する情報の内容と形式を調整する。ユーザが緊張している場合はリラックスするための音楽を選択し、障害物の位置情報は音声メッセージで、周囲の人々の動きは触覚フィードバックで伝える。このステップの入力は、物体や人物の識別情報とユーザの感情状態であり、出力は音声メッセージや触覚フィードバック、音楽などの情報提供内容である。サーバは解析結果に基づいて適切なフィードバックを生成し、端末に送信する。
【1390】
ステップ4:フィードバックの伝達
【1391】
端末はサーバから送信されたフィードバックを受け取り、音声メッセージはヘッドセットを通じて、触覚フィードバックは触覚デバイスを通じて、音楽は端末のスピーカーまたはヘッドセットからユーザに伝える。このステップの入力は、サーバからのフィードバックであり、出力はユーザが認識可能な形での情報提供である。端末は受け取ったフィードバックを適切な出力装置を通じてユーザに伝達する。
【1392】
これらのステップを通じて、視覚障害者は周囲の環境をより安全かつ効率的に認識し、感情状態に応じたカスタマイズされたサポートを受けることが可能となる。
【1393】
(応用例2)
【1394】
次に、形態例2の応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1395】
現状では、視覚障害者を含むユーザーが自動運転車両を使用する際に、周囲の環境や状況を正確に認識し、安全かつ快適に移動することが困難である。特に、周囲の車両や障害物、信号の状態を理解することが難しく、またユーザーの感情状態に応じた情報提供や環境調整が行われていないため、移動中の不安やストレスが増大することがある。
【1396】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1397】
この発明では、サーバは、環境の動的な要素をリアルタイムで認識し情報を提供する手段と、車載システムやヘッドセットを介してAIにアクセスする手段と、車両の周囲の環境情報を取得するためのセンサーやカメラからの入力データを解析する手段と、周囲の車両、障害物、信号状態を認識する手段と、声や音声メッセージ、触覚フィードバック、生体情報に基づく感情状態の調整を行う手段と、を含む。これにより、ユーザーが周囲の環境や状況を正確に理解し、安全かつ快適に移動することが可能となる。また、ユーザーの感情状態に応じた情報提供や環境調整により、移動中の不安やストレスを軽減し、より快適な移動体験を実現することができる。
【1398】
「生成AI」は、人工知能技術の一種であり、複雑なデータを解析し、それに基づいて新しい情報や推論を生成するシステムである。
【1399】
「環境の動的な要素をリアルタイムで認識し情報を提供する手段」とは、センサーやカメラなどの入力データを解析し、周囲の変化する状況(車両の動き、障害物の存在、信号の変化など)を即時に検出し、その情報をユーザーに伝達する機能を指す。
【1400】
「車載システムやヘッドセットを介してAIにアクセスする手段」とは、自動運転車両内の組み込みシステムや、ユーザーが身につけるヘッドセットなどを通じて、生成AIと連携し、情報のやり取りを行うインターフェースを指す。
【1401】
「センサーやカメラからの入力データを解析する手段」とは、車両周辺の環境データを捉えるために設置されたセンサーやカメラが収集したデータを、リアルタイムで処理・解析し、環境情報を把握する機能を指す。
【1402】
「周囲の車両、障害物、信号状態を認識する手段」とは、自動運転車両がその周囲の物体や他の車両、交通信号などの状況を正確に理解し、これらの情報をベースに安全な運転判断を行うための技術やシステムを指す。
【1403】
「声や音声メッセージ、触覚フィードバック、生体情報に基づく感情状態の調整を行う手段」とは、ユーザーへの情報提供を音声や触覚フィードバックを通じて行い、さらにユーザーの生体情報を分析して感情状態を推定し、それに応じた情報提供や環境調整を実施する機能を指す。
【1404】
この発明を実施するための形態は、自動運転車両において、視覚障害者を含むユーザーが安全かつ快適に移動するための支援システムである。このシステムは、車載センサーやカメラ、生成AIモデル、音声合成エンジン、触覚フィードバックデバイス、生体情報センサーなどを組み合わせて構成される。
【1405】
サーバは、車載センサーやカメラからの入力データを受け取り、これを解析して車両の周囲の環境情報を認識する。この環境情報には、他の車両、障害物、信号の状態などが含まれる。生成AIモデルを用いて、この情報を基にして、ユーザーに対する音声メッセージや触覚フィードバックを生成する。また、ユーザーの生体情報センサーから収集されるデータ(例えば、心拍数や皮膚の電気伝導度)を分析し、ユーザーの感情状態を推測する。この感情状態に応じて、情報提供の方法や環境を調整することで、ユーザーの心理的快適性を向上させる。
【1406】
例えば、サーバが車両の右側から接近してくる他の車両を検出した場合、生成AIモデルを用いて「右側から車両が接近しています。注意してください」という音声メッセージを生成し、音声合成エンジンを通じてユーザーに伝える。同時に、ユーザーが緊張していると感じた場合は、「リラックスできる音楽を提供してください」というプロンプトを生成AIモデルに送り、音楽を流してユーザーをリラックスさせる。
【1407】
この形態では、車両に取り付けられたカメラやセンサー、触覚フィードバックデバイス、心拍数センサーや皮膚電気伝導度センサーなどの生体情報センサー、生成AIモデル、音声合成エンジンなどのハードウェアとソフトウェアが重要な役割を果たす。これらを適切に組み合わせることで、視覚障害者を含む全てのユーザーに対して、周囲の環境をより良く理解し、安全かつ快適に移動するためのサポートを提供することができる。
【1408】
特定処理の流れについて図20を用いて説明する。
【1409】
ステップ1:環境データの収集
【1410】
サーバは、車載センサーやカメラから送信される周囲の環境データを収集する。このデータには、障害物の位置、近くの車両の動き、信号の状態などが含まれる。入力されたこれらのデータを基に、サーバは周囲の状況を把握するためのデータ加工やデータ演算を行う。
【1411】
ステップ2:環境データの解析
【1412】
収集した環境データは、生成AIモデルによって解析される。この解析により、車両の周囲に存在する障害物の位置、近接する車両の動向、信号の状態などが認識される。解析結果は、ユーザーに情報を提供するための基礎として使用される。
【1413】
ステップ3:ユーザーの生体情報の収集と分析
【1414】
サーバは、ユーザーの生体情報センサーから心拍数や皮膚の電気伝導度などのデータを収集する。これらのデータは分析され、ユーザーの感情状態を推測するために使用される。この推測結果は、情報提供方法や環境調整の決定に役立てられる。
【1415】
ステップ4:情報提供方法の決定
【1416】
サーバは、解析された環境データとユーザーの感情状態を考慮して、最適な情報提供方法を決定する。例えば、ユーザーが緊張していると感じた場合、リラックスできる音楽を提供することを決定する。この決定プロセスには、生成AIモデルが使用される。
【1417】
ステップ5:情報の提供
【1418】
決定された情報提供方法に基づき、サーバは音声メッセージや触覚フィードバック、適切な音楽の提供などを行う。これらの情報提供は、ユーザーに対して最適な体験を提供するためにカスタマイズされる。たとえば、「右側から車両が接近しています。注意してください」という音声メッセージがユーザーに伝えられることがある。
【1419】
このプログラムの処理により、自動運転車両を使用するユーザーは、周囲の環境をより良く理解し、安全かつ快適に移動することが可能になる。また、ユーザーの感情状態に応じた情報提供や環境調整によって、移動中の不安やストレスを軽減できる。
【1420】
(実施例3)
【1421】
次に、形態例3の実施例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1422】
視覚障害者が日常生活や社会活動において直面する情報アクセスの障壁を低減することである。具体的には、会議やイベントにおける周囲の人々の反応や雰囲気の理解、読みたい書籍や資料の内容へのアクセス、及び自身の感情状態に適応した触覚フィードバックの提供が挙げられる。これらの課題は、視覚障害者の社会参加の向上と自立した生活を制限する主要な要因である。
【1423】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1424】
この発明では、サーバは、音声データをテキストデータに変換する手段と、生成AIモデルを用いてテキストデータから環境の雰囲気や人々の反応を分析する手段と、テキストデータを音声情報に変換してユーザに伝える手段と、ユーザの感情状態をモニタリングする手段と、ユーザの感情状態に基づいて触覚フィードバックの強度やパターンを調整する手段と、会議やイベントの音声をリアルタイムで収集する手段と、を含む。これにより、視覚障害者が周囲の環境をより深く理解し、社会活動に積極的に参加すること、読みたい内容を音声情報として容易にアクセスすること、及び感情状態に応じた適切な触覚フィードバックを受け取ることが可能となる。
【1425】
「音声データをテキストデータに変換する手段」とは、収集された音声情報を文字情報に変換するプロセスや装置を指す。この変換には、音声認識技術が用いられる。
【1426】
「生成AIモデルを用いてテキストデータから環境の雰囲気や人々の反応を分析する手段」とは、文字情報を解析し、その情報から周囲の状況や人々の感情、反応などを理解するための技術や方法を指す。この分析には、自然言語処理技術が用いられる。
【1427】
「テキストデータを音声情報に変換してユーザに伝える手段」とは、解析された文字情報を音声として再生し、ユーザに伝達するプロセスや装置を指す。この変換には、テキスト音声変換技術が用いられる。
【1428】
「ユーザの感情状態をモニタリングする手段」とは、ユーザの声のトーン、表情、体の動きなどから感情状態を識別し、分析する技術や方法を指す。このモニタリングには、音声分析技術やセンサー技術が用いられることがある。
【1429】
「ユーザの感情状態に基づいて触覚フィードバックの強度やパターンを調整する手段」とは、ユーザの現在の感情状態に応じて、触覚デバイスを通じて提供されるフィードバックの種類や程度を変更する技術や方法を指す。この調整には、感情分析結果を基にしたフィードバック制御アルゴリズムが用いられる。
【1430】
「会議やイベントの音声をリアルタイムで収集する手段」とは、生の音声情報をその場で直接捉え、デジタルデータとして記録する技術や装置を指す。この収集には、マイクロフォンや音声記録システムが用いられる。
【1431】
この発明を実施するための形態では、サーバと端末(スマートデバイス)、及びユーザ(視覚障害者)が中心となる。サーバは、音声認識技術、自然言語処理技術、テキスト音声変換技術、感情分析技術、及び触覚フィードバック制御技術を備えている。端末は、音声収集機能、感情状態モニタリング機能、及び触覚フィードバック提供機能を備えている。具体的なハードウェアとソフトウェアには、Google Cloud Speech-to-Text(音声認識)、OpenAIのGPT(テキスト分析と生成)、Amazon Polly(テキストから音声への変換)、及びTesseract OCR(文字認識)が含まれる。
【1432】
サーバは、端末から受信した音声データをGoogle Cloud Speech-to-Textを用いてテキストデータに変換する。次に、このテキストデータをOpenAIのGPTを用いて分析し、会議やイベントの雰囲気、人々の反応などの情報を抽出する。分析結果はテキストデータとして、Amazon Pollyを用いて音声情報に変換される。この音声情報は端末を通じてユーザに伝達される。
【1433】
端末は、マイクロフォンを用いて会議やイベントの音声をリアルタイムで収集し、サーバに送信する。また、端末はユーザの声のトーンや体の動きをモニタリングし、感情状態を分析するためのデータをサーバに送信する。サーバはこのデータを分析し、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する指示を端末に送信する。端末はこの指示に基づき、触覚デバイスを通じてユーザに適切なフィードバックを提供する。
【1434】
具体例としては、サーバが「会議の雰囲気を分析し、その概要を音声で提供せよ」というプロンプト文に基づいて処理を行い、端末が「今、話者が冗談を言ったことで、参加者から笑い声が上がっている」という音声情報をユーザに伝達するシナリオがある。また、ユーザが読みたい書籍のページを端末のカメラでスキャンし、「このページのテキストを読み取り、音声で読み上げせよ」というプロンプトに基づいて、テキストを音声情報に変換して提供する場合も含まれる。
【1435】
この形態により、視覚障害者は周囲の環境や会議の内容を理解しやすくなり、読みたい資料を音声でアクセスできるようになる。さらに、自身の感情状態に適応した触覚フィードバックにより、より豊かな情報を得ることが可能となる。
【1436】
特定処理の流れについて図21を用いて説明する。
【1437】
ステップ1:
【1438】
端末は、マイクロフォンを用いて会議やイベントの音声を収集する。この音声データはサーバに送信される。入力は生の音声データであり、出力はデジタル化された音声データである。このステップでは、音声データの収集とデジタル化が行われる。
【1439】
ステップ2:
【1440】
サーバは、受け取った音声データをGoogle Cloud Speech-to-Textを用いてテキストデータに変換する。入力はデジタル化された音声データであり、出力はテキストデータである。このプロセスでは、音声認識技術を用いて、音声情報を文字情報に変換するデータ加工が行われる。
【1441】
ステップ3:
【1442】
サーバは、変換されたテキストデータをOpenAIのGPTを用いて分析し、会議やイベントの雰囲気や人々の反応などの情報を抽出する。入力はテキストデータであり、出力は分析結果のテキストデータ(雰囲気や反応の要約)である。このステップでは、自然言語処理技術を用いて、テキストデータから有用な情報を抽出するデータ演算が行われる。
【1443】
ステップ4:
【1444】
サーバは、分析結果をテキストとしてAmazon Pollyを用いて音声情報に変換し、この音声情報を端末に送信する。入力は分析結果のテキストデータであり、出力は音声情報である。このプロセスでは、テキストから音声への変換が行われ、ユーザに対して理解しやすい形で情報が提供される。
【1445】
ステップ5:
【1446】
端末は、サーバから受信した音声情報をユーザに伝達する。このステップでは、端末のスピーカーを通じて音声情報が再生される。入力は音声情報であり、出力はユーザが聞くことができる音声メッセージである。
【1447】
ステップ6:
【1448】
端末は、ユーザの声のトーンや体の動きをモニタリングし、感情状態を分析するためのデータをサーバに送信する。入力はユーザの声や動きのデータであり、出力は感情状態の分析結果である。このステップでは、感情分析技術を用いて、ユーザの感情状態を識別するデータ演算が行われる。
【1449】
ステップ7:
【1450】
サーバは、ユーザの感情状態に応じて触覚フィードバックの強度やパターンを調整する指示を端末に送信する。入力は感情状態の分析結果であり、出力は触覚フィードバックの指示である。このステップでは、ユーザの感情状態を基にした触覚フィードバックのカスタマイズが行われる。
【1451】
ステップ8:
【1452】
端末は、サーバからの指示に基づき、触覚デバイスを通じてユーザに適切なフィードバックを提供する。このステップでは、ユーザが触覚フィードバックを通じて感情状態に応じた反応を受け取る。入力は触覚フィードバックの指示であり、出力はユーザの感覚に伝わる触覚フィードバックである。
【1453】
(応用例3)
【1454】
次に、形態例3の応用例3について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
【1455】
現代社会において、視覚障害者やセキュリティ関連の従事者は、環境の理解や安全な移動、異常行動や危険状況の即時認識といった課題に直面しています。特に、視覚障害者が社会参加を行う際やセキュリティ関連の従事者が緊急状況に迅速に対応する必要がある場合、周囲の環境や人々の感情状態を効果的に把握する手段が限られていることが問題です。また、使用者の感情状態に応じた適切な触覚フィードバックを提供することで、より安全で快適な社会生活を送るためのサポートが不十分であることも課題となっています。
【1456】
データ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
【1457】
この発明では、サーバは、生成AIを活用して視界の代替となる情報を提供する手段と、リアルタイムで周囲の人々の感情状態を分析し、異常な行動や状況を感知する際に適切な触覚フィードバックを提供する手段と、使用者の感情状態に応じた触覚フィードバックの強度やパターンを調整する手段と、を含む。これにより、視覚障害者が社会活動をより豊かに、自立して行うことが可能となり、セキュリティ関連の従事者が緊急状況においても周囲の環境や人々の感情状態を効果的に把握し、迅速に対応することが可能となる。
【1458】
「生成AI」とは、人工知能の一形態であり、学習データから独立して新たな情報や反応を生成し、特定のタスクを自動で行うシステムである。
【1459】
「視界の代替となる情報を提供する手段」とは、視覚情報に代わる形で、音声や触覚フィードバックを通じて、使用者に必要な情報を伝えるシステムや方法である。
【1460】
「スマートデバイスやヘッドセットを介してAIにアクセスする手段」とは、スマートフォン、タブレット、ヘッドマウントディスプレイなどのデバイスを用いて、AI機能やサービスに接続し利用するための方法やシステムである。
【1461】
「リアルタイムで環境の情報を取得する手段」とは、周囲の状況や変化を即時に捉え、分析・処理することが可能なシステムや技術である。
【1462】
「周囲の物体や人物を認識する手段」とは、カメラやセンサー等を通じて得られる画像や音声データから、物体や人物を特定し、それらの情報を解析するシステムやアルゴリズムである。
【1463】
「声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段」とは、音声合成技術や振動パターンを用いて、使用者に情報を伝達する方法である。
【1464】
「リアルタイムで周囲の人々の感情状態を分析し、異常な行動や状況を感知する際に適切な触覚フィードバックを提供する手段」とは、環境内の人々の表情や声のトーンを解析し、それに基づいて異常を警告するための触覚フィードバックを即座に発生させるシステムや方法である。
【1465】
「使用者の感情状態に応じた触覚フィードバックの強度やパターンを調整する手段」とは、使用者の現在の感情や心理状態を評価し、それに適合するように触覚フィードバックの出力を調節するシステムや技術である。
【1466】
この発明を実施するための形態には、視覚障害者やセキュリティ関連の従事者に対して、環境情報や人々の感情状態に基づくリアルタイムの警告と触覚フィードバックを提供するシステムが含まれる。このシステムは、生成AIモデル、スマートデバイス(スマート眼鏡やヘッドマウントディスプレイ)、感情分析ソフトウェア、触覚フィードバックデバイスから構成される。
【1467】
サーバは、生成AIモデルを用いて周囲の環境データから人々の感情状態を分析する。この分析には、OpenCVやTensorFlowなどの機械学習ライブラリが使用される。端末(スマート眼鏡やヘッドマウントディスプレイ)は、カメラやマイクを介して環境データを収集し、サーバに送信する。サーバからの分析結果は、端末を介してユーザに伝えられ、必要に応じて触覚フィードバックデバイスを通じて感覚的な警告が提供される。
【1468】
このシステムを用いることで、ユーザは周囲の環境や人々の感情状態をより深く理解することができ、安全性と快適性を向上させる。特に、視覚障害者は社会活動においてより自立した行動が可能になり、セキュリティ関連の従事者は緊急状況において迅速かつ効果的に対応することが可能になる。
【1469】
具体例としては、「あるセキュリティガードが、パトロール中にスマート眼鏡を着用しています。彼の眼鏡にインストールされたアプリケーションは、周囲の人々の顔をリアルタイムでスキャンし、その表情から感情状態を分析します。怒りや攻撃的な感情が検出された場合、ガードの眼鏡は即座に強い振動を発し、警告する」というシナリオが考えられる。このプロセスは、セキュリティガードや視覚障害者が周囲の状況をよりよく理解し、適切な対応をとるためのものである。
【1470】
特定処理の流れについて図22を用いて説明する。
【1471】
ステップ1:端末は、カメラとマイクを使用して周囲の環境データを収集する。この収集データには、周囲の人々の顔の映像と声の音声が含まれる。入力として周囲の映像と音声を受け取り、出力としてデータファイルを生成する。
【1472】
ステップ2:端末は、収集した環境データをサーバに送信する。このステップでは、収集された映像と音声データがサーバに向けて転送される。入力として端末からのデータファイルを受け取り、サーバへのデータ送信という出力を行う。
【1473】
ステップ3:サーバは、受け取った環境データを使用して、生成AIモデルを通じて周囲の人々の感情状態を分析する。このプロセスには、画像認識と音声認識の技術が用いられ、感情分析結果が生成される。入力として映像と音声データを受け取り、出力として感情分析結果を生成する。
【1474】
ステップ4:サーバは、感情分析結果に基づいて、適切な触覚フィードバックの指示を端末に送信する。この指示には、フィードバックの強度やパターンの情報が含まれる。入力として感情分析結果を受け取り、出力として触覚フィードバックの指示を生成する。
【1475】
ステップ5:端末は、サーバから受け取った触覚フィードバックの指示に基づいて、ユーザに触覚フィードバックを提供する。このフィードバックは、端末またはユーザが着用している触覚フィードバックデバイスを通じて行われる。入力として触覚フィードバックの指示を受け取り、出力としてユーザに対する具体的な触覚フィードバックの実行を行う。
【1476】
これらのステップを通じて、システムは周囲の環境や人々の感情状態を効果的に把握し、ユーザにリアルタイムで適切な警告と触覚フィードバックを提供する。これにより、視覚障害者の安全な移動や社会参加のサポート、セキュリティ関連の従事者の迅速な状況把握と対応が可能となる。
【1477】
特定処理部290は、特定処理の結果をロボット414に送信する。ロボット414では、制御部46Aが、スピーカ240及び制御対象443に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【1478】
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【1479】
生成AIの他の例としては、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)が挙げられる。
【1480】
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ロボット414によって特定処理が行われるようにしてもよい。
【1481】
なお、感情エンジンとしての感情特定モデル59は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情特定モデル59は、特定のマッピングである感情マップ(図9参照)に従い、ユーザの感情を決定してよい。また、感情特定モデル59は、同様に、ロボットの感情を決定し、特定処理部290は、ロボットの感情を用いた特定処理を行うようにしてもよい。
【1482】
図9は、複数の感情がマッピングされる感情マップ400を示す図である。感情マップ400において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ400では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。
【1483】
これらの感情は、感情マップ400の3時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ400の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。
【1484】
感情マップ400の内側は心の中、感情マップ400の外側は行動を表すため、感情マップ400の外側に行くほど、感情が目に見える(行動に表れる)ようになる。
【1485】
ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図(音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文:https://ci.nii.ac.jp/naid/500000375379)に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。
【1486】
感情マップでは学習を促す感情が2つ定義される。1つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう1つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。
【1487】
感情特定モデル59は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ユーザの感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、図10に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。図10では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。
【1488】
上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。
【1489】
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。
【1490】
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。
【1491】
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。
【1492】
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。
【1493】
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。
【1494】
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
【1495】
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
【1496】
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
【1497】
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【1498】
以上の実施形態に関し、更に以下を開示する。
【1499】
(請求項1)
生成AIを活用し、視界の代替となる情報を提供する手段と、スマートデバイスやヘッドセットを介してAIにアクセスする手段と、リアルタイムで環境の情報を取得する手段と、周囲の物体や人物を認識する手段と、声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段を含むシステム。
【1500】
(請求項2)
前記生成AIが、視覚障害者の安全な移動や環境の理解をサポートする機能を有する、請求項1記載のシステム。
【1501】
(請求項3)
前記生成AIが、視覚障害者の社会参加の向上を実現する機能を有する、請求項1記載のシステム。
【1502】
(請求項4)
前記生成AIが、ユーザの感情を認識する感情エンジンを有する、請求項1記載のシステム。
【1503】
(請求項5)
前記感情エンジンが、ユーザの声調、表情、行動などから感情を推測し、その情報を生成AIに提供する、請求項4記載のシステム。
【1504】
(請求項6)
前記生成AIが、感情エンジンから提供された情報を基に、ユーザに対する情報提供の方法を調整する、請求項5記載のシステム。
【1505】
「実施例1」
【1506】
(請求項1)
生成AIを活用し、周囲の環境情報を解析する手段と、
情報通信技術装置を介してAIにアクセスする手段と、
リアルタイムで環境データを取得する手段と、
環境内の物体や人物の特徴を識別する手段と、
音声や触覚による情報伝達を行う手段を含むシステム。
【1507】
(請求項2)
前記生成AIが、特定ユーザー群の環境認識と安全な移動を支援する機能を有する、請求項1記載のシステム。
【1508】
(請求項3)
前記生成AIが、特定ユーザー群の社会的活動の促進を可能にする機能を有する、請求項1記載のシステム。
【1509】
「応用例1」
【1510】
(請求項1)
視覚情報の代替として環境情報を解析し提供する生成AIを活用する手段と、
光学装置を含む携帯可能な端末を介してAIにアクセスし情報を取得する手段と、
リアルタイムで光学装置を通じて環境の映像とセンサー情報を取得する手段と、
取得した情報を基に周囲の物体や障害物、移動経路を認識する手段と、
認識結果を音声メッセージで伝え、必要に応じて触覚フィードバックを提供する手段を含むシステム。
【1511】
(請求項2)
前記生成AIが、視覚障害者に対し商業施設内での安全な移動や商品の位置情報の提供をサポートする機能を有する、請求項1記載のシステム。
【1512】
(請求項3)
前記生成AIが、視覚障害者が社会的施設においてより自立的かつ安全に活動することを実現する機能を有する、請求項1記載のシステム。
【1513】
「実施例2」
【1514】
(請求項1)
リアルタイムで外部センサーからの環境データを収集する手段と、
生成AIモデルを活用して収集した環境データから周囲の物体や人物の位置、動向を解析する手段と、
解析結果に基づいて視覚障害者に対して指示や情報を音声メッセージ及び触覚フィードバックの形で提供する手段と、
スマートデバイスや専用デバイスを介してAIにアクセスし、リアルタイムで情報を伝達する手段を含むシステム。
【1515】
(請求項2)
前記生成AIが、環境データから障害物の位置を特定し、視覚障害者の安全な移動をサポートする機能を有する、請求項1記載のシステム。
【1516】
(請求項3)
前記生成AIが、音声データから周囲の人々の存在と動向を推測し、視覚障害者の社会参加の向上を実現する機能を有する、請求項1記載のシステム。
【1517】
「応用例2」
【1518】
(請求項1)
生成AIを活用し、会議やイベントでの反応や雰囲気を分析する手段と、
文書や資料の文字情報を音声で読み上げる手段と、
スマートデバイスやヘッドセットを介してAIにアクセスする手段と、
リアルタイムで環境の情報を取得する手段と、
周囲の物体や人物を認識する手段と、
声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段を含むシステム。
【1519】
(請求項2)
前記生成AIが、視覚障害者の安全な移動や環境の理解をサポートする機能および社会参加の向上を実現する機能を有する、請求項1記載のシステム。
【1520】
(請求項3)
前記生成AIが、音声入力によるプロンプト文を解釈し、会議やイベントの雰囲気を説明するか、または文書や資料を音声で読み上げる応答を生成する機能を有する、請求項1記載のシステム。
【1521】
「実施例3」
【1522】
(請求項1)
生成AIを活用し、会議やイベントでの反応や雰囲気を分析する手段と、
文書や資料の文字情報を音声で読み上げる手段と、
スマートデバイスやヘッドセットを介してAIにアクセスする手段と、
リアルタイムで環境の情報を取得する手段と、
周囲の物体や人物を認識する手段と、
声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段を含むシステム。
【1523】
(請求項2)
前記生成AIが、視覚障害者の安全な移動や環境の理解をサポートする機能および社会参加の向上を実現する機能を有する、請求項1記載のシステム。
【1524】
(請求項3)
前記生成AIが、音声入力によるプロンプト文を解釈し、会議やイベントの雰囲気を説明するか、または文書や資料を音声で読み上げる応答を生成する機能を有する、請求項1記載のシステム。
【1525】
「応用例3」
【1526】
(請求項1)
生成AIを活用し、視覚障害者に対する販売場所内の商品情報および人々の反応の分析を基にした音声案内提供手段と、
スマートデバイスやヘッドセットを介してAIにアクセスする手段と、
リアルタイムで環境の情報を取得し、それを解析して音声による案内情報を生成する手段と、
販売場所内の商品の位置や特売情報を含む環境データを活用する手段と、
声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段を含むシステム。
【1527】
(請求項2)
前記生成AIが、視覚障害者の安全な移動や販売場所での商品選択をサポートする機能を有する、請求項1記載のシステム。
【1528】
(請求項3)
前記生成AIが、視覚障害者が販売場所内での人々の反応や雰囲気を理解し、社会参加の向上を実現する機能を有する、請求項1記載のシステム。
【1529】
「感情エンジンを組み合わせた場合の実施例1」
【1530】
(請求項1)
生成AIを活用し、環境データを解析する手段と、
携帯端末やヘッドセットを介してAIにアクセスする手段と、
リアルタイムで環境の情報を取得する手段と、
周囲の物体や人物を認識する手段と、
ユーザの感情状態を推測する手段と、
声や音声メッセージ、触覚フィードバックなどの形で情報を伝え、かつユーザの感情状態に応じて情報提供の方法を調整する手段を含むシステム。
【1531】
(請求項2)
前記生成AIが、環境から収集したデータを基に、物体や人物の位置、形状、動きを特定し、かつユーザの感情状態を考慮して、その情報提供方法を調整する機能を有する、請求項1記載のシステム。
【1532】
(請求項3)
前記生成AIが、視覚障害者の安全な移動を支援し、社会参加の向上を実現するために、環境認識情報とユーザの感情状態を組み合わせた適応的な情報提供を行う機能を有する、請求項1記載のシステム。
【1533】
「感情エンジンを組み合わせた場合の応用例1」
【1534】
(請求項1)
生成AIを利用して環境情報を解析し、その解析結果に基づきユーザーに対して視覚情報の代わりとなる音声メッセージや触覚フィードバックを提供する手段と、
スマートデバイスやヘッドセットを介してAIにアクセスし、リアルタイムで環境データを取得する手段と、
カメラやセンサーを用いて周囲の物体や人物、その動きや形状を認識する手段と、
ユーザーの感情状態を推測し、その情報を元に情報提供の方法を調整する感情エンジンを有する手段と、
ユーザーに対して情報を音声や触覚フィードバックの形で伝達する手段を含むシステム。
【1535】
(請求項2)
前記生成AIが、ユーザーの安全な移動や環境理解をサポートし、ユーザーの感情状態に応じた情報伝達方法を採用する機能を有する、請求項1記載のシステム。
【1536】
(請求項3)
前記生成AIが、ユーザーの社会参加を向上させる機能を有し、特に感情状態に応じた適切な情報提供を通じて、ユーザーの満足度や対応の質を向上させる、請求項1記載のシステム。
【1537】
「感情エンジンを組み合わせた場合の実施例2」
【1538】
(請求項1)
生成AIを活用し、視界の代替となる情報を提供する手段と、スマートデバイスやヘッドセットを介してAIにアクセスする手段と、リアルタイムで環境の情報を取得する手段と、周囲の物体や人物を認識する手段と、声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段と、ユーザの生体情報を解析し、その感情状態を推測する手段と、ユーザの感情状態に基づいて情報提供の方法を調整する手段を含むシステム。
【1539】
(請求項2)
前記生成AIが、視覚障害者の安全な移動や環境の理解をサポートする機能を有し、かつユーザの感情状態に応じてカスタマイズされた情報提供を行う、請求項1記載のシステム。
【1540】
(請求項3)
前記生成AIが、視覚障害者の社会参加の向上を実現し、同時にユーザの感情的なウェルビーイングをサポートする機能を有する、請求項1記載のシステム。
【1541】
「感情エンジンを組み合わせた場合の応用例2」
【1542】
(請求項1)
生成AIを活用し、環境の動的な要素をリアルタイムで認識し情報を提供する手段と、
車載システムやヘッドセットを介してAIにアクセスする手段と、
車両の周囲の環境情報を取得するためのセンサーやカメラからの入力データを解析する手段と、
周囲の車両、障害物、信号状態を認識する手段と、
声や音声メッセージ、触覚フィードバック、生体情報に基づく感情状態の調整を行う手段を含むシステム。
【1543】
(請求項2)
前記生成AIが、車両の運転中にユーザーに対して周囲の環境や状況を理解させることにより、特に視覚障害者の安全な移動をサポートする機能を有する、請求項1記載のシステム。
【1544】
(請求項3)
前記生成AIが、ユーザーの生体情報を分析して感情状態を推定し、それに応じて情報提供方法や環境調整を行い、ユーザーの心理的快適性やリラックス状態を促進する機能を有する、請求項1記載のシステム。
【1545】
「感情エンジンを組み合わせた場合の実施例3」
【1546】
(請求項1)
音声データをテキストデータに変換する手段と、
【1547】
生成AIモデルを用いてテキストデータから環境の雰囲気や人々の反応を分析する手段と、
テキストデータを音声情報に変換してユーザに伝える手段と、
ユーザの感情状態をモニタリングする手段と、
ユーザの感情状態に基づいて触覚フィードバックの強度やパターンを調整する手段と、
会議やイベントの音声をリアルタイムで収集する手段と、
を含むシステム。
【1548】
(請求項2)
前記生成AIモデルが、書籍や資料の文字情報を音声情報に変換する機能を有する、請求項1記載のシステム。
【1549】
(請求項3)
前記生成AIモデルが、視覚障害者が社会活動において周囲の人々の反応や雰囲気を理解することを支援する機能、及び視覚障害者の感情状態に適応した触覚フィードバックを提供する機能を有する、請求項1記載のシステム。
【1550】
「感情エンジンを組み合わせた場合の応用例3」
【1551】
(請求項1)
生成AIを活用し、視界の代替となる情報を提供する手段と、
スマートデバイスやヘッドセットを介してAIにアクセスする手段と、
リアルタイムで環境の情報を取得する手段と、
周囲の物体や人物を認識する手段と、
声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段と、
リアルタイムで周囲の人々の感情状態を分析し、異常な行動や状況を感知する際に適切な触覚フィードバックを提供する手段と、
使用者の感情状態に応じた触覚フィードバックの強度やパターンを調整する手段と、
を含むシステム。
【1552】
(請求項2)
前記生成AIが、視覚障害者の安全な移動や環境の理解をサポートする機能及びセキュリティガードや視覚障害者に対して異常行動や危険状況をリアルタイムで警告する機能を有する、請求項1記載のシステム。
【1553】
(請求項3)
前記生成AIが、視覚障害者の社会参加の向上を実現する機能及び使用者の感情状態に基づく触覚フィードバックを通じて安全性や快適性を高める機能を有する、請求項1記載のシステム。
【符号の説明】
【1554】
10、210、310、410 データ処理システム
12 データ処理装置
14 スマートデバイス
214 スマート眼鏡
314 ヘッドセット型端末
414 ロボット
【要約】
【課題】システムを提供する。
【解決手段】生成AIを活用し、視界の代替となる情報を提供する手段と、スマートデバイスやヘッドセットを介してAIにアクセスする手段と、リアルタイムで環境の情報を取得する手段と、周囲の物体や人物を認識する手段と、声や音声メッセージ、触覚フィードバックなどの形で情報を伝える手段を含むシステム。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22