IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 高橋 健治の特許一覧

<>
  • 特開-情報処理装置及びプログラム 図1
  • 特開-情報処理装置及びプログラム 図2
  • 特開-情報処理装置及びプログラム 図3
  • 特開-情報処理装置及びプログラム 図4
  • 特開-情報処理装置及びプログラム 図5
  • 特開-情報処理装置及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024039568
(43)【公開日】2024-03-22
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
   G06Q 10/10 20230101AFI20240314BHJP
【FI】
G06Q10/10
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022144220
(22)【出願日】2022-09-10
(71)【出願人】
【識別番号】721005441
【氏名又は名称】高橋 健治
(72)【発明者】
【氏名】高橋 レオナ
(72)【発明者】
【氏名】高橋 健治
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA11
(57)【要約】
【課題】話者認識によりアバターの本人認証を行う情報処理装置及びプログラムを提供する。
【解決手段】メタバース上で表示される各アバターに関連付けられて予め登録されている本人の音声データとメタバース上で表示されるアバターを介してユーザから入力される音声データを比較して、当該アバターの本人認証を行う。
【選択図】図4
【特許請求の範囲】
【請求項1】
メタバース上で表示される各アバターに関連付けられて予め登録されている本人の音声データとメタバース上で表示されるアバターを介してユーザから入力される音声データを比較して、当該アバターの本人認証を行うことを特徴とする情報処理装置。
【請求項2】
メタバース上で表示されるアバター同士のコミュニケーションの際に、共通言語以外の言語が発話された場合に、共通言語に翻訳して当該コミュニケーションを継続することを特徴とする情報処理装置。
【請求項3】
メタバース上で表示されるアバターを操作するユーザ端末と情報通信するコンピュータを、メタバース上で表示される各アバターに関連付けられて予め登録されている本人の音声データとメタバース上で表示されるアバターを介してユーザから入力される音声データを比較するステップと、当該アバターの本人認証を行うステップと、して機能させるプログラム。
【請求項4】
メタバース上で表示されるアバターを操作するユーザ端末と情報通信するコンピュータを、メタバース上で表示されるアバター同士のコミュニケーションの際に、共通言語以外の言語が発話されたか否か判断するステップと、共通言語以外の言語が発話されたと判断された場合に共通言語に翻訳して当該コミュニケーションを継続するステップと、して機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
2020年から世界的に感染拡大したコロナによる影響で、学校や職場でもオンラインでの授業や仕事が行われるようになり、最近ではメタバース(仮想空間)上で授業や仕事ができる環境を提供する技術が存在する(例えば、特許文献1参照)。
【0003】
そして、コロナ感染防止の一つの対応策として、世界中の企業で在宅勤務(テレワーク)を奨励するようになり、現実空間とは異なるメタバース(仮想空間)上での多言語コミュニケーションが行われるようになった。
【0004】
更に、メタバース(仮想空間)上でのショッピングや娯楽等が広く提案されるようになってきた。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2022-7893号公報
【特許文献2】特開2017-169839号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記先行技術の特許文献1に記載された技術では、現実空間の学校やオフィスにいるような環境でコミュニケーションを取り合うことができるが、メタバース(仮想空間)上でのアバター(分身)と本人が一致しているか確認することができなかった。すなわち、学校やオフィスにいる人のなりすましで他人がメタバース上の学校やオフィスに参加していてもわからないという本人認証の問題があった。今後、メタバース上でのショッピングや娯楽等での本人認証は大きな課題になる。更には、アバターを介しての多言語コミュニケーションが円滑に進まないため、現実世界の学校やオフィスにいる状態でのコミュニケーションと同じレベルのコミュニケーションを確保することは困難な状況にある。また、上記先行技術の特許文献2に記載された技術は、物理的なアバターロボットの周囲にいる対話者をNFC (Near Field Communication)やGPS (Global Positioning System)を使った対話者認識処理を用いて特定する技術を開示するが、対話者の発話から対話者が誰かを特定することはできなかった。
【0007】
本発明は、このような状況に鑑みてなされたものであり、より信頼性、利便性が高いコミュニケーションを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る情報処理装置は、メタバース(仮想空間)におけるアバター(分身)の本人から発話された音声と予め登録された各アバターの本人の音声を比較してアバターの本人認証を行うことを特徴とする。
【0009】
また、本発明に係る情報処理装置は、アバターを介して発話される音声が共通言語(例えば、英語)でない場合には、共通言語に翻訳して当該コミュニケーションを継続することを特徴とする。
【発明の効果】
【0010】
本発明によれば、メタバース上でのアバターの本人認証を可能とし信頼性の高いコミュニケーションを提供することができる。また、本発明によれば、メタバース上でのアバターを介して発話される音声が共通言語でない場合でもコミュニケーションの継続を可能とし利便性の高いコミュニケーションを提供することができる。
【図面の簡単な説明】
【0011】
図1】本発明の一実施形態に係る情報処理システムを構成する第1ユーザー端末10、第2ユーザー端末20,サーバ30のハードウエア構成の一例を示す図である。
図2】本発明の一実施形態に係る情報処理システムを構成する第1ユーザ端末10のディスプレイ等の表示部16或いは第2ユーザ端末20のディスプレイ等の表示部26に表示されるアバター(分身)40と第1ユーザ端末10或いは第2ユーザ端末20を操作する本人41の関係を示す図である。
図3】本発明の一実施形態に係る情報処理システムを構成するサーバ30に記憶されている登録テーブルを示す図である。
図4】本発明の一実施形態に係る情報処理システムを構成するサーバ30で実行される本人認証処理プログラムのフローチャートである。
図5】本発明の一実施形態に係る情報処理システムを構成する第1ユーザ端末10のディスプレイ等の表示部16或いは第2ユーザ端末20のディスプレイ等の表示部26に表示されるアバター(分身)40を介して第1ユーザ端末10或いは第2ユーザ端末20を操作する本人41に予め決められた挨拶の発話を促す場面を示す図である。
図6】本発明の一実施形態に係る情報処理システムを構成するサーバ30で実行される多言語コミュニケーションプログラムのフローチャートである。
【発明を実施するための形態】
【0012】
本発明の具体的な実施例について図面に基づいて説明する。
【0013】
まず、図1を参照して、本発明の一実施形態に係る情報処理システムのハードウエア構成について説明する。図1は、本発明の第一の実施の形態に係る情報処理システムを構成する第1ユーザー端末10、第2ユーザー端末20,サーバ30のハードウエア構成の一例を示す図である。なお、ユーザー端末は2台に限定されることはなく、2台以上接続することは可能である。ユーザー端末10は、CPUやGPUおよび半導体メモリを含むマイクロコンピュータ等で構成される制御部11、ROM(Read Only Memory)12、RAM(Random Access Memory)13,マイク、スピーカー、カメラ、キーボード、マウス等で構成される入出力部14、Bluetooth(登録商標)、Wi-Fi、LAN(Local Area Network)、インターネット等のネットワークを介してサーバ30と通信する通信部15,ディスプレイ等の表示部16、バス17を備えている。ROM12に記憶されている不図示の通信プログラムを制御部11が実行して、ユーザー端末10を操作する本人の音声を入出力部14を介して取得し、通信部15を介してサーバ30へ出力する。
【0014】
同様に、ユーザー端末20は、CPUやGPUおよび半導体メモリを含むマイクロコンピュータ等で構成される制御部21、ROM(Read Only Memory)22、RAM(Random Access Memory)23,マイク、スピーカー、カメラ、キーボード、マウス等で構成される入出力部24、Bluetooth(登録商標)、Wi-Fi、LAN(Local Area Network)、インターネット等のネットワークを介してサーバ30と通信する通信部25,ディスプレイ等の表示部26、バス27を備えている。ROM22に記憶されている不図示の通信プログラムを制御部21が実行して、ユーザー端末20を操作する本人の音声を入出力部24を介して取得し、通信部25を介してサーバ30へ出力する。
【0015】
そして、サーバ30は、マイク、スピーカー、カメラ、キーボード、マウス等で構成される入出力部31、Bluetooth(登録商標)、Wi-Fi、LAN(Local Area Network)、インターネット等のネットワークを介してユーザー端末10、ユーザー端末20と通信する通信部32,ディスプレイ等の表示部33、CPUやGPUおよび半導体メモリを含むマイクロコンピュータ等で構成される制御部34、ROM(Read Only Memory)35、RAM(Random Access Memory)36,バス37を備えている。ROM35に記憶されている各種プログラム(図4及び図6のフローチャートで示すプログラム)を制御部34が実行して、ユーザー端末10,ユーザー端末20の表示部16,26表示されるメタバース(仮想空間)上のアバター(分身)を制御しながら当該アバターに関連付けられる本人の音声を取得して本人認証を実行する。また、ユーザー端末10、ユーザー端末20を操作する本人の言語識別処理、音声認識処理を実行して、共通言語に翻訳した音声やテキストを必要に応じて通信部32を介してユーザー端末10、ユーザー端末20へ送信して各入出力部14或いは24で音声出力、表示部16或いは26でテキスト表示する。
【0016】
次に、図2図3図4を参照して、本発明の一実施形態に係るアバターの本人認証処理を説明する。図2は、本発明の一実施形態に係る情報処理システムを構成する第1ユーザ端末10のディスプレイ等の表示部16或いは第2ユーザ端末20のディスプレイ等の表示部26に表示されるアバター(分身)40と第1ユーザ端末10或いは第2ユーザ端末20を操作する本人41の関係を示す図である。第1ユーザー端末10或いは第2ユーザー端末20を操作するユーザー本人41とその分身であるアバター40が第1ユーザー端末10の表示部16及び第2ユーザー端末20の表示部26のメタバース(仮想空間)上に表示されている。そして、メタバース(仮想空間)に表示されているアバター40と本人41の本人認証処理を図3の登録テーブルと図4のフローチャートを参照して説明する。図3は本発明の一実施形態に係る情報処理システムを構成するサーバ30に記憶されている登録テーブルを示す図であり、図4は本発明の一実施形態に係る情報処理システムを構成するサーバ30で実行される本人認証処理プログラムのフローチャートである。例えば、本人41が第1ユーザー端末10或いは第2ユーザー端末20を用いてメタバース上に表示されているアバター40を特定領域(学校であれば指定されたクラス、職場であれば指定された会議室)へ移動させると、位置情報から当該移動を検知したサーバ30の制御部34がROM35に記憶された本人認証処理のプログラム(図4に示すフローチャート)を実行する。なお、本人が操作している第1ユーザ一端末10或いは第2ユーザー端末20からアバターの位置情報をサーバ30へ出力することでサーバ30で当該移動を検知できる。
【0017】
なお、当該指定されたクラスや指定された会議室への入室を許可するアバターは図3の登録テーブルに予めアバターID、音声データ(予め決められた合言葉である挨拶など)、その特徴量(MFCC:メル周波数ケプストラム係数)、本人IDが登録されている。すなわち、登録テーブルに登録されていない音声データ、特徴量のアバター或いは登録された音声データ、特徴量に一致(近似)しないアバターは本人認証されないので指定されたクラスや会議室に入れないことになり、その結果としてなりすましを防止できる。また、図2に示すメタバース上には一つのアバターだけでなく、ユーザー端末の数に応じた数のアバターが表示される。図3に示す通り、登録テーブルに10個のアバターIDが登録されていれば、特定領域への入室を許可された10個のアバターがデイスプレイに表示される。
【0018】
図4のステップS50では、メタバース上に表示される本人認証要求に応じて予め決められた合言葉(例えば、「おはようございます」等の本人が発話した挨拶)の音声データとそのアバターIDが第1ユーザー端末10或いは第2ユーザー端末20のアバター40を介してサーバ30へ入力されたかを制御部34が判断する。具体的には、アバター40に関連付けられた本人認証情報(アバターIDと音声データの組み合わせ)が入力される。アバター40のアバター登録情報として図3に示す通り、特定領域への入室を許可されるアバターの数に応じて、アバターID、予め決められた合言葉の音声データ、その特徴量、本人IDの組み合わせをテーブルとしてRAM36或いは不図示の不揮発性メモリに記憶しておく必要がある。
【0019】
つまり、ステップS50では、予め決められた合言葉の音声データ(本人が発話した「おはようございます」等の挨拶)とアバターIDが本人認証情報として通信部32を介して入力されたか否か制御部34が判断する。そして、ステップS51では制御部34がステップS50で入力されたアバターに関連付けられた本人認証情報としての音声データから特徴量を抽出して話者認識処理を行う。当該話者認識処理とは、ユーザーである本人の声から個人を認識する(識別や認証)するコンピュータによる処理を示し、音声データから特徴量を抽出し、モデル化して、個人の声の認識を行う一般的な技術である。ここでは、予めテーブルに登録されている各アバターの特徴量と入力された音声データから抽出される特徴量を比較して一致或いは近似にあればアバターと本人の認証が一致したと判断(話者認識処理)される。なお、第1ユーザー端末10或いは第2ユーザー端末20から本人の音声データではなくその特徴量を計算してサーバ30へ出力するようにしても良い。
【0020】
また、話者認識処理には、話者照合と話者認識に分けられるが、前者はある人物が本人の主張している通りの個人であるかを照合することであり、後者は誰だかわからない声をだれのものか識別することを示し、本願実施例では後者に該当する。また、予め決められた言葉は、日本語では「おはようございます」、英語であれば「Good Morning」と決めておけばよく、アバター40のメタバース上での位置情報から特定領域にアバター40が近づいたか否かを制御部34が判断して、近づいたと判断した場合に、図5に示すように「予め決められた挨拶を発話してください。」とメタバース上に表示してアバターの本人41に発話を促すことができる。なお、予め決められた言葉として挨拶を選んだのは、コミュニケーションの始まりは挨拶から始まるものであり、メタバース上での課題であるコミュニケーションを改善するきっかけになると考えたためである。
【0021】
更に、セキュリティ強化のために、合言葉を複雑化して本人のみが知っている母親の旧姓などの合言葉にしてもよいし、合言葉を定期的に更新するように促しても良い。図5は、本発明の一実施形態に係る情報処理システムを構成する第1ユーザ端末10のディスプレイ等の表示部16或いは第2ユーザ端末20のディスプレイ等の表示部26に表示されるアバター(分身)40を介して第1ユーザ端末10或いは第2ユーザ端末20を操作する本人41に予め決められた挨拶の発話を促す場面を示す図である。
【0022】
ステップS52では、ステップS51で抽出した特徴量が予めテーブルに登録された特徴量に一致或いは近似のレコードがあればそのレコードのアバターID、本人IDと認識する。当該抽出された特徴量と一致或いは近似の特徴量を持つレコードのアバターIDが異なれば、本人認証はNGとなり、なりすましと判断されてメタバース上でのアバターの特定領域への入室は許可されない。また、当該抽出した特徴量に近いものがなければ事前にテーブルに登録されていない部外者が入室を試みているので同様に特定領域への入室は許可されない。つまり、アバター40に関連付けて予めテーブルに登録されている音声パターンの特徴量と一致或いは近似して同じアバターIDであれば、第1ユーザー端末10或いは第2ユーザ端末20を介してアバター40の本人認証情報を入力(合言葉を発話)したユーザーは本人41であると認証されて本人認証(話者認識認識)が終了する。ここで、メタバース上に表示されているアバター40の特定領域(学校であれば指定されたクラス、職場であれば指定された会議室)への入室が許可されるので、メタバース上でのセキュリティ強化に繋がる。
【0023】
メタバース上でのアバター40の特定領域として、学校であれば指定されたクラス、職場であれば指定された会議室を例示したが、今後のメタバースのビジネス展開によっては仮想空間上でのショッピングの際に、レジにアバターが近づくと支払い画面へ移行し、クレジットカードの暗証番号入力や指紋認証による本人認証に代わりにアバターの話者認識による本人認証を導入することができる。
【0024】
今後のメタバースの発展を予測すると、メタバース上でのショッピングに加えてメタバース上での空間所有権の取引も仮想通貨で行われる可能性が高いが、その時代への移行期間として現実空間での商取引、すなわち、クレジットカード等での決済が継続すると考えるので、ユーザーの音声だけで低コストで本人認証ができてセキュリティを維持できる効果は大きいです。現実空間で行われている暗証番号入力ではセキュリティが弱く、空港などで使われているアイリス(虹彩認識)、指紋認証を使うとなると導入コストが高くなりメタバース上で導入障壁になる。スマホやPCに予め備えられているマイクやスピーカーを使い、話者認識のソフトと組み合わせるだけで低コストで本人認証が可能になる効果は大きいです。以上の通り、メタバース上でのアバターの本人認証を可能とし信頼性の高いコミュニケーションを提供できる。
【0025】
図6は、本発明の一実施形態に係る情報処理システムを構成するサーバ30で実行される多言語コミュニケーションプログラムのフローチャートである。図1に示すユーザー端末10、ユーザー端末20を介して、それぞれのユーザー本人とアバターの本人認証が終了した後(図4のフローチャートに示すプログラムを実行した後)、メタバース上でのアバターを介して発話される言語が共通言語でない場合でもコミュニケーションの継続を可能とし利便性の高いコミュニケーションを提供する。ステップS60で制御部34はユーザー端末10或いはユーザ端末20を介して本人の音声データが入力されたか否かを判断し、当該音声データが入力された場合にはステップS62で言語識別処理を実行してユーザが何語を話しているかを判断します。なお、音声データの入力がない場合には当該プログラムをステップS61で終了する。
【0026】
そして、ステップS63で予めメタバース上で設定されている共通言語である英語が使われているか判断し、英語であればステップS64でアバター同士の会話を継続してコミュニケーションを維持してステップS60へ戻る。ステップS63で共通言語ではないと判断すると、制御部34はステップS65で音声認識処理を実行して共通言語(英語)ではない他言語を共通言語に翻訳する。なお、言語識別に必要な発話(音声データ)の特徴を精度よく抽出し、かつ、高速演算できるニューラルネットワークを活用して数秒程度の短い発話でも即座に識別できる技術が開発されており、ステップS62における言語識別処理、ステップS65における音声認識処理に応用することができる。なお、メタバース上で設定される共通言語はユーザーがグローバルな環境にいる場合には英語、日本人のみの環境の場合には日本語に予め設定できる。
【0027】
次に、ステップS66で制御部34は、メタバース上で多言語コミュニケーションの際に、共通言語以外の言語の出力モードが表示モードに設定されているかを確認する。ステップS66で表示モードの場合にはステップS65で翻訳した共通言語(英語)を第1ユーザ端末10の表示部16,第2ユーザ端末20の表示部26にステップS68 で表示する。これにより、アバターを介して共通言語以外の言語が発話されても共通言語に翻訳して表示することでアバター同士のコミュニケーションを継続することができる。また、ステップS66で表示モードではないと判断した場合には、制御部34は翻訳した共通言語(英語)の音声データをステップS67で第1ユーザー端末10,第2ユーザ端末20に送信して各端末のスピーカーで出力する。これにより、アバターの本人が翻訳した英語を認識することでコミュニケーションを継続することができる。
【0028】
以上のように、本発明によれば、話者認識処理を実行することでアバターの本人認証を行い、更に、共通言語以外の言語でアバターを介してユーザー本人が会話をしても翻訳した共通言語を表示或いは発話することで多言語コミュニケーションを円滑に継続することができる。共通言語である英語でコミュニケーションをしている過程で英語で表現できない場面に遭遇しても母国語で発話すれば音声認識で翻訳された共通言語が表示或いは発話されるのでコミュニケーションを継続することができる。今後のメタバースのビジネス展開によっては仮想空間上での商取引の際に、スマホやPCに予め備えられているマイクやスピーカーを使い、話者認識処理、言語識別処理、音声認識処理のソフトウエアと組み合わせるだけで低コストで本人認証が可能になり、コミュニケーションの継続性を維持できる。
【産業上の利用可能性】
【0029】
本発明の構成は上記の通り、メタバース上でのアバターの本人認証を可能とし信頼性の高いコミュニケーションに関する技術を提供することができる。また、本発明によれば、メタバース上でのアバターを介して発話される音声が共通言語でない場合でもコミュニケーションの継続を可能とし利便性の高いコミュニケーションに関する技術を提供することができる。
【符号の説明】
【0030】
10 第1ユーザ端末
11 制御部
12 ROM
13 RAM
14 入出力部
15 通信部
16 表示部
17 バス
20 第2ユーザ端末
21 制御部
22 ROM
23 RAM
24 入出力部
25 通信部
26 表示部
27 バス
30 サーバ
31 入出力部
32 通信部
33 表示部
34 制御部
35 ROM
36 RAM
40 アバター
41 本人
図1
図2
図3
図4
図5
図6