(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-19
(54)【発明の名称】データ生成方法、装置及び電子機器
(51)【国際特許分類】
G06T 19/00 20110101AFI20240312BHJP
G06T 7/00 20170101ALN20240312BHJP
【FI】
G06T19/00 600
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023556723
(86)(22)【出願日】2022-03-25
(85)【翻訳文提出日】2023-09-14
(86)【国際出願番号】 CN2022083110
(87)【国際公開番号】W WO2022222689
(87)【国際公開日】2022-10-27
(31)【優先権主張番号】202110431972.6
(32)【優先日】2021-04-21
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】522013832
【氏名又は名称】青▲島▼小▲鳥▼看看科技有限公司
【氏名又は名称原語表記】Qingdao Pico Technology Co., Ltd.
【住所又は居所原語表記】4/F, Building 3, Qingdao Research Institute of Beihang University, No. 393, Songling Road, Laoshan District, Qingdao, Shandong Province, P. R. China
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】▲呉▼ 涛
【テーマコード(参考)】
5B050
5L096
【Fターム(参考)】
5B050AA03
5B050BA06
5B050BA09
5B050BA13
5B050CA08
5B050DA03
5B050EA04
5B050EA19
5B050EA26
5L096FA02
5L096FA62
5L096FA67
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
本願にはデータ生成方法、装置及び電子機器が開示される。当該方法は、第1画像データを取得するステップであって、第1画像データは、ユーザが位置している実環境を表すデータである、ステップと、ターゲットオブジェクトのカテゴリ情報と平面情報とを取得するステップであって、ターゲットオブジェクトは、第1画像データにおけるオブジェクトであり、平面情報は、ターゲットオブジェクトの外表面の情報を含む、ステップと、第2画像データを取得するステップであって、第2画像データは、仮想オブジェクトを含むデータである、ステップと、カテゴリ情報と平面情報とに基づいて、第1画像データと第2画像データとを混合して、ターゲット画像データを生成するステップであって、ターゲット画像データは、ターゲットオブジェクトと仮想オブジェクトとを含むデータである、ステップと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
データ生成方法であって、
第1画像データを取得するステップであって、前記第1画像データは、ユーザが位置している現実環境を表すデータである、ステップと、
ターゲットオブジェクトのカテゴリ情報と平面情報とを取得するステップであって、そのうち、前記ターゲットオブジェクトは、前記第1画像データにおけるオブジェクトであり、前記平面情報は、前記ターゲットオブジェクトの外表面の情報を含む、前記のステップと、
第2画像データを取得するステップであって、前記第2画像データは、仮想オブジェクトを含むデータである、ステップと、
前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合して、ターゲット画像データを生成するステップであって、前記ターゲット画像データは、前記ターゲットオブジェクトと前記仮想オブジェクトとを含むデータである、ステップと、を含む、データ生成方法。
【請求項2】
前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合して、ターゲット画像データを生成する前記ステップは、
前記カテゴリ情報に基づいて、前記第2画像データにおける前記仮想オブジェクトと前記第1画像データにおける前記ターゲットオブジェクトとの相対位置関係を決定するステップと、
前記平面情報と前記相対位置関係とに基づいて、前記仮想オブジェクトを前記ターゲットオブジェクトの所定位置までレンダリングして前記ターゲット画像データを取得するステップと、を含む、請求項1に記載の方法。
【請求項3】
前記ターゲットオブジェクトの前記カテゴリ情報と平面情報とを取得する前記ステップは、
第1画像データをターゲット画像分割モデルに入力して、前記ターゲットオブジェクトのマスク情報を取得するステップと、
前記マスク情報に基づいて前記カテゴリ情報及び前記平面情報を取得するステップと、を含む、請求項1に記載の方法。
【請求項4】
前記マスク情報に基づいて前記カテゴリ情報を取得する前記ステップは、
前記マスク情報をターゲットカテゴリ認識モデルに入力して、前記カテゴリ情報を取得するステップを含む、請求項3に記載の方法。
【請求項5】
前記マスク情報に基づいて前記平面情報を取得する前記ステップは、
前記マスク情報に基づいて、前記第1画像データにおける前記ターゲットオブジェクトに対応するターゲット画像ブロックを取得するステップと、
前記ターゲット画像ブロックに基づいて、世界座標系における前記ターゲットオブジェクトのキーポイントのターゲット位置情報を取得するステップであって、前記キーポイントは前記ターゲットオブジェクトのコーナーポイントを含む、ステップと、
前記ターゲット位置情報及び所定の平面フィッティングアルゴリズムに基づいて、前記平面情報を取得するステップであって、前記平面情報は、前記ターゲットオブジェクトの各平面に対応する中心点座標及び平面法線ベクトルを含む、ステップと、を含む、請求項3に記載の方法。
【請求項6】
請求項5に記載の方法であって、前記方法が電子機器に適用され、前記ターゲット画像ブロックに基づいて、前記世界座標系における前記ターゲットオブジェクトの前記キーポイントの前記ターゲット位置情報を取得する前記ステップは、
前記ターゲット画像ブロックに基づいて、前記キーポイントの前記第1画像データにおける第1位置情報を検出するステップと、
現在時刻を含む第1時刻における電子機器の位置姿勢情報、及び、前記キーポイントの前記第1時刻よりも先の第2時刻において取得された第3画像データにおける第2位置情報を取得するステップと、
前記第1位置情報と前記位置姿勢情報と前記第2位置情報とに基づいて前記ターゲット位置情報を取得るステップと、を含む、請求項5に記載の方法。
【請求項7】
前記ターゲット画像分割モデル及び前記ターゲットカテゴリ認識モデルは、
サンプルデータを取得するステップであって、前記サンプルデータは、所定のシーンにおけるサンプルオブジェクトを含むデータである、ステップと、
前記サンプルデータに基づいて、初期画像分割モデル及び初期カテゴリ認識モデルを連携トレーニングし、前記ターゲット画像分割モデル及び前記ターゲットカテゴリ認識モデルを取得するステップと、によってトレーニングされて取得される、請求項4に記載の方法。
【請求項8】
請求項1に記載の方法であって、前記ターゲット画像データを取得した後、前記方法は、さらに、
前記ターゲット画像データを表示するステップを含む、請求項1に記載の方法。
【請求項9】
データ生成装置であって、
第1画像データを取得することに使用される第1画像データ取得モジュールであって、前記第1画像データは、ユーザが位置している現実環境を表すデータである、第1画像データ取得モジュールと、
ターゲットオブジェクトのカテゴリ情報と平面情報とを取得することに使用される情報取得モジュールであって、前記ターゲットオブジェクトは、前記第1画像データにおけるオブジェクトであり、前記平面情報は、前記ターゲットオブジェクトの外表面の情報を含む、情報取得モジュールと、
第2画像データを取得することに使用される第2画像データ取得モジュールであって、前記第2画像データは、仮想オブジェクトを含むデータである、第2画像データ取得モジュールと、
前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合して、ターゲット画像データを生成することに使用されるターゲット画像データ生成モジュールであって、前記ターゲット画像データは、前記ターゲットオブジェクトと前記仮想オブジェクトとを含むデータである、ターゲット画像データ生成モジュールと、を含む、データ生成装置。
【請求項10】
電子機器であって、
請求項9に記載の装置を含み、または、
実行可能な指令を記憶するメモリと、請求項1から請求項8のいずれか1項に記載の方法を実行させるために、前記指令による制御に従って前記電子機器を作動させるプロセッサとを含む、電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2021年04月21日に提出された、出願の名称が「データ生成方法、装置及び電子機器」であって、中国特許出願番号が「202110431972.6」である優先権を主張し、この中国特許出願の全内容が引用により本願に組み込まれている。
【0002】
本願は、混合現実の技術の分野に関し、より具体的には、データ生成方法、装置及び電子機器に関する。
【背景技術】
【0003】
現在、混合現実(MR、Mixed Reality)技術は、科学的な可視化、医療トレーニング、エンジニアリング設計、遠隔オフィス操作、パーソナルエンターテインメントなどの様々な分野に広く応用されており、この技術により、ユーザは、実環境コンテンツと仮想コンテンツが混合して生成されたシーンで、仮想オブジェクトと対話することができ、ユーザは実環境におけるいくつかの重要なデータの楽しさをより深く理解することができる。
【0004】
しかし、現在の電子機器の生成する混合現実データは常に粗雑である。例えば、床、天井、壁などの表面のような実環境における大きな表面を認識し、認識されたこのような情報に基づいて仮想オブジェクトを重畳して配置するだけで、シーンの精細度が不足しており、ユーザの体験に影響を与えるという問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例の目的の一つは、電子機器使用時のユーザの楽しみを向上させるように、混合現実データを生成するための新しい技術案を提供することである。
【課題を解決するための手段】
【0006】
本願の第1の態様によれば、データ生成方法が提供され、当該方法は、
第1画像データを取得するステップであって、前記第1画像データは、ユーザが位置している現実環境を表すデータである、ステップと、
ターゲットオブジェクトのカテゴリ情報と平面情報とを取得するステップであって、前記ターゲットオブジェクトは、前記第1画像データにおけるオブジェクトであり、前記平面情報は、前記ターゲットオブジェクトの外表面の情報を含む、前記のステップと、
第2画像データを取得するステップであって、前記第2画像データは、仮想オブジェクトを含むデータである、ステップと、
前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合して、ターゲット画像データを生成するステップであって、前記ターゲット画像データは、前記ターゲットオブジェクトと前記仮想オブジェクトとを含むデータである、ステップと、を含む。
【0007】
いくつかの実施例では、前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合して、ターゲット画像データを生成する前記ステップは、前記カテゴリ情報に基づいて、前記第2画像データにおける前記仮想オブジェクトと前記第1画像データにおける前記ターゲットオブジェクトとの相対位置関係を決定するステップと、前記平面情報と前記相対位置関係とに基づいて、前記仮想オブジェクトを前記ターゲットオブジェクトの所定位置までレンダリングして前記ターゲット画像データを取得するステップと、を含む。
【0008】
いくつかの実施例では、前記ターゲットオブジェクトの前記カテゴリ情報と前記平面情報とを取得する前記ステップは、前記第1画像データをターゲット画像分割モデルに入力して、前記ターゲットオブジェクトのマスク情報を取得するステップと、前記マスク情報に基づいて前記カテゴリ情報及び前記平面情報を取得するステップと、を含む。
【0009】
いくつかの実施例では、前記マスク情報に基づいて前記カテゴリ情報を取得する前記ステップは、前記マスク情報をターゲットカテゴリ認識モデルに入力して、前記カテゴリ情報を取得するステップを含む。
【0010】
いくつかの実施例では、前記マスク情報に基づいて前記平面情報を取得する前記ステップは、前記マスク情報に基づいて、前記第1画像データにおける前記ターゲットオブジェクトに対応するターゲット画像ブロックを取得するステップと、前記ターゲット画像ブロックに基づいて、世界座標系における前記ターゲットオブジェクトのキーポイントのターゲット位置情報を取得するステップであって、前記キーポイントは前記ターゲットオブジェクトのコーナーポイントを含む、ステップと、前記ターゲット位置情報及び所定の平面フィッティングアルゴリズムに基づいて、前記平面情報を取得するステップであって、前記平面情報は、前記ターゲットオブジェクトの各平面に対応する中心点座標及び平面法線ベクトルを含む、ステップと、を含む。
【0011】
いくつかの実施例では、前記方法が電子機器に適用され、前記ターゲット画像ブロックに基づいて、前記世界座標系における前記ターゲットオブジェクトの前記キーポイントの前記ターゲット位置情報を取得する前記ステップは、前記ターゲット画像ブロックに基づいて、前記キーポイントの前記第1画像データにおける第1位置情報を検出するステップと、現在時刻を含む第1時刻における前記電子機器の位置姿勢情報、及び、前記キーポイントの前記第1時刻よりも先の第2時刻において取得された第3画像データにおける第2位置情報を取得するステップと、前記第1位置情報と前記位置姿勢情報と前記第2位置情報とに基づいて前記ターゲット位置情報を取得するステップと、を含む。
【0012】
いくつかの実施例では、前記ターゲット画像分割モデル及び前記ターゲットカテゴリ認識モデルは、サンプルデータを取得するステップであって、前記サンプルデータは、所定のシーンにおけるサンプルオブジェクトを含むデータである、ステップと、前記サンプルデータに基づいて、初期画像分割モデル及び初期カテゴリ認識モデルを連携トレーニングし、前記ターゲット画像分割モデル及び前記ターゲットカテゴリ認識モデルを取得するステップと、によってトレーニングされて取得される。
【0013】
いくつかの実施例では、前記ターゲット画像データを取得した後、前記方法は、さらに、前記ターゲット画像データを表示するステップを含む。
【0014】
本願の第2の態様によれば、本願においてデータ生成装置が提供され、当該装置は、
第1画像データを取得することに使用される第1画像データ取得モジュールであって、前記第1画像データは、ユーザが位置している現実環境を表すデータである、第1画像データ取得モジュールと、
ターゲットオブジェクトのカテゴリ情報と平面情報とを取得することに使用される情報取得モジュールであって、前記ターゲットオブジェクトは、前記第1画像データにおけるオブジェクトであり、前記平面情報は、前記ターゲットオブジェクトの外表面の情報を含む、情報取得モジュールと、
第2画像データを取得することに使用される第2画像データ取得モジュールであって、前記第2画像データは、仮想オブジェクトを含むデータである、第2画像データ取得モジュールと、
前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合して、ターゲット画像データを生成することに使用されるターゲット画像データ生成モジュールであって、前記ターゲット画像データは、前記ターゲットオブジェクトと前記仮想オブジェクトとを含むデータである、ターゲット画像データ生成モジュールと、を含む。
【0015】
本願の第3の態様によれば、電子機器が提供され、前記電子機器は、本願の第2の態様に記載の装置を含み、または、
前記電子機器は、実行可能な指令を記憶するメモリと、本願の第1の態様に記載された方法を実行させるために、前記指令による制御に従って前記電子機器を作動させるプロセッサと、を含む。
【発明の効果】
【0016】
本願の有益な効果について、本願の実施例によれば、電子機器が、ユーザが位置している実環境を表す第1画像データを取得し、当該第1画像データにおけるターゲットオブジェクトの平面情報及びカテゴリ情報を取得し、その後、仮想オブジェクトを含む第2画像データを取得することにより、当該平面情報と当該カテゴリ情報とに基づいて、第1画像データと第2画像データとを混合して、ターゲットオブジェクトと仮想オブジェクトとを同時に含むターゲット画像データを得ることができる。本実施例において提供される方法によれば、ターゲットオブジェクトの外表面の情報及びカテゴリ情報を認識することにより、電子機器が混合現実データを構築する際に、ターゲットオブジェクトのカテゴリ情報と平面情報とに基づいて、仮想環境に集約された仮想オブジェクトと正確に結合することができ、構築されたターゲット画像データの精細度を向上させ、さらにユーザ体験を向上させ、電子機器使用時のユーザの楽しみを向上させることができる。
【0017】
以下の図面を参照して本願の例示的な実施例の詳細な説明により、本願の他の特徴及びその利点が明らかになるであろう。
【図面の簡単な説明】
【0018】
明細書に組み込まれて明細書の一部を構成する図面は、本願の実施例を示し、その説明とともに本願の原理を説明するために使用される。
【
図1】本願の実施例において提供されるデータ生成方法の概略的なフローチャートである。
【
図2】本願の実施例において提供されるデータ生成装置の原理ブロック図である。
【
図3】本願の実施例において提供される電子機器の概略的なハードウェア構成図である。
【発明を実施するための形態】
【0019】
以下、添付の図面を参照して、本願の様々な例示的な実施例について詳細に説明する。なお、これらの実施例に説明された部材及びステップの相対的な設定、数値式及び数値は、特に明記されていない限り、本願の範囲を限定しない。
【0020】
以下の少なくとも1つの例示的な実施例の説明は、実際に単に例示的なものであり、本願及びその適用または使用に対するいかなる制限として決して用いられない。
【0021】
当業者に知られている技術、方法及び装置について、詳細な議論は行われないかもしれないが、適切な場合に、前記技術、方法及び装置は、明細書の一部とみなされるべきである。
【0022】
ここに示され、議論されているすべての例において、任意の具体的な値は、限定的なものではなく単なる例示的なものとして解釈されるべきである。従って、例示的な実施例の他の例は、異なる値を有することができる。
【0023】
以下の図面において、類似の符号とアルファベットが類似のものを示していることに留意すべきである。したがって、ある図面においてあるものが定義されると、次の図面においてそれについてさらに議論する必要はありません。
【0024】
現在の電子機器は、混合現実データを生成する際に、実環境における大型表面のみを認識し、実環境における物体及び物体タイプを認識できないことが多い。例えば、電子機器は現実環境における画像データを採集した後、画像データにおける一方の表面がテーブルに対応しており、他方の表面が椅子に対応していることを知らない。これにより、当該画像データに基づいて仮想コンテンツを結合して得られた混合現実シーンが粗く見えるようになり、例えば、電子機器は、実世界における実オブジェクトと仮想世界における仮想オブジェクトとの上下関係のような相対位置関係を正確に判断できず、仮想オブジェクトを実画像環境のある位置に簡単に重畳して表示するだけであるため、既存の混合現実データを生成するための方法には精細度が不足しており、ユーザ体験に影響を与える可能性があるという問題がある。
【0025】
上記の問題を解決するために、本願の実施例においてデータ生成方法が提供される。本願の実施例において提供されるデータ生成方法の概略的なフローチャートである
図1を参照する。本方法を電子機器に適用することで、当該機器が精細度の高い混合現実データを生成し、ユーザが当該データを閲覧できるように表示することができ、ユーザ体験を向上させることができる。
【0026】
なお、本実施例において、当該方法を実施する電子機器は、例えば、表示画面、実環境情報を採集するための少なくとも2つの画像採集装置からなる表示装置を含むことが可能である。具体的に実施される場合、当該画像採集装置は、採集範囲が153°×120°×167°(H×V×D)前後であり、解像度が640×480以上、フレームレートが30Hz以上のモノクロカメラであってもよく、もちろん、必要に応じて他の構成のカメラであってもよいが、採集範囲が広いほどカメラの光学歪みが大きくなり、最終的なデータの精度に影響を与える可能性がある。具体的に実施される場合、当該電子機器は、例えば、VRデバイス、ARデバイス、またはMRデバイスなどのデバイスであってもよい。
【0027】
図1に示すように、本実施例の方法は、以下に詳細に説明するように、ステップS1100~S1400を含むことができる。
【0028】
ステップS1100において、第1画像データを取得し、そのうち、前記第1画像データは、ユーザが位置している実環境を表すデータである。
【0029】
具体的には、第1画像データは、ユーザが位置している実環境、即ち実物理環境を反映したデータであってもよい。この画像データには、例えば、ユーザが位置している異なるシーンに応じて、ソファ、食卓、樹木、建築物、自動車、道路など、実環境における様々な実体オブジェクトが含まれていてもよい。
【0030】
本実施例では、第1画像データは、電子機器に設けられた少なくとも2つの画像採集装置によって、ユーザが位置している実環境におけるデータを採集して生成され得る。もちろん、具体的に実施される場合、実際の必要に応じて、当該第1画像データは、当該電子機器以外の他の機器によってユーザが位置している実環境のデータを採集して生成されてもよく、例えば、ユーザが位置している環境に単独設置された画像採集装置により当該第1画像データを採集して取得し、当該電子機器との接続を確立することで当該第1画像データを当該電子機器に供給してもよく、本実施例では、第1画像データの取得態様を特に限定するものではない。
【0031】
ステップS1200において、ターゲットオブジェクトのカテゴリ情報と平面情報とを取得し、そのうち、前記ターゲットオブジェクトは前記第1画像データにおけるターゲットオブジェクトであり、前記平面情報はターゲットオブジェクトの外表面の情報を含む。
【0032】
本実施形例では、ターゲットオブジェクトは、第1画像データのうちの、実環境における実体オブジェクトに対応する1つまたは複数のオブジェクトであってもよい。例えば、実環境におけるテーブル、椅子、ソファなどの物体に対応するオブジェクトであってもよい。
【0033】
ターゲットオブジェクトの平面情報は、ターゲットオブジェクトの外表面の情報であってもよく、具体的に、ターゲットオブジェクトの外表面の位置、寸法などの属性を表す情報であってもよい。例えば、当該情報は、当該外表面の位置と寸法を同時に表すための、ターゲットオブジェクトのある外表面の中心座標データと当該外表面の法線ベクトルとである。
【0034】
ターゲットオブジェクトのカテゴリ情報は、ターゲットオブジェクトの属するオブジェクトタイプを示す情報であってもよく、例えば、ターゲットオブジェクトが「ソファ」である場合、そのカテゴリ情報は「家具」であってもよく、そのまま「ソファ」であってもよい。具体的に実施される場合、ターゲットオブジェクトのカテゴリ情報は、必要に応じて設定することができる。例えば、オブジェクトの属する大分類の情報であってもよいし、それの属する小分類の情報であってもよい。また、当該カテゴリ情報について、物体の属するタイプの識別子を用いて表してもよい。例えば、家具を「0」で表して、ソファを「1」で表してもよく、ここでは割愛する。
【0035】
一実施例では、前記した、前記ターゲットオブジェクトのカテゴリ情報と平面情報とを取得するステップは、第1画像データをターゲット画像分割モデルに入力し、前記ターゲットオブジェクトのマスク情報を取得するステップと、前記マスク情報に基づいて前記カテゴリ情報及び前記平面情報を取得するステップと、を含む。
【0036】
当該実施例では、前記した、前記マスク情報に基づいて前記カテゴリ情報を取得するステップは、前記マスク情報をターゲットカテゴリ認識モデルに入力し、前記カテゴリ情報を取得するステップを含む。
【0037】
デジタル画像処理の分野では、マスク(Mask)情報は、具体的に、画像処理の領域または処理過程を制御するように処理待ちの画像(全部または一部)を遮蔽するための情報であってもよい。具体的に実施される場合、マスクは、処理待ちの画像におけるユーザが興味を持つ領域、即ち、ユーザの注目する領域を抽出するための2次元行列配列または多値画像であってもよい。例えば、マスクと処理待ちの画像とを乗算することにより、処理待ちの画像の他の領域の画像値は0になり、ユーザが興味を持つ領域の画像値は変化しない。
【0038】
本実施例では、具体的に、予めトレーニングして得られたターゲット画像分割モデルにより、ターゲットオブジェクトのマスク情報を取得し、その後、当該マスク情報に基づいて、予めトレーニングして得られたターゲットカテゴリ認識モデルにより、ターゲットオブジェクトのカテゴリ情報を認識し、及び、当該マスク情報に基づいて、ターゲットオブジェクトの平面情報を計算して得る。以下では、まず、ターゲット画像分割モデルとターゲットカテゴリ認識モデルをどのようにトレーニングして得るかについて説明する。
【0039】
本実施例では、ターゲット画像分離モデルは、オブジェクトをキャリアから分離するためのモデルであり、例えば、ターゲットオブジェクトを用いて後続の虚実の結合処理を行うために、当該ターゲットオブジェクトをそのキャリア画像から分離する。具体的に実施される場合、当該ターゲット画像分割モデルは、Mask R-CNNネットワーク構造に基づくモデルなどの畳み込みニューラルネットワークモデルであってもよく、ここでは特に限定されない。
【0040】
ターゲットカテゴリ認識モデルは、入力されたマスク情報に基づいて、当該マスク情報に対応するオブジェクトの属するカテゴリを認識するためのモデルであり、例えば、ターゲットオブジェクトがソファである場合、ターゲットオブジェクトのマスク情報をターゲットカテゴリ認識モデルに入力することにより、そのカテゴリを「家具」とすることを得ることができ、さらには「ソファ」と認識することができる。具体的に実施される場合、当該ターゲットカテゴリ認識モデルは、同様に畳み込みニューラルネットワークモデルであってもよく、そのモデル構造についてここで割愛する。
【0041】
本実施例では、当該ターゲット画像分割モデル及び当該ターゲットカテゴリ認識モデルは、所定のシーンにおけるサンプルオブジェクトを含むデータであるサンプルデータを取得するステップと、前記サンプルデータに基づいて、初期画像分割モデル及び初期カテゴリ認識モデルを連携トレーニングし、前記ターゲット画像分割モデル及び前記ターゲットカテゴリ認識モデルを取得するステップと、によってトレーニングされて取得される。
【0042】
具体的に実施される場合、サンプルデータとして異なるシーン中の環境画像データを予め取得しておくことができ、例えば、128種類の所定のシーン中の環境画像データを取得し、各環境画像データにおけるオブジェクトを手動でマークすることにより、ターゲット画像分割モデルとターゲットカテゴリ認識モデルをトレーニングするためのサンプルデータを取得することができる。その後、当該サンプルデータに基づいて、ターゲット画像分割モデルとターゲットカテゴリ認識モデルとにそれぞれ対応する初期画像分割モデルと初期カテゴリ認識モデルとを連携トレーニングすることで、ターゲット画像分割モデルとターゲットカテゴリ認識モデルを取得することができる。
【0043】
一実施例では、前記した、前記サンプルデータに基づいて、初期画像分割モデル及び初期カテゴリ認識モデルを連携トレーニングし、前記ターゲット画像分割モデル及び前記ターゲットカテゴリ認識モデルを取得するステップは、前記サンプルデータを前記初期画像分割モデルに入力して、前記サンプルオブジェクトのサンプルマスク情報を取得するステップと、前記サンプルマスク情報を前記初期カテゴリ認識モデルに入力して、前記サンプルオブジェクトのサンプルカテゴリ情報を取得するステップと、トレーニングの過程において、前記初期画像分割モデルと前記初期カテゴリ認識モデルとのパラメータを調整することにより、所定の収束条件を満たす前記ターゲット画像分割モデルと前記ターゲットカテゴリ認識モデルとを取得するステップと、を含む。
【0044】
具体的に、サンプルデータを取得した後、サンプルデータを初期画像分割モデルに入力することにより、サンプルオブジェクトのサンプルマスク情報を取得する。そして、初期カテゴリ認識モデルを再使用して当該サンプルマスク情報を処理し、サンプルオブジェクトのサンプルカテゴリ情報を得、連携トレーニングの過程において、当該2つのモデルに対応する損失関数を設計し、当該2つのモデルにそれぞれ対応するパラメータを不断に調整することにより、所定の収束条件を満たすターゲット画像分割モデルとターゲットカテゴリ認識モデルとを取得する。そのうち、当該所定の収束条件は、例えば、当該2つのモデルの認識結果の誤差が所定の閾値を超えないようにすることができ、モデルトレーニングに関する詳細な処理は従来の技術で詳細に説明されているので、ここでは割愛する。
【0045】
以上、ターゲット画像分離モデルとターゲットカテゴリ認識モデルとをどのようにトレーニングして取得するかについて説明したが、具体的に実施される場合、当該ターゲット画像分離モデルに基づいて第1画像データにおけるターゲットオブジェクトのマスク情報を認識して得、当該マスク情報に基づいて、ターゲットオブジェクトのカテゴリ情報を取得する過程において、当該マスク情報に基づいて、ターゲットオブジェクトの平面情報を取得することもできる。以下、該平面情報をどのように取得するかについて詳細に説明する。
【0046】
一実施例では、前記した、前記マスク情報に基づいて前記平面情報を取得するステップは、前記マスク情報に基づいて、前記第1画像データにおける前記ターゲットオブジェクトに対応するターゲット画像ブロックを取得するステップと、前記ターゲット画像ブロックに基づいて、前記ターゲットオブジェクトのキーポイントの世界座標系におけるターゲット位置情報を取得するステップであって、そのうち、前記キーポイントは前記ターゲットオブジェクトのコーナーポイントを含む、前記のステップと、前記ターゲット位置情報及び所定の平面フィッティングアルゴリズムに基づいて、前記ターゲットオブジェクトの各平面に対応する中心点座標及び平面法線ベクトルを含む前記平面情報を取得するステップと、を含む。
【0047】
ターゲット画像ブロックは、第1画像データにおけるターゲットオブジェクトを構成するための画素からなる画像ブロックである。
【0048】
具体的に、ターゲットオブジェクトの外表面の情報を正確に認識して取得待ちのターゲット画像データの精細度を高めるために、本実施例では、第1画像データにおけるターゲットオブジェクトに対応するターゲット画像ブロックを取得した後、ターゲットオブジェクトを構成する各キーポイント、例えば、コーナーポイントのターゲット位置情報、即ち、各キーポイントの実世界座標系における3次元位置座標を検出して取得ことができる。その後、所定の平面フィッティングアルゴリズムを再使用して、ターゲットオブジェクトの各外表面の情報をフィッティングして、前記平面情報を取得することができる。
【0049】
なお、当該所定の平面フィッティングアルゴリズムは、例えば最小二乗法による平面フィッティングアルゴリズムであってもよいし、他のアルゴリズムであってもよく、ここでは特に限定されない。
【0050】
一実施例では、電子機器は、前記ターゲット画像ブロックに基づいて、前記ターゲットオブジェクトのキーポイントの世界座標系におけるターゲット位置情報を取得する場合、前記ターゲット画像ブロックに基づいて、前記キーポイントの前記第1画像データにおける第1位置情報を検出するステップと、現在時刻を含む第1時刻における電子機器の位置姿勢情報、及び、前記キーポイントの第1時刻よりも先の第2時刻において取得された第3画像データにおける第2位置情報を取得するステップと、前記第1位置情報と前記位置姿勢情報と前記第2位置情報とに基づいて前記ターゲット位置情報を取得するステップと、に使用される。
【0051】
第1位置情報は、ターゲットオブジェクトのキーポイントの第1画像データにおける2次元座標データであってもよい。電子機器の位置姿勢情報は、電子機器が備える画像採集装置のシステムパラメータに基づいて計算して取得ことができ、ここでは割愛する。
【0052】
第2位置情報は、ターゲットオブジェクトのキーポイントが現在の時点より前の履歴時点に採集された画像データ、即ち、履歴画像フレームにおける2次元座標データであってもよく。
【0053】
具体的に実施される場合、キーポイントの第2時点における第2位置情報に基づいて、当該キーポイントの第1時点における位置軌跡を予測し、当該位置軌跡に基づいて第1位置情報を補正できるようにする。最後に、当該第1位置情報と電子機器の位置姿勢情報に基づいて、当該キーポイントの世界座標系におけるターゲット位置情報、即ち、3次元座標データを取得することができる。
【0054】
ステップS1200の後、ステップS1300を実行して、仮想オブジェクトを含むデータである第2画像データを取得する。
【0055】
仮想オブジェクトは、ユーザが位置している実環境では存在しないオブジェクト、即ち、仮想コンテンツであってもよく、例えば、仮想世界における動植物、建築物などであってもよく、ここでは特に限定されない。
【0056】
なお、本実施例では、ターゲットオブジェクトを含む第1画像データ及び仮想オブジェクトを含む第2画像データは、2次元データであってもよく、3次元データであってもよく、本実施例において特に限定されない。
【0057】
ステップS1400において、前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合し、前記ターゲットオブジェクトと前記仮想オブジェクトとを含むデータであるターゲット画像データを生成する。
【0058】
具体的には、上述のステップを経て、ユーザが位置している実環境を反映する第1画像データにおけるターゲットオブジェクトの平面情報及びカテゴリ情報を取得し、混合待ちの仮想オブジェクトを含む第2画像データを取得した後、当該平面情報及び当該カテゴリ情報に基づいて、第1画像データにおけるターゲットオブジェクトを分割し、第2画像データにおける仮想オブジェクトと混合することで、実環境におけるターゲットオブジェクトと仮想環境における仮想オブジェクトを同時に含むターゲット画像データを得る。
【0059】
一実施例では、前記した、前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合して、ターゲット画像データを生成するステップは、前記カテゴリ情報に基づいて、前記第2画像データにおける前記仮想オブジェクトと前記第1画像データにおける前記ターゲットオブジェクトとの相対位置関係を決定するステップと、前記平面情報と前記相対位置関係とに基づいて、前記仮想オブジェクトを前記ターゲットオブジェクトの所定位置までレンダリングして前記ターゲット画像データを取得するステップと、を含む。
【0060】
以上の処理を経てターゲットオブジェクトと仮想オブジェクトとを混合したターゲット画像データを取得した後、当該方法は、さらに前記ターゲット画像データを表示するステップを含む。
【0061】
具体的に、ユーザが実環境におけるターゲットオブジェクトに基づいて仮想環境における仮想オブジェクトと対話しやすくするために、上記ターゲット画像データを取得した後、電子機器はその表示画面に当該ターゲット画像データを表示することができ、さらに、ユーザが表示された当該ターゲット画像データに基づいて、仮想オブジェクトと対話する対話コンテンツをさらに取得することもでき、例えば、仮想オブジェクトが猫である場合、ユーザは当該仮想の猫と対話し、対応する対話ビデオを保存することができる。
【0062】
電子機器使用時のユーザの楽しみを更に向上させるために、当該電子機器はネットワークモジュールをさらに含み、ネットワークモジュールを介してインターネットに接続した後、電子機器は、また、画像データ及び/又は動画データなどのような、ユーザとターゲット画像データにおける仮想オブジェクトとが対話する対話データを保存し、当該対話データを他のユーザに提供でき、例えば、当該ユーザの友人が閲覧するようにし、その詳細な処理手順についてはここで割愛する。もちろん、以上は本実施例で提供された当該方法を適用する一例にすぎず、具体的に実施される場合、当該方法をウォールステッカー、ネットワーク上でのソーシャル、仮想遠隔オフィス、パーソナルゲーム、広告などのシーンにも適用することができ、ここで割愛する。
【0063】
以上より、本実施例で提供されたデータ生成方法によれば、電子機器が、ユーザが位置している実環境を表す第1画像データを取得し、当該第1画像データにおけるターゲットオブジェクトの平面情報及びカテゴリ情報を取得し、その後、仮想オブジェクトを含む第2画像データを取得することにより、当該平面情報と当該カテゴリ情報とに基づいて、第1画像データと第2画像データとを混合して、ターゲットオブジェクトと仮想オブジェクトとを同時に含むターゲット画像データを得ることができる。本実施例で提供された方法は、ターゲットオブジェクトの外表面の情報及びカテゴリ情報を認識することにより、電子機器が混合現実データを構築する際に、ターゲットオブジェクトのカテゴリ情報と平面情報とに基づいて、仮想環境に集約された仮想オブジェクトと正確に結合することができ、構築されたターゲット画像データの精細度を向上させ、さらにユーザ体験を向上させることができる。
【0064】
本実施例では、上記方法の実施例に対応して、
図2に示すように、電子機器に適用可能なデータ生成装置2000がさらに提供される。具体的に、第1画像データ取得モジュール2100、情報取得モジュール2200、第2画像データ取得モジュール2300、及びターゲット画像データ生成モジュール2400を含むことができる。
【0065】
当該第1画像データ取得モジュール2100は、第1画像データを取得することに使用され、そのうち、前記第1画像データは、ユーザが位置している実環境を表すデータである。
【0066】
当該情報取得モジュール2200は、ターゲットオブジェクトのカテゴリ情報と平面情報とを取得することに使用され、そのうち、前記ターゲットオブジェクトは、前記第1画像データにおけるオブジェクトであり、前記平面情報は、前記ターゲットオブジェクトの外表面の情報を含む。
【0067】
一実施例では、当該情報取得モジュール2200は、前記ターゲットオブジェクトのカテゴリ情報と平面情報とを取得する場合、前記第1画像データをターゲット画像分割モデルに入力し、前記ターゲットオブジェクトのマスク情報を取得することと、前記マスク情報に基づいて前記カテゴリ情報及び前記平面情報を取得することと、に使用される。
【0068】
一実施例では、当該情報取得モジュール2200は、前記マスク情報に基づいて前記カテゴリ情報を取得する場合、前記マスク情報をターゲットカテゴリ認識モデルに入力し、前記カテゴリ情報を取得することに使用される。
【0069】
一実施例では、当該情報取得モジュール2200は、前記マスク情報に基づいて前記平面情報を取得する場合、前記マスク情報に基づいて、前記第1画像データにおける前記ターゲットオブジェクトに対応するターゲット画像ブロックを取得することと、前記ターゲット画像ブロックに基づいて、前記ターゲットオブジェクトのキーポイントの世界座標系におけるターゲット位置情報を取得することと、前記ターゲット位置情報及び所定の平面フィッティングアルゴリズムに基づいて、前記ターゲットオブジェクトの各平面に対応する中心点座標及び平面法線ベクトルを含む前記平面情報を取得することと、に使用され、そのうち、前記キーポイントは前記ターゲットオブジェクトのコーナーポイントを含む。
【0070】
一実施例では、装置2000は電子機器に適用され、当該情報取得モジュール2200は、前記ターゲット画像ブロックに基づいて、前記ターゲットオブジェクトのキーポイントの世界座標系におけるターゲット位置情報を取得する場合、前記ターゲット画像ブロックに基づいて、前記キーポイントの前記第1画像データにおける第1位置情報を検出することと、現在時刻を含む第1時刻における電子機器の位置姿勢情報、及び、前記キーポイントの第1時刻よりも先の第2時刻において取得された第3画像データにおける第2位置情報を取得することと、前記第1位置情報と前記位置姿勢情報と前記第2位置情報とに基づいて前記ターゲット位置情報を取得することと、に使用される。
【0071】
当該第2画像データ取得モジュール2300は、第2画像データを取得することに使用され、そのうち、前記第2画像データは仮想オブジェクトを含むデータである。
【0072】
当該ターゲット画像データ生成モジュール2400は、前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合し、ターゲット画像データを生成することに使用され、そのうち、前記ターゲット画像データは、前記ターゲットオブジェクトと前記仮想オブジェクトとを含むデータである。
【0073】
一実施例では、当該ターゲット画像データ生成モジュール2400は、前記カテゴリ情報と前記平面情報とに基づいて、前記第1画像データと前記第2画像データとを混合して、ターゲット画像データを生成する場合、前記カテゴリ情報に基づいて、前記第2画像データにおける前記仮想オブジェクトと前記第1画像データにおける前記ターゲットオブジェクトとの相対位置関係を決定することと、前記平面情報と前記相対位置関係とに基づいて、前記仮想オブジェクトを前記ターゲットオブジェクトの所定位置までレンダリングして前記ターゲット画像データを取得することと、に使用される。
【0074】
一実施例では、当該装置2000は、前記ターゲット画像データを取得した後、前記ターゲット画像データを表示することに使用される表示モジュールをさらに含む。
【0075】
本実施例では、上記方法の実施例に対応して、本願の任意の実施例のデータ生成方法を実施するための本願の任意の実施例に係るデータ生成装置2000を含むことができる電子機器がさらに提供される。
【0076】
図3に示すように、電子機器3000は、実行可能な指令を記憶するメモリ3100と、本願の任意の実施例のデータ生成方法を実行させるために、指令による制御に従って電子機器を作動させるプロセッサ3200と、を更に含む。
【0077】
上記装置2000の各モジュールは、当該指令がプロセッサ3200によって実行されて、本願の任意の実施例に係る方法を実行することによって実現することができる。
【0078】
具体的に実施される場合、電子機器3000は、例えば、表示画面、実環境情報を採集するための少なくとも2つの画像採集装置からなる表示装置を含むことが可能である。具体的に実施される場合、当該画像採集装置は、採集範囲が153°×120°×167°(H×V×D)前後であり、解像度が640×480以上、フレームレートが30Hz以上のモノクロカメラであってもよく、もちろん、必要に応じて他の構成のカメラであってもよいが、採集範囲が広いほどカメラの光学歪みが大きくなり、最終的なデータの精度に影響を与える可能性がある。具体的に実施される場合、当該電子機器は、例えば、VRデバイス、ARデバイス、またはMRデバイスなどのデバイスであってもよい。
【0079】
本願は、システム、方法、及び/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本願の様々な態様を実現させるためのコンピュータ可読プログラム指令を備えたコンピュータ可読記憶媒体を含むことができる。
【0080】
コンピュータ可読記憶媒体は、指令実行装置によって使用される指令を保持し記憶することができる有形の装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上述した任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、ポータブル圧縮ディスク読み取り専用メモリ(CD-ROM)、デジタル多機能ディスク(DVD)、メモリスティック、フロッピーディスク、機械符号化装置、例えば、指令が格納されたパンチカードまたは溝内ボス構造、及び上述の任意の適切な組み合わせが挙げられる。ここで使用されるコンピュータ可読記憶媒体は、無線電波や他の自由に伝搬される電磁波、導波路や他の伝送媒体を介して伝搬される電磁波(例えば、光ファイバケーブルを介した光パルス)、または電線を介して伝送される電気信号などの瞬時信号そのものと解釈されない。
【0081】
ここに記述されたコンピュータ可読プログラム指令は、コンピュータ可読記憶媒体から各計算/処理装置にダウンロードすることができ、またはインターネット、ローカルエリアネットワーク、広域ネットワーク、及び/または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅伝送ケーブル、光ファイバ伝送、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/またはエッジサーバを含むことができる。各計算/処理装置におけるネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム指令を受信し、各計算/処理装置におけるコンピュータ可読記憶媒体に格納するために当該コンピュータ可読プログラム指令を転送する。
【0082】
本願の動作を実行するためのコンピュータプログラム指令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械指令、機械関連指令、マイクロコード、ファームウェア指令、状態設定データ、または1つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたはオブジェクトコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、「C」言語や類似のプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム指令は、完全にユーザコンピュータ上で実行され、部分的にユーザコンピュータ上で実行され、独立したソフトウェアパッケージとして実行され、部分的にユーザコンピュータ上部分的にリモートコンピュータ上で実行され、または完全にリモートコンピュータまたはサーバ上で実行されてもよい。リモートコンピュータに関連する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続することができ、または、インターネットサービスプロバイダを用いてインターネットを介して接続するなどの外部コンピュータに接続することができる。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用してプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブル論理アレイ(PLA)などの電子回路をカスタマイズすることができる。当該電子回路はコンピュータ可読プログラム指令を実行することで本願の様々な態様を実現することができる。
【0083】
ここでは、本願の実施例による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して、本願の各方面を説明する。フローチャート及び/またはブロック図の各ブロック、及びフローチャート及び/またはブロック図の各ブロックの組み合わせは、コンピュータ可読プログラム指令によって実現できることを理解されたい。
【0084】
これらのコンピュータ可読プログラム指令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供することができる。このことにより、これらの指令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されるとき、フローチャート及び/またはブロック図における1つまたは複数のブロックに規定された機能/動作を実現できる装置ができる。コンピュータ、プログラマブルデータ処理装置、及び/または他のデバイスが特定の方法で動作させるこれらのコンピュータ可読プログラム指令をコンピュータ可読記憶媒体に記憶してもよい。これにより、指令が記憶されたコンピュータ可読媒体は、フローチャート及び/またはブロック図における1つまたは複数のブロックに規定された機能/動作の様々な態様を実現する指令を含む製造品を含む。
【0085】
コンピュータ可読プログラム指令をコンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイス上で一連の動作ステップを実行して、コンピュータが実現するプロセスを生成することで、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスで実行される指令は、フローチャート及び/またはブロック図における1つまたは複数のブロックに規定された機能/動作を実行する。
【0086】
図面のフローチャート及びブロック図は、本願の複数の実施例に従ったシステム、方法、及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能、及び動作を示す。この点で、フローチャートまたはブロック図の各ブロックは、所定の論理機能を実現するための実行可能な指令を1つまたは複数含む1つのモジュール、プログラムセグメント、または指令の一部を表すことができる。代替として実現される場合において、ブロックに表示される機能は、図面に表示される順序とは異なる順序で発生することができる。例えば、2つの連続するブロックは実際には基本的に並列に実行することができ、それらは関連する機能に応じて逆の順序で実行することもできる。なお、ブロック図及び/またはフローチャートにおける各ブロック、及びブロック図及び/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実現することができ、または専用のハードウェアとコンピュータ指令との組み合わせで実現することができる。当業者には、ハードウェアによる実現、ソフトウェアによる実現、及びソフトウェアとハードウェアとの結合による実現は同等であることが知られている。
【0087】
以上、本願の各実施例について説明したが、上記の説明は例示的であり、網羅的ではなく、開示された各実施例にも限定されない。説明された各実施例の範囲及び精神から逸脱することなく、多くの修正及び変更が当業者にとって明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際的な適用、または市場における技術的改善を最良に説明すること、または本明細書で開示される各実施例を当業者が理解できるようにすることを目的とする。本願の範囲は、添付の特許請求の範囲によって規定される。
【国際調査報告】