(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023129180
(43)【公開日】2023-09-14
(54)【発明の名称】クラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換する方法および装置
(51)【国際特許分類】
G06T 13/80 20110101AFI20230907BHJP
G06F 3/16 20060101ALI20230907BHJP
【FI】
G06T13/80 B
G06F3/16 650
G06F3/16 630
G06F3/16 670
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022072229
(22)【出願日】2022-04-26
(11)【特許番号】
(45)【特許公報発行日】2023-07-10
(31)【優先権主張番号】10-2022-0026672
(32)【優先日】2022-03-02
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】505224569
【氏名又は名称】インハ インダストリー パートナーシップ インスティテュート
【氏名又は名称原語表記】Inha-Industry Partnership Institute
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】チョ・グンシク
【テーマコード(参考)】
5B050
【Fターム(参考)】
5B050AA04
5B050BA06
5B050BA08
5B050CA07
5B050EA07
5B050EA18
5B050FA10
5B050FA13
(57)【要約】
【課題】クラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換するための方法および装置を提供する。
【解決手段】本開示のビデオ変換方法は、アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成する段階、ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する段階、2Dマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する段階、人工知能知識、デジタルツイン、および3Dマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する段階を含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
学習部により、クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階、
前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成する段階、
2Dマニュアル連結部により、前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する段階、
知識管理部により、前記2Dマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する段階、および
神経言語音声実行部により、前記人工知能知識、デジタルツイン、および3Dマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する段階
を含む、ビデオ変換方法。
【請求項2】
前記学習部により、クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階は、
前記3Dマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように3Dマニュアルのアノテーションに対するラベリング作業を実行し、ラベリング後、客体感知モデルを利用して、ビデオ上の客体に関する該当のアノテーションを自動で認識するために機械学習を実行する、
請求項1に記載のビデオ変換方法。
【請求項3】
前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成する段階は、
アノテーションの位置および形態をビデオエディタによって調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整し、
自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示す、
請求項1に記載のビデオ変換方法。
【請求項4】
前記2Dマニュアル連結部により、前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する段階は、
ビデオ上の2Dドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにする、
請求項1に記載のビデオ変換方法。
【請求項5】
クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する学習部、
前記アノテーションを自動認識し、自動認識されなかったアノテーションに対して微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成するビデオエディタ、
前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する2Dマニュアル連結部、
前記2Dマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する知識管理部、および
前記人工知能知識、デジタルツイン、および3Dマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する神経言語音声実行部
を含む、ビデオ変換装置。
【請求項6】
前記学習部は、
前記3Dマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように3Dマニュアルのアノテーションに対するラベリング作業を実行し、ラベリング後、客体感知モデルを利用して、ビデオ上の客体に関する該当のアノテーションを自動で認識するために機械学習を実行する、
請求項5に記載のビデオ変換装置。
【請求項7】
前記ビデオエディタは、
アノテーションの位置および形態をビデオエディタによって調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整し、
自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示す、
請求項5に記載のビデオ変換装置。
【請求項8】
前記2Dマニュアル連結部は、
ビデオ上の2Dドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにする
請求項5に記載のビデオ変換装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、クラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換する方法および装置に関する。
【背景技術】
【0002】
航空機のような複雑な技術のマニュアルは、高度化された専門家がアノテーションを必要とするビデオのための専用ビデオアノテーションツールを利用してアノテーションを作成するか、非専門家がテキストを画面に配置するだけの単純なレベルのアノテーションを作成する。このとき作成されるアノテーションのほとんどは、固定された位置からの動きがない、静的なアノテーションで作成される。さらに、このようなアノテーションは、ビデオを視聴する使用者に一方的に提供される形態であるとか、動きのない静的なテキストまたはイメージ形態だけが提供されたり、使用者との相互作用は可能であるが単に他の映像あるいはウェブサイトへの接続リンクだけが提供されたりするレベルに留まっている。
【0003】
例えば、特許文献1(2011年10月5日)には、テキスト情報を利用して所定の場面の状況に関する場面状況情報を生成する技術が開示されている。
【0004】
このように、提供されるビデオのテキストまたはイメージで構成されたアノテーションが一方的に提供される場合、使用者はこれと相互作用することができないし、予め作成されたアノテーションに追加で必要な情報の提供を受けたり追加したりすることができない。
【0005】
このような単純形態のアノテーションは、提供されるアノテーションから多様な情報を得たり相互作用したいというユーザ要求があるにもかかわらず、一方的に静的に表示されるだけであったり、相互作用は可能であるが単にリンクを提供するレベルで提供されているため、ユーザの立場では、多様な情報取得および追加作業のために画面から離れて別のアクションを追加で行わなければならないという煩わしさが頻繁に発生していた。
【0006】
例えば、現在までは、航空機のような複雑な技術のマニュアルは、分解組立に必要な指示書(Instructions)や紙を基盤とする2D設計図(engineering drawing)を参照して、現実世界の3次元機械部品と照らし合わせながら作業を行ってきた。2Dマニュアルが紙基盤であることから、現実世界の物理的機械や部品番号などのマッチが難しく、理解するまでに時間がかかることから、作業効率が上がらないだけでなくミスも発生しやすかった。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】韓国登録特許第10-1072347号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明が達成しようとする技術的課題は、クラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換する方法および装置を提供することにあり、より詳細には、航空機のような複雑な3Dマニュアルに対してXR(eXtended Reality)技術を利用して実際の機械のデジタルツイン(digital twin)を3次元で生成し、該当の画面上に分解組立に必要な指示書、アニメーション、および2D設計図を追加で提供するための方法および装置を提供することにある。
【課題を解決するための手段】
【0009】
一側面において、本発明で提案するクラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換する方法は、学習部により、クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階、前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成する段階、2Dマニュアル連結部により、前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する段階、知識管理部により、前記2Dマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する段階、および神経言語音声実行部により、前記人工知能知識、デジタルツイン、および3Dマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する段階を含む。
【0010】
前記学習部により、クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階は、前記3Dマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように3Dマニュアルのアノテーションに対するラベリング作業を実行し、ラベリング後に客体感知モデルを利用してビデオ上の客体に関する該当のアノテーションを自動認識するために機械学習を実行する。
【0011】
前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成する段階は、ビデオエディタによってアノテーションの位置および形態を調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整し、自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示す。
【0012】
前記2Dマニュアル連結部により、前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する段階は、ビデオ上の2Dドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにする。
【0013】
また他の側面において、本発明で提案するクラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換するための装置は、クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する学習部、前記アノテーションを自動認識し、自動認識されなかったアノテーションに対して微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成するビデオエディタ、前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する2Dマニュアル連結部、前記2Dマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する知識管理部、および前記人工知能知識、デジタルツイン、および3Dマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する神経言語音声実行部を含む。
【発明の効果】
【0014】
本発明の実施形態に係るクラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換する方法および装置は、航空機のような複雑な3Dマニュアルに対してXR(eXtended Reality)技術を利用して実際の機械のデジタルツイン(digital twin)を3次元で生成し、該当の画面上に分解組立に必要な指示書、アニメーション、および2D設計図を追加で提供することができる。
【図面の簡単な説明】
【0015】
【
図1】本発明の一実施形態に係る3Dマニュアルと従来技術に係る2Dマニュアルを示した図である。
【
図2】本発明の一実施形態における、クラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換するための装置の構成を示した図である。
【
図3】本発明の一実施形態における、クラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換するための方法を説明するためのフローチャートである。
【
図4】本発明の一実施形態における、アノテーション個体の位置を示す過程を説明するための図である。
【
図5】本発明の一実施形態における、アノテーションに対するラベリング作業過程を説明するための図である。
【
図6】本発明の一実施形態における、機械学習過程を説明するための図である。
【
図7】本発明の一実施形態における、自動客体感知モデルの使用例を示した図である。
【
図8】本発明の一実施形態における、3Dマニュアルを該当の2Dマニュアルと連結する過程を説明するための図である。
【
図9】本発明の一実施形態における、相互作用のための3Dマニュアルアセットの構造を示した図である。
【
図10】本発明の一実施形態における、自動で構造化されたファイルを示した図である。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
【0017】
図1は、本発明の一実施形態に係る3Dマニュアルと従来技術に係る2Dマニュアルを示した図である。
【0018】
図1(a)は、従来技術に係る2Dマニュアルを示した図であり、
図1(b)は、本発明の一実施形態に係る3Dマニュアルを示した図である。
【0019】
図1(a)に示すように、現在までは、航空機のような複雑な技術マニュアルは、分解組立に必要な指示書(Instructions)110および紙を基盤とした2D設計図(engineering drawing)120を参照して、現実世界の3次元の機械部品と照らし合わせながら作業が行われてきた。このような方法は、2Dマニュアルが紙基盤のであることから、現実世界の物理的機械や部品番号などのマッチが難しく、理解するまでに時間がかかることから、作業効率が上がらないだけでなくミスも発生しやすかった。
【0020】
本発明で提案する3Dマニュアルは、XR(eXtended Reality)技術を利用して実際の機械のデジタルツイン(digital twin)を3次元で生成し、その画面上に分解組立に必要な指示書、アニメーション、および2D設計図を追加で提供することができる。
【0021】
図1(b)に示すように、3Dバーチャル(virtual)機械130上には、作業指示書150、これに必要なパート(part)番号、および各種2D設計
図140が表示されてよい。
【0022】
本発明の実施形態によると、メタバース空間の3Dコンテンツとマニュアルを組み合わせて3D上で作業者が作業する視野の観点からビデオを生成することで、各種2D設計図と作業者が必要とする情報をワンクリック(one-click)で提供することができる。
【0023】
本発明の実施形態によると、航空機メンテナンスマニュアルが含まれた3Dコンテンツをクラウドからダウンロードするのにかかる時間を減らすために、3Dアニメーションとアノテーションの特定の時点を保存して3Dマニュアルと完全に等しいインタラクティブビデオ(interactive video)を生成する。
【0024】
ここで、インタラクティブビデオとは、動画関連情報を提供するためにクリック可能な個体を提供する動画の類型であって、部品の設計図を示し、必要なツール(Tool)の使用方法を提示し、次の作業指示書に移動するなどの手順的情報を簡単な言語やジェスチャで提供することができる。このようなインタラクティブビデオからは、ビデオの個体に関する情報を得ることができ、航空機マニュアルの指針に関する詳細情報をクリックして認知することができ、個体をクリックしてビデオと相互作用することができる。
【0025】
図2は、本発明の一実施形態における、クラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換するための装置の構成を示した図である。
【0026】
本発明で提案する3Dマニュアルを2Dインタラクティブビデオに変換する装置は、3DマニュアルをXR(eXtended Reality)技術を利用して実際の機械のデジタルツイン(digital twin)を3次元で生成し、この画面上に分解組立に必要な指示書、アニメーション、および2D設計図を追加で提供することができる。混合現実における高価な航空機を含む複雑な機械類訓練や教育システムは、機械類の整備訓練、教育、および広報のためのメタバース混合現実(Mixed Reality:MR)において、デジタルツインとともに機械部品の装着および脱着のためのマニュアルの提供と、このアニメーション形態のシミュレーションを実行して使用者の視野に提供することができる。このようなSaaSモデルのサービスのために、デジタルツインは、膨大なコンピュータグラフィックデータと膨大なマニュアルなどのデータがクラウド基盤のサービスを通じて提供されなければならない。しかし、デジタルツインの膨大なコンピュータグラフィックデータやテキストマニュアル、2D設計図などをクラウドからクライアント側にダウンロードするためには相対的に多くの時間がかかるため、リアルタイム性が問題となる。
【0027】
本発明では、3Dマニュアルの効率的なダウンロードサービスのために、特定の部品の装着および脱着のための視覚的観点において3Dマニュアルをインタラクティブビデオに変換し、クラウド基盤で効率的にサービスを提供する方案を提示する。
【0028】
提案するクラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換するための装置200は、学習部210、ビデオエディタ220、2Dマニュアル連結部230、知識管理部240、および神経言語音声実行部250を含む。
【0029】
本発明の実施形態に係る学習部210は、クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業と、前記アノテーションを認識するための機械学習を実行する。
【0030】
本発明の実施形態に係る学習部210は、3Dマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように3Dマニュアルのアノテーションに対するラベリング作業を実行する。ラベリング後、客体感知モデルを利用して、ビデオ上の客体に関する該当のアノテーションを自動認識するために機械学習を実行する。
【0031】
本発明の実施形態に係るビデオエディタ220は、アノテーションを自動認識し、自動認識されなかったアノテーションに対して微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成する。
【0032】
本発明の実施形態に係るビデオエディタ220は、アノテーションの位置および形態をビデオエディタによって調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整する。
【0033】
本発明の実施形態に係るビデオエディタ220は、自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示す。
【0034】
本発明の実施形態に係る2Dマニュアル連結部230は、ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する。
【0035】
本発明の実施形態に係る2Dマニュアル連結部230は、ビデオ上の2Dドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにする。
【0036】
本発明の実施形態に係る知識管理部240は、2Dマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する。
【0037】
本発明の実施形態に係る神経言語音声実行部250は、人工知能知識、デジタルツイン、および3Dマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する。
【0038】
図3は、本発明の一実施形態における、クラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換するための方法を説明するためのフローチャートである。
【0039】
クラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換するための方法は、学習部により、クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階310、前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成する段階320、2Dマニュアル連結部により、前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する段階330、知識管理部により、前記2Dマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する段階340、および神経言語音声実行部により、前記人工知能知識、デジタルツイン、および3Dマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する段階350を含む。
【0040】
段階310で、学習部により、クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する。
【0041】
先ず、3Dマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように3Dマニュアルのアノテーションに対するラベリング作業を実行する。ラベリング後、客体感知モデルを利用して、ビデオ上の客体に関する該当のアノテーションを自動認識するために機械学習を実行する。
【0042】
段階320で、アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、3Dマニュアルを2Dインタラクティブビデオに変換するためのファイルを生成する。
【0043】
本発明の実施形態によると、アノテーションの位置および形態をビデオエディタによって調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整してよい。
【0044】
本発明の実施形態によって自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示してよい。
【0045】
段階330で、2Dマニュアル連結部により、前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する。
【0046】
本発明の実施形態によると、ビデオ上の2Dドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにしてよい。
【0047】
段階340で、知識管理部により、前記2Dマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する。
【0048】
段階350で、神経言語音声実行部により、前記人工知能知識、デジタルツイン、および3Dマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する。
【0049】
図4~10を参照しながら、本発明の実施形態に係るクラウドサービス用3Dマニュアルを2Dインタラクティブビデオに変換する過程についてさらに詳しく説明する。
【0050】
図4は、本発明の一実施形態における、アノテーション個体の位置を示す過程を説明するための図である。
【0051】
図4を参照すると、アノテーション個体の位置410が座標系440で示されている。本発明の実施形態によると、主に、作業指示書に表示された部品の位置を座標系に表示する。表示しようとするアノテーション個体のクラスネーム430およびアノテーションデータ440を利用して座標系440で示してよい。アノテーションデータ440は、例えば、アノテーション個体の左上角のX座標、左上角のY座標、四角形の幅、および四角形の高さなどの情報を含んでよい。
【0052】
図5は、本発明の一実施形態における、アノテーションに対するラベリング作業過程を説明するための図である。
【0053】
本発明の実施形態に係る学習部により、クラウドサービス用3Dマニュアルのアノテーションに対するラベリング作業と、前記アノテーションを認識するための機械学習を実行してよい。先ず、ビデオ形態で録画された3Dマニュアルでアノテーションの位置511、512、513、514、515を学習させてアノテーションの位置を自動認識するようにしてよい。
【0054】
本発明の実施形態に係るラベリング作業は、ビデオにアノテーションを追加するのに使用されるPython基盤のアノテーションツールにより、ラベルが指定された200以上のクラスを利用して各個体に対するラベルが指定されてよい。
【0055】
図6は、本発明の一実施形態における、機械学習過程を説明するための図である。
【0056】
本発明の実施形態によると、ラベリング後、アノテーションの実測資料(Ground Truth)となるデータに基づいて、機械学習モデルを適用して部品の認識のためのアノテーションを自動認識してよい。
【0057】
本発明の実施形態に係る客体感知モデルとして100Epochを使用してよく、入力イメージをS×Sグリッドに分ける。個体の中心が格子セルに含まれれば、該当の格子セルが該当の個体を感知する役割をするようになる。このような機械学習により、アノテーションの位置をより正確に把握してラベリングを実行することができる。この後、ビデオエディタによってビデオの整列およびアップロードを実行する。
【0058】
本発明の実施形態に係るビデオエディタは、自動認識によってアノテーションされるべきリストを提示する。例えば、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンなどの相互作用のための作業リストを提示してよい。
【0059】
このとき、アノテーションに対する100%の自動認識は難しいため、本発明の実施形態に係るビデオエディタによってアノテーションの位置を調整する。
【0060】
図7は、本発明の一実施形態における、自動客体感知モデルの使用例を示した図である。
【0061】
本発明の実施形態に係るビデオエディタは、自動認識を実行する前にビデオのサンプルの間隔を調整するために、オンラインまたはオフラインビデオ編集器(例えば、Pixer、Adobe、vimeo)を使用してよい。
【0062】
アノテーションの位置と形状をビデオエディタによって調整した後、アノテーションの持続時間などを調整することで誤ったアノテーションを調整してよい。例えば、アノテーションツールを長方形に調整し、再生/一時停止をコントロールして編集したアノテーションを保存してよい。この後、json形式のファイルでアノテーションを出力してよく、出力されたアノテーションの個体情報を確認してよい。アノテーションのリストは、ラベル、客体の類型、アノテーション開始時間(S)、アノテーション終了時間(E)などを含んでよい。
【0063】
このように、本発明の実施形態に係るビデオエディタによって誤ったアノテーションを手動で変更して生成されたjsonファイルを保存してよい。
【0064】
図7を参照すると、3Dマニュアルを該当の2Dマニュアルと連結するためのページ710が示されている。本発明の実施形態に係る2Dマニュアル連結部によって生成されたjsonファイルを利用して3Dマニュアルを該当の2Dマニュアルと連結する過程について、
図8を参照しながらさらに詳しく説明する。
【0065】
図8は、本発明の一実施形態における、3Dマニュアルを該当の2Dマニュアルと連結する過程を説明するための図である。
【0066】
図8を参照すると、ビデオ上の2Dドローイング位置810、個体ラベル名820、相互作用のための境界枠の開始時間および終了時間830、およびビデオフレームの境界枠の位置840が示されている。例えば、<HTML>を使用して客体名と相互作用アセット(asset)をともに連結して相互作用を実行してよい。
【0067】
図8のコンテンツ(Contents)部分850は、アノテーションがクリックされた場合に連結されるAsset(例えば、マニュアルの特定のページおよび参照部品番号の表示など)を示している。
【0068】
図9は、本発明の一実施形態における、相互作用のための3Dマニュアルアセットの構造を示した図である。
【0069】
図9に示すように、航空機整備マニュアル910上で「Upperlock link」がクリックされる場合、2D設計
図920で該当の「Upperlock link」をマークして示してよい。
【0070】
図10は、本発明の一実施形態における、自動で構造化されたファイルを示した図である。
【0071】
上述したように、自動認識およびアノテーション調整を完了すれば、構造化されたJSONファイルが自動で生成される。生成されたファイルには、客体名1010、時間範囲1020、および境界枠1030などの情報が含まれてよい。
【0072】
このように、本発明で提案する3Dマニュアルは、XR(eXtended Reality)技術を利用して実際の機械のデジタルツイン(digital twin)を3Dで生成し、その画面上に分解組立に必要な指示書、アニメーション、および2D設計図を追加で提供することができる。
【0073】
混合現実における高価の航空機を含む複雑な機械類訓練や教育システムは、機械類の整備訓練、教育、および広報のためのメタバース混合現実(Mixed Reality:MR)において、デジタルツインとともに機械部品の装着および脱着のためのマニュアルの提供と、このアニメーション形態のシミュレーションを実行して使用者の視野に提供することができる。
【0074】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0075】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置(virtual equipmetn)、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0076】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。前記媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであってもよいし、コンピュータソフトウェアの当業者に公知な使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
【0077】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0078】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0079】
200:
210:学習部
220:ビデオエディタ
230:2Dマニュアル連結部
240:知識管理部
250:神経言語音声実行部