特開2023-129180 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インハ　インダストリー　パートナーシップ　インスティテュートの特許一覧

特開2023-129180クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換する方法および装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023129180

(43)【公開日】2023-09-14

(54)【発明の名称】クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換する方法および装置

(51)【国際特許分類】

G06T 13/80 20110101AFI20230907BHJP

G06F 3/16 20060101ALI20230907BHJP

【ＦＩ】

G06T13/80 B

G06F3/16 650

G06F3/16 630

G06F3/16 670

【審査請求】有

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022072229

(22)【出願日】2022-04-26

(11)【特許番号】

(45)【特許公報発行日】2023-07-10

(31)【優先権主張番号】10-2022-0026672

(32)【優先日】2022-03-02

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】505224569

【氏名又は名称】インハインダストリーパートナーシップインスティテュート

【氏名又は名称原語表記】Ｉｎｈａ－ＩｎｄｕｓｔｒｙＰａｒｔｎｅｒｓｈｉｐＩｎｓｔｉｔｕｔｅ

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】チョ・グンシク

【テーマコード（参考）】

5B050

【Ｆターム（参考）】

5B050AA04

5B050BA06

5B050BA08

5B050CA07

5B050EA07

5B050EA18

5B050FA10

5B050FA13

(57)【要約】

【課題】クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換するための方法および装置を提供する。
【解決手段】本開示のビデオ変換方法は、アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成する段階、ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する段階、２Ｄマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する段階、人工知能知識、デジタルツイン、および３Ｄマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する段階を含む。
【選択図】図３

【特許請求の範囲】

【請求項1】

学習部により、クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階、
前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成する段階、
２Ｄマニュアル連結部により、前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する段階、
知識管理部により、前記２Ｄマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する段階、および
神経言語音声実行部により、前記人工知能知識、デジタルツイン、および３Ｄマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する段階
を含む、ビデオ変換方法。

【請求項2】

前記学習部により、クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階は、
前記３Ｄマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように３Ｄマニュアルのアノテーションに対するラベリング作業を実行し、ラベリング後、客体感知モデルを利用して、ビデオ上の客体に関する該当のアノテーションを自動で認識するために機械学習を実行する、
請求項１に記載のビデオ変換方法。

【請求項3】

前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成する段階は、
アノテーションの位置および形態をビデオエディタによって調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整し、
自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示す、
請求項１に記載のビデオ変換方法。

【請求項4】

前記２Ｄマニュアル連結部により、前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する段階は、
ビデオ上の２Ｄドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにする、
請求項１に記載のビデオ変換方法。

【請求項5】

クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する学習部、
前記アノテーションを自動認識し、自動認識されなかったアノテーションに対して微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成するビデオエディタ、
前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する２Ｄマニュアル連結部、
前記２Ｄマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する知識管理部、および
前記人工知能知識、デジタルツイン、および３Ｄマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する神経言語音声実行部
を含む、ビデオ変換装置。

【請求項6】

前記学習部は、
前記３Ｄマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように３Ｄマニュアルのアノテーションに対するラベリング作業を実行し、ラベリング後、客体感知モデルを利用して、ビデオ上の客体に関する該当のアノテーションを自動で認識するために機械学習を実行する、
請求項５に記載のビデオ変換装置。

【請求項7】

前記ビデオエディタは、
アノテーションの位置および形態をビデオエディタによって調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整し、
自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示す、
請求項５に記載のビデオ変換装置。

【請求項8】

前記２Ｄマニュアル連結部は、
ビデオ上の２Ｄドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにする
請求項５に記載のビデオ変換装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換する方法および装置に関する。

【背景技術】

【0002】

航空機のような複雑な技術のマニュアルは、高度化された専門家がアノテーションを必要とするビデオのための専用ビデオアノテーションツールを利用してアノテーションを作成するか、非専門家がテキストを画面に配置するだけの単純なレベルのアノテーションを作成する。このとき作成されるアノテーションのほとんどは、固定された位置からの動きがない、静的なアノテーションで作成される。さらに、このようなアノテーションは、ビデオを視聴する使用者に一方的に提供される形態であるとか、動きのない静的なテキストまたはイメージ形態だけが提供されたり、使用者との相互作用は可能であるが単に他の映像あるいはウェブサイトへの接続リンクだけが提供されたりするレベルに留まっている。

【0003】

例えば、特許文献１（２０１１年１０月５日）には、テキスト情報を利用して所定の場面の状況に関する場面状況情報を生成する技術が開示されている。

【0004】

このように、提供されるビデオのテキストまたはイメージで構成されたアノテーションが一方的に提供される場合、使用者はこれと相互作用することができないし、予め作成されたアノテーションに追加で必要な情報の提供を受けたり追加したりすることができない。

【0005】

このような単純形態のアノテーションは、提供されるアノテーションから多様な情報を得たり相互作用したいというユーザ要求があるにもかかわらず、一方的に静的に表示されるだけであったり、相互作用は可能であるが単にリンクを提供するレベルで提供されているため、ユーザの立場では、多様な情報取得および追加作業のために画面から離れて別のアクションを追加で行わなければならないという煩わしさが頻繁に発生していた。

【0006】

例えば、現在までは、航空機のような複雑な技術のマニュアルは、分解組立に必要な指示書（Ｉｎｓｔｒｕｃｔｉｏｎｓ）や紙を基盤とする２Ｄ設計図（ｅｎｇｉｎｅｅｒｉｎｇｄｒａｗｉｎｇ）を参照して、現実世界の３次元機械部品と照らし合わせながら作業を行ってきた。２Ｄマニュアルが紙基盤であることから、現実世界の物理的機械や部品番号などのマッチが難しく、理解するまでに時間がかかることから、作業効率が上がらないだけでなくミスも発生しやすかった。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】韓国登録特許第１０－１０７２３４７号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

本発明が達成しようとする技術的課題は、クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換する方法および装置を提供することにあり、より詳細には、航空機のような複雑な３Ｄマニュアルに対してＸＲ（ｅＸｔｅｎｄｅｄＲｅａｌｉｔｙ）技術を利用して実際の機械のデジタルツイン（ｄｉｇｉｔａｌｔｗｉｎ）を３次元で生成し、該当の画面上に分解組立に必要な指示書、アニメーション、および２Ｄ設計図を追加で提供するための方法および装置を提供することにある。

【課題を解決するための手段】

【0009】

一側面において、本発明で提案するクラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換する方法は、学習部により、クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階、前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成する段階、２Ｄマニュアル連結部により、前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する段階、知識管理部により、前記２Ｄマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する段階、および神経言語音声実行部により、前記人工知能知識、デジタルツイン、および３Ｄマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する段階を含む。

【0010】

前記学習部により、クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階は、前記３Ｄマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように３Ｄマニュアルのアノテーションに対するラベリング作業を実行し、ラベリング後に客体感知モデルを利用してビデオ上の客体に関する該当のアノテーションを自動認識するために機械学習を実行する。

【0011】

前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成する段階は、ビデオエディタによってアノテーションの位置および形態を調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整し、自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示す。

【0012】

前記２Ｄマニュアル連結部により、前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する段階は、ビデオ上の２Ｄドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにする。

【0013】

また他の側面において、本発明で提案するクラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換するための装置は、クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する学習部、前記アノテーションを自動認識し、自動認識されなかったアノテーションに対して微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成するビデオエディタ、前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する２Ｄマニュアル連結部、前記２Ｄマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する知識管理部、および前記人工知能知識、デジタルツイン、および３Ｄマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する神経言語音声実行部を含む。

【発明の効果】

【0014】

本発明の実施形態に係るクラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換する方法および装置は、航空機のような複雑な３Ｄマニュアルに対してＸＲ（ｅＸｔｅｎｄｅｄＲｅａｌｉｔｙ）技術を利用して実際の機械のデジタルツイン（ｄｉｇｉｔａｌｔｗｉｎ）を３次元で生成し、該当の画面上に分解組立に必要な指示書、アニメーション、および２Ｄ設計図を追加で提供することができる。

【図面の簡単な説明】

【0015】

【図1】本発明の一実施形態に係る３Ｄマニュアルと従来技術に係る２Ｄマニュアルを示した図である。

【図2】本発明の一実施形態における、クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換するための装置の構成を示した図である。

【図3】本発明の一実施形態における、クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換するための方法を説明するためのフローチャートである。

【図4】本発明の一実施形態における、アノテーション個体の位置を示す過程を説明するための図である。

【図5】本発明の一実施形態における、アノテーションに対するラベリング作業過程を説明するための図である。

【図6】本発明の一実施形態における、機械学習過程を説明するための図である。

【図7】本発明の一実施形態における、自動客体感知モデルの使用例を示した図である。

【図8】本発明の一実施形態における、３Ｄマニュアルを該当の２Ｄマニュアルと連結する過程を説明するための図である。

【図9】本発明の一実施形態における、相互作用のための３Ｄマニュアルアセットの構造を示した図である。

【図10】本発明の一実施形態における、自動で構造化されたファイルを示した図である。

【発明を実施するための形態】

【0016】

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

【0017】

図１は、本発明の一実施形態に係る３Ｄマニュアルと従来技術に係る２Ｄマニュアルを示した図である。

【0018】

図１（ａ）は、従来技術に係る２Ｄマニュアルを示した図であり、図１（ｂ）は、本発明の一実施形態に係る３Ｄマニュアルを示した図である。

【0019】

図１（ａ）に示すように、現在までは、航空機のような複雑な技術マニュアルは、分解組立に必要な指示書（Ｉｎｓｔｒｕｃｔｉｏｎｓ）１１０および紙を基盤とした２Ｄ設計図（ｅｎｇｉｎｅｅｒｉｎｇｄｒａｗｉｎｇ）１２０を参照して、現実世界の３次元の機械部品と照らし合わせながら作業が行われてきた。このような方法は、２Ｄマニュアルが紙基盤のであることから、現実世界の物理的機械や部品番号などのマッチが難しく、理解するまでに時間がかかることから、作業効率が上がらないだけでなくミスも発生しやすかった。

【0020】

本発明で提案する３Ｄマニュアルは、ＸＲ（ｅＸｔｅｎｄｅｄＲｅａｌｉｔｙ）技術を利用して実際の機械のデジタルツイン（ｄｉｇｉｔａｌｔｗｉｎ）を３次元で生成し、その画面上に分解組立に必要な指示書、アニメーション、および２Ｄ設計図を追加で提供することができる。

【0021】

図１（ｂ）に示すように、３Ｄバーチャル（ｖｉｒｔｕａｌ）機械１３０上には、作業指示書１５０、これに必要なパート（ｐａｒｔ）番号、および各種２Ｄ設計図１４０が表示されてよい。

【0022】

本発明の実施形態によると、メタバース空間の３Ｄコンテンツとマニュアルを組み合わせて３Ｄ上で作業者が作業する視野の観点からビデオを生成することで、各種２Ｄ設計図と作業者が必要とする情報をワンクリック（ｏｎｅ－ｃｌｉｃｋ）で提供することができる。

【0023】

本発明の実施形態によると、航空機メンテナンスマニュアルが含まれた３Ｄコンテンツをクラウドからダウンロードするのにかかる時間を減らすために、３Ｄアニメーションとアノテーションの特定の時点を保存して３Ｄマニュアルと完全に等しいインタラクティブビデオ（ｉｎｔｅｒａｃｔｉｖｅｖｉｄｅｏ）を生成する。

【0024】

ここで、インタラクティブビデオとは、動画関連情報を提供するためにクリック可能な個体を提供する動画の類型であって、部品の設計図を示し、必要なツール（Ｔｏｏｌ）の使用方法を提示し、次の作業指示書に移動するなどの手順的情報を簡単な言語やジェスチャで提供することができる。このようなインタラクティブビデオからは、ビデオの個体に関する情報を得ることができ、航空機マニュアルの指針に関する詳細情報をクリックして認知することができ、個体をクリックしてビデオと相互作用することができる。

【0025】

図２は、本発明の一実施形態における、クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換するための装置の構成を示した図である。

【0026】

本発明で提案する３Ｄマニュアルを２Ｄインタラクティブビデオに変換する装置は、３ＤマニュアルをＸＲ（ｅＸｔｅｎｄｅｄＲｅａｌｉｔｙ）技術を利用して実際の機械のデジタルツイン（ｄｉｇｉｔａｌｔｗｉｎ）を３次元で生成し、この画面上に分解組立に必要な指示書、アニメーション、および２Ｄ設計図を追加で提供することができる。混合現実における高価な航空機を含む複雑な機械類訓練や教育システムは、機械類の整備訓練、教育、および広報のためのメタバース混合現実（ＭｉｘｅｄＲｅａｌｉｔｙ：ＭＲ）において、デジタルツインとともに機械部品の装着および脱着のためのマニュアルの提供と、このアニメーション形態のシミュレーションを実行して使用者の視野に提供することができる。このようなＳａａＳモデルのサービスのために、デジタルツインは、膨大なコンピュータグラフィックデータと膨大なマニュアルなどのデータがクラウド基盤のサービスを通じて提供されなければならない。しかし、デジタルツインの膨大なコンピュータグラフィックデータやテキストマニュアル、２Ｄ設計図などをクラウドからクライアント側にダウンロードするためには相対的に多くの時間がかかるため、リアルタイム性が問題となる。

【0027】

本発明では、３Ｄマニュアルの効率的なダウンロードサービスのために、特定の部品の装着および脱着のための視覚的観点において３Ｄマニュアルをインタラクティブビデオに変換し、クラウド基盤で効率的にサービスを提供する方案を提示する。

【0028】

提案するクラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換するための装置２００は、学習部２１０、ビデオエディタ２２０、２Ｄマニュアル連結部２３０、知識管理部２４０、および神経言語音声実行部２５０を含む。

【0029】

本発明の実施形態に係る学習部２１０は、クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業と、前記アノテーションを認識するための機械学習を実行する。

【0030】

本発明の実施形態に係る学習部２１０は、３Ｄマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように３Ｄマニュアルのアノテーションに対するラベリング作業を実行する。ラベリング後、客体感知モデルを利用して、ビデオ上の客体に関する該当のアノテーションを自動認識するために機械学習を実行する。

【0031】

本発明の実施形態に係るビデオエディタ２２０は、アノテーションを自動認識し、自動認識されなかったアノテーションに対して微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成する。

【0032】

本発明の実施形態に係るビデオエディタ２２０は、アノテーションの位置および形態をビデオエディタによって調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整する。

【0033】

本発明の実施形態に係るビデオエディタ２２０は、自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示す。

【0034】

本発明の実施形態に係る２Ｄマニュアル連結部２３０は、ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する。

【0035】

本発明の実施形態に係る２Ｄマニュアル連結部２３０は、ビデオ上の２Ｄドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにする。

【0036】

本発明の実施形態に係る知識管理部２４０は、２Ｄマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する。

【0037】

本発明の実施形態に係る神経言語音声実行部２５０は、人工知能知識、デジタルツイン、および３Ｄマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する。

【0038】

図３は、本発明の一実施形態における、クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換するための方法を説明するためのフローチャートである。

【0039】

クラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換するための方法は、学習部により、クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する段階３１０、前記アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成する段階３２０、２Ｄマニュアル連結部により、前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する段階３３０、知識管理部により、前記２Ｄマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する段階３４０、および神経言語音声実行部により、前記人工知能知識、デジタルツイン、および３Ｄマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する段階３５０を含む。

【0040】

段階３１０で、学習部により、クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業および前記アノテーションを認識するための機械学習を実行する。

【0041】

先ず、３Ｄマニュアルのアノテーション個体の位置を座標系で示し、前記アノテーションの位置を自動認識するように３Ｄマニュアルのアノテーションに対するラベリング作業を実行する。ラベリング後、客体感知モデルを利用して、ビデオ上の客体に関する該当のアノテーションを自動認識するために機械学習を実行する。

【0042】

段階３２０で、アノテーションを自動認識し、自動認識されなかったアノテーションに対してビデオエディタによって微調整を実行し、３Ｄマニュアルを２Ｄインタラクティブビデオに変換するためのファイルを生成する。

【0043】

本発明の実施形態によると、アノテーションの位置および形態をビデオエディタによって調整した後、アノテーションの持続時間を調整して自動認識されなかったアノテーションを調整してよい。

【0044】

本発明の実施形態によって自動認識されたアノテーションは、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンを含む相互作用のための作業リストを示してよい。

【0045】

段階３３０で、２Ｄマニュアル連結部により、前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する。

【0046】

本発明の実施形態によると、ビデオ上の２Ｄドローイング位置、個体ラベル名、相互作用のための境界枠の開始時間および終了時間、ビデオフレームの境界枠の位置を含む前記ファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結し、ビデオ上のアノテーションがクリックされる場合、該当の相互作用を実行するようにしてよい。

【0047】

段階３４０で、知識管理部により、前記２Ｄマニュアルの作業指示書に基づいて人工知能知識を抽出して処理する。

【0048】

段階３５０で、神経言語音声実行部により、前記人工知能知識、デジタルツイン、および３Ｄマニュアルのアノテーションに基づいて命令を実行するために音声要請を処理するためのニューラルネットワーク作業と言語的推論を実行し、使用者に視覚および音声フィードバックを送信することで要請された作業の処理および完了を通知する。

【0049】

図４～１０を参照しながら、本発明の実施形態に係るクラウドサービス用３Ｄマニュアルを２Ｄインタラクティブビデオに変換する過程についてさらに詳しく説明する。

【0050】

図４は、本発明の一実施形態における、アノテーション個体の位置を示す過程を説明するための図である。

【0051】

図４を参照すると、アノテーション個体の位置４１０が座標系４４０で示されている。本発明の実施形態によると、主に、作業指示書に表示された部品の位置を座標系に表示する。表示しようとするアノテーション個体のクラスネーム４３０およびアノテーションデータ４４０を利用して座標系４４０で示してよい。アノテーションデータ４４０は、例えば、アノテーション個体の左上角のＸ座標、左上角のＹ座標、四角形の幅、および四角形の高さなどの情報を含んでよい。

【0052】

図５は、本発明の一実施形態における、アノテーションに対するラベリング作業過程を説明するための図である。

【0053】

本発明の実施形態に係る学習部により、クラウドサービス用３Ｄマニュアルのアノテーションに対するラベリング作業と、前記アノテーションを認識するための機械学習を実行してよい。先ず、ビデオ形態で録画された３Ｄマニュアルでアノテーションの位置５１１、５１２、５１３、５１４、５１５を学習させてアノテーションの位置を自動認識するようにしてよい。

【0054】

本発明の実施形態に係るラベリング作業は、ビデオにアノテーションを追加するのに使用されるＰｙｔｈｏｎ基盤のアノテーションツールにより、ラベルが指定された２００以上のクラスを利用して各個体に対するラベルが指定されてよい。

【0055】

図６は、本発明の一実施形態における、機械学習過程を説明するための図である。

【0056】

本発明の実施形態によると、ラベリング後、アノテーションの実測資料（ＧｒｏｕｎｄＴｒｕｔｈ）となるデータに基づいて、機械学習モデルを適用して部品の認識のためのアノテーションを自動認識してよい。

【0057】

本発明の実施形態に係る客体感知モデルとして１００Ｅｐｏｃｈを使用してよく、入力イメージをＳ×Ｓグリッドに分ける。個体の中心が格子セルに含まれれば、該当の格子セルが該当の個体を感知する役割をするようになる。このような機械学習により、アノテーションの位置をより正確に把握してラベリングを実行することができる。この後、ビデオエディタによってビデオの整列およびアップロードを実行する。

【0058】

本発明の実施形態に係るビデオエディタは、自動認識によってアノテーションされるべきリストを提示する。例えば、客体情報、部品情報、次の作業および前の作業への移動のためのマーク、部品の位置、関連ビデオ、注意および警告ボタンなどの相互作用のための作業リストを提示してよい。

【0059】

このとき、アノテーションに対する１００％の自動認識は難しいため、本発明の実施形態に係るビデオエディタによってアノテーションの位置を調整する。

【0060】

図７は、本発明の一実施形態における、自動客体感知モデルの使用例を示した図である。

【0061】

本発明の実施形態に係るビデオエディタは、自動認識を実行する前にビデオのサンプルの間隔を調整するために、オンラインまたはオフラインビデオ編集器（例えば、Ｐｉｘｅｒ、Ａｄｏｂｅ、ｖｉｍｅｏ）を使用してよい。

【0062】

アノテーションの位置と形状をビデオエディタによって調整した後、アノテーションの持続時間などを調整することで誤ったアノテーションを調整してよい。例えば、アノテーションツールを長方形に調整し、再生／一時停止をコントロールして編集したアノテーションを保存してよい。この後、ｊｓｏｎ形式のファイルでアノテーションを出力してよく、出力されたアノテーションの個体情報を確認してよい。アノテーションのリストは、ラベル、客体の類型、アノテーション開始時間（Ｓ）、アノテーション終了時間（Ｅ）などを含んでよい。

【0063】

このように、本発明の実施形態に係るビデオエディタによって誤ったアノテーションを手動で変更して生成されたｊｓｏｎファイルを保存してよい。

【0064】

図７を参照すると、３Ｄマニュアルを該当の２Ｄマニュアルと連結するためのページ７１０が示されている。本発明の実施形態に係る２Ｄマニュアル連結部によって生成されたｊｓｏｎファイルを利用して３Ｄマニュアルを該当の２Ｄマニュアルと連結する過程について、図８を参照しながらさらに詳しく説明する。

【0065】

図８は、本発明の一実施形態における、３Ｄマニュアルを該当の２Ｄマニュアルと連結する過程を説明するための図である。

【0066】

図８を参照すると、ビデオ上の２Ｄドローイング位置８１０、個体ラベル名８２０、相互作用のための境界枠の開始時間および終了時間８３０、およびビデオフレームの境界枠の位置８４０が示されている。例えば、＜ＨＴＭＬ＞を使用して客体名と相互作用アセット（ａｓｓｅｔ）をともに連結して相互作用を実行してよい。

【0067】

図８のコンテンツ（Ｃｏｎｔｅｎｔｓ）部分８５０は、アノテーションがクリックされた場合に連結されるＡｓｓｅｔ（例えば、マニュアルの特定のページおよび参照部品番号の表示など）を示している。

【0068】

図９は、本発明の一実施形態における、相互作用のための３Ｄマニュアルアセットの構造を示した図である。

【0069】

図９に示すように、航空機整備マニュアル９１０上で「Ｕｐｐｅｒｌｏｃｋｌｉｎｋ」がクリックされる場合、２Ｄ設計図９２０で該当の「Ｕｐｐｅｒｌｏｃｋｌｉｎｋ」をマークして示してよい。

【0070】

図１０は、本発明の一実施形態における、自動で構造化されたファイルを示した図である。

【0071】

上述したように、自動認識およびアノテーション調整を完了すれば、構造化されたＪＳＯＮファイルが自動で生成される。生成されたファイルには、客体名１０１０、時間範囲１０２０、および境界枠１０３０などの情報が含まれてよい。

【0072】

このように、本発明で提案する３Ｄマニュアルは、ＸＲ（ｅＸｔｅｎｄｅｄＲｅａｌｉｔｙ）技術を利用して実際の機械のデジタルツイン（ｄｉｇｉｔａｌｔｗｉｎ）を３Ｄで生成し、その画面上に分解組立に必要な指示書、アニメーション、および２Ｄ設計図を追加で提供することができる。

【0073】

混合現実における高価の航空機を含む複雑な機械類訓練や教育システムは、機械類の整備訓練、教育、および広報のためのメタバース混合現実（ＭｉｘｅｄＲｅａｌｉｔｙ：ＭＲ）において、デジタルツインとともに機械部品の装着および脱着のためのマニュアルの提供と、このアニメーション形態のシミュレーションを実行して使用者の視野に提供することができる。

【0074】

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

【0075】

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置（ｖｉｒｔｕａｌｅｑｕｉｐｍｅｔｎ）、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

【0076】

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。前記媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであってもよいし、コンピュータソフトウェアの当業者に公知な使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。

【0077】

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

【0078】

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

【符号の説明】

【0079】

２００：
２１０：学習部
２２０：ビデオエディタ
２３０：２Ｄマニュアル連結部
２４０：知識管理部
２５０：神経言語音声実行部

【図1】