特開2024-108138 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フェアリーデバイセズ株式会社の特許一覧 ▶ ダイキン工業株式会社の特許一覧

特開2024-108138情報処理端末、画像送信システム及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024108138

(43)【公開日】2024-08-09

(54)【発明の名称】情報処理端末、画像送信システム及びプログラム

(51)【国際特許分類】

H04N 5/92 20060101AFI20240802BHJP

H04N 21/433 20110101ALI20240802BHJP

H04N 5/77 20060101ALI20240802BHJP

H04N 23/60 20230101ALI20240802BHJP

H04N 23/66 20230101ALI20240802BHJP

【ＦＩ】

H04N5/92 010

H04N21/433

H04N5/77

H04N23/60 300

H04N23/66

【審査請求】有

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2024007835

(22)【出願日】2024-01-23

(31)【優先権主張番号】P 2023012372

(32)【優先日】2023-01-30

(33)【優先権主張国・地域又は機関】JP

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＷＣＤＭＡ

(71)【出願人】

【識別番号】513190830

【氏名又は名称】ＦａｉｒｙＤｅｖｉｃｅｓ株式会社

(71)【出願人】

【識別番号】000002853

【氏名又は名称】ダイキン工業株式会社

(74)【代理人】

【識別番号】100116850

【弁理士】

【氏名又は名称】廣瀬隆行

(74)【代理人】

【識別番号】100165847

【弁理士】

【氏名又は名称】関大祐

(72)【発明者】

【氏名】藤野真人

(72)【発明者】

【氏名】竹崎雄一郎

(72)【発明者】

【氏名】久池井淳

(72)【発明者】

【氏名】片岡太郎

【テーマコード（参考）】

5C122

5C164

【Ｆターム（参考）】

5C122DA03

5C122DA04

5C122DA11

5C122EA42

5C122EA63

5C122FH11

5C122FJ01

5C122FK34

5C122GC04

5C122GC07

5C122GC14

5C122GC52

5C122GD12

5C122GE06

5C122GE11

5C122GG04

5C122GG17

5C122HA01

5C122HA13

5C122HA35

5C122HA75

5C122HA81

5C122HA90

5C122HB01

5C122HB02

5C164UA04S

5C164UA25S

5C164UA42S

5C164UB36P

5C164UB71S

(57)【要約】

【課題】動画データの任意のタイミングに対応する高品質な静止画データを容易に取得できるようにする。
【解決手段】情報処理端末は、画像信号を生成するイメージセンサ１５と、動画用のエンコードにより画像信号を動画データに変換する動画用エンコーダ１１ｃと、メモリ１１ｆと、静止画用のエンコードにより画像信号を静止画データに変換するとともに、この静止画データを動画データと対応付けてメモリ１１ｆに保存する静止画用エンコーダ１１ｅを備える。
【選択図】図５

【特許請求の範囲】

【請求項1】

画像信号を生成するイメージセンサと、
動画用のエンコードにより前記画像信号を動画データに変換する動画用エンコーダと、
メモリと、
静止画用のエンコードにより前記画像信号を静止画データに変換して、前記静止画データを前記動画データに対応付けて前記メモリに保存する静止画用エンコーダを備える
情報処理端末。

【請求項2】

前記静止画用エンコーダは、前記静止画データに前記動画データと経時的に対応付けるための同期データを付与して前記メモリに保存する
請求項１に記載の情報処理端末。

【請求項3】

通信回線を介して受信端末と通信可能な通信部と、
前記受信端末に前記動画データを送信している間に、前記受信端末から前記動画データ内の特定のタイミングの指定を含む静止画要求信号を受けた場合に、前記メモリから前記タイミングに対応する静止画データを読み出して前記受信端末に送信する処理を実行する制御部を備える
請求項１に記載の情報処理端末。

【請求項4】

前記通信部は、さらに、サーバ装置と通信可能であり、
前記制御部は、さらに、前記受信端末に前記動画データの送信が終了した後に、前記メモリに保存されている前記静止画データを前記動画データとともに前記サーバ装置にアップロードする処理を実行する
請求項３に記載の情報処理端末。

【請求項5】

前記動画データを解析し、前記動画データ内に特定の画像が含まれていることを検知したときに前記静止画用エンコーダを駆動して、前記画像信号を静止画データに変換して前記静止画データを前記メモリに保存するように前記静止画用エンコーダを制御する制御部を備える
請求項１に記載の情報処理端末。

【請求項6】

ジェスチャセンサ、加速度センサ、ジャイロセンサ、地磁気センサ、及び生体センサのうちの一つ以上のセンサと、
前記センサが特定の信号を検知したときに、前記静止画用エンコーダを駆動して、前記画像信号を静止画データに変換して前記静止画データを前記メモリに保存するように前記静止画用エンコーダを制御する制御部を備える
請求項１に記載の情報処理装置。

【請求項7】

前記情報処理装置は、現場の作業員が装着するためのウェアラブルデバイスである
請求項１に記載の情報処理装置。

【請求項8】

前記画像信号は、前記作業員が現場作業を撮影した画像の信号である
請求項７に記載の情報処理装置。

【請求項9】

請求項３に記載の情報処理装置と、
前記情報処理装置から前記動画データ及び静止画データを受信可能に構成された前記受信端末を含む
画像送信システム。

【請求項10】

携帯情報端末を、請求項１に記載の情報処理端末として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理端末、画像送信システム、及びプログラムに関する。具体的に説明すると、本発明は、情報処理端末にて動画データとともに高画質の静止画データを取得し、動画データに加えて必要に応じて静止画データを受信端末へと送信するための技術に関する。

【背景技術】

【0002】

近年、現場作業の複雑化、就労人口の減少、熟練工が持つ技術の承継などの様々な問題に対応するために、現場作業のＤＸ（デジタルトランスフォーメーション）化が喫緊の課題となっている。これらの問題の解決策の一つとして、現場の作業員が装着しているウェアラブルデバイスと支援者が操作するコンピュータをインターネット等を経由して接続し、音声情報や視覚情報を共有する遠隔支援システムが提案されている（特許文献１）。

【0003】

このような遠隔支援システムでは、ウェアラブルデバイス（送信端末）がカメラによって作業者の周囲を写した動画データを取得して、支援者の操作するコンピュータ（受信端末）へと送信する。その際、カメラのイメージセンサが取得した画像信号は、送信端末内で、所定の動画フォーマットへの形式変換とデータ容量の圧縮を行う動画用エンコードにより、所定形式の動画データへと変換される。また、近年、小型なカメラでも高解像度かつ高フレームレートの動画像を取得できるようになっているが、送信端末と受信端末とを接続している通信回線の帯域幅には一定の制限があることから、送信端末のカメラで取得した動画像をそのまま受信端末へと送信することができない場合もある。この場合、送信端末は、通信回線の帯域幅に合わせて動画像の品質を最適化した後に、受信端末へと送信することもある。

【0004】

また、特許文献２には、遠隔医療用の遠隔会議システムが開示されている。この遠隔システムでは、第１の端末（送信端末）において、ビットレートの高い高品質映像信号を取得するとともに、これをビットレートの低い低品質映像信号に変換する。そして、第１の端末が、低品質映像信号を音声信号と共にリアルタイムで遠隔会議サーバへ送信し、一方で高品質映像信号を音声信号と共に非同期で症状認識サーバへ送信することとしている。これにより、患者が操作する第１の端末と医師が操作する遠隔会議サーバとを利用してリアルタイムな診察を実現すると同時に、症状認識サーバにおいて患者の疾患の兆候などをより正確に診断できるようにしている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特許第７０２３０２２号公報

【特許文献2】国際公開ＷＯ２０１９／２０７３９２号パンフレット

【発明の概要】

【発明が解決しようとする課題】

【0006】

ところで、現場作業のＤＸ化を目的とした遠隔支援システムでは、作業者がウェアラブルデバイス（送信端末）を利用して支援者のコンピュータ（受信端末）に作業現場等の映像をリアルタイムで送信しているときに、支援者があるタイミングの映像に注目して、そのタイミングの映像を精査したいといった状況が生じることがある。例えば、作業者が自身の手元の装置の細かい構造や配線、あるいは書面やマニュアルをカメラで写しているときに、支援者がその構造や書面等の内容を正確に把握して、作業者に対して指示を出すということが想定される。このとき、ウェアラブルデバイスは、イメージセンサで取得した画像信号を動画用にエンコードして動画データを生成しているが、この動画データはデータ容量の圧縮などが行われていることから、動画データからある特定のフレームを取り出しても、そのフレームは元の画像信号に比べて解像度が低下していることとなる。このため、支援者が作業者の手元の細かい構造や書面等の内容を把握したい場合に、動画データの中から特定のタイミングのフレームを取り出しても、そのフレームの画質が粗く、支援者がその内容を正確に把握できないという問題がある。

【0007】

また、特許文献２に記載のシステムでは、前述した通り、第１の端末（送信端末）において、ビットレートの高い高品質映像信号とビットレートの低い低品質映像信号を取得することとしている。しかし、このシステムでは、高品質映像信号は非同期で症状認識サーバへと送信され、低品質映像信号はリアルタイムで遠隔会議サーバへと送信されること想定している。このため、特許文献２に記載のシステムでは、高品質映像信号を取得したタイミングと低品質映像信号を取得したタイミングとを関連付ける処理は行われていない。このことから、例えば、低品質映像信号のうちのあるタイミングの映像に対応する高品質映像信号を閲覧しようとしても、高品質映像信号からそのタイミングの映像を特定することが困難である。

【0008】

そこで、本発明は、動画データの任意のタイミングに対応する高品質な静止画データを容易に取得できるようにすることを主たる課題とする。

【課題を解決するための手段】

【0009】

発明の発明者らは、上記の課題を解決する手段について鋭意検討した結果、イメージセンサで取得した元の画像信号を動画データに変換する動画用エンコーダのパスに加えて、同じ画像信号を静止画データに変換する静止画用エンコーダのパスを追加するとともに、この静止画データを動画データのフレームと対応付けてメモリに保存することで、動画データのうちの任意のタイミングに対応する静止画データを容易に取得できるようになるという知見を得た。そして、本発明者らは、上記知見に基づけば、従来技術の課題を解決できることに想到し、本発明を完成させた。
具体的に本発明は、以下の構成を有する。

【0010】

本発明の第１の側面は、情報処理端末に関する。本発明に係る情報処理端末は、イメージセンサ、動画用エンコーダ、メモリ、及び静止画用エンコーダを備える。イメージセンサは、画像信号を生成する。動画用エンコーダは、動画用のエンコード（主に圧縮や形式変換）により画像信号を動画データに変換する。動画用のエンコードには、動画データを構成する複数のフレームを一つの動画データにまとめるための圧縮／変換処理や、フレームごとの圧縮／変換処理が含まれる。また、画像信号とともに音声信号を取得している場合には、動画用のエンコードには、動画データと音声データを一つのファイルにまとめるための圧縮／変換処理も含まれる。メモリは、不揮発性のメモリであることが好ましいが、揮発性のメモリを用いることとしてもよい。静止画用エンコーダは、静止画用のエンコードにより画像信号を静止画データに変換する。静止画用のエンコードでは、動画用のエンコードとは異なり、フレームごとの圧縮／変換処理のみが行われる。また、静止画用のエンコードにおいて、静止画データと音声データの対応付けは基本的に不要である。静止画用エンコーダは、静止画データを動画データに対応付けてメモリに保存する。具体的な手段としては、例えば、静止画用エンコーダは、静止画データに動画データと経時的に対応付けるための同期データを付与してメモリに保存すればよい。例えば、本発明においては、同じ画像信号から動画データと静止画データが生成されることになるが、動画データを構成するあるフレームとある静止画データには同じ同期データ（要するにタイムスタンプ）が付与されることになる。ただし、静止画データと動画データを対応付けるための具体的な手段はこれに限られない。これにより、動画データを構成する多数のフレームの中から任意に一つのフレームを指定したときに、この指定されたフレームと同じタイミングで取得された静止画データを容易に判別できるようになる。

【0011】

なお、本発明に係る情報処理端末において、動画用エンコーダ及び／又は静止画用エンコーダは、ＣＰＵやＧＰＵといったプロセッサが実行する機能の一部としてソフトウェア的に実装されるものであってもよい。また、動画用エンコーダ及び／又は静止画用エンコーダは、プロセッサとは異なるＬＳＩ（大規模集積回路）によりハードウェア的に実装されるものであってもよい。特に、動画用エンコーダと静止画用エンコーダのいずれか一方を、ソフトウェア実装とし、いずれか他方をハードウェア実装とすることが好ましい。これにより、動画用エンコーダと静止画用エンコーダを別々のパスで並列的に駆動することで、同じ画像信号を動画データと静止画データとに効率良く変換できる。

【0012】

本発明に係る情報処理端末は、通信部と制御部を備えることが好ましい。通信部は、インターネット等の通信回線を介して受信端末と通信するための要素である。情報処理端末（送信端末）と受信端末とは、サーバ装置等を中継して互い通信可能に構成されていてもよいし、Peer-to-Peerにより直接通信可能に構成されていてもよい。制御部は、受信端末に動画データを送信している間に、受信端末から動画データ内の特定のタイミングの指定を含む静止画要求信号を受けた場合に、メモリからそのタイミングに対応する静止画データを読み出して受信端末に送信する処理を実行する。この実施形態は、例えば現場の作業者が情報処理端末（送信端末）を装着して動画を撮像し、その動画データを遠隔の支援者の受信端末に送信することを想定している。この場合に、支援者が動画データのうちの任意のタイミングを指定したときに、その指摘されたタイミングに対応する高画質な静止画データを情報処理端末から受信端末へと送信できるようになる。

【0013】

本発明に係る情報処理端末において、通信部は、さらにサーバ装置と通信可能なものであってもよい。この場合、制御部は、さらに、受信端末に動画データの送信が終了した後に、メモリに保存されている静止画データをサーバ装置にアップロードする処理を実行する。なお、このとき、情報処理端末は、静止画データとともに動画データをサーバ装置にアップロードしてもよい。このように、情報処理端末が静止画データをサーバ装置にアップロードしておけば、例えば情報処理端末のメモリから静止画データを削除した場合でも、受信者端末はサーバ装置にアクセスすることにより任意の静止画データを取得又は閲覧することができる。

【0014】

本発明に係る情報処理端末において、制御部は、動画データを解析し、動画データ内に特定の画像が含まれていることを検知したときに静止画用エンコーダを駆動して、画像信号を静止画データに変換して静止画データを前記メモリに保存するように静止画用エンコーダを制御することとしてもよい。例えば、動画データに二次元コードや三次元コード（ＱＲコード（登録商標））が写り込んでいる場合でも、動画データの画質が悪いことが原因となってこれらのコードを、情報処理端末（送信端末）又は受信端末にて正確に読み取れない場合がある。このときに、このような三次元コード等が動画データに含まれていることをトリガーとして、静止画用エンコーダを起動して静止画データを取得することにより、静止画データは動画データと比較して画質が良いものであることから、三次元コード等を正確に読み取ることが可能となる。

【0015】

本発明に係る情報処理端末は、ジェスチャセンサ、加速度センサ、ジャイロセンサ、地磁気センサ、及び生体センサのうちの一つ以上のセンサを備えることが好ましい。この場合に、情報処理端末の制御部は、センサが特定の信号を検知したときに静止画用エンコーダを駆動して、画像信号を静止画データに変換して静止画データをメモリに保存するように静止画用エンコーダを制御することとしてもよい。このように、センサが情報処理端末の装着者の特定の動き、例えば手元を見る動作、正面の一点に所定時間位以上着目する動作、転倒した動作などを検知したときに、より高画質な静止画データが自動的に生成されることになる。これにより、例えば遠隔地の支援者からの指定がなされる前に、支援者が注目するであろう静止画データを予測して、予め用意しておくことができる。これにより、本発明に係る情報処理端末の利便性が向上する。

【0016】

本発明に係る情報処理端末は、現場の作業員が装着するためのウェアラブルデバイスであることが好ましい。また、本発明に係る情報処理端末において、画像信号は、前記作業員が現場作業を撮影した画像の信号であることが好ましい。

【0017】

本発明の第２の側面は、画像送信システムに関する。本発明に係る画像処理システムは、前述した第１の側面に係る情報処理装置（送信端末）と、この情報処理装置から動画データ及び静止画データを受信可能に構成された受信端末を含む。

【0018】

本発明の第３の側面は、携帯情報端末を、前述した第１の側面に係る情報処理端末として機能させるためのプログラムに関する。このプログラムは、インターネット等を通じてダウンロード可能なものであってもよいし、携帯情報端末に予めインストールされたものであってもよい。また、このプログラムは、ＣＤ－ＲＯＭ等の記録媒体に記録されたものであってもよい。

【発明の効果】

【0019】

本発明によれば、動画データの任意のタイミングに対応する静止画データを容易に取得できるようなる。

【図面の簡単な説明】

【0020】

【図1】図１は、本発明の一実施形態に係るシステムの全体図を示している。

【図2】図２は、送信端末における動画データと静止画データの生成処理の概要を示している。

【図3】図３は、送信端末の一例として、首掛け型のウェアラブルデバイスを示している。

【図4】図４は、本発明に係るシステムの機能構成を示したブロック図である。

【図5】図５は、送信端末の制御部における画像処理機能に関して、さらに具体的な構成要素を示したブロック図である。

【図6】図６は、動画データと静止画データの対応関係とともに、送信端末から受信端末へ動画データと静止画データを送信する処理の概要を示している。

【図7】図７は、送信端末から受信端末へ動画データと静止画データを送信する処理フローの一例であって、動画データの送信中に定期的に静止画データを保存する場合を示している。

【図8】図８は、送信端末から受信端末へ動画データと静止画データを送信する処理フローの一例であって、動画データの送信中に所定のトリガーを検知したときに静止画データを保存する場合を示している。

【発明を実施するための形態】

【0021】

以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。

【0022】

図１は、本発明の一実施形態に係るシステム１００の全体構成を模式的に示している。本実施形態に係るシステム１００は、現場での作業を行う作業者を支援者がインターネットを介して遠隔で支援するといった用途で好適に用いられる。本システム１００において、作業者は、送信端末１０にて動画及び静止画を撮像し、これらのデータをインターネット経由で支援者が操作する受信端末２０に送信する。また、遠隔地の支援者は、受信端末２０を通じて、作業者の送信端末１０から送られてきた動画及び静止画を視聴したり、この送信端末１０と音声のやり取りをすることもできる。また、本システム１００には、送信端末１０及び受信端末２０に対してビデオ会話ツールを提供する外部のクラウドサーバ３０が含まれていてもよい。この場合、このクラウドサーバ３０を経由して、送信端末１０から受信端末２０へと動画及び静止画のデータが送信されることとなる。

【0023】

図２は、本発明に係るシステム１００を構成する送信端末１０（情報処理端末）による画像送信処理を模式的に示している。送信端末１０はデジタルカメラを備えており、このカメラのイメージセンサで取得した画像信号を、経時的に連続する複数のフレームで構成された動画データに変換する。また、送信端末１０はマイクロホンを備えており、このマイクロホンで取得した音声信号も動画データに対応付けられる。このような音声付きの動画データは、例えばクラウドサーバ３０を経由して受信端末２０へとリアルタイムに送信される。このような動画データの送信は、テレビ会議システム等により既に公知である。

【0024】

本発明の送信端末１０は、さらに、カメラのイメージセンサで取得した画像信号を、単一のフレームで構成される静止画データにも変換する。このとき、動画データと静止画データは、同じイメージセンサで取得した画像信号を元にしたものとなる。このため、動画データを構成するあるフレーム（以下「動画フレーム」という。）と静止画データを構成するフレーム（以下「静止画フレーム」という。）はタイミング的に同期させることができる。また、静止画データは動画データとは異なりフレームを結合したり音声信号を付帯させたりする必要がないため、静止画フレームは、動画フレームと比べて、データ容量を大きくすることができ、各フレームの解像度（密度）を高くすることが可能である。また、この静止画データは、動画データからあるフレームを抜き出したものではなく、動画フレームとは別に元の画像信号から生成したものであることから、画像信号を動画データに変換する際に捨て去られた情報をも含み得る。このため、静止画フレームは、被写体の像をより鮮明に捉えたものであるといえる。

【0025】

このようにして得られた静止画データは、動画データを構成する多数のフレームのうち、画像信号を取得したタイミングが合致している動画フレームと同じ同期データ（符号ｔ１，ｔ２…）が付与されて、送信端末１０内のメモリに格納される。ここで、例えば、送信端末１０から送信されている動画を表示中の受信端末２０が、あるタイミング（例えばｔ１）の送信フレームを指定して、より鮮明な画像の送信を要求したとする。この場合に、送信端末１０は、受信端末２０から指定されたタイミング（例えばｔ１）に対応する静止画データをメモリから読み出して、この静止画データを受信端末２０へと送信する。このように、動画データとは別に高画質の静止画データを生成しメモリ内に少なくとも一時的に保存しておくことで、受信端末２０からの要求に応じて高画質の静止画データを送信することが可能となる。

【0026】

続いて、本発明の一実施形態に係るシステム１００の構成についてさらに具体的に説明する。図３は、送信端末１０の一例を示した外観斜視図である。また、図４には、送信端末１０のハードウェア要素の例を示している。図３に示されるように、本実施形態における送信端末１０は、首掛け型のウェアラブルデバイスである。送信端末１０は、左腕部と、右腕部と、それらを装着者の首裏にて接続する本体部を備える。送信端末１０を装着する際には、本体部を装着者の首裏に接触させ、左腕部と右腕部を装着者の首横から胸部側に向かって垂らすようにして、装置全体を首元に引っ掛ければよい。送信端末１０の筐体内には、各種の電子部品が格納されている。

【0027】

左腕部と右腕部には、それぞれ複数の集音部１４（マイク）が設けられている。集音部１４は、主に装着者の周囲の音や、装着者と対話者の音声を取得することを目的として配置されている。装着者周囲で発生した音を広く集音できるように、集音部１４としては、全指向性（無指向性）のマイクロホンを採用することが好ましい。集音部１４としては、ダイナミックマイクやコンデンサマイク、ＭＥＭＳ（Micro-Electrical-Mechanical Systems）マイクなど、公知のマイクロホンを採用すればよい。集音部１４は、音を電気信号に変換し、その電気信号をアンプ回路によって増幅した上で、Ａ／Ｄ変換回路によってデジタル情報に変換して制御部１１へと出力する。集音部１４によって取得した音信号は、筐体内に設けられた制御部１１へ伝達される。また、本実施形態において、集音部１４によって取得した音信号は、通信部１３を介してインターネット経由で受信端末２０に送信することができる。これにより、現場の作業者が送信端末１０によって取得した音が、遠隔地の支援者の受信端末２０にも共有される。

【0028】

左腕部には、イメージセンサを含む撮像部１５がさらに設けられている。具体的には、左腕部の先端面に撮像部１５が設けられており、この撮像部１５によって装着者の正面側の画像を撮像することができる。イメージセンサは、対象物から発せされた光（反射光を含む）を、光学系を通してイメージセンサの受光面に結像させ、その像の光による明暗を電荷の量に光電変換して、画像信号を得る。撮像部１５のイメージセンサによって取得された画像信号は、筐体内の制御部１１に伝達され動画用のエンコード及び／又は静止画用のエンコードにより、動画データ及び／又は静止画データに変換される。撮像部１５としては一般的なデジタルカメラを採用すればよい。撮像部１５は、例えば、撮影レンズ、メカシャッター、シャッタードライバ、ＣＣＤイメージセンサユニットなどの光電変換素子、光電変換素子から電荷量を読み出し画像データを生成するデジタルシグナルプロセッサ（ＤＳＰ）、及びＩＣメモリで構成される。撮像部１５によって取得された画像データは、制御部１１へと供給されて記憶部１２に記憶される。また、画像データに対して所定の画像解析処理を行うこととしてもよい。また、撮像部１５で取得した動画や静止画は、前述したように、通信部１３を介してインターネット経由で受信端末２０へと送信される。これにより、現場の作業者が送信端末１０で取得した動画や静止画が、遠隔地の支援者の受信端末２０にも共有される。

【0029】

右腕部には、非接触型のジェスチャセンサ１６がさらに設けられている。ジェスチャセンサ１６は、主に送信端末１０の正面側における装着者の手の動きを検知することを目的として、右腕部の先端面に配置されている。ジェスチャセンサ１６は、例えば装着者の手指の動作や形を検知する。ジェスチャセンサ１６の例は光学式センサであり、赤外発光ＬＥＤから対象物に向けて光を照射し、その反射光の変化を受光素子で捉えることで対象物の動作や形を検知する。ジェスチャセンサ１６による検知情報は、制御部１１へと伝達され、主に撮像部１５や放音部１８の制御に利用される。具体的には、ジェスチャセンサ１６の検知情報は、撮像部１５や放音部１８の起動、停止などの制御に利用される。例えば、ジェスチャセンサ１６は、装着者の手などの物体がそのジェスチャセンサ１６に近接したことを検知して撮像部１５を制御することとしてもよいし、あるいはジェスチャセンサ１６の検知範囲内で装着者が所定のジェスチャーを行ったことを検知して撮像部１５を制御することとしてもよい。なお、撮像部１５とジェスチャセンサ１６の位置を入れ替えることも可能である。また、ジェスチャセンサ１６は近接センサに置き換えることとしてもよい。近接センサは、例えば装着者の手指が所定範囲まで近接したことを検知する。近接センサとしては、光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。

【0030】

装着者の首裏に位置する本体部の外側（装着者の反対側）には放音部（スピーカ）１８が設けられている。本実施形態において、放音部１８は、本体部の外側に向かって音を出力するように配置されている。このように、装着者の首裏から真後ろに向かって音を放出することで、この放音部１８から出力された音が、装着者の正面前方に存在する対話者に直接的に届きにくくなる。これにより、対話者は、装着者自身が発した音声と送信端末１０の放音部１８から発せられた音とを区別しやすくなる。放音部１８は、電気信号を物理的振動（すなわち音）に変換する音響装置である。放音部１８の例は、空気振動により音を装着者に伝達する一般的なスピーカである。また、放音部１８としては、装着者の骨を振動させることにより音を装着者に伝達する骨伝導スピーカであってもよい。なお、この場合、放音部１８を本体部の内側（装着者側）に設けて、骨伝導スピーカが装着者の首裏の骨（頚椎）に接触するように構成すればよい。また、本実施形態において、受信端末２０に入力された音声信号は、インターネット経由で送信端末１０に送信される。送信端末１０は、受信端末２０から受信した音声信号を放音部１８によって音に変換して出力する。これにより、受信端末２０を操作する支援者の音声を、送信端末１０を装着した作業者に届けることができる。

【0031】

図４に示されるように、送信端末１０の制御部１１は、この送信端末１０が備える他の要素を制御する演算処理を行う。制御部１１としては、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などのプロセッサを利用することができる。制御部１１を構成するプロセッサは、基本的に、記憶部１２に記憶されているプログラムを読み出してメインメモリに展開し、このプログラムに従って所定の演算処理を実行する。また、制御部１１は、プログラムに従った演算結果を記憶部１２に適宜書き込んだり読み出したりすることができる。また、制御部１１には、画像処理用のＬＳＩ（Large Scale Integration）が含まれていてもよい。送信端末１０の制御部１１の詳細については、図５を参照して後述する。

【0032】

送信端末１０の記憶部１２は、制御部１１での演算処理等に用いられる情報やその演算結果を記憶するための要素である。記憶部１２のストレージ機能は、例えばＨＤＤ及びＳＤＤといった不揮発性メモリによって実現できる。また、記憶部１２は、制御部１１による演算処理の途中経過などを書き込む又は読み出すためのメインメモリとしての機能を有していてもよい。記憶部１２のメモリ機能は、ＲＡＭやＤＲＡＭといった揮発性メモリにより実現できる。また、記憶部１２には、それを所持するユーザ固有のＩＤ情報が記憶されていてもよい。また、記憶部１２には、送信端末１０のネットワーク上の識別情報であるＩＰアドレスが記憶されていてもよい。

【0033】

送信端末１０の通信部１３は、受信端末２０やクラウドサーバ３０と無線通信するための要素である。通信部１３は、インターネットを介して受信端末２０やクラウドサーバ３０と通信を行うために、例えば、３Ｇ（W-CDMA）、４Ｇ（LTE／LTE-Advanced）、５Ｇといった公知の移動通信規格や、Ｗｉ－Ｆｉ（登録商標）等の無線ＬＡＮ方式で無線通信するための通信モジュールを採用すればよい。また、送信端末１０は、クラウドサーバ３０を介さずに、受信端末２０と直接無線通信することもできる。この場合、通信部１３は、受信端末２０と直接的に通信を行うために、Bluetooth（登録商標）やＮＦＣ等の方式の近接無線通信用の通信モジュールを採用することが好ましい。

【0034】

送信端末１０のセンサ類１７は、例えば送信端末１０の動作や利用状況、あるいはその装着者の生体情報を検知するためのセンサ機器を含む。センサ類１７としては、一般的な携帯情報端末やウェアラブルデバイスに搭載されているセンサモジュールを採用すればよい。例えば、センサ類１７には、ジャイロセンサ、加速度センサ、地磁気センサ、バッテリセンサが含まれる。また、センサ類１７には、体温センサ、心拍センサ、血中酸素濃度センサ、血圧センサ、心電図センサなど、装着者の生体情報を検知するための生体センサが含まれていてもよい。

【0035】

送信端末１０の位置情報取得部１９は、その送信端末１０の現在の位置情報を取得するための要素である。具体的には、位置情報取得部１９は、ＧＰＳ（Global Positioning System）を利用した測位を行う機能を持つ。位置情報取得部１９は、複数のＧＰＳ衛星から送られた電波に含まれる電波送信時間の情報に基づき、それぞれの電波を受信するのに要した時間を測定し、その時間を示す時間情報を制御部１１に伝達する。制御部１１は、取得した時間情報に基づいて、送信端末１０の所在位置の緯度経度に関する情報を算出することができる。また、位置情報取得部１９は、Ｗｉ－Ｆｉ（登録商標）アクセスポイントなどの無線基地局から発信される電波やビーコン信号をスキャンすることにより、現在の位置情報を取得するものであってもよい。

【0036】

なお、図３及び図４から明らかなように、本実施形態において、送信端末１０は、ディスプレイやモニタなどの表示装置を有していない。このため、作業者は、ジェスチャセンサ１６等を利用して各ハードウェア要素のオン・オフ等の比較的簡単な操作は行うことができるものの、アプリケーションプログラムの操作など複雑な操作は困難である。このような表示装置を持たない送信端末１０を用いる場合、本発明に係るシステムのように、受信端末２０などによってインターネットを介して送信端末１０を遠隔制御することが特に有効である。

【0037】

図４は、さらに、受信端末２０のハードウェア要素の例を示している。受信端末２０は、一般的なパーソナルコンピュータ（ＰＣ）により実現可能である。受信端末２０は、デスクトップ型ＰＣとラップトップ型ＰＣのいずれであっても構わない。受信端末２０は、その他にスマートフォンやタブレット型端末であってもよい。受信端末２０は、制御部２１、記憶部２２、通信部２３、表示部２４、操作部２５、集音部２６、及び放音部２７を有する。これらの要素としては、一般的なＰＣやそれと共に用いられる周辺機器を利用することができる。

【0038】

受信端末２０の制御部２１は、ＣＰＵやＧＰＵなどのプロセッサにより構成される。制御部２１は、基本的に、記憶部２２に記憶されているプログラムを読み出してメインメモリに展開し、このプログラムに従って所定の演算処理を実行する。また、制御部１１は、プログラムに従った演算結果を記憶部１２に適宜書き込んだり読み出したりすることができる。このようにして、制御部２１は、記憶部２２に記憶されたプログラムに従って各要素２２～２７の制御処理を行う。

【0039】

受信端末２０の記憶部２２は、制御部２１での演算処理等に用いられる情報やその演算結果を記憶するための要素である。記憶部２２のストレージ機能は、例えばＨＤＤ及びＳＤＤといった不揮発性メモリによって実現できる。また、記憶部２２は、制御部１１による演算処理の途中経過などを書き込む又は読み出すためのメインメモリとしての機能を有していてもよい。記憶部２２のメモリ機能は、ＲＡＭやＤＲＡＭといった揮発性メモリにより実現できる。

【0040】

受信端末２０の通信部２３は、送信端末１０やクラウドサーバ３０と通信するための要素である。通信部２３の通信方式は有線と無線のどちらであってもよい。例えば、受信端末２０は、有線にて光回線や電話回線を通じてインターネットに接続可能なものであってもよいし、Ｗｉ－Ｆｉ（登録商標）等の無線ＬＡＮ方式でインターネットに接続可能なものであってもよい。また、前述のように、受信端末２０は、クラウドサーバ３０を介さずに、送信端末１０と直接無線通信することもできる。

【0041】

受信端末２０の表示部２４は、画像を表示するための要素である。本発明に係るシステムにおいては、主に、送信端末１０から受信した動画及び／又は静止画が表示部２４に表示される。表示部２４としては、液晶ディスプレイや有機ＥＬディスプレイといった公知のものを利用できる。また、表示部２４は、スクリーンに映像光を投影するプロジェクタであってもよい。

【0042】

受信端末２０の操作部２５は、ユーザ（支援者）が受信端末２０（特に制御部２１）に対して所定の操作情報を入力するための要素である。操作部２５としては、タッチパネル、マウス、キーボード、トラックパッド、スタイラスペン、ペンタブレッドなどの公知のものを利用できる。また、タッチパネルを表示画面に重ね合わせることでタッチパネルディスプレイを構成することも可能である。

【0043】

受信端末２０の集音部２６は、主にユーザ（支援者）の音声を取得するための要素である。集音部２６としては、指向性又は全指向性（無指向性）のマイクロホンを採用すればよい。マイクロホンとしては、ダイナミックマイクやコンデンサマイク、ＭＥＭＳマイクなど、公知のものを採用することができる。本実施形態において、受信端末２０の集音部２６によって取得した音声信号は、通信部２３を介してインターネット経由で送信端末１０に送信できる。これにより、支援者の音声が、現場で働く作業者の送信端末１０から出力されるようになる。

【0044】

受信端末２０の放音部２７は、主に送信端末１０から受信した音声を出力するための要素である。放音部２７としては、空気振動により音を伝達する一般的なスピーカや、イヤホン、ヘッドホンを採用すればよい。本実施形態において、送信端末１０に入力された音信号は、インターネット経由で受信端末２０に送信される。受信端末２０は、送信端末１０から受信した音信号を放音部２７によって音に変換して出力する。これにより、送信端末１０が取得した音を、受信端末２０を操作する支援者に届けることができる。

【0045】

クラウドサーバ３０は、例えば、送信端末１０と受信端末２０に対してＷｅｂ会議等のビデオ会話ツールを提供する。クラウドサーバ３０は、一又は複数のサーバ装置３１によって構成されている。クラウドサーバ３０は、例えば、送信端末１０と受信端末２０との間の通信接続を確立する際に、送信端末１０と受信端末２０のそれぞれのユーザ（作業者と支援者）に対して、ビデオ会話ツール用のアカウントへのログインを求める。送信端末１０と受信端末２０には、それぞれビデオ会話ツール用の専用のアプリケーションプログラムがインストールされている。送信端末１０と受信端末２０は、このプログラムを実行してそれぞれクラウドサーバ３０にアクセスし、各自のアカウントにログインする。送信端末１０と受信端末２０とがログイン認証に成功すると、クラウドサーバ３０は、これらの送信端末１０と受信端末２０との間の画像データや音データの送受信の中継を開始する。ビデオ会話ツール用としては、一般的に利用可能な市販のツールを適宜利用することが可能である。

【0046】

続いて、図５を参照して、送信端末１０における動画データ及び静止画データのエンコード処理について具体的に説明する。図５に示したように、撮像部１５のイメージセンサにて取得された画像信号は、制御部１１に入力される。この画像信号は、ＲＡＷ画像とも呼ばれ、原則としてイメージセンサから得られた無加工のセンサデータであり、動画用又は静止画用のエンコードが行われる前の最も情報量の多いデータである。ＲＡＷ画像では、赤・緑・青の各センサが取得した数値がそのまま記録されており、画素の色はＲＧＢの値で表される。なお、図５に示した例では、ＲＡＷ画像は、３２６４×２４４８という最大の画像サイズとなっている。

【0047】

画像信号（ＲＡＷ画像）は、制御部１１に入力されると、基本的には動画用のパイプラインに入力される。動画用パイプラインには、バッファメモリ１１ａ、動画用の画像処理エンジン１１ｂ、及び動画用エンコーダ１１ｃが含まれる。

【0048】

動画用パイプラインでは、連続的に画像処理を行う必要があることから、ＲＡＷ画像は、まずバッファメモリ１１ａに一時保存される。バッファメモリ１１ａは、イメージセンサからのＲＡＷ画像を数フレーム分保持できる。なお、バッファメモリ１１ａは、メインメモリ上に複数の記憶領域が固定領域として確保されており、イメージセンサからのＲＡＷ画像がどのバッファ領域に書き込まれているかという情報も保持される。例えば、バッファメモリ１１ａは、終端の記憶領域と先端の記憶領域が論理的に連結された循環的なリングバッファ形式となっており、最も古いデータを最新のデータで上書きすることで常に一定分のデータを蓄積することができるようになっている。

【0049】

動画用の画像処理エンジン１１ｂは、バッファメモリ１１ａから読み出したＲＡＷ画像を、後段の動画用エンコーダ１１ｃが受け取ることのできるサイズに縮小したり、カラーフォーマットを変換する処理を行う。例えば、画像処理エンジン１１ｂは、ＲＡＷ画像の画像サイズを３２６４×２４４８から、１９２０×１０８０に縮小する。また、ＲＡＷ画像の色は元々ＲＧＢ値で表現されたものとなっているが、画像処理エンジン１１ｂは、これをＹＵＶ値に変換する。ＹＵＶは、画素の色を、輝度（Ｙ）、輝度と青の差（Ｕ）、及び輝度と赤の差（Ｖ）で表現したものであり、ＲＧＢに比べて少ないデータ量で表現できる。

【0050】

動画用エンコーダ１１ｃは、動画用の画像処理エンジン１１ｂにてサイズ縮小及びカラーフォーマット変換が行われた画像データを、動画用のフォーマットにエンコード（符号化）する。具体的には、動画用エンコーダ１１ｃには、複数のフレームを一つの動画データにまとめるための圧縮／変換処理や、フレームごとの圧縮／変換処理を行う。また、画像信号とともに音声信号を取得している場合には、動画データと音声データを一つのファイルにまとめるための圧縮／変換処理も行われる。また、動画用エンコーダ１１ｃは、送信端末１０と受信端末２０の間のデータ伝送レート（通信帯域）に応じて圧縮率を変動させる。具体的には、データ伝送レートが低い場合には、画像の圧縮率を大きくすればよい。これにより、複数のフレームが経時的に結合した動画データが得られる。なお、動画データのエンコードは、公知の動画圧縮規格に基づいて行えばよい。図５に示した例では、動画圧縮の規格として、Ｈ．２６４（MPEG-4 AVC）を採用しているが、エンコード方式はこれに限られない。

【0051】

また、動画用エンコーダ１１ｃは、動画データを構成するフレームにタイムスタンプ（同期データ）を付与する。このタイムスタンプは、後述する静止画データと動画データを同期させるために利用される。動画用エンコーダ１１ｃは、全てのフレームに固有のタイムスタンプを付与することとしてもよい。あるいは、動画用エンコーダ１１ｃは、後述するように静止画データを生成するときにその静止画データに対応するフレームに限り固有のタイムスタンプを付与することとしてもよい。

【0052】

動画用のパイプライン１１ａ～１１ｃにより作成された動画データは、送信端末１０の通信部１３により、インターネットを経由して、受信端末２０及び／又はクラウドサーバ３０にリアルタイムに送信される。受信端末２０においては、送信端末１０から受信した動画データをリアルタイムに視聴できる。また、クラウドサーバ３０は、送信端末１０から受信した動画データを、クラウドストレージに保存（バックアップ）することとしてもよい。

【0053】

本発明の送信端末１０は、上記した動画用パイプラインに加えて、静止画用のパイプラインを含む。図５に示されるように、静止画用パイプラインには、静止画用の画像処理エンジン１１ｄ、静止画用エンコーダ１１ｅ、及びメモリ１１ｆが含まれる。なお、バッファメモリ１１ａは、動画用パイプラインと静止画用パイプラインで兼用されていると解釈することもできる。静止画用パイプラインは、動画用パイプラインと並列で、イメージセンサの画像信号を静止画データに変換するためのものである。このため、この静止画用パイプラインを設けることで、前述したように動画用パイプラインによる動画データの生成処理と並行して、静止画データを生成することができる。

【0054】

静止画用の画像処理エンジン１１ｄは、バッファメモリ１１ａに格納されているＲＡＷ画像を読み出して、主にカラーフォーマットを変換する処理を行う。前述したとおりバッファメモリ１１ａには、イメージセンサが取得した元のＲＡＷ画像が所定フレームだけ一時的に保持されている。制御部１１を構成するＣＰＵ等のプロセッサは、所定の静止画出力指示を受け取ったときに、現在画像が書き込まれているバッファメモリ１１ａの記憶領域の一つ前の記憶領域からＲＡＷ画像を読み出して、静止画用の画像処理エンジン１１ｄへと受け渡す。なお、所定の静止画出力指示は、定期的に発生するものであってもよいし、所定のトリガー条件（後述）を満たしたときに発生するものであってもよい。すなわち、静止画データは、定期的に生成されてもよいし、任意のタイミングで生成されてもよい。図５に示した例において、画像処理エンジン１１ｄは、ＲＡＷ画像のカラーフォーマット変換（ＲＢＧ→ＹＵＶ）のみを行い、画像サイズの縮小は行わない。これにより、最も高画質の静止画データを得ることができる。ただし、静止画用の画像処理エンジン１１ｄは、カラーフォーマット変換に加えて、画像サイズの縮小を行うものであってもよいが、この場合には、少なくとも動画データの各フレームよりは静止画データの画像サイズを大きく維持することが好ましい。

【0055】

静止画用エンコーダ１１ｅは、静止画用の画像処理エンジン１１ｄにて主にカラーフォーマット変換が行われた画像データを、静止画用のフォーマットにエンコード（符号化）する。静止画用のエンコードにおいては、複数のフレームを経時的に結合する必要はないことから、各フレーム内のエンコードのみが行われる。具体的には、静止画用エンコーダ１１ｅは、ＪＰＥＧ等の公知の静止画用の画像圧縮規格に基づいて、画像をエンコードすればよい。その他、ＰＮＧやＧＩＦといった画像圧縮方式を採用することも可能である。このようにして静止画データが得られる。なお、この静止画データは、静止画用エンコーダ１１ｅにより定期的又は任意のタイミングで生成されるものであるが、その全てがインターネットを経由して受信端末２０等に送信されるものではない。このように、静止画データは受信端末２０に向けて送信することを前提としたものではないことから、送信端末１０と受信端末２０の間のデータ伝送レート（通信帯域）に応じて圧縮率を変動する必要はない。従って、静止画データは、このようなデータ伝送レートの影響を受けない固定値にて圧縮を行うことが好ましい。これにより、静止画データは、常に、高画質な状態を維持することができる。

【0056】

静止画用エンコーダ１１ｅにより生成された静止画データは、少なくとも一時的にメモリ１１ｆに保存される。このメモリ１１ｆは、メインメモリの記憶領域の一部を利用することとしてもよいし、メインメモリとは別に揮発性又は不揮発性のメモリを設けることとしてもよい。メモリ１１ｆ内に静止画データを保存する量や時間は適宜調整すればよい。例えば、メモリ１１ｆに静止画データを保存する容量の制限を設けておき、一定の容量を超えた場合には、最も古い静止画データを消去して、新しい静止画データを保存することとしてもよい。また、送信端末１０が受信端末２０に向けて動画データを送信している間に限り静止画データをメモリ１１ｆに保存し、動画データの送信が終了したときにメモリ１１ｆ内の静止画データを消去することとしてもよい。

【0057】

また、静止画用エンコーダ１１ｅは、メモリ１１ｆに静止画データを保存する際に、静止画データのそれぞれにタイムスタンプ（同期データ）を付与する。具体的には、本実施形態では、イメージセンサが取得した一つのＲＡＷ画像から動画データのフレームと静止画データのフレームをそれぞれ生成することができる。このように、同じＲＡＷ画像から生成された動画データと静止画データの各フレームには同じタイムスタンプが付与される。これにより、リアルタイムに送信されている動画データと、一時的にメモリ１１ｆに保存されている静止画データとを、タイムスタンプによって同期させることができる。

【0058】

図５に示した例において、動画用の画像処理エンジン１１ｂと動画用エンコーダ１１ｃは、ＣＰＵ等のプロセッサとは異なるＬＳＩによりハードウェア的に実装されたものであることが好ましい。一方で、静止画用の画像処理エンジン１１ｄと静止画用エンコーダ１１ｅは、プログラムをＣＰＵ等のプロセッサで実行することにより実現される機能であって、ソフトウェア的に実装されたものであることが好ましい。動画データの画像処理は、前述した通りリアルタイムに頻繁に行われるものであることから、ハードウェア実装とすることで処理の高速化と低消費電力化を図ることができる。静止画データの画像処理は、動画データに比べて頻度が低いことから、ソフトウェア実装でも十分に対応可能である。ただし、前述した通り、静止画データは高画質でデータ容量も大きいため、静止画データの生成の頻度が高い場合には、プロセッサの負荷が大きくなる。この場合には、静止画用の画像処理エンジン１１ｄと静止画用エンコーダ１１ｅをハードウェア実装とすることも可能である。この場合、反対に、動画用の画像処理エンジン１１ｂと動画用エンコーダ１１ｃをソフトウェア実装とすることとしてもよい。

【0059】

メモリ１１ｆに保存されている静止画データは、基本的には受信端末２０からの要求に従って、送信端末１０から受信端末２０へと送信される。以下では、このような静止画データを送信端末１０から受信端末２０へと送信する処理の例について詳しく説明する。

【0060】

図６は、送信端末１０と受信端末２０の間でやり取りされる情報の概要を示しており、図６に示されるように、送信端末１０は、前述した画像処理により、複数のフレームを含む動画データと、単一のフレームからなる静止画データを生成している。この例では、静止画データは定期的に生成されており、静止画データと同じタイミングで生成された動画データのフレームには、その静止画データと同じタイムスタンプが付与される。図示した例では、動画データの（１）番目、（５）番目、（９）番目、（１３）番目のフレームにタイムスタンプｔ１，ｔ２，ｔ３，ｔ４が付与されており、各フレームに対応する静止画データにも同じタイムスタンプが付与されている。動画データは、送信端末１０から受信端末２０に対してリアルタイムに送信されるが、静止画データはまず送信端末１０のメモリに保存されることになる。

【0061】

ここで、受信端末２０は、送信端末１０により送信された動画データを受信すると、液晶ディスプレイ等の表示部に動画を表示する。この動画は、送信端末１０が動画データを送信し続ける限り受信端末２０の表示部に表示され続ける。ここで、受信端末２０を操作する支援者が、動画の視聴中に、あるタイミングで表示された動画フレームについてより鮮明な画像を閲覧することを希望したとする。その場合、支援者は、マウスやタッチパネル等の操作部を操作して、動画の再生を一時停止したり、あるいは所定のＵＩアイコンをクリックすることにより、鮮明な画像を求めるタイミングを指定する。これにより、動画データの中から、支援者がより鮮明な画像を求める動画フレームが指定される。そして、受信端末２０は、動画データ内のタイムスタンプが付与された動画フレームのうち、支援者により指定された動画フレームに最も近いものを特定する。例えば、図６に示した例で説明すると、支援者が、動画データを構成する動画フレームのうち、（４）番目のフレームを指定したとする。この場合、タイムスタンプが付与された動画フレームのうち、（４）番目の動画フレームに最も近いものは、（５）番目の動画フレームであり、この（５）番目の動画フレームには“ｔ２”のタイムスタンプが付与されている。受信端末２０は、“ｔ２”のタイムスタンプが指定されたことを示す情報を送信端末１０へと送信する。そして、送信端末１０は、“ｔ２”のタイムスタンプが付与された静止画データをメモリから読み出し、この静止画データを、動画データに加えて、受信端末２０へと送信する。受信端末２０は、送信端末１０から静止画データを受け取ると、動画データとともに、あるいは動画データに代えて、ここで受信した静止画データを表示部に表示する。これにより、支援者は、動画視聴中に、より高画質の静止画データを送信端末１０から入手して閲覧することができる。

【0062】

なお、上記の例では、動画データ内のタイムスタンプが付与された動画フレームのうち、支援者により指定された動画フレームに最も近いものを特定することとしていた。ただし、それ以外にも、動画データ内のタイムスタンプが付与された動画フレームのうち、支援者により指定された動画フレームの直前のもの又は直後のものを特定することも可能である。例えば、図６に示した例で説明すると、支援者が、動画データを構成する動画フレームのうち、（４）番目のフレームを指定したとする。この場合、タイムスタンプが付与された動画フレームのうち、（４）番目の動画フレームの直前のものは、（１）番目の動画フレームであり、この（１）番目の動画フレームには“ｔ１”のタイムスタンプが付与されている。受信端末２０は、“ｔ１”のタイムスタンプが指定されたことを示す情報を送信端末１０へと送信することとしてもよい。

【0063】

図７は、これまでに説明した送信端末１０と受信端末２０が行う情報処理のフローの具体例を示している。図７は、主に、送信端末１０において定期的に静止画データが生成される場合の例を示している。図７に示されるように、このフローは、送信端末１０が撮像部１５のイメージセンサによってＲＡＷ画像の取得を行うところから開始する（ステップＳ１－１）。イメージセンサがＲＡＷ画像を取得すると、図５を参照して説明した通り動画用の画像処理エンジン１１ｂ及び動画用エンコーダ１１ｃにより動画用のエンコードを行って動画データを得る（ステップＳ１－３）。この動画データは、送信端末１０から受信端末２０へリアルタイムに送信される（ステップＳ１－３）。

【0064】

また、送信端末１０は、動画データの送信中に、図５を参照して説明した通り静止画用の画像処理エンジン１１ｄ及び静止画用エンコーダ１１ｅにより静止画用のエンコードを行って静止画データを得る（ステップＳ１－４）。得られた静止画データは、動画データのフレームと同期をとるためのタイムスタンプが付与されて、メモリ１１ｆに一時的に保存される（ステップＳ１－５）。図７に示した実施形態において、静止画エンコードは定期的に実行され、メモリ１１ｆにはタイムスタンプ付きの静止画データが蓄積される。

【0065】

一方で、受信端末２０は、送信端末１０から動画データを受信すると、これをディスプレイ等に表示する（ステップＳ１－６）。この受信端末２０による動画の表示は、送信端末１０による画像の取得が終了するまで継続する。ここで、受信端末２０を操作するユーザ（支援者）が、表示中の動画の中から任意のフレームを指定したとする（ステップＳ１－７）。例えば、フレームの指定は、動画を一時停止したり、動画の表示中に所定のＵＩアイコンをクリックする動作などによって行われる。受信端末２０は、タイムスタンプが付与されている動画のうち、例えばユーザにより指定されたフレームに最も近いものを特定し、その特定されたフレームのタイムスタンプを、指定情報として送信端末１０に向けて送信する（ステップＳ１－８）。

【0066】

送信端末１０は、受信端末２０から指定情報を受信すると、そのタイムスタンプと同じものが付与されている静止画データをメモリから読み出す（ステップＳ１－９）。そして、送信端末１０は、ここで読み出した静止画データを受信端末２０へと返信する（ステップＳ１－１０）。受信端末２０は、送信端末１０から静止画データを受け取ると、これをディスプレイ上に表示する（ステップＳ１－１１）。受信端末２０は、例えば動画データの代わりに静止画データを表示することとしてもよいし、あるウィンドウで動画データを表示しながら別のウィンドウに静止画データを表示することとしてもよい。また、受信端末２０は、静止画データをストレージ等に保存することもできる。なお、受信端末２０は、ディスプレイに静止画データを表示させずに、単にストレージ等に保存することとしてもよい。また、受信端末２０は、送信端末１０から動画データが送信されてくる間、何度も静止画データの要求を行うことができる。

【0067】

上記した動画データのリアルタイムの送信処理と、要求を受けた場合の静止画データの逐次の送信処理は、送信端末１０が画像取得を終了するまで行われる。送信端末１０による画像取得が終了する（すなわちイメージセンサがオフになる）と、送信端末１０は、メモリに保存されている静止画データをクラウドサーバ３０にアップロードする（ステップＳ１－１２，Ｓ１－１３）。これにより、送信端末１０がメモリから静止画データを削除した場合でも、クラウドサーバ３０にはその静止画データが一定期間保存されていることになる。このため、受信端末２０は、送信端末１０ではなく、クラウドサーバ３０から静止画データをダウンロードすることも可能である。

【0068】

図８は、送信端末１０と受信端末２０が行う情報処理のフローの別の具体例を示している。図８に示した例において、送信端末１０が画像を取得してから、当該画像をエンコードし、動画データを受信端末２０に送信して、受信端末２０が動画データを表示するまでの処理（ステップＳ２～４）は、図７に示した例と同じである。

【0069】

一方、図８に示した例では、送信端末１０の制御部が、動画データの送信中に所定のトリガー条件を満たしたか否かを判断する（ステップＳ２－５）。なお、特にトリガーが検知されない場合には、ステップＳ２－１に戻り、動画データの送信を継続する。所定のトリガー条件を満たしていると判断された場合、イメージセンサで取得したＲＡＷ画像が静止画用にエンコードされる（ステップＳ２－６）。

【0070】

トリガー条件は、特に制限はなく、高品質な静止画データを生成するのに適した条件を設定すればよい。例えば、送信端末１０は、前述したように、ジェスチャセンサ、加速度センサ、ジャイロセンサ、地磁気センサ、及び生体センサなどの各種センサを備えている。これらのセンサが、特定の信号を検知したときに、トリガー条件を満たしたものと判断することとしてもよい。例えば、加速度センサ及びジャイロセンサにより、送信端末１０を装着している作業者の特定の動作を検知した場合に、トリガー条件を満たしたものと判断することとしてもよい。作業者の特定の動作の例としては、作業者が前屈みになって手元を確認する動作や、作業者が所定時間（例えば５～１０秒）以上同じ箇所を見続ける動作、作業者が上方を見上げる動作、あるいは作業者が不意に転倒した動作などが挙げられる。

【0071】

また、例えば、制御部が動画データを解析して、その動画データ内に特定の画像が含まれていることを検知したときに、トリガー条件を満たしたものと判断することとしてもよい。例えば、動画データに所定の二次元コードや三次元コード（ＱＲコード（登録商標））が写り込んでいることが検知された場合、これをトリガーとして、静止画用エンコーダを起動して静止画データを取得することとしてもよい。これにより、高画質な静止画データを利用して三次元コード等を正確に読み取ることが可能となる。

【0072】

送信端末１０は、上記の静止画データを少なくとも一時的にメモリに保存する（ステップＳ２－７）。その後、送信端末１０は、受信端末２０に対して、静止画データを保存した旨の通知を行う（ステップＳ２－８）。この通知を受け取った受信端末２０は、ディスプレイ等に通知を表示して、ユーザ（支援者）に静止画データの取得を希望するかどうかを確認する（ステップＳ２－９）。静止画データの要求がなければ、受信端末２０は、送信端末１０による画像取得が終了するまで、通常通り、送信端末１０から送信されてくる動画データを表示し続ける。一方、静止画データの要求がなされた場合、受信端末２０は、その静止画データの要求情報を送信端末１０に送信する（ステップＳ２－１０）。

【0073】

送信端末１０は、受信端末２０から静止画データの要求情報を受信すると、その要求にかかる静止画データをメモリから読み出し（ステップＳ２－１１）、これを受信端末２０へと返信する（ステップＳ２－１２）。受信端末２０は、送信端末１０から静止画データを受け取ると、これをディスプレイ上に表示する（ステップＳ２－１３）。このような動画データのリアルタイムの送信処理と、要求を受けた場合の静止画データの逐次の送信処理は、送信端末１０が画像取得を終了するまで行われる。送信端末１０による画像取得が終了する（すなわちイメージセンサがオフになる）と、送信端末１０は、メモリに保存されている静止画データをクラウドサーバ３０にアップロードする（ステップＳ２－１４，Ｓ２－１５）。これにより、送信端末１０がメモリから静止画データを削除した場合でも、受信端末２０は、クラウドサーバ３０から静止画データをダウンロードできるようになる。

【0074】

なお、図７と図８に示した具体例は、択一的なものではなく、送信端末１０から受信端末２０に動画データ及び静止画データを送信する処理として両方採用することができる。つまり、送信端末１０は、図７の具体例に従って定期的に静止画データを生成するとともに、図８の具体例に従って所定のトリガー条件を満たしたときに静止画データを生成することができる。一方で、図７と図８に示した具体例のどちらかを採用することも当然に可能である。

【0075】

以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。

【符号の説明】

【0076】

１０…送信端末１１…制御部
１１ａ…バッファメモリ１１ｂ…動画用の画像処理エンジン
１１ｃ…動画用エンコーダ１１ｄ…静止画用の画像処理エンジン
１１ｅ…静止画用エンコーダ１１ｆ…メモリ
１２…記憶部１３…通信部
１４…集音部１５…撮像部
１６…ジェスチャセンサ１７…センサ類
１８…放音部１９…位置情報取得部
２０…受信端末２１…制御部
２２…記憶部２３…通信部
２４…表示部２５…操作部
２６…集音部２７…放音部
３０…クラウドサーバ３１…サーバ装置
１００…システム

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【手続補正書】

【提出日】2024-06-03

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

画像信号を生成するイメージセンサと、
動画用のエンコードにより前記画像信号を動画データに変換する動画用エンコーダと、
メモリと、
静止画用のエンコードにより前記画像信号を静止画データに変換して、前記静止画データを前記動画データに対応付けて前記メモリに保存する静止画用エンコーダを備える
ウェアラブルデバイスである情報処理端末。

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

前記情報処理装置は、現場の作業員が装着するためのウェアラブルデバイスである
請求項１に記載の情報処理装置。

【請求項8】

前記画像信号は、前記作業員が現場作業を撮影した画像の信号である
請求項７に記載の情報処理装置。

【請求項9】

前記情報処理装置は、首掛け型のウェアラブルデバイスである
請求項１に記載の情報処理装置。

【請求項10】

【請求項11】

携帯情報端末を、請求項１に記載の情報処理端末として機能させるためのプログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版