(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024108138
(43)【公開日】2024-08-09
(54)【発明の名称】情報処理端末、画像送信システム及びプログラム
(51)【国際特許分類】
H04N 5/92 20060101AFI20240802BHJP
H04N 21/433 20110101ALI20240802BHJP
H04N 5/77 20060101ALI20240802BHJP
H04N 23/60 20230101ALI20240802BHJP
H04N 23/66 20230101ALI20240802BHJP
【FI】
H04N5/92 010
H04N21/433
H04N5/77
H04N23/60 300
H04N23/66
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2024007835
(22)【出願日】2024-01-23
(31)【優先権主張番号】P 2023012372
(32)【優先日】2023-01-30
(33)【優先権主張国・地域又は機関】JP
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WCDMA
(71)【出願人】
【識別番号】513190830
【氏名又は名称】Fairy Devices株式会社
(71)【出願人】
【識別番号】000002853
【氏名又は名称】ダイキン工業株式会社
(74)【代理人】
【識別番号】100116850
【弁理士】
【氏名又は名称】廣瀬 隆行
(74)【代理人】
【識別番号】100165847
【弁理士】
【氏名又は名称】関 大祐
(72)【発明者】
【氏名】藤野 真人
(72)【発明者】
【氏名】竹崎 雄一郎
(72)【発明者】
【氏名】久池井 淳
(72)【発明者】
【氏名】片岡 太郎
【テーマコード(参考)】
5C122
5C164
【Fターム(参考)】
5C122DA03
5C122DA04
5C122DA11
5C122EA42
5C122EA63
5C122FH11
5C122FJ01
5C122FK34
5C122GC04
5C122GC07
5C122GC14
5C122GC52
5C122GD12
5C122GE06
5C122GE11
5C122GG04
5C122GG17
5C122HA01
5C122HA13
5C122HA35
5C122HA75
5C122HA81
5C122HA90
5C122HB01
5C122HB02
5C164UA04S
5C164UA25S
5C164UA42S
5C164UB36P
5C164UB71S
(57)【要約】
【課題】動画データの任意のタイミングに対応する高品質な静止画データを容易に取得できるようにする。
【解決手段】情報処理端末は、画像信号を生成するイメージセンサ15と、動画用のエンコードにより画像信号を動画データに変換する動画用エンコーダ11cと、メモリ11fと、静止画用のエンコードにより画像信号を静止画データに変換するとともに、この静止画データを動画データと対応付けてメモリ11fに保存する静止画用エンコーダ11eを備える。
【選択図】
図5
【特許請求の範囲】
【請求項1】
画像信号を生成するイメージセンサと、
動画用のエンコードにより前記画像信号を動画データに変換する動画用エンコーダと、
メモリと、
静止画用のエンコードにより前記画像信号を静止画データに変換して、前記静止画データを前記動画データに対応付けて前記メモリに保存する静止画用エンコーダを備える
情報処理端末。
【請求項2】
前記静止画用エンコーダは、前記静止画データに前記動画データと経時的に対応付けるための同期データを付与して前記メモリに保存する
請求項1に記載の情報処理端末。
【請求項3】
通信回線を介して受信端末と通信可能な通信部と、
前記受信端末に前記動画データを送信している間に、前記受信端末から前記動画データ内の特定のタイミングの指定を含む静止画要求信号を受けた場合に、前記メモリから前記タイミングに対応する静止画データを読み出して前記受信端末に送信する処理を実行する制御部を備える
請求項1に記載の情報処理端末。
【請求項4】
前記通信部は、さらに、サーバ装置と通信可能であり、
前記制御部は、さらに、前記受信端末に前記動画データの送信が終了した後に、前記メモリに保存されている前記静止画データを前記動画データとともに前記サーバ装置にアップロードする処理を実行する
請求項3に記載の情報処理端末。
【請求項5】
前記動画データを解析し、前記動画データ内に特定の画像が含まれていることを検知したときに前記静止画用エンコーダを駆動して、前記画像信号を静止画データに変換して前記静止画データを前記メモリに保存するように前記静止画用エンコーダを制御する制御部を備える
請求項1に記載の情報処理端末。
【請求項6】
ジェスチャセンサ、加速度センサ、ジャイロセンサ、地磁気センサ、及び生体センサのうちの一つ以上のセンサと、
前記センサが特定の信号を検知したときに、前記静止画用エンコーダを駆動して、前記画像信号を静止画データに変換して前記静止画データを前記メモリに保存するように前記静止画用エンコーダを制御する制御部を備える
請求項1に記載の情報処理装置。
【請求項7】
前記情報処理装置は、現場の作業員が装着するためのウェアラブルデバイスである
請求項1に記載の情報処理装置。
【請求項8】
前記画像信号は、前記作業員が現場作業を撮影した画像の信号である
請求項7に記載の情報処理装置。
【請求項9】
請求項3に記載の情報処理装置と、
前記情報処理装置から前記動画データ及び静止画データを受信可能に構成された前記受信端末を含む
画像送信システム。
【請求項10】
携帯情報端末を、請求項1に記載の情報処理端末として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理端末、画像送信システム、及びプログラムに関する。具体的に説明すると、本発明は、情報処理端末にて動画データとともに高画質の静止画データを取得し、動画データに加えて必要に応じて静止画データを受信端末へと送信するための技術に関する。
【背景技術】
【0002】
近年、現場作業の複雑化、就労人口の減少、熟練工が持つ技術の承継などの様々な問題に対応するために、現場作業のDX(デジタルトランスフォーメーション)化が喫緊の課題となっている。これらの問題の解決策の一つとして、現場の作業員が装着しているウェアラブルデバイスと支援者が操作するコンピュータをインターネット等を経由して接続し、音声情報や視覚情報を共有する遠隔支援システムが提案されている(特許文献1)。
【0003】
このような遠隔支援システムでは、ウェアラブルデバイス(送信端末)がカメラによって作業者の周囲を写した動画データを取得して、支援者の操作するコンピュータ(受信端末)へと送信する。その際、カメラのイメージセンサが取得した画像信号は、送信端末内で、所定の動画フォーマットへの形式変換とデータ容量の圧縮を行う動画用エンコードにより、所定形式の動画データへと変換される。また、近年、小型なカメラでも高解像度かつ高フレームレートの動画像を取得できるようになっているが、送信端末と受信端末とを接続している通信回線の帯域幅には一定の制限があることから、送信端末のカメラで取得した動画像をそのまま受信端末へと送信することができない場合もある。この場合、送信端末は、通信回線の帯域幅に合わせて動画像の品質を最適化した後に、受信端末へと送信することもある。
【0004】
また、特許文献2には、遠隔医療用の遠隔会議システムが開示されている。この遠隔システムでは、第1の端末(送信端末)において、ビットレートの高い高品質映像信号を取得するとともに、これをビットレートの低い低品質映像信号に変換する。そして、第1の端末が、低品質映像信号を音声信号と共にリアルタイムで遠隔会議サーバへ送信し、一方で高品質映像信号を音声信号と共に非同期で症状認識サーバへ送信することとしている。これにより、患者が操作する第1の端末と医師が操作する遠隔会議サーバとを利用してリアルタイムな診察を実現すると同時に、症状認識サーバにおいて患者の疾患の兆候などをより正確に診断できるようにしている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第7023022号公報
【特許文献2】国際公開WO2019/207392号パンフレット
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、現場作業のDX化を目的とした遠隔支援システムでは、作業者がウェアラブルデバイス(送信端末)を利用して支援者のコンピュータ(受信端末)に作業現場等の映像をリアルタイムで送信しているときに、支援者があるタイミングの映像に注目して、そのタイミングの映像を精査したいといった状況が生じることがある。例えば、作業者が自身の手元の装置の細かい構造や配線、あるいは書面やマニュアルをカメラで写しているときに、支援者がその構造や書面等の内容を正確に把握して、作業者に対して指示を出すということが想定される。このとき、ウェアラブルデバイスは、イメージセンサで取得した画像信号を動画用にエンコードして動画データを生成しているが、この動画データはデータ容量の圧縮などが行われていることから、動画データからある特定のフレームを取り出しても、そのフレームは元の画像信号に比べて解像度が低下していることとなる。このため、支援者が作業者の手元の細かい構造や書面等の内容を把握したい場合に、動画データの中から特定のタイミングのフレームを取り出しても、そのフレームの画質が粗く、支援者がその内容を正確に把握できないという問題がある。
【0007】
また、特許文献2に記載のシステムでは、前述した通り、第1の端末(送信端末)において、ビットレートの高い高品質映像信号とビットレートの低い低品質映像信号を取得することとしている。しかし、このシステムでは、高品質映像信号は非同期で症状認識サーバへと送信され、低品質映像信号はリアルタイムで遠隔会議サーバへと送信されること想定している。このため、特許文献2に記載のシステムでは、高品質映像信号を取得したタイミングと低品質映像信号を取得したタイミングとを関連付ける処理は行われていない。このことから、例えば、低品質映像信号のうちのあるタイミングの映像に対応する高品質映像信号を閲覧しようとしても、高品質映像信号からそのタイミングの映像を特定することが困難である。
【0008】
そこで、本発明は、動画データの任意のタイミングに対応する高品質な静止画データを容易に取得できるようにすることを主たる課題とする。
【課題を解決するための手段】
【0009】
発明の発明者らは、上記の課題を解決する手段について鋭意検討した結果、イメージセンサで取得した元の画像信号を動画データに変換する動画用エンコーダのパスに加えて、同じ画像信号を静止画データに変換する静止画用エンコーダのパスを追加するとともに、この静止画データを動画データのフレームと対応付けてメモリに保存することで、動画データのうちの任意のタイミングに対応する静止画データを容易に取得できるようになるという知見を得た。そして、本発明者らは、上記知見に基づけば、従来技術の課題を解決できることに想到し、本発明を完成させた。
具体的に本発明は、以下の構成を有する。
【0010】
本発明の第1の側面は、情報処理端末に関する。本発明に係る情報処理端末は、イメージセンサ、動画用エンコーダ、メモリ、及び静止画用エンコーダを備える。イメージセンサは、画像信号を生成する。動画用エンコーダは、動画用のエンコード(主に圧縮や形式変換)により画像信号を動画データに変換する。動画用のエンコードには、動画データを構成する複数のフレームを一つの動画データにまとめるための圧縮/変換処理や、フレームごとの圧縮/変換処理が含まれる。また、画像信号とともに音声信号を取得している場合には、動画用のエンコードには、動画データと音声データを一つのファイルにまとめるための圧縮/変換処理も含まれる。メモリは、不揮発性のメモリであることが好ましいが、揮発性のメモリを用いることとしてもよい。静止画用エンコーダは、静止画用のエンコードにより画像信号を静止画データに変換する。静止画用のエンコードでは、動画用のエンコードとは異なり、フレームごとの圧縮/変換処理のみが行われる。また、静止画用のエンコードにおいて、静止画データと音声データの対応付けは基本的に不要である。静止画用エンコーダは、静止画データを動画データに対応付けてメモリに保存する。具体的な手段としては、例えば、静止画用エンコーダは、静止画データに動画データと経時的に対応付けるための同期データを付与してメモリに保存すればよい。例えば、本発明においては、同じ画像信号から動画データと静止画データが生成されることになるが、動画データを構成するあるフレームとある静止画データには同じ同期データ(要するにタイムスタンプ)が付与されることになる。ただし、静止画データと動画データを対応付けるための具体的な手段はこれに限られない。これにより、動画データを構成する多数のフレームの中から任意に一つのフレームを指定したときに、この指定されたフレームと同じタイミングで取得された静止画データを容易に判別できるようになる。
【0011】
なお、本発明に係る情報処理端末において、動画用エンコーダ及び/又は静止画用エンコーダは、CPUやGPUといったプロセッサが実行する機能の一部としてソフトウェア的に実装されるものであってもよい。また、動画用エンコーダ及び/又は静止画用エンコーダは、プロセッサとは異なるLSI(大規模集積回路)によりハードウェア的に実装されるものであってもよい。特に、動画用エンコーダと静止画用エンコーダのいずれか一方を、ソフトウェア実装とし、いずれか他方をハードウェア実装とすることが好ましい。これにより、動画用エンコーダと静止画用エンコーダを別々のパスで並列的に駆動することで、同じ画像信号を動画データと静止画データとに効率良く変換できる。
【0012】
本発明に係る情報処理端末は、通信部と制御部を備えることが好ましい。通信部は、インターネット等の通信回線を介して受信端末と通信するための要素である。情報処理端末(送信端末)と受信端末とは、サーバ装置等を中継して互い通信可能に構成されていてもよいし、Peer-to-Peerにより直接通信可能に構成されていてもよい。制御部は、受信端末に動画データを送信している間に、受信端末から動画データ内の特定のタイミングの指定を含む静止画要求信号を受けた場合に、メモリからそのタイミングに対応する静止画データを読み出して受信端末に送信する処理を実行する。この実施形態は、例えば現場の作業者が情報処理端末(送信端末)を装着して動画を撮像し、その動画データを遠隔の支援者の受信端末に送信することを想定している。この場合に、支援者が動画データのうちの任意のタイミングを指定したときに、その指摘されたタイミングに対応する高画質な静止画データを情報処理端末から受信端末へと送信できるようになる。
【0013】
本発明に係る情報処理端末において、通信部は、さらにサーバ装置と通信可能なものであってもよい。この場合、制御部は、さらに、受信端末に動画データの送信が終了した後に、メモリに保存されている静止画データをサーバ装置にアップロードする処理を実行する。なお、このとき、情報処理端末は、静止画データとともに動画データをサーバ装置にアップロードしてもよい。このように、情報処理端末が静止画データをサーバ装置にアップロードしておけば、例えば情報処理端末のメモリから静止画データを削除した場合でも、受信者端末はサーバ装置にアクセスすることにより任意の静止画データを取得又は閲覧することができる。
【0014】
本発明に係る情報処理端末において、制御部は、動画データを解析し、動画データ内に特定の画像が含まれていることを検知したときに静止画用エンコーダを駆動して、画像信号を静止画データに変換して静止画データを前記メモリに保存するように静止画用エンコーダを制御することとしてもよい。例えば、動画データに二次元コードや三次元コード(QRコード(登録商標))が写り込んでいる場合でも、動画データの画質が悪いことが原因となってこれらのコードを、情報処理端末(送信端末)又は受信端末にて正確に読み取れない場合がある。このときに、このような三次元コード等が動画データに含まれていることをトリガーとして、静止画用エンコーダを起動して静止画データを取得することにより、静止画データは動画データと比較して画質が良いものであることから、三次元コード等を正確に読み取ることが可能となる。
【0015】
本発明に係る情報処理端末は、ジェスチャセンサ、加速度センサ、ジャイロセンサ、地磁気センサ、及び生体センサのうちの一つ以上のセンサを備えることが好ましい。この場合に、情報処理端末の制御部は、センサが特定の信号を検知したときに静止画用エンコーダを駆動して、画像信号を静止画データに変換して静止画データをメモリに保存するように静止画用エンコーダを制御することとしてもよい。このように、センサが情報処理端末の装着者の特定の動き、例えば手元を見る動作、正面の一点に所定時間位以上着目する動作、転倒した動作などを検知したときに、より高画質な静止画データが自動的に生成されることになる。これにより、例えば遠隔地の支援者からの指定がなされる前に、支援者が注目するであろう静止画データを予測して、予め用意しておくことができる。これにより、本発明に係る情報処理端末の利便性が向上する。
【0016】
本発明に係る情報処理端末は、現場の作業員が装着するためのウェアラブルデバイスであることが好ましい。また、本発明に係る情報処理端末において、画像信号は、前記作業員が現場作業を撮影した画像の信号であることが好ましい。
【0017】
本発明の第2の側面は、画像送信システムに関する。本発明に係る画像処理システムは、前述した第1の側面に係る情報処理装置(送信端末)と、この情報処理装置から動画データ及び静止画データを受信可能に構成された受信端末を含む。
【0018】
本発明の第3の側面は、携帯情報端末を、前述した第1の側面に係る情報処理端末として機能させるためのプログラムに関する。このプログラムは、インターネット等を通じてダウンロード可能なものであってもよいし、携帯情報端末に予めインストールされたものであってもよい。また、このプログラムは、CD-ROM等の記録媒体に記録されたものであってもよい。
【発明の効果】
【0019】
本発明によれば、動画データの任意のタイミングに対応する静止画データを容易に取得できるようなる。
【図面の簡単な説明】
【0020】
【
図1】
図1は、本発明の一実施形態に係るシステムの全体図を示している。
【
図2】
図2は、送信端末における動画データと静止画データの生成処理の概要を示している。
【
図3】
図3は、送信端末の一例として、首掛け型のウェアラブルデバイスを示している。
【
図4】
図4は、本発明に係るシステムの機能構成を示したブロック図である。
【
図5】
図5は、送信端末の制御部における画像処理機能に関して、さらに具体的な構成要素を示したブロック図である。
【
図6】
図6は、動画データと静止画データの対応関係とともに、送信端末から受信端末へ動画データと静止画データを送信する処理の概要を示している。
【
図7】
図7は、送信端末から受信端末へ動画データと静止画データを送信する処理フローの一例であって、動画データの送信中に定期的に静止画データを保存する場合を示している。
【
図8】
図8は、送信端末から受信端末へ動画データと静止画データを送信する処理フローの一例であって、動画データの送信中に所定のトリガーを検知したときに静止画データを保存する場合を示している。
【発明を実施するための形態】
【0021】
以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。
【0022】
図1は、本発明の一実施形態に係るシステム100の全体構成を模式的に示している。本実施形態に係るシステム100は、現場での作業を行う作業者を支援者がインターネットを介して遠隔で支援するといった用途で好適に用いられる。本システム100において、作業者は、送信端末10にて動画及び静止画を撮像し、これらのデータをインターネット経由で支援者が操作する受信端末20に送信する。また、遠隔地の支援者は、受信端末20を通じて、作業者の送信端末10から送られてきた動画及び静止画を視聴したり、この送信端末10と音声のやり取りをすることもできる。また、本システム100には、送信端末10及び受信端末20に対してビデオ会話ツールを提供する外部のクラウドサーバ30が含まれていてもよい。この場合、このクラウドサーバ30を経由して、送信端末10から受信端末20へと動画及び静止画のデータが送信されることとなる。
【0023】
図2は、本発明に係るシステム100を構成する送信端末10(情報処理端末)による画像送信処理を模式的に示している。送信端末10はデジタルカメラを備えており、このカメラのイメージセンサで取得した画像信号を、経時的に連続する複数のフレームで構成された動画データに変換する。また、送信端末10はマイクロホンを備えており、このマイクロホンで取得した音声信号も動画データに対応付けられる。このような音声付きの動画データは、例えばクラウドサーバ30を経由して受信端末20へとリアルタイムに送信される。このような動画データの送信は、テレビ会議システム等により既に公知である。
【0024】
本発明の送信端末10は、さらに、カメラのイメージセンサで取得した画像信号を、単一のフレームで構成される静止画データにも変換する。このとき、動画データと静止画データは、同じイメージセンサで取得した画像信号を元にしたものとなる。このため、動画データを構成するあるフレーム(以下「動画フレーム」という。)と静止画データを構成するフレーム(以下「静止画フレーム」という。)はタイミング的に同期させることができる。また、静止画データは動画データとは異なりフレームを結合したり音声信号を付帯させたりする必要がないため、静止画フレームは、動画フレームと比べて、データ容量を大きくすることができ、各フレームの解像度(密度)を高くすることが可能である。また、この静止画データは、動画データからあるフレームを抜き出したものではなく、動画フレームとは別に元の画像信号から生成したものであることから、画像信号を動画データに変換する際に捨て去られた情報をも含み得る。このため、静止画フレームは、被写体の像をより鮮明に捉えたものであるといえる。
【0025】
このようにして得られた静止画データは、動画データを構成する多数のフレームのうち、画像信号を取得したタイミングが合致している動画フレームと同じ同期データ(符号t1,t2…)が付与されて、送信端末10内のメモリに格納される。ここで、例えば、送信端末10から送信されている動画を表示中の受信端末20が、あるタイミング(例えばt1)の送信フレームを指定して、より鮮明な画像の送信を要求したとする。この場合に、送信端末10は、受信端末20から指定されたタイミング(例えばt1)に対応する静止画データをメモリから読み出して、この静止画データを受信端末20へと送信する。このように、動画データとは別に高画質の静止画データを生成しメモリ内に少なくとも一時的に保存しておくことで、受信端末20からの要求に応じて高画質の静止画データを送信することが可能となる。
【0026】
続いて、本発明の一実施形態に係るシステム100の構成についてさらに具体的に説明する。
図3は、送信端末10の一例を示した外観斜視図である。また、
図4には、送信端末10のハードウェア要素の例を示している。
図3に示されるように、本実施形態における送信端末10は、首掛け型のウェアラブルデバイスである。送信端末10は、左腕部と、右腕部と、それらを装着者の首裏にて接続する本体部を備える。送信端末10を装着する際には、本体部を装着者の首裏に接触させ、左腕部と右腕部を装着者の首横から胸部側に向かって垂らすようにして、装置全体を首元に引っ掛ければよい。送信端末10の筐体内には、各種の電子部品が格納されている。
【0027】
左腕部と右腕部には、それぞれ複数の集音部14(マイク)が設けられている。集音部14は、主に装着者の周囲の音や、装着者と対話者の音声を取得することを目的として配置されている。装着者周囲で発生した音を広く集音できるように、集音部14としては、全指向性(無指向性)のマイクロホンを採用することが好ましい。集音部14としては、ダイナミックマイクやコンデンサマイク、MEMS(Micro-Electrical-Mechanical Systems)マイクなど、公知のマイクロホンを採用すればよい。集音部14は、音を電気信号に変換し、その電気信号をアンプ回路によって増幅した上で、A/D変換回路によってデジタル情報に変換して制御部11へと出力する。集音部14によって取得した音信号は、筐体内に設けられた制御部11へ伝達される。また、本実施形態において、集音部14によって取得した音信号は、通信部13を介してインターネット経由で受信端末20に送信することができる。これにより、現場の作業者が送信端末10によって取得した音が、遠隔地の支援者の受信端末20にも共有される。
【0028】
左腕部には、イメージセンサを含む撮像部15がさらに設けられている。具体的には、左腕部の先端面に撮像部15が設けられており、この撮像部15によって装着者の正面側の画像を撮像することができる。イメージセンサは、対象物から発せされた光(反射光を含む)を、光学系を通してイメージセンサの受光面に結像させ、その像の光による明暗を電荷の量に光電変換して、画像信号を得る。撮像部15のイメージセンサによって取得された画像信号は、筐体内の制御部11に伝達され動画用のエンコード及び/又は静止画用のエンコードにより、動画データ及び/又は静止画データに変換される。撮像部15としては一般的なデジタルカメラを採用すればよい。撮像部15は、例えば、撮影レンズ、メカシャッター、シャッタードライバ、CCDイメージセンサユニットなどの光電変換素子、光電変換素子から電荷量を読み出し画像データを生成するデジタルシグナルプロセッサ(DSP)、及びICメモリで構成される。撮像部15によって取得された画像データは、制御部11へと供給されて記憶部12に記憶される。また、画像データに対して所定の画像解析処理を行うこととしてもよい。また、撮像部15で取得した動画や静止画は、前述したように、通信部13を介してインターネット経由で受信端末20へと送信される。これにより、現場の作業者が送信端末10で取得した動画や静止画が、遠隔地の支援者の受信端末20にも共有される。
【0029】
右腕部には、非接触型のジェスチャセンサ16がさらに設けられている。ジェスチャセンサ16は、主に送信端末10の正面側における装着者の手の動きを検知することを目的として、右腕部の先端面に配置されている。ジェスチャセンサ16は、例えば装着者の手指の動作や形を検知する。ジェスチャセンサ16の例は光学式センサであり、赤外発光LEDから対象物に向けて光を照射し、その反射光の変化を受光素子で捉えることで対象物の動作や形を検知する。ジェスチャセンサ16による検知情報は、制御部11へと伝達され、主に撮像部15や放音部18の制御に利用される。具体的には、ジェスチャセンサ16の検知情報は、撮像部15や放音部18の起動、停止などの制御に利用される。例えば、ジェスチャセンサ16は、装着者の手などの物体がそのジェスチャセンサ16に近接したことを検知して撮像部15を制御することとしてもよいし、あるいはジェスチャセンサ16の検知範囲内で装着者が所定のジェスチャーを行ったことを検知して撮像部15を制御することとしてもよい。なお、撮像部15とジェスチャセンサ16の位置を入れ替えることも可能である。また、ジェスチャセンサ16は近接センサに置き換えることとしてもよい。近接センサは、例えば装着者の手指が所定範囲まで近接したことを検知する。近接センサとしては、光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。
【0030】
装着者の首裏に位置する本体部の外側(装着者の反対側)には放音部(スピーカ)18が設けられている。本実施形態において、放音部18は、本体部の外側に向かって音を出力するように配置されている。このように、装着者の首裏から真後ろに向かって音を放出することで、この放音部18から出力された音が、装着者の正面前方に存在する対話者に直接的に届きにくくなる。これにより、対話者は、装着者自身が発した音声と送信端末10の放音部18から発せられた音とを区別しやすくなる。放音部18は、電気信号を物理的振動(すなわち音)に変換する音響装置である。放音部18の例は、空気振動により音を装着者に伝達する一般的なスピーカである。また、放音部18としては、装着者の骨を振動させることにより音を装着者に伝達する骨伝導スピーカであってもよい。なお、この場合、放音部18を本体部の内側(装着者側)に設けて、骨伝導スピーカが装着者の首裏の骨(頚椎)に接触するように構成すればよい。また、本実施形態において、受信端末20に入力された音声信号は、インターネット経由で送信端末10に送信される。送信端末10は、受信端末20から受信した音声信号を放音部18によって音に変換して出力する。これにより、受信端末20を操作する支援者の音声を、送信端末10を装着した作業者に届けることができる。
【0031】
図4に示されるように、送信端末10の制御部11は、この送信端末10が備える他の要素を制御する演算処理を行う。制御部11としては、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサを利用することができる。制御部11を構成するプロセッサは、基本的に、記憶部12に記憶されているプログラムを読み出してメインメモリに展開し、このプログラムに従って所定の演算処理を実行する。また、制御部11は、プログラムに従った演算結果を記憶部12に適宜書き込んだり読み出したりすることができる。また、制御部11には、画像処理用のLSI(Large Scale Integration)が含まれていてもよい。送信端末10の制御部11の詳細については、
図5を参照して後述する。
【0032】
送信端末10の記憶部12は、制御部11での演算処理等に用いられる情報やその演算結果を記憶するための要素である。記憶部12のストレージ機能は、例えばHDD及びSDDといった不揮発性メモリによって実現できる。また、記憶部12は、制御部11による演算処理の途中経過などを書き込む又は読み出すためのメインメモリとしての機能を有していてもよい。記憶部12のメモリ機能は、RAMやDRAMといった揮発性メモリにより実現できる。また、記憶部12には、それを所持するユーザ固有のID情報が記憶されていてもよい。また、記憶部12には、送信端末10のネットワーク上の識別情報であるIPアドレスが記憶されていてもよい。
【0033】
送信端末10の通信部13は、受信端末20やクラウドサーバ30と無線通信するための要素である。通信部13は、インターネットを介して受信端末20やクラウドサーバ30と通信を行うために、例えば、3G(W-CDMA)、4G(LTE/LTE-Advanced)、5Gといった公知の移動通信規格や、Wi-Fi(登録商標)等の無線LAN方式で無線通信するための通信モジュールを採用すればよい。また、送信端末10は、クラウドサーバ30を介さずに、受信端末20と直接無線通信することもできる。この場合、通信部13は、受信端末20と直接的に通信を行うために、Bluetooth(登録商標)やNFC等の方式の近接無線通信用の通信モジュールを採用することが好ましい。
【0034】
送信端末10のセンサ類17は、例えば送信端末10の動作や利用状況、あるいはその装着者の生体情報を検知するためのセンサ機器を含む。センサ類17としては、一般的な携帯情報端末やウェアラブルデバイスに搭載されているセンサモジュールを採用すればよい。例えば、センサ類17には、ジャイロセンサ、加速度センサ、地磁気センサ、バッテリセンサが含まれる。また、センサ類17には、体温センサ、心拍センサ、血中酸素濃度センサ、血圧センサ、心電図センサなど、装着者の生体情報を検知するための生体センサが含まれていてもよい。
【0035】
送信端末10の位置情報取得部19は、その送信端末10の現在の位置情報を取得するための要素である。具体的には、位置情報取得部19は、GPS(Global Positioning System)を利用した測位を行う機能を持つ。位置情報取得部19は、複数のGPS衛星から送られた電波に含まれる電波送信時間の情報に基づき、それぞれの電波を受信するのに要した時間を測定し、その時間を示す時間情報を制御部11に伝達する。制御部11は、取得した時間情報に基づいて、送信端末10の所在位置の緯度経度に関する情報を算出することができる。また、位置情報取得部19は、Wi-Fi(登録商標)アクセスポイントなどの無線基地局から発信される電波やビーコン信号をスキャンすることにより、現在の位置情報を取得するものであってもよい。
【0036】
なお、
図3及び
図4から明らかなように、本実施形態において、送信端末10は、ディスプレイやモニタなどの表示装置を有していない。このため、作業者は、ジェスチャセンサ16等を利用して各ハードウェア要素のオン・オフ等の比較的簡単な操作は行うことができるものの、アプリケーションプログラムの操作など複雑な操作は困難である。このような表示装置を持たない送信端末10を用いる場合、本発明に係るシステムのように、受信端末20などによってインターネットを介して送信端末10を遠隔制御することが特に有効である。
【0037】
図4は、さらに、受信端末20のハードウェア要素の例を示している。受信端末20は、一般的なパーソナルコンピュータ(PC)により実現可能である。受信端末20は、デスクトップ型PCとラップトップ型PCのいずれであっても構わない。受信端末20は、その他にスマートフォンやタブレット型端末であってもよい。受信端末20は、制御部21、記憶部22、通信部23、表示部24、操作部25、集音部26、及び放音部27を有する。これらの要素としては、一般的なPCやそれと共に用いられる周辺機器を利用することができる。
【0038】
受信端末20の制御部21は、CPUやGPUなどのプロセッサにより構成される。制御部21は、基本的に、記憶部22に記憶されているプログラムを読み出してメインメモリに展開し、このプログラムに従って所定の演算処理を実行する。また、制御部11は、プログラムに従った演算結果を記憶部12に適宜書き込んだり読み出したりすることができる。このようにして、制御部21は、記憶部22に記憶されたプログラムに従って各要素22~27の制御処理を行う。
【0039】
受信端末20の記憶部22は、制御部21での演算処理等に用いられる情報やその演算結果を記憶するための要素である。記憶部22のストレージ機能は、例えばHDD及びSDDといった不揮発性メモリによって実現できる。また、記憶部22は、制御部11による演算処理の途中経過などを書き込む又は読み出すためのメインメモリとしての機能を有していてもよい。記憶部22のメモリ機能は、RAMやDRAMといった揮発性メモリにより実現できる。
【0040】
受信端末20の通信部23は、送信端末10やクラウドサーバ30と通信するための要素である。通信部23の通信方式は有線と無線のどちらであってもよい。例えば、受信端末20は、有線にて光回線や電話回線を通じてインターネットに接続可能なものであってもよいし、Wi-Fi(登録商標)等の無線LAN方式でインターネットに接続可能なものであってもよい。また、前述のように、受信端末20は、クラウドサーバ30を介さずに、送信端末10と直接無線通信することもできる。
【0041】
受信端末20の表示部24は、画像を表示するための要素である。本発明に係るシステムにおいては、主に、送信端末10から受信した動画及び/又は静止画が表示部24に表示される。表示部24としては、液晶ディスプレイや有機ELディスプレイといった公知のものを利用できる。また、表示部24は、スクリーンに映像光を投影するプロジェクタであってもよい。
【0042】
受信端末20の操作部25は、ユーザ(支援者)が受信端末20(特に制御部21)に対して所定の操作情報を入力するための要素である。操作部25としては、タッチパネル、マウス、キーボード、トラックパッド、スタイラスペン、ペンタブレッドなどの公知のものを利用できる。また、タッチパネルを表示画面に重ね合わせることでタッチパネルディスプレイを構成することも可能である。
【0043】
受信端末20の集音部26は、主にユーザ(支援者)の音声を取得するための要素である。集音部26としては、指向性又は全指向性(無指向性)のマイクロホンを採用すればよい。マイクロホンとしては、ダイナミックマイクやコンデンサマイク、MEMSマイクなど、公知のものを採用することができる。本実施形態において、受信端末20の集音部26によって取得した音声信号は、通信部23を介してインターネット経由で送信端末10に送信できる。これにより、支援者の音声が、現場で働く作業者の送信端末10から出力されるようになる。
【0044】
受信端末20の放音部27は、主に送信端末10から受信した音声を出力するための要素である。放音部27としては、空気振動により音を伝達する一般的なスピーカや、イヤホン、ヘッドホンを採用すればよい。本実施形態において、送信端末10に入力された音信号は、インターネット経由で受信端末20に送信される。受信端末20は、送信端末10から受信した音信号を放音部27によって音に変換して出力する。これにより、送信端末10が取得した音を、受信端末20を操作する支援者に届けることができる。
【0045】
クラウドサーバ30は、例えば、送信端末10と受信端末20に対してWeb会議等のビデオ会話ツールを提供する。クラウドサーバ30は、一又は複数のサーバ装置31によって構成されている。クラウドサーバ30は、例えば、送信端末10と受信端末20との間の通信接続を確立する際に、送信端末10と受信端末20のそれぞれのユーザ(作業者と支援者)に対して、ビデオ会話ツール用のアカウントへのログインを求める。送信端末10と受信端末20には、それぞれビデオ会話ツール用の専用のアプリケーションプログラムがインストールされている。送信端末10と受信端末20は、このプログラムを実行してそれぞれクラウドサーバ30にアクセスし、各自のアカウントにログインする。送信端末10と受信端末20とがログイン認証に成功すると、クラウドサーバ30は、これらの送信端末10と受信端末20との間の画像データや音データの送受信の中継を開始する。ビデオ会話ツール用としては、一般的に利用可能な市販のツールを適宜利用することが可能である。
【0046】
続いて、
図5を参照して、送信端末10における動画データ及び静止画データのエンコード処理について具体的に説明する。
図5に示したように、撮像部15のイメージセンサにて取得された画像信号は、制御部11に入力される。この画像信号は、RAW画像とも呼ばれ、原則としてイメージセンサから得られた無加工のセンサデータであり、動画用又は静止画用のエンコードが行われる前の最も情報量の多いデータである。RAW画像では、赤・緑・青の各センサが取得した数値がそのまま記録されており、画素の色はRGBの値で表される。なお、
図5に示した例では、RAW画像は、3264×2448という最大の画像サイズとなっている。
【0047】
画像信号(RAW画像)は、制御部11に入力されると、基本的には動画用のパイプラインに入力される。動画用パイプラインには、バッファメモリ11a、動画用の画像処理エンジン11b、及び動画用エンコーダ11cが含まれる。
【0048】
動画用パイプラインでは、連続的に画像処理を行う必要があることから、RAW画像は、まずバッファメモリ11aに一時保存される。バッファメモリ11aは、イメージセンサからのRAW画像を数フレーム分保持できる。なお、バッファメモリ11aは、メインメモリ上に複数の記憶領域が固定領域として確保されており、イメージセンサからのRAW画像がどのバッファ領域に書き込まれているかという情報も保持される。例えば、バッファメモリ11aは、終端の記憶領域と先端の記憶領域が論理的に連結された循環的なリングバッファ形式となっており、最も古いデータを最新のデータで上書きすることで常に一定分のデータを蓄積することができるようになっている。
【0049】
動画用の画像処理エンジン11bは、バッファメモリ11aから読み出したRAW画像を、後段の動画用エンコーダ11cが受け取ることのできるサイズに縮小したり、カラーフォーマットを変換する処理を行う。例えば、画像処理エンジン11bは、RAW画像の画像サイズを3264×2448から、1920×1080に縮小する。また、RAW画像の色は元々RGB値で表現されたものとなっているが、画像処理エンジン11bは、これをYUV値に変換する。YUVは、画素の色を、輝度(Y)、輝度と青の差(U)、及び輝度と赤の差(V)で表現したものであり、RGBに比べて少ないデータ量で表現できる。
【0050】
動画用エンコーダ11cは、動画用の画像処理エンジン11bにてサイズ縮小及びカラーフォーマット変換が行われた画像データを、動画用のフォーマットにエンコード(符号化)する。具体的には、動画用エンコーダ11cには、複数のフレームを一つの動画データにまとめるための圧縮/変換処理や、フレームごとの圧縮/変換処理を行う。また、画像信号とともに音声信号を取得している場合には、動画データと音声データを一つのファイルにまとめるための圧縮/変換処理も行われる。また、動画用エンコーダ11cは、送信端末10と受信端末20の間のデータ伝送レート(通信帯域)に応じて圧縮率を変動させる。具体的には、データ伝送レートが低い場合には、画像の圧縮率を大きくすればよい。これにより、複数のフレームが経時的に結合した動画データが得られる。なお、動画データのエンコードは、公知の動画圧縮規格に基づいて行えばよい。
図5に示した例では、動画圧縮の規格として、H.264(MPEG-4 AVC)を採用しているが、エンコード方式はこれに限られない。
【0051】
また、動画用エンコーダ11cは、動画データを構成するフレームにタイムスタンプ(同期データ)を付与する。このタイムスタンプは、後述する静止画データと動画データを同期させるために利用される。動画用エンコーダ11cは、全てのフレームに固有のタイムスタンプを付与することとしてもよい。あるいは、動画用エンコーダ11cは、後述するように静止画データを生成するときにその静止画データに対応するフレームに限り固有のタイムスタンプを付与することとしてもよい。
【0052】
動画用のパイプライン11a~11cにより作成された動画データは、送信端末10の通信部13により、インターネットを経由して、受信端末20及び/又はクラウドサーバ30にリアルタイムに送信される。受信端末20においては、送信端末10から受信した動画データをリアルタイムに視聴できる。また、クラウドサーバ30は、送信端末10から受信した動画データを、クラウドストレージに保存(バックアップ)することとしてもよい。
【0053】
本発明の送信端末10は、上記した動画用パイプラインに加えて、静止画用のパイプラインを含む。
図5に示されるように、静止画用パイプラインには、静止画用の画像処理エンジン11d、静止画用エンコーダ11e、及びメモリ11fが含まれる。なお、バッファメモリ11aは、動画用パイプラインと静止画用パイプラインで兼用されていると解釈することもできる。静止画用パイプラインは、動画用パイプラインと並列で、イメージセンサの画像信号を静止画データに変換するためのものである。このため、この静止画用パイプラインを設けることで、前述したように動画用パイプラインによる動画データの生成処理と並行して、静止画データを生成することができる。
【0054】
静止画用の画像処理エンジン11dは、バッファメモリ11aに格納されているRAW画像を読み出して、主にカラーフォーマットを変換する処理を行う。前述したとおりバッファメモリ11aには、イメージセンサが取得した元のRAW画像が所定フレームだけ一時的に保持されている。制御部11を構成するCPU等のプロセッサは、所定の静止画出力指示を受け取ったときに、現在画像が書き込まれているバッファメモリ11aの記憶領域の一つ前の記憶領域からRAW画像を読み出して、静止画用の画像処理エンジン11dへと受け渡す。なお、所定の静止画出力指示は、定期的に発生するものであってもよいし、所定のトリガー条件(後述)を満たしたときに発生するものであってもよい。すなわち、静止画データは、定期的に生成されてもよいし、任意のタイミングで生成されてもよい。
図5に示した例において、画像処理エンジン11dは、RAW画像のカラーフォーマット変換(RBG→YUV)のみを行い、画像サイズの縮小は行わない。これにより、最も高画質の静止画データを得ることができる。ただし、静止画用の画像処理エンジン11dは、カラーフォーマット変換に加えて、画像サイズの縮小を行うものであってもよいが、この場合には、少なくとも動画データの各フレームよりは静止画データの画像サイズを大きく維持することが好ましい。
【0055】
静止画用エンコーダ11eは、静止画用の画像処理エンジン11dにて主にカラーフォーマット変換が行われた画像データを、静止画用のフォーマットにエンコード(符号化)する。静止画用のエンコードにおいては、複数のフレームを経時的に結合する必要はないことから、各フレーム内のエンコードのみが行われる。具体的には、静止画用エンコーダ11eは、JPEG等の公知の静止画用の画像圧縮規格に基づいて、画像をエンコードすればよい。その他、PNGやGIFといった画像圧縮方式を採用することも可能である。このようにして静止画データが得られる。なお、この静止画データは、静止画用エンコーダ11eにより定期的又は任意のタイミングで生成されるものであるが、その全てがインターネットを経由して受信端末20等に送信されるものではない。このように、静止画データは受信端末20に向けて送信することを前提としたものではないことから、送信端末10と受信端末20の間のデータ伝送レート(通信帯域)に応じて圧縮率を変動する必要はない。従って、静止画データは、このようなデータ伝送レートの影響を受けない固定値にて圧縮を行うことが好ましい。これにより、静止画データは、常に、高画質な状態を維持することができる。
【0056】
静止画用エンコーダ11eにより生成された静止画データは、少なくとも一時的にメモリ11fに保存される。このメモリ11fは、メインメモリの記憶領域の一部を利用することとしてもよいし、メインメモリとは別に揮発性又は不揮発性のメモリを設けることとしてもよい。メモリ11f内に静止画データを保存する量や時間は適宜調整すればよい。例えば、メモリ11fに静止画データを保存する容量の制限を設けておき、一定の容量を超えた場合には、最も古い静止画データを消去して、新しい静止画データを保存することとしてもよい。また、送信端末10が受信端末20に向けて動画データを送信している間に限り静止画データをメモリ11fに保存し、動画データの送信が終了したときにメモリ11f内の静止画データを消去することとしてもよい。
【0057】
また、静止画用エンコーダ11eは、メモリ11fに静止画データを保存する際に、静止画データのそれぞれにタイムスタンプ(同期データ)を付与する。具体的には、本実施形態では、イメージセンサが取得した一つのRAW画像から動画データのフレームと静止画データのフレームをそれぞれ生成することができる。このように、同じRAW画像から生成された動画データと静止画データの各フレームには同じタイムスタンプが付与される。これにより、リアルタイムに送信されている動画データと、一時的にメモリ11fに保存されている静止画データとを、タイムスタンプによって同期させることができる。
【0058】
図5に示した例において、動画用の画像処理エンジン11bと動画用エンコーダ11cは、CPU等のプロセッサとは異なるLSIによりハードウェア的に実装されたものであることが好ましい。一方で、静止画用の画像処理エンジン11dと静止画用エンコーダ11eは、プログラムをCPU等のプロセッサで実行することにより実現される機能であって、ソフトウェア的に実装されたものであることが好ましい。動画データの画像処理は、前述した通りリアルタイムに頻繁に行われるものであることから、ハードウェア実装とすることで処理の高速化と低消費電力化を図ることができる。静止画データの画像処理は、動画データに比べて頻度が低いことから、ソフトウェア実装でも十分に対応可能である。ただし、前述した通り、静止画データは高画質でデータ容量も大きいため、静止画データの生成の頻度が高い場合には、プロセッサの負荷が大きくなる。この場合には、静止画用の画像処理エンジン11dと静止画用エンコーダ11eをハードウェア実装とすることも可能である。この場合、反対に、動画用の画像処理エンジン11bと動画用エンコーダ11cをソフトウェア実装とすることとしてもよい。
【0059】
メモリ11fに保存されている静止画データは、基本的には受信端末20からの要求に従って、送信端末10から受信端末20へと送信される。以下では、このような静止画データを送信端末10から受信端末20へと送信する処理の例について詳しく説明する。
【0060】
図6は、送信端末10と受信端末20の間でやり取りされる情報の概要を示しており、
図6に示されるように、送信端末10は、前述した画像処理により、複数のフレームを含む動画データと、単一のフレームからなる静止画データを生成している。この例では、静止画データは定期的に生成されており、静止画データと同じタイミングで生成された動画データのフレームには、その静止画データと同じタイムスタンプが付与される。図示した例では、動画データの(1)番目、(5)番目、(9)番目、(13)番目のフレームにタイムスタンプt1,t2,t3,t4が付与されており、各フレームに対応する静止画データにも同じタイムスタンプが付与されている。動画データは、送信端末10から受信端末20に対してリアルタイムに送信されるが、静止画データはまず送信端末10のメモリに保存されることになる。
【0061】
ここで、受信端末20は、送信端末10により送信された動画データを受信すると、液晶ディスプレイ等の表示部に動画を表示する。この動画は、送信端末10が動画データを送信し続ける限り受信端末20の表示部に表示され続ける。ここで、受信端末20を操作する支援者が、動画の視聴中に、あるタイミングで表示された動画フレームについてより鮮明な画像を閲覧することを希望したとする。その場合、支援者は、マウスやタッチパネル等の操作部を操作して、動画の再生を一時停止したり、あるいは所定のUIアイコンをクリックすることにより、鮮明な画像を求めるタイミングを指定する。これにより、動画データの中から、支援者がより鮮明な画像を求める動画フレームが指定される。そして、受信端末20は、動画データ内のタイムスタンプが付与された動画フレームのうち、支援者により指定された動画フレームに最も近いものを特定する。例えば、
図6に示した例で説明すると、支援者が、動画データを構成する動画フレームのうち、(4)番目のフレームを指定したとする。この場合、タイムスタンプが付与された動画フレームのうち、(4)番目の動画フレームに最も近いものは、(5)番目の動画フレームであり、この(5)番目の動画フレームには“t2”のタイムスタンプが付与されている。受信端末20は、“t2”のタイムスタンプが指定されたことを示す情報を送信端末10へと送信する。そして、送信端末10は、“t2”のタイムスタンプが付与された静止画データをメモリから読み出し、この静止画データを、動画データに加えて、受信端末20へと送信する。受信端末20は、送信端末10から静止画データを受け取ると、動画データとともに、あるいは動画データに代えて、ここで受信した静止画データを表示部に表示する。これにより、支援者は、動画視聴中に、より高画質の静止画データを送信端末10から入手して閲覧することができる。
【0062】
なお、上記の例では、動画データ内のタイムスタンプが付与された動画フレームのうち、支援者により指定された動画フレームに最も近いものを特定することとしていた。ただし、それ以外にも、動画データ内のタイムスタンプが付与された動画フレームのうち、支援者により指定された動画フレームの直前のもの又は直後のものを特定することも可能である。例えば、
図6に示した例で説明すると、支援者が、動画データを構成する動画フレームのうち、(4)番目のフレームを指定したとする。この場合、タイムスタンプが付与された動画フレームのうち、(4)番目の動画フレームの直前のものは、(1)番目の動画フレームであり、この(1)番目の動画フレームには“t1”のタイムスタンプが付与されている。受信端末20は、“t1”のタイムスタンプが指定されたことを示す情報を送信端末10へと送信することとしてもよい。
【0063】
図7は、これまでに説明した送信端末10と受信端末20が行う情報処理のフローの具体例を示している。
図7は、主に、送信端末10において定期的に静止画データが生成される場合の例を示している。
図7に示されるように、このフローは、送信端末10が撮像部15のイメージセンサによってRAW画像の取得を行うところから開始する(ステップS1-1)。イメージセンサがRAW画像を取得すると、
図5を参照して説明した通り動画用の画像処理エンジン11b及び動画用エンコーダ11cにより動画用のエンコードを行って動画データを得る(ステップS1-3)。この動画データは、送信端末10から受信端末20へリアルタイムに送信される(ステップS1-3)。
【0064】
また、送信端末10は、動画データの送信中に、
図5を参照して説明した通り静止画用の画像処理エンジン11d及び静止画用エンコーダ11eにより静止画用のエンコードを行って静止画データを得る(ステップS1-4)。得られた静止画データは、動画データのフレームと同期をとるためのタイムスタンプが付与されて、メモリ11fに一時的に保存される(ステップS1-5)。
図7に示した実施形態において、静止画エンコードは定期的に実行され、メモリ11fにはタイムスタンプ付きの静止画データが蓄積される。
【0065】
一方で、受信端末20は、送信端末10から動画データを受信すると、これをディスプレイ等に表示する(ステップS1-6)。この受信端末20による動画の表示は、送信端末10による画像の取得が終了するまで継続する。ここで、受信端末20を操作するユーザ(支援者)が、表示中の動画の中から任意のフレームを指定したとする(ステップS1-7)。例えば、フレームの指定は、動画を一時停止したり、動画の表示中に所定のUIアイコンをクリックする動作などによって行われる。受信端末20は、タイムスタンプが付与されている動画のうち、例えばユーザにより指定されたフレームに最も近いものを特定し、その特定されたフレームのタイムスタンプを、指定情報として送信端末10に向けて送信する(ステップS1-8)。
【0066】
送信端末10は、受信端末20から指定情報を受信すると、そのタイムスタンプと同じものが付与されている静止画データをメモリから読み出す(ステップS1-9)。そして、送信端末10は、ここで読み出した静止画データを受信端末20へと返信する(ステップS1-10)。受信端末20は、送信端末10から静止画データを受け取ると、これをディスプレイ上に表示する(ステップS1-11)。受信端末20は、例えば動画データの代わりに静止画データを表示することとしてもよいし、あるウィンドウで動画データを表示しながら別のウィンドウに静止画データを表示することとしてもよい。また、受信端末20は、静止画データをストレージ等に保存することもできる。なお、受信端末20は、ディスプレイに静止画データを表示させずに、単にストレージ等に保存することとしてもよい。また、受信端末20は、送信端末10から動画データが送信されてくる間、何度も静止画データの要求を行うことができる。
【0067】
上記した動画データのリアルタイムの送信処理と、要求を受けた場合の静止画データの逐次の送信処理は、送信端末10が画像取得を終了するまで行われる。送信端末10による画像取得が終了する(すなわちイメージセンサがオフになる)と、送信端末10は、メモリに保存されている静止画データをクラウドサーバ30にアップロードする(ステップS1-12,S1-13)。これにより、送信端末10がメモリから静止画データを削除した場合でも、クラウドサーバ30にはその静止画データが一定期間保存されていることになる。このため、受信端末20は、送信端末10ではなく、クラウドサーバ30から静止画データをダウンロードすることも可能である。
【0068】
図8は、送信端末10と受信端末20が行う情報処理のフローの別の具体例を示している。
図8に示した例において、送信端末10が画像を取得してから、当該画像をエンコードし、動画データを受信端末20に送信して、受信端末20が動画データを表示するまでの処理(ステップS2~4)は、
図7に示した例と同じである。
【0069】
一方、
図8に示した例では、送信端末10の制御部が、動画データの送信中に所定のトリガー条件を満たしたか否かを判断する(ステップS2-5)。なお、特にトリガーが検知されない場合には、ステップS2-1に戻り、動画データの送信を継続する。所定のトリガー条件を満たしていると判断された場合、イメージセンサで取得したRAW画像が静止画用にエンコードされる(ステップS2-6)。
【0070】
トリガー条件は、特に制限はなく、高品質な静止画データを生成するのに適した条件を設定すればよい。例えば、送信端末10は、前述したように、ジェスチャセンサ、加速度センサ、ジャイロセンサ、地磁気センサ、及び生体センサなどの各種センサを備えている。これらのセンサが、特定の信号を検知したときに、トリガー条件を満たしたものと判断することとしてもよい。例えば、加速度センサ及びジャイロセンサにより、送信端末10を装着している作業者の特定の動作を検知した場合に、トリガー条件を満たしたものと判断することとしてもよい。作業者の特定の動作の例としては、作業者が前屈みになって手元を確認する動作や、作業者が所定時間(例えば5~10秒)以上同じ箇所を見続ける動作、作業者が上方を見上げる動作、あるいは作業者が不意に転倒した動作などが挙げられる。
【0071】
また、例えば、制御部が動画データを解析して、その動画データ内に特定の画像が含まれていることを検知したときに、トリガー条件を満たしたものと判断することとしてもよい。例えば、動画データに所定の二次元コードや三次元コード(QRコード(登録商標))が写り込んでいることが検知された場合、これをトリガーとして、静止画用エンコーダを起動して静止画データを取得することとしてもよい。これにより、高画質な静止画データを利用して三次元コード等を正確に読み取ることが可能となる。
【0072】
送信端末10は、上記の静止画データを少なくとも一時的にメモリに保存する(ステップS2-7)。その後、送信端末10は、受信端末20に対して、静止画データを保存した旨の通知を行う(ステップS2-8)。この通知を受け取った受信端末20は、ディスプレイ等に通知を表示して、ユーザ(支援者)に静止画データの取得を希望するかどうかを確認する(ステップS2-9)。静止画データの要求がなければ、受信端末20は、送信端末10による画像取得が終了するまで、通常通り、送信端末10から送信されてくる動画データを表示し続ける。一方、静止画データの要求がなされた場合、受信端末20は、その静止画データの要求情報を送信端末10に送信する(ステップS2-10)。
【0073】
送信端末10は、受信端末20から静止画データの要求情報を受信すると、その要求にかかる静止画データをメモリから読み出し(ステップS2-11)、これを受信端末20へと返信する(ステップS2-12)。受信端末20は、送信端末10から静止画データを受け取ると、これをディスプレイ上に表示する(ステップS2-13)。このような動画データのリアルタイムの送信処理と、要求を受けた場合の静止画データの逐次の送信処理は、送信端末10が画像取得を終了するまで行われる。送信端末10による画像取得が終了する(すなわちイメージセンサがオフになる)と、送信端末10は、メモリに保存されている静止画データをクラウドサーバ30にアップロードする(ステップS2-14,S2-15)。これにより、送信端末10がメモリから静止画データを削除した場合でも、受信端末20は、クラウドサーバ30から静止画データをダウンロードできるようになる。
【0074】
なお、
図7と
図8に示した具体例は、択一的なものではなく、送信端末10から受信端末20に動画データ及び静止画データを送信する処理として両方採用することができる。つまり、送信端末10は、
図7の具体例に従って定期的に静止画データを生成するとともに、
図8の具体例に従って所定のトリガー条件を満たしたときに静止画データを生成することができる。一方で、
図7と
図8に示した具体例のどちらかを採用することも当然に可能である。
【0075】
以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。
【符号の説明】
【0076】
10…送信端末 11…制御部
11a…バッファメモリ 11b…動画用の画像処理エンジン
11c…動画用エンコーダ 11d…静止画用の画像処理エンジン
11e…静止画用エンコーダ 11f…メモリ
12…記憶部 13…通信部
14…集音部 15…撮像部
16…ジェスチャセンサ 17…センサ類
18…放音部 19…位置情報取得部
20…受信端末 21…制御部
22…記憶部 23…通信部
24…表示部 25…操作部
26…集音部 27…放音部
30…クラウドサーバ 31…サーバ装置
100…システム
【手続補正書】
【提出日】2024-06-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像信号を生成するイメージセンサと、
動画用のエンコードにより前記画像信号を動画データに変換する動画用エンコーダと、
メモリと、
静止画用のエンコードにより前記画像信号を静止画データに変換して、前記静止画データを前記動画データに対応付けて前記メモリに保存する静止画用エンコーダを備える
ウェアラブルデバイスである情報処理端末。
【請求項2】
前記静止画用エンコーダは、前記静止画データに前記動画データと経時的に対応付けるための同期データを付与して前記メモリに保存する
請求項1に記載の情報処理端末。
【請求項3】
通信回線を介して受信端末と通信可能な通信部と、
前記受信端末に前記動画データを送信している間に、前記受信端末から前記動画データ内の特定のタイミングの指定を含む静止画要求信号を受けた場合に、前記メモリから前記タイミングに対応する静止画データを読み出して前記受信端末に送信する処理を実行する制御部を備える
請求項1に記載の情報処理端末。
【請求項4】
前記通信部は、さらに、サーバ装置と通信可能であり、
前記制御部は、さらに、前記受信端末に前記動画データの送信が終了した後に、前記メモリに保存されている前記静止画データを前記動画データとともに前記サーバ装置にアップロードする処理を実行する
請求項3に記載の情報処理端末。
【請求項5】
前記動画データを解析し、前記動画データ内に特定の画像が含まれていることを検知したときに前記静止画用エンコーダを駆動して、前記画像信号を静止画データに変換して前記静止画データを前記メモリに保存するように前記静止画用エンコーダを制御する制御部を備える
請求項1に記載の情報処理端末。
【請求項6】
ジェスチャセンサ、加速度センサ、ジャイロセンサ、地磁気センサ、及び生体センサのうちの一つ以上のセンサと、
前記センサが特定の信号を検知したときに、前記静止画用エンコーダを駆動して、前記画像信号を静止画データに変換して前記静止画データを前記メモリに保存するように前記静止画用エンコーダを制御する制御部を備える
請求項1に記載の情報処理装置。
【請求項7】
前記情報処理装置は、現場の作業員が装着するためのウェアラブルデバイスである
請求項1に記載の情報処理装置。
【請求項8】
前記画像信号は、前記作業員が現場作業を撮影した画像の信号である
請求項7に記載の情報処理装置。
【請求項9】
前記情報処理装置は、首掛け型のウェアラブルデバイスである
請求項1に記載の情報処理装置。
【請求項10】
請求項3に記載の情報処理装置と、
前記情報処理装置から前記動画データ及び静止画データを受信可能に構成された前記受信端末を含む
画像送信システム。
【請求項11】
携帯情報端末を、請求項1に記載の情報処理端末として機能させるためのプログラム。