(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-06-21
(54)【発明の名称】発表者の発表内容を視聴覚的に追跡するシステムと装置と方法
(51)【国際特許分類】
H04N 7/15 20060101AFI20230614BHJP
【FI】
H04N7/15
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2022568507
(86)(22)【出願日】2021-05-12
(85)【翻訳文提出日】2022-12-13
(86)【国際出願番号】 ES2021070337
(87)【国際公開番号】W WO2021234199
(87)【国際公開日】2021-11-25
(32)【優先日】2020-05-17
(33)【優先権主張国・地域又は機関】ES
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】522436721
【氏名又は名称】ベミフェガ,エスエル
(74)【代理人】
【識別番号】100081053
【氏名又は名称】三俣 弘文
(72)【発明者】
【氏名】サンチェス カイザー,アントニオ
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA10
5C164PA44
5C164UB08S
5C164VA01P
5C164VA33P
(57)【要約】
【課題】発表者の発表内容を視聴覚的に追跡するシステムを提供すること。
【解決手段】本発明のシステムは、発表者の第1電子装置1とユーザーの第2電子装置2と発表内容の音声情報を取得するマイク3とモジュール5と発表者追尾手段と音声認識装置を有する。モジュール5は、情報ボード28の発表内容の情報を取得する固定カメラ8と発表者の位置情報を取得する可動カメラ9とコンピュータ10と第1電子装置と第2電子装置2との間のLANを提供するルーター6と電源とを有する。第2のソフトウエアは、第2電子装置2を介して、第1電子装置1内の情報と文字表示を含む発表内容の音声情報と情報ボード28の情報と発表者追尾情報を表す。
【選択図】
図1
【特許請求の範囲】
【請求項1】
発表者の発表内容を視聴覚的に追跡するシステムにおいて、
(A)発表者の第1電子装置(1)と、
前記第1電子装置(1)は前記第1電子装置(1)内の情報を得るよう構成された第1のソフトウエアを搭載し、
(B)ユーザーの第2電子装置(2)と、
前記第2電子装置(2)は第2のソフトウエアを搭載し、
(C)発表内容の音声情報を取得するマイク(3)と、
(D)持ち運び可能なモジュール(5)と、
前記モジュール(5)は、
(D1)情報表示用ボード(28)に表される発表会場の情報を取得する固定カメラ(8)と、
(D2)発表者の位置情報を連続的に取得する可動カメラ(9)と、
(D3)コンピュータ(10)と、
(D4)前記第1電子装置(1)と第2電子装置(2)との間の近距離通信網(以下「LAN」と称する)を提供するルーター(6)と、
(D5)電源とを有し、
(E)発表者追尾手段と、
前記発表者追尾手段は、前記可動カメラ(9)により得られた発表者の位置情報に基づいて、発表者追尾情報を獲得し、
(F)音声認識装置と、
前記音声認識装置は、前記第1電子装置(1)又はモジュール(5)に格納され、前記マイク(3)により得られた音声情報を文字表示に変換し、
前記第1電子装置(1)又はコンピュータ(10)は、前記文字表示を前記第2電子装置(2)にLANを介して送信し、
を有し、
前記固定カメラ(8)と可動カメラ(9)とコンピュータ(10)は、動作可能に前記ルーター(6)に接続され、
前記第2のソフトウエアは、前記第2電子装置(2)を介して、前記第1電子装置(1)内の情報と、前記文字表示を含む発表会場の音声情報と、前記情報表示用ボード(28)を介して示される情報と、前記発表者追尾情報を表す
ことを特徴とする発表者の発表内容を視聴覚的に追跡するシステム。
【請求項2】
前記発表者追尾手段(E)は人工知能アルゴリズムを含む
ことを特徴とする請求項1記載のシステム。
【請求項3】
前記発表者が携帯する認識機構をさらに有し、前記認識機構は、色、ロゴ、QRコードの内の1つを認識する
ことを特徴とする請求項2記載のシステム。
【請求項4】
前記発表者追尾手段(E)は、
前記発表者により携帯される赤外線検知端末と前記コンピュータ(10)に接続される赤外線検出カメラとを有する、又は
前記コンピュータ(10)又は第1電子装置(1)で実行されるオプティカルフロー追跡アルゴリズムを有する
ことを特徴とする請求項1記載のシステム。
【請求項5】
前記人工知能アルゴリズムは、前記コンピュータ(10)又は第1電子装置(1)で実行される
ことを特徴とする請求項2記載のシステム。
【請求項6】
リモートコンピュータ装置を更に含み、前記リモートコンピュータ装置は、クラウドコンピューティングシステム内に配置され、前記第1電子装置(1)と第2電子装置(2)とコンピュータ(10)に動作可能に接続され、
前記人工知能アルゴリズムは前記リモートコンピュータ装置で実行される
ことを特徴とする請求項2記載のシステム。
【請求項7】
前記モジュール(5)は追加の固定カメラ(8.1)を更に有し、前記固定カメラ(8.1)は前記ルーター(6)と電源(13)に接続される
ことを特徴とする請求項1記載のシステム。
【請求項8】
前記マイク(3)は発表者が携帯する
ことを特徴とする請求項1記載のシステム。
【請求項9】
音声受信機を更に有し、前記音声受信機は、前記コンピュータ(10)又は第1電子装置(1)に接続され、発表者のいる部屋内の他の音を捕らえる
ことを特徴とする請求項8記載のシステム。
【請求項10】
前記モジュール(5)は画像捕獲装置を更に有し、前記画像捕獲装置は、前記モジュール(5)と第1電子装置(1)と第2電子装置(2)に向けた外部画像信号を受領する
ことを特徴とする請求項1記載のシステム。
【請求項11】
発表者の発表内容を視聴覚的に追跡する携帯装置(5)において、
前記携帯装置(5)は、
(A)情報表示用ボード(28)に表される発表内容の情報を取得する固定カメラ(8)と、
(B)発表者の位置情報を連続的に取得する可動カメラ(9)と、
(C)発表者追尾手段と、
前記発表者追尾手段は、前記可動カメラ(9)により得られた発表者の位置情報に基づいて発表者追尾情報を獲得し、
(D)前記発表の場でのLANを提供するルーター(6)と、
(E)コンピュータ(10)と、
(F)前記発表の場での音声情報を文字表示に変換する音声認識装置と、
(G)電源とを有し、
前記コンピュータ(10)と固定カメラ(8)と可動カメラ(9)は、前記ルーター(6)に動作可能に接続され、
前記コンピュータ(10)は、
第1電子装置(1)から来る発表者の情報と、文字表示を含む発表の音声情報と、情報表示用ボード(28)に現れた情報と、発表者追尾情報を受信し、
前記の受信した発表者追尾情報をユーザの第2電子装置(2)に送信する
ことを特徴とする発表者の発表内容を視聴覚的に追跡する携帯装置。
【請求項12】
前記発表者追尾手段は前記コンピュータ(10)で実行される人工知能アルゴリズムを含む
ことを特徴とする請求項11記載の携帯装置。
【請求項13】
発表者の発表内容を視聴覚的に追跡する方法において、
(A)携帯装置であるモジュール(5)を用意するステップと、
前記モジュール(5)は、固定カメラ(8)と可動カメラ(9)とコンピュータ(10)とルーター(6)と電源を有し、
前記固定カメラ(8)と可動カメラ(9)とコンピュータ(10)は、前記ルーター(6)に接続されており、
(B)前記ルーター(6)が、発表者の第1電子装置(1)とユーザの第2電子装置(2)との間に、LANを提供するステップと、
(C)前記第1電子装置(1)内にある情報を、前記第1電子装置(1)内で実行される第1のソフトウエアを用いて、得るステップと、
(D)発表内容の音声情報をマイク(3)で得るステップと、
(E)前記発表内容の音声情報を文字表示に音声認識装置により変換するステップと、
(F)情報表示用ボード(28)に表される発表内容の情報を前記固定カメラ(8)を用いて得るステップと、
(G)発表者の位置の情報を前記可動カメラ(9)を用いて連続して得るステップと、
(H)前記発表者追尾手段が、前記ステップ(G)で得られた発表者の位置の情報に基づいて、発表者追尾情報を得るステップと、
(I)前記第2電子装置(2)内の第2のソフトウエアが、前記第1電子装置(1)内の情報と文字表示を含む発表内容の音声情報と前記情報表示用ボード(28)に表された情報と前記発表者追尾情報を表すステップと
を有する
ことを特徴とする発表者の発表内容を視聴覚的に追跡する方法。
【請求項14】
前記発表者追尾手段は人工知能アルゴリズムであり、
前記人工知能アルゴリズムは、前記コンピュータ(10)、前記第1電子装置(1)、クラウドコンピューティングシステムのリモートコンピュータのいずれかで実行される
ことを特徴とする請求項13記載の方法。
【請求項15】
前記第2のソフトウエアは、前記コンピュータ(10)又は第1電子装置(1)のいずれかに現れる全ての情報を、LANを介して、受信し、
前記第1電子装置(1)内の情報と発表内容の音声情報と前記情報表示用ボード(28)の情報と前記発表者追尾情報は、インターネットを介して、発表会に不参加のユーザの電子機器に送られる
ことを特徴とする請求項13記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチメディア情報の捕獲とその提供を改善するシステムと方法に関し、特に、発表者による発表内容を視聴覚的に追跡するシステムと装置と方法に関する。本発明により、発表内容の追跡特に難視聴者にとっての追跡を改善できる。
【背景技術】
【0002】
本明細書において、「発表会」とは、発表会のみならず、プレゼンテーション、授業、会議、議会、イベント、説明会、裁判所での傍聴等を意味する。「発表者」とは、「発表会」での発表者のみならず、場所に応じてプレゼンテーター、教師、裁判官, 弁士等を意味する。今日大部分の教育コンテンツは、対話、発表会、会議等を通して与えられている。これらの発表会は、益々その数を増し多くのユーザに興味を持たれ、視聴者が特定の分野に関して望む情報を得られるようになった。従来の教室やその活動と共に、視聴者は教育の場に対する欲望を益々高めたが、克服すべき問題点もある。この問題点とは、教室での活動の正確な追跡/追従をできるだけ普遍的に行う機能に関してである。即ちできるだけ沢山の人々が置かれている状況/環境に適合する能力である。これらの問題点を解決することと現在の困難さを克服することは、今日社会の義務であり必要とされていることであり、誰もが情報に等しくアクセスできるようになることである。
【0003】
発表会、会議に参加する視聴者の観点からすると、視聴者は、時に発表者に会って直に話を聴く、発表者の身振り手振り(ボディランゲージ)を通して重要なことを見聞きする、或いは発表者がいかに情報を発信しているかを知りたいこともある。視聴者は、発表者が展示又はコメントを助けるのに使用する黒板を見なければならないこともある。視聴者は、発表内容を投影した画像、ビデオ、その他の情報を、発表者のパソコン或いは会場のプロジェクタを通して、見たいこともある。これらの情報の組み合わせは、発表/講義内容に正しく追従/理解する為に、どの人もアクセスするのに必要なものである。
【0004】
現在の装置では、発表会や会議に完全に追従するのに必要とされる全ての情報を組み合わせて再生することはできない。これらの装置の主な問題点は、複数の情報を同時に送信するのが難しい点である。情報の一例は、黒板の画像、発表内容の画像、動き回る発表者の画像、発表者のリアルタイム(遅延時間が最大0.5秒)での音声である。更に、これらは複数の困難に直面している。その困難の一例は、発表者の動きの追跡/捕獲、複数の参加者がいる状況での発表者の動きの捕獲である。この場合、この装置は、発表者が黒板の方を向き参加者に背を向けている状況、発表者が黒板に何か書いている状況、瞬時に動く状況(より一般的な状況である)には、対応できない。
【0005】
別の問題点は、現在の装置は正確な追従ができないので、シーンの黒板全体(時に数mにもなる)を捕らえることができる程の非常に幅広いショットを必要とする。この状況において、現在の装置の限界は、任意の部分(例:黒板に書かれた文字)を拡大して見るためにズーミングが不可能なことである。これは画像の詳細を見るのに必要な画質を維持できないからである。
【0006】
多くの場合、これらの装置は、信号を生成し処理する信号生成処理装置を必要とする。この信号生成処理装置は、必要とされる全ての情報を、教室/発表会場に関する情報を得るに適した状態で提供することができる。しかし時にこれらの装置は専門の作業員が会場に設置しなければならない。これらの装置は携帯できないからである。
【0007】
これらの装置は内蔵可能なシステムではない。その理由は、装置のある構成部品は障害者のみが使用する大型な装置であり、別の構成部品は一人の人しかも障害者のみが制御するものだからである。
【0008】
近年、スペインの大学で様々な研究が仮想の技術的環境へのアクセスの可能性を研究解析している。この研究解析の結論として判明したことは、合法的ではあるが、スペインの大学のグループの現実の環境(教授が黒板で情報を従来方法で与える)と仮想の技術的環境(電子フォーマットでデジタルのプロットフォームや資料を提供する)の両方で提供される情報へのアクセスは、かなり不十分であり、視覚障害者がその様な環境にアクセスする技術的な補助手段は極めて限られていることである。
【0009】
他の教育環境(例:小学校、中学校、職業訓練校)でも適応の必要性は同じであるが、解析しても状況は極めて似ている。従来の教室では、難視聴者が健常者と同じ条件で、知識や情報に容易にアクセスできるようにする手段は極めて限られいる。
【0010】
様々な装置が、あらゆる種類の教育活動のコンテンツにアクセスを提供しコンテンツに追従する為に教育環境で今日使用されているが、これらは全ていくつかの問題点がある。
【0011】
現在市販されているシステムの1つはAblecenter AC-03である。視覚障害者専用のシステムは部屋の天井に配置される高品質の360°カメラを有する。このカメラは、操作者又は購入者が操作可能であり、部屋のあらゆる場所(例:黒板、プロジェクタの画像)に焦点を手動で合わせることができる。このシステムはAndroidTM, WindowsTM, IOSTM のプラットフォームで動作可能であり、OCRテキスト認証システムを内蔵し、部屋のあらゆる点にズーミング可能な機能を有している。しかしこのシステムは以下の欠点がある。
第1に、このシステムは、視覚障害者専用であり、発表者のしゃべりの音声信号を発することはなく、音声認識機能も有しておらず、聴覚障害者は使用できない点。
第2に、このシステムは、部屋のあらゆる点に目標を定める(焦点を合わせる)ことができるが、これは手動のみで可能であり、自由に動き回る発表者を追尾したり、発表者のボディランゲージを認識することはできない点。
第3に、このシステムは、専門作業者がこのシステムのカメラを使用が予定されている部屋の天井に取り付ける必要があり、携帯用ではない点。
第4に、このシステムのカメラは、一人のユーザだけが制御でき、部屋にいる複数の人々が焦点を合わせるべき画像を選択できない点。
【0012】
現在のシステムはMagnilink Sudent Addition である。この操作はAblecenter のそれに類似するが、唯一の異なる点は、カメラは天井に配置されず、PCの手段で制御できない点である。しかし、カメラは、視覚障害の机上におくことができ、それを直接扱うユーザにより制御される。カメラを配置し手で焦点を合わせることができる。従ってこのシステムは、上記のそれと同じ問題点がある。
【0013】
同様に追尾機能を有するカメラ(例:Lumens VC-TR1 、AVer PTC500S)もある。これは、制御された環境で発表者の追尾が可能であるが、多数の人が互いに行きかう複雑な環境下で動作することは難しい。これらの装置は、正確な部分情報のみを収集することはできない。それゆえに、上記の必要性をカバーできない。同時に、多数の人が互いに行きかう複雑な環境下で追尾機能を実行することは難しい。
【0014】
【特許文献1】US8831505B1
【特許文献2】WO2012/088443A1
【特許文献3】US2004/002049A1特許文献1-3は従来のシステムを開示する。この従来のシステムは、カメラとマイクで教育的な話/発表会の内容を記録し放送する。このカメラとマイクは、送信されるべき情報を視聴覚的に捕獲する。信号は部屋内のLANで制御/生成サーバーに送られる。特許文献1は、発表者の追尾を無線マイクと赤外線送信機を組み込んだ携帯装置で行うことを開示する。他の特許文献2,3は追尾システムを開示していない。これらの装置にはいくつかの問題点がある。例えば、制御/生成サーバーが、音声信号と画像信号を発表者のPCから来る信号とともに、記録し、編集し、組み合わせる必要がある点。捕獲した情報の提供に際し十分に小さい遅延時間を達成することができない点。あるいは赤外線のみに基づく点、発表者追尾システムを具備していない点。複数の人々がいる状態では偏向光で回りを常時高い信頼性では追尾できない点である。従来のシステムは、アクセス検知情報を汎用性のあるアクセス検知システムに適合して変換するアクセス検知ツールを内臓していない点である。
【0015】
その為、イン・シチュ(発表の場あるいは教室)で発表者の正確な追尾を可能にし、全ての情報を転送する新たなシステムと方法と装置を提供する必要がある。情報の一例として、発表者が喋った情報、動作で示した情報、黒板に書いた情報、プロジェクタのスクリーン情報、発表者の高速PC上の情報があるが、これらの情報は教育的活動に提供されるアクセスを改善するためのものである。
【発明の概要】
【発明が解決しようとする課題】
【0016】
本発明の目的は、教育活動のコンテンツ(内容)を、完全に、正確に、どこからでもアクセス可能に、かつ普遍的に、追跡するシステムと装置と方法を提供することである。教育活動の一例は、情報発表活動、発表会、授業、会議、大会議、イベント、セミナー等を指す。以下本明細書において「発表会」と総称する。前記コンテンツを「発表内容」とも称する。
【課題を解決するための手段】
【0017】
従来技術の問題点を解決するために、本発明は、その第1態様において、発表者の発表内容を視聴覚的に追跡するのを改善するシステムを提供する。このシステムは、発表者の第1電子装置(第1電子装置内の情報を得るよう構成された第1のソフトウエアを搭載する)と、ユーザーの第2電子装置(第2のソフトウエアを搭載する)と、発表内容の音声情報を取得するマイクと、モジュールと、電源とを有する。
前記モジュールは、情報表示用ボードに表される発表内容の情報を取得する固定カメラと、発表者の位置情報を連続的に取得する可動カメラと、単一基板コンピュータ(以下単に「コンピュータ」と称する)と、第1電子装置と第2電子装置との間の近距離通信網(以下「LAN」とも称する)を提供するルーターとを有する。
前記情報表示用ボードの一例は、黒板、フリップ・チャート、その他発表者が発表内容を表す手段である。前記固定カメラと可動カメラと単一基板コンピュータ(以下単に「コンピュータ」と称する)は、動作可能に前記ルーターに接続されている。
【0018】
本発明のシステムは、発表者の位置を常時知ることができる発表者追尾手段(可動カメラで得られた発表者の位置情報に基づいて発表者追尾情報を獲得する)を有する。
前記第2のソフトウエアは、第2電子装置を介して、第1電子装置内の情報と、発表内容の音声情報と、情報表示用ボードを介して示される情報と、発表者追尾情報を表す。
【0019】
一実施例においては、前記発表者追尾手段は人工知能アルゴリズムを含む。この人工知能アルゴリズムは、一例として、強化済学習アルゴリズム(reinforced learning algorithm)、改修済学習アルゴリズム(supervised learning algorithm)、未改修学習アルゴリズム(unsupervised learning algorithm)を含む。本発明のシステムにおいては、人工知能アルゴリズムは、コンピュータ又は第1電子装置で実行される。他の実施例では、本発明のシステムは、リモートコンピュータを含み、このリモートコンピュータは、クラウドコンピューティングシステム(以下単に「クラウド」と称する)内にあり、第1電子装置と第2電子装置とコンピュータに動作可能に接続される。この場合、人工知能アルゴリズムはリモートコンピュータ装置で実行されうる。
【0020】
一実施例においては、本発明のシステムは認識機構をさらに有する。認識機構は、発表者が携帯するバンドである。バンドの一例は、着色、ロゴ、QRコードの内の少なくとも1つを付けたバンドである。
【0021】
一実施例においては、発表者追尾手段は赤外線検知端末と赤外線検出カメラと有する。赤外線検知端末は、発表者が携帯し、赤外線検出カメラはコンピュータに接続されている。
【0022】
一実施例においては、発表者追尾手段は、オプティカルフロー追跡アルゴリズムを有する。このアルゴリズムはコンピュータ又は第1電子装置で実行される
【0023】
一実施例においては、本発明のシステムにおいては、モジュールは追加の固定カメラを更に有する。固定カメラはルーターと電源に接続される。
【0024】
マイクは発表者が携帯する。マイクは発表者の音声を捉えそれを電気信号に変換する。この電気信号はコンピュータ又は第1電子装置が受信する。この信号はどのような信号形式でもよい。その一例はMP3、Windows Media Audio, RIFF, FLVである。
【0025】
一実施例においては、本発明のシステムは音声受信機を更に有する。音声受信機はコンピュータ又は第1電子装置内に配置され、発表が行われている部屋内の特定の他の音を捕らえる。
【0026】
一実施例においては、モジュールは画像捕獲装置を更に有する。画像捕獲装置は、モジュールと第1電子装置と第2電子装置に向けた外部画像信号を受領する。
【0027】
一実施例においては、本発明のシステムは音声認識装置を有する、音声認識装置は、発表の場での音声情報(マイクが捉えた)を文字表示に変換する。音声認識装置は、コンピュータ又は第1電子装置内に配置されるあるいは実行される。この場合、コンピュータ又は第1電子装置は、文字表示を第2電子装置にLANを介して送信する。
【0028】
本発明は、その第2態様において、発表者の発表内容を視聴覚的に追跡する装置を提案する。この装置は、情報表示用ボードに表される発表内容の情報を取得する固定カメラと、発表者の位置情報を連続的に取得する可動カメラと、発表者追尾手段(可動カメラにより得られた発表者の位置情報に基づいて発表者追尾情報を獲得する)と、発表の場でのLANを提供するルーターと、コンピュータと、発表の場での音声情報を文字表示に変換する音声認識装置と、電源とを有する。
コンピュータと固定カメラと可動カメラはルーターに動作可能に接続される。コンピュータは、第1電子装置から来る発表者の情報と、文字表示を含む発表の音声情報と、情報表示用ボードに現れた情報と、発表者追尾情報を受信し、この受信した情報をユーザの第2電子装置に送信する。
【0029】
一実施例においては、発表者追尾手段はコンピュータで実行される人工知能アルゴリズムを含む。
【0030】
本発明は、第3態様において、発表者の発表内容を視聴覚的に追跡する方法を提供する。本発明の方法は、以下のステップ(A)-(I)を含む。
(A)モジュールを用意するステップと、
前記モジュールは、固定カメラと可動カメラとコンピュータとルーターと電源を有する。前記固定カメラと可動カメラとコンピュータは、ルーターに接続されている。
(B)前記ルーターが、発表者の第1電子装置とユーザの第2電子装置との間に、LANを提供するステップと、
(C)前記第1電子装置内にある情報を、前記第1電子装置内で実行される第1のソフトウエアを用いて得るステップと、
(D)発表内容の音声情報をマイクで得るステップと、
(E)前記発表内容の音声情報を文字表示に音声認識装置により変換するステップと、
(F)情報表示用ボードに表される発表内容の情報を固定カメラを用いて得るステップと、
(G)発表者の位置の情報を前記可動カメラを用いて連続して得るステップと、
(H)発表者追尾手段が、前記ステップ(G)で得られた発表者の位置情報に基づいて、前記発表者追尾情報を得るステップと、
(I)前記第2電子装置内の第2のソフトウエアが、第1電子装置内の情報と、発表内容の音声情報と、前記情報表示用ボードに表された情報と、発表者追尾情報を表すステップ。
【0031】
一実施例においては、発表者追尾手段は人工知能アルゴリズムを含む。
【0032】
一実施例においては、前記人工知能アルゴリズムは、コンピュータ、第1電子装置、クラウド内のリモートコンピュータの内のいずれかで実行される。
【0033】
一実施例においては、本発明の方法は発表者追尾情報を得るステップを有する。発表者の追尾は、着色マーキング、ロゴ、文字、QRコードの内の1つに基づいて行われる。これらはいずれも発表者が携帯するものである。
【0034】
一実施例においては、第2のソフトウエアは、コンピュータ又は第1電子装置のいずれかに現れる全ての情報を、LANを介して送受信する。LANはUDP/マルチキャスト・通信プロトコルで行われる。
【0035】
一実施例においては、第1電子装置内の情報と、発表内容の音声情報と、情報表示用ボードの情報と、発表者追尾情報等は、インターネットを介して、発表会に不参加のユーザの電子機器に送られる。それらの情報は、リアルタイム・メッセージング・プロトコル(Real-Time Messaging Protocol:RTMP)を介して送受信される。
【0036】
その為、本発明により発表内容の視聴覚による追跡(理解)が大幅に改善される。この解決法によりLANによる様々な信号の発信が可能になる。会場内を動き回る発表者のリアルタイムの追尾と同時に、以下の信号が発信される。発表者の画像、ボード上の画像(ボードの上に発表者又は誰かがなにかを書いた場合)、第1電子装置により発信された発表内容の信号、プロジェクタによりボード(スクリーン)上に投射される情報、発表者の音声信号等である。第1電子装置と第2電子装置の一例は、PC、ラップトップ、タブレット、電子タブレット、スマートフォーン、携帯電話等である。
【0037】
第2電子装置は、LANの通信域内にあり、上記の信号をほぼ遅延無しに受領し、それを所定のユーザ(聴取者、生徒)に送信できる。その為、この解決法により、ユーザーは、発表内容に、自身の電子機器を介して会場内のどの場所でも更に会場以外の場所でも、ストリーミングにより、追従することができるようになる。
【0038】
本発明は、難視覚者も難聴覚者(以下「視聴覚障害者」と総称する)も、現実に進行中の発表内容の視覚情報と聴覚情報にアクセスできるように、設計される。その結果本発明により、大勢の参加者がいる大会場での発表内容、明瞭には視聴できない設備の悪い会場での発表内容、あらゆるタイプの聴衆には適していない部屋での発表内容に容易にアクセスできるようになる。
【0039】
全ての視聴者は、本発明のシステムが発信した信号に、第2のソフトウエア(例、コンピュータ・アプリ)の手段で、アクセスできる。本発明のシステムが同時にサービスできるユーザ(生徒)の数は、基本的構成で変更可能である。
【0040】
本発明の装置(本発明のモジュール)は、軽く(約2kg)小型で持ち運び可能である。本発明の装置は、例えば、発表者/教授/発言者が出向く様々な部屋/場所での使用に大きな利点を与える。この装置は、様々な部屋、会場、状態で、素早くかつ簡単な立ち上げが可能であり、モジュールを、メインのソケットやアウトレットに接続するだけで、使用可能な状態にできる。特に視聴覚障害者が参加している場合、見づらい部屋、オンラインによる記録や送受信の場合に、容易に本発明の装置を適用できる。
【0041】
一実施例においては、第1電子装置上を走る全ての情報を確保できることに加えて、第1電子装置の第1ソフトウエア(即ちマスターソフトウエア)により、更に残りの信号の発信も可能となる。第2電子装置の第2ソフトウエアにより、そのような信号の受信が可能となる。追尾用ソフトウエアは、コンピュータ又はクラウドに搭載されるが、全ての信号の発信を可能にし、更に発表者の追尾も可能にする。
【0042】
一実施例においては、第1ソフトウエアは様々なプラットフォーム(PC, IOSTM,AndroidTM)で動作可能である。第1ソフトウエアによりLANでの発信が可能となる。これは、3種類の画像信号と音声信号のストリーミングにより行われ、完全なセッションの記録と/又は画像と音声の別々の記録が可能となる。3種類の画像信号とは、発表者の画像と、ボードの画像と、発表者の第1電子機器のスクリーンの画像である。ストリーミングは無線インターネット接続が得られる場合に限られる。
【0043】
第2ソフトウエアはPC, IOSTM,AndroidTMに搭載されるよう開発される。第2ソフトウエアは、電子機器が3種類の画像信号と音声信号が受信できるようにする。第2ソフトウエアにおいては、これらの信号は要求に従って変更可能であり、一対(複数)のディスプレイで又は1つのディスプレイで見ることができ、画面の変化も0.5秒以下の遅延である。ズーミングはあらゆる画像で可能であり、コントラスト(白上の黒に又はその逆)も変えることができる。更に可能なのは、あらゆる信号を停止又は再開、スクリーン・ショット(静止画像)の取得、それをアーカイブスへの記録、記録された画像と音声信号の再生である。これらは、発表者の第1電子装置のソフトウエアで完全なセッションで行われ、あたかも会場にいるかのように見える。
【0044】
かくして、本発明のシステムは、単純かつ実用的で、モジュールが過熱することなく安価で効率的な操作が可能となる。これにより、多数のユーザーが本発明のシステムに同時に接続できる。これはスムーズに中断することなく行われ、高い画像品質で発表内容全体をカバーすることができる。
【図面の簡単な説明】
【0045】
【
図1】本発明の一実施例の発表者の発表内容を視聴覚的に追跡するシステムを示す。
【
図2】本発明の一実施例のシステムを改善する為に、本発明のシステムの各要素とモジュールの間の接続関係を示す図。
【
図3A】本発明の装置又はモジュールの他の実施例の正面図。
【
図3C】本発明の装置又はモジュールの更に別の実施例の正面図。
【発明を実施するための形態】
【0046】
本発明は、発表者の発表(視覚的、聴覚的、文字表示等による)内容を第三者が容易に追跡できるようなシステムと装置と方法を提案する。特に、目又は耳の不自由な人(以下「視聴覚障害者」と称する)が健常者と同条件で発表内容の知見や情報に接することができるようにするシステムと装置と方法を提案する。
【0047】
図1に本発明のシステムの実施例を示す。このシステムにより、発表内容の視覚的/聴覚的情報を取得し、この得られた情報を第2電子装置2に、近距離無線通信網(以下「LAN」と称する)を介してリアルタイム(0.5秒以下遅延時間)で送信する。この為この実施例によれば、このシステムは、発表者の第1電子装置1、ユーザ即ち発表会の出席者(以下「ユーザ」と総称する)の第2電子装置2,マイク3、モジュール5を有する。マイク3は音声を電気信号(アナログ又はデジタルを問わない)に変換する装置である。
【0048】
この実施例においては、モジュール5は、固定カメラ8、可動カメラ9、単一基板コンピュータ(以下単に「コンピュータ」と称する)10、ルーター6、電源を有する。電源の一例は12Vの電源である。固定カメラ8、可動カメラ9の一例は、デジタル/電子カメラ、ビデオ・カメラ、2Dカメラ、3Dカメラであり、アナログ形式又はデジタル形式で写す。固定カメラ8の視野は、表示用ボード(以下単に「ボード」と称する)28に焦点を合わせ、そこに表示された情報を読み取る。可動カメラ9は、発表者の位置情報を連続して取得する。可動カメラ9の回転は可動カメラ9を動かす手段21で行われる(
図3A-3C)。可動カメラ9の視野は発表者の位置の方向に向けられる。その結果可動カメラ9は常に発表者に焦点が合っている。ルーター6は、発表者の第1電子装置1とユーザの第2電子装置2との間にLANを提供する。
【0049】
図1に示すように、モジュール5は発表が行われる部屋内に配置される。これにより、モジュール5のカメラ・システムはボード28、投影領域、発表者、第1電子装置1から離れた場所に焦点を合わせる。第1電子装置1の一例は、PC,ラップトップ、タブレット、携帯電話等であり、発表者が情報を開示する手段のいずれでもよい。接続はLANにより行われる。モジュール5は、固定配置されているためLANに接続されるだけで動作を開始する。
【0050】
同様に、このシステムは発表者追尾手段を有する。この発表者追尾手段は、可動カメラ9で得られた発表者の位置情報に基づいて発表者追尾情報を得る。一実施例においては、発表者追尾手段は人工知能アルゴリズムを有する。一実施例では、この人工知能アルゴリズムは発表者の分割された画像のテキスチャを検出する。他の実施例では、発表者追尾手段は人工知能アルゴリズムと認証機構/要素との合成システムである。認証機構/要素の一例は、カラー・マーキング、ロゴ、QRコードを付したバンドである。発表者追尾手段を用いて追尾の失敗を阻止できる。追尾の失敗の原因の一例は、発表者がカメラに背を向けた時、薄暗い状況の時である。
【0051】
他の実施例では、発表者追尾手段は、コンピュータ10に接続された赤外線カメラ7と、発表者が携帯する赤外線検知端末とを有する。
【0052】
更に
図1において、発表者の第1電子装置1とユーザの第2電子装置2の両方は、それぞれソフトウエア(又は通信管理手段)を有し所定の情報を得る。前記の所定の情報は、第1電子装置1で走る情報、第2電子装置2で走る情報、マイク3で得られた音声情報、ボード28を介して表示された情報、発表者追尾情報である。
第1電子装置1内で実行されるソフトウエアは第1ソフトウエアと称し、所定の情報を受領しそれを表示する。第2電子装置2内で実行されるソフトウエアは第2ソフトウエアと称し、上記の所定の情報に加えて第1電子装置1で走る情報を得る。
同様に、コンピュータ10はソフトウエアを有する。このソフトウエアは、カメラ、マイク3、発表者追尾手段から得られた信号/情報の受領を制御し、第2電子装置2への信号/情報の送信を制御する。このカメラの一例は、固定カメラ8、可動のカメラ9、外部カメラ(もしあれば)である。
【0053】
それ故に、本発明のシステムが記録し送信する信号は、
(1)発表者を連続的に追尾しながらの発表者の第1ショットとリアルタイム画像。
これにより、発表者の音声を聞き、身振り手振りを感受する。
(2)発表者が使用するボード28の画像。
これにより、発表者がボード28に書いた/描いたものを見ることができる。
(3)第1電子装置1に示された発表内容、ビデオ、発表内容で提起された問題点の画像。
(4)教授の語りのリアルタイムの音声信号。
一実施例では、本発明のシステムは、更に、
(5)モジュール5内で実行される画像捕獲要素による他のカメラによる画像の獲得も行う。
【0054】
ユーザの第2電子装置2内で実行される第2ソフトウエアは、特にUDP/マルチキャスト通信プロトコルにより、それに対応する通信機器との通信が確保される。このプロトコルは、極多数のユーザの間の接続性を改善できるからである。
【0055】
上記のLANに加えて、信号はオンライン(例:インターネット、例えばリアルタイムメッセージング・プロトコルReal Tome Messaging Protocol)で、発表会に不参加の他のユーザにも送信できる。
【0056】
特にLANを介しての画像信号の送信はH.264画像圧縮形式を利用する。この圧縮形式はフィルター無しで情報の小幅な喪失を伴うが、圧縮サイズを減らしながら最終画像の品質を維持して伝送速度を上げることができる。他の画像圧縮形式も使用可能である。
【0057】
それ故に、モジュール5はインターネットを必要とせずにLANで動作する。モジュール5が、インターネットを介して信号を発表会に不参加の者に送信しなけらばならない場合は、モジュール5は通信装置又は通信モジュール(4G、5Gカード)を有する。発表会場がインターネット・サービスを有さない場合又はそこでの電波が弱い場合は、モジュール5はこのシステムにインターネット・サービスを提供できる。
【0058】
一実施例ではモジュール5は更に追加の固定カメラ8.1を有する(
図2)。追加の固定カメラ8.1はルーター6と電源13に接続されている。追加の固定カメラ8.1は固定カメラ8を補助する。追加の固定カメラ8.1と固定カメラ8は、それらが発表会場の特定の場所を全てカバーするよう配置されている。追加の固定カメラ8.1により、ボード28の全体を高品質かつ高鮮明に撮影できる。追加の固定カメラ8.1はボード28又は投射領域を含む発表会場全域に焦点を当てることができる。更に発表会場の他の特定の場所にも焦点を当てることができる。他の特定の場所の一例は、追加の情報が記載されたボード、解説者の合図等である。解説者の合図により超聴覚障害者でも解説が理解できるようになる。
【0059】
追加の固定カメラ8.1と固定カメラ8があることにより、カメラが1台しかなく発表会場の空間例えば黒板全体をカバーできない現在のシステムに比べて利点がある。実際には、広角カメラは、当初考えられていた程広範囲をカバーできない。その理由は、画像収集モードとして視野を大幅に広げると、小領域の解像度が大幅に悪くなるからである。かくして、ボード28上の言葉や文章を拡大するためにズームインすると、それらは明瞭には見えなくなる。ただし高解像度で高価なプロ用の大型の広角カメラ(本発明の解決には適さない)を使用した場合は別であるが。追加の固定カメラ8.1を使用すると特に固定カメラ8と同じタイプのものを使用すると、ボード28の広い視野又は表示領域は拡大できるが、この場合でも画像はゆがむことなく明瞭さも失われることはない。
【0060】
同様に、一実施例においては、モジュール5は音声認識装置を有する。この音声認識装置は第1電子装置1とコンピュータ10に接続されている。この音声認識装置により、モジュール5は、リアルタイムで発表者の発言を所定の言語のサブタイトルの形式で文字表記できるようになる。この場合リアルタイムで音声を文字表記できる装置が必要であるが。発表内容を画像のOCRのテキストを認識する装置が活性化され、発言の音声信号は、聴覚障害者の音声補助手段に入力される。他の実施例では音声認識装置は第1電子装置1に搭載してもよい。
【0061】
一実施例においては、電源が入ると、モジュール5は自動的に動作する。即ち全ての情報を制御装置、演出センターを通すことなく、所定の信号/情報を受領する。所定の信号/情報の一例は、発表者の画像、選択的には発表者の周りの画像、ボード28の固定画像、第1電子装置1からの信号、音声信号、選択的には画像捕捉装置14で得られた外部画像信号等である。第1電子装置1からの信号/情報は、何時でも又は発表者がその機能(自分のコンピュータ・スクリーンをボード28と共有する/二重の送信する機能)を活性化した時だけ受信され、第2電子装置2に送信される。例えば、ソフトウエアは、発表者に、発表者自身の第1電子装置1のユーザ・インターフェースを介して、発表者が自身のスクリーンを共有するかを問い合わせる。その答えがYESの場合は、第1電子装置1のスクリーンのコンテンツの信号は、コンピュータ10に送られる。同じことが残りの信号でも行われる。即ちボード28の固定信号、発表者の画像、音声信号は、モジュール5が受領し、第2電子装置2に、常時あるいは対応する機能が活性化している時に、送られる。それ故、信号がブロックされている時(画像保護、コスト削減、装置の電力消費削減の為)は、モジュール5は、1つの信号のみを発信することにより動作する。例えば、装置の適宜の構成により、装置は発表者のコンピュータ・スクリーンの信号と音声信号のみを発信できるようなる。このために、システムの管理者又は発表者自身は、モジュール5に、適宜のインターフェースを介して接触し、あらゆる信号をブロックする即ち送信しないようにできる。この為、システムの管理者(或いは発表者自身)は、適宜のインターフェースを介して、モジュール5と相互に作用しあい、いかなる信号もブロックできる即ち送信しない。
【0062】
別の実施例においては、第1電子装置1で動く第1ソフトウエアは、上記の信号/情報を受領するよう編集される。この場合、第1ソフトウエアは、これら全ての信号/情報をルーター6に送り、そこから第2電子装置2に送るよう組まれている。通信情報は、第2電子装置2に、何時でも又は発表者がその機能(第1電子装置1のスクリーンをボード28と共有する/両方に表示する機能)を活性化した時に、送信される。
【0063】
更に別の実施例においては、上記の信号/情報は遠隔コンピュータが受領できる。この遠隔コンピュータは、クラウド(図示せず)中にあり、第1電子装置1,第2電子装置2,コンピュータ10と動作可能に接続されている。
【0064】
図2は、モジュール5に含まれる様々な装置間の接続状態の実施例を示す。この実施例においては、可動カメラ9,固定カメラ8,追加の固定カメラ8.1,ルーター6は電源13により電力が与えられている。同時に第2電源13.1(例:5Vの電源)を有し、コンピュータ10の電源となる。この実施例においては、モジュール5は赤外線カメラ7を有する。赤外線カメラ7はコンピュータ10からUSBポートを介して電流が直接与えられる。コンピュータ10の一例はJetson NanoまたはRaspberry piである。電力線11は
図2では点線で表している。固定カメラ8、追加の固定カメラ8.1、可動カメラ9,ルーター6の間のデータ接続は、2本のEthernetケーブル12(実線で示す)で行われている。コンピュータ10とルーター6の間には2本データ接続がある。第1のデータ接続は、インターネット・サービスをルーター6に与える。これはコンピュータ10の第1機能である。ルーター6のEthernetポートはインターネット入力ポートである。第2のデータ接続は、可動カメラ9とコンピュータ10との間の通信を可能にし、追尾を可能にする。これはコンピュータ10の第2機能である。このケーブルは、コンピュータ10のUSB出口から出て、Ethernet出口を持つルーター6に入る。その結果スイッチングを可能にするカップリングが必要である。これが行われるのは、コンピュータ10は2個のイーサーネット入力ジャックを持たないからである。
【0065】
可動カメラ9はモジュール5に内蔵されるのが好ましい。しかし一実施例では、可動カメラ9をモジュール5から切り離して、それらの間を有線又は無線で通信してもよい。本発明のシステムは可動カメラ9を複数個有していてもよい。
【0066】
赤外線カメラ7が組み込まれている場合は、赤外線カメラ7はコンピュータ10とUSBケーブルで通信することもできる。
【0067】
一実施例では、発表者追尾手段はオプティカルフロー追尾アルゴリズムを有する。このアルゴリズムは、コンピュータ10又は第1電子装置1で実行される。一実施例では、オプティカルフロー追尾アルゴリズムが動くのは、故障又は中断が少なくとも1つの赤外線カメラ7内で発生した時である。赤外線による検知は、モジュール5内に配置された赤外線カメラ7と赤外線検知端末で行われる。この赤外線検知端末は、発表者が携帯し、赤外線を発射し、それを赤外線カメラ7が検知する。その結果、発表者の位置が検知され、発表者の画像が可動カメラ9により撮られる。この実施例においては、マイク3も、発表者が携帯し、携帯の赤外線検知端末に内蔵され、発表者の音声信号を捕獲し送信する。
【0068】
一実施例では、赤外線による追尾が主に使用される。何らかの理由により、例えば発表者がボード28に書き込む時にカメラに背中を向けた場合、会場内で他の赤外線と干渉した場合、赤外線信号を喪失した場合、他の赤外線信号との衝突が生じた場合には、オプティカルフローによる追尾が自動的に動く。オプティカルフロー追尾手段/アルゴリズムは、自動的に開始するか、又はコンピュータ10により又は発表者の手動で制御される。この意味において、発表者は、第1ソフトウエアを選択して追尾を赤外線検出の代わりにオプティカルフロー検出で行うこともできる。この第1ソフトウエアは、コンピュータ10と通信し、コンピュータ10に実行命令を送る。オプティカルフローアルゴリズムによる追尾の場合、プロトコルは、画像内の動きの同定を、使用される画像シーケンス内のある時点のフレームと後続のそれとを比較することによって、行う。カメラの動きの速度は、ビデオの連続する画像で検出された発表者の位置の変化に基づいて固定されている。
【0069】
本発明では、赤外線カメラ7とオプティカルフロー追尾アルゴリズムを有することは、選択的事項である。例えば、発表者追尾手段が、上記のアルゴリズム、人口知能アルゴリズム、又は両者の併用システムで実行される実施例においては、赤外線カメラ7とオプティカルフロー追尾アルゴリズムの両方は必ずしも必要無い。
【0070】
一実施例では、アルゴリズムは、OpenCV computer vison libaryに基づく。これは人を検出するのに適したプレトレーニングした多対象検出モデルを用いている。このモデルの一例は、Google TM モデルである。更に追加的な処理を加えて、目標位置を通過した最初の人物に基づいてトレーニングできる。一実施例では、検出は、HSV(Hue, Saturation, Value)ヒストグラムと検出された人物の形状フォーマットの比較を用いて、或いは分割方法(Segmentation method)により行うことができる。追尾されるべき人物(例:発表者)が特定されると、発表者の画像の捕獲する可動カメラ9により送られてきた連続する画像内の人物の位置の変化が、決定され、コマンド(発表者が何処にいるかを指示する)を介して、TCP接続の手段により、可動カメラ9のポートとIPアドレスに送られる。因みに可動カメラ9はVISCAプロトコルの16桁の制御コマンド用のポートを有する。カメラの動きの速度は、ビデオの連続する画像で検出された発表者の位置の変化に基づいて固定されている。人を追尾する他のコンピュータ・ビジョン機構も利用できる。
【0071】
QRコード認識手段による追尾に関し、発表者により携帯されるQRコード(タグ、ステッカー、携帯装置等の付される)は、マーキングとして使用され、発表者の位置と距離が、常時そのマーキングを検出することにより、同定される。この為、一実施例では、OpenCV computer vison libary、特にQRタイプのプレート検出機が再度使用される。表面の既知の大きさのマーキングで、可動カメラ9は校正され、その固有のパラメータを、焦点距離と歪のマトリックスとして得る。この情報と既知の大きさのマーキングにより、マーキングが、特徴的な点の検出により、検出され特定される。その為、発表者が所定のマーキング(QRコード)を持っていると、そのマーキングを持っている人物(発表者)の位置と距離が、常時同定される。
【0072】
カラー・マーキングによる追尾に関し、発表者により携帯されるカラー・マーキング(タグ、ステッカー、携帯装置等に付される)は、マーキングとして使用され、発表者の位置と距離が、常時そのマーキングを検出することにより、同定される。このプロトコルは、可動カメラ9により捕獲された画像の色をフィルター処理し、追尾されるべき人物の位置を同定する。
【0073】
上記の説明は一実施例に関するもので、マーキングの手段による人物の追尾を行う他の機構も使用することができる。
【0074】
これらの追尾手段(人口知能、QRコード認証、カラー・マーキング等の手段)を組み合わせることにより、追尾中に発表者が背中をカメラに向けた場合や会場が薄暗い場合に起きることがある故障又は中断が無くなる。発表者の正確な追尾は重要であるが、その理由は、発表者の正確な画像を常時受領することにより、受信機は発表者のボディ・ランゲージ(身振り)を感受できる。このことは情報伝達において極めて重要である。更にこの追尾機構/手段において、可動カメラ9(ボード28全体に焦点を当てている)に比較して、高解像度で写し出すことができる。この構成により、ボード28上の通常のショット(固定カメラ8,追加の固定カメラ8.1による)のみならず、所定の時点で発表者が書いているものの可動カメラ9の縮小したショット(可動カメラ9による)を、より高い品質で得ることができる。その結果、ズーム機能が改善される。
【0075】
図3A-3Cは、固定カメラ8,可動カメラ9を具備するモジュール5の実施例を示す。
図3Cに、モジュール5のON/OFFボタン15、モジュール5に電力を供給するコネクタ16、RJ45コネクタ17,HDMIコネクタ18が示されている。一実施例においては、モジュール5は、遠隔操作で、操作できる。
【0076】
以上の説明は、本発明の一実施例に関するもので、この技術分野の当業者であれば、本発明の種々の変形例を考え得るが、それらはいずれも本発明の技術的範囲に包含される。特許請求の範囲の構成要素の後に記載した括弧内の番号は、図面の部品番号に対応し、発明の容易なる理解の為に付したものであり、発明を限定的に解釈するのものではない(特許法施行規則24条の4及び様式29の2の「備考」14のロ)。また、同一番号でも明細書と特許請求の範囲の部品名は必ずしも同一ではない。これは上記した理由による。「少なくとも1つ或いは複数」、「と/又は」は、それらの内の1つに限定されない。例えば「A,B,Cの内の少なくとも1つ」は「A」、「B」、「C」単独のみならず「A,B或いはB,C更には又A,B,C」のように複数のものを含んでもよい。本明細書において「Aを含む」「Aを有する」は、A以外のものを含んでもよい。特に記載のない限り、装置又は手段の数は、単数か複数かを問わない。本発明は、あらゆる「発表を行う者」による「発表の場」に適用できる。「発表の場」の一例は、発表会場、学校の教室、会議、イベント、セミナー、裁判所等である。
【符号の説明】
【0077】
1:第1電子装置
2:第2電子装置
3:マイク
5:モジュール
6:ルーター
7:赤外線カメラ
8:固定カメラ
8.1:固定カメラ
9:可動カメラ
10:コンピュータ
11:電力線
12:Ethernet ケーブル
13:電源
13.1:第2電源
15:スイッチ
16:コネクタ
17:RJ45コネクタ
18:HDMIコネクタ
28:情報表示用ボード
【国際調査報告】