IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許7198303情報処理装置、情報処理方法および情報処理プログラム
<>
  • 特許-情報処理装置、情報処理方法および情報処理プログラム 図1
  • 特許-情報処理装置、情報処理方法および情報処理プログラム 図2
  • 特許-情報処理装置、情報処理方法および情報処理プログラム 図3
  • 特許-情報処理装置、情報処理方法および情報処理プログラム 図4
  • 特許-情報処理装置、情報処理方法および情報処理プログラム 図5
  • 特許-情報処理装置、情報処理方法および情報処理プログラム 図6
  • 特許-情報処理装置、情報処理方法および情報処理プログラム 図7
  • 特許-情報処理装置、情報処理方法および情報処理プログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-20
(45)【発行日】2022-12-28
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
   H04N 21/44 20110101AFI20221221BHJP
   G10L 15/00 20130101ALI20221221BHJP
   G06T 7/20 20170101ALI20221221BHJP
【FI】
H04N21/44
G10L15/00 200G
G06T7/20 300B
【請求項の数】 7
(21)【出願番号】P 2021046314
(22)【出願日】2021-03-19
(65)【公開番号】P2022145065
(43)【公開日】2022-10-03
【審査請求日】2021-09-16
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】五味 秀仁
(72)【発明者】
【氏名】坪内 孝太
(72)【発明者】
【氏名】寺岡 照彦
【審査官】益戸 宏
(56)【参考文献】
【文献】特開2012-182762(JP,A)
【文献】特開2009-92457(JP,A)
【文献】特開2015-012557(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00-21/858
H04N 7/14-7/173
G10L 15/00
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
第1センサによって取得された第1センサデータ、および、前記第1センサとは異なる第2センサによって前記第1センサデータと同時期に取得された第2センサデータを取得する取得部と、
前記第1センサデータおよび前記第2センサデータがそれぞれ示すコンテキストを比較する比較部と、
前記比較部による比較結果に基づいて、前記コンテキストが一致するように前記第1センサデータおよび前記第2センサデータのタイミングを制御するタイミング制御部と
を備えることを特徴とする情報処理装置。
【請求項2】
前記第1センサデータは映像データであり、前記第2センサデータは音声データであって、
前記タイミング制御部は、
前記コンテキストが一致するように前記映像データおよび前記音声データが再生されるタイミングを制御する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記比較部は、
前記映像データに写る被写体の口の動きから発話内容を推定し、
前記タイミング制御部は、
前記発話内容と前記音声データを照合することによって、前記映像データおよび前記音声データが再生されるタイミングを制御する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記比較部はさらに、
前記音声データから前記発話内容を推定し、
前記タイミング制御部は、
同一の前記発話内容が一致するように前記映像データおよび前記音声データが再生されるタイミングを制御する
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記タイミング制御部によって再生されるタイミングが制御された前記映像データおよび前記音声データに基づくマルチメディアデータを生成する生成部
をさらに備えることを特徴とする請求項2、3または4に記載の情報処理装置。
【請求項6】
コンピュータが実行する情報処理方法であって、
第1センサによって取得された第1センサデータ、および、前記第1センサとは異なる第2センサによって前記第1センサデータと同時期に取得された第2センサデータを取得する取得工程と、
前記第1センサデータおよび前記第2センサデータがそれぞれ示すコンテキストを比較する比較工程と、
前記比較工程における比較結果に基づいて、前記コンテキストが一致するように前記第1センサデータおよび前記第2センサデータのタイミングを制御するタイミング制御工程と
を含むことを特徴とする情報処理方法。
【請求項7】
第1センサによって取得された第1センサデータ、および、前記第1センサとは異なる第2センサによって前記第1センサデータと同時期に取得された第2センサデータを取得する取得手順と、
前記第1センサデータおよび前記第2センサデータがそれぞれ示すコンテキストを比較する比較手順と、
前記比較手順による比較結果に基づいて、前記コンテキストが一致するように前記第1センサデータおよび前記第2センサデータのタイミングを制御するタイミング制御手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
従来、ユビキタス社会を実現するためのコンテキストアウェアネス・プラットフォームを提供する技術が提案されている(例えば、特許文献1参照)。かかる技術は、コンピュータを含む、実空間に偏在する各種のセンサデバイスによって取得される多様なコンテキストデータを共有するためのものである。
【先行技術文献】
【特許文献】
【0003】
【文献】特表2017-503371号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術には、各センサデバイスによって同時期に取得されたコンテキストデータを同期させるうえで、更なる改善の余地がある。
【0005】
具体的には、上記した実空間に偏在する各種のセンサデバイスは多種多様である。したがって、ハードウェア特性の違いなどもあり、各センサデバイスが取得するコンテキストデータも例えばタイムスタンプやサンプリング周期などが異なる場合が多く、各コンテキストデータを一つのコンテキストを示すものとして同期させることが難しかった。
【0006】
本願は、上記に鑑みてなされたものであって、各センサデバイスによって同時期に取得されたコンテキストデータを同期させることができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本願に係る情報処理装置は、取得部と、比較部と、タイミング制御部とを備える。前記取得部は、第1センサによって取得された第1センサデータ、および、前記第1センサとは異なる第2センサによって前記第1センサデータと同時期に取得された第2センサデータを取得する。前記比較部は、前記第1センサデータおよび前記第2センサデータがそれぞれ示すコンテキストを比較する。前記タイミング制御部は、前記比較部による比較結果に基づいて、前記コンテキストが一致するように前記第1センサデータおよび前記第2センサデータのタイミングを制御する。
【発明の効果】
【0008】
実施形態の一態様によれば、各センサデバイスによって同時期に取得されたコンテキストデータを同期させることができるという効果を奏する。
【図面の簡単な説明】
【0009】
図1図1は、実施形態に係る情報処理の一例を示す図である。
図2図2は、実施形態に係る情報処理システムの構成例を示す図である。
図3図3は、実施形態に係る端末装置の構成例を示すブロック図である。
図4図4は、実施形態に係る解析処理の処理説明図(その1)である。
図5図5は、実施形態に係る解析処理の処理説明図(その2)である。
図6図6は、実施形態に係る端末装置が実行する処理手順を示すフローチャートである。
図7図7は、実施形態の変形例に係る情報処理の一例を示す図である。
図8図8は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0010】
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0011】
〔1.情報処理の一例〕
まず、実施形態に係る情報処理の一例について、図1を用いて説明する。図1は、実施形態に係る情報処理の一例を示す図である。
【0012】
図1では、実施形態に係る情報処理システム1に含まれる情報処理装置の一例である端末装置10-1が、第1センサによって取得された第1センサデータ、および、第1センサとは異なる第2センサによって第1センサデータと同時期に取得された第2センサデータを取得し、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御する処理を実行する例を示す。
【0013】
図1に示すように、実施形態に係る情報処理システム1は、端末装置10-1,10-2,10-3を含む。端末装置10-1,10-2,10-3は、コンテキスト環境であるアドホックネットワークANを形成しており、ピア・ツー・ピアでの無線通信が可能に設けられている。なお、以下では、端末装置10-1,10-2,10-3を特に区別する必要がない場合には、適宜「端末装置10」と記載する。
【0014】
端末装置10は、各種のセンサを有するセンサデバイスの一例である。例えば、端末装置10-1は、Gセンサ、ジャイロセンサ、GPS(Global Positioning System)センサ等を有し、HMI(Human Machine Interface)を介して、ユーザによって各種の情報処理のために利用される端末装置である。
【0015】
かかる場合、端末装置10-1は、例えば、スマートフォンを含む携帯電話機や、タブレット端末や、デスクトップ型PCや、ノート型PCや、PDA(Personal Digital Assistant)等の情報処理装置である。また、端末装置10-1には、眼鏡型や時計型の情報処理装置であるウェアラブルデバイス(wearable device)も含まれる。サーバやワークステーションなどの計算機も含まれる。また、端末装置10-1は、いわゆるすれちがい通信(登録商標)が可能なゲーム機などであってもよい。
【0016】
端末装置10-2は、映像センサであるカメラを有し、アドホックネットワークANにおけるコンテキストデータとして映像データを取得する端末装置である。コンテキストデータは、「センサデータ」の一例に相当する。また、カメラは、「第1センサ」の一例に相当する。また、かかるカメラによって取得される映像データは、「第1センサデータ」の一例に相当する。
【0017】
端末装置10-3は、音声センサであるマイクMを有し、アドホックネットワークANにおけるコンテキストデータとして音声データを取得する端末装置である。マイクMは、「第2センサ」の一例に相当する。音声データは、かかるマイクMによって取得される「第2センサデータ」の一例に相当する。なお、第2センサは、第1センサとは異なる1以上のセンサを指す。したがって、第2センサデータは、1種類以上であってもよい。
【0018】
なお、端末装置10-1,10-2,10-3は、あくまで一例であって、情報処理システム1における端末装置10の台数を限定するものではない。また、端末装置10には、これら端末装置10-1,10-2,10-3の他にも、温度、湿度、気圧、生体情報等をセンシングする各種のセンサデバイスが含まれてもよい。
【0019】
ここで、端末装置10-2によって取得された映像データ、および、端末装置10-3によって取得された音声データを、端末装置10-1が再生する場合について考える。
【0020】
図1に示すように、端末装置10-2は、アドホックネットワークANにおける被写体Sを含む映像データを取得したものとする。また、端末装置10-3は、被写体Sが発する音声データを取得したものとする。
【0021】
これらのデータを再生する場合、端末装置10-1は、端末装置10-2から映像データを、端末装置10-3から音声データをそれぞれ取得するが、これらのデータは、それぞれ異なるセンサデバイスによってコンテキストデータとして取得されたものである。
【0022】
そして、センサデバイスが異なる場合、例えばタイムスタンプやサンプリング周期などが異なる場合が多い。したがって、こうした映像データおよび音声データを再生する場合、これらを一つのコンテキストを示すものとして同期させる必要がある。
【0023】
そこで、実施形態に係る情報処理方法では、第1センサによって取得された第1センサデータ、および、第1センサとは異なる第2センサによって第1センサデータと同時期に取得された第2センサデータを取得し、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御することとした。
【0024】
具体的には、図1に示すように、端末装置10-1は、端末装置10-2から取得した映像データ、および、これと同時期に端末装置10-3から取得した音声データが示す各コンテンツを比較する(ステップS1)。
【0025】
すると、同図に示すように、映像データおよび音声データのそれぞれにおいては、端末装置10-2,10-3のハードウェア特性の違いなどもあり、例えば実時間上のある時点T1,T2を示すタイムスタンプなどが異なる場合が存在する。
【0026】
そこで、端末装置10-1は、かかる場合に、コンテキストが一致するように再生タイミングを制御する(ステップS2)。例えば、端末装置10-1は、映像データにおける被写体Sの口の動きを解析し、かかる動きが示す発話内容と音声データを照合することによって、コンテキストが一致するように再生タイミングを制御する。その詳細については、図4および図5を用いた説明で後述する。
【0027】
また、図1を用いた説明では、端末装置10-1が実施形態に係る情報処理を行うこととしたが、情報処理システム1がサーバ装置100をさらに含み、サーバ装置100が実施形態に係る情報処理を行うこととしてもよい。その詳細については、図7を用いた説明で後述する。
【0028】
上述したように、実施形態に係る情報処理方法では、第1センサによって取得された第1センサデータ、および、第1センサとは異なる第2センサによって第1センサデータと同時期に取得された第2センサデータを取得し、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御する。
【0029】
したがって、実施形態に係る情報処理方法によれば、各センサデバイスによって同時期に取得されたコンテキストデータを同期させることができる。
【0030】
以下、上記のような情報処理を行う情報処理装置を含む情報処理システム1について詳細に説明する。
【0031】
〔2.情報処理システム1の構成〕
図2は、実施形態に係る情報処理システム1の構成例を示す図である。図2に例示するように、実施形態に係る情報処理システム1は、複数の端末装置10-1,10-2,10-3…と、サーバ装置100と、を含む。
【0032】
これらの各種装置は、ネットワークNを介して、有線または無線により通信可能に接続される。ネットワークNは、LAN(Local Area Network)、WAN(Wide Area Network)、電話網(携帯電話網、固定電話網等)、地域IP(Internet Protocol)網、インターネット等の通信ネットワークである。ネットワークNには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。
【0033】
また、上記したが、図2では破線の矢印で示すように、端末装置10-1,10-2,10-3…は、ピア・ツー・ピアでの無線通信が可能に設けられている。端末装置10については説明済みのため、ここでの詳細な説明は省略する。
【0034】
サーバ装置100は、各種サービスをユーザへ提供する情報処理装置である。サーバ装置100が提供するサービスは、例えば、端末装置10にインストールされた各種アプリやブラウザを介して各種情報を提供するサービスである。提供されるサービスには、検索サービスの他、例えば、ニュース提供サービスや、オークションサービス、天気予報サービス、ショッピングサービス、金融取引(株取引等)サービス、路線検索サービス、地図提供サービス、旅行サービス、飲食店紹介サービス、ブログサービス等が含まれてもよい。
【0035】
また、サーバ装置100は、端末装置10を同定および認証し、該当の端末装置10が存在するアドホックネットワークAN、すなわちコンテキスト環境に応じた各種サービスを提供することが可能である。
【0036】
〔3.端末装置10〕
次に、図3を用いて、端末装置10の構成例について説明する。図3は、実施形態に係る端末装置10の構成例を示すブロック図である。なお、図3では、端末装置10の説明に必要となる構成要素のみを示しており、一般的な構成要素についての記載を省略している。また、図3に示す端末装置10は、主に上記した「端末装置10-1」を想定している。
【0037】
図3に示すように、端末装置10は、通信部11と、HMI部12と、センサ部13と、記憶部14と、制御部15とを有する。
【0038】
(通信部11について)
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。通信部11は、ネットワークNと有線または無線で接続され、ネットワークNを介して、サーバ装置100との間で情報の送受信を行う。
【0039】
また、通信部11は、他の端末装置10とピア・ツー・ピアで無線通信可能に接続され、他の端末装置10との間で情報の送受信を行う。なお、無線通信方式としては、Wi-Fi(登録商標)や、Bluetooth(登録商標)、UWB(Ultra Wide Band)や、NFC(Near Field Communication)等を用いることができる。
【0040】
(HMI部12について)
HMI部12は、端末装置10を利用するユーザ等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、表示情報を表示するための表示部(例えば、液晶ディスプレイ等)、音声情報を出力するためのスピーカ部等を含む。
【0041】
(センサ部13について)
センサ部13は、端末装置10に搭載され、端末装置10が存在する空間における各種のコンテキストを示すセンシングデータを取得する1以上のセンサを含む。
【0042】
(記憶部14について)
記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、図3の例では、記憶部14は、解析モデル記憶部14aを有する。
【0043】
(解析モデル記憶部14a)
解析モデル記憶部14aは、後述する解析部15bによって実行される解析処理に用いられる各種の解析モデルを記憶する。解析モデルは、例えば、画像に写った被写体Sの口の動きから発話内容を識別するように学習されたDNN(Deep Neural Network)等である。
【0044】
(制御部15について)
制御部15は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、端末装置10内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部15は、例えば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0045】
図3に示すように、制御部15は、取得部15aと、解析部15bと、比較部15cと、タイミング制御部15dと、出力制御部15eとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図3に示した構成に限られず、後述する情報処理を行うことができる構成であれば他の構成であってもよい。また、制御部15が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
【0046】
制御部15は、第1センサによって取得された第1センサデータ、および、第1センサとは異なる第2センサによって第1センサデータと同時期に取得された第2センサデータを取得し、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較し、比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御する。
【0047】
(取得部15aについて)
取得部15aは、通信部11を介し、他の端末装置10が取得したコンテキストデータ(例えば、本実施形態では、端末装置10-2,10-3が取得した映像データおよび音声データ)を取得する。
【0048】
(解析部15bについて)
解析部15bは、取得部15aによって取得されたコンテキストデータを解析する。ここで、解析部15bが実行する解析処理について、図4および図5を用いて説明する。図4は、実施形態に係る解析処理の処理説明図(その1)である。また、図5は、実施形態に係る解析処理の処理説明図(その2)である。
【0049】
図4に示すように、映像データについては、例えば解析部15bは、映像データの各フレーム中の被写体Sの口の動きを、解析モデル記憶部14aに記憶された画像解析モデルによって解析し、その解析結果の連続量を推定される「フレーズ」として抽出する。
【0050】
また、図5に示すように、音声データについては、例えば解析部15bは、音声データの音声信号を、解析モデル記憶部14aに記憶された言語解析モデルによって解析し、その解析結果の連続量を推定される「フレーズ」として抽出する。
【0051】
そして、後述するタイミング制御部15dは、図4および図5において抽出された同一のフレーズが一致するように、再生タイミングのタイミング制御を行うこととなる。
【0052】
なお、ここでは、映像データおよび音声データの双方から解析モデルによってフレーズを抽出する例を挙げたが、この限りではなく、例えば映像データから抽出したフレーズを音声信号に変換し、これと音声データとを照合するようにしてもよい。
【0053】
(比較部15cについて)
図3の説明に戻る。比較部15cは、解析部15bによって解析された解析結果を比較する。例えば、比較部15cは、図4および図5で抽出された同一のフレーズ同士を対応付ける。また、比較部15cは、比較した比較結果、すなわち映像データおよび音声データの対応結果をタイミング制御部15dへ通知する。
【0054】
(タイミング制御部15dについて)
タイミング制御部15dは、比較部15cによる比較結果に基づいて、映像データおよび音声データの再生タイミングのタイミング制御を行う。具体的には、タイミング制御部15dは、映像データおよび音声データそれぞれのデータ長や、再生開始位置、再生速度(音声データの場合はピッチに対応)等を制御することによって、映像データおよび音声データを同期させる。
【0055】
また、タイミング制御部15dは、同期させた映像データおよび音声データを、出力制御部15eに出力させる。
【0056】
(出力制御部15eについて)
出力制御部15eは、HMI部12に対し、タイミング制御部15dによって同期するように制御された映像データおよび音声データを出力させる。
【0057】
〔4.端末装置10の処理手順〕
次に、実施形態に係る端末装置10が実行する処理手順について説明する。図6は、実施形態に係る端末装置10が実行する処理手順を示すフローチャートである。
【0058】
図6に示すように、まず取得部15aが、映像データと音声データとを取得する(ステップS101)。そして、解析部15bが、映像データおよび音声データがそれぞれ示すコンテキストを解析する(ステップS102)。
【0059】
そして、比較部15cが、解析された各コンテキストを比較する(ステップS103)。そして、タイミング制御部15dが、比較部15cの比較結果に基づいて、コンテキストが一致するように再生タイミングを制御する(ステップS104)。そして、処理を終了する。
【0060】
〔5.サーバ装置100が実施形態に係る情報処理装置の一例となる変形例〕
ところで、これまでは、端末装置10が、実施形態に係る情報処理を実行する情報処理装置の一例である場合について説明してきたが、端末装置10をサーバ装置100に置き換えてもよい。
【0061】
図7は、実施形態の変形例に係る情報処理の一例を示す図である。図7に示すように、サーバ装置100が、これまで説明した実施形態に係る情報処理を実行してもよい。具体的には、サーバ装置100は、複数のアドホックネットワークAN1,AN2,AN3…から各コンテキスト環境におけるコンテキストデータを取得する。サーバ装置100は、例えば周期的なクローリングによってコンテキストデータを取得する。
【0062】
そして、サーバ装置100は、取得した各データが示すコンテキストを比較し(ステップS11)、コンテキストが一致するように再生タイミングを制御したマルチメディアデータを生成する(ステップS12)。
【0063】
そして、サーバ装置100は、生成したマルチメディアデータを保管しておき、必要に応じて適宜、各端末装置10へ配信する。
【0064】
かかる情報処理を実現するにあたり、サーバ装置100は、少なくとも、図3に示した通信部11、記憶部14および制御部15にそれぞれ相当する各構成要素を有する。また、制御部15に相当する構成要素は、少なくとも、図3に示した取得部15a、解析部15b、比較部15cおよびタイミング制御部15dにそれぞれ相当する各処理部を有する。
【0065】
また、サーバ装置100は、図3に示した出力制御部15eに替えて、図7のステップS12においてマルチメディアデータを生成する生成部を有することとなる。これにより、サーバ装置100は、図7に示した情報処理を実行することが可能となる。
【0066】
〔6.ハードウェア構成〕
上述してきた実施形態に係る端末装置10やサーバ装置100は、例えば図8に示すような構成のコンピュータ1000によって実現される。以下、端末装置10を例に挙げて説明する。図8は、実施形態に係る端末装置10の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU(Central Processing Unit)1100、RAM(Random Access Memory)1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、およびメディアインターフェイス(I/F)1700を備える。
【0067】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0068】
HDD1400は、CPU1100によって実行されるプログラムおよび当該プログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、通信網500(図2に示したネットワークNやピア・ツー・ピア通信に対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。
【0069】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを、入出力インターフェイス1600を介して出力装置へ出力する。
【0070】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、当該プログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0071】
例えば、コンピュータ1000が実施形態に係る端末装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部15の各機能を実現する。また、HDD1400には、記憶部14内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを、記録媒体1800から読み取って実行するが、他の例として、他の装置から、通信網500を介してこれらのプログラムを取得してもよい。
【0072】
〔7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0073】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0074】
例えば、図3に示した解析部15bと比較部15cとは、統合されてもよい。また、例えば、タイミング制御部15dと出力制御部15eとは、統合されてもよい。また、例えば、記憶部14に記憶される情報は、ネットワークNを介して、外部に備えられた所定の記憶装置に記憶されてもよい。
【0075】
また、上記実施形態では、映像データおよび音声データの2つのセンサデータを同期させるためにこれらの再生タイミングを制御する例を挙げたが、無論、センサデータの種別を限定するものではない。
【0076】
例えば、音声データと位置情報データとを同期させて、音像が定位するタイミングを制御するようにしてもよい。また、例えば、画像(映像を含む)データと位置情報データとを同期させて、撮影されたタイムスタンプと位置情報が一致するように、地図情報に画像をリアルタイムに合成するタイミングを制御するようにしてもよい。
【0077】
また、例えば、映像データとGセンサデータを同期させてもよい。かかる場合、例えば走者がGセンサを装着した100m走の映像データにおいて、走者の腕の振りや足の運びなどに応じて、加速度や速度の推移を合成するタイミングを制御するようにしてもよい。すなわち、制御されるタイミングは、再生タイミングに限られず、合成タイミングや、加工タイミングなど、様々な態様のタイミングであってもよい。
【0078】
また、上記した通り、第2センサは、第1センサとは異なる1以上のセンサであるので、同期させるセンサデータは、3以上であってもよい。
【0079】
また、上記実施形態のように、複数のセンサデータの同期を実現することで、例えば部分的に欠損したコンテキストデータを、かかる部分に欠損のない他のコンテキストデータにより補完することができるという効果を奏することができる。
【0080】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0081】
〔8.効果〕
実施形態に係る情報処理装置は、取得部15aと、比較部15cと、タイミング制御部15dとを備える。取得部15aは、端末装置10-2(「第1センサ」の一例に相当)によって取得された第1センサデータ、および、端末装置10-2とは異なる端末装置10-3(「第2センサ」の一例に相当)によって第1センサデータと同時期に取得された第2センサデータを取得する。比較部15cは、第1センサデータおよび第2センサデータがそれぞれ示すコンテキストを比較する。タイミング制御部15dは、比較部15cによる比較結果に基づいて、コンテキストが一致するように第1センサデータおよび第2センサデータのタイミングを制御する。
【0082】
したがって、実施形態に係る情報処理装置によれば、各センサデバイスによって同時期に取得されたコンテキストデータの再生タイミングや合成タイミングなどを同期させることができる。
【0083】
また、第1センサデータは映像データであり、第2センサデータは音声データであって、タイミング制御部15dは、コンテキストが一致するように映像データおよび音声データが再生されるタイミングを制御する。
【0084】
したがって、実施形態に係る情報処理装置によれば、各センサデバイスによって同時期に取得された映像データおよび音声データの再生タイミングを同期させることができる。
【0085】
また、比較部15cは、映像データに写る被写体Sの口の動きから発話内容を推定し、タイミング制御部15dは、発話内容と音声データを照合することによって、映像データおよび音声データが再生されるタイミングを制御する。
【0086】
したがって、実施形態に係る情報処理装置によれば、映像データに写る被写体Sの口の動きから推定されるフレーズに基づいて、映像データおよび音声データを同期させることができる。
【0087】
また、比較部15cはさらに、音声データから発話内容を推定し、タイミング制御部15dは、同一の発話内容が一致するように映像データおよび音声データが再生されるタイミングを制御する。
【0088】
したがって、実施形態に係る情報処理装置によれば、映像データに写る被写体Sの口の動きから推定されるフレーズ、および、音声データから推定されるフレーズにおいて、同一のフレーズ同士を一致させることによって、映像データおよび音声データを同期させることができる。
【0089】
また、実施形態に係る情報処理装置は、タイミング制御部15dによって再生されるタイミングが制御された映像データおよび音声データに基づくマルチメディアデータを生成する生成部をさらに備える。
【0090】
したがって、実施形態に係る情報処理装置によれば、同期した同一の環境コンテキストを示すマルチメディアデータを生成し、提供することが可能となる。
【0091】
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0092】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0093】
1 情報処理システム
10 端末装置
11 通信部
12 HMI部
13 センサ部
14 記憶部
14a 解析モデル記憶部
15 制御部
15a 取得部
15b 解析部
15c 比較部
15d タイミング制御部
15e 出力制御部
100 サーバ装置
図1
図2
図3
図4
図5
図6
図7
図8