【文献】
西川誠,外3名,カラー画像処理による指先での文字列領域の特定法,情報処理学会第57回全国大会講演論文集,1998年10月,p.2-138〜2-139
(58)【調査した分野】(Int.Cl.,DB名)
前記画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと前記画像のエッジとの距離が所定の間隔の閾値よりも小さい、と判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように前記画像収集装置に再収集命令を送信するように構成される再収集モジュール、をさらに備える、請求項10に記載の装置。
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、前記コンピュータプログラムが実行された場合に、請求項1〜8のいずれか1項に記載の方法が実現される、コンピュータ可読媒体。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本願の実施例は音声出力方法及び装置を提供する。
【課題を解決するための手段】
【0004】
第1態様では、本願の実施例は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得することと、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定することと、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することとを含む音声出力方法を提供する。
【0005】
いくつかの実施例において、現在の動作情報は、ユーザによる前記画像の遮蔽位置を含み、コンテンツを読み取ることに応答して文字を含み、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定することは、画像における文字の文字認識結果を取得することと、画像における文字が位置する領域を複数のサブ領域に分割することと、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定することと、決定されたサブ領域における開始文字を現在の閲覧文字とすることとを含む。
【0006】
いくつかの実施例において、画像における文字が位置する領域を複数のサブ領域に分割することは、画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定することと、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得することとを含む。
【0007】
いくつかの実施例において、決定されたサブ領域における開始文字を現在の閲覧文字とすることは、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とすることと、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、前記隣接するサブ領域における開始文字を現在の閲覧文字とすることとをさらに含む。
【0008】
いくつかの実施例において、ユーザの現在の閲覧状態を示すための画像を取得することは、初期画像を取得することと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定することと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定することと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定することとを含む。
【0009】
いくつかの実施例において、ユーザの現在の閲覧状態を示すための画像を取得することは、初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とすることと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定することとをさらに含む。
【0010】
いくつかの実施例において、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力する前に、方法は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように画像収集装置に再収集命令を送信することをさらに含む。
【0011】
いくつかの実施例において、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することは、文字認識結果に基づいて、現在の閲覧文字から末尾までの文字を音声オーディオに変換することと、音声オーディオを再生することとを含む。
【0012】
第2態様では、本願の実施例は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するように構成される取得手段と、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように構成される決定手段と、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力するように構成される出力手段とを備える音声出力装置を提供する。
【0013】
いくつかの実施例において、現在の動作情報は、ユーザによる前記画像の遮蔽位置を含み、決定手段は、画像における文字の文字認識結果を取得するように構成される情報取得モジュールと、画像における文字が位置する領域を複数のサブ領域に分割するように構成される分割モジュールと、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定するように構成される決定モジュールと、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される文字決定モジュールとを含む。
【0014】
いくつかの実施例において、分割モジュールは、さらに、画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定して、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得するように構成される。
【0015】
いくつかの実施例において、文字決定モジュールは、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される第1決定サブモジュールと、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、隣接するサブ領域における開始文字を現在の閲覧文字とするように構成される第2決定サブモジュールとをさらに含む。
【0016】
いくつかの実施例において、取得手段は、初期画像を取得するように構成される画像取得モジュールと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定するように構成されるマーキングモジュールと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定するように構成される領域決定モジュールと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定するように構成される状態決定モジュールとを含む。
【0017】
いくつかの実施例において、取得手段は、初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とするように構成される送信モジュールと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定するように構成される再取得モジュールとをさらに含む。
【0018】
いくつかの実施例において、装置は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように画像収集装置に再収集命令を送信するように構成される再収集モジュールをさらに備える。
【0019】
いくつかの実施例において、出力手段は、文字認識結果に基づいて、現在の閲覧文字から末尾までの文字を音声オーディオに変換するように構成される変換モジュールと、音声オーディオを再生するように構成される再生モジュールとを含む。
【0020】
第3の態様では、本願の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、を備える電子デバイスであって、1つまたは複数のプログラムを1つまたは複数のプロセッサに実行させることにより、音声出力方法にかかるいずれか1つの実施例の方法を1つまたは複数のプロセッサに実現させる電子デバイスを提供する。
【0021】
第4の態様では、本願の実施例は、コンピュータプログラムが記憶されているコンピュータ可読媒体であって、このコンピュータプログラムが実行される場合、音声出力方法にかかるいずれか1つの実施例の方法を実現させる、コンピュータ可読媒体を提供する。
【発明の効果】
【0022】
本願の実施例が提供する音声出力にかかる技術手段は、まず、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得する。その後、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定する。最後、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力する。本出願の実施例が提供する方法にかかる技術手段は、ユーザの現在の動作情報に基づいてユーザの意図を決定することができ、それにより、画像においてユーザが現在閲覧している文字と最も関連性のある対応する音声を出力する。このように、本願の実施例は、画像における全ての文字に対応する音声を出力するのではなく、ユーザの動作に基づいて現在の閲覧文字を決定することができ、音声出力の柔軟性を実現する。
【発明を実施するための形態】
【0024】
以下、図面及び実施例を参照しながら本願をさらに詳細に説明する。本明細書に記載された具体的な実施例は、単に本発明を説明するためのものであり、本発明を限定するものではないことが理解されるべきである。なお、説明の便宜上、図面には、かかる発明に関連する部分のみが示されている。
【0025】
なお、矛盾しない場合に、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面及び実施例を参照しながら本願を詳細に説明する。
【0026】
図1は、本願の音声出力方法または音声出力装置を適用可能な実施例の例示的なシステム構成100を示す。
【0027】
図1に示されるように、システム構成100は、端末101、102、103、ネットワーク104およびサーバ105を含むことができる。ネットワーク104は、端末101、102、103とサーバ105との間で通信リンクの媒体を提供するために使用される。ネットワーク104は、例えば、有線や無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。
【0028】
ユーザは、端末101、102、103を使用して、ネットワーク104を介してサーバ105と対話して、メッセージなどを送受信することができる。端末101、102、103には、カメラが取り付けされてもよく、また、各種の通信クライアントアプリケーション、例えば画像認識アプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどがインストールされてもよい。
【0029】
ここでの端末101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末101、102、103がハードウェアである場合、表示パネルを有する様々な電子デバイスであってもよく、スマートフォン、タブレット型コンピュータ、電子ブックリーダ、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない。端末101、102、103がソフトウェアである場合、上記例示された電子デバイスにインストールされることができる。複数のソフトウェアまたはソフトウェアモジュール(例えば分散型サービスを提供するために使用される複数のソフトウェア又はソフトウェアモジュール)として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定されるものではない。
【0030】
サーバ105は、端末101、102、103にサポートを提供するバックグラウンドサーバなどの様々なサービスを提供するサーバとすることができる。バックグラウンドサーバは、受信したデータ(例えば画像)に対して分析などの処理を行って、処理結果(例えば画像における文字情報)を端末にフィードバックすることができる。
【0031】
なお、本願の実施例が提供する音声出力方法は、サーバ105又は端末101、102、103によって実行されてもよく、それに応じて、音声出力装置は、サーバ105又は端末101、102、103に設置されてもよい。
【0032】
図1の端末、ネットワークおよびサーバの数は、単に例示的なものであることが理解されるべきである。必要に応じて、任意の数の端末、ネットワークおよびサーバを有することができる。
【0033】
次に、
図2を参照すると、本願の音声出力方法にかかる一実施例のフロー200が示されている。この音声出力方法は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するステップ201を含む。
【0034】
本実施例において、音声出力方法の実行主体(例えば、
図1に示す端末又はサーバ)は、ユーザの現在の閲覧状態を示すための画像を取得することができる。閲覧コンテンツは、ユーザが閲覧したコンテンツであり、文字、文字以外の符号及び/又は図形などを含むことができる。現在の動作情報は、ユーザが閲覧する過程で行う動作を表す情報である。例えば、ユーザは指でコンテンツ内のある文字を指すことができ、また、ペンで一つの句読点などを指すことができる。
【0035】
本実施例におけるいくつかの選択可能な実施形態において、ステップ201は、初期画像を取得することと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定することと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定することと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定することとを含む。
【0036】
これらの実施形態では、上記実行主体は、初期画像を取得し、且つ遮蔽領域を決定することができる。ここでの遮蔽領域は、画像の上方にある指やペンなどの物品によって画像において遮蔽される領域であってもよい。例えば、初期画像を2値化して、2値化された画像における数値が単一である特定の領域(例えば、領域面積が予め設定された面積よりも大きい領域および/または領域形状が予め設定された形状と一致する領域)を決定して、この領域を遮蔽領域とすることができる。遮蔽領域が位置する遮蔽位置に対して領域を表す座標値を付すことができ、例えば、座標値は遮蔽領域の境界を表す複数の座標値であってもよい。先に遮蔽領域を決定して、その後に遮蔽領域の最小外接矩形の2つの対角の座標を表す座標値を遮蔽領域の座標値とすることができる。その後、上述した遮蔽領域を表す座標値を現在の動作情報とすることができる。
【0037】
上記実行主体は、初期画像をユーザに提示することができ、又は初期画像を端末に送信してユーザに提示させることができる。このようにして、ユーザは、初期画像において部分画像を選択して閲覧コンテンツが位置する領域とすることができる。そして、上記実行主体は、閲覧コンテンツが位置する領域を決定することができる。
【0038】
上記実現形態では、画像におけるユーザの動作する遮蔽領域及び閲覧コンテンツが位置する領域を予めマーキングすることができる。これにより、現在の動作情報を正確に決定することができ、それにより、閲覧コンテンツにおける現在の閲覧文字をより正確に決定することができる。
【0039】
本実施例におけるいくつかの選択可能な実施形態において、上記実施形態に基づいて、ステップ201は、初期画像に遮蔽領域が存在しないことに応答して、画像収集装置が視野を調整して画像を再取得するように画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とすることと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像に対して現在の動作情報をマッキングすることとを含むことができる。
【0040】
これらの実施形態において、上記実行主体は、初期画像に遮蔽領域が存在しないことに応答して、画像収集装置が視野を調整して調整された視野に基づいて画像を再取得するように、実行主体と通信可能に接続する画像収集装置に命令を送信することができる。画像収集装置は、カメラ又はカメラ付きの電子デバイスであってもよい。ここでの視野調整は、視野拡大であってもよいし、カメラを回転させることにより撮影方向を変更することであってもよい。
【0041】
上記実現形態における実行主体は、ユーザによる遮蔽領域に基づいて、画像収集命令を送信することを自律的に行うことができる。初期画像に遮蔽領域が存在しない場合に、適時に調整を行い、画像を再取得することが保証される。
【0042】
上記音声出力方法は、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するステップ202を含む。
【0043】
本実施例において、上記実行主体は、上記画像における閲覧コンテンツに文字が含まれる場合に、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように応答する。現在の閲覧文字は、ユーザが現在閲覧している文字である。
【0044】
実際には、閲覧コンテンツの現在の閲覧文字は、様々な方法で決定されることができる。例えば、現在の動作情報が画像においてユーザの指によって指される位置であれば、該位置の文字を現在の閲覧文字として決定することができる。また、現在の動作情報は、画像においてユーザの指によって遮蔽される位置であってもよく、この場合、前記実行主体は、指による遮蔽位置から最も近い文字を現在の閲覧文字として決定することができる。
【0045】
本実施例におけるいくつかの選択可能な実施形態において、ステップ201の後に、方法は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔閾値の間隔よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように画像収集装置に画像収集命令を送信することをさらに含むことができる。
【0046】
これらの実施形態では、実行主体は、画像における閲覧コンテンツが不完全であると判定した場合に、画像を再取得することができる。実際には、画像に閲覧コンテンツの左半分のみが存在する場合があり、すなわち、画像に不完全な文字があり、例えば、画像のエッジに「好」の左半分である「女」のみが表示される場合がある。または、文字が画像のエッジに現れ、画像エッジからの距離が所定の間隔の閾値よりも小さくなる。上記の場合には、取得された画像にユーザが現在閲覧しているコンテンツの全てが含まれないと考えることができる。この場合、画像を再収集することにより、完全な閲覧コンテンツを取得することができる。
【0047】
上記実現形態における実行主体は、閲覧コンテンツが完全であるか否かを自律的に判断することができ、それにより、完全な閲覧コンテンツを適時に取得することができる。同時に、上記実現形態では、画像における閲覧コンテンツが不完全であることによるユーザが閲覧したコンテンツと出力コンテンツとの不一致を回避して、音声出力の精度を向上させる。
【0048】
上記音声出力方法は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力するステップ203を含む。
【0049】
本実施例において、上記実行主体は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することができる。このように、画像における文字については、ユーザの動作に基づいて、画像におけるユーザが閲覧している箇所に対して文字認識を行い、識別された文字を音声に変換して出力することができる。
【0050】
実際には、上記実行主体は、複数の方法で音声を出力することができる。例えば、上記実行主体は、現在の閲覧文字を出力の開始文字として、現在の閲覧文字から文字の末尾までの文字に対応する音声を生成して連続的に出力することができる。上記実行主体は、現在の閲覧文字を開始として、現在の閲覧文字から文字の末尾までの文字に対応する音声を生成して分割出力することができる。
【0051】
次に、
図3を参照すると、
図3は本実施例に係る音声出力方法の適用シーンの概略図である。
図3の適用シーンにおいて、実行主体301は、ユーザの現在の閲覧状態であって、閲覧コンテンツとユーザの現在の動作情報である「指で文字を指す」303を含む現在の閲覧状態を示すための画像302を取得して、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報303に基づいて、閲覧コンテンツの現在の閲覧文字304を決定して、現在の閲覧文字304から、閲覧コンテンツにおける文字に対応する音声305を出力する。
【0052】
本願の上記実施例が提供する方法は、ユーザの現在の動作情報に基づいて、画像における文字に対応する音声を出力することができる。このように、本願の実施例は、画像における全ての文字に対応する音声を出力するのではなく、ユーザの動作に基づいて現在の閲覧文字を決定して、音声を柔軟に出力することができる。そして、本実施例は、閲覧コンテンツのすべての文字を音声に変換する必要がなく、そのうちの一部を変換することができ、それにより音声の出力効率を向上させる。
【0053】
さらに
図4を参照すると、音声出力方法の別の実施例のフロー400が示されている。この音声出力方法のフロー400は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するステップ401を含む。
【0054】
本実施例において、音声出力方法の実行主体(例えば、
図1に示す端末又はサーバ)は、ユーザの現在の閲覧状態を示すための画像を取得することができる。閲覧コンテンツは、ユーザが閲覧したコンテンツであり、文字、文字以外の符号及び/又は図形などを含むことができる。現在の動作情報は、ユーザが閲覧する過程で行う動作を表す情報である。例えば、ユーザは指でコンテンツ内のある文字を指すことができ、また、ペンで一つの句読点などを指すことができる。
【0055】
上記音声出力方法のフロー400は、画像における文字の文字認識結果を取得するステップ402を含む。
【0056】
本実施例において、上記実行主体は、ローカル又は他の電子デバイス(例えばサーバ)から文字認識結果を取得することができる。文字認識結果を取得すると、画像の閲覧コンテンツに文字が含まれると判定することができる。文字認識結果は、画像における文字を認識することで得られる結果である。ここで識別される文字は、閲覧コンテンツにおけるすべての文字であってもよいし、一部の文字であってもよく、例えば現在の閲覧文字から末尾までの文字である。具体的には、文字認識プロセスは上記実行主体によって実行さてもよいし、上記実行主体が閲覧コンテンツをサーバに送信した後に、サーバによって実行されてもよい。
【0057】
上記音声出力方法のフロー400は、画像における文字が位置する領域を複数のサブ領域に分割するステップ403を含む。
【0058】
本実施例において、現在の動作情報は、ユーザによる画像の遮蔽位置を含む。上記実行主体は、画像の閲覧コンテンツに文字が含まれることに応答して、画像における文字が位置する領域を複数のサブ領域に分割することができる。
【0059】
実際には、上記実行本体は、複数の方法でサブ領域への分割を行うことができる。例えば、上記実行主体は、予め設定されたサブ領域数に応じて、文字が位置する領域を均等な大きさのサブ領域に分割することができる。
【0060】
本実施例におけるいくつかの選択可能な実施形態において、ステップ403は、画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定することと、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得することとを含む。
【0061】
これらの実現形態では、画像内の隣接する2組の文字同時の間隔が一致するとともに、いずれも予め設定された間隔の閾値よりも大きく、且つ各組の文字数がある値よりも大きいと、この2組の文字は隣接する文字列である。文字列内の文字の間隔がある値よりも大きいと、該間隔を2つのサブ領域の境界とすることもできる。文字列内のカンマ、ピリオド、セミコロンなどで区切られた2つの文間の間隔及び2つのセグの会話間の間隔などは、いずれも隣接するサブ領域の境界とすることができる。サブ領域への分割中において、上記実行主体は、ある間隔の位置に間隔線分を描くことにより、各サブ領域を区別して各サブ領域の位置をマッキングすることができる。文字列において描かれた間隔線分は、該文字列の上方又は下方の間隔線分に対して垂直であってもよい。
【0062】
上記音声出力方法のフロー400は、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定するステップ404を含む。
【0063】
本実施例において、上記実行主体は、分割された複数のサブ領域から、遮蔽位置が位置するサブ領域を決定することができる。具体的には、上記実行主体は、画像を2値化して、2値化された画像における数値が単一である特定の領域を決定して、この領域を遮蔽領域とすることができる。遮蔽領域が位置するサブ領域は、1つであってもよく、又は複数であってもよい。複数であれば、その中から一つのサブ領域をランダムに選択してもよく、位置が最も上方にあるサブ領域を選択してもよい。
【0064】
上記音声出力方法のフロー400は、決定されたサブ領域における開始文字を現在の閲覧文字とするステップ405を含む。
【0065】
本実施例において、上記実行主体は、決定されたサブ領域における開始位置の文字を現在の閲覧文字とすることができる。具体的には、開始文字は文字閲覧順序に応じて決定されてもよい。例えば、文字は横列レイアウトであれば、サブ領域の最左辺の文字を開始文字とすることができる。文字が縦列レイアウトであれば、サブ領域の最上辺の文字を開始文字とすることができる。
【0066】
本実施例におけるいくつかの選択可能な実施形態において、ステップ405は、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とすること、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、隣接するサブ領域における開始文字を現在の閲覧文字とすることとを含むことができる。
【0067】
これらの実施形態では、上記実行主体は、画像における文字の文字認識結果を取得する過程において、決定されたサブ領域から文字認識結果を取得することができる。取得に成功すると、決定されたサブ領域に識別可能な文字が含まれていることを示す。予め設定された期間内に、決定されたサブ領域の文字認識結果が取得されないと、決定されたサブ領域に識別可能な文字が含まれない可能性があることを示す。ユーザの動作に対応する文字は前の文字列に存在する可能性がある。これにより、前記実行主体は、隣接するサブ領域において現在の閲覧文字を決定することができる。
【0068】
上記音声出力方法のフロー400は、文字認識結果に基づいて、現在の文字から末尾までの文字を音声オーディオに変換するステップ406を含む。
【0069】
本実施例において、上記実行主体は、文字認識結果を取得した後に、文字認識結果を利用して現在の閲覧文字から末尾文字まで文字形式から音声形式に変換することにより、音声オーディオを得ることができる。
【0070】
上記音声出力方法のフロー400は、音声オーディオを再生するステップ407を含む。
【0071】
本実施例では、上記実行主体は、現在の閲覧文字から末尾文字までの音声オーディオを再生することができる。このようにして、画像における文字については、ユーザの動作により、異なる音声オーディオを再生することができる。
【0072】
本実施例は、サブ領域への分割により、ユーザの現在の閲覧文字を正確に決定する。同時に、間隔によって文字列を決定し且つ文字列を分割することにより、サブ領域分割の安定性及び正確度を増加させることができる。また、本実施例では、同じ閲覧コンテンツによっても、再生された音声オーディオはユーザの動作に応じて異なるため、ユーザのニーズをより正確に満たすことができる。
【0073】
更に
図5を参照すると、上記各図に示される方法の実施として、本願は音声出力装置の一実施例を提供して、この装置の実施例は
図2に示される方法の実施例に対応して、この装置は具体的に様々な電子デバイスに適用されることができる。
【0074】
図5に示すように、本実施例の音声出力装置500は、取得手段501、決定手段502及び出力手段503を含む。ここで、取得手段501は、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得するように構成され、決定手段502は、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように構成され、出力手段503は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力するように構成される。
【0075】
いくつかの実施例において、音声出力装置500の取得手段501は、ユーザの現在の閲覧状態を示すための画像を取得することができる。閲覧コンテンツは、ユーザが閲覧したコンテンツであり、文字、文字以外の符号及び/又は図形などを含むことができる。現在の動作情報は、ユーザが閲覧する過程で行う動作を表す情報である。例えば、ユーザは指でコンテンツ内のある文字を指すことができ、また、ペンで一つの句読点などを指すことができる。
【0076】
いくつかの実施例において、決定手段502は、上記画像における閲覧コンテンツに文字が含まれる場合に、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定するように応答する。現在の閲覧文字は、ユーザが現在閲覧している文字である。
【0077】
いくつかの実施例において、出力手段503は、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することができる。このようにして、画像における文字は、ユーザの動作に応じて、音声に変換されて出力されることができる。
【0078】
本実施例のいくつかの選択可能な実施態様において、現在の動作情報は、ユーザによる前記画像の遮蔽位置を含み、決定手段は、画像における文字の文字認識結果を取得するように構成される情報取得モジュールと、画像における文字が位置する領域を複数のサブ領域に分割するように構成される分割モジュールと、複数のサブ領域から、遮蔽位置が位置するサブ領域を決定するように構成される決定モジュールと、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される文字決定モジュールとを含む。
【0079】
本実施例のいくつかの選択可能な実施態様において、分割モジュールは、さらに、画像における文字列であって、隣接する2つの文字列同士の間隔が予め設定された間隔の閾値よりも大きい文字列を決定して、各文字列内における文字同士の間隔の大きさに応じて、文字列を分割して、複数のサブ領域を取得するように構成される。
【0080】
本実施例のいくつかの選択可能な実施形態において、文字決定モジュールは、画像における文字の文字認識結果を取得するように構成される取得サブモジュールを含む。
【0081】
本実施例のいくつかの選択可能な実施形態において、文字決定モジュールは、決定されたサブ領域の文字認識結果を取得したことに応答して、決定されたサブ領域における開始文字を現在の閲覧文字とするように構成される第1決定サブモジュールと、決定されたサブ領域の文字認識結果を取得しなかったことに応答して、決定されたサブ領域が位置する文字列の前の文字列において、決定されたサブ領域に隣接するサブ領域を決定して、隣接するサブ領域における開始文字を現在の閲覧文字とするように構成される第2決定サブモジュールとをさらに含む。
【0082】
本実施例のいくつかの選択可能な実施形態において、取得手段は、初期画像を取得するように構成される画像取得モジュールと、初期画像に遮蔽領域が存在することに応答して、初期画像の現在の動作情報を決定するように構成されるマーキングモジュールと、初期画像のユーザ選択領域情報を取得して、ユーザ選択領域情報に基づいて、初期画像において閲覧コンテンツを決定するように構成される領域決定モジュールと、決定された現在の動作情報及び閲覧コンテンツをユーザの現在の閲覧状態として決定するように構成される状態決定モジュールとを含む。
【0083】
本実施例のいくつかの選択可能な実施形態において、取得手段は、初期画像に遮蔽領域が存在しないと判定したことに応答して、画像収集装置が視野を調整して画像を再取得するように前記画像収集装置に画像収集命令を送信して、再取得された画像を初期画像とするように構成される送信モジュールと、再取得された初期画像における遮蔽された領域を遮蔽領域として決定して、再取得された初期画像の現在の動作情報を決定するように構成される再取得モジュールとをさらに含む。
【0084】
本実施例のいくつかの選択可能な実施形態において、装置は、画像のエッジに不完全な文字が存在する、又は文字が位置する領域のエッジと画像のエッジとの距離が所定の間隔の閾値よりも小さいと判定したことに応答して、画像収集装置が視野を調整して画像を再収集するように画像収集装置に再収集命令を送信するように構成される再収集モジュールをさらに備える。
【0085】
本実施例のいくつかの選択可能な実施形態において、出力手段は、文字認識結果に基づいて、現在の閲覧文字から末尾までの文字を音声オーディオに変換するように構成される変換モジュールと、音声オーディオを再生するように構成される再生モジュールとを含む。
【0086】
以下、
図6を参照すると、本願の実施例の電子デバイスを実現するのに適したコンピュータシステム600の構成概略図が示されている。
図6に示す電子デバイスは一例であり、本願の実施例の機能及び使用範囲を限定するものではない。
【0087】
図6に示すように、コンピュータシステム600は、ROM(Read Only Memory)602に格納されているプログラム、または記憶部608からRAM(Random Access Memory)603にロードされたプログラムに従って各種の適切な動作および処理を実行するCPU(Central Processing Unit)601を備える。RAM603には、システム600が動作するために必要な各種プログラムやデータも格納されている。CPU601、ROM602及びRAM603は、バス604を介して相互に接続されている。また、バス604には、入出力(I/O)インタフェース605も接続されている。
【0088】
I/Oインタフェース605には、キーボードやマウスなどを含む入力部606と、CRT(Cathode Ray Tube)や液晶ディスプレイ(LCD)など及びスピーカなどを含む出力部607と、ハードディスクなどを含む記憶部608と、LANカードやモデムなどのネットワークインタフェースカードを含む通信部609が接続されている。通信部609は、インターネットのようなネットワークを介して通信処理を行う。ドライブ610も、必要に応じてI/Oインタフェース605に接続される。磁気ディスクや光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア611は、必要に応じてドライブ610にインストールされることにより、リムーバブルメディア611から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
【0089】
特に、本開示の実施形態によれば、上記したフローチャートを参照して説明された手順がコンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含むコンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含む。そのような実施例では、コンピュータプログラムは、通信部609を介してネットワークからダウンロードしてインストールされ、および/またはリムーバブルメディア611からインストールされることができる。このコンピュータプログラムが中央処理ユニット(CPU)601によって実行されると、本願の方法で限定された上記機能が実行される。なお、本願のコンピュータ可読媒体は、コンピュータ可読信号媒体やコンピュータ可読記憶媒体、又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、特に限定されないが、例えば、電気や磁気、光、電磁気、赤外線または半導体のシステム、装置またはデバイスであってもく、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例には、1つまたは複数のリードを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光記憶デバイス、磁気記憶デバイス、または上述の任意の適切な組合せが含まれるが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含みかまたは格納する任意の有形媒体であってもよく、そのプログラムは、命令を実行するシステム、装置またはデバイスによって使用されてもよく、またはそれらとともに使用されてもよい。本願において、コンピュータ可読信号媒体は、ベースバンドでまたはキャリアの一部として伝搬される、コンピュータ読み取り可能なプログラムコードを担持するデータ信号を含むことができる。このように伝搬されるデータ信号は、電磁信号、光信号、または上述の任意の適切な組み合わせを含む様々な形態とことができるが、これらに限定されない。コンピュータ可読信号媒体は、さらに、命令を実行するシステム、装置またはデバイスによって使用され、またはそれらとともに使用されるプログラムを送信、伝播または伝搬することが可能なコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体とすることができる。コンピュータ可読媒体に含まれるプログラムコードは、無線や電線、光ケーブル、RFなど、またはそれらの任意の適切な組合せを含む任意の適切な媒体を介して伝送されてることができるが、これらに限定されない。
【0090】
図面におけるフローチャートおよびブロック図は、本願の様々な実施例によるシステム、方法およびコンピュータプログラム製品の実施可能な構成、機能および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、所定の論理機能を実施するための1つまたは複数の実行可能な命令を含むモジュール、ブロックまたはコードの一部を示すことができる。なお、いくつかの置換例としての実施例では、ブロックに示す機能は、図面に示す順序とは異なる順序で実行されてもよい。例えば、接続して示される2つのブロックは、実際に、実質的に並行して実行されてもよく、かかる機能によっては、相互に逆の順序で実行されてもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組合せは、所定の機能または動作を実行する専用のハードウェアによるシステムによって実施されてもよく、または専用ハードウェアとコンピュータ命令との組合せによって実施されてもよい。
【0091】
本願の実施例にかかる手段は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明された手段は、プロセッサに配置されてもよく、例えば、プロセッサは取得手段と、決定手段と、出力手段とを含むようにとして記載されてもよい。ここで、これら手段の名称は、この手段自体を限定するように構成されない場合があり、例えば、分類手段は、「ユーザの現在の閲覧状態を示すための画像を取得する手段」として説明されることができる。
【0092】
別の態様として、本願は、上述の実施例で説明された装置に含まれてよく、または、この装置に組み込まれなく、別個に存在してもよいコンピュータ可読媒体をさらに提供する。上記コンピュータ可読媒体には、1つまたは複数のプログラムが担持され、上記1つまたは複数のプログラムが装置により実行される場合、ユーザの現在の閲覧状態であって、閲覧コンテンツ及びユーザの現在の動作情報を含む現在の閲覧状態を示すための画像を取得することと、閲覧コンテンツに文字が含まれることに応答して、ユーザの現在の動作情報に基づいて閲覧コンテンツの現在の閲覧文字を決定することと、現在の閲覧文字から、閲覧コンテンツにおける文字に対応する音声を出力することを、この装置に実行させる。
【0093】
以上の説明は、本出願の好適な実施例及び適用される技術原理の説明に過ぎない。当業者であれば、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的手段に限定されるものではなく、同時に上記発明の主旨から逸脱しない範囲で上記技術的特徴又はその等価な特徴によって任意に組み合わせて形成される他の技術的手段を含むことが理解されべきである。例えば、上記特徴が本願に開示された(これに限定されない)同様な機能を有する技術的特徴と相互に置換されて形成される技術的手段である。