IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 華為技術有限公司の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-06
(45)【発行日】2024-11-14
(54)【発明の名称】オーディオ処理方法および電子デバイス
(51)【国際特許分類】
   H04N 23/60 20230101AFI20241107BHJP
   H04R 3/00 20060101ALI20241107BHJP
【FI】
H04N23/60 500
H04R3/00 320
【請求項の数】 19
(21)【出願番号】P 2023513516
(86)(22)【出願日】2021-07-26
(65)【公表番号】
(43)【公表日】2023-09-27
(86)【国際出願番号】 CN2021108458
(87)【国際公開番号】W WO2022042168
(87)【国際公開日】2022-03-03
【審査請求日】2023-04-07
(31)【優先権主張番号】202010868463.5
(32)【優先日】2020-08-26
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】503433420
【氏名又は名称】華為技術有限公司
【氏名又は名称原語表記】HUAWEI TECHNOLOGIES CO.,LTD.
【住所又は居所原語表記】Huawei Administration Building, Bantian, Longgang District, Shenzhen, Guangdong 518129, P.R. China
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133569
【弁理士】
【氏名又は名称】野村 進
(72)【発明者】
【氏名】卞 超
【審査官】吉川 康男
(56)【参考文献】
【文献】特開2010-093603(JP,A)
【文献】特開2011-061461(JP,A)
【文献】特開2013-179466(JP,A)
【文献】特開2011-223491(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 23/60
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
オーディオ処理方法であって、前記方法は、電子デバイスに適用され、前記方法は、
カメラアプリケーションを開く第1の操作を検出するステップと、
前記第1の操作に応答して、撮影プレビューインターフェースを表示するステップと、
ビデオ記録を開始する第2の操作を検出するステップと、
前記第2の操作に応答して、ビデオピクチャおよび第1のオーディオを収集し、撮影インターフェースを表示するステップであって、前記撮影インターフェースは、前記ビデオピクチャのプレビューインターフェースを含む、ステップと、
前記ビデオピクチャ内のターゲット画像を認識するステップであって、前記ターゲット画像は、第1の顔画像および/または第1の口画像であり、前記第1の顔画像は、前記ビデオピクチャ内の発音オブジェクトの顔画像であり、前記第1の口画像は、前記ビデオピクチャ内の前記発音オブジェクトの口画像である、ステップと、
前記ターゲット画像に基づいて、前記発音オブジェクトに対応する第1の収音範囲を決定するステップと、
前記第1の収音範囲および前記第1のオーディオに基づいて、前記ビデオピクチャに対応する第2のオーディオを取得するステップであって、前記第2のオーディオにおいて、前記第1の収音範囲内の音量は、前記第1の収音範囲外の音量よりも大きい、ステップと
を含
前記ターゲット画像に基づいて、前記発音オブジェクトに対応する第1の収音範囲を決定する前記ステップは、
前記ターゲット画像に基づいて第1の特徴値を取得するステップであって、前記第1の特徴値は、正面/背面属性パラメータを含み、前記正面/背面属性パラメータは、前記ビデオピクチャが正面カメラによって撮影されたビデオピクチャであるか、または背面カメラによって撮影されたビデオピクチャであるかを示すために使用される、ステップと、
前記第1の特徴値に基づいて、前記発音オブジェクトに対応する前記第1の収音範囲を決定するステップと
を含み、
前記第1の特徴値に基づいて、前記発音オブジェクトに対応する前記第1の収音範囲を決定する前記ステップは、
前記ビデオピクチャが正面ビデオピクチャであるとき、前記第1の収音範囲が正面カメラ側の収音範囲であると決定するステップと、
前記ビデオピクチャが背面ビデオピクチャであるとき、前記第1の収音範囲が背面カメラ側の収音範囲であると決定するステップと
を含む、オーディオ処理方法。
【請求項2】
記第1の特徴値は、面比または位置情報のうちの1つ以上をさらに含み、前記面積比は、前記ビデオピクチャの面積に対する前記ターゲット画像の面積の比を示すために使用され、前記位置情報は、前記ビデオピクチャ内の前記ターゲット画像の位置を示すために使用される、請求項1に記載の方法。
【請求項3】
前記第1の特徴値に基づいて、前記発音オブジェクトに対応する前記第1の収音範囲を決定する前記ステップは、
前記面積比と前記第1のオーディオの収音範囲とに基づいて、前記第1の収音範囲を決定するステップ
を含む、請求項2に記載の方法。
【請求項4】
前記第1の特徴値に基づいて、前記発音オブジェクトに対応する前記第1の収音範囲を決定する前記ステップは、
前記位置情報に基づいて、前記第1のオーディオの前記収音範囲における前記第1の収音範囲の位置を決定するステップ
を含む、請求項2に記載の方法。
【請求項5】
前記位置情報は、第1の基準点に対する前記ターゲット画像の中心点の第1のオフセットを含み、前記第1の基準点は、前記ビデオピクチャの中心点または合焦の焦点であり、
前記位置情報に基づいて、前記第1のオーディオの前記収音範囲における前記第1の収音範囲の位置を決定する前記ステップは、
前記第1のオフセットに基づいて、前記第1のオーディオの前記収音範囲の中心点に対する前記第1の収音範囲の中心点の第2のオフセットを決定するステップであって、前記第2のオフセットは、前記第1のオフセットに正比例する、ステップと、
前記第2のオフセットに基づいて、前記第1のオーディオの前記収音範囲における前記第1の収音範囲の前記位置を決定するステップと
を含む、請求項4に記載の方法。
【請求項6】
前記ビデオピクチャの前記中心点は、ビューファインダフレームの中心点であるか、または前記ビデオピクチャの前記中心点は、ディスプレイの中心点である、請求項5に記載の方法。
【請求項7】
前記第1の収音範囲および前記第1のオーディオに基づいて、前記ビデオピクチャに対応する第2のオーディオを取得する前記ステップは、
前記第2のオーディオを取得するために、前記第1の収音範囲内にありかつ前記第1のオーディオ内にあるオーディオ信号を強調するステップ、および/または前記第1の収音範囲外にあり、かつ前記第1のオーディオ内にあるオーディオ信号を弱めるステップ
を含む、請求項1に記載の方法。
【請求項8】
前記電子デバイスは、1つ以上のマイクロフォンを備え、前記1つ以上のマイクロフォンは、前記第1のオーディオを収集するように構成され、
前記第1の収音範囲および前記第1のオーディオに基づいて、前記ビデオピクチャに対応する第2のオーディオを取得する前記ステップは、
前記1つ以上のマイクロフォンのうちの第1のマイクロフォンの収音範囲が前記第1の収音範囲の一部または全部を含む場合、前記第2のオーディオを取得するために、前記第1の収音範囲内にあり、前記第1のマイクロフォンの前記収音範囲内にあるオーディオ信号を強調するステップと、前記第1の収音範囲外にあり、前記第1のマイクロフォンの前記収音範囲内にあるオーディオ信号を弱めるステップと、前記1つ以上のマイクロフォンのうちの前記第1のマイクロフォン以外のマイクロフォンのオーディオ信号を弱めるステップと、のうちの少なくとも1つを実行するステップを含む、請求項7に記載の方法。
【請求項9】
前記電子デバイスは、少なくとも2つのマイクロフォンを備え、前記少なくとも2つのマイクロフォンは、前記第1のオーディオを収集するように構成され、
前記第1の収音範囲および前記第1のオーディオに基づいて、前記ビデオピクチャに対応する第2のオーディオを取得する前記ステップは、
前記少なくとも2つのマイクロフォンのうちの第2のマイクロフォンの収音範囲が前記第1の収音範囲を含まない場合、前記第2のマイクロフォンを無効にするステップであって、前記少なくとも2つのマイクロフォンのうちの前記第2のマイクロフォン以外のマイクロフォンによって収集されるオーディオは、前記第2のオーディオである、ステップ
を含む、請求項7に記載の方法。
【請求項10】
前記第2のマイクロフォンが無効にされるとき、前記方法は、
前記第1の収音範囲内にあり、前記少なくとも2つのマイクロフォンのうちの前記第2のマイクロフォン以外のマイクロフォンの収音範囲内にあるオーディオ信号を強調するステップ、および/または前記第1の収音範囲外にあり、前記少なくとも2つのマイクロフォンのうちの前記第2のマイクロフォン以外の前記マイクロフォンの前記収音範囲内にあるオーディオ信号を弱めるステップをさらに含む、請求項9に記載の方法。
【請求項11】
1つ以上の第1の顔画像が存在し、1つ以上の第1の口画像が存在する、請求項2に記載の方法。
【請求項12】
前記第2の操作に応答して、ビデオピクチャおよび第1のオーディオを収集し、撮影インターフェースを表示する前記ステップの後に、前記方法は、
撮影を停止する第3の操作を検出するステップと、
前記第3の操作に応答して、記録を停止し、記録されたビデオを生成するステップであって、前記記録されたビデオは、前記ビデオピクチャおよび前記第2のオーディオを含む、ステップと、
前記記録されたビデオを再生する第4の操作を検出するステップと、
前記第4の操作に応答して、ビデオ再生インターフェースを表示し、前記ビデオピクチャおよび前記第2のオーディオを再生するステップと
をさらに含む、請求項1に記載の方法。
【請求項13】
前記記録されたビデオは、第3のオーディオをさらに含み、前記第3のオーディオは、第2の収音範囲に基づいて決定されたオーディオであり、前記第2の収音範囲は、前記第1の収音範囲に基づいて決定された収音範囲であり、前記第1の収音範囲とは異なり、前記ビデオ再生インターフェースは、第1のコントロールおよび第2のコントロールを含み、前記第1のコントロールは、前記第2のオーディオに対応し、前記第2のコントロールは、前記第3のオーディオに対応する、請求項12に記載の方法。
【請求項14】
前記方法は、
前記第4の操作に応答して前記ビデオピクチャおよび前記第2のオーディオを再生するステップであって、前記第4の操作は、プレーヤコントロールを操作する操作または前記第1のコントロールを操作する操作を含む、ステップと、
前記第2のコントロールを操作する第5の操作を検出するステップと、
前記第5の操作に応答して前記ビデオピクチャおよび前記第3のオーディオを再生するステップと
をさらに含む、請求項13に記載の方法。
【請求項15】
前記方法は、
前記第2のオーディオまたは前記第3のオーディオを削除する操作に応答して、前記第2のオーディオまたは前記第3のオーディオを削除するステップ
をさらに含む、請求項13または14に記載の方法。
【請求項16】
前記第1の操作に応答して撮影プレビューインターフェースを表示する前記ステップの後に、前記方法は、
音声強調モードを有効にする第6の操作を検出するステップと、
前記第6の操作に応答して前記音声強調モードを有効にするステップと
をさらに含む、請求項1に記載の方法。
【請求項17】
プロセッサと、メモリと、マイクロフォンと、カメラと、ディスプレイとを備える電子デバイスであって、前記メモリ、前記マイクロフォン、前記カメラ、および前記ディスプレイは、前記プロセッサに結合され、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記コンピュータプログラムコードは、コンピュータ命令を含み、前記プロセッサが前記メモリから前記コンピュータ命令を読み出すと、前記電子デバイスは、請求項1に記載のオーディオ処理方法を実行することを可能にされる、電子デバイス。
【請求項18】
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は、命令を記憶し、前記命令が電子デバイス上で実行されると、前記電子デバイスは、請求項1に記載のオーディオ処理方法を実行することを可能にされる、コンピュータ可読記憶媒体。
【請求項19】
命令を含むコンピュータプログラムであって、前記コンピュータプログラムが電子デバイス上で動作すると、前記電子デバイスは、請求項1に記載のオーディオ処理方法を実行することを可能にされる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年8月26日に中国国家知識産権局に出願された「AUDIO PROCESSING METHOD AND ELECTRONIC DEVICE」という名称の中国特許出願第202010868463.5号の優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0002】
本出願は、電子技術の分野に関し、特に、オーディオ処理方法および電子デバイスに関する。
【背景技術】
【0003】
携帯電話またはタブレットコンピュータなどの電子デバイスは、ショートビデオ撮影およびウェブキャスティングなどのビデオ撮影分野で広く使用されている。ビデオ撮影プロセスでは、受音効果は、通常、撮影された人物の移動または外部ノイズなどの理由により理想的なものではなく、その結果、音声品質が低下する。
【0004】
受音効果を改善するために、電子デバイスを用いた受音に基づいて、外部受音デバイスが追加される必要が通常ある。これは、ユーザにとってより高い撮影難易度およびより高いコストにつながる。加えて、音声強調方法がさらに提案されており、ビデオ撮影プロセスでは、ノイズを除去するために、電子デバイスによって収集されたオーディオファイルを処理するためにオーディオアルゴリズムが使用される。しかしながら、撮影環境は比較的複雑であるため、オーディオアルゴリズムの処理能力に対する要件は比較的厳しい。加えて、複雑なオーディオ処理プロセスはまた、電子デバイスのハードウェア性能に対する要件を増加させる。
【発明の概要】
【課題を解決するための手段】
【0005】
本出願において提供されるオーディオ処理方法および電子デバイスによれば、ビデオピクチャ内の音を発している人の顔または口の位置が決定され、指向性音声強調を実装するために、音を発している人の顔または口の位置に基づいて、収音が向上される必要がある範囲が決定され、それによって、オーディオ処理アルゴリズムを簡略化するだけでなく、オーディオ品質を改善させる。
【0006】
前述の目的を達成するために、以下の技術的解決策が本出願において用いられる。
【0007】
第1の態様によれば、この出願は、オーディオ処理方法を提供する。方法は、電子デバイスに適用され、方法は、カメラアプリケーションを開く第1の操作を検出するステップと、第1の操作に応答して、撮影プレビューインターフェースを表示するステップと、ビデオ記録を開始する第2の操作を検出するステップと、第2の操作に応答して、ビデオピクチャおよび第1のオーディオを収集し、撮影インターフェースを表示するステップであって、撮影インターフェースは、ビデオピクチャのプレビューインターフェースを含む、ステップと、ビデオピクチャ内のターゲット画像を認識するステップであって、ターゲット画像は、第1の顔画像および/または第1の口画像であり、第1の顔画像は、ビデオ画像内の発音オブジェクトの顔画像であり、第1の口画像は、ビデオ画像内の発音オブジェクトの口画像である、ステップと、次いで、ターゲット画像に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップと、第1の収音範囲および第1のオーディオに基づいて、ビデオピクチャに対応する第2のオーディオを取得するステップであって、第2のオーディオにおいて、第1の収音範囲内の音量は、第1の収音範囲外の音量よりも大きい、ステップと、を含み得る。
【0008】
本出願のこの実施形態における方法は、カメラアプリケーションを直接起動するためにユーザ指示が受信されるシナリオに適用されてよく、または、カメラを呼び出して起動するためにユーザが別のサードパーティアプリケーション(例えば、ショートビデオアプリケーション、ライブブロードキャストアプリケーション、またはビデオ通話アプリケーション)を起動するシナリオに適用されてもよい。第1の操作または第2の操作は、例えば、タッチ操作、キーストローク操作、空中ジェスチャ操作、または音声操作を含む。
【0009】
任意選択で、第1の操作に応答して撮影プレビューインターフェースを表示するステップの後に、方法は、音声強調モードを有効にする第6の操作を検出するステップと、第6の操作に応答して音声強調モードを有効にするステップと、をさらに含む。
【0010】
一部の実施形態では、ビデオ記録機能への切り替えが検出された後、ユーザは、音声強調モードを有効にするかどうかをまず尋ねられる。ユーザが音声強調モードを有効にすることを決定した後、音声強調モードが可能にされる。代替的に、音声強調モードは、ビデオ記録機能への切り替えが検出された後に自動的に可能にされる。一部の他の実施形態では、ビデオ記録機能への切り替えが検出された後、ビデオ記録プレビューインターフェースが最初に表示され、次いで、ユーザによって撮影指示を与える操作が検出された後、音声強調モードがユーザ指示に基づいて可能にされるか、または音声強調モードが自動的に可能にされる。
【0011】
音声強調モードが可能にされた後、電子デバイスは、より良好な音声記録効果を取得するために、収集された第1のオーディオを処理し、発音オブジェクトのオーディオを認識し、オーディオを強調する必要がある。第1のオーディオは、例えば、収集された初期オーディオ信号であり、第2のオーディオは、音声強調処理が実行された後に取得されたオーディオである。
【0012】
任意選択で、第1の顔画像または第1の口画像は、顔画像認識アルゴリズムを使用することによって認識される。例えば、ビデオピクチャを記録するプロセスにおいて、顔画像認識アルゴリズムを使用することによって、収集されたビデオピクチャに顔画像が含まれているかどうかが決定される。顔画像が含まれる場合、収集されたビデオピクチャに含まれる顔画像が認識され、顔画像が音を発しているかどうかが、予め設定された期間における顔画像の5つの感覚器官データおよび顔輪郭データなどの顔特徴データの変化ステータスに基づいて決定される。顔画像が音を発していると決定する基準は、顔画像が現在音を発していると決定することを含む。代替的に、顔画像が最初に音を発していると決定された後、予め設定された期間内に顔画像が再び音を発していると決定された場合、顔画像が音を発していると決定される。人の発声器官は、人の口であることが理解され得る。また、発音口のデータが取得された場合には、第1の口画像のデータが優先的に決定され、第1の口画像のデータに基づいて第1の収音範囲がその後決定されてもよい。ビデオピクチャ中の人物が音を発しているが認識されることができない場合、音を発している人物に対応する画像はターゲット画像ではないことに留意されたい。すなわち、ターゲット画像は、認識された発音顔および/または発音口に対応する画像である。
【0013】
このように、ビデオピクチャ中の発音ターゲット画像を認識することにより、収音を強調すべき第1の収音範囲が決定される。次いで、収集した初期オーディオ信号と第1の収音範囲とに基づいて第2のオーディオが取得される。このため、第2のオーディオは、第1の収音範囲内の音量が第1の収音範囲外の音量よりも大きい。すなわち、音を発した人物の音が大きくされ、それによりオーディオ記録効果を向上させる。
【0014】
可能な実装形態では、ターゲット画像に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップは、ターゲット画像に基づいて第1の特徴値を取得するステップであって、第1の特徴値は、正面/背面属性パラメータ、面積比、または位置情報のうちの1つ以上を含み、正面/背面属性パラメータは、ビデオピクチャが正面カメラによって撮影されたビデオピクチャであるか、または背面カメラによって撮影されたビデオピクチャであるかを示すために使用され、面積比は、ビデオピクチャの面積に対するターゲット画像の面積の比を示すために使用され、位置情報は、ビデオピクチャ内のターゲット画像の位置を示すために使用される、ステップと、次いで、第1の特徴値に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップと、を含む。
【0015】
第1の特徴値は、第1の顔画像に対応する現実の人の顔と電子デバイスとの間の相対的な位置関係を記述するために使用され、または、第1の特徴値は、第1の口画像に対応する現実の人の口と電子デバイスとの間の相対的な位置関係を記述するために使用される。したがって、電子デバイスは、第1の特徴値に基づいて第1の収音範囲を決定することができる。例えば、第1の顔画像に対応する現実の人物が電子デバイスの真正面に位置される場合、すなわち、第1の顔画像が撮影されたビデオピクチャの中心位置に位置される場合、第1の収音範囲は、電子デバイスの真正面収音範囲である。続いて、種々の方向におけるオーディオ信号を含む初期オーディオ信号を取得した後に、電子デバイスは、初期オーディオ信号および第1の収音範囲に基づいて、第1の顔画像に対応するオーディオを取得することができる。
【0016】
一部の実施形態では、第1の特徴値は、ビデオピクチャの記録プロセスにおいて変化し得る。そのため、第1の収音範囲もそれに応じて変化する。したがって、記録されたビデオ内のオーディオについて、電子デバイスによって記録されたオーディオは、少なくとも第1の持続時間のオーディオおよび第2の持続時間のオーディオを含む。第1の持続時間のオーディオは、第1の収音範囲に対応するオーディオであり、第2の持続時間のオーディオは、変更された収音範囲に対応するオーディオである。すなわち、電子デバイスは、ビデオピクチャ内の発音顔または発音口の変化に基づいて収音範囲を動的に決定し、次いで、収音範囲に基づいてオーディオを記録することができる。ユーザによる記録停止指示を与える操作が最終的に検出された後、形成されたビデオピクチャのオーディオは、時系列と変化する収音範囲とに基づいて記録された異なる持続時間または同じ持続時間の複数のオーディオを含み得る。
【0017】
このようにして、収音範囲の変化に基づいて、電子デバイスは、音声強調が実行される必要がある部分のオーディオ記録品質を改善することに常に焦点を当てることができ、それによって、オーディオ記録効果を保証する。加えて、ユーザがビデオファイルを再生するとき、ビデオコンテンツの音範囲変化などの動的変化に一致する再生体験がユーザに提示され得る。
【0018】
可能な実装形態では、第1の特徴値に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップは、ビデオピクチャが正面ビデオピクチャであるとき、第1の収音範囲が正面カメラ側の収音範囲であると決定するステップと、ビデオピクチャが背面ビデオピクチャであるとき、第1の収音範囲が背面カメラ側の収音範囲であると決定するステップと、を含む。
【0019】
例えば、電子デバイスの収音範囲が、180°正面収音範囲と180°背面収音範囲とを含む場合が仮定される。この場合、ビデオピクチャが正面ビデオピクチャであると決定された場合には、180°正面収音範囲が第1の収音範囲として用いられる。ビデオピクチャが背面ビデオピクチャであると決定された場合には、180°背面収音範囲が第1の収音範囲として用いられる。さらに、ビデオピクチャの記録プロセスにおいて、ユーザによる正面カメラと背面カメラとの間の切り替えの操作に応答して、第1の収音範囲も正面と背面との間で切り替えられて、第1の収音範囲がビデオピクチャ内の発音オブジェクトに対応する収音範囲であることを保証する。
【0020】
可能な実装形態では、第1の特徴値に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップは、面積比と第1のオーディオの収音範囲とに基づいて、第1の収音範囲を決定するステップを含む。
【0021】
第1のオーディオの収音範囲は、例えば、パノラマオーディオの収音範囲である。ビデオ記録プロセスにおいて、電子デバイスは、マイクロフォンを使用することによって種々の方向における初期オーディオ信号を収集し、すなわち、パノラマオーディオの収音範囲内の初期オーディオ信号を取得する。
【0022】
具体的には、ユーザが携帯電話を使用してビデオピクチャを撮影するプロセスでは、ユーザが関心を持つ人物は、通常、ビデオピクチャの中心位置に配置され、すなわち、第1の顔画像または第1の口画像は、ビューファインダフレームの中心位置に位置される。第1の顔画像または第1の口画像の異なる領域は、異なる収音範囲に対応し、第1の収音範囲の半径、直径、または面積などのサイズは、面積比を使用することによって記述され得る。
【0023】
例えば、Xは、第1の顔画像の領域または第1の口画像の領域を表すために使用され、Yは、ビューファインダフレーム内に表示されるビデオピクチャの領域を表すために使用され、Nは、フレーミング範囲に対応する収音範囲を表すと仮定される。この場合、面積比はX/Yとなり、第1の収音範囲はN*X/Yとなる。すなわち、パノラマ収音範囲に対する第1の収音範囲の比は、面積比に正比例する。
【0024】
可能な実装形態では、第1の特徴値に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップは、位置情報に基づいて、第1のオーディオの収音範囲における第1の収音範囲の位置を決定するステップを含む。
【0025】
一部のシナリオでは、発音オブジェクトは、ビデオピクチャの中心位置に位置されない。この場合、位置情報に基づいて、ビデオピクチャ内の発音オブジェクトに対応する画像(すなわち、ターゲット画像)の位置が取得されることができる。ビデオピクチャ内のターゲット画像の位置とパノラマ収音範囲内の第1の収音範囲の位置との間に対応関係があることが理解され得る。
【0026】
可能な実装形態では、位置情報は、第1の基準点に対するターゲット画像の中心点の第1のオフセットを含み、第1の基準点は、ビデオピクチャの中心点または合焦の焦点である。位置情報に基づいて、第1のオーディオの収音範囲における第1の収音範囲の位置を決定するステップは、第1のオフセットに基づいて、第1のオーディオの収音範囲の中心点に対する第1の収音範囲の中心点の第2のオフセットを決定するステップであって、第2のオフセットは、第1のオフセットに正比例する、ステップと、次いで、第2のオフセットに基づいて、第1のオーディオの収音範囲における第1の収音範囲の位置を決定するステップと、を含む。
【0027】
オフセットは、例えば、オフセット方向、オフセット角度、および/またはオフセット距離を含む。オフセット方向は、第1の基準点に対して、第1の顔画像または第1の口画像の中心点が、左方オフセット、右方オフセット、上方オフセット、下方オフセット、左上方オフセット、右上方オフセット、左下方オフセット、右下方オフセットなどを有することを意味する。オフセット角度は、左上方オフセット、右上方オフセット、左下方オフセット、または右下方オフセットが存在する角度である。オフセット距離は、左方オフセット、右方オフセット、上方オフセット、下方オフセットの距離や、特定のオフセット角度でのオフセットの距離などである。
【0028】
例えば、座標系は、第1の基準点を原点として、携帯電話の下端(または現在のビューファインダフレームの下端)に平行な方向をx軸として、x軸に垂直な方向をyとして使用することによって構築され、現在の座標系は、携帯電話のディスプレイに平行である。第1の基準点に対する第1の顔画像または第1の口画像の中心点のオフセット方向、オフセット角度、およびオフセット距離は、構築された座標系を使用することによって定義される。例えば、ターゲット画像の位置情報がビューファインダフレームの中心点の左下である場合、第1の収音範囲はパノラマ収音範囲内にあり、第1の収音範囲の中心点はパノラマ収音範囲の中心点の左下にある。
【0029】
可能な実装形態では、ビデオピクチャの中心点は、ビューファインダフレームの中心点であり、またはビデオピクチャの中心点は、ディスプレイの中心点である。
【0030】
一部のシナリオでは、ビューファインダフレームの中心点は、第1の基準点として使用され、すなわち、ビューファインダフレームの中心点は、ビデオピクチャの中心点を表すために使用される。ビデオピクチャの表示形式に基づいて、第1の基準点は代替的に別の形式で表されてもよいことが理解され得る。例えば、携帯電話のディスプレイのスクリーン全体の中心点は、ビデオピクチャの中心点を表すために、すなわち、第1の基準点として使用される。
【0031】
可能な実装形態では、第1の収音範囲および第1のオーディオに基づいて、ビデオピクチャに対応する第2のオーディオを取得するステップは、第2のオーディオを取得するために、第1の収音範囲内にありかつ第1のオーディオ内にあるオーディオ信号を強調するステップ、および/または第1の収音範囲外にあり、かつ第1のオーディオ内にあるオーディオ信号を弱めるステップを含む。
【0032】
例えば、第1のオーディオは、種々の方向のオーディオ信号を含む。発音オブジェクトに対応する第1の収音範囲が決定された後、第1の収音範囲におけるオーディオ信号が強調されて、記録されたビデオにおけるオーディオ品質を改善する。任意選択で、収音範囲外のオーディオ信号は、外部ノイズの干渉を低減し、オーディオ内の発音オブジェクトによって発せられた音を強調するために、さらに弱められる。
【0033】
可能な実装形態では、電子デバイスは1つ以上のマイクロフォンを含み、1つ以上のマイクロフォンは、第1のオーディオを収集するように構成される。第1の収音範囲および第1のオーディオに基づいて、ビデオピクチャに対応する第2のオーディオを取得するステップは、1つ以上のマイクロフォンのうちの第1のマイクロフォンの収音範囲が第1の収音範囲の一部または全部を含む場合、第2のオーディオを取得するために、第1の収音範囲内にあり、第1のマイクロフォンの収音範囲内にあるオーディオ信号を強調するステップと、第1の収音範囲外にあり、第1のマイクロフォンの収音範囲内にあるオーディオ信号を弱めるステップと、1つ以上のマイクロフォンのうちの第1のマイクロフォン以外のマイクロフォンのオーディオ信号を弱めるステップと、のうちの少なくとも1つを実行するステップを含む。
【0034】
例えば、マイクロフォン1およびマイクロフォン2が携帯電話上に構成される。第1の収音範囲がマイクロフォン1の収音範囲内にある場合、マイクロフォン1およびマイクロフォン2を用いて初期オーディオ信号を取得した後、携帯電話は、初期オーディオ信号内にあり、第1の収音範囲内にあり、マイクロフォン1によって収集されたオーディオ信号を強調し、初期オーディオ信号内にあり、第1の収音範囲外にあり、マイクロフォン1によって収集されたオーディオ信号を弱め、マイクロフォン2によって収集されたオーディオ信号を弱めて、第1の顔画像または第1の口画像に対応するオーディオを取得してもよい。別の例では、マイクロフォン1およびマイクロフォン2が携帯電話上に構成される。第1の収音範囲は、マイクロフォン1の収音範囲である収音範囲1と、マイクロフォン2の収音範囲である収音範囲2とを含む。すなわち、第1の収音範囲は、収音範囲1と収音範囲2との和集合である。この場合、マイクロフォン1およびマイクロフォン2を使用することによって初期オーディオ信号を取得した後、携帯電話は、第1の顔画像または第1の口画像に対応するオーディオを取得するために、マイクロフォン1の収音範囲1内にあり、初期オーディオ信号内にあるオーディオ信号と、マイクロフォン2の収音範囲2内にあり、初期オーディオ信号内にあるオーディオ信号とを強調し、初期オーディオ信号内の残りのオーディオ信号を弱めることができる。収音範囲1と収音範囲2とは、完全に重なっていてもよいし、部分的に重なっていてもよいことが理解され得る。
【0035】
可能な実装形態では、電子デバイスは少なくとも2つのマイクロフォンを含み、少なくとも2つのマイクロフォンは、第1のオーディオを収集するように構成される。第1の収音範囲および第1のオーディオに基づいて、ビデオピクチャに対応する第2のオーディオを取得するステップは、少なくとも2つのマイクロフォンのうちの第2のマイクロフォンの収音範囲が第1の収音範囲を含まない場合、第2のマイクロフォンを無効にするステップであって、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンによって収集されるオーディオは、第2のオーディオである、ステップを含む。
【0036】
例えば、マイクロフォン1およびマイクロフォン2が携帯電話上に構成される。第1の収音範囲は、マイクロフォン1の収音範囲内であり、マイクロフォン2の収音範囲外である。この場合、携帯電話は、マイクロフォン2を無効にし、マイクロフォン1によって収集されたオーディオ信号を処理し、処理されたオーディオ信号をビデオピクチャに対応するオーディオとして使用する。すなわち、第1の顔画像または第1の口画像に対応するオーディオは、マイクロフォン1により収集されたオーディオである。
【0037】
可能な実装形態では、第2のマイクロフォンが無効にされるとき、方法は、第1の収音範囲内にあり、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンの収音範囲内にあるオーディオ信号を強調するステップ、および/または第1の収音範囲外にあり、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンの収音範囲内にあるオーディオ信号を弱めるステップをさらに含む。
【0038】
例えば、マイクロフォン1およびマイクロフォン2が携帯電話上に構成される。第1の収音範囲は、マイクロフォン1の収音範囲内であり、マイクロフォン2の収音範囲外である。この場合、携帯電話は、第1の顔画像または第1の口画像に対応するオーディオを取得するために、マイクロフォン2を無効にし、マイクロフォン1によって収集されたオーディオ信号内の第1の収音範囲内のオーディオ信号を強調し、マイクロフォン1によって収集されたオーディオ信号内の第1の収音範囲外のオーディオ信号を弱める。
【0039】
可能な実装形態では、1つ以上の第1の顔画像が存在し、1つ以上の第1の口画像が存在する。
【0040】
ビデオピクチャ内で音を発している1人以上の人がいる場合がある。したがって、第1の顔画像は1つ以上存在し、第1の口画像は1つ以上存在する。現在撮影されているビデオピクチャにおいて何人かの人物が音を発しているが、その人物が音を発していることを携帯電話が認識できない場合、音を発している認識されていない人物の顔画像または口画像は、第1の顔画像または第1の口画像として分類されないことが理解され得る。
【0041】
一部の実施形態では、複数の第1の顔画像または第1の口画像がある場合、第1の特徴値を決定するプロセスでは、第1の特徴値は、複数の第1の顔画像または複数の第1の口画像に基づいて決定される必要がある。例えば、面積比を決定するプロセスでは、ビデオピクチャの面積に対する複数の第1の顔画像の面積の比が、ターゲット画像の面積比として使用される。別の例では、位置情報を決定するプロセスにおいて、ビデオピクチャの中心点に対する、複数の第1の顔画像が位置されるプレースホルダフレームの中心点のオフセットが、ターゲット画像の位置情報として使用される。複数の第1の顔画像が位置されるプレースホルダフレームは、複数の顔画像を含む最小選択フレームを表すために使用される。
【0042】
可能な実装形態では、第2の操作に応答して、ビデオピクチャおよび第1のオーディオを収集し、撮影インターフェースを表示するステップの後に、方法は、撮影を停止する第3の操作を検出するステップと、第3の操作に応答して、記録を停止し、記録されたビデオを生成するステップであって、記録されたビデオは、ビデオピクチャおよび第2のオーディオを含む、ステップと、記録されたビデオを再生する第4の操作を検出するステップと、第4の操作に応答して、ビデオ再生インターフェースを表示し、ビデオピクチャおよび第2のオーディオを再生するステップと、をさらに含む。
【0043】
一部の実施形態では、ビデオピクチャを記録するプロセスにおいて、電子デバイスは、発音顔画像または発音口画像に基づいて第1の収音範囲を決定し、次いで、第1の収音範囲に基づいてオーディオを記録する。その後、記録されたオーディオが記憶される必要がある。ユーザは、記憶されたビデオのビデオピクチャおよびオーディオを再生することができる。
【0044】
ビデオピクチャを記録するシナリオが、ライブ放送またはビデオ通話などのリアルタイム通信シナリオである場合、ビデオピクチャを記録するプロセスにおいてオーディオを記録するための方法については、前述の方法を参照されたいことに留意されたい。ただし、ユーザによる撮影停止指示の操作が検出された後、すなわち、通信を停止する操作が検出された後は、記録されたビデオを生成する必要はなく、通信はそのまま停止される。一部のリアルタイム通信シナリオでは、ユーザは、記録されたビデオを記憶することを代替的に選択し得ることが理解され得る。ユーザの操作に応答して、電子デバイスは、リアルタイム通信シナリオにおいて記録されたビデオを記憶するかどうかを決定する。
【0045】
可能な実装形態では、記録されたビデオは、第3のオーディオをさらに含み、第3のオーディオは、第2の収音範囲に基づいて決定されたオーディオである。第2の収音範囲は、第1の収音範囲に基づいて決定される収音範囲であって、第1の収音範囲とは異なる収音範囲である。ビデオ再生インターフェースは、第1のコントロールおよび第2のコントロールを含み、第1のコントロールは、第2のオーディオに対応し、第2のコントロールは、第3のオーディオに対応する。
【0046】
一部の実施形態では、第1の特徴値に基づいて電子デバイスによって決定された第1の収音範囲と第1の顔画像または第1の口画像の表示範囲との間に誤差があり得るため、電子デバイスは、第1の収音範囲の近くの1つ以上の基準の第1の収音範囲を決定し得る。電子デバイスは、第1の収音範囲に基づいて1つのオーディオを取得し、基準の第1の収音範囲に基づいて少なくとも1つのオーディオを取得する。電子デバイスは、パノラマオーディオを1つのオーディオとしてさらに使用してもよい。この場合、電子デバイスは、第1の収音範囲に基づいて、第1の顔画像または第1の口画像に対応する複数のオーディオを取得することができる。1つのオーディオは、1つのオーディオファイルとして理解されてもよい。
【0047】
任意選択で、ビデオ記録機能は、シングルチャネルビデオ記録機能およびマルチチャネルビデオ記録機能を含んでもよい。シングルチャネルビデオ記録機能は、電子デバイスが、1つのビデオピクチャを記録するために、撮影プロセスにおいて1つのビューファインダフレームを表示することを意味する。マルチチャネルビデオ記録機能は、電子デバイスが撮影プロセスにおいて少なくとも2つのビューファインダフレームを表示し、各ビューファインダフレームが1つのビデオピクチャのために使用されることを意味する。マルチチャネルビデオ記録機能を使用するプロセスにおいて、各ビデオピクチャおよび対応するオーディオ収集方式については、シングルチャネルビデオ記録機能の実装形態を参照されたい。
【0048】
このようにして、電子デバイスは、異なる収音範囲に対応するオーディオを再生するように切り替えて、複数のオーディオ再生オプションをユーザに提供することができ、それによって、オーディオ調整機能を実装し、ユーザのオーディオ再生体験を改善する。
【0049】
可能な実装形態では、方法は、第4の操作に応答してビデオピクチャおよび第2のオーディオを再生するステップであって、第4の操作は、プレーヤコントロールを操作する操作または第1のコントロールを操作する操作を含む、ステップと、第2のコントロールを操作する第5の操作を検出するステップと、第5の操作に応答してビデオピクチャおよび第3のオーディオを再生するステップと、をさらに含む。
【0050】
別の可能な実装形態では、ビデオ再生中に、電子デバイスは、最初にオーディオを再生することなくビデオ再生インターフェースを表示することができる。ユーザの指示操作を検出した後、電子デバイスは、ユーザによって指示されたオーディオを再生する。
【0051】
可能な実装形態では、方法は、第2のオーディオまたは第3のオーディオを削除する操作に応答して、第2のオーディオまたは第3のオーディオを削除するステップをさらに含む。
【0052】
このようにして、ビデオ再生プロセスにおいて、ユーザが記憶することを望まないオーディオは、ユーザ要件に基づいて削除されることができ、それによって、ユーザの使用体験を改善する。
【0053】
第2の態様によれば、本出願は電子デバイスを提供する。電子デバイスは、プロセッサと、メモリと、マイクロフォンと、カメラと、ディスプレイとを含む。メモリ、マイクロフォン、カメラ、およびディスプレイは、プロセッサに結合される。メモリは、コンピュータプログラムコードを記憶するように構成され、コンピュータプログラムコードは、コンピュータ命令を含む。プロセッサがメモリからコンピュータ命令を読み出すと、電子デバイスは、カメラアプリケーションを開く第1の操作を検出するステップと、第1の操作に応答して、撮影プレビューインターフェースを表示するステップと、ビデオ記録を開始する第2の操作を検出するステップと、第2の操作に応答して、ビデオピクチャおよび第1のオーディオを収集し、撮影インターフェースを表示するステップであって、撮影インターフェースは、ビデオピクチャのプレビューインターフェースを含む、ステップと、ビデオピクチャ内のターゲット画像を認識するステップであって、ターゲット画像は、第1の顔画像および/または第1の口画像であり、第1の顔画像は、ビデオ画像内の発音オブジェクトの顔画像であり、第1の口画像は、ビデオ画像内の発音オブジェクトの口画像である、ステップと、ターゲット画像に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップと、第1の収音範囲および第1のオーディオに基づいて、ビデオピクチャに対応する第2のオーディオを取得するステップであって、第2のオーディオにおいて、第1の収音範囲内の音量は、第1の収音範囲外の音量よりも大きい、ステップと、を実行することを可能にされる。
【0054】
可能な実装形態では、ターゲット画像に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップは、ターゲット画像に基づいて第1の特徴値を取得するステップであって、第1の特徴値は、正面/背面属性パラメータ、面積比、または位置情報のうちの1つ以上を含み、正面/背面属性パラメータは、ビデオピクチャが正面カメラによって撮影されたビデオピクチャであるか、または背面カメラによって撮影されたビデオピクチャであるかを示すために使用され、面積比は、ビデオピクチャの面積に対するターゲット画像の面積の比を示すために使用され、位置情報は、ビデオピクチャ内のターゲット画像の位置を示すために使用される、ステップと、第1の特徴値に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップと、を含む。
【0055】
可能な実装形態では、第1の特徴値に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップは、ビデオピクチャが正面ビデオピクチャであるとき、第1の収音範囲が正面カメラ側の収音範囲であると決定するステップと、ビデオピクチャが背面ビデオピクチャであるとき、第1の収音範囲が背面カメラ側の収音範囲であると決定するステップと、を含む。
【0056】
可能な実装形態では、第1の特徴値に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップは、面積比と第1のオーディオの収音範囲とに基づいて、第1の収音範囲を決定するステップを含む。
【0057】
可能な実装形態では、第1の特徴値に基づいて、発音オブジェクトに対応する第1の収音範囲を決定するステップは、位置情報に基づいて、第1のオーディオの収音範囲における第1の収音範囲の位置を決定するステップを含む。
【0058】
可能な実装形態では、位置情報は、第1の基準点に対するターゲット画像の中心点の第1のオフセットを含み、第1の基準点は、ビデオピクチャの中心点または合焦の焦点である。位置情報に基づいて、第1のオーディオの収音範囲における第1の収音範囲の位置を決定するステップは、第1のオフセットに基づいて、第1のオーディオの収音範囲の中心点に対する第1の収音範囲の中心点の第2のオフセットを決定するステップであって、第2のオフセットは、第1のオフセットに正比例する、ステップと、第2のオフセットに基づいて、第1のオーディオの収音範囲における第1の収音範囲の位置を決定するステップと、を含む。
【0059】
可能な実装形態では、ビデオピクチャの中心点は、ビューファインダフレームの中心点であり、またはビデオピクチャの中心点は、ディスプレイの中心点である。
【0060】
可能な実装形態では、第1の収音範囲および第1のオーディオに基づいて、ビデオピクチャに対応する第2のオーディオを取得するステップは、第2のオーディオを取得するために、第1の収音範囲内にありかつ第1のオーディオ内にあるオーディオ信号を強調するステップ、および/または第1の収音範囲外にあり、かつ第1のオーディオ内にあるオーディオ信号を弱めるステップを含む。
【0061】
可能な実装形態では、電子デバイスは1つ以上のマイクロフォンを含み、1つ以上のマイクロフォンは、第1のオーディオを収集するように構成される。第1の収音範囲および第1のオーディオに基づいて、ビデオピクチャに対応する第2のオーディオを取得するステップは、1つ以上のマイクロフォンのうちの第1のマイクロフォンの収音範囲が第1の収音範囲の一部または全部を含む場合、第2のオーディオを取得するために、第1の収音範囲内にあり、第1のマイクロフォンの収音範囲内にあるオーディオ信号を強調するステップと、第1の収音範囲外にあり、第1のマイクロフォンの収音範囲内にあるオーディオ信号を弱めるステップと、1つ以上のマイクロフォンのうちの第1のマイクロフォン以外のマイクロフォンのオーディオ信号を弱めるステップと、のうちの少なくとも1つを実行するステップを含む。
【0062】
可能な実装形態では、電子デバイスは少なくとも2つのマイクロフォンを含み、少なくとも2つのマイクロフォンは、第1のオーディオを収集するように構成される。第1の収音範囲および第1のオーディオに基づいて、ビデオピクチャに対応する第2のオーディオを取得するステップは、少なくとも2つのマイクロフォンのうちの第2のマイクロフォンの収音範囲が第1の収音範囲を含まない場合、第2のマイクロフォンを無効にするステップであって、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンによって収集されるオーディオは、第2のオーディオである、ステップを含む。
【0063】
可能な実装形態では、第2のマイクロフォンが無効にされるとき、およびプロセッサがメモリからコンピュータ命令を読み出すと、電子デバイスは、第1の収音範囲内にあり、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンの収音範囲内にあるオーディオ信号を強調するステップ、および/または第1の収音範囲外にあり、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンの収音範囲内にあるオーディオ信号を弱めるステップを実行することをさらに可能にされる。
【0064】
可能な実装形態では、1つ以上の第1の顔画像が存在し、1つ以上の第1の口画像が存在する。
【0065】
可能な実装形態では、プロセッサがメモリからコンピュータ命令を読み出すと、電子デバイスは、撮影を停止する第3の操作を検出するステップと、第3の操作に応答して、記録を停止し、記録されたビデオを生成するステップであって、記録されたビデオは、ビデオピクチャおよび第2のオーディオを含む、ステップと、記録されたビデオを再生する第4の操作を検出するステップと、第4の操作に応答して、ビデオ再生インターフェースを表示し、ビデオピクチャおよび第2のオーディオを再生するステップと、を実行することを可能にされる。
【0066】
可能な実装形態では、記録されたビデオは、第3のオーディオをさらに含み、第3のオーディオは、第2の収音範囲に基づいて決定されたオーディオである。第2の収音範囲は、第1の収音範囲に基づいて決定される収音範囲であって、第1の収音範囲とは異なる収音範囲である。ビデオ再生インターフェースは、第1のコントロールおよび第2のコントロールを含み、第1のコントロールは、第2のオーディオに対応し、第2のコントロールは、第3のオーディオに対応する。
【0067】
可能な実装形態では、プロセッサがメモリからコンピュータ命令を読み出すと、電子デバイスは、第4の操作に応答してビデオピクチャおよび第2のオーディオを再生するステップであって、第4の操作は、プレーヤコントロールを操作する操作または第1のコントロールを操作する操作を含む、ステップと、第2のコントロールを操作する第5の操作を検出するステップと、第5の操作に応答してビデオピクチャおよび第3のオーディオを再生するステップと、を実行することをさらに可能にされる。
【0068】
可能な実装形態では、プロセッサがメモリからコンピュータ命令を読み出すと、電子デバイスは、第2のオーディオまたは第3のオーディオを削除する動作に応答して、第2のオーディオまたは第3のオーディオを削除するステップを実行することをさらに可能にされる。
【0069】
可能な実装形態では、プロセッサがメモリからコンピュータ命令を読み出すと、電子デバイスは、音声強調モードを有効にする第6の動作を検出するステップと、第6の動作に応答して音声強調モードを有効にするステップと、を実行することをさらに可能にされる。
【0070】
加えて、第2の態様による電子デバイスの技術的効果については、第1の態様によるオーディオ処理方法の技術的効果を参照されたい。ここでは詳細は説明されない。
【0071】
第3の態様によれば、本出願は電子デバイスを提供する。電子デバイスは、第1の態様または第1の態様の可能な実装形態のいずれか1つによるオーディオ処理方法を実装する機能を有する。機能は、ハードウェアによって実装されてもよく、または対応するソフトウェアを実行するハードウェアによって実装されてもよい。ハードウェアまたはソフトウェアは、機能に対応する1つ以上のモジュールを含む。
【0072】
第4の態様によれば、本出願は、コンピュータ命令を含むコンピュータ可読記憶媒体を提供する。コンピュータ命令が電子デバイス上で実行されると、電子デバイスは、第1の態様または第1の態様の可能な実装形態のいずれか1つによるオーディオ処理方法を実行することを可能にされる。
【0073】
第5の態様によれば、本出願は、コンピュータプログラム製品を提供する。コンピュータプログラム製品が電子デバイス上で実行されると、電子デバイスは、第1の態様または第1の態様の可能な実装形態のいずれか1つによるオーディオ処理方法を実行することを可能にされる。
【0074】
第6の態様によれば、回路システムが提供される。回路システムは処理回路を含み、処理回路は、第1の態様または第1の態様の可能な実装形態のいずれか1つによるオーディオ処理方法を実行するように構成される。
【0075】
第7の態様によれば、本出願の一実施形態は、少なくとも1つのプロセッサと少なくとも1つのインターフェース回路とを含むチップシステムを提供する。少なくとも1つのインターフェース回路は、トランシーバ機能を実行し、少なくとも1つのプロセッサに命令を送るように構成される。少なくとも1つのプロセッサが命令を実行すると、少なくとも1つのプロセッサは、第1の態様または第1の態様の可能な実装形態のいずれか1つによるオーディオ処理方法を実行する。
【図面の簡単な説明】
【0076】
図1】本出願の一実施形態による電子デバイスの構造の概略図である。
図2A】本出願の一実施形態によるカメラの概略レイアウト図である。
図2B(a)】本発明の一実施形態によるマイクロフォンの概略レイアウト図である。
図2B(b)】本発明の一実施形態によるマイクロフォンの概略レイアウト図である。
図2B(c)】本発明の一実施形態によるマイクロフォンの概略レイアウト図である。
図2B(d)】本発明の一実施形態によるマイクロフォンの概略レイアウト図である。
図3】本出願の一実施形態による電子デバイスのソフトウェア構造の概略ブロック図である。
図4(a)】本出願の一実施形態によるインターフェースのグループの概略図1である。
図4(b)】本出願の一実施形態によるインターフェースのグループの概略図1である。
図4(c)】本出願の一実施形態によるインターフェースのグループの概略図1である。
図4(d)】本出願の一実施形態によるインターフェースのグループの概略図1である。
図5】本出願の一実施形態による収音範囲の概略図1である。
図6】本出願の一実施形態によるオーディオ処理方法の概略フローチャート1である。
図7】本出願の一実施形態によるインターフェースの概略図1である。
図8】本出願の一実施形態によるインターフェースのグループの概略図2である。
図9】本出願の一実施形態による収音範囲の概略図2である。
図10(a)】本出願の一実施形態によるインターフェースのグループの概略図3である。
図10(b)】本出願の一実施形態によるインターフェースのグループの概略図3である。
図10(c)】本出願の一実施形態によるインターフェースのグループの概略図3である。
図11(a)】本出願の一実施形態によるインターフェースのグループの概略図4である。
図11(b)】本出願の一実施形態によるインターフェースのグループの概略図4である。
図11(c)】本出願の一実施形態によるインターフェースのグループの概略図4である。
図12(a)】本出願の一実施形態によるインターフェースのグループの概略図5である。
図12(b)】本出願の一実施形態によるインターフェースのグループの概略図5である。
図12(c)】本出願の一実施形態によるインターフェースのグループの概略図5である。
図13】本出願の一実施形態による座標系の概略図である。
図14】本出願の一実施形態によるオフセット角の概略図である。
図15】本出願の一実施形態によるオフセット距離の概略図である。
図16A(a)】本出願の一実施形態による第1の収音範囲の概略図1である。
図16A(b)】本出願の一実施形態による第1の収音範囲の概略図1である。
図16B(a)】本出願の一実施形態による第1の収音範囲の概略図2である。
図16B(b)】本出願の一実施形態による第1の収音範囲の概略図2である。
図16B(c)】本出願の一実施形態による第1の収音範囲の概略図2である。
図16C】本出願の一実施形態による第1の収音範囲の概略図3である。
図17】本出願の一実施形態によるインターフェースの概略図2である。
図18(a)】本出願の一実施形態によるインターフェースのグループの概略図6である。
図18(b)】本出願の一実施形態によるインターフェースのグループの概略図6である。
図18(c)】本出願の一実施形態によるインターフェースのグループの概略図6である。
図18(d)】本出願の一実施形態によるインターフェースのグループの概略図6である。
図19(a)】本出願の一実施形態によるインターフェースのグループの概略図7である。
図19(b)】本出願の一実施形態によるインターフェースのグループの概略図7である。
図19(c)】本出願の一実施形態によるインターフェースのグループの概略図7である。
図20(a)】本出願の一実施形態によるインターフェースのグループの概略図8である。
図20(b)】本出願の一実施形態によるインターフェースのグループの概略図8である。
図20(c)】本出願の一実施形態によるインターフェースのグループの概略図8である。
図21A】本出願の一実施形態によるオーディオ処理方法の概略フローチャート2である。
図21B】本出願の一実施形態によるオーディオ処理方法の概略フローチャート2である。
【発明を実施するための形態】
【0077】
添付の図面を参照して、以下では、本出願の実施形態において提供されるオーディオ処理方法および電子デバイスについて詳細に説明する。
【0078】
本出願の実施形態において提供されるオーディオ処理方法は、電子デバイスに適用され得る。例えば、電子デバイスは、具体的には、携帯電話、タブレットコンピュータ、ウェアラブルデバイス、車載デバイス、拡張現実(augmented reality、AR)/仮想現実(virtual reality、VR)デバイス、ノートブックコンピュータ、ウルトラモバイルパーソナルコンピュータ(ultra-mobile personal computer、UMPC)、ネットブック、携帯情報端末(personal digital assistant、PDA)、人工知能(artificial intelligence)デバイス、専用カメラ(例えば、一眼レフカメラまたはカードカメラ)などであってもよい。電子デバイスの具体的なタイプは、本出願の実施形態において限定されない。
【0079】
例えば、図1は、電子デバイス100の構造の概略図を示している。電子デバイス100は、プロセッサ110、外部メモリインターフェース120、内部メモリ121、ユニバーサルシリアルバス(universal serial bus、USB)インターフェース130、充電管理モジュール140、電力管理モジュール141、バッテリ142、アンテナ1、アンテナ2、移動通信モジュール150、ワイヤレス通信モジュール160、オーディオモジュール170、スピーカ170A、受信機170B、マイクロフォン170C、ヘッドセットジャック170D、センサモジュール180、ボタン190、モータ191、インジケータ192、カメラ193、ディスプレイ194、加入者識別モジュール(subscriber identification module、SIM)カードインターフェース195などを含み得る。
【0080】
プロセッサ110は、1つ以上の処理ユニットを含み得る。例えば、プロセッサ110は、アプリケーションプロセッサ(application processor、AP)、モデムプロセッサ、グラフィック処理装置(graphics processing unit、GPU)、画像信号プロセッサ(image signal processor、ISP)、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ(digital signal processor、DSP)、ベースバンドプロセッサ、および/またはニューラルネットワーク処理装置(neural-network processing unit、NPU)を含み得る。異なる処理ユニットは、独立したデバイスであってもよく、または1つ以上のプロセッサに統合されてもよい。
【0081】
コントローラは、電子デバイス100の中枢およびコマンドセンタであってもよい。コントローラは、命令フェッチおよび命令実行の制御を完了するために、命令オペレーションコードおよび時系列信号に基づいてオペレーション制御信号を生成してもよい。
【0082】
メモリがプロセッサ110にさらに配置されてもよく、命令およびデータを記憶するように構成される。一部の実施形態では、プロセッサ110内のメモリはキャッシュである。メモリは、プロセッサ110によって使用されたか、または周期的に使用される命令またはデータを記憶し得る。プロセッサ110が命令またはデータを再び使用する必要がある場合、プロセッサは、メモリから命令またはデータを直接呼び出すことができる。これは、繰り返されるアクセスを回避し、プロセッサ110の待ち時間を低減し、システム効率を改善する。
【0083】
本出願の一部の実施形態では、プロセッサ110は、画像のフレームに含まれる顔画像データおよび/または口画像データを取得するために、収集されたビデオピクチャ内の画像の複数のフレームに対して画像認識を実行する。上唇と下唇との間の距離の変化および顔の輪郭の変化のような、画像のフレームにおける顔画像データおよび/または口画像データの変化を比較することによって、画像のフレームにおける(すなわち、ビデオピクチャにおける)発音顔および/または発音口の位置および比率のような情報が決定される。また、ビデオピクチャ中の発音顔および/または発音口の位置および比などの情報に基づいて、強調すべき収音範囲が決定される。すなわち、パノラマオーディオにおいて音を発した人物の音の位置領域が決定される。収音範囲のオーディオ信号が強調されて、記録されたビデオのオーディオ品質を向上させる。任意選択で、外部ノイズの干渉を低減するために、収音範囲外のオーディオ信号がさらに弱められる。
【0084】
充電管理モジュール140は、充電器から充電入力を受信するように構成される。
【0085】
電力管理モジュール141は、バッテリ142、充電管理モジュール140、およびプロセッサ110を接続するように構成される。電力管理モジュール141は、バッテリ142および/または充電管理モジュール140から入力を受信し、プロセッサ110、ディスプレイ194、カメラ193などに電力を供給する。
【0086】
電子デバイス100のワイヤレス通信機能は、アンテナ1、アンテナ2、移動通信モジュール150、ワイヤレス通信モジュール160、モデムプロセッサ、ベースバンドプロセッサなどを使用することによって実装され得る。
【0087】
移動通信モジュール150は、電子デバイス100に適用され、2G/3G/4G/5Gなどを含むワイヤレス通信ソリューションを提供することができる。ワイヤレス通信モジュール160は、電子デバイス100に適用され、ワイヤレスローカルエリアネットワーク(wireless local area networks、WLAN)(例えば、ワイヤレスフィデリティ(wireless fidelity、Wi-Fi)ネットワーク)、ブルートゥース(登録商標)(bluetooth、BT)などを含むワイヤレス通信ソリューションを提供し得る。
【0088】
電子デバイス100は、GPU、ディスプレイ194、アプリケーションプロセッサなどを介してディスプレイ機能を実装することができる。GPUは、画像処理用のマイクロプロセッサであり、ディスプレイ194およびアプリケーションプロセッサに接続される。GPUは、数学的および幾何学的計算を実行し、画像をレンダリングするように構成される。プロセッサ110は、表示情報を生成または変更するためのプログラム命令を実行する1つ以上のGPUを含むことができる。
【0089】
ディスプレイ194は、画像、ビデオなどを表示するように構成される。ディスプレイ194は、表示パネルを含む。一部の実施形態では、電子デバイス100は、1つまたはN個のディスプレイ194を含み得、Nは、1よりも大きい正の整数である。
【0090】
一部の実施形態では、ディスプレイ194は、撮影プレビューインターフェース、ビデオ記録プレビューインターフェース、およびビデオ記録モードにおける撮影インターフェースを表示してもよく、ビデオ再生中にビデオ再生インターフェースなどをさらに表示してもよい。
【0091】
電子デバイス100は、ISP、カメラ193、ビデオコーデック、GPU、ディスプレイ194、アプリケーションプロセッサなどを用いて撮影機能を実装することができる。
【0092】
ISPは、カメラ193によってフィードバックされたデータを処理するように構成される。例えば、撮影の間、シャッタが押され、光がレンズを介してカメラの感光要素に送られる。光信号は電気信号に変換され、カメラの感光要素は、電気信号を処理のためにISPに送信し、電気信号を可視画像に変換する。ISPは、画像のノイズ、明るさ、および肌色に対してアルゴリズム最適化をさらに実行することができる。ISPは、撮影シナリオの露出および色温度などのパラメータをさらに最適化することができる。一部の実施形態では、ISPは、カメラ193内に配置されてもよい。例えば、本出願のこの実施形態では、ISPは、撮影パラメータに基づいて、露光および撮影を実行するように感光要素を制御することができる。
【0093】
カメラ193は、静止画像またはビデオをキャプチャするように構成される。被写体の光学像は、レンズを介して生成され、感光要素上に投影される。感光要素は、電荷結合素子(charge coupled device、CCD)または相補型金属酸化膜半導体(complementary metal-oxide-semiconductor、CMOS)光電トランジスタであってもよい。感光要素は、光信号を電気信号に変換し、次いで、電気信号をデジタル画像信号に変換するために、電気信号をISPに送信する。ISPは、デジタル画像信号を処理のためにDSPに出力する。DSPは、デジタル画像信号を標準フォーマット、例えばRGBまたはYUVの画像信号に変換する。
【0094】
一部の実施形態では、電子デバイス100は、1つまたはN個のカメラ193を含み得、Nは、1よりも大きい正の整数である。カメラ193は、電子デバイスのエッジ領域に位置されてもよく、アンダーディスプレイカメラであってもよく、または昇降カメラであってもよい。カメラ193は、背面カメラを含んでもよく、正面カメラをさらに含んでもよい。カメラ193の具体的な位置および形態は、本出願のこの実施形態において限定されない。
【0095】
例えば、電子デバイス100上のカメラのレイアウトについては、図2Aを参照されたい。電子デバイス100の前側は、ディスプレイ194が位置される平面である。図2Aの(a)に示されるように、カメラ1931は、電子デバイス100の正面に位置され、カメラは、正面カメラである。図2Aの(b)に示されるように、カメラ1932は電子デバイス100の背面に位置され、カメラは、背面カメラである。
【0096】
任意選択で、本出願の実施形態における解決策は、複数のディスプレイを有する折り畳み可能なスクリーン(すなわち、ディスプレイ194が折り畳まれることができる)を有する電子デバイス100に適用されてもよい。図2Aの(c)には、折り畳み可能なスクリーンを有する電子デバイス100が示されている。ユーザの操作に応答して、図2Aの(d)に示されるように、ディスプレイは、ディスプレイが少なくとも2つのスクリーン(例えば、スクリーンAおよびスクリーンB)を形成するように、折り畳みエッジに沿って内側に折り畳まれる(または外側に折り畳まれる)。図2Aの(e)に示されるように、折り畳まれたディスプレイの外側にディスプレイ(例えば、スクリーンC)がある。カメラが、スクリーンCが位置される表面上の電子デバイス100上に配置される場合、図2Aの(c)に示される電子デバイス100の展開されたシナリオでは、スクリーンC上のカメラは、電子デバイス100の背面上にあり、背面カメラと見なされ得る。図2Aの(e)に示される電子デバイス100の折り畳まれたシナリオでは、スクリーンC上のカメラは、電子デバイス100の前側になるようになり、正面カメラと見なされ得る。すなわち、この出願における正面カメラおよび背面カメラは、カメラの性質を限定せず、単に位置関係の説明である。
【0097】
したがって、電子デバイス100は、電子デバイス100上の使用されたカメラの位置に基づいて、カメラが正面カメラであるか背面カメラであるかを決定し、次いで、音を収集する方向を決定し得る。例えば、電子デバイス100が、電子デバイス100の背面に位置される背面カメラを使用することによって画像を現在収集している場合、電子デバイス100は、電子デバイス100の背面で音を収集することに焦点を当てる必要がある。別の例では、電子デバイス100が、電子デバイス100の正面に位置される正面カメラを使用することによって画像を現在収集している場合、電子デバイス100は、電子デバイス100の正面で音を収集することに焦点を当てる必要がある。このようにして、収集された音が収集された画像と一致し得ることが保証される。
【0098】
デジタル信号プロセッサは、デジタル信号を処理するように構成され、デジタル画像信号に加えて別のデジタル信号を処理してもよい。例えば、電子デバイス100が周波数を選択するとき、デジタル信号プロセッサは、周波数エネルギーに対してフーリエ変換を実行するように構成される。
【0099】
ビデオコーデックは、デジタルビデオを圧縮または解凍するように構成される。電子デバイス100は、1つ以上のタイプのビデオコーデックをサポートし得る。したがって、電子デバイス100は、複数のコーディングフォーマット、例えば、ムービングピクチャエキスパートグループ(moving picture experts group、MPEG)-1、MPEG-2、MPEG-3、およびMPEG-4でビデオを再生または記録することができる。
【0100】
NPUは、ニューラルネットワーク(neural-network、NN)コンピューティングプロセッサである。NPUは、生物学的ニューラルネットワークの構造、例えば、人間の脳ニューロン間の伝達モードを参照して入力情報を迅速に処理し、自己学習をさらに連続的に実行し得る。電子デバイス100のインテリジェント認知、例えば、画像認識、顔認識、発話認識、およびテキスト理解などのアプリケーションは、NPUを介して実装され得る。
【0101】
一部の実施形態では、NPUは、画像認識技術を使用することによって、カメラ193によって収集された画像が顔画像および/または口画像を含むかどうかを認識する。さらに、NPUは、顔画像および/または口画像のデータに基づいて、顔画像および/または口画像内の発音顔または発音口をさらに決定して、指向性音声記録が実行される必要がある収音範囲を決定してもよい。
【0102】
外部メモリインターフェース120は、電子デバイス100の記憶能力を拡張するために、外部記憶カード、例えば、Micro SDカードに接続するために使用され得る。外部記憶カードは、外部メモリインターフェース120を介してプロセッサ110と通信して、データ記憶機能を実装する。外部記憶カードには、例えば、音楽およびビデオなどのファイルが記憶される。
【0103】
内部メモリ121は、コンピュータ実行可能プログラムコードを記憶するように構成され得る。実行可能プログラムコードは、命令を含む。プロセッサ110は、電子デバイス100の種々の機能アプリケーションおよびデータ処理を実行するために、内部メモリ121に記憶された命令および/またはプロセッサに配置されたメモリに記憶された命令を実行する。
【0104】
電子デバイス100は、オーディオモジュール170、スピーカ170A、受信機170B、マイクロフォン170C、ヘッドセットジャック170D、アプリケーションプロセッサなどを介して、オーディオ機能、例えば、音楽再生および記録を実装することができる。
【0105】
オーディオモジュール170は、デジタルオーディオデータをアナログオーディオ電気信号出力に変換するように構成され、アナログオーディオ電気信号入力をデジタルオーディオデータに変換するようにさらに構成される。オーディオモジュール170は、アナログ-デジタル変換器およびデジタル-アナログ変換器を含んでもよい。例えば、オーディオモジュール170は、マイクロフォン170Cによって出力されたアナログオーディオ電気信号をデジタルオーディオデータに変換するように構成される。オーディオモジュール170は、オーディオデータを符号化および復号化するようにさらに構成され得る。一部の実施形態では、オーディオモジュール170は、プロセッサ110に配置されてもよく、またはオーディオモジュール170の一部の機能モジュールは、プロセッサ110に配置される。
【0106】
「ラウドスピーカ」とも称されるスピーカ170Aは、オーディオ電気信号を音信号に変換するように構成される。電子デバイス100は、スピーカ170Aを用いて、音楽を聴いたり、ハンズフリー通話に応答したりすることができる。
【0107】
「イヤピース」とも称される受信機170Bは、電気オーディオ信号を音信号に変換するように構成される。電子デバイス100を用いて電話がとられるときまたはオーディオ情報が聞かれるときには、レシーバ170Bは人の耳に近づけられて音声を聞くことができる。
【0108】
マイクロフォン170Cは、「マイク(mike)」または「マイク(mic)」とも称され、音信号を電気信号に変換するように構成される。ユーザは、通話を行ったり、発話情報を送信したりする際に、ユーザの口をマイクロフォン170Cに近づけて音を発し、音信号をマイクロフォン170Cに入力することができる。マイクロフォン170Cは、電子デバイス100に内蔵されていてもよいし、電子デバイス100に外付けされていてもよい。
【0109】
一部の実施形態では、電子デバイス100は、1つ以上のマイクロフォン170Cを含み得る。各マイクロフォンまたは複数のマイクロフォンは、種々の方向の音信号を収集し、収集された音信号をアナログオーディオ電気信号に変換する機能を実装するために協働してもよく、ノイズ低減、音源認識、または指向性音声記録機能をさらに実装してもよい。
【0110】
例えば、図2B(a)~図2B(d)に示されるように、電子デバイス100上の複数のマイクロフォンの2つの概略レイアウト図と、マイクロフォンに対応する収音範囲とが例として提供される。図2B(a)に示されるように、電子デバイス100が図に示される位置に配置されるとき、電子デバイス100の前側は、ディスプレイ194が位置される平面であり、マイクロフォン21は、電子デバイス100の上部に位置され(通常、イヤピースおよびカメラが位置される側)、マイクロフォン22は、電子デバイス100の右側に位置され、マイクロフォン23は、電子デバイス100の下部に位置される(図2B(a)に示される電子デバイス100の下部の一部は、現在の角度からは見えず、マイクロフォン23の位置は、点線を使用することによって概略的に示される)。
【0111】
以下の実施形態で説明する「上」、「下」、「左」、「右」は、図2B(a)~図2B(d)に示される向きを基準とすることに留意されたい。詳細については後述されない。
【0112】
図2B(b)に示される収音範囲の概略図において、マイクロフォン21に対応する収音範囲は、正面上方収音範囲と背面上方収音範囲とを含み、マイクロフォン22に対応する収音範囲は、正面中間収音範囲と背面中間収音範囲とを含み、マイクロフォン23に対応する収音範囲は、正面下方収音範囲と背面下方収音範囲とを含む。マイクロフォン21~23の組み合わせにより、電子デバイス100の周囲の種々の方向の音信号を収集することができる。正面カメラは正面収音範囲に対応してもよく、背面カメラは背面収音範囲に対応してもよい。そのため、電子デバイス100が正面カメラを用いてビデオを記録している場合には、収音範囲が正面収音範囲であると決定される。また、ビデオピクチャ中の発音顔または発音口の位置に基づいて、収音範囲が正面収音範囲に含まれる範囲であることがより正確に決定される。以下、具体的な方法が詳細に説明される。
【0113】
電子デバイス100は、より多くの数のマイクロフォンを代替的に含み得ることが理解され得る。図2B(c)に示されるように、電子デバイス100は、6つのマイクロフォンを備える。マイクロフォン24は電子デバイス100の上部に位置され、マイクロフォン25は電子デバイス100の左側に位置され、マイクロフォン26は電子デバイス100の下部に位置され、マイクロフォン27~29は電子デバイス100の右側に位置されている。図2B(c)に示される電子デバイス100の左側の部分は、現在の角度からは見えない部分であり、マイクロフォン25およびマイクロフォン26の位置は点線で模式的に示されている。図2B(d)に示される収音範囲の概略図では、マイクロフォン24に対応する収音範囲は正面上方収音範囲を含み、マイクロフォン25に対応する収音範囲は正面中間収音範囲を含み、マイクロフォン26に対応する収音範囲は正面下方収音範囲を含み、マイクロフォン27に対応する収音範囲は背面上方収音範囲を含み、マイクロフォン28に対応する収音範囲は背面中間収音範囲を含み、マイクロフォン29に対応する収音範囲は背面下方収音範囲を含む。マイクロフォン24~29の組み合わせにより、電子デバイス100の周囲の種々の方向の音信号を収集することができる。
【0114】
図2B(b)および図2B(d)に示されるように、電子デバイス100のマイクロフォンがオーディオ信号を収集する収音範囲は、部分的に、すなわち、図2B(b)および図2B(d)の影の部分で重なっている。オーディオ記録プロセスでは、重複部分におけるオーディオ信号が融合される必要がある。同じ方向について、マイクロフォンによって収集された音信号は、より良好な音質(例えば、より高い信号対ノイズ比ならびにより低いスパイクノイズおよびグリッチノイズ)を有し得、別のマイクロフォンによって収集された音信号は、より悪い音質を有し得る。この場合、対応する方向においてより良好な音質を有するオーディオデータが融合処理のために選択され、より良好な効果を有するオーディオが、処理されたオーディオデータに基づいて記録され、生成される。また、複数のマイクロフォンの収音範囲の中に、発音顔または発音口に対応する収音範囲が含まれる場合には、複数のマイクロフォンで収集されたオーディオデータが融合されて、発音顔または発音口に対応するオーディオを取得してもよい。
【0115】
一部の実施形態では、マイクロフォン170Cは、特定の方向の音信号を収集し得る指向性マイクロフォンであり得る。マイクロフォン170Cは、代替的に、種々の方向において音信号を収集する無指向性マイクロフォンであってもよく、または、電子デバイス100上のマイクロフォン170Cの位置に基づいて特定の範囲内の音信号を収集してもよい。
【0116】
一部の他の実施形態では、マイクロフォン170Cは回転され得、電子デバイス100は、マイクロフォンを回転させることによって収音方向を調整し得る。また、電子デバイス100は、発音顔または発音口に対応する収音範囲に対して、1つのマイクロフォン170Cを構成し、当該マイクロフォンを回転させることで種々の方向の収音を行ってもよい。電子デバイス100に複数のマイクロフォン170Cが構成されている場合には、異なるマイクロフォン170Cの組み合わせを使用して対応する収音範囲のオーディオ信号が収音されてもよい。例えば、電子デバイス100の全てのマイクロフォン170Cを収音に使用する必要はなく、一部のマイクロフォン170Cが収音に使用されてもよい。別の例では、一部のマイクロフォン170Cによって収集されたオーディオ信号が強調され、一部のマイクロフォン170Cによって収集されたオーディオ信号が弱められる。
【0117】
マイクロフォン170Cの数は、本出願のこの実施形態では特に限定されない。
【0118】
センサモジュール180は、圧力センサ180A、ジャイロセンサ180B、気圧センサ180C、磁気センサ180D、加速度センサ180E、距離センサ180F、光近接センサ180G、指紋センサ180H、温度センサ180J、タッチセンサ180K、環境光センサ180L、骨伝導センサ180Mなどを有していてもよい。
【0119】
距離センサ180Fは、距離を測定するように構成される。電子デバイス100は、赤外線方式またはレーザ方式で距離を測定することができる。一部の実施形態では、撮影シナリオでは、電子デバイス100は、距離センサ180Fを使用することによって距離を測定して、迅速な焦点合わせを実装してもよい。
【0120】
タッチセンサ180Kは、タッチパネルとも称される。タッチセンサ180Kは、ディスプレイ194上に配置されてよく、タッチセンサ180Kおよびディスプレイ194は、「タッチスクリーン」とも称されるタッチスクリーンを形成する。タッチセンサ180Kは、タッチセンサ上またはその近傍で行われたタッチ操作を検出するように構成される。
【0121】
例えば、本出願のこの実施形態では、電子デバイス100は、タッチセンサ180Kを使用することによって、ユーザによるビデオ記録開始指示および/またはビデオ記録停止指示を与える動作を検出し得る。
【0122】
本出願のこの実施形態に示される構造は、電子デバイス100に対する特定の限定を構成しないことが理解され得る。本出願の一部の他の実施形態では、電子デバイス100は、図に示されるものよりも多いまたは少ない構成要素を含むか、一部の構成要素を組み合わせるか、一部の構成要素を分割するか、または異なる構成要素配置を有してもよい。図に示される構成要素は、ハードウェア、ソフトウェア、またはソフトウェアとハードウェアの組み合わせを使用することによって実装され得る。
【0123】
電子デバイス100のソフトウェアシステムは、階層化アーキテクチャ、イベント駆動アーキテクチャ、マイクロカーネルアーキテクチャ、マイクロサービスアーキテクチャ、またはクラウドアーキテクチャを使用することができる。本発明のこの実施形態では、階層化アーキテクチャのAndroidシステムが、電子デバイス100のソフトウェア構造を示すための例として使用される。
【0124】
図3は、本発明の一実施形態による電子デバイス100のソフトウェア構造を示すブロック図である。
【0125】
階層化アーキテクチャでは、ソフトウェアは複数の層に分割され、各層は明確な役割およびタスクを有する。層は、ソフトウェアインターフェースを介して互いに通信する。一部の実施形態では、電子デバイスのオペレーティングシステム(例えば、Androidシステム)は、4つの層に分割され、それぞれ、下から上へ、カーネル層、ハードウェア抽象化層(hardware abstract layer、HAL)、アプリケーションフレームワーク層、およびアプリケーション層である。
【0126】
カーネル層は、ハードウェアとソフトウェアとの間の層である。カーネル層は、少なくとも、カメラドライバ、オーディオドライバ、ディスプレイドライバ、およびセンサドライバを含む。
【0127】
一部の実施形態では、例えば、ビデオ記録アプリケーションシナリオでは、タッチセンサ180Kは、カーネル層におけるセンサドライバを使用することによって、受信されたタッチ操作を上位層カメラアプリケーションに伝送する。タッチ操作がビデオ記録を開始する操作であることをカメラアプリケーションが認識した後、カメラアプリケーションは、カメラドライバを使用することによって、ビデオピクチャを記録するためにカメラ193を呼び出し、オーディオドライバを使用することによって、オーディオを記録するためにマイクロフォン170Cを呼び出す。前述のプロセスでは、対応するハードウェア割込みがカーネル層に送信され、カーネル層は、対応する操作を処理して元の入力イベントにすることができる(例えば、タッチ操作は、タッチ操作のタッチ座標およびタイムスタンプなどの情報を含む)。元の入力イベントはカーネル層に格納される。
【0128】
ハードウェア抽象化層(hardware abstract layer、HAL)は、カーネル層とアプリケーションフレームワーク層との間に位置され、アプリケーションドライバハードウェアによって実装されるインターフェースを定義し、ドライバハードウェアによって実装される値をソフトウェア実装プログラム言語に変換するように構成される。例えば、カメラサービスシステムを呼び出すために、カメラドライバの値が認識され、値がソフトウェアプログラム言語に変換され、ソフトウェアプログラム言語がアプリケーションフレームワーク層にアップロードされる。
【0129】
一部の実施形態では、HALは、カメラ193によって収集されたビデオピクチャに対して顔画像認識が実行された後に取得された生データを、さらなる処理のためにアプリケーションフレームワーク層にアップロードすることができる。顔画像認識後に取得された生データは、例えば、顔画像データおよび/または口画像データを含み得る。顔画像データは、発音顔画像の量、ビデオピクチャ内の発音顔画像の位置情報などを含むことができる。口画像データは、発音口画像の量、ビデオピクチャ内の発音口画像の位置情報などを含むことができる。
【0130】
例えば、顔画像データと口画像データの優先順位が予め設定されている。人の発声器官は人の口であり、発音口データを用いることで、収音範囲がより正確に決定されることができる。このため、口画像データの優先順位は、顔画像データの優先順位よりも高く設定される。例えば、HALは、収集されたビデオピクチャに基づいて発音顔画像データおよび発音口画像データを決定し、優先順位に基づいて、発音口データを生データとしてアップロードすることができる。続いて、オーディオ処理システムは、発音口画像データと、ビデオピクチャとパノラマオーディオとの対応関係とに基づいて、発音口画像に対応する収音範囲を決定する。別の例では、HALは、収集されたビデオピクチャに基づいて発音顔画像データのみを決定し、発音顔画像データを生データとしてアップロードして、発音顔画像に対応する収音範囲を決定する。さらに別の例では、HALは、ビデオピクチャに基づいて発音口画像データのみを決定し、発音口画像データを生データとしてアップロードして、発音口画像に対応する収音範囲を決定する。
【0131】
アプリケーションフレームワーク層は、アプリケーション層におけるアプリケーションのためのアプリケーションプログラミングインターフェース(application programming interface、API)およびプログラミングフレームワークを提供する。アプリケーションフレームワーク層は、HALを介してカーネル層から元の入力イベントを取得し、入力イベントに対応するコントロールを識別する。アプリケーションフレームワーク層は、一部の予め定義された機能を含む。
【0132】
図3に示されるように、アプリケーションフレームワーク層は、カメラサービスシステム、オーディオ処理システム、ビューシステム、電話マネージャ、リソースマネージャ、通知マネージャ、ウィンドウマネージャなどを含み得る。
【0133】
カメラサービスシステムは、カメラアプリケーションを提供し、カメラアプリケーションを呼び出して、カーネル層によって入力された元のイベントに基づいて画像を収集するために使用される。
【0134】
オーディオ処理システムは、オーディオデータを管理し、異なるオーディオアルゴリズムを使用することによってオーディオデータを処理するために使用される。例えば、オーディオ処理システムは、カメラサービスシステムと協働して、ビデオ記録プロセスにおいて収集されたオーディオ信号を処理する。例えば、オーディオ処理システムは、顔画像データに基づいて収音範囲を決定し、収音範囲内のオーディオ信号を強調し、収音範囲外のオーディオ信号を弱める。
【0135】
一部の実施形態では、カメラアプリケーションは、アプリケーションフレームワーク層でカメラサービスシステムを呼び出して、カメラアプリケーションを開始する。次いで、カーネル層を呼び出してカメラドライバが起動され、カメラ193を用いてビデオがキャプチャされる。オーディオ処理システムが呼び出され、カーネル層を用いてオーディオドライバが起動され、マイクロフォン170Cを用いて音信号が収集され、アナログオーディオ電気信号が生成され、オーディオモジュール170を用いてアナログオーディオ電気信号からデジタルオーディオデータが生成され、デジタルオーディオデータに基づいてオーディオが生成される。
【0136】
ビューシステムは、テキストを表示するためのコントロールおよび画像を表示するためのコントロールなどの視覚的コントロールを含む。ビューシステムは、アプリケーションを構築するように構成され得る。ディスプレイインターフェースは、1つ以上のビューを含み得る。例えば、メッセージの通知アイコンを含む表示インターフェースは、テキスト表示ビューおよびピクチャ表示ビューを含んでもよい。
【0137】
電話マネージャは、電子デバイス100の通信機能、例えば、呼状態(応答、拒否などを含む)の管理を提供するように構成される。
【0138】
リソースマネージャは、ローカライズされた文字列、アイコン、ピクチャ、レイアウトファイル、ビデオファイルなどの種々のリソースをアプリケーションに提供する。
【0139】
通知マネージャは、アプリケーションがステータスバーに通知情報を表示することを可能にし、通知タイプのメッセージを送信するように構成され得る。表示された情報は、短い一時停止の後、ユーザとの対話なしに自動的に消えてもよい。例えば、通知マネージャは、ダウンロード完了を通知すること、メッセージ通知を提供することなどを行うように構成される。通知マネージャは、代替的に、グラフまたはスクロールバーテキストの形態でシステムのトップステータスバーに現れる通知、例えば、バックグラウンドで実行中のアプリケーションの通知、またはダイアログウィンドウの形態でスクリーン上に現れる通知であってもよい。例えば、ステータスバーにテキスト情報が表示されたり、アナウンスが行われたり、電子デバイスが振動したり、インジケータライトが点滅したりする。
【0140】
ウィンドウマネージャはウィンドウプログラムを管理するように構成される。ウィンドウマネージャは、ディスプレイのサイズを取得し、ステータスバーがあるかどうかを決定し、スクリーンロックを実行し、スクリーンショットを撮影するなどしてもよい。
【0141】
アプリケーション層は、一連のアプリケーションパッケージを含んでもよい。
【0142】
図3に示されるように、アプリケーションパッケージは、カメラ、ビデオ、電話、WLAN、音楽、メッセージ、ブルートゥース(登録商標)、地図、カレンダー、ギャラリー、およびナビゲーションなどのアプリケーションを含み得る。
【0143】
アプリケーション層およびアプリケーションフレームワーク層は、仮想マシン上で動作する。仮想マシンは、アプリケーション層およびアプリケーションフレームワーク層のJavaファイルをバイナリファイルとして実行する。仮想マシンは、オブジェクトライフサイクル管理、スタック管理、スレッド管理、セキュリティおよび例外管理、ならびにガベージコレクションなどの機能を実行するように構成される。
【0144】
本出願の実施形態において提供されるオーディオ処理方法は、電子デバイスが図1および図3に示される構造を有する携帯電話である例を使用することによって以下で説明される。
【0145】
一部の実施形態では、本出願の実施形態における方法は、カメラアプリケーション(以下では略してカメラと称されることもある)を直接起動するためにユーザ指示が受信されるシナリオに適用されてよく、または、カメラを呼び出して起動するためにユーザが別のサードパーティアプリケーション(例えば、ショートビデオアプリケーション、ライブブロードキャストアプリケーション、またはビデオ通話アプリケーション)を起動するシナリオに適用されてもよい。
【0146】
以下では、説明のための例として、カメラが直接起動されるシナリオを使用する。
【0147】
任意選択で、ユーザは、タッチ操作、キーストローク操作、空中ジェスチャ操作、または音声操作などの方法で、カメラを起動し、撮影プレビューインターフェースを表示するように携帯電話に指示してもよい。例えば、図4(a)に示されるメインインターフェース401において、携帯電話は、ユーザによるカメラアイコン41をタップする操作に応答してカメラを起動し、図4(b)に示される撮影プレビューインターフェース402を表示する。あるいは、携帯電話は、ユーザによるカメラを開く音声指示操作に応答してカメラを起動し、図4(b)に示される撮影プレビューインターフェース402を表示する。コントロール421は、携帯電話の撮影機能、例えば、遅延撮影を設定するために使用される。コントロール422は、フィルタ機能を有効または無効にするために使用される。コントロール423は、フラッシュ機能を有効または無効にするために使用される。
【0148】
撮影プレビューインターフェース上で、カメラは、ユーザによる異なる機能コントロールをタップする操作に応答して、異なる機能間で切り替えることができる。例えば、図4(b)に示されるように、コントロール431~434が用いられて、カメラによって実装されることができる機能を切り替える。例えば、コントロール432が現在選択されており、撮影機能が開始される。別の例では、ユーザによるコントロール431のタップに応答して、カメラはポートレート撮影機能に切り替わる。あるいは、ユーザがコントロール433をタップする操作に応答して、カメラはビデオ記録機能に切り替わる。あるいは、ユーザがコントロール434をタップする操作に応じて、パノラマ撮影など、カメラが切り替え可能なより多くの機能が表示される。
【0149】
以下では、携帯電話がビデオ記録機能を開始してビデオピクチャおよびオーディオを記録する例を使用することによって説明を提供する。
【0150】
概して、携帯電話がカメラを起動した後、撮影機能はデフォルトで起動される。機能を切り替える操作が検出された後、例えば、ビデオ記録コントロールをタップする操作が検出された後、ビデオ記録機能が開始され、ビデオ記録プレビューインターフェースが表示される。例えば、カメラを起動した後、携帯電話は、デフォルトで図4(b)に示される撮影プレビューインターフェース402を表示する。ユーザによるコントロール433をタップする操作を検出した後、携帯電話は、ビデオ記録機能を開始し、図4(c)に示されるビデオ記録プレビューインターフェース403を表示する。代替的に、他の例では、携帯電話は、カメラを開始した後にデフォルトでビデオ記録機能を代替的に開始し得る。例えば、カメラを起動した後、携帯電話は、図4(c)に示されるビデオ記録プレビューインターフェース403を直接表示する。すなわち、ユーザによるカメラアプリケーションを開く操作を検出した後、携帯電話は、ビデオ記録機能を開始してもよい。さらに他の例では、携帯電話は、空中ジェスチャ、音声指示操作などを検出することによってビデオ記録機能を開始する。例えば、携帯電話がユーザから音声コマンド「カメラを開いてビデオ記録を実行する」を受信した場合、携帯電話は、カメラのビデオ記録機能を直接開始し、ビデオ記録プレビューインターフェースを表示する。さらに他の例では、別の可能な実装形態では、カメラを起動した後、携帯電話は、カメラが最後に閉じられる前に最後に適用された機能、例えば、ポートレート撮影機能をデフォルトで入力する。次いで、携帯電話は、ビデオ記録機能を開始する操作を検出することによってカメラのビデオ記録機能を開始し、ビデオ記録プレビューインターフェースを表示する。
【0151】
一部の実施形態では、ビデオ記録機能への切り替えが携帯電話によって検出された後、ユーザは、音声強調モードを有効にするかどうかをまず尋ねられる。ユーザが音声強調モードを有効にすることを決定した後、音声強調モードが可能にされる。あるいは、音声強調モードは、ビデオ記録機能への切り替えが携帯電話によって検出された後に自動的に可能にされる。一部の他の実施形態では、ビデオ記録機能への切り替えが携帯電話によって検出された後、ビデオ記録プレビューインターフェースが最初に表示され、次いで、ユーザによって撮影指示を与える操作が検出された後、音声強調モードがユーザ指示に基づいて可能にされるか、または音声強調モードが自動的に可能にされる。
【0152】
例えば、図4(b)に示されるように、ビデオ記録コントロール433をタップする操作に応答して、携帯電話は、図4(c)に示されるビデオ記録プレビューインターフェース403を表示し、ビデオ記録プレビューインターフェース403上にプロンプトボックス44を表示して、音声強調モードを有効にするかどうかをユーザに促す。携帯電話がユーザによる「はい」をタップする操作を検出した場合、携帯電話は、音声強調モードを有効にし、図4(d)に示される撮影インターフェース404を表示する。あるいは、撮影プレビューインターフェース402からビデオ記録機能に切り替えた後、携帯電話は、音声強調モードを直接有効にし、図4(d)に示される撮影インターフェース404を表示する。
【0153】
別の例では、ビデオ記録機能に切り替わった後、携帯電話は、図4(c)に示されるビデオ記録プレビューインターフェース403のみを表示する。次いで、ユーザによる撮影コントロール45をタップする操作に応答して、携帯電話は、プロンプトボックス44をさらに表示し、ユーザの選択に基づいて音声強調モードを有効にするかどうかを決定する。あるいは、ビデオ記録プレビューインターフェース403上で、ユーザによる撮影コントロール45をタップする操作を検出した後、携帯電話は、音声強調モードを直接有効にし、図4(d)に示される撮影インターフェース404を表示する。
【0154】
一部の他の実施形態では、ビデオ記録プレビューインターフェース上で、またはビデオピクチャを記録するプロセスにおいて、ユーザによる音声強調モードを有効または無効にする操作を検出した後、携帯電話は、音声強調モードを有効または無効にする。音声強調モードを有効にする操作は、例えば、予め設定されたコントロールをタップする操作または音声操作を含んでもよい。
【0155】
例えば、図4(c)に示されるビデオ記録プレビューインターフェース403上で、携帯電話は、コントロール46上でユーザによって実行される操作を検出することによって、音声強調モードを有効または無効にすることができる。例えば、コントロール46の現在の表示ステータスは、携帯電話が現在音声強調モードを有効にしていないことを示し、携帯電話は、ユーザによるコントロール46をタップする操作を検出した後に音声強調モードを有効にする。撮影開始前または撮影プロセス中に、携帯電話は、ユーザによるコントロール46をタップする操作を検出することによって、音声強調モードを有効または無効にすることができる。
【0156】
音声強調モードが可能にされた後、携帯電話は、ユーザによる撮影指示を与える操作を検出した後にビデオピクチャの記録を開始し、ビデオファイルを生成して記憶するために、収集されたビデオピクチャに対してビデオ符号化などの処理を実行してもよい。
【0157】
例えば、図4(c)に示されるビデオ記録プレビューインターフェース403上で、ユーザによる撮影コントロール45をタップする操作に応答して、携帯電話は、図4(d)に示される撮影インターフェース404を表示し、ビデオピクチャの記録を開始する。
【0158】
音声強調モードは、撮影されたビデオのビデオピクチャ内の一部の特定のオブジェクトのオーディオ収集を強調するために使用され、それによって、オーディオ記録効果を改善する。例えば、ユーザがインタビュープロセスにおいてカメラを使用することによってビデオ記録を実行する場合、ユーザは、インタビューされた人の音声を収集することに焦点を当てる必要がある。ユーザによる撮影指示を与える操作は、例えば、撮影コントロールをタップする操作および音声指示操作などの複数の操作方式を含んでもよい。
【0159】
例えば、図5の(a)に示されるように、大円501は、携帯電話の全ての現在のマイクロフォンが収音を実行することができる最大範囲(パノラマ収音範囲として説明されてもよい)を表すために使用され、小円502は、ユーザが関心を持っている人(通常、音を発している人)に対応する収音範囲を表すために使用される。また、例えば、図5の(b)に示されるように、ユーザが関心を持つ人物の収音範囲(すなわち、収音範囲1)は、パノラマ収音範囲内である。本出願のこの実施形態では、音声記録が強化される必要がある収音範囲は、記録されたビデオピクチャ内のユーザが関心を持つ人物の画像の位置情報に基づいて決定されてもよい。すなわち、図5(b)に示される収音範囲1におけるオーディオ記録効果が向上される。このため、記録されたオーディオにおいて、パノラマオーディオにおける他のノイズがユーザが関心を持つ人物の発する音に与える影響が低減される。
【0160】
一部の実施形態では、携帯電話によって認識され、音を発している顔画像は、第1の顔画像として説明されてもよく、音を発している口画像は、第1の口画像として説明されてもよく、または発音顔画像もしくは発音口画像として説明されてもよい。ビデオピクチャ内で音を発している1人以上の人がいる場合がある。したがって、第1の顔画像は1つ以上存在し、第1の口画像は1つ以上存在する。現在撮影されているビデオピクチャにおいて何人かの人物が音を発しているが、その人物が音を発していることを携帯電話が認識できない場合、音を発している認識されていない人物の顔画像または口画像は、第1の顔画像または第1の口画像として分類されないことが理解され得る。
【0161】
したがって、携帯電話が音声強調モードを有効にし、ビデオピクチャの記録を開始した後、携帯電話は、第1の顔画像または第1の口画像を認識する必要があり、第1の顔画像または第1の口画像に基づいて、音声記録効果が強調される必要がある第1の収音範囲を決定して、より良好な音声記録効果を取得する。
【0162】
例えば、第1の収音範囲を決定した後、携帯電話は、第1の収音範囲に対応するマイクロフォンを呼び出して、第1の収音範囲内のオーディオ信号を強調する。一部のシナリオでは、携帯電話は1つ以上のマイクロフォンを含み、1つ以上のマイクロフォンは、第1のオーディオ(すなわち、初期オーディオ信号)を収集するように構成される。1つ以上のマイクロフォンのうちの第1のマイクロフォンの収音範囲が第1の収音範囲の一部または全部を含む場合、第1の収音範囲内にあり第1のマイクロフォンの収音範囲内にあるオーディオ信号が強調され、第1の収音範囲外にあり第1のマイクロフォンの収音範囲内にあるオーディオ信号が弱められ、かつ/または1つ以上のマイクロフォンのうちの第1のマイクロフォン以外のマイクロフォンのオーディオ信号が弱められて、第2のオーディオ(すなわち、第1の顔画像または第1の口画像に対応するオーディオ)が取得される。一部の他のシナリオでは、携帯電話は少なくとも2つのマイクロフォンを含み、少なくとも2つのマイクロフォンは、第1のオーディオを収集するように構成される。少なくとも2つのマイクロフォンのうちの第2のマイクロフォンの収音範囲が第1の収音範囲を含まない場合、第2のマイクロフォンは無効にされ、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンによって収集された音声は第2のオーディオである。代替的に、第2のマイクロフォンが無効にされるとき、第1の収音範囲内にあり、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンの収音範囲内にあるオーディオ信号が強調され、かつ/または第1の収音範囲外にあり、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンの収音範囲内にあるオーディオ信号が弱められる。
【0163】
例えば、マイクロフォン1およびマイクロフォン2が携帯電話上に構成される。第1の収音範囲がマイクロフォン1の収音範囲内にある場合、マイクロフォン1およびマイクロフォン2を用いて初期オーディオ信号を取得した後、携帯電話は、初期オーディオ信号内にあり、第1の収音範囲内にあり、マイクロフォン1によって収集されたオーディオ信号を強調し、初期オーディオ信号内にあり、第1の収音範囲外にあり、マイクロフォン1によって収集されたオーディオ信号を弱め、マイクロフォン2によって収集されたオーディオ信号を弱めて、第1の顔画像または第1の口画像に対応するオーディオを取得してもよい。あるいは、携帯電話は、第1の顔画像または第1の口画像に対応するオーディオを取得するために、マイクロフォン2を無効にし、マイクロフォン1によって収集されたオーディオ信号内の第1の収音範囲内のオーディオ信号を強調し、マイクロフォン1によって収集されたオーディオ信号内の第1の収音範囲外のオーディオ信号を弱める。別の例では、マイクロフォン1およびマイクロフォン2が携帯電話上に構成される。第1の収音範囲は、マイクロフォン1の収音範囲である収音範囲1と、マイクロフォン2の収音範囲である収音範囲2とを含む。すなわち、第1の収音範囲は、収音範囲1と収音範囲2との和集合である。この場合、マイクロフォン1およびマイクロフォン2を使用することによって初期オーディオ信号を取得した後、携帯電話は、第1の顔画像または第1の口画像に対応するオーディオを取得するために、マイクロフォン1の収音範囲1内にあり、初期オーディオ信号内にあるオーディオ信号と、マイクロフォン2の収音範囲2内にあり、初期オーディオ信号内にあるオーディオ信号とを強調し、初期オーディオ信号内の残りのオーディオ信号を弱めることができる。収音範囲1と収音範囲2とは、完全に重なっていてもよいし、部分的に重なっていてもよいことが理解され得る。
【0164】
例えば、撮影インターフェース404が図4(d)に示されており、撮影インターフェース404は、ビデオピクチャを表示するために使用されるビューファインダフレーム48を含む。ビューファインダフレーム48に対応する収音範囲は、現在記録されているビデオピクチャの最大収音範囲である。現在記録されているビデオピクチャにおいて、携帯電話は、第1の顔画像47を認識し、第1の顔画像は、ビューファインダフレーム48の中心位置に位置されると仮定される。この場合、携帯電話は、第1の収音範囲が最大収音範囲の中心位置であると決定する。携帯電話は、第1の収音範囲のオーディオ信号を強調する。任意選択で、プロンプトボックス49が撮影インターフェース404上に表示され、中間位置の音声記録効果が現在強化されていることをユーザに促すために使用される。プロンプトボックス49は、撮影プロセスにおいて連続的に表示されてもよく、表示される内容は、第1の収音範囲の変化とともに変化する。プロンプトボックス49は、撮影が停止された後に自動的に隠される。代替的に、プロンプトボックス49は、予め設定された期間のみ表示され、予め設定された期間の後に自動的に消えて、ビューファインダフレーム48に表示されるビデオピクチャを遮ることを回避する。
【0165】
オーディオを記録するプロセスにおいて、携帯電話は、第1の収音範囲内のオーディオ信号を強調することによって、発音顔または発音口に対応するオーディオを取得して、発音顔または発音口に対する受音効果を強化し、それによって、外部ノイズの干渉を低減し得ることが知見され得る。さらに、第1の収音範囲内のオーディオ信号を強調することに基づいて、第1の収音範囲外のオーディオ信号がさらに弱められて、より良好な音声記録効果を取得することができる。あるいは、第1の収音範囲外のオーディオ信号のみが弱められて、外部ノイズの干渉を低減する。
【0166】
図6は、本出願の一実施形態によるオーディオ処理方法の概略フローチャートである。以下、図6に示されるステップS601~S604を用いて、図4(a)~図4(d)で説明された、携帯電話が第1の顔画像または第1の口画像を認識し、音声強調が必要とされる第1の収音範囲を決定し、第1の収音範囲に対応するオーディオを取得する処理を詳細に説明する。
【0167】
S601:携帯電話は、第1の顔画像または第1の口画像を認識する。
【0168】
任意選択で、携帯電話は、顔画像認識アルゴリズムを使用することによって、第1の顔画像または第1の口画像を認識してもよい。例えば、携帯電話によってビデオピクチャを記録するプロセスにおいて、顔画像認識アルゴリズムを使用することによって、収集されたビデオピクチャに顔画像が含まれているかどうかが決定される。顔画像が含まれる場合、収集されたビデオピクチャに含まれる顔画像が認識され、顔画像が音を発しているかどうかが、予め設定された期間における顔画像の5つの感覚器官データおよび顔輪郭データなどの顔特徴データの変化ステータスに基づいて決定される。顔画像が音を発していると決定するための基準は、携帯電話によって、顔画像が現在音を発していると決定することを含む。代替的に、携帯電話が、顔画像が最初に音を発していると決定した後、予め設定された期間内に顔画像が再び音を発していると決定した場合、携帯電話は、顔画像が音を発していると決定する。人の発声器官は、人の口であることが理解され得る。また、発音口のデータが取得された場合には、第1の口画像のデータが優先的に決定され、第1の口画像のデータに基づいて第1の収音範囲がその後決定されてもよい。
【0169】
例えば、図7に示されるインターフェース701上で、携帯電話は、顔画像71を収集し、顔画像認識アルゴリズムを使用することによって、顔画像71に対応する顔特徴キーポイント(例えば、顔画像71が音を発しているかどうかを決定するために、顔画像71上に表示される円形特徴点)を認識し、顔データおよび/または口データを取得し得る。例えば、顔特徴点は、上唇特徴点および下唇特徴点を含み、上唇特徴点および下唇特徴点に基づいて上唇と下唇との間の距離がリアルタイムで取得されてもよい。したがって、顔画像の上唇と下唇との間の距離閾値が予め設定される。携帯電話が、顔画像の上唇と下唇との間の距離が距離閾値を超えることを最初に検出した後の予め設定された期間において、携帯電話が、顔画像の上唇と下唇との間の距離が距離閾値を超えることを検出した回数が予め設定された回数を超える場合、携帯電話は、現在の顔画像が音を発していると決定する。
【0170】
また、顔特徴点は、顔輪郭特徴点をさらに含んでもよい。この場合、携帯電話は、顔の輪郭特徴点に基づいて顎の変化のデータ、顔の筋肉の変化のデータなどを取得して、顔画像が音を発しているかどうかを決定することができる。例えば、予め設定された期間において、顎が上下に動くことによって生成されたデータを変更する回数が予め設定された閾値を超える場合、現在の顔画像が音を発していると決定される。もちろん、携帯電話は、喉頭隆起変化データのような、口に対応する他のデータの変化に基づいて、発音顔または発音口を代替的に決定してもよい。加えて、携帯電話は、顔データおよび口データを参照して、第1の顔画像または第1の口画像のより正確な認識をさらに実装することができる。
【0171】
顔画像認識アルゴリズムについては、従来技術に含まれる顔画像認識アルゴリズムを参照されたいことに留意されたい。顔認識アルゴリズムおよび顔認識アルゴリズムの計算プロセスは、本出願のこの実施形態では詳細に説明されない。
【0172】
1つ以上の第1の顔画像が存在する。複数の第1の顔画像が存在するシナリオでは、すなわち、複数の顔画像が同時に音を発するか、または複数の顔画像が第1の予め設定された期間内に連続して音を発するシナリオでは、携帯電話は、比較的小さい顔画像領域を有する顔画像、またはビデオピクチャの端にある顔画像を除外することができ、その顔画像を第1の顔画像と見なさない。概して、ビデオピクチャを記録するプロセスでは、ユーザは、カメラをユーザが関心を持つ人物に向ける。従って、ユーザが関心を持つ顔画像は、比較的大きな面積を有する顔画像、またはビデオピクチャの中央もしくは中央付近に表示される顔画像であるべきである。すなわち、ユーザが関心を持つ収音範囲は、概して、ユーザが関心を持つピクチャ範囲内の音であり、音声強調は、ピクチャ範囲内で実行される必要がある。第1の予め設定された期間は、予め構成された短い時間範囲であってもよい。例えば、携帯電話は、ユーザAが音を発していると決定し、ユーザAが音を発することを停止した時点で計時を開始し、第1の事前設定期間において、ユーザBが音を発し始めたことを検出する。さらに、携帯電話は、ユーザBが音を発することを停止した後の第1の予め設定された期間において、ユーザAが再び音を発し始めることを検出する。すなわち、ビデオ記録プロセスにおいて、ユーザAが音を発した直後にユーザBが音を発した場合、またはユーザAとユーザBとが交互に音を発した場合、ユーザAおよびユーザBに対応する顔画像が第1の顔画像として決定され得る。したがって、短い時間範囲内の第1の顔画像に対応する収音範囲を頻繁に決定することが回避され得、それにより、データ処理量を低減し、効率を改善する。
【0173】
この場合、複数の発音顔画像を認識した後、携帯電話は、最大面積を有する顔画像またはビデオピクチャの中心に最も近い顔画像を決定し、顔画像と、顔画像との面積差が予め設定された閾値未満である発音顔画像とを第1の顔画像として決定するか、または顔画像と、顔画像の近くの予め設定された範囲内の発音顔画像とを第1の顔画像として決定して、第1の顔画像に基づいて第1の収音範囲を決定する。同様に、携帯電話が複数の第1の口画像を決定するシナリオは、携帯電話が複数の第1の顔画像を決定するシナリオと同じであり、詳細は説明されない。ビデオピクチャの中心点は、例えば、ビューファインダフレームの中心点および携帯電話の表示スクリーンの中心点を含む。
【0174】
S602:携帯電話は、第1の顔画像または第1の口画像に対応する第1の特徴値を取得する。
【0175】
S603:携帯電話は、第1の特徴値に基づいて第1の収音範囲を決定する。
【0176】
第1の特徴値は、第1の顔画像に対応する現実の人の顔と携帯電話との間の相対的な位置関係を記述するために使用され、または、第1の特徴値は、第1の口画像に対応する現実の人の口と携帯電話との間の相対的な位置関係を記述するために使用される。したがって、携帯電話は、第1の特徴値に基づいて第1の収音範囲を決定することができる。例えば、第1の顔画像に対応する現実の人物が携帯電話の真正面に位置される場合、すなわち、第1の顔画像が撮影されたビデオピクチャの中心位置に位置される場合、第1の収音範囲は、携帯電話の真正面収音範囲である。続いて、種々の方向におけるオーディオ信号を含む初期オーディオ信号を取得した後、携帯電話は、初期オーディオ信号および第1の収音範囲に基づいて、第1の顔画像に対応するオーディオを取得することができる。第1の特徴値は、正面/背面属性パラメータ、面積比、または位置情報のうちの1つ以上を含む。正面/背面属性パラメータ、面積比、および位置情報は、第1の顔画像または第1の口画像に基づいて携帯電話によって決定されるパラメータである。パラメータの意味については、以下の説明を参照されたい。
【0177】
以下は、第1の特徴値が異なるパラメータを含むときに、携帯電話によって第1の収音範囲を決定するための具体的な方法を説明する。
【0178】
解決策1:第1の特徴値は、第1の顔画像の正面/背面属性パラメータを含むか、または第1の特徴値は、第1の口画像に対応する正面/背面属性パラメータを含む。
【0179】
「正面/背面属性パラメータ」は、第1の顔画像または第1の口画像を含むビデオピクチャが、正面カメラによって撮影されたビデオピクチャ(説明を簡単にするために、本明細書では正面ビデオピクチャとも称される)であるか、背面カメラによって撮影されたビデオピクチャ(説明を簡単にするために、本明細書では背面ビデオピクチャとも称される)であるかを示すために使用される。正面/背面属性パラメータは、第1の収音範囲が携帯電話の180度正面範囲にあるか180度背面範囲にあるかを決定するために使用されることができる。例えば、図2B(b)に示されるように、正面ビデオピクチャに対応する収音範囲は、楕円204、楕円205、および楕円206で表される範囲を含み、背面ビデオピクチャに対応する収音範囲は、楕円201、楕円202、および楕円203で表される範囲を含んでもよい。
【0180】
例えば、携帯電話のビューファインダフレームに表示されるビデオピクチャは、正面カメラによって収集されたピクチャと背面カメラによって収集されたピクチャとの間で切り替えられてもよい。図8(a)に示される撮影インターフェース801において、携帯電話は音声強調モードにあり、発音顔画像81が存在すると決定する。携帯電話が、発音顔画像81が位置されるビデオピクチャが正面カメラによって収集されたビデオピクチャであると決定した場合、すなわち、第1の特徴値が正面属性パラメータであると決定した場合、携帯電話は、第1の収音範囲が180°の正面範囲内にあると決定し、正面音声記録効果が現在強化されていることをユーザに促すためのプロンプトボックス82を表示する。
【0181】
さらに、撮影インターフェース801は、正面カメラと背面カメラとの間で切り替えるために使用される正面/背面切り替えコントロール83をさらに含む。例えば、携帯電話は、ユーザが正面/背面切り替えコントロール83をタップする操作に応答して、正面カメラから背面カメラに切り替えることができる。したがって、携帯電話によって表示されるビデオピクチャは、図8の(a)に示される撮影インターフェース801上に表示される、正面カメラによって収集されたビデオピクチャから、図8の(b)に示される撮影インターフェース802上に表示される、背面カメラによって収集されたビデオピクチャに切り替えられる。携帯電話が現在のビデオピクチャ内の発音顔画像84を認識した場合、携帯電話は、第1の特徴値が背面属性パラメータ情報であると決定し、第1の収音範囲が携帯電話の180°背面範囲内にあると決定する。携帯電話は、プロンプトボックス85を表示して、背面音声記録効果が現在強化されていることをユーザに促す。
【0182】
図2B(b)に示されるように、背面ビデオピクチャに対応する収音範囲は、楕円201、楕円202、および楕円203で表される範囲であり、正面ビデオピクチャに対応する収音範囲は、楕円204、楕円205、および楕円206で表される範囲である。例えば、携帯電話が、第1の特徴値に基づいて、第1の顔画像が背面のビデオピクチャに対応すると決定した場合、携帯電話は、第1の収音範囲が楕円201、楕円202、および楕円203によって表される範囲であると決定する。代替的に、図2B(d)を参照すると、携帯電話が、第1の特徴値に基づいて、第1の顔画像が背面ビデオピクチャに対応すると決定した場合、携帯電話は、第1の収音範囲がマイクロフォン27、マイクロフォン28、およびマイクロフォン29に対応する収音範囲であると決定する。
【0183】
解決策2:第1の特徴値は、第1の顔画像に対応する面積比を含むか、または第1の特徴値は、第1の口画像に対応する面積比を含む。
【0184】
「面積比」は、ビデオピクチャの面積に対する第1の顔画像または第1の口画像の面積の比を示すために使用される。面積比は、マイクロフォンがオーディオを収集する半径範囲(または直径範囲)を測定するために使用される。
【0185】
具体的には、ユーザが携帯電話を使用してビデオピクチャを撮影するプロセスでは、ユーザが関心を持つ人物は、通常、ビデオピクチャの中心位置に配置され、すなわち、第1の顔画像または第1の口画像は、ビューファインダフレームの中心位置に位置される。第1の顔画像または第1の口画像の異なる領域は、異なる収音範囲に対応する。例えば、図9に示されるように、携帯電話が、それぞれ第1の顔画像1および第1の顔画像2である、異なる期間における2つの第1の顔画像を決定すると仮定される。2つの顔画像の面積は異なり、第1の顔画像1の面積は第1の顔画像2の面積よりも大きい。この場合、図9に示されるように、第1の顔画像1に基づいて決定される収音範囲が収音範囲1であり、第1の顔画像2に基づいて決定される収音範囲が収音範囲2である。収音範囲1は収音範囲2よりも大きい。
【0186】
一部の実施形態では、以下の表1に示されるように、Xは、第1の顔画像の領域または第1の口画像の領域を表すために使用され、Yは、ビューファインダフレーム内に表示されるビデオピクチャの領域を表すために使用され、Nは、フレーミング範囲に対応する収音範囲を表す。
【0187】
【表1】
【0188】
一部の実施形態では、面積比は、ビューファインダフレーム内に表示されたビデオピクチャの面積に対する第1の顔画像の面積の比を示すために使用される。1つ以上の第1の顔画像が存在し得る。したがって、第1の顔画像の面積は、1つの顔画像の面積または複数の顔画像の面積の和である。複数の顔画像の面積の和は、複数の顔画像が位置されるプレースホルダフレームの面積、すなわち、複数の顔画像を含む最小選択フレームの面積を使用することによって表され得る。
【0189】
例えば、図10(a)に示されるインターフェース1001において、第1の顔画像の数は1である。携帯電話によって顔画像認識を実行するプロセスにおいて、第1の顔画像11の顔領域をフレーミングするための点線ボックス101が、顔画像11の顔特徴点における額の上部の特徴点の位置、顎の下部の特徴点の位置、および耳を含まない左右の顔の最縁部上の特徴点の位置に基づいて決定され、フレーミングされた範囲内の画像領域が、第1の顔画像の領域である。すなわち、第1の顔画像の領域を決定するプロセスでは、顔領域のみが計算され、耳、帽子、宝石、首などの影響は除外される。ビューファインダフレーム内に表示されるビデオピクチャの領域は、点線ボックス102のフレーミングされた範囲内の画像領域である。したがって、携帯電話は、認識された点線ボックス101および点線ボックス102に対応する面積比に基づいて面積比を決定してもよい。続いて、第1の顔画像の領域を決定するための方法については、第1の顔画像の領域を決定するための現在の方法を参照されたい。詳細については再度説明されない。
【0190】
別の例として、図10(b)に示されるインターフェース1002上では、2つの顔画像がインターフェース1002上に表示され、2つの顔画像は両方とも、発音する第1の顔画像として携帯電話によって認識される。右側の顔画像12の領域は、点線ボックス103のフレーミングされた範囲内の画像領域であり、左側の顔画像13の領域は、点線ボックス104のフレーミングされた範囲内の画像領域である。この場合、第1の顔画像の領域は、点線ボックス105のフレーミングされた範囲内の画像領域、すなわち、全ての顔画像を含む最小の選択フレームの領域(例えば、全ての顔画像の領域選択フレームのエッジ限界値に基づいて決定される総フレーム領域)となる。点線ボックス105は、顔画像12および顔画像13が位置されるプレースホルダフレームを表すために使用される。第1の顔画像の最終的に決定された領域は、2つの顔画像に対応する画像領域を含む。ビューファインダフレーム内に表示されるビデオピクチャの領域は、点線ボックス106のフレーミングされた範囲内の画像領域である。したがって、携帯電話は、認識された点線ボックス105および点線ボックス106に対応する面積比に基づいて面積比を決定してもよい。
【0191】
複数の顔が音を発するシナリオでは、図10(c)に示されるインターフェース1003上で、ビデオピクチャ内の2人の人物が両方とも音を発している場合、携帯電話は、右側の顔画像14が最大面積を有すると決定する。携帯電話は、予め設定された閾値を使用することによって、ユーザが関心を持たない一部の発音顔画像を除外してもよい。例えば、予め設定された閾値は、最大顔画像領域の20%未満である。例えば、インターフェース1003上で、携帯電話は、左側にあり、その面積が右側の顔画像14の面積の20%未満である顔画像15を除外してもよい。この場合、第1の顔画像は、右側の顔画像14を含む。別の例では、予め設定された閾値は、最大面積を有する顔画像からの距離が、ビューファインダフレーム内に表示されるビデオピクチャの長さまたは幅の35%を超えることである。例えば、インターフェース1003上で、携帯電話は、左側にあり、右側の顔画像14からの距離がビューファインダフレーム内に表示されるビデオピクチャの長さの35%を超える顔画像15を除外してもよい。この場合、第1の顔画像は、右側の顔画像14を含む。
【0192】
一部の他の実施形態では、面積比は、ビューファインダフレーム内に表示されたビデオピクチャの面積に対する第1の口画像の面積の比を示すために使用される。1つ以上の第1の口画像が存在し得る。したがって、第1の口画像の面積は、1つの口画像の面積または複数の口画像に対応する面積の和である。複数の口画像の面積の和は、複数の口画像が位置されるプレースホルダフレームの面積、すなわち、複数の口画像を含む最小選択フレームの面積を使用することによって表され得る。
【0193】
例えば、図11(a)に示されるインターフェース1101において、第1の口画像の数は1である。携帯電話によって顔画像認識を実行するプロセスにおいて、第1の口画像16の領域をフレーミングするための点線ボックス111が、顔特徴点における口画像の特徴点のうちの上端下端、左端、および右端の特徴点の位置に基づいて決定され、フレーミングされた範囲内の画像領域が、第1の口画像の領域である。ビューファインダフレーム内に表示されるビデオピクチャの領域は、点線ボックス112のフレーミングされた範囲内の画像領域である。したがって、携帯電話は、認識された点線ボックス111および点線ボックス112に対応する面積比に基づいて面積比を決定してもよい。続いて、第1の口画像の領域を決定するための方法については、第1の画像の領域を決定するための現在の方法を参照されたい。詳細については再度説明されない。
【0194】
別の例として、図11(b)に示されるインターフェース1102上では、2つの口画像がインターフェース1102上に表示され、2つの口画像は両方とも、発音する第1の口画像として携帯電話によって認識される。右側の第1の口画像17の領域は、点線ボックス113のフレーミングされた範囲内の画像領域であり、左側の第1の口画像18の領域は、点線ボックス114のフレーミングされた範囲内の画像領域である。この場合、第1の口画像の領域は、点線ボックス115のフレーミングされた範囲内の画像領域、すなわち、全ての口画像を含む最小選択フレームの領域(例えば、全ての口画像の領域選択フレームのエッジ限界値に基づいて決定される総フレーム領域)となる。点線ボックス115は、第1の口画像17および第1の口画像18が位置されるプレースホルダフレームを表すために使用される。第1の口画像の最終的に決定される領域は、2つの口画像に対応する画像領域を含む。ビューファインダフレーム内に表示されるビデオピクチャの領域は、点線ボックス116のフレーミングされた範囲内の画像領域である。したがって、携帯電話は、認識された点線ボックス115および点線ボックス116に対応する面積比に基づいて面積比を決定してもよい。
【0195】
同様に、複数の顔が音を発するシナリオでは、図11(c)に示されるインターフェース1103上で、現在のビデオピクチャ内の2人の人物が両方とも音を発している場合、携帯電話は、右側の口の画像が最大面積を有すると決定する。携帯電話は、予め設定された閾値を使用することによって、ユーザが関心を持たない一部の発音口画像を除外してもよい。例えば、予め設定された閾値は、最大の口画像領域の20%未満である。別の例では、予め設定された閾値は、最大面積を有する口画像からの距離が、ビューファインダフレーム内に表示されるビデオピクチャの長さまたは幅の35%を超えることである。図11(c)に示されるインターフェース1103では、左側の発音口画像が除外され、第1の口画像は右側の発音する第1の口画像のみを含み、右側の第1の口画像の面積に基づいて第1の収音範囲の半径が決定される。
【0196】
例えば、第1の顔画像の領域が決定されるシナリオにおいて、携帯電話が、背面カメラを使用することによってビデオピクチャを収集すると仮定される。図10(a)に示される第1の顔画像の第1の特徴値に基づいて携帯電話が決定する収音範囲は、図9に示される収音範囲2であり得る。図10(b)に示される第1の顔画像の第1の特徴値に基づいて携帯電話が決定する収音範囲は、図9に示される収音範囲1であり得る。
【0197】
第1の顔画像の面積および第1の口画像の面積を決定するプロセスでは、第1の顔画像および第1の口画像の両方が矩形に変換され、次いで、矩形の面積が、対応する第1の顔画像の面積または対応する第1の口画像の面積として使用されることに留意されたい。対応する領域をより正確に決定するために、不規則な幾何学的形状が、第1の顔画像および第1の口画像に対応するように代替的に使用され得ることが理解され得る。本出願のこの実施形態における矩形は、説明のための例にすぎない。これは、本出願のこの実施形態において特に限定されない。
【0198】
第1の顔画像の面積比および第1の口画像の面積比を決定するプロセスでは、ビューファインダフレームの面積がビデオピクチャの面積として使用されることに留意されたい。携帯電話がフルスクリーン携帯電話である場合、携帯電話のディスプレイのエリアがビデオピクチャのエリアとして使用され得ることが理解され得る。また、ビデオピクチャの領域として、他の領域および他の形状の領域が用いられてもよい。本出願のこの実施形態におけるビューファインダフレームの面積は、説明のための例にすぎない。これは、本出願のこの実施形態において特に限定されない。
【0199】
解決策3:第1の特徴値は、第1の顔画像に対応する位置情報を含むか、または第1の特徴値は、第1の口画像に対応する位置情報を含む。
【0200】
「位置情報」は、ビデオピクチャ内の第1の顔画像または第1の口画像の位置を示すために使用される。位置情報は、第1の基準点に対する第1の顔画像の中心点のオフセット、例えば、オフセット方向、オフセット角度、および/またはオフセット距離を含む。代替的に、位置情報は、第1の基準点に対する第1の口画像の中心点のオフセットを含む。第1の基準点は、ビデオピクチャの中心点または合焦の焦点である。オフセット方向は、第1の基準点に対して、第1の顔画像または第1の口画像の中心点が、左方オフセット、右方オフセット、上方オフセット、下方オフセット、左上方オフセット、右上方オフセット、左下方オフセット、右下方オフセットなどを有することを意味する。オフセット角度は、左上方オフセット、右上方オフセット、左下方オフセット、または右下方オフセットが存在する角度である。オフセット距離は、左方オフセット、右方オフセット、上方オフセット、下方オフセットの距離や、特定のオフセット角度でのオフセットの距離などである。
【0201】
一部の実施形態では、第1の顔画像の中心点の座標は、第1の顔画像の種々の方向における特徴点の限界位置に基づいて決定され得る。例えば、第1の顔画像の領域を決定する処理において、第1の顔画像の中心点の座標は、第1の顔画像の顔特徴点における額の上部の特徴点の位置、顎の下部の特徴点の位置、および耳を含まない左右の顔の最縁部上の特徴点の位置に基づいて決定される。同様に、顔画像の顔特徴点における口画像の特徴点のうち、上端下端、左端、右端の特徴点の位置に基づいて、第1の口画像の中心点の座標が決定される。
【0202】
次いで、第1の基準点は、予め設定され、例えば、ビューファインダフレームに表示されるビデオピクチャの中心点(またはフレーミングの中心点として説明されてもよい)、またはフレーミング範囲における合焦の焦点を含んでもよい。座標系は、第1の基準点を原点として、携帯電話の下端(または現在のビューファインダフレームの下端)に平行な方向をx軸として、x軸に垂直な方向をyとして使用することによって構築され、現在の座標系は、携帯電話のディスプレイに平行である。第1の基準点に対する第1の顔画像または第1の口画像の中心点のオフセット方向、オフセット角度、およびオフセット距離は、構築された座標系を使用することによって定義される。例えば、図13(a)に示されるように、携帯電話が縦向きに表示された場合の座標系の場合が示されており、x軸は携帯電話の下辺(すなわち短辺)に平行である。図13(b)に示されるように、携帯電話が横向きに表示されたときの座標系の場合が示されており、x軸は携帯電話の側辺(すなわち長辺)に平行である。x軸とy軸の交点の座標、すなわち原点は(0,0)である。x軸の正方向は右であり、y軸の正方向は上である。携帯電話が垂直表示と水平表示との間で切り替わった後、座標系のx軸およびy軸の方向が変化し、それに応じて、第1の基準点に対する第1の顔画像または第1の口画像の中心点のオフセット方向、オフセット角度、およびオフセット距離が変化することが知見され得る。
【0203】
例えば、図12(a)に示されるインターフェース1201上では、第1の顔画像の数は1であり、第1の顔画像の中心点はマーク121に対応する位置であり、ビューファインダフレーム内に表示されるビデオピクチャの中心点はマーク122に対応する位置である。ビューファインダフレームの中心点の位置は、ビューファインダフレームの上端、下端、左端および右端の限界座標に基づいて決定される。携帯電話は、マーク121とマーク122との位置関係に基づいて、第1の顔画像の位置情報を決定する。例えば、インターフェース1201に表示されるシナリオでは、第1の顔画像の位置情報は、ビューファインダフレームの中心点の左下である。あるいは、図12(b)に示されるインターフェース1202上で、第1の顔画像の数は1であり、第1の口画像の中心点はマーク123に対応する位置であり、ビューファインダフレーム内に表示されるビデオピクチャの中心点はマーク124に対応する位置である。携帯電話は、マーク123とマーク124との位置関係に基づいて、第1の画像の位置情報を決定する。例えば、インターフェース1202上に表示されるシナリオでは、第1の口画像の位置情報は、ビューファインダフレームの中心点の左下である。
【0204】
一部の実施形態では、複数の第1の顔画像がある場合、第1の顔画像の中心点は、複数の顔画像を含む画像範囲内の中心点である。例えば、図10(b)に示されるシナリオでは、第1の顔画像の中心点は、点線ボックス105のフレーミングされた範囲内の幾何学的中心点である。別の例として、図11(b)に示されるシナリオでは、第1の口画像の中心点は、点線ボックス115のフレーミングされた範囲内の幾何学的中心点である。同様に、ビューファインダフレーム内に表示されるビデオピクチャの中心点は、ビューファインダフレームの幾何学的中心点でもある。
【0205】
第1の顔画像の中心点および第1の口画像の中心点を決定するプロセスでは、第1の顔画像および第1の口画像の両方が矩形に変換され、次いで、矩形の中心点が、対応する第1の顔画像の中心点または対応する第1の口画像の中心点として使用されることに留意されたい。対応する中心点をより正確に決定するために、不規則な幾何学的形状が、第1の顔画像および第1の口画像に対応するように代替的に使用され得ることが理解され得る。本出願のこの実施形態における矩形は、説明のための例にすぎない。これは、本出願のこの実施形態において特に限定されない。
【0206】
加えて、第1の顔画像または第1の口画像に対応する位置情報を決定するプロセスにおいて、一部のシナリオでは、ビューファインダフレームの中心点が第1の基準点として使用され、すなわち、ビューファインダフレームの中心点は、ビデオピクチャの中心点を表すために使用される。ビデオピクチャの表示形式に基づいて、第1の基準点は代替的に別の形式で表されてもよいことが理解され得る。例えば、携帯電話のディスプレイのスクリーン全体の中心点は、ビデオピクチャの中心点を表すために、すなわち、第1の基準点として使用される。本出願のこの実施形態では、ビューファインダフレームの中心点が第1の基準点として使用されることは、説明のための例にすぎない。これは、本出願のこの実施形態において特に限定されない。
【0207】
一部のシナリオでは、ビデオピクチャを記録するプロセスにおいて、ユーザは、関心のあるオブジェクトをフレーミング範囲内の中心位置に配置しないことがあるが、相対的に関心のあるオブジェクトをフォーカス方式で選択する。携帯電話は、合焦の焦点位置を検出することによってユーザの意図を取得し、ユーザが関心を持っているオブジェクトを決定することができる。フォーカスのフォーカス位置は、代替的に、携帯電話によってオートフォーカスを介して取得されたフォーカス位置であってもよい。例えば、携帯電話は、画像を自動的に認識し、オートフォーカス後に対応するフォーカス位置を決定する。
【0208】
例えば、図12(c)に示されるインターフェース1203において、現在のシナリオでは、第1の顔画像の数は2であり、第1の顔画像の中心点はマーク125に対応する位置である。携帯電話は、ユーザがスクリーンをタップする操作を検出し、フォーカスのフォーカス位置を取得し、点線ボックス126を表示する。点線ボックス126で囲まれた範囲は、携帯電話がユーザの意図に基づいて決定された合焦範囲である。この場合、合焦範囲の中心焦点は、マーク127に対応する位置となる。携帯電話は、マーク125とマーク127との間の位置関係に基づいて、第1の顔画像の位置情報を決定する。例えば、第1の顔画像の位置情報は、フォーカス中心の左上である。
【0209】
可能な実装形態では、携帯電話は、第1の顔画像の中心点の座標または第1の口画像の中心点の座標および第1の基準点の座標に基づいて、第1の顔画像または第1の口画像と第1の基準点との間の相対的な位置関係を決定し、次いで、ビューファインダフレーム内に表示されたビデオピクチャ内の第1の顔画像または第1の口画像のオフセット方向を決定することができる。
【0210】
例えば、図13(a)または(b)に示される座標系を参照して、第1の顔画像の中心点の座標または第1の口画像の中心点の座標は(X1,Y1)であり、第1の基準点の座標を(X2,Y2)であり、第1の基準点は座標系の原点(0,0)に設定されると仮定される。第1の顔画像または第1の口画像と第1の基準点との間の相対的位置関係については、以下の表2を参照されたい。例えば、X1<X2である場合、第1の顔画像または第1の口画像が第1の基準点の左側に位置されること、すなわち、オフセット方向が左であることを示す。別の例として、X1=X2およびY1=Y2である場合、それは、第1の基準点からの第1の顔画像または第1の口画像の中心点の左右オフセットと上下オフセットの両方がゼロであることを示す。すなわち、第1の顔画像または第1の口画像の中心点は第1の基準点と一致し、オフセット方向はオフセットなしとなる。
【0211】
【表2】
【0212】
別の可能な実装形態では、携帯電話は、第1の顔画像の中心点の座標または第1の口画像の中心点の座標と第1の基準点の座標とに基づいて、ビューファインダフレーム内に表示されたビデオピクチャ内の第1の顔画像のオフセット角(図14に示されるように、x軸と、第1の顔画像の中心点または第1の口画像の中心点の座標(X1,Y1)と第1の基準点(X2,Y2)との間の接続線との間の夾角θ)を決定し得る。例えば、図14に示されるように、大円141は、携帯電話のビューファインダフレームに対応する最大収音範囲を表すために使用され、ビューファインダフレームの中心点の座標は(0,0)に設定され、すなわち、ビューファインダフレームの中心点は第1の基準点に設定される。最大収音範囲は、例えば、第1の象限142、第2の象限143、第3の象限144、第4の象限145の4つの象限に分割される。オフセット角はθであると仮定され、携帯電話は、各象限におけるx軸と(X1,Y1)と(X2,Y2)との間の接続線との間の夾角の値に基づいてオフセット角θを決定してもよく、この場合、0<θ<90°である。あるいは、携帯電話は、全ての象限に基づいてオフセット角θを決定し、この場合、0<θ<360°である。例えば、図14において、第1の顔画像は、ビューファインダフレームの第2の象限143に表示され、tanθ=|Y2-Y1|/|X2-X1|であり、その結果、携帯電話は、ビューファインダフレームに表示されたビデオピクチャ内の第1の顔画像のオフセット角度θを取得することができる。
【0213】
さらに別の可能な実装形態では、携帯電話は、第1の顔画像の中心点の座標または第1の口画像の中心点の座標と第1の基準点の座標とに基づいて、ビューファインダフレーム内に表示されたビデオピクチャ内の第1の顔画像のオフセット距離を決定することができる。携帯電話は、オフセット距離および第1の顔画像に対応する収音範囲の半径に基づいて、第1の顔画像に対応する収音範囲がフレーミング範囲に対応する収音範囲を超えるか否かを決定し、次いで、第1の収音範囲を決定することができる。
【0214】
例えば、図15(a)に示されるように、大円151はビューファインダフレームに対応する最大収音範囲であり、半径はRである。第1の基準点は、ビューファインダフレームに表示されるビデオピクチャの中心点、すなわち最大収音範囲の中心点であり、第1の基準点の座標は(X2,Y2)である。第1の顔画像の中心点の座標は(X1,Y1)である。面積比パラメータ情報に基づいて携帯電話によって決定される小円152の半径はrである。携帯電話は、ピタゴラスの定理に基づいて、オフセット距離
【数1】
を取得することができる。したがって、第1の顔画像の中心点と最大収音範囲の端との距離は、S=R-Lとなる。第1の顔画像に対応する収音範囲が最大収音範囲を超えない場合、すなわち、r≦Sである場合、第1の収音範囲の半径はr=R*Pである。Pは、ビューファインダフレーム内に表示されるビデオピクチャの面積に対する第1の顔画像の面積の比、すなわち、面積比パラメータである。図15(b)に示されるように、第1の顔画像に対応する収音範囲が最大収音範囲を部分的に超えている場合、すなわちr>Sである場合、携帯電話の最大収音範囲を超えた部分では収音は行われることができない。この場合、第1の顔画像に対応する収音範囲は、携帯電話が音声を取得できることを確実にするために、それに応じて変化する。例えば、1.5S>r>Sであれば、第1の収音範囲の半径は、第1の顔画像の中心点と最大収音範囲の端との間の距離に等しい。r≧1.5Sの場合、第1の収音範囲の半径は、パノラマ収音範囲の半径と面積比パラメータとの積に等しい。この場合、携帯電話は、最大収音範囲を超えた部分では収音を行わない。r>Sであるとき、rの値と1.5Sの値とを比較することによって第1の収音範囲の半径を決定するための方法は、説明のための例にすぎず、第1の収音範囲の半径は、携帯電話が第1の顔画像に対応するオーディオデータに対して収音を実行できることを確実にするために、別の方法を使用することによって代替的に決定されてもよいことが理解され得る。例えば、rと2Sの値を比較することで、第1の収音範囲の半径が決定される。
【0215】
第1の顔画像または第1の口画像の中心点を決定するプロセスでは、第1の顔画像および第1の口画像の両方が長方形に変換され、次いで、長方形の幾何学的中心点が、対応する第1の顔画像または対応する第1の口画像の中心点として使用されることに留意されたい。対応する中心点の位置をより正確に決定するために、不規則な幾何学的形状が、第1の顔画像および第1の口画像に対応するように代替的に使用され得ることが理解され得る。本出願のこの実施形態における矩形は、説明のための例にすぎない。これは、本出願のこの実施形態において特に限定されない。
【0216】
一部の実施形態では、携帯電話は、前述の解決策1~解決策3のいずれか1つを使用することによって第1の収音範囲を決定することができる。あるいは、携帯電話は、前述の解決策1~解決策3における複数の解決策を組み合わせることによって、第1の収音範囲を決定してもよい。あるいは、携帯電話は、前述の解決策1~解決策3における1つ以上のパラメータを別のパラメータと組み合わせることによって、第1の収音範囲を決定してもよい。また、携帯電話は、他のパラメータを用いて第1の収音範囲を決定してもよい。
【0217】
例えば、以下は、前述の解決策1~解決策3を組み合わせることによって、携帯電話によって第1の収音範囲を決定するための方法を説明する。
【0218】
例えば、図16A(a)に示されるように、ユーザが背面カメラを使用することによってビデオピクチャを記録することを現在選択していると仮定される。この場合、携帯電話は、第1の顔画像に対応するビデオピクチャの正面/背面属性パラメータに基づいて、第1の顔画像に対応するビデオピクチャが背面ビデオピクチャであると決定する。図16A(b)に示されるように、第1の収音範囲は、携帯電話の背面180°の範囲、すなわち、楕円161、楕円162、楕円163で表される範囲である。
【0219】
次いで、携帯電話は、第1の顔画像に対応する位置情報に基づいて第1の収音範囲をさらに決定することができる。例えば、図16B(a)に示されるように、第1の顔画像は左側の顔画像であり、第1の顔画像の中心点164は、ビューファインダフレームの中心点165の左上に位置される。携帯電話は、位置情報に基づいて、オフセット方向が左上であり、第1の収音範囲の中心点が背面収音範囲の中心点の左上に位置されると決定する。例えば、第1の収音範囲については、図16B(b)に示される楕円161および楕円162で表される範囲の左側を参照されたい。図16B(c)に示されるように、大円166は、背面ビデオピクチャに対応する最大の収音範囲であり、中央の点線に沿って収音範囲が左右に分割されることで、対応する左右の収音範囲は決定されることができる。例えば、背面左上の第1の収音範囲については、図16B(c)に示される左半楕円1611および左半楕円1621で表される範囲を参照されたい。
【0220】
これに基づいて、位置情報は、オフセット角度およびオフセット距離をさらに含むと仮定される。例えば、オフセット角度は45度より大きく、オフセット距離はビューファインダフレームに表示されるビデオピクチャの半径の1/2より大きい。すなわち、第1の顔画像は、ビューファインダフレーム内に表示されるビデオピクチャの中心位置の上方に位置され、中心位置から比較的離れている。図16 Cの(a)に示されるように、第1の顔画像は左側の顔画像であり、第1の顔画像の中心点166のビューファインダフレームの中心点167からのオフセット距離は比較的大きい。この場合、第1の顔画像に対応するオーディオに対する中音域の収音範囲の補助的な影響は比較的小さい。第1の収音範囲については、図16Cの(b)に示される楕円161で表される範囲を参照されたい。また、第1の顔画像は、図16B(c)に示される左半分の楕円1611で表される範囲であってもよい。
【0221】
例えば、以下の表3に示されるように、図2B(d)に示されるマルチマイクロフォンシナリオにおいて、第1の顔画像に対応するビデオピクチャの正面/背面属性パラメータおよび第1の顔画像に対応する位置情報に基づいて携帯電話によって決定される収音範囲の例が説明される。代替的に、第1の口画像に対応するビデオピクチャの正面/背面属性パラメータおよび第1の口画像に対応する位置情報に基づいて、携帯電話によって決定される収音範囲の例が説明される。
【0222】
【表3】
【0223】
最後に、携帯電話は、第1の顔画像に対応する面積比に基づいて、最終的な第1の収音範囲を決定することができる。携帯電話は、面積比とフレーミング範囲に対応する収音範囲とを用いて、第1の顔画像に対応する第1の収音範囲の半径を決定することができる。
【0224】
例えば、上記の解決策1~解決策3が組み合わされた方法を用いて第1の収音範囲を決定する処理では、例えば、第1の収音範囲は、図15(a)に示される円152で囲まれる。円152の半径は、第1の収音範囲の半径範囲を対応して表すために使用され得る。この場合、第1の収音範囲は、図16B(c)に示される左半楕円1611で表される範囲を用いて表され得る。別の例として、図15の(b)に示されるシナリオでは、第1の収音範囲の半径は、第1の顔画像の中心点と最大収音範囲のエッジとの間の距離であると最終的に決定される。この場合、第1の収音範囲は、図16B(c)に示される左半楕円1611および左半楕円1612で表される範囲を用いて表され得る。
【0225】
携帯電話が上記の解決策1~解決策3における複数の解決策を参照して第1の収音範囲を決定するプロセスにおいて、パラメータを決定する順序は限定されず、携帯電話は、上記の例における順序とは異なる別の順序でパラメータを決定してもよいことが留意されるべきである。例えば、パラメータは同時に決定される。
【0226】
第1の顔画像または第1の口画像に対応する第1の収音範囲は、前述の解決策を使用することによって決定されてもよく、その後、第1の収音範囲を使用することによってオーディオが取得されてもよく、それによって、オーディオ品質を改善する。
【0227】
S604:携帯電話は、第1の収音範囲に基づいてオーディオを取得する。
【0228】
携帯電話は、単一のマイクロフォンまたは複数のマイクロフォンを使用して、種々の方向の周囲の音信号を収集する、すなわち、パノラマ音信号を収集することができる。複数のマイクロフォンによって収集されたパノラマ音信号を前処理した後、携帯電話は、初期オーディオデータを取得することができ、初期オーディオデータは、種々の方向における音情報を含む。次いで、携帯電話は、初期オーディオデータおよび第1の収音範囲に基づいて、第1の顔画像に対応するオーディオを記録してもよい。
【0229】
任意選択で、第1の顔画像または第1の口画像に対応する第1の収音範囲を決定した後、携帯電話は、第1の収音範囲内にあり、かつ初期オーディオデータ内にある音を強調し、第1の収音範囲外にあり、かつ初期オーディオデータ内にある音を抑制してもよい(または弱めてもよい)。次いで、処理されたオーディオデータが記録されて、第1の顔画像または第1の口画像に対応するオーディオを取得する。
【0230】
このように、第1の顔画像または第1の口画像に対応するオーディオは、第1の収音範囲の音を記録したものであり、第1の収音範囲は、第1の顔画像または第1の口画像に対応する第1の特徴値に基づいて決定された収音範囲である。したがって、第1の収音範囲の音は、ユーザが関心を持つ発音顔または発音口に対応する音である。すなわち、記録されたビデオピクチャ中のノイズが、発音顔または発音口から発せられる音に干渉することが低減される。
【0231】
さらに、第1の収音範囲に基づいて、指向性音声強調が実行され、その結果、複雑な撮影環境において、一部のオーディオ信号のみが、オーディオアルゴリズムを使用することによって強調され得る。これは、オーディオ処理アルゴリズムを簡略化し、処理効率を改善し、携帯電話のハードウェアコンピューティング性能に対する要件を低減することができる。
【0232】
一部の他のシナリオでは、第1の特徴値に基づいて携帯電話によって決定された第1の収音範囲と第1の顔画像または第1の口画像の表示範囲との間に誤差があり得るため、携帯電話は、第1の収音範囲の近くの1つ以上の基準第1の収音範囲を決定し得る。携帯電話は、第1の収音範囲に基づいて1つのオーディオを取得し、基準の第1の収音範囲に基づいて少なくとも1つのオーディオを取得する。携帯電話は、1つのオーディオとしてパノラマオーディオをさらに使用してもよい。この場合、携帯電話は、第1の収音範囲に基づいて、第1の顔画像または第1の口画像に対応する複数のオーディオを取得してもよい。1つのオーディオは、1つのオーディオファイルとして理解されてもよい。
【0233】
可能な実装形態では、携帯電話は、第1の顔画像または第1の口画像に対応する面積比に基づいて、1つ以上の対応する基準の第1の収音範囲を決定することができる。第1の収音範囲および基準第1の収音範囲は、面積パラメータ情報に基づいて決定されると仮定される。例えば、表1に基づいて、以下の表4に示されるように、携帯電話は、以下の表4の規則に基づいて、第1の収音範囲および基準第1の収音範囲を決定してもよい。下記の表4において、第1の収音範囲は推奨値であり、基準第1の収音範囲は、強調値1、強調値2、および強調値3を含む。
【0234】
【表4】
【0235】
別の可能な実装形態では、携帯電話は、異なるオーディオ処理方法に基づいて、第1の収音範囲および基準の第1の収音範囲に対応するオーディオを決定してもよい。例えば、第1の収音範囲を決定する手順に基づいて、第1の収音範囲に対応するオーディオは、ドルビーサウンドエフェクトアルゴリズムを使用することによって決定されるオーディオであり、基準の第1の収音範囲に対応するオーディオは、Histenサウンドエフェクトアルゴリズムに基づいて決定されるオーディオである。以下の表5に示されるように、アルゴリズム1~アルゴリズム4は、異なるオーディオアルゴリズムであり、第1の収音範囲および基準第1の収音範囲に対応するオーディオは、異なるオーディオアルゴリズムに基づいて決定される。第1の収音範囲は推奨値であり、基準第1の収音範囲は、強調値1、強調値2、強調値3を含む。
【0236】
【表5】
【0237】
さらに別の可能な実装形態では、携帯電話は、第1の顔画像または第1の口画像に対応する面積パラメータ比情報およびオーディオアルゴリズムを参照して、第1の収音範囲および基準第1の収音範囲に対応するオーディオを取得してもよい。以下の表6に示されるように、第1の収音範囲は推奨値であり、基準第1の収音範囲は、強調値1、強調値2および強調値3を含む。
【0238】
【表6】
【0239】
携帯電話は、別の方法を使用することによって基準の第1の収音範囲を代替的に決定してもよいことが理解され得る。これは、本出願のこの実施形態において特に限定されない。
【0240】
加えて、携帯電話は、初期オーディオデータを処理して、基準の第1の収音範囲内の音を強調し、基準の第1の収音範囲外の音を抑制し、処理されたオーディオデータをさらに記録して、第1の顔画像または第1の口画像に対応する1つ以上のオーディオを取得してもよい。
【0241】
このようにして、携帯電話は、第1の収音範囲および基準第1の収音範囲に基づいて、第1の顔画像または第1の口画像に対応する第1の特徴値および第1の顔画像または第1の口画像のピクチャに一致する複数のオーディオを記録して取得し、ユーザによるその後の選択および再生に供することができる。第1の顔画像または第1の口画像に対応する各オーディオデータは、1つのオーディオファイルとして記憶されてもよく、第1の顔画像は、複数のオーディオファイルに対応してもよい。
【0242】
携帯電話が、第1の収音範囲および基準第1の収音範囲に基づいて、第1の顔画像または第1の口画像に対応する複数のオーディオを記録するとき、複数のオーディオは、異なる収音範囲のより多くのオーディオをユーザに提供し、ユーザが関心を持つ第1の顔画像または第1の口画像に対応する音に一致する可能性がより高くなり、ユーザによって再生されるオーディオの選択性がより高くなる。
【0243】
一部の実施形態では、携帯電話は、ユーザによって選択された第1の収音範囲または基準第1の収音範囲に基づいて、第1の顔画像または第1の口画像に対応するオーディオを代替的に記録してもよい。例えば、図17に示されるインターフェース1701において、携帯電話がユーザによる推奨値選択コントロール171をタップする操作を検出した場合、ビデオピクチャを記録するプロセスにおいて、第1の顔画像または第1の口画像に対応するオーディオが、第1の収音範囲および初期オーディオデータに基づいて記録される。同様に、携帯電話が、ユーザによる強調値1選択コントロールをタップする操作を検出した場合、ビデオピクチャを記録するプロセスにおいて、第1の顔画像または第1の口画像に対応するオーディオが、強調値1に対応する基準の第1の収音範囲および初期オーディオデータに基づいて記録される。携帯電話がユーザによる非処理選択コントロール172をタップする操作を検出した場合、ビデオピクチャを記録するプロセスにおいて、種々の方向のオーディオ信号が初期オーディオデータに基づいて融合されて、パノラマオーディオを取得する。すなわち、非処理選択コントロール172に対応するオーディオは、パノラマオーディオであり、携帯電話が非音声強調モードにあるときに取得されるオーディオとして理解されてもよい。インターフェース1701上の推奨値、強調値1、強調値2、および強調値3を決定するための方法については、表4から表6を参照されたく、詳細は本明細書では説明されない。
【0244】
一部の実施形態では、ビデオピクチャを正式に記録する前に、ユーザは、ビデオピクチャを最終的に記録するプロセスにおいて選択されるべき収音範囲を決定するために、異なる収音範囲に対応する記録効果を体験してもよい。携帯電話は、ユーザの選択に基づいて、対応するオーディオファイルのみを記憶することができ、その結果、ユーザ要件が満たされることが保証されるとき、携帯電話の記憶空間は節約されることができる。
【0245】
一部の他のシナリオでは、携帯電話によってビデオピクチャを記録するプロセスにおいて、第1の収音範囲は第2の収音範囲に変化し得る。例えば、ビデオピクチャを記録するプロセスにおいて、携帯電話は、ユーザによる正面カメラと背面カメラとの間の切り替えの指示を与える操作を検出する。切り替え前の収音範囲は第1の収音範囲であり、切り替え後の収音範囲は第2の収音範囲である。したがって、記録されたビデオ内のオーディオについて、携帯電話によって記録されたオーディオは、少なくとも第1の持続時間のオーディオと第2の持続時間のオーディオとを含む。第1の持続時間のオーディオは、第1の収音範囲に対応するオーディオであり、第2の持続時間のオーディオは、第2の収音範囲に対応するオーディオである。すなわち、携帯電話は、ビデオピクチャ内の発音顔または発音口の変化に基づいて収音範囲を動的に決定し、次いで、収音範囲に基づいてオーディオを記録することができる。ユーザによる記録停止指示を与える操作が最終的に検出された後、形成されたビデオピクチャのオーディオは、時系列と変化する収音範囲とに基づいて記録された異なる持続時間または同じ持続時間の複数のオーディオを含み得る。
【0246】
このようにして、収音範囲の変化に基づいて、携帯電話は、音声強調が実行される必要がある部分のオーディオ記録品質を改善することに常に焦点を当てることができ、それにより、オーディオ記録効果を保証する。加えて、ユーザがビデオファイルを再生するとき、ビデオコンテンツの音範囲変化などの動的変化に一致する再生体験がユーザに提示され得る。
【0247】
可能な実装形態では、携帯電話によってビデオピクチャを記録するプロセスにおいて、第1の顔画像または第1の口画像に対応する第1の特徴値が変化し、その結果、収音範囲が変化する。例えば、ビデオピクチャの正面/背面属性パラメータが変化し、その結果、第1の収音範囲が変化すると仮定される。図18(a)に示されるインターフェース1801には、正面ビデオピクチャが表示されている。記録の持続時間が00:15であるとき、携帯電話は、ユーザによる正面/背面切り替えコントロール181をタップする操作を検出し、撮影のために背面カメラに切り替え、図18(b)に示されるインターフェース1802を表示する。この場合、第1の顔画像または第1の口画像に対応する第1の特徴値は、00:15の持続時間の前後で変化し、記録されたオーディオのうち00:00~00:15の持続時間のオーディオが第1の収音範囲に対応するオーディオであり、00:15の持続時間以降のオーディオが第2の収音範囲に対応するオーディオである。あるいは、携帯電話は、ユーザによって選択されたフォーカスのフォーカス位置が変化したことを検出する。この場合、第1の顔画像または第1の口画像に対応する位置情報が変化し、その結果、第1の収音範囲が変化する。
【0248】
代替的に、ビューファインダフレーム内のビデオピクチャのピクチャ範囲およびピクチャサイズは、ズーム比(すなわち、Zoom値)の変化とともに変化し得る。ズーム比は、予め設定されたズーム比、カメラが閉じられる前に最後に使用されたズーム比、ユーザによって事前に指示されたズーム比などであり得る。加えて、ビューファインダフレームに対応するズーム比はまた、ユーザの指示に基づいて変更され得る。この場合、シナリオにおいて、フレーミング範囲は、ズーム比が変化するにつれて変化する。これにより、第1の顔画像の面積または第1の口画像の面積が変化し、さらに、第1の顔画像または第1の口画像に対応する面積比が変化する。すなわち、ズーム比を変化させると収音範囲が変化する。このようにして、後続のビデオ再生プロセスにおいて、記録されたオーディオは、ビデオコンテンツ表示領域などの変化に伴って動的に変化することができ、それによってユーザの再生体験を改善する。
【0249】
例えば、他のパラメータが同じであれば、ズーム比が元の値の2倍に増加されると収音範囲は元の値の1/3倍に低減されることができ、ズーム比が元の値の3倍に増加されると収音範囲は元の値の1/6倍に低減されることができる。そこで、携帯電話は、ズーム比に基づいて、フレーミング範囲に対応する収音範囲と、第1の顔画像の面積比または第1の口画像の面積比に対応する収音範囲とを決定することができる。以下の表7に示されるように、Xは、第1の顔画像の面積または第1の口画像の面積を表すために使用され、Yは、ビューファインダフレーム内に表示されるビデオピクチャの面積を表すために使用される。Zoom値が変化すると、X,Yの値も変化する。対応する収音範囲も変化する。
【0250】
【表7】
【0251】
ズーム比が変化したときに収音範囲は代替的に変化されなくてもよいことに留意されたい。例えば、記録プロセスにおいて、ズーム比が変化した後、第1の顔画像は変化せず、ユーザが関心を持っているコンテンツは変化しないことを示す。例えば、ユーザAは、ユーザBにインタビューし、携帯電話を使用することによってユーザBのインタビュープロセスを撮影する。携帯電話は、ビデオピクチャ内の第1の顔画像がユーザBの顔画像であると決定する。携帯電話は、ズーム比が増加したことを検出するが、この場合、ビデオピクチャ内の第1の顔画像は依然としてユーザBの顔画像である。この場合、携帯電話は、第1の収音範囲を再び取得する必要がなく、計算量および電力消費を低減することができる。あるいは、携帯電話が、予め設定された時間範囲において、ズーム比を変更する複数の操作を検出した場合には、収音範囲は変更されなくてもよい。例えば、予め設定された期間は2秒である。ズーム比を変更する操作を初めて検出した後、携帯電話は、最初に収音範囲を再計算する必要はない。携帯電話が2秒間にズーム比を変更する操作を検出しなかった場合、携帯電話は、収音範囲を再計算する。携帯電話が2秒内にズーム比を再び変更する操作を検出した場合、携帯電話は、収音範囲を再計算する必要はなく、ズーム比を変更する操作が今回検出された時間ノードを開始点として使用して、ズーム比を変更する操作が次の2秒の期間内に検出されるかどうかを監視する。
【0252】
可能な実装形態では、携帯電話によってビデオピクチャを記録するプロセスにおいて、第1の顔画像または第1の口画像が変化した場合、第1の収音範囲が変化する。例えば、正面カメラと背面カメラとの間の切り替えの前述のシナリオは、第1の顔画像または第1の口画像の変化として理解されてもよい。または、発音顔画像または発音口画像が変化し、その結果、第1の顔画像または第1の口画像が変化する。例えば、図18(b)に示されるインターフェース1802上で、00:16から00:20までの持続時間において、携帯電話は、第1の顔画像がビデオピクチャに含まれる2つの顔画像であると決定すると仮定される。00:21から00:30までの持続時間において、携帯電話は、第1の顔画像がビデオピクチャの右側の顔画像182であると認識する。あるいは、撮影されたピクチャが移動し、現在記録されているビデオピクチャが以前に認識された第1の顔画像または第1の口画像を含まない場合、第1の収音範囲は、前述の方法を使用することによって再認識される必要がある。
【0253】
可能な実装形態では、第2の収音範囲は、ユーザによる第1の収音範囲または基準第1の収音範囲の選択を変更する操作に応答して決定される。例えば、図18(c)に示されるインターフェース1803上で、00:30の持続時間の前に、携帯電話は、推奨値に対応する第1の収音範囲を用いてビデオピクチャを記録し、00:30に、ユーザによる強調値2選択コントロール183をタップする操作を検出する。この操作に応じて、携帯電話は、第2の収音範囲を強調値2に対応する収音範囲として決定し、図18(d)に示されるインターフェース1804を表示する。00:30の持続時間以降は、携帯電話は、強調値2に対応する収音範囲を用いてオーディオを取得する。
【0254】
本出願の一部の実施形態では、各オーディオのオーディオファイルを生成する前に、携帯電話は、各オーディオに対して複数のタイプの音響効果処理を実行することができ、その結果、記録されたオーディオは、より高いオーディオ品質およびより良好なオーディオ処理効果を達成する。例えば、サウンドエフェクト処理は、ドルビーサウンドエフェクト、Histenサウンドエフェクト、サウンド検索システム(sound retrieval system、SRS)サウンドエフェクト、バス強化エンジン(bass enhanced engine、BBE)サウンドエフェクト、ダイナミックバス強化エンジン(dynamic bass enhanced engine、DBEE)サウンドエフェクトなどを含んでよい。
【0255】
携帯電話のジッタによる第1の特徴値の頻繁な変化によって引き起こされる第1の収音範囲の頻繁な変化を防止するために、携帯電話は、予め設定された時間閾値を設定してもよく、携帯電話は、予め設定された時間閾値内の変化に対して第1の収音範囲を変更しないことが留意されるべきである。例えば、設定に基づいて、第1の特徴値が1秒間に2回連続して変化する場合、携帯電話は、第1の特徴値の現在の変化が携帯電話のジッタによって引き起こされると見なし、対応する第1の収音範囲を変更しない。
【0256】
任意選択で、マイクロフォンを使用することによってオーディオ信号を収集するために前述の方法を使用するプロセスにおいて、携帯電話は、オーディオ信号を収集し、第1の収音範囲に基づいてオーディオ信号を処理して、第1の顔画像または第1の口画像に対応するオーディオを取得することができる。最後に、ビデオ記録が終了した後に、最終オーディオが直接生成される。あるいは、携帯電話は、オーディオ信号を最初に収集し、ビデオ記録が完了された後、第1の収音範囲に基づいてオーディオ信号を処理して、第1の顔画像または第1の口画像に対応するオーディオを取得してもよい。あるいは、携帯電話は、第1の収音範囲に基づいて、対応するマイクロフォンを呼び出して第1の収音範囲内のオーディオ信号を収集し、オーディオ信号を処理して第1の顔画像または第1の口画像に対応するオーディオを取得する。
【0257】
任意選択で、ビデオ記録機能は、シングルチャネルビデオ記録機能およびマルチチャネルビデオ記録機能を含んでもよい。シングルチャネルビデオ記録機能は、携帯電話が、1つのビデオピクチャを記録するために、撮影プロセスにおいて1つのビューファインダフレームを表示することを意味する。マルチチャンネルビデオ記録機能は、携帯電話が撮影プロセスにおいて少なくとも2つのビューファインダフレームを表示し、各ビューファインダフレームが1つのビデオピクチャのために使用されることを意味する。マルチチャネルビデオ記録機能を使用するプロセスにおいて、各ビデオピクチャおよび対応するオーディオ収集方式については、シングルチャネルビデオ記録機能の実装形態を参照されたい。第1の収音範囲が第1の顔画像および第1の口画像に基づいて決定され、音声記録が第1の収音範囲に基づいて実行される前述の方法では、撮影インターフェースが1つのビューファインダフレームを含む例が説明のために使用される。加えて、2つ以上のビューファインダフレームを含むマルチチャネルビデオ記録機能に対応する処理は、この処理と同様であり、詳細は説明されない。
【0258】
ビデオピクチャを記録するプロセスにおいて、携帯電話は、発音顔画像または発音口画像に基づいて第1の収音範囲を決定し、次いで、第1の収音範囲に基づいてオーディオを記録する。その後、記録されたオーディオが記憶される必要がある。ユーザは、記憶されたビデオのビデオピクチャおよびオーディオを再生することができる。ビデオピクチャを記録するシナリオが、ライブ放送またはビデオ通話などのリアルタイム通信シナリオである場合、ビデオピクチャを記録するプロセスにおいてオーディオを記録するための方法については、前述の方法を参照されたいことに留意されたい。ただし、ユーザによる撮影停止指示の操作が検出された後、すなわち、通信を停止する操作が検出された後は、記録されたビデオを生成する必要はなく、通信はそのまま停止される。一部のリアルタイム通信シナリオでは、ユーザは、記録されたビデオを記憶することを代替的に選択し得ることが理解され得る。ユーザの操作に応答して、携帯電話は、リアルタイム通信シナリオにおいて記録されたビデオを記憶するかどうかを決定する。
【0259】
以下は、携帯電話が記録されたビデオを記憶し、記憶された記録されたビデオを再生するシナリオを説明する。
【0260】
任意選択で、ユーザによる撮影停止指示を与える操作を検出した後、携帯電話は、ビデオピクチャおよびオーディオの記録を停止し、記録されたビデオを生成する。ユーザが撮影停止を指示する操作は、図4(c)に示されるビデオ記録プレビューインターフェース403に表示されたコントロール45をタップする操作であってもよいし、ユーザが音声で撮影停止を指示する操作であってもよいし、空中ジェスチャ操作であってもよいし、その他の操作であってもよい。これは、本出願のこの実施形態において特に限定されない。
【0261】
任意選択で、ユーザによって撮影停止指示を与える操作を検出した後、携帯電話は、記録されたビデオを生成し、ビデオ記録プレビューインターフェースまたは撮影プレビューインターフェースに戻る。記録されたビデオは、ビデオピクチャおよびオーディオを含み得る。例えば、携帯電話によって生成された記録されたビデオのサムネイルについては、図19(a)に示されるインターフェース1901上に表示されるサムネイル191、または図19(b)に示されるインターフェース1902上に表示されるサムネイル192を参照されたい。
【0262】
可能な実装形態では、携帯電話は、記録されたビデオが複数のオーディオを有することをユーザに促してもよい。例えば、記録されたビデオのサムネイルまたは記録されたビデオの詳細情報は、複数のオーディオを示すために使用されるプロンプト情報を含み得る。例えば、プロンプト情報は、図19(b)に示されるインターフェース1902上に表示される複数のラウドスピーカのマーク193、別の形態のマーク、テキスト情報などであってもよい。各オーディオは、第1の収音範囲および基準第1の収音範囲において収集されたオーディオにそれぞれ対応してもよい。
【0263】
可能な実装形態では、ユーザによる撮影停止指示を与える操作に応答して、携帯電話は、図19(c)に示されるインターフェース1903を表示して、ビデオファイルの必要なオーディオを記憶するようにユーザに促す。ビデオファイルは、異なる収音範囲に記録されたオーディオファイル、または同じ収音範囲に記録され、異なるオーディオアルゴリズムを使用することによって処理した後に取得されたオーディオファイルにそれぞれ対応するオーディオ194~197を、現在含む。例えば、上記の表4~表6に示される方法に対応して、オーディオ194~197は、推奨値、強調値1、強調値2、および強調値3にそれぞれ対応するオーディオである。ユーザによる再生指示を与える操作に応答して、携帯電話は、ビデオファイルおよび対応するオーディオを再生することができる。例えば、携帯電話がユーザによるオーディオ194の再生を指示する操作を検出すると、携帯電話は、ビデオファイルおよびオーディオ194を再生する。ビデオファイルを見た後、ユーザは、ユーザがより良好なオーディオ効果を有すると考えるオーディオファイルを記憶することを選択し得る。ユーザの選択に応答して、ユーザが記憶する必要があるオーディオが決定され、それによって、ユーザの使用体験を改善し、過剰なオーディオの記憶に起因して過剰な記憶空間が占有されるという問題を回避する。図19(c)に示されるインターフェース1903上で、ユーザは、現在のビデオファイルのオーディオ194およびオーディオ197を記憶することを選択する。ユーザによる保存コントロール198をタップする操作に応答して、携帯電話は、ビデオファイルを記憶し、図19(b)に示されるインターフェース1902を表示する。ラウドスピーカマーク193中のラウドスピーカの数は、現在ビデオファイル中に含まれるオーディオの数に対応し得る。
【0264】
任意選択で、ユーザによって、記録されたビデオを再生する指示を与える操作を検出した後、携帯電話は、記録されたビデオのビデオピクチャおよびオーディオを再生する。ユーザによる、記録されたビデオを再生する指示を与える動作は、ユーザによる、図19(a)に示されるビデオ記録プレビューインターフェース上のサムネイル191をタップする動作であり得る。あるいは、ユーザが記録されたビデオの再生を指示する操作は、ユーザが図19(b)に示されるギャラリー内のサムネイル192をタップする操作であってもよい。
【0265】
可能な実装形態では、ユーザによって、記録されたビデオを再生する指示を与える操作を検出した後、携帯電話は、ビデオ記録プロセスで記録されたビデオピクチャおよびオーディオに基づいて、記録されたビデオを再生する。ビデオ再生中に、携帯電話は、ビデオ再生インターフェースを表示することができ、ビデオ再生インターフェースは、記録されたビデオピクチャを含むことができる。加えて、デフォルトで、携帯電話は、第1の収音範囲に対応するオーディオを再生してもよく、次いで、ユーザの指示に基づいて他のオーディオを再生するように切り替えてもよい。あるいは、ユーザが記録プロセスにおいて特定の収音範囲を選択した場合、携帯電話は、ユーザによって選択された収音範囲に対応するオーディオを自動的に再生する。
【0266】
例えば、ビデオ再生中に、ビデオ再生インターフェースは、複数のオーディオ切り替えコントロールを含むことができ、各オーディオ切り替えコントロールは、1つのオーディオに対応する。ユーザによるオーディオ切り替えコントロールをタップする操作を検出した後、携帯電話は、オーディオ切り替えコントロールに対応するオーディオを再生する。
【0267】
例えば、ビデオ再生中に、携帯電話は、図20(a)に示されるビデオ再生インターフェース2001を表示してもよく、ビデオ再生インターフェース2001は、ビデオピクチャを表示する。ビデオ再生インターフェース2001は、オーディオ切り替えコントロール201~205をさらに表示する。図20(a)に示されるように、携帯電話がオーディオ切り替えコントロール201を現在選択している場合、またはデフォルトで推奨値を選択している場合、携帯電話は、第1の収音範囲に対応するオーディオを再生する。携帯電話がユーザによるオーディオ切り替えコントロール203をタップする操作を検出した場合、携帯電話は、オーディオ切り替えコントロール203に対応する基準の第1の収音範囲に対応するオーディオを再生してもよい。
【0268】
別の例として、ユーザの操作に応答して、携帯電話は、ビデオファイルに対応する一部のオーディオを削除してもよい。図20(b)に示されるインターフェース2002において、携帯電話は、ユーザによるオーディオ切り替えコントロール205をタッチして保持する操作を検出し、削除プロンプトボックスを表示する。ユーザが削除を確認した場合、携帯電話は、オーディオ切り替えコントロール205に対応するオーディオを削除し、図20(c)に示されるインターフェース2003を表示する。インターフェース2003上で、ユーザによって削除が確認されたオーディオに対応するオーディオ切り替えコントロール205は、もはや表示されない。このようにして、ビデオ再生プロセスにおいて、ユーザが記憶することを望まないオーディオは、ユーザ要件に基づいて削除されることができ、それによって、ユーザの使用体験を改善する。
【0269】
別の可能な実装形態では、ビデオ再生中に、携帯電話は、最初にオーディオを再生することなくビデオ再生インターフェースを表示することができる。ユーザの指示操作を検出した後、携帯電話は、ユーザによって指示されたオーディオを再生する。
【0270】
前述の実施形態で説明された解決策では、ビデオ再生中に、携帯電話は、第1の顔画像または第1の口画像に対応するオーディオを再生することができ、その結果、再生されたオーディオにおいて、発音顔または発音口が発した音に対するノイズによって引き起こされる干渉が低減される。加えて、再生されたオーディオは、リアルタイムで、ユーザが関心を持っている顔画像と一致し、それによって、ユーザのオーディオ体験を改善する。
【0271】
加えて、携帯電話は、異なる収音範囲に対応するオーディオを再生するように切り替えて、ユーザに複数のオーディオ再生オプションを提供することができ、それによって、オーディオ調整機能を実装し、ユーザのオーディオ再生体験を改善する。
【0272】
加えて、携帯電話は、リアルタイムで変化する第1の顔画像または第1の口画像および第1の特徴値に対応するオーディオを再生することができ、その結果、オーディオは、変化するビデオピクチャにリアルタイムで一致し、それによって、ユーザのオーディオ体験を改善する。
【0273】
図21Aおよび図21Bは、本出願の一実施形態によるオーディオ処理方法の別の概略フローチャートである。オーディオ処理方法は、図1に示される電子デバイス100に適用され得る。
【0274】
一部の実施形態では、ユーザによってカメラを開く指示を与える操作を検出した後、電子デバイスは、カメラを起動し、撮影プレビューインターフェースを表示する。次いで、ユーザによる撮影指示を与える操作を検出した後、電子デバイスは、ビデオピクチャおよび第1のオーディオ(すなわち、初期オーディオ信号)を収集し始める。
【0275】
電子デバイスのカメラによって収集された画像は初期ビデオ画像であり、初期ビデオ画像が処理された後、ディスプレイ上に表示され得るビデオピクチャが取得されることに留意されたい。初期ビデオ画像を処理するステップは、プロセッサによって実行される。図21Aおよび図21Bでは、カメラによって収集されたビデオピクチャは、説明のための例にすぎない。
【0276】
ユーザによる撮影指示を与える操作を検出する前または後に、電子デバイスは、ユーザの操作に応答して音声強調モードを有効にする。あるいは、電子デバイスは、ユーザによる撮影指示を与える操作を検出した後、音声強調モードを有効にする。
【0277】
一部の実施形態では、第1のオーディオは、電子デバイスの1つ以上のマイクロフォンによって種々の方向で収集されたオーディオ信号である。その後、第1のオーディオに基づいて音声強調オーディオが取得されることができる。
【0278】
例えば、プロセッサがGPU、NPU、およびAPを含む例が説明のために使用される。本明細書のGPU、NPU、およびAPによって実行されるステップは、プロセッサ内の別の処理ユニットによって代替的に実行され得ることが理解され得る。これは、本出願のこの実施形態において限定されない。
【0279】
一部の実施形態では、プロセッサ内のNPUは、画像認識技術を使用することによって、ビデオピクチャが顔画像および/または口画像を含むかどうかを認識する。さらに、NPUは、顔画像および/または口画像のデータに基づいて、顔画像および/または口画像内の発音顔または発音口をさらに決定して、指向性音声記録が実行される必要がある収音範囲を決定してもよい。
【0280】
ターゲット画像を使用することによって、ターゲット画像の第1の特徴値が決定され得、次いで、第1の特徴値に基づいて第1の収音範囲が決定される。第1の特徴値は、正面/背面属性パラメータ、面積比、または位置情報のうちの1つ以上を含む。正面/背面属性パラメータは、ビデオピクチャが正面カメラによって撮影されたビデオピクチャであるか、または背面カメラによって撮影されたビデオピクチャであるかを示すために使用される。面積比は、ビデオピクチャの面積に対するターゲット画像の面積の比を示すために使用される。位置情報は、ビデオピクチャ内のターゲット画像の位置を示すために使用される。
【0281】
一部のシナリオでは、第1の特徴値は、ターゲット画像に対応する正面/背面属性パラメータを含む。すなわち、プロセッサ内のAPは、現在のターゲット画像が位置されるビデオピクチャが正面ビデオピクチャであるか、それとも背面ビデオピクチャであるかを決定する。ビデオピクチャが正面ビデオピクチャである場合、第1の収音範囲は、正面カメラ側の収音範囲である。ビデオピクチャが背面ビデオピクチャである場合、第1の収音範囲は、背面カメラ側の収音範囲である。
【0282】
一部の他のシナリオでは、第1の特徴値は、ターゲット画像に対応する面積比を含む。「面積比」は、ビデオピクチャの面積に対する第1の顔画像または第1の口画像の面積の比(例えば、X/Yで表される)を示すために使用される。例えば、電子デバイスは、ビューファインダフレームの面積に対する第1の顔画像の面積の比に基づいて第1の特徴値を決定する。
【0283】
具体的には、面積比は、第1の顔画像または第1の口画像に対応する第1の収音範囲のサイズ、例えば、第1の収音範囲の半径範囲または直径範囲を測定するために使用される。したがって、APは、第1の顔画像の面積比に基づいて、第1の収音範囲の半径範囲を決定することができる。あるいは、APは、第1の口画像の面積比に基づいて、第1の収音範囲の半径範囲を決定してもよい。次いで、APは、当該面積比と第1のオーディオの収音範囲とに基づいて、第1の収音範囲(例えば、N*X/Yで表される)を決定してもよい。例えば、ターゲット画像の面積/ビデオピクチャの面積=第1の収音範囲/第1のオーディオの収音範囲である。
【0284】
一部の他の実施形態では、第1の特徴値は、ターゲット画像に対応する位置情報を含む。APは、ビデオピクチャ内のターゲット画像の位置情報に基づいて、第1のオーディオの収音範囲内のターゲット画像に対応する第1の収音範囲の位置を決定する。具体的には、APは、第1の基準点に対するターゲット画像の中心点の第1のオフセットを決定し、第1の基準点は、ビデオピクチャの中心点または合焦の焦点である。次いで、APは、第1のオフセットに基づいて、第1のオーディオの収音範囲の中心点に対する第1の収音範囲の中心点の第2のオフセットを決定し、第2のオフセットは、第1のオフセットに正比例し、その結果、第1の収音範囲が取得される。
【0285】
第1のオフセットまたは第2のオフセットは、オフセット角度および/またはオフセット距離を含む。例えば、座標系は、第1の基準点を原点として、電子デバイスの下端(または現在のビューファインダフレームの下端)に平行な方向をx軸として、x軸に垂直な方向をyとして使用することによって構築される。第1の基準点は、座標系の座標原点として使用され、座標系は、電子デバイスのディスプレイに平行である。第1のオフセットが左上45度である場合、第2のオフセットは左上45度である。この場合、第1の収音範囲は、第1のオーディオの収音範囲内であり、第1の収音範囲の中心点は、第1のオーディオの収音範囲の中心点の左上45度である。
【0286】
例えば、基準点に対するターゲット画像の中心のオフセットは、オフセット角度θ1およびオフセット距離L1を含む。第1のオーディオの収音範囲に対する第1の収音範囲のオフセットは、オフセット角度θ2およびオフセット距離L2を含む。この場合、θ1=θ2であり、L1/L2=一定である。
【0287】
APは、正面/背面属性パラメータ、面積比、および位置情報のうちの1つまたは任意の組み合わせを使用することによって、第1の収音範囲を決定し得ることが理解され得る。
【0288】
一部の実施形態では、第1の収音範囲を決定した後、プロセッサ内のAPは、第1の顔画像または第1の口画像に対応するオーディオを取得するために、すなわち、第2のオーディオを取得するために、1つ以上のマイクロフォンによって収集された第1のオーディオを使用することによって、第1の収音範囲内のオーディオ信号を強調し、および/または第1の収音範囲外のオーディオ信号を弱める。
【0289】
一部の実施形態では、APは、第1の収音範囲内の音量が第1の収音範囲外の音量よりも大きくなるように、第1の収音範囲に対応するマイクロフォンを呼び出して、第1の収音範囲内のオーディオ信号を強調することができる。
【0290】
例えば、電子デバイスは1つ以上のマイクロフォンを含み、1つ以上のマイクロフォンは第1のオーディオを収集するように構成される。1つ以上のマイクロフォンのうちの第1のマイクロフォンの収音範囲が第1の収音範囲の一部または全部を含む場合、第2のオーディオは、第1の収音範囲内であって第1のマイクロフォンの収音範囲内のオーディオ信号を強調すること、第1の収音範囲外であって第1のマイクロフォンの収音範囲内のオーディオ信号を弱めること、1つ以上のマイクロフォンのうちの第1のマイクロフォン以外のマイクロフォンのオーディオ信号を弱めること、の少なくとも1つを行うことにより取得される。
【0291】
別の例として、電子デバイスは、少なくとも2つのマイクロフォンを含み、少なくとも2つのマイクロフォンは、第1のオーディオを収集するように構成される。少なくとも2つのマイクロフォンのうちの第2のマイクロフォンの収音範囲が第1の収音範囲を含まない場合、第2のマイクロフォンは無効にされ、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンによって収集されたオーディオは、第1の顔画像または第1の口画像に対応するオーディオである。代替的に、第2のマイクロフォンが無効にされるとき、第1の収音範囲内にあり、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンの収音範囲内にあるオーディオ信号が強調され、かつ/または第1の収音範囲外にあり、少なくとも2つのマイクロフォンのうちの第2のマイクロフォン以外のマイクロフォンの収音範囲内にあるオーディオ信号が弱められる。
【0292】
一部の実施形態では、第2のオーディオを取得した後、プロセッサ内のAPは、取得されたビデオピクチャを使用することによって、記録されたビデオを取得する。撮影停止指示を与える操作が検出された後、第2のオーディオおよびビデオピクチャを含む記録されたビデオが取得される。
【0293】
一部の実施形態では、記録されたビデオは、複数のオーディオファイルを含んでもよく、各オーディオファイルは、1つのオーディオを含む。例えば、第1の特徴値に基づいて電子デバイスによって決定された第1の収音範囲と第1の顔画像または第1の口画像の表示範囲との間に誤差があり得るため、電子デバイスは、第1の収音範囲の近くの1つ以上の基準の第1の収音範囲を決定し得る。電子デバイスは、第1の収音範囲に基づいて1つのオーディオを取得し、基準の第1の収音範囲に基づいて少なくとも1つのオーディオを取得する。電子デバイスは、パノラマオーディオを1つのオーディオとしてさらに使用してもよい。この場合、電子デバイスは、第1の収音範囲に基づいて、第1の顔画像または第1の口画像に対応する複数のオーディオを取得することができる。1つのオーディオは、1つのオーディオファイルとして理解されてもよい。
【0294】
このようにして、複数のタイプのオーディオ体験がユーザに提供され得る。加えて、ユーザは、個人的なオーディオビジュアル体験に基づいて、一部のオーディオを削除し、ユーザが最適であると考えるオーディオを記憶することを選択することができ、それによって、ユーザの使用体験を改善し、メモリの記憶圧力を低減する。
【0295】
本出願の一実施形態は、1つ以上のプロセッサおよび1つ以上のメモリを含む電子デバイスをさらに提供する。1つ以上のメモリは1つ以上のプロセッサに結合され、1つ以上のメモリはコンピュータプログラムコードを記憶するように構成され、コンピュータプログラムコードはコンピュータ命令を含む。1つ以上のプロセッサがコンピュータ命令を実行すると、電子デバイスは、前述の実施形態におけるオーディオ処理方法を実装するために前述の関連する方法ステップを実行することを可能にされる。
【0296】
本出願の一実施形態は、プロセッサを含むチップシステムをさらに提供する。プロセッサはメモリに結合され、メモリはプログラムまたは命令を記憶するように構成される。プログラムまたは命令がプロセッサによって実行されると、チップシステムは、前述の方法の実施形態のいずれか1つにおける方法を実装することを可能にされる。
【0297】
任意選択で、チップシステム内に1つ以上のプロセッサがあってもよい。プロセッサは、ハードウェアを使用することによって実装されてよく、またはソフトウェアを使用することによって実装されてもよい。プロセッサがハードウェアによって実装される場合、プロセッサは、論理回路、集積回路などであってもよい。プロセッサがソフトウェアを使用することによって実装されるとき、プロセッサは、汎用プロセッサであってよく、メモリに記憶されたソフトウェアコードを読み出すことによって実装される。
【0298】
任意選択で、チップシステム内に1つ以上のメモリがあってもよい。メモリは、プロセッサと統合されてもよいし、プロセッサとは別に配置されてもよい。これは、本出願において限定されない。例えば、メモリは、非一時的プロセッサ、例えば、読み出し専用メモリROMであってもよい。メモリおよびプロセッサは、同じチップに統合されてもよく、または異なるチップ上に別々に配置されてもよい。メモリのタイプ、ならびにメモリおよびプロセッサを配置する方式は、本出願では特に限定されない。
【0299】
例えば、チップシステムは、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)、特定用途向け集積回路(application specific integrated circuit、ASIC)、システムオンチップ(system on chip、SoC)、中央処理装置(central processor unit、CPU)、ネットワークプロセッサ(network processor、NP)、デジタルシグナルプロセッサ(digital signal processor、DSP)、マイクロコントローラユニット(micro controller unit、MCU)、またはプログラマブルロジックデバイス(programmable logic device、PLD)もしくは別の統合チップとすることができる。
【0300】
前述の方法実施形態におけるステップは、プロセッサ内のハードウェアの集積論理回路を使用することによって、またはソフトウェアの形態の命令を使用することによって実装され得ることを理解されたい。本出願の実施形態を参照して開示される方法のステップは、ハードウェアプロセッサによって直接実行されてもよく、またはプロセッサ内のハードウェアモジュールとソフトウェアモジュールとの組み合わせによって実行されてもよい。
【0301】
本出願の一実施形態は、コンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体は、コンピュータ命令を記憶する。コンピュータ命令が端末デバイス上で実行されると、端末デバイスは、前述の実施形態におけるオーディオ処理方法を実装するために前述の関連する方法ステップを実行することを可能にされる。
【0302】
本出願の一実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品がコンピュータ上で実行されると、コンピュータは、前述の実施形態におけるオーディオ処理方法を実装するために前述の関連するステップを実行することを可能にされる。
【0303】
加えて、本出願の一実施形態は、装置をさらに提供する。装置は、具体的には、構成要素またはモジュールであってよく、装置は、接続されたプロセッサおよびメモリを含んでよい。メモリは、コンピュータ実行命令を記憶するように構成される。装置が動作すると、プロセッサは、メモリに記憶されたコンピュータ実行命令を実行することができ、その結果、装置は、前述の方法の実施形態におけるオーディオ処理方法を実行する。
【0304】
本出願の実施形態において提供される端末デバイス、コンピュータ可読記憶媒体、コンピュータプログラム製品、またはチップは全て、上で提供された対応する方法を実行するために使用される。したがって、端末デバイス、コンピュータ可読記憶媒体、コンピュータプログラム製品、またはチップによって達成され得る有益な効果については、上で提供された対応する方法における有益な効果を参照されたい。ここでは詳細は説明されない。
【0305】
前述の機能を実装するために、電子デバイスは、各機能を実行するための対応するハードウェアおよび/またはソフトウェアモジュールを含むことが理解され得る。本明細書で開示される実施形態を参照して説明された例のアルゴリズムステップは、ハードウェアまたはハードウェアとコンピュータソフトウェアとの組み合わせの形態で本出願において実装され得る。機能がハードウェアによって実行されるか、またはコンピュータソフトウェアによって駆動されるハードウェアによって実行されるかは、技術的解決策の特定の用途および設計制約に依存する。当業者は、異なる方法を使用して、特定の適用例ごとに説明された機能を実装し得るが、その実装形態が本出願の範囲を超えると見なされるべきではない。
【0306】
実施形態では、機能モジュールの分割は、前述の方法例に基づいて電子デバイス上で実行されてもよい。例えば、各機能モジュールは、各機能に対応する分割を介して取得されてもよいし、2つ以上の機能が1つの処理モジュールに統合されてもよい。統合されたモジュールは、ハードウェアの形態で実装されてもよい。本出願の実施形態では、モジュールへの分割は一例であり、論理的な機能分割にすぎず、実際の実装形態では他の分割であってもよいことに留意されたい。
【0307】
実装形態の前述の説明に基づいて、当業者は、便利で簡潔な説明の目的のために、前述の機能モジュールへの分割が単に説明のための例として使用されることを明確に理解することができる。実際の適用中に、前述の機能は、要件に基づいて実装のために異なる機能モジュールに割り当てられることができ、換言すれば、装置の内部構造は、上記で説明された機能の全てまたは一部を実装するために異なる機能モジュールに分割される。前述のシステム、装置、およびユニットの具体的な動作プロセスについては、前述の方法の実施形態における対応するプロセスを参照されたく、詳細はここでは再び説明されない。
【0308】
本出願で提供される複数の実施形態では、開示された装置および方法は他の方式で実装され得ることを理解されたい。例えば、説明される端末デバイスの実施形態は、単なる例である。例えば、モジュールおよびユニットへの分割は、単に論理的な機能分割であり、実際の実装形態では他の分割であってもよい。例えば、複数のユニットまたは構成要素は、別のシステムに結合または統合されてもよく、または、一部の特徴は無視されてもよいし、実行されなくてもよい。加えて、表示または議論された相互結合または直接結合または通信接続は、一部のインターフェースを介して実装され得る。モジュールまたはユニット間の間接的な結合または通信接続は、電子的、機械的、または他の形態で実装され得る。
【0309】
別個の部分として説明されるユニットは、物理的に別個であってもなくてもよく、ユニットとして表示される部分は、物理ユニットであってもなくてもよく、1つの位置に位置されてもよく、または複数のネットワークユニット上に分散されてもよい。ユニットの一部または全部は、実施形態の解決策の目的を達成するために、実際の要件に基づいて選択され得る。
【0310】
加えて、本出願の実施形態における機能ユニットは、1つの処理ユニットに統合されてもよく、ユニットの各々は、物理的に単独で存在してもよく、または2つ以上のユニットが1つのユニットに統合されてもよい。統合されたユニットは、ハードウェアの形態で実装されてもよく、またはソフトウェア機能ユニットの形態で実装されてもよい。
【0311】
統合されたユニットがソフトウェア機能ユニットの形態で実装され、独立した製品として販売または使用されるとき、統合されたユニットは、コンピュータ可読記憶媒体に記憶され得る。かかる理解に基づいて、本質的に本出願の技術的解決策、または従来技術に寄与する部分、または技術的解決策の全部もしくは一部は、ソフトウェア製品の形態で実装され得る。コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスであり得る)に、本出願の実施形態において説明される方法のステップの全てまたは一部を実行するように命令するための複数の命令を含む。前述の記憶媒体は、プログラムコードを記憶することができる任意の媒体、例えば、フラッシュメモリ、リムーバブルハードディスク、リードオンリメモリ、ランダムアクセスメモリ、磁気ディスク、または光ディスクを含む。
【0312】
前述の説明は、本出願の特定の実装形態にすぎず、本出願の保護範囲を限定することは意図されていない。本出願において開示される技術的範囲内の任意の変形または置換は、本出願の保護範囲内に含まれるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
【符号の説明】
【0313】
1 アンテナ
2 アンテナ
12 右側の顔画像
13 左側の顔画像
14 右側の顔画像
15 顔画像
16 第1の口画像
17 右側の第1の口画像
18 左側の第1の口画像
21 マイクロフォン
22 マイクロフォン
23 マイクロフォン
24 マイクロフォン
25 マイクロフォン
26 マイクロフォン
27 マイクロフォン
28 マイクロフォン
29 マイクロフォン
41 カメラアイコン
44 プロンプトボックス
45 撮影コントロール
46 コントロール
47 第1の顔画像
48 ビューファインダフレーム
49 プロンプトボックス
71 顔画像
81 発音顔画像
82 プロンプトボックス
83 正面/背面切り替えコントロール
84 発音顔画像
85 プロンプトボックス
100 電子デバイス
101 点線ボックス
102 点線ボックス
103 点線ボックス
104 点線ボックス
105 点線ボックス
106 点線ボックス
110 プロセッサ
111 点線ボックス
112 点線ボックス
113 点線ボックス
114 点線ボックス
115 点線ボックス
116 点線ボックス
120 外部メモリインターフェース
121 内部メモリ
121 マーク
122 マーク
123 マーク
124 マーク
125 マーク
126 点線ボックス
127 マーク
130 USBインターフェース
140 充電管理モジュール
141 大円
141 電力管理モジュール
142 第1の象限
142 バッテリ
143 第2の象限
144 第3の象限
145 第4の象限
150 移動通信モジュール
152 小円
160 ワイヤレス通信モジュール
161 楕円
162 楕円
163 楕円
164 中心点
165 中心点
166 大円
170 オーディオモジュール
170A スピーカ
170B 受信機
170C マイクロフォン
170D ヘッドセットジャック
171 推奨値選択コントロール
172 非処理選択コントロール
180 センサモジュール
180A 圧力センサ
180B ジャイロセンサ
180C 気圧センサ
180D 磁気センサ
180E 加速度センサ
180F 距離センサ
180G 光近接センサ
180H 指紋センサ
180J 温度センサ
180K タッチセンサ
180L 環境光センサ
180M 骨伝導センサ
181 正面/背面切り替えコントロール
182 右側の顔画像
183 強調値2選択コントロール
190 ボタン
191 モータ
191 サムネイル
192 インジケータ
192 サムネイル
193 マーク
193 カメラ
194 ディスプレイ
195 SIMカードインターフェース
195 オーディオ
196 オーディオ
197 オーディオ
198 保存コントロール
201 楕円
201 オーディオ切り替えコントロール
202 楕円
202 オーディオ切り替えコントロール
203 楕円
203 オーディオ切り替えコントロール
204 楕円
204 オーディオ切り替えコントロール
205 楕円
205 オーディオ切り替えコントロール
206 楕円
401 メインインターフェース
402 撮影プレビューインターフェース
403 ビデオ記録プレビューインターフェース
404 撮影インターフェース
421 コントロール
422 コントロール
423 コントロール
431 コントロール
432 コントロール
433 コントロール
434 コントロール
501 大円
502 小円
701 インターフェース
801 撮影インターフェース
802 撮影インターフェース
1001 インターフェース
1002 インターフェース
1003 インターフェース
1101 インターフェース
1102 インターフェース
1103 インターフェース
1201 インターフェース
1202 インターフェース
1203 インターフェース
1611 左半楕円
1621 左半楕円
1701 インターフェース
1801 インターフェース
1802 インターフェース
1803 インターフェース
1804 インターフェース
1901 インターフェース
1902 インターフェース
1903 インターフェース
1931 カメラ
1932 カメラ
2001 ビデオ再生インターフェース
2002 インターフェース
2003 インターフェース
図1
図2A
図2B(a)】
図2B(b)】
図2B(c)】
図2B(d)】
図3
図4(a)】
図4(b)】
図4(c)】
図4(d)】
図5
図6
図7
図8
図9
図10(a)】
図10(b)】
図10(c)】
図11(a)】
図11(b)】
図11(c)】
図12(a)】
図12(b)】
図12(c)】
図13(a)】
図13(b)】
図14
図15
図16A(a)】
図16A(b)】
図16B(a)】
図16B(b)】
図16B(c)】
図16C
図17
図18(a)】
図18(b)】
図18(c)】
図18(d)】
図19(a)】
図19(b)】
図19(c)】
図20(a)】
図20(b)】
図20(c)】
図21A
図21B