(58)【調査した分野】(Int.Cl.,DB名)
前記字幕ファイルは、少なくとも1つの文字フレーズと各文字フレーズの主要な情報を含み、1つの文字フレーズの主要な情報は、識別子、開始時間及び終了時間を含むことを特徴とする請求項1〜8のいずれか一項に記載の方法。
【発明を実施するための形態】
【0014】
本発明の目的、技術的解決手段及び利点をより明らかにするために、以下、図面を参照しながら本発明の実施形態をさらに詳細に説明する。
【0015】
本発明の実施例において、オーディオファイルは、歌、歌の断片などのファイルを含むが、これらに限られない。字幕ファイルは、歌詞、歌詞の断片などのファイルを含むが、これらに限られない。1つのオーディオ・ファイルは、1つの字幕ファイルに対応してよい。1つの字幕ファイルは、少なくとも1つの文字フレーズを順に並べて構成され、歌Aを例とすれば、歌Aに対応する字幕ファイルは以下のように示すことができる。
[641,770],[641,20]a
1[661,60]a
2[721,170]a
3[891,200]a
4[1091,70]a
5[1161,180]a
6[1341,20]a
7[1361,50]a
8
[1541,180],[1541,20]b
1[1561,50]b
2[1611,20]b
3[1631,30]b
4[1661,0]b
5[1661,10]b
6[1671,20]b
7[1701,30]b
8
[1871,730],[1871,60]c
1[1931,100]c
2[2031,110]c
3[2141,200]c
4[2341,70]c
5[2411,60]c
6[2471,50]c
7[2421,80]c
8
……
【0016】
上記歌Aに対応する字幕ファイルにおいて、「a
1a
2a
3a
4a
5a
6a
7a
8」、「b
1b
2b
3b
4b
5b
6b
7b
8」、及び「c
1c
2c
3c
4c
5c
6c
7c
8」は、それぞれ1つの文字フレーズを示すことができ、各文字フレーズの前の「[]」は、対応する文字フレーズの時間属性を記述するためのものであり、その単位時間は通常msであり、例えば、上記[641,770]は文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」の時間属性を記述するためのものであり、そのうちの「641」は文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」の開始時間を示し、「770」は文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」の持続時間を示し、歌Aが合計5分間であると仮定すれば、文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」は、641ms目から演唱が開始し、770ms継続して演唱が終わる。各文字フレーズにおいて、各文字の前の「[]」は対応する文字の時間属性を記述するためのものであり、その単位時間は通常msであり、例えば、上記[641,20]は文字「a
1」の時間属性を記述するためのものであり、そのうちの「641」は文字「a
1」の開始時間を示し、「20」は文字「a
1」の持続時間を示す。開始時間の早い順で字幕ファイルに含まれる各文字フレーズの順序を決定することでき、例えば、上記歌Aに対応する字幕ファイルの記述に基づいて、文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」は1番目の文字フレーズであり、文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」は2番目の文字フレーズであり、文字フレーズ「c
1c
2c
3c
4c
5c
6c
7c
8」は3番目の文字フレーズであり、以下同様である。文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」と文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」は、文字フレーズ「c
1c
2c
3c
4c
5c
6c
7c
8」の前の文字フレーズで、文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」と文字フレーズ「c
1c
2c
3c
4c
5c
6c
7c
8」は、文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」の後の文字フレーズであり、以下同様である。さらに、文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」は文字フレーズ“b
1b
2b
3b
4b
5b
6b
7b
8”の直前の文字フレーズであり、文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」は文字フレーズ“a
1a
2a
3a
4a
5a
6a
7a
8”の直後の文字フレーズであり、以下同様である。
【0017】
1つのオーディオ・ファイルは複数のオーディオ段落に分けることができ、オーディオ段落の間は、通常、一定の重複性がある。それで、1つの字幕ファイルは複数の字幕段落に対応して分けることができ、字幕段落の間は一定の類似性があり、即ち、字幕段落の間に含まれる文字フレーズに一定の類似性が存在する。本発明の実施例は、上記字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現することができる。
【0018】
1つのオーディオ・ファイルは複数のオーディオ段落に分けることができ、オーディオ段落の間は、通常、長い休止があり、即ち、オーディオ段落の間は、通常、長い時間間隔がある。それで、1つの字幕ファイルは複数の字幕段落に対応して分けることができ、字幕段落の間は長い時間間隔があり、即ち、字幕段落の間に含まれる文字フレーズの間に長い時間間隔が存在する。本発明の実施例は、上記字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現することができる。
【0019】
本発明の別の実施例において、オーディオ・ファイルはオーディオデータを含み、オーディオ・ファイルをデコード(例えば、PCMデコード)すると、オーディオデータ(例えば、PCMデータ)を取得することができる。1つのオーディオ・ファイルのオーディオデータは、少なくとも1つのオーディオフレームを含むことができ、即ち、1つのオーディオ・ファイルのオーディオデータは、複数のオーディオフレームで順に構成された1つのフレームシーケンスとして示すことができる。1つのオーディオ・ファイルは複数のオーディオ段落に分けることができ、オーディオ段落の間は、通常、一定の重複性があり、即ち、オーディオ段落の間に含まれるオーディオフレームに一定の関連性が存在する。本発明の実施例は、上記オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現することができる。
【0020】
以上の説明に基づいて、本発明の実施例は、対象オーディオ・ファイルのファイルデータを取得することと、前記ファイルデータの構成要素の間の関連性特性データに基づいて、関連性特性シーケンスを構築し、所定の段落総数に従って前記関連性特性シーケンスを最適化することと、最適化後の前記関連性特性シーケンスにおける少なくとも1つの特性要素の数値に基づいて段落変更時間を決定することと、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることとを含むオーディオ処理方法を提供する。対象オーディオ・ファイルのファイルデータにおける構成要素の間の関連性、例えば文字フレーズの間の類似度、文字フレーズの間の時間間隔又はオーディオフレームの間の関連性などに基づいて、対象オーディオ・ファイルに対する段落分けを実現でき、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0021】
本発明を理解しやすくするために、以下、
図1〜
図2を参照しながら、本発明の実施例に係るオーディオ処理方法を詳細に説明する。
【0022】
図1は、本発明の実施例に係るオーディオ処理方法のフローチャートである。該方法は、以下のステップS101〜ステップS105を含んでよい。
【0023】
S101では、対象オーディオ・ファイルに対応する、少なくとも1つの文字フレーズで順に構成された字幕ファイルを取得する。
【0024】
1つのオーディオ・ファイルは、1つの字幕ファイルに対応する。通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイル、各オーディオ・ファイルの属性及び各オーディオ・ファイルに対応する字幕ファイルが記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子などを含むが、これらに限られない。本ステップにおいて、インターネットオーディオ・ライブラリから対象オーディオ・ファイルに対応する字幕ファイルを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルに対応する字幕ファイルを検出し、かつ検出された字幕ファイルを取得すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位し、かつ対応する字幕ファイルを取得することを含むが、これらに限られない。
【0025】
本発明の実施例において、対象オーディオ・ファイルが歌Aであると仮定すれば、歌Aに対応する字幕ファイルの構造は本実施例に示された例を参照することができ、前記字幕ファイルがN(Nは正の整数)個の文字フレーズで順に構成され、該N個の文字フレーズをp(0)〜p(N−1)で示されると仮定すれば、p(0)は1番目の文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」を示し、p(1)は2番目の文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」を示し、p(2)は3番目の文字フレーズ「c
1c
2c
3c
4c
5c
6c
7c
8」を示すことができ、以下、同様のように、p(N−1)はN番目の文字フレーズを示す。
【0026】
S102では、前記少なくとも1つの文字フレーズの間の類似度に基づいて、少なくとも1つの文字特性要素を含む字幕特性シーケンスを構築する。
【0027】
前記字幕特性シーケンスは、前記少なくとも1つの文字フレーズの間の類似度を反映することができる。本ステップにおいて、まず、類似度アルゴリズムで前記少なくとも1つの文字フレーズの間の類似度を計算することができ、ここで、各文字フレーズとその後の文字フレーズとの間の類似度を算出する必要があり、即ち、p(0)とp(1)との間の類似度、p(0)とp(2)との間の類似度……p(0)とp(N−1)との間の類似度、p(1)とp(2)との間の類似度、p(1)とp(3)との間の類似度……p(1)とp(N−1)との間の類似度を算出する必要があり、以下同様である。類似度アルゴリズムは、編集距離アルゴリズム(Levenshtein Distance)、最長共通部分列アルゴリズム(Longest Common Subsequences,LCS)、Heckelアルゴリズム、Greedy String Tiling(GST)アルゴリズムなどを含むが、これらに限られない。次に、前記少なくとも1つの文字フレーズの数量、順序及び算出された類似度に基づいて、前記字幕特性シーケンスを構築することができる。
【0028】
本実施例に示された例に従って、s(n)で前記字幕特性シーケンスを示すと仮定すれば、構築された字幕特性シーケンスs(n)は、それぞれs(0)、s(1)…s(N−1)である合計N個の文字特性要素を含む。s(0)の数値は、p(0)とその後の文字フレーズとの間の類似状況を記述し、s(1)の数値は、p(1)とその後の文字フレーズとの間の類似状況を記述することができ、以下同様である。
【0029】
S103では、所定の段落総数に従って前記字幕特性シーケンスを最適化する。
【0030】
前記所定の段落総数は、ユーザの対象オーディオ・ファイルに対する実際の段落分けの需要に応じて設定することができる。M(Mは正の整数かつM>1)で前記所定の段落総数を示すと仮定すれば、所定の段落総数Mに従って前記字幕特性シーケンスs(n)を最適化することは、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するように、最適化後の前記字幕特性シーケンスs(n)をちょうどよく所定の段落総数M個の字幕段落に分けることを目的とする。
【0031】
S104では、最適化後の前記字幕特性シーケンスにおける少なくとも1つの文字特性要素の数値に基づいて段落変更時間を決定する。
【0032】
最適化後の前記字幕特性シーケンスs(n)はちょうどよく所定の段落総数M個の字幕段落に分けられるとともに、前記字幕特性シーケンスs(n)における文字特性要素の数値は、文字フレーズの間の類似状況を記述することができるため、最適化後の前記字幕特性シーケンスs(n)における文字特性要素の数値に基づいて、M個の字幕段落の変更点を決定し、さらに字幕ファイルからM個の字幕段落の開始及び終了時間を取得することができる。
【0033】
S105では、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。オーディオ・ファイルと字幕ファイルが互いに対応するので、取得されたM個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、M個のオーディオ段落を取得することができる。
【0034】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築し、所定の段落総数に従って前記字幕特性シーケンスを最適化し、最適化後の前記字幕特性シーケンスにおける少なくとも1つの文字特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、オーディオ処理プロセスは、字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0035】
図2は、本発明の実施例に係る別のオーディオ処理方法のフローチャートである。該方法は、以下のステップS201〜ステップS213を含んでよい。
【0036】
S201では、対象オーディオ・ファイルに対応する、少なくとも1つの文字フレーズで順に構成された字幕ファイルを取得する。
【0037】
本発明の実施例において、対象オーディオ・ファイルが歌Aであると仮定すれば、歌Aに対応する字幕ファイルの構造は本実施例に示された例を参照することができ、前記字幕ファイルがN(Nは正の整数)個の文字フレーズで順に構成され、該N個の文字フレーズをp(0)〜p(N−1)で示されると仮定すれば、p(0)は1番目の文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」を示し、p(1)は2番目の文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」を示し、p(2)は3番目の文字フレーズ「c
1c
2c
3c
4c
5c
6c
7c
8」を示すことができ、以下、同様のように、p(N−1)はN番目の文字フレーズを示す。
【0038】
本実施例のステップS201は、
図1に示された実施例のステップS101を参照することができ、ここで説明を省略する。
【0039】
S202では、前記少なくとも1つの文字フレーズの数量に基づいて、字幕特性シーケンスを構築する文字特性要素の数量を決定する。
【0040】
前記字幕ファイルはN(Nは正の整数)個の文字フレーズで順に構成され、即ち、前記少なくとも1つの文字フレーズの数量がNであるため、本ステップは、前記字幕特性シーケンスの文字特性要素の数量もNであると決定でき、即ち、前記字幕特性シーケンスの長さはNとなる。s(n)で前記字幕特性シーケンスを示すと仮定すれば、構築された字幕特性シーケンスs(n)は、それぞれs(0)、s(1)…s(N−1)である合計N個の文字特性要素を含む。
【0041】
S203では、前記少なくとも1つの文字フレーズにおける各文字フレーズの順序に基づいて、前記字幕特性シーケンスを構築する各文字特性要素のインデックスを決定する。
前記字幕ファイルのN個の文字フレーズは、p(0)、p(1)…p(N−1)という順序で並べ、前記字幕特性シーケンスs(n)において、s(0)はp(0)に対応し、s(1)はp(1)に対応し、以下、同様のように、s(N−1)はp(N−1)に対応すると仮定すれば、前記字幕特性シーケンスs(n)において、s(0)のインデックスは1、即ち1番目の文字特性要素であり、s(1)のインデックスは2、即ち2番目の文字特性要素であり、以下、同様のように、s(N−1)のインデックスはN、即ちN番目の文字特性要素である。
【0042】
S204では、前記字幕特性シーケンスを構築する各文字特性要素の数値をすべて初期値に設定する。
【0043】
前記初期値は実際の需要に応じて設定でき、本実施例において、前記初期値を0とすると、本ステップは、前記字幕特性シーケンスs(n)における全ての文字特性要素の数値をすべて0に設定し、即ち、s(0)=0、s(1)=0…s(N−1)=0に設定することができる。
【0044】
S205では、前記少なくとも1つの文字フレーズのうちいずれか1つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの後の文字フレーズとの間の最大類似度が所定の類似閾値より大きければ、前記対象文字フレーズに対応する文字特性要素の数値を初期値から対象値に変更する。
【0045】
本ステップS205の具体的な処理プロセスは、以下のs11〜s13を含んでよい。
【0046】
s11では、類似度アルゴリズムで前記少なくとも1つの文字フレーズの間の類似度を計算し、ここで、各文字フレーズとその後の文字フレーズとの間の類似度を算出する必要があり、即ち、p(0)とp(1)との間の類似度、p(0)とp(2)との間の類似度……p(0)とp(N−1)との間の類似度、p(1)とp(2)との間の類似度、p(1)とp(3)との間の類似度……p(1)とp(N−1)との間の類似度を算出する必要があり、以下同様である。類似度アルゴリズムは、編集距離アルゴリズム、最長共通部分列アルゴリズム、Heckelアルゴリズム、Greedy String Tiling(GST)アルゴリズムなどを含むが、これらに限られない。説明すべきことは、計算を容易にするために、算出された類似度をすべて[0,1]の区間内に正規化し、ある2つの文字フレーズの間の類似度が0に等しければ、該2つの文字フレーズが全く異なることを示し、ある2つの文字フレーズの間の類似度が1に等しければ、該2つの文字フレーズが完全に同じことを示す。
【0047】
s12では、各文字フレーズとその後の文字フレーズとの間の最大類似度を抽出し、例えば、p(0)とその後の文字フレーズp(1)〜p(N−1)の間の類似度を計算することにより、p(0)とp(2)間の類似度が最大でQ
02であれば、Q
02を抽出し、また、p(1)とその後の文字フレーズp(2)〜p(N−1)の間の類似度を計算することにより、p(1)とp(5)間の類似度が最大でQ
15であれば、Q
15を抽出する。
【0048】
s13では、抽出された最大類似度が所定の類似閾値より大きいか否かをそれぞれ判断し、判断結果に応じて、対応する文字特性要素の数値を変更して設定する。前記所定の類似閾値は実際の需要に応じて設定でき、該所定の類似閾値は、Thで示され、かつ0≦Th≦1である。前記対象値は実際の需要に応じて設定でき、かつ前記対象値が前記初期値より大きく、本実施例では前記対象値を1に設定することができる。ステップs12に示された例に従って、例えば、Q
02が所定の類似閾値Thより大きいか否かを判断し、Q
02>Thであれば、p(0)に対応するs(0)の数値を0から1に変更し、即ち、s(0)=1となり、また、Q
15が所定の類似閾値Thより大きいか否かを判断し、Q
15>Thであれば、p(1)に対応するs(1)の数値を0から1に変更し、即ち、s(1)=1となる。
【0049】
S206では、前記字幕特性シーケンスを構築する文字特性要素の数量、インデックス及び数値に基づいて、前記字幕特性シーケンスを構築する。
【0050】
構築された前記字幕特性シーケンスはs(n)であり、s(n)はN個の文字特性要素s(0)、s(1)…s(N−1)で順に構成され、かつ前記字幕特性シーケンスs(n)における各文字特性要素の数値は、0と1で構成されたシーケンスを形成する。
【0051】
本実施例のステップS202〜ステップS206は、
図1に示された実施例のステップS102の具体的に詳細化したステップであってよい。
【0052】
S207では、前記字幕特性シーケンスにおける、数値が対象値である文字特性要素の数量を統計する。本実施例に示された例に従って、本ステップは、前記字幕特性シーケンスs(n)における、数値が1である文字特性要素の数量を統計する必要がある。
【0053】
S208では、前記数量が前記所定の段落総数に対応する誤差許容範囲内にあるか否かを判断し、判別結果がYESであれば、ステップS210に移行し、判別結果がNOであれば、ステップS209に移行する。
【0054】
M(Mは正の整数かつM>1)で前記所定の段落総数を示すと仮定すれば、前記所定の段落総数Mに対応する誤差許容範囲は[M−u,M+u](uは整数)で示されてよく、ここで、uは整数範囲区間を示し、実際の需要に応じて設定することができる。本ステップにおいて、統計された前記字幕特性シーケンスs(n)における、数値が1である文字特性要素の数量が[M−u,M+u]の区間内にあるか否かを判断する必要があり、判断結果がYESであれば、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するように、前記字幕特性シーケンスs(n)が所定の段落総数M個の字幕段落に分けられることを示す。判断結果がNOであれば、前記字幕特性シーケンスs(n)が所定の段落総数M個の字幕段落に上手く分けられず、対象オーディオ・ファイルに対する実際の段落分けの需要を満足できず、何らかの調整を行う必要があることを示す。
【0055】
S209では、前記所定の類似閾値の大きさを調整することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。
【0056】
本ステップの調整プロセスは、以下のステップs21〜s22を含んでよい。
【0057】
s21では、前記数量が、前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より大きければ、所定のステップサイズに従って前記所定の類似閾値を増大させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。
【0058】
前記数量がM+uより大きければ、所定のステップサイズに従って前記所定の類似閾値Thの値を増加させ、かつ上記ステップs13を再度実行することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する必要がある。
【0059】
s22では、前記数量が前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より小さければ、所定のステップサイズに従って前記所定の類似閾値を減少させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。
【0060】
前記数量がM+uより小さければ、所定のステップサイズに従って前記所定の類似閾値Thの値を減少させ、かつ上記ステップs13を再度実行することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する必要がある。
【0061】
ステップs21〜s22において、前記所定のステップサイズは実際の需要に応じて設定でき、前記所定のステップサイズは固定したステップサイズであってよく、即ち、毎回固定したステップサイズで前記所定の類似閾値Thの値を増大又は減少させ、前記所定のステップサイズはランダムなステップサイズであってもよく、即ち、毎回異なったステップサイズで前記所定の類似閾値Thの値を増大又は減少させる。
【0062】
本実施例のステップS207〜ステップS209は、
図1に示された実施例のステップS103の具体的に詳細化したステップであってよい。
【0063】
S210では、最適化後の前記字幕特性シーケンスから、数値が対象値である文字特性要素に対応する対象インデックスを取得する。最適化後の前記字幕特性シーケンスs(n)において、s(0)=0、s(1)=0…s(4)=1…s(10)=1…s(N−1)=0であり、s(4)=1、s(10)=1であり、s(4)に対応するインデックスが5であり、s(10)に対応するインデックスが11であるため、本ステップで取得できる対象インデックスは5と11となる。
【0064】
S211では、前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位する。
【0065】
前記対象インデックスが5と11であるため、前記字幕ファイルにおいて、段落が変更する文字フレーズを5番目の文字フレーズと11番目の文字フレーズに定位でき、即ち、5番目の文字フレーズは1つの字幕段落の開始位置となり、即ち前記字幕ファイルにおける1〜4番目の文字フレーズが1つの字幕段落を構成し、11番目の文字フレーズは別の字幕段落の開始位置となり、即ち前記字幕ファイルにおける5〜10番目の文字フレーズが1つの字幕段落を構成する。
【0066】
S212では、前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取る。
【0067】
前記字幕ファイルには、各文字フレーズの開始時間、持続時間、終了時間を含む各文字フレーズの時間属性が記録されているため、本ステップは、前記字幕ファイルから段落変更時間を読み取ることができ、本実施例に示された例に従って、前記字幕ファイルにおける1〜4番目の文字フレーズが1つの字幕段落を構成するので、読み取られた段落変更時間は、4番目の文字フレーズの終了時間と5番目の文字フレーズの開始時間であり、前記字幕ファイルにおける5〜10番目の文字フレーズが1つの字幕段落を構成するので、読み取られた段落変更時間は、10番目の文字フレーズの終了時間と11番目の文字フレーズの開始時間である。
【0068】
本実施例のステップS210〜ステップS212は、
図1に示された実施例のステップS104の具体的に詳細化したステップであってよい。ステップS210〜ステップS212に基づいて、M個の字幕段落の開始及び終了時間を取得することができる。
【0069】
S213では、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。オーディオ・ファイルと字幕ファイルが互いに対応するので、取得されたM個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、M個のオーディオ段落を取得することができる。
【0070】
本実施例のステップS213は、
図1に示された実施例のステップS105を参照することができ、ここで説明を省略する。
【0071】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築し、所定の段落総数に従って前記字幕特性シーケンスを最適化し、最適化後の前記字幕特性シーケンスにおける少なくとも1つの文字特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、オーディオ処理プロセスは、字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0072】
以下、
図3〜
図7を参照しながら、本発明の実施例に係るオーディオ処理装置の構造と機能を詳細に記述する。なお、下記
図3〜
図7に示された装置は、上記
図1〜
図2に示された方法の実行に応用するために、端末で動作することができる。
【0073】
図3は、本発明の実施例に係るオーディオ処理装置の概略構成図である。該装置は、取得手段301、構築手段302、最適化手段303、決定手段304及び段落分け手段305を含んでよい。
【0074】
取得手段301は、対象オーディオ・ファイルに対応する、少なくとも1つの文字フレーズで順に構成された字幕ファイルを取得する。
【0075】
1つのオーディオ・ファイルは、1つの字幕ファイルに対応する。通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイル、各オーディオ・ファイルの属性及び各オーディオ・ファイルに対応する字幕ファイルが記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子などを含むが、これらに限られない。前記取得手段301は、インターネットオーディオ・ライブラリから対象オーディオ・ファイルに対応する字幕ファイルを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルに対応する字幕ファイルを検出し、かつ検出された字幕ファイルを取得すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位し、かつ対応する字幕ファイルを取得することを含むが、これらに限られない。
【0076】
本発明の実施例において、対象オーディオ・ファイルが歌Aであると仮定すれば、歌Aに対応する字幕ファイルの構造は本実施例に示された例を参照することができ、前記字幕ファイルがN(Nは正の整数)個の文字フレーズで順に構成され、該N個の文字フレーズをp(0)〜p(N−1)で示されると仮定すれば、p(0)は1番目の文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」を示し、p(1)は2番目の文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」を示し、p(2)は3番目の文字フレーズ「c
1c
2c
3c
4c
5c
6c
7c
8」を示すことができ、以下、同様のように、p(N−1)はN番目の文字フレーズを示す。
【0077】
構築手段302は、前記少なくとも1つの文字フレーズの間の類似度に基づいて、少なくとも1つの文字特性要素を含む字幕特性シーケンスを構築する。
【0078】
前記字幕特性シーケンスは、前記少なくとも1つの文字フレーズの間の類似度を反映することができる。まず、前記構築手段302は、類似度アルゴリズムで前記少なくとも1つの文字フレーズの間の類似度を計算することができ、ここで、各文字フレーズとその後の文字フレーズとの間の類似度を算出する必要があり、即ち、p(0)とp(1)との間の類似度、p(0)とp(2)との間の類似度……p(0)とp(N−1)との間の類似度、p(1)とp(2)との間の類似度、p(1)とp(3)との間の類似度……p(1)とp(N−1)との間の類似度を算出する必要があり、以下同様である。類似度アルゴリズムは、編集距離アルゴリズム、最長共通部分列アルゴリズム、Heckelアルゴリズム、Greedy String Tiling(GST)アルゴリズムなどを含むが、これらに限られない。次に、前記構築手段302は、前記少なくとも1つの文字フレーズの数量、順序及び算出された類似度に基づいて、前記字幕特性シーケンスを構築することができる。
【0079】
本実施例に示された例に従って、s(n)で前記字幕特性シーケンスを示すと、構築された字幕特性シーケンスs(n)は、それぞれs(0)、s(1)…s(N−1)である合計N個の文字特性要素を含む。s(0)の数値は、p(0)とその後の文字フレーズとの間の類似状況を記述し、s(1)の数値は、p(1)とその後の文字フレーズとの間の類似状況を記述することができ、以下同様である。
【0080】
最適化手段303は、所定の段落総数に従って前記字幕特性シーケンスを最適化する。
【0081】
前記所定の段落総数は、ユーザの対象オーディオ・ファイルに対する実際の段落分けの需要に応じて設定することができる。M(Mは正の整数かつM>1)で前記所定の段落総数を示すと仮定すれば、前記最適化手段303は、所定の段落総数Mに従って前記字幕特性シーケンスs(n)を最適化する目的は、最適化後の前記字幕特性シーケンスs(n)を、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するよう、ちょうどよく所定の段落総数M個の字幕段落に分けられるようにすることである。
【0082】
決定手段304は、最適化後の前記字幕特性シーケンスにおける少なくとも1つの文字特性要素の数値に基づいて段落変更時間を決定する。
【0083】
ここで、最適化後の前記字幕特性シーケンスs(n)はちょうどよく所定の段落総数M個の字幕段落に分けられるとともに、前記字幕特性シーケンスs(n)における文字特性要素の数値は、文字フレーズの間の類似状況を記述することができ、従って、前記決定手段304は、最適化後の前記字幕特性シーケンスs(n)における文字特性要素の数値に基づいて、M個の字幕段落の変更点を決定し、さらに字幕ファイルからM個の字幕段落の開始及び終了時間を取得することができる。
【0084】
段落分け手段305は、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。
【0085】
オーディオ・ファイルと字幕ファイルが互いに対応するので、前記段落分け手段305は、取得されたM個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、M個のオーディオ段落を取得することができる。
【0086】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築し、所定の段落総数に従って前記字幕特性シーケンスを最適化し、最適化後の前記字幕特性シーケンスにおける少なくとも1つの文字特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、オーディオ処理プロセスは、字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0087】
図4は、
図3に示された構築手段の実施例の概略構成図である。該構築手段302は、数量決定手段401、インデックス決定手段402、数値設定手段403、数値変更手段404及びシーケンス構築手段405を含んでよい。
【0088】
数量決定手段401は、前記少なくとも1つの文字フレーズの数量に基づいて、字幕特性シーケンスを構築する文字特性要素の数量を決定する。
【0089】
前記字幕ファイルはN(Nは正の整数)個の文字フレーズで順に構成され、即ち、前記少なくとも1つの文字フレーズの数量がNであり、従って、前記数量決定手段401は、前記字幕特性シーケンスの文字特性要素の数量をもNと決定でき、即ち、前記字幕特性シーケンスの長さはNとなる。s(n)で前記字幕特性シーケンスを示すと、構築された字幕特性シーケンスs(n)は、それぞれs(0)、s(1)…s(N−1)である合計N個の文字特性要素を含む。
【0090】
インデックス決定手段402は、前記少なくとも1つの文字フレーズにおける各文字フレーズの順序に基づいて、前記字幕特性シーケンスを構築する各文字特性要素のインデックスを決定する。
【0091】
前記字幕ファイルのN個の文字フレーズは、p(0)、p(1)…p(N−1)という順序で並べ、前記字幕特性シーケンスs(n)において、s(0)はp(0)に対応し、s(1)はp(1)に対応し、以下、同様のように、s(N−1)はp(N−1)に対応すると仮定すれば、前記字幕特性シーケンスs(n)において、s(0)のインデックスは1、即ち1番目の文字特性要素であり、s(1)のインデックスは2、即ち2番目の文字特性要素であり、以下、同様のように、s(N−1)のインデックスはN、即ちN番目の文字特性要素である。
【0092】
数値設定手段403は、前記字幕特性シーケンスを構築する各文字特性要素の数値をすべて初期値に設定する。
【0093】
前記初期値は実際の需要に応じて設定でき、本実施例において、前記初期値を0とすると、数値設定手段403は、前記字幕特性シーケンスs(n)における全ての文字特性要素の数値をすべて0に設定し、即ち、s(0)=0、s(1)=0…s(N−1)=0に設定することができる。
【0094】
数値変更手段404は、前記少なくとも1つの文字フレーズのうちいずれか1つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの後の文字フレーズとの間の最大類似度が所定の類似閾値より大きければ、前記対象文字フレーズに対応する文字特性要素の数値を初期値から対象値に変更する。
【0095】
前記数値変更手段404の具体的な処理プロセスは以下A〜Cを含んでよい。
【0096】
A、類似度アルゴリズムで前記少なくとも1つの文字フレーズの間の類似度を計算し、ここで、各文字フレーズとその後の文字フレーズとの間の類似度を算出する必要があり、即ち、p(0)とp(1)との間の類似度、p(0)とp(2)との間の類似度……p(0)とp(N−1)との間の類似度、p(1)とp(2)との間の類似度、p(1)とp(3)との間の類似度……p(1)とp(N−1)との間の類似度を算出する必要があり、以下同様である。類似度アルゴリズムは、編集距離アルゴリズム、最長共通部分列アルゴリズム、Heckelアルゴリズム、Greedy String Tiling(GST)アルゴリズムなどを含むが、これらに限られない。計算を容易にするために、算出された類似度をすべて[0,1]の区間内に正規化し、ある2つの文字フレーズの間の類似度が0に等しければ、該2つの文字フレーズが全く異なることを示し、ある2つの文字フレーズの間の類似度が1に等しければ、該2つの文字フレーズが完全に同じことを示す。
【0097】
B、各文字フレーズとその後の文字フレーズとの間の最大類似度を抽出し、例えば、p(0)とその後の文字フレーズp(1)〜p(N−1)の間の類似度を計算することにより、p(0)とp(2)間の類似度が最大でQ
02であれば、Q
02を抽出し、また、p(1)とその後の文字フレーズp(2)〜p(N−1)の間の類似度を計算することにより、p(1)とp(5)間の類似度が最大でQ
15であれば、Q
15を抽出する。
【0098】
C、抽出された最大類似度が所定の類似閾値より大きいか否かをそれぞれ判断して、判断結果に応じて、対応する文字特性要素の数値を変更して設定する。ここで、前記所定の類似閾値は実際の需要に応じて設定でき、該所定の類似閾値は、Thで示され、かつ0≦Th≦1である。前記対象値は、実際の需要に応じて設定でき、かつ前記初期値より大きく、本実施例では前記対象値を1に設定することができる。本実施例に示された例に従って、例えば、Q
02が所定の類似閾値Thより大きいか否かを判断し、Q
02>Thであれば、p(0)に対応するs(0)の数値を0から1に変更し、即ち、s(0)=1とし、また、Q
15が所定の類似閾値Thより大きいか否かを判断し、Q
15>Thであれば、p(1)に対応するs(1)の数値を0から1に変更し、即ち、s(1)=1とする。
【0099】
シーケンス構築手段405は、前記字幕特性シーケンスを構築する文字特性要素の数量、インデックス及び数値に基づいて、前記字幕特性シーケンスを構築する。
【0100】
構築された前記字幕特性シーケンスは、N個の文字特性要素s(0)、s(1)…s(N−1)で順に構成されたs(n)であり、前記字幕特性シーケンスs(n)における各文字特性要素の数値は、0と1で構成されたシーケンスを形成する。
【0101】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築し、所定の段落総数に従って前記字幕特性シーケンスを最適化し、最適化後の前記字幕特性シーケンスにおける少なくとも1つの文字特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、オーディオ処理プロセスは、字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0102】
図5は、
図3に示された最適化手段の実施例の概略構成図である。該最適化手段303は、数量統計手段501、判定手段502及び最適化処理手段503を含んでよい。
【0103】
数量統計手段501は、前記字幕特性シーケンスにおける、数値が対象値である文字特性要素の数量を統計する。
図4に示された実施例の例に従って、前記数量統計手段501は、前記字幕特性シーケンスs(n)における、数値が1である文字特性要素の数量を統計する必要がある。
【0104】
判断手段502は、前記数量が前記所定の段落総数に対応する誤差許容範囲内にあるか否かを判断する。
【0105】
M(Mは正の整数かつM>1)で前記所定の段落総数を示すと仮定すれば、前記所定の段落総数Mに対応する誤差許容範囲は[M−u,M+u](uは整数)で示されてよく、ここで、uは整数範囲区間を示し、実際の需要に応じて設定することができる。前記判断手段502は、統計された前記字幕特性シーケンスs(n)における、数値が1である文字特性要素の数量が[M−u,M+u]の区間内にあるか否かを判断する必要があり、判断結果がYESであれば、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するように、前記字幕特性シーケンスs(n)が所定の段落総数M個の字幕段落に分けられることを示す。判断結果がNOであれば、前記字幕特性シーケンスs(n)が所定の段落総数M個の字幕段落に上手く分けられず、対象オーディオ・ファイルに対する実際の段落分けの需要を満足できず、何らかの調整を行う必要があることを示す。
【0106】
最適化処理手段503は、判断結果がNOであれば、前記所定の類似閾値の大きさを調整することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。
【0107】
さらに
図6は、
図5に示された最適化処理手段の実施例の概略構成図である。該最適化手段503は、第1の調整手段601と第2の調整手段602を含む。
【0108】
第1の調整手段601は、前記数量が、前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より大きければ、所定のステップサイズに従って前記所定の類似閾値を増大させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。
【0109】
前記数量がM+uより大きければ、前記第1の調整手段601は、所定のステップサイズに従って前記所定の類似閾値Thの値を増加させ、かつ前記字幕特性シーケンスにおける各文字特性要素の数値を再度調整する必要がある。
【0110】
第2の調整手段602は、前記数量が、前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より小さければ、所定のステップサイズに従って前記所定の類似閾値を減少させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。
【0111】
前記数量がM−uより小さければ、前記第2の調整手段602は、所定のステップサイズに従って前記所定の類似閾値Thの値を減少させ、かつ前記字幕特性シーケンスにおける各文字特性要素の数値を再度調整する必要がある。ここで、前記所定のステップサイズは実際の需要に応じて設定でき、前記所定のステップサイズは固定したステップサイズであってよく、即ち、毎回固定したステップサイズで前記所定の類似閾値Thの値を増大又は減少させる。前記所定のステップサイズはランダムなステップサイズであってもよく、即ち、毎回異なったステップサイズで前記所定の類似閾値Thの値を増大又は減少させる。
【0112】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築し、所定の段落総数に従って前記字幕特性シーケンスを最適化し、最適化後の前記字幕特性シーケンスにおける少なくとも1つの文字特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、オーディオ処理プロセスは、字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0113】
図7は、
図3に示された決定手段304の実施例の概略構成図である。該決定手段304は、対象インデックス取得手段701、定位手段702及び時間読取手段703を含んでよい。
【0114】
対象インデックス取得手段701は、最適化後の前記字幕特性シーケンスから、数値が対象値である文字特性要素に対応する対象インデックスを取得する。
【0115】
最適化後の前記字幕特性シーケンスs(n)において、s(0)=0、s(1)=0…s(4)=1…s(10)=1…s(N−1)=0であり、s(4)=1、s(10)=1であり、s(4)に対応するインデックスが5であり、s(10)に対応するインデックスが11であるため、前記対象インデックス取得手段701が取得できる対象インデックスは5と11となる。
【0116】
定位手段702は、前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位する。
【0117】
前記対象インデックスが5と11であるため、前記定位手段702は、前記字幕ファイルにおいて、段落が変更する文字フレーズを5番目の文字フレーズと11番目の文字フレーズに定位でき、即ち、5番目の文字フレーズは1つの字幕段落の開始位置となり、即ち前記字幕ファイルにおける1〜4番目の文字フレーズが1つの字幕段落を構成し、11番目の文字フレーズは別の字幕段落の開始位置となり、即ち前記字幕ファイルにおける5〜10番目の文字フレーズが1つの字幕段落を構成する。
【0118】
時間読取手段703は、前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取る。
【0119】
前記字幕ファイルには、各文字フレーズの開始時間、持続時間、終了時間を含む各文字フレーズの時間属性が記録されているため、前記時間読取手段703は、前記字幕ファイルから段落変更時間を読み取ることができ、本実施例に示された例に従って、前記字幕ファイルにおける1〜4番目の文字フレーズが1つの字幕段落を構成するので、読み取られた段落変更時間は、4番目の文字フレーズの終了時間と5番目の文字フレーズの開始時間であり、前記字幕ファイルにおける5〜10番目の文字フレーズが1つの字幕段落を構成するので、読み取られた段落変更時間は、10番目の文字フレーズの終了時間と11番目の文字フレーズの開始時間である。
【0120】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築し、所定の段落総数に従って前記字幕特性シーケンスを最適化し、最適化後の前記字幕特性シーケンスにおける少なくとも1つの文字特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、オーディオ処理プロセスは、字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0121】
本発明の実施例はさらに端末を開示し、該端末はPC(Personal Computer、パソコン)、ノートパソコン、携帯電話、PAD(タブレット型コンピュータ)、車載端末、インテリジェント着用可能設備などの設備であってよい。該端末にオーディオ処理装置を含んでよく、該装置の構造及び機能は上記
図3〜
図7を参照することができ、ここで説明を省略する。
【0122】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築し、所定の段落総数に従って前記字幕特性シーケンスを最適化し、最適化後の前記字幕特性シーケンスにおける少なくとも1つの文字特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、オーディオ処理プロセスは、字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0123】
当業者であれば理解できるように、上記実施例の全部又は一部のステップの実現はハードウェアによって実施してもよく、プログラムによって関連するハードウェアに命令することで実施してもよく、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶することができ、上記記憶媒体はリードオンリーメモリ、磁気ディスク又は光ディスクなどであってよい。
【0124】
以上の記述に基づいて、以下、
図8〜
図9を参照しながら、本発明の実施例に係るオーディオ処理方法を詳細に記述する。
【0125】
図8は、本発明の実施例に係るオーディオ処理方法のフローチャートである。該方法は、以下のステップS801〜ステップS805を含んでよい。
【0126】
S801では、対象オーディオ・ファイルに対応する、少なくとも1つの文字フレーズで順に構成された字幕ファイルを取得する。
【0127】
1つのオーディオ・ファイルは、1つの字幕ファイルに対応する。前記字幕ファイルは、少なくとも1つの文字フレーズと各文字フレーズの主要な情報を含み、1つの文字フレーズの主要な情報は、識別子(ID)、開始時間(start_time)及び終了時間(end_time)を含む。通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイル、各オーディオ・ファイルの属性及び各オーディオ・ファイルに対応する字幕ファイルが記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子などを含むが、これらに限られない。本ステップにおいて、インターネットオーディオ・ライブラリから対象オーディオ・ファイルに対応する字幕ファイルを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルに対応する字幕ファイルを検出し、かつ検出された字幕ファイルを取得すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位し、かつ対応する字幕ファイルを取得することを含むが、これらに限られない。
【0128】
本発明の実施例において、対象オーディオ・ファイルが歌Aであると仮定すれば、歌Aに対応する字幕ファイルの構造は本実施例に示された例を参照することができ、前記字幕ファイルがN(Nは正の整数)個の文字フレーズで順に構成され、該N個の文字フレーズをp(0)〜p(N−1)で示されると仮定すれば、p(0)は1番目の文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」を示し、p(1)は2番目の文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」を示し、p(2)は3番目の文字フレーズ「c
1c
2c
3c
4c
5c
6c
7c
8」を示すことができ、以下、同様のように、p(N−1)はN番目の文字フレーズを示す。
【0129】
S802では、前記少なくとも1つの文字フレーズの間の時間間隔に基づいて、少なくとも1つの時間特性要素を含む時間特性シーケンスを構築する。
【0130】
前記時間特性シーケンスは、前記少なくとも1つの文字フレーズの間の時間間隔の程度を反映することができる。本ステップにおいて、まず、前記少なくとも1つの文字フレーズの間の時間間隔を計算し、ここで、p(1)とp(0)との間の時間間隔p(1).start_time−p(0).end_timeを計算し、p(2)とp(1)との間の時間間隔p(2).start_time−p(1).end_timeを計算し、以下、同様のように、p(N−1)とp(N−2)との間の時間間隔p(N−1).start_time−p(N−2).end_timeを計算する必要がある。次に、前記少なくとも1つの文字フレーズの数量、順序及び算出された時間間隔に基づいて、前記時間特性シーケンスを構築することができる。
【0131】
本実施例に示された例に従って、t(n)で前記時間特性シーケンスを示すと、構築された字幕特性シーケンスt(n)は、それぞれt(0)、t(1)…t(N−1)である合計N個の時間特性要素を含む。ここで、t(0)の数値を0に設定でき、t(1)の数値はp(1)とp(0)との間の時間間隔を示し、t(2)の数値はp(2)とp(1)との間の時間間隔を示し、以下、同様のように、t(N−1)の数値はp(N−1)とp(N−2)との間の時間間隔を示す。
【0132】
S803では、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整する。
【0133】
前記所定の段落総数は、ユーザの対象オーディオ・ファイルに対する実際の段落分けの需要に応じて設定することができる。M(Mは正の整数かつM>1)で前記所定の段落総数を示すと仮定すれば、所定の段落総数Mに従って前記時間特性シーケンスt(n)における各時間特性要素の数値を調整する目的は、調整後の前記字幕特性シーケンスt(n)を、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するよう、ちょうどよくM個の字幕段落に対応する変更点を取得できるようにすることである。
【0134】
S804では、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて、段落変更時間を決定する。
【0135】
前記調整後の時間特性シーケンスt(n)における各時間特性要素の数値は、M個の字幕段落に対応する変更点を反映でき、従って、本ステップは、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて、字幕ファイルからM個の字幕段落の開始及び終了時間を取得することができる。
【0136】
S805では、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。オーディオ・ファイルと字幕ファイルが互いに対応するので、取得されたM個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、M個のオーディオ段落を取得することができる。
【0137】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の時間間隔に基づいて時間特性シーケンスを構築し、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整し、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0138】
図9は、本発明の実施例に係る別のオーディオ処理方法のフローチャートである。該方法は、以下のステップS901〜ステップS905を含んでよい。
【0139】
S901では、対象オーディオ・ファイルに対応する、少なくとも1つの文字フレーズで順に構成された字幕ファイルを取得する。
【0140】
本発明の実施例において、対象オーディオ・ファイルが歌Aであると仮定すれば、歌Aに対応する字幕ファイルの構造は本実施例に示された例を参照することができ、前記字幕ファイルがN(Nは正の整数)個の文字フレーズで順に構成され、該N個の文字フレーズをp(0)〜p(N−1)で示されると仮定すれば、p(0)は1番目の文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」を示し、p(1)は2番目の文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」を示し、p(2)は3番目の文字フレーズ「c
1c
2c
3c
4c
5c
6c
7c
8」を示すことができ、以下、同様のように、p(N−1)はN番目の文字フレーズを示す。
【0141】
本実施例のステップS901は、
図1に示された実施例のステップS801を参照することができ、ここで説明を省略する。
【0142】
S902では、前記少なくとも1つの文字フレーズの数量に基づいて、時間特性シーケンスを構築する時間特性要素の数量を決定する。
【0143】
前記字幕ファイルはN(Nは正の整数)個の文字フレーズで順に構成され、即ち、前記少なくとも1つの文字フレーズの数量がNであり、従って、本ステップは、前記時間特性シーケンスの時間特性要素の数量もNであると決定でき、即ち、前記時間特性シーケンスの長さはNとなる。t(n)で前記時間特性シーケンスを示すと、構築された字幕特性シーケンスt(n)は、それぞれt(0)、t(1)…t(N−1)である合計N個の時間特性要素を含む。
【0144】
S903では、前記少なくとも1つの文字フレーズにおける各文字フレーズの順序に基づいて、前記時間特性シーケンスを構築する各時間特性要素のインデックスを決定する。
【0145】
前記字幕ファイルのN個の文字フレーズは、p(0)、p(1)…p(N−1)という順序で並べ、前記字幕特性シーケンスt(n)において、t(0)はp(0)に対応し、t(1)はp(1)に対応し、以下、同様のように、t(N−1)はp(N−1)に対応すると仮定すれば、前記時間特性シーケンスt(n)において、t(0)のインデックスは1、即ち1番目の時間特性要素であり、t(1)のインデックスは2、即ち2番目の時間特性要素であり、以下、同様のように、t(N−1)のインデックスはN、即ちN番目の時間特性要素である。
【0146】
S904では、前記少なくとも1つの文字フレーズのうちいずれか1つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの直前の文字フレーズとの間の時間間隔を、前記対象文字フレーズに対応する時間特性要素の数値に設定する。
【0147】
本ステップS904の具体的な処理プロセスは、以下のs11〜s12を含んでよい。
s11では、各文字フレーズとその直前の文字フレーズとの間の時間間隔を計算し、ここで、p(1)とp(0)との間の時間間隔p(1).start_time−p(0).end_timeを計算し、p(2)とp(1)との間の時間間隔p(2).start_time−p(1).end_timeを計算し、以下、同様のように、p(N−1)とp(N−2)との間の時間間隔p(N−1).start_time−p(N−2).end_timeを計算する必要がある。
【0148】
s12では、算出された時間間隔を対応する時間特性要素の数値に設定する。従って、t(0)=0、t(1)=p(1).start_time−p(0).end_time、t(2)=p(2).start_time−p(1).end_time、以下、同様のように、t(N−1)=p(N−1).start_time−p(N−2).end_timeに設定することができる。
【0149】
S905では、前記時間特性シーケンスを構築する時間特性要素の数量、インデックス及び数値に基づいて、前記時間特性シーケンスを構築する。
【0150】
構築された前記時間特性シーケンスは、N個の時間特性要素t(0)、t(1)…t(N−1)で順に構成されたt(n)であり、前記時間特性シーケンスt(n)における各時間特性要素の数値は、t(0)=0、t(1)=p(1).start_time−p(0).end_time、t(2)=p(2).start_time−p(1).end_time、以下、同様のように、t(N−1)=p(N−1).start_time−p(N−2).end_timeである。
【0151】
本実施例のステップS902〜ステップS905は、
図8に示された実施例のステップS802の具体的に詳細化したステップであってよい。
【0152】
S906では、前記時間特性シーケンスから、上位の所定の段落数量−1個の最大数値の時間特性要素を検出する。M(Mは正の整数かつM>1)で前記所定の段落総数を示すと仮定すれば、本ステップは、前記時間特性シーケンスt(n)から、上位のM−1個の最大数値の時間特性要素を検出する必要がある。
【0153】
S907では、検出された時間特性要素の数値を対象値に調整し、前記時間特性シーケンスにおける、検出された時間特性要素以外のその他の時間特性要素の数値を参考値に調整する。前記対象値と前記参考値は、実際の需要に応じて設定でき、本発明の実施例は前記対象値を1に、前記参考値を0に設定することができる。
【0154】
ステップS906〜S907の具体的な処理プロセスとして、まず、前記時間特性シーケンスt(n)における各時間特性要素の数値を調査し、その中から最大数値に対応する時間特性要素を検出し、検出された時間特性要素を除外した後、前記時間特性シーケンスt(n)における各時間特性要素の数値を再度調査し、その中から最大数値に対応する時間特性要素を検出し、上記調査プロセスを繰り返して、M−1個の最大数値が検出されると停止する。最後に、前記時間特性シーケンスt(n)から検出されたM−1個の最大数値をすべて1に調整し、その他の数値を0に調整する。
【0155】
本実施例のステップS906〜ステップS907は、
図8に示された実施例のステップS803の具体的に詳細化したステップであってよい。M個の字幕段落はちょうどよくM−1個の段落変更点に対応するため、ステップS906〜ステップS907に従って、調整後の前記時間特性シーケンスt(n)は、ちょうどよくM個の字幕段落に対応するM−1段落変更点を抽出でき、それに従って、対象オーディオ・ファイルに対する実際の段落分けの需要を実現する。
【0156】
S908では、調整後の前記時間特性シーケンスから、数値が対象値である時間特性要素に対応する対象インデックスを取得する。本ステップは、数値が1である時間特性要素に対応する対象インデックスを取得する必要がり、即ち検出されたM−1個の時間特性要素のインデックスを取得する必要がある。
【0157】
S909では、前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位する。
【0158】
そのうちのある対象インデックスが5とすると、前記字幕ファイルにおいて、段落が変更する文字フレーズを5番目の文字フレーズに定位でき、即ち、5番目の文字フレーズは1つの字幕段落の開始位置となり、即ち前記字幕ファイルにおける1〜4番目の文字フレーズが1つの字幕段落を構成する。同様の理由で、M−1個の、段落が変更する文字フレーズを定位することができる。
【0159】
S910では、前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取る。
【0160】
前記字幕ファイルには、各文字フレーズの開始時間と終了時間を含む各文字フレーズの重要な情報が記録されているため、本ステップは、前記字幕ファイルから段落変更時間を読み取ることができ、本実施例に示された例に従って、前記字幕ファイルにおける1〜4番目の文字フレーズが1つの字幕段落を構成するので、読み取られた段落変更時間は、4番目の文字フレーズの終了時間と5番目の文字フレーズの開始時間である。
【0161】
本実施例のステップS908〜ステップS910は、
図8に示された実施例のステップS804の具体的に詳細化したステップであってよい。ステップS908〜ステップS910に基づいて、M個の字幕段落の開始及び終了時間を取得することができる。
【0162】
S911では、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。オーディオ・ファイルと字幕ファイルが互いに対応するので、取得されたM個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、M個のオーディオ段落を取得することができる。
【0163】
本実施例のステップS911は、
図8に示された実施例のステップS805を参照することができ、ここで説明を省略する。
【0164】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の時間間隔に基づいて時間特性シーケンスを構築し、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整し、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0165】
以下、
図10〜
図13を参照しながら、本発明の実施例に係るオーディオ処理装置の構造と機能を詳細に記述する。なお、下記
図10〜
図13に示された装置は、上記
図8〜
図9に示された方法の実行に応用するために、端末で動作することができる。
【0166】
図10は、本発明の実施例に係るオーディオ処理装置の概略構成図である。該装置は、取得手段1001、構築手段1002、調整手段1003、決定手段1004及び段落分け手段1005を含んでよい。
【0167】
取得手段1001は、対象オーディオ・ファイルに対応する、少なくとも1つの文字フレーズで順に構成された字幕ファイルを取得する。
【0168】
1つのオーディオ・ファイルは、1つの字幕ファイルに対応する。前記字幕ファイルは、少なくとも1つの文字フレーズと各文字フレーズの主要な情報を含み、1つの文字フレーズの主要な情報は、識別子(ID)、開始時間(start_time)及び終了時間(end_time)を含む。通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイル、各オーディオ・ファイルの属性及び各オーディオ・ファイルに対応する字幕ファイルが記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子などを含むが、これらに限られない。前記取得手段1001は、インターネットオーディオ・ライブラリから対象オーディオ・ファイルに対応する字幕ファイルを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルに対応する字幕ファイルを検出し、かつ検出された字幕ファイルを取得すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位し、かつ対応する字幕ファイルを取得することを含むが、これらに限られない。
【0169】
本発明の実施例において、対象オーディオ・ファイルが歌Aであると仮定すれば、歌Aに対応する字幕ファイルの構造は本実施例に示された例を参照することができ、前記字幕ファイルがN(Nは正の整数)個の文字フレーズで順に構成され、該N個の文字フレーズをp(0)〜p(N−1)で示されると仮定すれば、p(0)は1番目の文字フレーズ「a
1a
2a
3a
4a
5a
6a
7a
8」を示し、p(1)は2番目の文字フレーズ「b
1b
2b
3b
4b
5b
6b
7b
8」を示し、p(2)は3番目の文字フレーズ「c
1c
2c
3c
4c
5c
6c
7c
8」を示すことができ、以下、同様のように、p(N−1)はN番目の文字フレーズを示す。
【0170】
構築手段1002は、前記少なくとも1つの文字フレーズの間の時間間隔に基づいて、少なくとも1つの時間特性要素を含む時間特性シーケンスを構築する。
【0171】
前記時間特性シーケンスは、前記少なくとも1つの文字フレーズの間の時間間隔の程度を反映することができる。まず、前記構築手段1002は、前記少なくとも1つの文字フレーズの間の時間間隔を計算し、ここで、p(1)とp(0)との間の時間間隔p(1).start_time−p(0).end_timeを計算し、p(2)とp(1)との間の時間間隔p(2).start_time−p(1).end_timeを計算し、以下、同様のように、p(N−1)とp(N−2)との間の時間間隔p(N−1).start_time−p(N−2).end_timeを計算する必要がある。次に、前記構築手段1002は、前記少なくとも1つの文字フレーズの数量、順序及び算出された時間間隔に基づいて、前記時間特性シーケンスを構築することができる。
【0172】
本実施例に示された例に従って、t(n)で前記時間特性シーケンスを示すと、構築された字幕特性シーケンスt(n)は、それぞれt(0)、t(1)…t(N−1)である合計N個の時間特性要素を含む。ここで、t(0)の数値を0に設定でき、t(1)の数値はp(1)とp(0)との間の時間間隔を示し、t(2)の数値はp(2)とp(1)との間の時間間隔を示し、以下、同様のように、t(N−1)の数値はp(N−1)とp(N−2)との間の時間間隔を示す。
【0173】
調整手段1003は、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整する。
【0174】
前記所定の段落総数は、ユーザの対象オーディオ・ファイルに対する実際の段落分けの需要に応じて設定することができる。M(Mは正の整数かつM>1)で前記所定の段落総数を示すと仮定すれば、前記調整手段1003が所定の段落総数Mに従って前記時間特性シーケンスt(n)における各時間特性要素の数値を調整する目的は、調整後の前記時間特性シーケンスt(n)を、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するよう、ちょうどよくM個の字幕段落に対応する変更点を取得できるようにすることである。
【0175】
決定手段1004は、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて、段落変更時間を決定する。
【0176】
前記調整後の時間特性シーケンスt(n)における各時間特性要素の数値は、M個の字幕段落に対応する変更点を反映でき、従って、前記決定手段1004は、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて、字幕ファイルからM個の字幕段落の開始及び終了時間を取得することができる。
【0177】
段落分け手段1005は、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。
【0178】
オーディオ・ファイルと字幕ファイルが互いに対応するので、前記段落分け手段1005は、取得されたM個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、M個のオーディオ段落を取得することができる。
【0179】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の時間間隔に基づいて時間特性シーケンスを構築し、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整し、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0180】
図11は、
図10に示された構築手段の実施例の概略構成図である。該構築手段1002は、数量決定手段1101、インデックス決定手段1102、数値設定手段1103及びシーケンス構築手段1104を含んでよい。
【0181】
数量決定手段1101、前記少なくとも1つの文字フレーズの数量に基づいて、時間特性シーケンスを構築する時間特性要素の数量を決定する。
【0182】
前記字幕ファイルはN(Nは正の整数)個の文字フレーズで順に構成され、即ち、前記少なくとも1つの文字フレーズの数量がNであり、従って、前記数量決定手段1101は、前記時間特性シーケンスの時間特性要素の数量もNであると決定でき、即ち、前記時間特性シーケンスの長さはNとなる。t(n)で前記時間特性シーケンスを示すと、構築された時間特性シーケンスt(n)は、それぞれt(0)、t(1)…t(N−1)である合計N個の時間特性要素を含む。
【0183】
インデックス決定手段1102は、前記少なくとも1つの文字フレーズにおける各文字フレーズの順序に基づいて、前記時間特性シーケンスを構築する各時間特性要素のインデックスを決定する。
【0184】
前記字幕ファイルのN個の文字フレーズは、p(0)、p(1)…p(N−1)という順序で並べ、前記時間特性シーケンスt(n)において、t(0)はp(0)に対応し、t(1)はp(1)に対応し、以下、同様のように、t(N−1)はp(N−1)に対応すると仮定すれば、前記時間特性シーケンスt(n)において、t(0)のインデックスは1、即ち1番目の時間特性要素であり、t(1)のインデックスは2、即ち2番目の時間特性要素であり、以下、同様のように、t(N−1)のインデックスはN、即ちN番目の時間特性要素である。
【0185】
数値設定手段1103は、前記少なくとも1つの文字フレーズのうちいずれか1つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの直前の文字フレーズとの間の時間間隔を、前記対象文字フレーズに対応する時間特性要素の数値に設定する。
【0186】
前記数値変更手段1103の具体的な処理プロセスは以下A〜Bを含んでよい。
【0187】
A、各文字フレーズとその直前の文字フレーズとの間の時間間隔を計算し、ここで、p(1)とp(0)との間の時間間隔p(1).start_time−p(0).end_timeを計算し、p(2)とp(1)との間の時間間隔p(2).start_time−p(1).end_timeを計算し、以下、同様のように、p(N−1)とp(N−2)との間の時間間隔p(N−1).start_time−p(N−2).end_timeを計算する必要がある。
【0188】
B、算出された時間間隔を対応する時間特性要素の数値に設定すると、t(0)=0、t(1)=p(1).start_time−p(0).end_time、t(2)=p(2).start_time−p(1).end_time、以下、同様のように、t(N−1)=p(N−1).start_time−p(N−2).end_timeに設定することができる。
【0189】
シーケンス構築手段1104は、前記時間特性シーケンスを構築する時間特性要素の数量、インデックス及び数値に基づいて、前記時間特性シーケンスを構築する。
【0190】
構築された前記時間特性シーケンスは、N個の時間特性要素t(0)、t(1)…t(N−1)で順に構成されたt(n)であり、前記時間特性シーケンスt(n)における各時間特性要素の数値は、t(0)=0、t(1)=p(1).start_time−p(0).end_time、t(2)=p(2).start_time−p(1).end_time、以下、同様のように、t(N−1)=p(N−1).start_time−p(N−2).end_timeである。
【0191】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の時間間隔に基づいて時間特性シーケンスを構築し、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整し、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0192】
図12は、
図10に示された調整手段の実施例の概略構成図である。該調整手段1003は、要素検出手段1201と数値調整手段1202を含んでよい。
【0193】
要素検出手段1201は、前記時間特性シーケンスから、上位の所定の段落数量−1個の最大数値の時間特性要素を検出する。
【0194】
M(Mは正の整数かつM>1)で前記所定の段落総数を示すと仮定すれば、前記要素検出手段1201は、前記時間特性シーケンスt(n)から、上位のM−1個の最大数値の時間特性要素を検出する必要がある。
【0195】
数値調整手段1202は、検出された時間特性要素の数値を対象値に調整し、前記時間特性シーケンスにおける、検出された時間特性要素以外のその他の時間特性要素の数値を参考値に調整する。前記対象値と前記参考値は、実際の需要に応じて設定でき、本発明の実施例は前記対象値を1に、前記参考値を0に設定することができる。
【0196】
前記要素検出手段1201と前記数値調整手段1202の具体的な処理プロセスとして、まず、前記要素検出手段1201は、前記時間特性シーケンスt(n)における各時間特性要素の数値を調査し、その中から最大数値に対応する時間特性要素を検出し、検出された時間特性要素を除外した後、前記時間特性シーケンスt(n)における各時間特性要素の数値を再度調査し、その中から最大数値に対応する時間特性要素を検出し、上記調査プロセスを繰り返して、M−1個の最大数値が検出されると停止する。最後に、数値調整手段1202は、前記時間特性シーケンスt(n)から検出されたM−1個の最大数値をすべて1に調整し、その他の数値を0に調整する。
【0197】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の時間間隔に基づいて時間特性シーケンスを構築し、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整し、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0198】
図13は、
図10に示された決定手段の実施例の概略構成図である。該決定手段1004は、対象インデックス取得手段1301、定位手段1302及び時間読取手段1303を含んでよい。
【0199】
対象インデックス取得手段1301は、調整後の前記時間特性シーケンスから、数値が対象値である時間特性要素に対応する対象インデックスを取得する。
【0200】
図5に示された例に従って、前記対象インデックス1301は、数値が1である時間特性要素に対応する対象インデックスを取得する必要がり、即ち検出されたM−1個の時間特性要素のインデックスを取得する必要がある。
【0201】
定位手段1302は、前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位する。
【0202】
そのうちのある対象インデックスが5とすると、前記定位手段1302は、前記字幕ファイルにおいて、段落が変更する文字フレーズを5番目の文字フレーズに定位でき、即ち、5番目の文字フレーズは1つの字幕段落の開始位置となり、即ち前記字幕ファイルにおける1〜4番目の文字フレーズが1つの字幕段落を構成する。同様の理由で、M−1個の、段落が変更する文字フレーズを定位することができる。
【0203】
時間読取手段1303は、前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取る。
【0204】
前記字幕ファイルには、各文字フレーズの開始時間と終了時間を含む各文字フレーズの重要な情報が記録されているため、前記時間読取手段1303は、前記字幕ファイルから段落変更時間を読み取ることができ、本実施例に示された例に従って、前記字幕ファイルにおける1〜4番目の文字フレーズが1つの字幕段落を構成するので、読み取られた段落変更時間は、4番目の文字フレーズの終了時間と5番目の文字フレーズの開始時間である。
【0205】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の時間間隔に基づいて時間特性シーケンスを構築し、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整し、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0206】
本発明の実施例はさらに端末を開示し、該端末はPC(Personal Computer、パソコン)、ノートパソコン、携帯電話、PAD(タブレット型コンピュータ)、車載端末、インテリジェント着用可能設備などの設備であってよい。該端末にオーディオ処理装置を含んでよく、該装置の構造及び機能は上記
図10〜
図13を参照することができ、ここで説明を省略する。
【0207】
本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも1つの文字フレーズの間の時間間隔に基づいて時間特性シーケンスを構築し、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整し、調整後の前記時間特性シーケンスにおける少なくとも1つの時間特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0208】
以上の記述に基づいて、以下、
図14〜
図15を参照しながら、本発明の実施例に係るオーディオ処理方法を詳細に記述する。
【0209】
図14は、本発明の実施例に係るオーディオ処理方法のフローチャートである。該方法は、以下のステップS1401〜ステップS1405を含んでよい。
【0210】
S1401では、対象オーディオ・ファイルの、少なくとも1つのオーディオフレームを含むオーディオデータを取得する。
【0211】
オーディオ・ファイルはオーディオデータを含み、オーディオ・ファイルをデコード(例えば、PCMデコード)すると、オーディオデータ(例えば、PCMデータ)を取得することができる。本ステップは、前記対象オーディオ・ファイルをデコードして、前記対象オーディオ・ファイルのオーディオデータを取得することができる。前記オーディオデータは少なくとも1つのオーディオフレームを含むことができ、即ち、前記オーディオデータは、前記少なくとも1つのオーディオフレームで順に構成された1つのフレームシーケンスとして示すことができる。
【0212】
本発明の実施例において、前記オーディオデータがN(Nは正の整数)個のオーディオフレームを含み、即ちNは前記オーディオデータのサンプリング数であるとすると、前記オーディオデータはx(n)(nは正の整数かつn=0、1、2、N−1)で示すことができる。
【0213】
S1402では、前記少なくとも1つのオーディオフレームの関連性に基づいて、少なくとも1つのピーク値特性要素を含むピーク値特性シーケンスを構築する。
【0214】
前記ピーク値特性シーケンスは、前記少なくとも1つのオーディオフレームの類似性を反映することができる。本ステップにおいて、まず、相関計算式を用いて前記少なくとも1つのオーディオフレームの関連性を計算することができ、ここで、計算によって前記少なくとも1つのオーディオフレームの相関関数シーケンスを取得することができ、r()で相関関数を示すと、相関計算によってr(n)、r(n+1)、r(n+2)…r(N−2)、r(N−1)を取得することができる。次に、前記少なくとも1つのオーディオフレームの相関関数シーケンスに対して、最大値、ピーク値などの分析を行うことにより、ピーク値特性シーケンスを構築する。
【0215】
本発明の実施例において、v(n)で前記ピーク値特性シーケンスを示すと、構築されたピーク値特性シーケンスv(n)は、それぞれv(0)、v(1)…v(N−1)である合計N個のピーク値特性要素を含む。v(0)の数値は、オーディオフレームx(0)とその後のオーディオフレームとの間の関連性を記述し、v(1)の数値は、x(1)とその後のオーディオフレームとの間の関連性を記述することができ、以下同様である。
【0216】
S1403では、前記ピーク値特性シーケンスを規則化処理する。
【0217】
本ステップにおいて、所定の間隔係数に対応するスキャン区間で、前記ピーク値特性シーケンスv(n)を規則化処理することができる。規則化処理は、前記ピーク値特性シーケンスv(n)を、前記所定の間隔係数に対応するスキャン区間内で最大のピーク値が1つのみ存在するようにし、後に続く段落分けの正確性を保証することを目的とする。
【0218】
S1404では、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定する。
【0219】
前記規則化後の前記ピーク値特性シーケンスv(n)における各ピーク値特性要素の数値は、オーディオフレームの間の関連性を記述することができ、従って、本ステップは、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値要素の数値に基づいて、オーディオ段落に変化が発生する時間を決定することができる。
【0220】
S1405では、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行う。取得されたオーディオ・ファイルの段落変更時間に従って、前記対象オーディオ・ファイルに対して段落分けを行うことができる。
【0221】
本発明の実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも1つのオーディオフレームの関連性に基づいて、ピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0222】
図15は、本発明の実施例に係る別のオーディオ処理方法のフローチャートである。該方法は、以下のステップS1501〜ステップS1510を含んでよい。
【0223】
S1501では、ステレオチャンネルタイプ又はモノラルチャンネルタイプを含む前記対象オーディオ・ファイルのタイプを取得する。
【0224】
通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイルと各オーディオ・ファイルの属性が記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子及びオーディオ・ファイルのタイプなどを含むが、これらに限られない。本ステップにおいて、インターネットオーディオ・ライブラリから対象オーディオ・ファイルのタイプを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルのタイプを検出すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位して、前記対象オーディオ・ファイルのタイプを取得することを含むが、これらに限られない。
【0225】
S1502では、前記対象オーディオ・ファイルのタイプがモノラルチャンネルタイプであれば、前記対象オーディオ・ファイルが前記モノラルチャンネルから出力したコンテンツをデコードして、オーディオデータを取得し、或いは、前記対象オーディオ・ファイルのタイプがステレオチャンネルタイプであれば、前記ステレオチャンネルから1つのチャンネルを選択して、前記対象オーディオ・ファイルが選択されたチャンネルから出力したコンテンツをデコードして、オーディオデータを取得するか、又は、前記ステレオチャンネルをハイブリッドチャンネルに処理して、前記対象オーディオ・ファイルが前記ハイブリッドチャンネルから出力したコンテンツをデコードして、オーディオデータを取得する。
【0226】
ここで、前記対象オーディオ・ファイルのタイプがモノラルチャンネルタイプであれば、前記対象オーディオ・ファイルは、1つのチャンネルを介してオーディオコンテンツを出力し、本ステップは、該モノラルチャンネルが出力したオーディオコンテンツをデコードして、オーディオデータを取得する。前記対象オーディオ・ファイルのタイプがステレオチャンネルタイプであれば、前記対象オーディオ・ファイルは、2つのチャンネルを介してオーディオコンテンツを出力し、本ステップは、1つのチャンネルが出力したオーディオコンテンツを選択してデコードしてオーディオデータを取得することができ、また、本ステップは、まずDownmixなどの処理方式で2つのチャンネルをハイブリッドチャンネルに処理し、次にハイブリッドチャンネルが出力したオーディオコンテンツをデコードしてオーディオデータを取得することもできる。
【0227】
本発明の実施例において、前記オーディオデータがN(Nは正の整数)個のオーディオフレームを含み、即ちNは前記オーディオデータのサンプリング数であると仮定すると、前記オーディオデータはx(n)(nは正の整数かつn=0、1、2、N−1)で示すことができる。
【0228】
本実施例のステップS1501〜ステップS1502は、
図14に示された実施例のステップS1401の具体的に詳細化したステップであってよい。
【0229】
S1503では、前記少なくとも1つのオーディオフレームにおける各オーディオフレームに対して相関計算を行って、前記少なくとも1つのオーディオフレームに対応する相関関数シーケンスを取得する。
【0230】
以下で示す相関計算式を用いて前記少なくとも1つのオーディオフレームの関連性を計算することができる。
【数1】
【0231】
上記式(1)において、iは整数かつ0≦i≦N−1であり、mは整数かつ0≦i≦Lであり、Lは前記オーディオデータの長さであり、前記オーディオデータのサンプリング時間がTで、サンプリングレートがfとすると、L=f*Tとなり、Mはサンプリング値の最大値であり、例えば、サンプリング値が16bitであれば、M=32767となり、サンプリング値が8bitであれば、M=255となる。
【0232】
上記式(1)に従って、前記少なくとも1つのオーディオフレームの相関関数シーケンスをr(n)、r(n+1)、r(n+2)…r(N−2)、r(N−1)として計算して取得することができる。
【0233】
S1504では、前記少なくとも1つのオーディオフレームに対応する相関関数シーケンスに対して最大値計算を行って、基準シーケンスを生成する。
【0234】
前記基準シーケンスはD(n)で示すことができ、本ステップは、以下で示す最大値計算式を用いて前記基準シーケンスを求めることができる。
【数2】
【0235】
上記式(2)において、max()は最大値求め関数である。
【0236】
上記式(2)で取得された基準シーケンスD(n)は、それぞれd(0)、d(1)…d(N−1)である合計N個の要素を含む。
【0237】
S1505では、前記基準シーケンスに対してピーク値求め計算を行って、前記ピーク値特性シーケンスを取得する。
【0238】
v(n)で前記ピーク値特性シーケンスを示すと、構築されたピーク値特性シーケンスv(n)は、それぞれv(0)、v(1)…v(N−1)である合計N個のピーク値特性要素を含む。v(0)の数値は、オーディオフレームx(0)とその後のオーディオフレームとの間の関連性を記述し、v(1)の数値は、x(1)とその後のオーディオフレームとの間の関連性を記述することができ、以下同様である。本ステップにおいて、前記基準シーケンスD(n)に対してピーク値求め計算を行い、計算原則として、要素d(i)(ここで、iは整数かつ0≦i≦N−1)の数値がd(i)と隣接した要素の数値以上であれば、v(i)=d(i)とし、要素d(i)の数値がd(i)と隣接した要素の数値より小さければ、v(i)=0とする。このような計算原則に従って、前記ピーク値特性シーケンスv(n)の各ピーク値特性要素の数値を取得することができる。
【0239】
本実施例のステップS1503〜ステップS1505は、
図14に示された実施例のステップS1402の具体的に詳細化したステップであってよい。
【0240】
S1506では、所定の間隔係数に対応するスキャン区間を取得する。
【0241】
前記所定の間隔係数は実際の需要に応じて設定でき、前記所定の間隔係数がQとすると、前記所定の間隔係数に対応するスキャン区間は、[i−Q/2,i+Q/2](ここで、iは整数かつ0≦i≦N−1)であってよい。
【0242】
S1507では、前記所定の間隔係数に対応するスキャン区間を用いて、前記ピーク値特性シーケンスを規則化し、前記所定の間隔係数に対応するスキャン区間内における最大のピーク値に対応するピーク値特性要素の数値を対象値に設定し、前記所定の間隔係数に対応するスキャン区間内における、前記最大のピーク値に対応するピーク値特性要素以外のその他のピーク値特性要素の数値を初期値に設定する。
【0243】
前記対象値と前記特性値は、実際の需要に応じて設定でき、本発明の実施例は前記対象値を1に、前記参考値を0に設定することができる。
【0244】
ステップS1506〜ステップS1507の前記ピーク値特性シーケンスv(n)に対する規則化処理は、前記ピーク値特性シーケンスv(n)を、前記所定の間隔係数に対応するスキャン区間内で最大のピーク値が1つのみ存在するようにし、後に続く段落分けの正確性を保証することを目的とする。本実施例のステップS1506〜ステップS1507は、
図14に示された実施例のステップS1403の具体的に詳細化したステップであってよい。
【0245】
S1508では、規則化後の前記ピーク値特性シーケンスから、数値が対象値であるピーク値特性要素に対応する対象インデックスを取得する。本ステップは、数値が1であるピーク値特性要素に対応する対象インデックスを取得する必要があり、例えば、v(i)=1とすると、本ステップが取得できる対象インデックスはiとなる。
【0246】
S1509では、前記対象インデックスと前記対象オーディオ・ファイルのサンプリングレートに基づいて、段落変更時間を計算する。
【0247】
本ステップは、前記対象インデックスを前記対象オーディオ・ファイルのサンプリングレートで除算することで段落変更時間を取得することができ、本実施例に示された例に従って、取得された対象インデックスはiで、サンプリングレートはfであるので、ある段落変更時間はi/fとなり、例えば、対象インデックスi=441000、サンプリングレートf=44100であれば、i/f=100となり、即ち、前記対象オーディオ・ファイルにおいて、100sの所でオーディオ段落の変化が発生する。
【0248】
S1510では、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行う。取得されたオーディオ・ファイルの段落変更時間に従って、前記対象オーディオ・ファイルに対して段落分けを行うことができる。
【0249】
本発明の実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも1つのオーディオフレームの関連性に基づいて、ピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0250】
以下、
図16〜
図20を参照しながら、本発明の実施例に係るオーディオ処理装置の構造と機能を詳細に記述する。なお、下記
図16〜
図20に示された装置は、上記
図14〜
図15に示された方法の実行に応用するために、端末で動作することができる。
【0251】
図16は、本発明の実施例に係るオーディオ処理装置の概略構成図である。該装置は、取得手段1601、構築手段1602、規則化処理手段1603、決定手段1604及び段落分け手段1605を含んでよい。
【0252】
取得手段1601は、対象オーディオ・ファイルの、少なくとも1つのオーディオフレームを含むオーディオデータを取得する。
【0253】
オーディオ・ファイルはオーディオデータを含み、オーディオ・ファイルをデコード(例えば、PCMデコード)すると、オーディオデータ(例えば、PCMデータ)を取得することができる。前記取得手段1601は、対象オーディオ・ファイルをデコードして、前記対象オーディオ・ファイルのオーディオデータ取得することができる。前記オーディオデータは少なくとも1つのオーディオフレームを含むことができ、即ち前記オーディオデータは、前記少なくとも1つのオーディオフレームで順に構成された1つのフレームシーケンスとして示すことができる。
【0254】
本発明の実施例において、前記オーディオデータがN(Nは正の整数)個のオーディオフレームを含み、即ちNは前記オーディオデータのサンプリング数であるとすると、前記オーディオデータはx(n)(nは正の整数かつn=0、1、2、N−1)で示すことができる。
【0255】
構築手段1602は、前記少なくとも1つのオーディオフレームの関連性に基づいて、少なくとも1つのピーク値特性要素を含むピーク値特性シーケンスを構築する。
【0256】
前記ピーク値特性シーケンスは、前記少なくとも1つのオーディオフレームの類似性を反映することができる。まず、前記構築手段1602は、相関計算式を用いて前記少なくとも1つのオーディオフレームの関連性を計算することができ、ここで、計算に従って前記少なくとも1つのオーディオフレームの相関関数シーケンスを取得することができ、r()で相関関数を示すと、相関計算に従ってr(n)、r(n+1)、r(n+2)…r(N−2)、r(N−1)を取得することができる。次に、前記構築手段1602は、前記少なくとも1つのオーディオフレームの相関関数シーケンスに対して、最大値、ピーク値などの分析を行うことにより、ピーク値特性シーケンスを構築することができる。
【0257】
本発明の実施例において、v(n)で前記ピーク値特性シーケンスを示すと、構築されたピーク値特性シーケンスv(n)は、それぞれv(0)、v(1)…v(N−1)である合計N個のピーク値特性要素を含む。v(0)の数値は、オーディオフレームx(0)とその後のオーディオフレームとの間の関連性を記述し、v(1)の数値は、x(1)とその後のオーディオフレームとの間の関連性を記述することができ、以下同様である。
【0258】
規則化処理手段1603は、前記ピーク値特性シーケンスを規則化処理する。
【0259】
前記規則化処理手段1603は、所定の間隔係数に対応するスキャン区間で、前記ピーク値特性シーケンスv(n)を規則化処理することができる。規則化処理は、前記ピーク値特性シーケンスv(n)を、前記所定の間隔係数に対応するスキャン区間内で最大のピーク値が1つのみ存在するようにし、後に続く段落分けの正確性を保証することを目的とする。
【0260】
決定手段1604は、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定する。
【0261】
前記規則化後の前記ピーク値特性シーケンスv(n)における各ピーク値特性要素の数値は、オーディオフレームの間の関連性を記述することができ、従って、前記決定手段1604は、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値要素の数値に基づいて、オーディオ段落に変化が発生する時間を決定することができる。
【0262】
段落分け手段1605は、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行う。
【0263】
取得されたオーディオ・ファイルの段落変更時間に従って、前記段落分け手段1605は、前記対象オーディオ・ファイルに対して段落分けを行うことができる。
【0264】
本発明の実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも1つのオーディオフレームの関連性に基づいて、ピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0265】
図17は、
図16に示された取得手段の実施例の概略構成図である。該取得手段1601は、タイプ取得手段1701とデコード手段1702を含んでよい。
【0266】
タイプ取得手段1701は、ステレオチャンネルタイプ又はモノラルチャンネルタイプを含む前記対象オーディオ・ファイルのタイプを取得する。
【0267】
通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイルと各オーディオ・ファイルの属性が記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子及びオーディオ・ファイルのタイプなどを含むが、これらに限られない。前記タイプ取得手段1701は、インターネットオーディオ・ライブラリから対象オーディオ・ファイルのタイプを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルのタイプを検出すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位して、前記対象オーディオ・ファイルのタイプを取得することを含むが、これらに限られない。
【0268】
デコード手段1702は、前記対象オーディオ・ファイルのタイプがモノラルチャンネルタイプであれば、前記対象オーディオ・ファイルが前記モノラルチャンネルから出力したコンテンツをデコードして、オーディオデータを取得し、或いは、前記対象オーディオ・ファイルのタイプがステレオチャンネルタイプであれば、前記ステレオチャンネルから1つのチャンネルを選択して、前記対象オーディオ・ファイルが選択されたチャンネルから出力したコンテンツをデコードして、オーディオデータを取得するか、又は、前記ステレオチャンネルをハイブリッドチャンネルに処理して、前記対象オーディオ・ファイルが前記ハイブリッドチャンネルから出力したコンテンツをデコードして、オーディオデータを取得する。
【0269】
ここで、前記対象オーディオ・ファイルのタイプがモノラルチャンネルタイプであれば、前記対象オーディオ・ファイルは、1つのチャンネルを介してオーディオコンテンツを出力し、前記デコード手段1702は、該モノラルチャンネルが出力したオーディオコンテンツをデコードして、オーディオデータを取得する必要がある。前記対象オーディオ・ファイルのタイプがステレオチャンネルタイプであれば、前記対象オーディオ・ファイルは、2つのチャンネルを介してオーディオコンテンツを出力し、前記デコード手段1702は、1つのチャンネルが出力したオーディオコンテンツを選択してデコードしてオーディオデータを取得することができ、また、前記デコード手段1702は、まずDownmixなどの処理方式で2つのチャンネルをハイブリッドチャンネルに処理し、次にハイブリッドチャンネルが出力したオーディオコンテンツをデコードしてオーディオデータを取得することもできる。
【0270】
本発明の実施例において、前記オーディオデータがN(Nは正の整数)個のオーディオフレームを含み、即ちNは前記オーディオデータのサンプリング数であるとすると、前記オーディオデータはx(n)(nは正の整数かつn=0、1、2、N−1)で示すことができる。
【0271】
本発明の実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも1つのオーディオフレームの関連性に基づいて、ピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0272】
図18は、
図16に示された構築手段の実施例の概略構成図である。該構築手段1602は、相関計算手段1801、生成手段1802及びシーケンス求め手段1803を含んでよい。
【0273】
相関計算手段1801は、前記少なくとも1つのオーディオフレームにおける各オーディオフレームに対して相関計算を行って、前記少なくとも1つのオーディオフレームに対応する相関関数シーケンスを取得する。
【0274】
前記相関計算手段1801は、
図2に示された実施例における式(1)で示す相関計算式を用いて、前記少なくとも1つのオーディオフレームの関連性を計算することができる。上記式(1)に従って、前記少なくとも1つのオーディオフレームの相関関数シーケンスをr(n)、r(n+1)、r(n+2)…r(N−2)、r(N−1)として計算して取得することができる。
【0275】
生成手段1802は、前記少なくとも1つのオーディオフレームに対応する相関関数シーケンスに対して最大値計算を行って、基準シーケンスを生成する。
【0276】
前記基準シーケンスはD(n)で示すことができ、前記生成手段1802は、
図2に示された実施例における式(2)で示す最大値計算式を用いて、前記基準シーケンスを求めることができる。上記式(2)に従って取得された基準シーケンスD(n)は、それぞれd(0)、d(1)…d(N−1)である合計N個の要素を含む。
【0277】
シーケンス求め手段1803は、前記基準シーケンスに対してピーク値求め計算を行って、前記ピーク値特性シーケンスを取得する。
【0278】
v(n)で前記ピーク値特性シーケンスを示すと、構築されたピーク値特性シーケンスv(n)は、それぞれv(0)、v(1)…v(N−1)である合計N個のピーク値特性要素を含む。v(0)の数値は、オーディオフレームx(0)とその後のオーディオフレームとの間の関連性を記述し、v(1)の数値は、x(1)とその後のオーディオフレームとの間の関連性を記述することができ、以下同様である。前記シーケンス求め手段1803は、前記基準シーケンスD(n)に対してピーク値求め計算を行い、計算原則として、要素d(i)(ここで、iは整数かつ0≦i≦N−1)の数値がd(i)と前後隣接した要素の数値以上であれば、v(i)=d(i)とし、要素d(i)の数値がd(i)と前後隣接した要素の数値より小さければ、v(i)=0とする。このような計算原則に従って、前記ピーク値特性シーケンスv(n)の各ピーク値特性要素の数値を取得することができる。
【0279】
本発明の実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも1つのオーディオフレームの関連性に基づいて、ピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0280】
図19は、
図16に示された規則化処理手段の実施例の概略構成図である。該規則化処理手段1603は、区間取得手段1901と規則化手段1902を含んでよい。
【0281】
区間取得手段1901は、所定の間隔係数に対応するスキャン区間を取得する。
【0282】
前記所定の間隔係数は実際の需要に応じて設定でき、前記所定の間隔係数がQとすると、前記所定の間隔係数に対応するスキャン区間は、[i−Q/2,i+Q/2](ここで、iは整数かつ0≦i≦N−1)であってよい。
【0283】
規則化手段1902は、前記所定の間隔係数に対応するスキャン区間を用いて、前記ピーク値特性シーケンスを規則化し、前記所定の間隔係数に対応するスキャン区間内における最大のピーク値に対応するピーク値特性要素の数値を対象値に設定し、前記所定の間隔係数に対応するスキャン区間内における、前記最大のピーク値に対応するピーク値特性要素以外のその他のピーク値特性要素の数値を初期値に設定する。前記対象値と前記特性値は、実際の需要に応じて設定でき、本発明の実施例は前記対象値を1に、前記参考値を0に設定することができる。
【0284】
前記ピーク値特性シーケンスv(n)に対する規則化処理は、前記ピーク値特性シーケンスv(n)を、前記所定の間隔係数に対応するスキャン区間内で最大のピーク値が1つのみ存在するようにし、後に続く段落分けの正確性を保証することを目的とする。
【0285】
本発明の実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも1つのオーディオフレームの関連性に基づいて、ピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0286】
図20は、
図16に示された決定手段の実施例の概略構成図である。該決定手段1604は、対象インデックス取得手段2001と時間計算手段2002を含んでよい。
【0287】
対象インデックス取得手段2001は、規則化後の前記ピーク値特性シーケンスから、数値が対象値であるピーク値特性要素に対応する対象インデックスを取得する。
【0288】
図19に示された例に従って、前記対象インデックス取得手段2001は、数値が1であるピーク値特性要素に対応する対象インデックスを取得する必要があり、例えば、v(i)=1とすると、前記対象インデックス取得手段2001が取得できる対象インデックスはiとなる。
【0289】
時間計算手段2002は、前記対象インデックス及び前記対象オーディオ・ファイルのサンプリングレートに基づいて、段落変更時間を計算する。
【0290】
前記時間計算手段2002は、前記対象インデックスを前記対象オーディオ・ファイルのサンプリングレートで除算することで段落変更時間を取得することができ、本実施例に示された例に従って、取得された対象インデックスはiで、サンプリングレートはfであるので、ある段落変更時間はi/fとなり、例えば、対象インデックスi=441000、サンプリングレートf=44100であれば、i/f=100となり、即ち、前記対象オーディオ・ファイルにおいて、100sの所でオーディオ段落の変化が発生する。
【0291】
本発明の実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも1つのオーディオフレームの関連性に基づいて、ピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0292】
本発明の実施例はさらに端末を開示し、該端末はPC(Personal Computer、パソコン)、ノートパソコン、携帯電話、PAD(タブレット型コンピュータ)、車載端末、インテリジェント着用可能設備などの設備であってよい。該端末にオーディオ処理装置を含んでよく、該装置の構造及び機能は上記
図16〜
図20を参照することができ、ここで説明を省略する。
【0293】
本発明の実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも1つのオーディオフレームの関連性に基づいて、ピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも1つのピーク値特性要素の数値に基づいて、段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。
【0294】
以上の記載は、本発明の好ましい実施例に過ぎず、本発明を限定するものではなく、本発明の構想及び原則内に行われたいずれの補正、同等置換及び改善などは、すべて本発明の保護範囲内に含まれるべきである。