特許6586514 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲広▼州酷狗▲計▼算机科技有限公司の特許一覧

特許6586514オーディオ処理の方法、装置及び端末

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6586514

(24)【登録日】2019年9月13日

(45)【発行日】2019年10月2日

(54)【発明の名称】オーディオ処理の方法、装置及び端末

(51)【国際特許分類】

G10L 15/04 20130101AFI20190919BHJP

G10L 25/54 20130101ALI20190919BHJP

【ＦＩ】

G10L15/04 200

G10L25/54

【請求項の数】17

【全頁数】44

(21)【出願番号】特願2018-513709(P2018-513709)

(86)(22)【出願日】2016年5月13日

(65)【公表番号】特表2018-522288(P2018-522288A)

(43)【公表日】2018年8月9日

(86)【国際出願番号】CN2016081999

(87)【国際公開番号】WO2016188329

(87)【国際公開日】20161201

【審査請求日】2018年1月23日

(31)【優先権主張番号】201510270567.5

(32)【優先日】2015年5月25日

(33)【優先権主張国】CN

(31)【優先権主張番号】201510271769.1

(32)【優先日】2015年5月25日

(33)【優先権主張国】CN

(31)【優先権主張番号】201510271014.1

(32)【優先日】2015年5月25日

(33)【優先権主張国】CN

(73)【特許権者】

【識別番号】517411368

【氏名又は名称】▲広▼州酷狗▲計▼算机科技有限公司

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】▲趙▼ ▲偉▼峰

【審査官】大野弘

(56)【参考文献】

【文献】特開２００４−１８４７６９（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／０４

Ｇ１０Ｌ２５／５４

(57)【特許請求の範囲】

【請求項1】

対象オーディオ・ファイルのファイルデータを取得することと、
前記ファイルデータの構成要素の間の関連性特性データに基づいて、関連性特性シーケンスを構築することと、
所定の段落総数に従って前記関連性特性シーケンスを最適化することと、
最適化後の前記関連性特性シーケンスにおける少なくとも１つの特性要素の数値に基づいて段落変更時間を決定することと、
前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることとを含み、
前記ファイルデータは、少なくとも１つの文字フレーズで順に構成された字幕ファイルであるとき、
前記ファイルデータの構成要素の間の関連性特性データに基づいて、関連性特性シーケンスを構築することは、
前記少なくとも１つの文字フレーズの間の類似度に基づいて、少なくとも１つの文字特性要素を含む字幕特性シーケンスを構築すること、または、前記少なくとも１つの文字フレーズの間の時間間隔に基づいて、少なくとも１つの時間特性要素を含む時間特性シーケンスを構築することを含むことを特徴とするオーディオ処理の方法。

【請求項2】

前記少なくとも１つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築することは、
前記少なくとも１つの文字フレーズの数量に基づいて、字幕特性シーケンスを構築する文字特性要素の数量を決定することと、
前記少なくとも１つの文字フレーズにおける各文字フレーズの順序に基づいて、前記字幕特性シーケンスを構築する各文字特性要素のインデックスを決定することと、
前記字幕特性シーケンスを構築する各文字特性要素の数値をすべて初期値に設定することと、
前記少なくとも１つの文字フレーズのうちいずれか１つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの後の文字フレーズとの間の最大類似度が所定の類似閾値より大きければ、前記対象文字フレーズに対応する文字特性要素の数値を初期値から対象値に変更することと、
前記字幕特性シーケンスを構築する文字特性要素の数量、インデックス及び数値に基づいて、前記字幕特性シーケンスを構築することとを含むことを特徴とする請求項１に記載の方法。

【請求項3】

前記所定の段落総数に従って前記関連性特性シーケンスを最適化することは、
前記字幕特性シーケンスにおける、数値が対象値である文字特性要素の数量を統計することと、
前記数量が前記所定の段落総数に対応する誤差許容範囲内にあるか否かを判断することと、
ＮＯであれば、前記所定の類似閾値の大きさを調整することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整することとを含むことを特徴とする請求項２に記載の方法。

【請求項4】

前記ＮＯであれば、前記所定の類似閾値の大きさを調整することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整することは、
前記数量が前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より大きければ、所定のステップサイズに従って前記所定の類似閾値を増大させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整することと、
前記数量が前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より小さければ、所定のステップサイズに従って前記所定の類似閾値を減少させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整することとを含むことを特徴とする請求項３に記載の方法。

【請求項5】

前記最適化後の前記関連性特性シーケンスにおける少なくとも１つの特性要素の数値に基づいて段落変更時間を決定することは、
最適化後の前記字幕特性シーケンスから、数値が対象値である文字特性要素に対応する対象インデックスを取得することと、
前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位することと、
前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取ることとを含むことを特徴とする請求項４に記載の方法。

【請求項6】

前記少なくとも１つの文字フレーズの間の時間間隔に基づいて、時間特性シーケンスを構築することは、
前記少なくとも１つの文字フレーズの数量に基づいて、時間特性シーケンスを構築する時間特性要素の数量を決定することと、
前記少なくとも１つの文字フレーズにおける各文字フレーズの順序に基づいて、前記時間特性シーケンスを構築する各時間特性要素のインデックスを決定することと、
前記少なくとも１つの文字フレーズのうちいずれか１つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの直前の文字フレーズとの間の時間間隔を、前記対象文字フレーズに対応する時間特性要素の数値に設定することと、
前記時間特性シーケンスを構築する時間特性要素の数量、インデックス及び数値に基づいて、前記時間特性シーケンスを構築することとを含むことを特徴とする請求項１に記載の方法。

【請求項7】

前記所定の段落総数に従って前記関連性特性シーケンスを最適化することは、
前記時間特性シーケンスから、上位の所定の段落数量−１個の最大数値の時間特性要素を検出することと、
検出された時間特性要素の数値を対象値に調整し、前記時間特性シーケンスにおける、検出された時間特性要素以外のその他の時間特性要素の数値を参考値に調整することとを含むことを特徴とする請求項６に記載の方法。

【請求項8】

前記最適化後の前記関連性特性シーケンスにおける少なくとも１つの特性要素の数値に基づいて段落変更時間を決定することは、
調整後の前記時間特性シーケンスから、数値が対象値である時間特性要素に対応する対象インデックスを取得することと、
前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位することと、
前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取ることとを含むことを特徴とする請求項７に記載の方法。

【請求項9】

前記ファイルデータは、少なくとも１つのオーディオフレームを含むオーディオデータであるとき、
前記ファイルデータの構成要素の間の関連性特性データに基づいて、関連性特性シーケンスを構築することは、
前記少なくとも１つのオーディオフレームの関連性に基づいて、少なくとも１つのピーク値特性要素を含むピーク値特性シーケンスを構築することを含むことを特徴とする請求項１に記載の方法。

【請求項10】

前記少なくとも１つのオーディオフレームの関連性に基づいてピーク値特性シーケンスを構築することは、
前記少なくとも１つのオーディオフレームにおける各オーディオフレームに対して相関計算を行って、前記少なくとも１つのオーディオフレームに対応する相関関数シーケンスを取得することと、
前記少なくとも１つのオーディオフレームに対応する相関関数シーケンスに対して最大値計算を行って、基準シーケンスを生成することと、
前記基準シーケンスに対してピーク値求め計算を行って、前記ピーク値特性シーケンスを取得することとを含むことを特徴とする請求項９に記載の方法。

【請求項11】

前記所定の段落総数に従って前記関連性特性シーケンスを最適化することは、
所定の間隔係数に対応するスキャン区間を取得することと、
前記所定の間隔係数に対応するスキャン区間を用いて、前記ピーク値特性シーケンスを規則化し、前記所定の間隔係数に対応するスキャン区間内における最大のピーク値に対応するピーク値特性要素の数値を対象値に設定し、前記所定の間隔係数に対応するスキャン区間内における、前記最大のピーク値に対応するピーク値特性要素以外のその他のピーク値特性要素の数値を初期値に設定することとを含むことを特徴とする請求項１０に記載の方法。

【請求項12】

前記最適化後の前記関連性特性シーケンスにおける少なくとも１つの特性要素の数値に基づいて段落変更時間を決定することは、
規則化後の前記ピーク値特性シーケンスから、数値が対象値であるピーク値特性要素に対応する対象インデックスを取得することと、
前記対象インデックスと前記対象オーディオ・ファイルのサンプリングレートに基づいて、段落変更時間を計算することとを含むことを特徴とする請求項１１に記載の方法。

【請求項13】

前記対象オーディオ・ファイルのファイルデータを取得することは、
ステレオチャンネルタイプ又はモノラルチャンネルタイプを含む前記対象オーディオ・ファイルのタイプを取得することと、
前記対象オーディオ・ファイルのタイプがモノラルチャンネルタイプであれば、前記対象オーディオ・ファイルがモノラルチャンネルから出力したコンテンツをデコードして、オーディオデータを取得することと、
前記対象オーディオ・ファイルのタイプがステレオチャンネルタイプであれば、ステレオチャンネルから１つのチャンネルを選択して、前記対象オーディオ・ファイルが選択されたチャンネルから出力したコンテンツをデコードして、オーディオデータを取得すること、又は、前記ステレオチャンネルをハイブリッドチャンネルに処理して、前記対象オーディオ・ファイルが前記ハイブリッドチャンネルから出力したコンテンツをデコードして、オーディオデータを取得することとを含むことを特徴とする請求項９に記載の方法。

【請求項14】

前記字幕ファイルは、少なくとも１つの文字フレーズと各文字フレーズの主要な情報を含み、１つの文字フレーズの主要な情報は、識別子、開始時間及び終了時間を含むことを特徴とする請求項１〜８のいずれか一項に記載の方法。

【請求項15】

対象オーディオ・ファイルのファイルデータを取得する取得手段と、
前記ファイルデータの構成要素の間の関連性特性データに基づいて、関連性特性シーケンスを構築する構築手段と、
所定の段落総数に従って前記関連性特性シーケンスを最適化する最適化手段と、
最適化後の前記関連性特性シーケンスにおける少なくとも１つの特性要素の数値に基づいて段落変更時間を決定する決定手段と、
前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける段落分け手段とを含み、
前記ファイルデータは、少なくとも１つの文字フレーズで順に構成された字幕ファイルであるとき、
前記構築手段は、
前記少なくとも１つの文字フレーズの間の類似度に基づいて、少なくとも１つの文字特性要素を含む字幕特性シーケンスを構築するように構成されている、または、前記少なくとも１つの文字フレーズの間の時間間隔に基づいて、少なくとも１つの時間特性要素を含む時間特性シーケンスを構築するように構成されていることを特徴とするオーディオ処理の装置。

【請求項16】

前記ファイルデータは、少なくとも１つのオーディオフレームを含むオーディオデータであるとき、
前記構築手段は、前記少なくとも１つのオーディオフレームの関連性に基づいて、少なくとも１つのピーク値特性要素を含むピーク値特性シーケンスを構築するように構成されていることを特徴とする請求項１５に記載の装置。

【請求項17】

請求項１５または１６に記載のオーディオ処理の装置を含むことを特徴とする端末。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０１５年５月２５日に中国専利局に提出した、出願番号が２０１５１０２７０５６７．５で、発明の名称が「オーディオ処理の方法、装置及び端末」である中国特許出願の優先権を主張し、その内容のすべてが引用により本願に組み込まれる。

【0002】

本願は、２０１５年５月２５日に中国専利局に提出した、出願番号が２０１５１０２７１７６９．１で、発明の名称が「オーディオ処理の方法、装置及び端末」である中国特許出願の優先権を主張し、その内容のすべてが引用により本願に組み込まれる。

【0003】

本願は、２０１５年５月２５日に中国専利局に提出した、出願番号が２０１５１０２７１０１４．１で、発明の名称が「オーディオ処理の方法、装置及び端末」である中国特許出願の優先権を主張し、その内容のすべてが引用により本願に組み込まれる。

【0004】

本発明は、インターネットの技術分野に関し、具体的には、オーディオ処理の技術分野に関し、特にオーディオ処理の方法、装置及び端末に関する。

【背景技術】

【0005】

インターネット技術の発展に伴って、インターネット上のオーディオ・ライブラリには、例えば大量の歌、歌の断片などのオーディオ・ファイルが記録され、インターネットオーディオに関するアプリケーション、例えばカラオケシステム、歌リスニングシステムなども日増しに多くなっている。多くのオーディオ・ファイルの利用シーンでオーディオ・ファイルに対して段落分けを行う必要があり、例えば、カラオケシステムにおいて歌の段落別の合唱を実現しようとする場合、通常、歌に対して段落分けを行う必要があり、また、歌リスニングシステムにおいて歌の断片を重点的にリスニングしようとする場合、通常、歌に対して段落分けを行う必要があるなどが挙げられる。現在、通常手動でオーディオ・ファイルに対して段落分けを行い、段落分け処理の効率が低く、ユーザのオーディオ・ファイルに対する使用上の需要を満足できず、オーディオ処理のインテリジェント性が低減される。

【発明の概要】

【0006】

オーディオ処理のインテリジェント性を向上させるために、本発明の実施例は、オーディオ処理の方法、装置及び端末を提供する。その技術的解決手段は以下のとおりである。

【0007】

本発明の実施例は、対象オーディオ・ファイルのファイルデータを取得することと、前記ファイルデータの構成要素の間の関連性特性データに基づいて、関連性特性シーケンスを構築することと、所定の段落総数に従って前記関連性特性シーケンスを最適化することと、最適化後の前記関連性特性シーケンスにおける少なくとも１つの特性要素の数値に基づいて段落変更時間を決定することと、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることとを含むオーディオ処理方法を提供する。

【0008】

対象オーディオ・ファイルのファイルデータにおける構成要素の間の関連性、例えば文字フレーズの間の類似度、文字フレーズの間の時間間隔又はオーディオフレームの間の関連性などに基づいて、対象オーディオ・ファイルに対する段落分けを実現でき、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。

【0009】

本発明の一実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも１つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築し、所定の段落総数に従って前記字幕特性シーケンスを最適化し、最適化後の前記字幕特性シーケンスにおける少なくとも１つの文字特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。

【0010】

本発明の別の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも１つの文字フレーズの間の時間間隔に基づいて時間特性シーケンスを構築し、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整し、調整後の前記時間特性シーケンスにおける少なくとも１つの時間特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。

【0011】

本発明の更なる実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも１つのオーディオフレームの関連性に基づいてピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも１つのピーク値特性要素の数値に基づいて段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。

【図面の簡単な説明】

【0012】

本発明の実施例における技術的解決手段をより明らかに説明するために、以下、実施例の説明に必要な図面を簡単に説明するが、明らかに、以下の説明での図面は本発明のいくつかの実施例に過ぎず、当業者にとって、創造的労働を行わない前提で、これらの図面に基づいて他の図面を得ることもできる。

【0013】

【図1】本発明の実施例に係るオーディオ処理方法のフローチャートである。

【図2】本発明の実施例に係る別のオーディオ処理方法のフローチャートである。

【図3】本発明の実施例に係るオーディオ処理装置の概略構成図である。

【図4】図３に示された構築手段の実施例の概略構成図である。

【図5】図３に示された最適化手段の実施例の概略構成図である。

【図6】図５に示された最適化処理手段の実施例の概略構成図である。

【図7】図３に示された決定手段の実施例の概略構成図である。

【図8】本発明の実施例に係るオーディオ処理方法のフローチャートである。

【図9】本発明の実施例に係る別のオーディオ処理方法のフローチャートである。

【図10】本発明の実施例に係るオーディオ処理装置の概略構成図である。

【図11】図１０に示された構築手段の実施例の概略構成図である。

【図12】図１０に示された調整手段の実施例の概略構成図である。

【図13】図１０に示された決定手段の実施例の概略構成図である。

【図14】本発明の実施例に係るオーディオ処理方法のフローチャートである。

【図15】本発明の実施例に係る別のオーディオ処理方法のフローチャートである。

【図16】本発明の実施例に係るオーディオ処理装置の概略構成図である。

【図17】図１６に示された取得手段の実施例の概略構成図である。

【図18】図１６に示された構築手段の実施例の概略構成図である。

【図19】図１６に示された規則化処理手段の実施例の概略構成図である。

【図20】図１６に示された決定手段の実施例の概略構成図である。

【発明を実施するための形態】

【0014】

本発明の目的、技術的解決手段及び利点をより明らかにするために、以下、図面を参照しながら本発明の実施形態をさらに詳細に説明する。

【0015】

本発明の実施例において、オーディオファイルは、歌、歌の断片などのファイルを含むが、これらに限られない。字幕ファイルは、歌詞、歌詞の断片などのファイルを含むが、これらに限られない。１つのオーディオ・ファイルは、１つの字幕ファイルに対応してよい。１つの字幕ファイルは、少なくとも１つの文字フレーズを順に並べて構成され、歌Ａを例とすれば、歌Ａに対応する字幕ファイルは以下のように示すことができる。
［６４１，７７０］，［６４１，２０］ａ_１［６６１，６０］ａ_２［７２１，１７０］ａ_３［８９１，２００］ａ_４［１０９１，７０］ａ_５［１１６１，１８０］ａ_６［１３４１，２０］ａ_７［１３６１，５０］ａ_８
［１５４１，１８０］，［１５４１，２０］ｂ_１［１５６１，５０］ｂ_２［１６１１，２０］ｂ_３［１６３１，３０］ｂ_４［１６６１，０］ｂ_５［１６６１，１０］ｂ_６［１６７１，２０］ｂ_７［１７０１，３０］ｂ_８
［１８７１，７３０］，［１８７１，６０］ｃ_１［１９３１，１００］ｃ_２［２０３１，１１０］ｃ_３［２１４１，２００］ｃ_４［２３４１，７０］ｃ_５［２４１１，６０］ｃ_６［２４７１，５０］ｃ_７［２４２１，８０］ｃ_８
……

【0016】

上記歌Ａに対応する字幕ファイルにおいて、「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」、「ｂ_１ｂ_２ｂ_３ｂ_４ｂ_５ｂ_６ｂ_７ｂ_８」、及び「ｃ_１ｃ_２ｃ_３ｃ_４ｃ_５ｃ_６ｃ_７ｃ_８」は、それぞれ１つの文字フレーズを示すことができ、各文字フレーズの前の「［］」は、対応する文字フレーズの時間属性を記述するためのものであり、その単位時間は通常ｍｓであり、例えば、上記［６４１，７７０］は文字フレーズ「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」の時間属性を記述するためのものであり、そのうちの「６４１」は文字フレーズ「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」の開始時間を示し、「７７０」は文字フレーズ「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」の持続時間を示し、歌Ａが合計５分間であると仮定すれば、文字フレーズ「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」は、６４１ｍｓ目から演唱が開始し、７７０ｍｓ継続して演唱が終わる。各文字フレーズにおいて、各文字の前の「［］」は対応する文字の時間属性を記述するためのものであり、その単位時間は通常ｍｓであり、例えば、上記［６４１，２０］は文字「ａ_１」の時間属性を記述するためのものであり、そのうちの「６４１」は文字「ａ_１」の開始時間を示し、「２０」は文字「ａ_１」の持続時間を示す。開始時間の早い順で字幕ファイルに含まれる各文字フレーズの順序を決定することでき、例えば、上記歌Ａに対応する字幕ファイルの記述に基づいて、文字フレーズ「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」は１番目の文字フレーズであり、文字フレーズ「ｂ_１ｂ_２ｂ_３ｂ_４ｂ_５ｂ_６ｂ_７ｂ_８」は２番目の文字フレーズであり、文字フレーズ「ｃ_１ｃ_２ｃ_３ｃ_４ｃ_５ｃ_６ｃ_７ｃ_８」は３番目の文字フレーズであり、以下同様である。文字フレーズ「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」と文字フレーズ「ｂ_１ｂ_２ｂ_３ｂ_４ｂ_５ｂ_６ｂ_７ｂ_８」は、文字フレーズ「ｃ_１ｃ_２ｃ_３ｃ_４ｃ_５ｃ_６ｃ_７ｃ_８」の前の文字フレーズで、文字フレーズ「ｂ_１ｂ_２ｂ_３ｂ_４ｂ_５ｂ_６ｂ_７ｂ_８」と文字フレーズ「ｃ_１ｃ_２ｃ_３ｃ_４ｃ_５ｃ_６ｃ_７ｃ_８」は、文字フレーズ「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」の後の文字フレーズであり、以下同様である。さらに、文字フレーズ「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」は文字フレーズ“ｂ_１ｂ_２ｂ_３ｂ_４ｂ_５ｂ_６ｂ_７ｂ_８”の直前の文字フレーズであり、文字フレーズ「ｂ_１ｂ_２ｂ_３ｂ_４ｂ_５ｂ_６ｂ_７ｂ_８」は文字フレーズ“ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８”の直後の文字フレーズであり、以下同様である。

【0017】

１つのオーディオ・ファイルは複数のオーディオ段落に分けることができ、オーディオ段落の間は、通常、一定の重複性がある。それで、１つの字幕ファイルは複数の字幕段落に対応して分けることができ、字幕段落の間は一定の類似性があり、即ち、字幕段落の間に含まれる文字フレーズに一定の類似性が存在する。本発明の実施例は、上記字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現することができる。

【0018】

１つのオーディオ・ファイルは複数のオーディオ段落に分けることができ、オーディオ段落の間は、通常、長い休止があり、即ち、オーディオ段落の間は、通常、長い時間間隔がある。それで、１つの字幕ファイルは複数の字幕段落に対応して分けることができ、字幕段落の間は長い時間間隔があり、即ち、字幕段落の間に含まれる文字フレーズの間に長い時間間隔が存在する。本発明の実施例は、上記字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現することができる。

【0019】

本発明の別の実施例において、オーディオ・ファイルはオーディオデータを含み、オーディオ・ファイルをデコード（例えば、ＰＣＭデコード）すると、オーディオデータ（例えば、ＰＣＭデータ）を取得することができる。１つのオーディオ・ファイルのオーディオデータは、少なくとも１つのオーディオフレームを含むことができ、即ち、１つのオーディオ・ファイルのオーディオデータは、複数のオーディオフレームで順に構成された１つのフレームシーケンスとして示すことができる。１つのオーディオ・ファイルは複数のオーディオ段落に分けることができ、オーディオ段落の間は、通常、一定の重複性があり、即ち、オーディオ段落の間に含まれるオーディオフレームに一定の関連性が存在する。本発明の実施例は、上記オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現することができる。

【0020】

以上の説明に基づいて、本発明の実施例は、対象オーディオ・ファイルのファイルデータを取得することと、前記ファイルデータの構成要素の間の関連性特性データに基づいて、関連性特性シーケンスを構築し、所定の段落総数に従って前記関連性特性シーケンスを最適化することと、最適化後の前記関連性特性シーケンスにおける少なくとも１つの特性要素の数値に基づいて段落変更時間を決定することと、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることとを含むオーディオ処理方法を提供する。対象オーディオ・ファイルのファイルデータにおける構成要素の間の関連性、例えば文字フレーズの間の類似度、文字フレーズの間の時間間隔又はオーディオフレームの間の関連性などに基づいて、対象オーディオ・ファイルに対する段落分けを実現でき、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。

【0021】

本発明を理解しやすくするために、以下、図１〜図２を参照しながら、本発明の実施例に係るオーディオ処理方法を詳細に説明する。

【0022】

図１は、本発明の実施例に係るオーディオ処理方法のフローチャートである。該方法は、以下のステップＳ１０１〜ステップＳ１０５を含んでよい。

【0023】

Ｓ１０１では、対象オーディオ・ファイルに対応する、少なくとも１つの文字フレーズで順に構成された字幕ファイルを取得する。

【0024】

１つのオーディオ・ファイルは、１つの字幕ファイルに対応する。通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイル、各オーディオ・ファイルの属性及び各オーディオ・ファイルに対応する字幕ファイルが記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子などを含むが、これらに限られない。本ステップにおいて、インターネットオーディオ・ライブラリから対象オーディオ・ファイルに対応する字幕ファイルを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルに対応する字幕ファイルを検出し、かつ検出された字幕ファイルを取得すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位し、かつ対応する字幕ファイルを取得することを含むが、これらに限られない。

【0025】

本発明の実施例において、対象オーディオ・ファイルが歌Ａであると仮定すれば、歌Ａに対応する字幕ファイルの構造は本実施例に示された例を参照することができ、前記字幕ファイルがＮ（Ｎは正の整数）個の文字フレーズで順に構成され、該Ｎ個の文字フレーズをｐ（０）〜ｐ（Ｎ−１）で示されると仮定すれば、ｐ（０）は１番目の文字フレーズ「ａ_１ａ_２ａ_３ａ_４ａ_５ａ_６ａ_７ａ_８」を示し、ｐ（１）は２番目の文字フレーズ「ｂ_１ｂ_２ｂ_３ｂ_４ｂ_５ｂ_６ｂ_７ｂ_８」を示し、ｐ（２）は３番目の文字フレーズ「ｃ_１ｃ_２ｃ_３ｃ_４ｃ_５ｃ_６ｃ_７ｃ_８」を示すことができ、以下、同様のように、ｐ（Ｎ−１）はＮ番目の文字フレーズを示す。

【0026】

Ｓ１０２では、前記少なくとも１つの文字フレーズの間の類似度に基づいて、少なくとも１つの文字特性要素を含む字幕特性シーケンスを構築する。

【0027】

前記字幕特性シーケンスは、前記少なくとも１つの文字フレーズの間の類似度を反映することができる。本ステップにおいて、まず、類似度アルゴリズムで前記少なくとも１つの文字フレーズの間の類似度を計算することができ、ここで、各文字フレーズとその後の文字フレーズとの間の類似度を算出する必要があり、即ち、ｐ（０）とｐ（１）との間の類似度、ｐ（０）とｐ（２）との間の類似度……ｐ（０）とｐ（Ｎ−１）との間の類似度、ｐ（１）とｐ（２）との間の類似度、ｐ（１）とｐ（３）との間の類似度……ｐ（１）とｐ（Ｎ−１）との間の類似度を算出する必要があり、以下同様である。類似度アルゴリズムは、編集距離アルゴリズム（ＬｅｖｅｎｓｈｔｅｉｎＤｉｓｔａｎｃｅ）、最長共通部分列アルゴリズム（ＬｏｎｇｅｓｔＣｏｍｍｏｎＳｕｂｓｅｑｕｅｎｃｅｓ，ＬＣＳ）、Ｈｅｃｋｅｌアルゴリズム、ＧｒｅｅｄｙＳｔｒｉｎｇＴｉｌｉｎｇ（ＧＳＴ）アルゴリズムなどを含むが、これらに限られない。次に、前記少なくとも１つの文字フレーズの数量、順序及び算出された類似度に基づいて、前記字幕特性シーケンスを構築することができる。

【0028】

本実施例に示された例に従って、ｓ（ｎ）で前記字幕特性シーケンスを示すと仮定すれば、構築された字幕特性シーケンスｓ（ｎ）は、それぞれｓ（０）、ｓ（１）…ｓ（Ｎ−１）である合計Ｎ個の文字特性要素を含む。ｓ（０）の数値は、ｐ（０）とその後の文字フレーズとの間の類似状況を記述し、ｓ（１）の数値は、ｐ（１）とその後の文字フレーズとの間の類似状況を記述することができ、以下同様である。

【0029】

Ｓ１０３では、所定の段落総数に従って前記字幕特性シーケンスを最適化する。

【0030】

前記所定の段落総数は、ユーザの対象オーディオ・ファイルに対する実際の段落分けの需要に応じて設定することができる。Ｍ（Ｍは正の整数かつＭ＞１）で前記所定の段落総数を示すと仮定すれば、所定の段落総数Ｍに従って前記字幕特性シーケンスｓ（ｎ）を最適化することは、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するように、最適化後の前記字幕特性シーケンスｓ（ｎ）をちょうどよく所定の段落総数Ｍ個の字幕段落に分けることを目的とする。

【0031】

Ｓ１０４では、最適化後の前記字幕特性シーケンスにおける少なくとも１つの文字特性要素の数値に基づいて段落変更時間を決定する。

【0032】

最適化後の前記字幕特性シーケンスｓ（ｎ）はちょうどよく所定の段落総数Ｍ個の字幕段落に分けられるとともに、前記字幕特性シーケンスｓ（ｎ）における文字特性要素の数値は、文字フレーズの間の類似状況を記述することができるため、最適化後の前記字幕特性シーケンスｓ（ｎ）における文字特性要素の数値に基づいて、Ｍ個の字幕段落の変更点を決定し、さらに字幕ファイルからＭ個の字幕段落の開始及び終了時間を取得することができる。

【0033】

Ｓ１０５では、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。オーディオ・ファイルと字幕ファイルが互いに対応するので、取得されたＭ個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、Ｍ個のオーディオ段落を取得することができる。

【0034】

本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも１つの文字フレーズの間の類似度に基づいて字幕特性シーケンスを構築し、所定の段落総数に従って前記字幕特性シーケンスを最適化し、最適化後の前記字幕特性シーケンスにおける少なくとも１つの文字特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、オーディオ処理プロセスは、字幕段落の間の文字フレーズの類似性の特徴を利用して、字幕ファイルにおける文字フレーズの類似性に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。

【0035】

図２は、本発明の実施例に係る別のオーディオ処理方法のフローチャートである。該方法は、以下のステップＳ２０１〜ステップＳ２１３を含んでよい。

【0036】

Ｓ２０１では、対象オーディオ・ファイルに対応する、少なくとも１つの文字フレーズで順に構成された字幕ファイルを取得する。

【0037】

【0038】

本実施例のステップＳ２０１は、図１に示された実施例のステップＳ１０１を参照することができ、ここで説明を省略する。

【0039】

Ｓ２０２では、前記少なくとも１つの文字フレーズの数量に基づいて、字幕特性シーケンスを構築する文字特性要素の数量を決定する。

【0040】

前記字幕ファイルはＮ（Ｎは正の整数）個の文字フレーズで順に構成され、即ち、前記少なくとも１つの文字フレーズの数量がＮであるため、本ステップは、前記字幕特性シーケンスの文字特性要素の数量もＮであると決定でき、即ち、前記字幕特性シーケンスの長さはＮとなる。ｓ（ｎ）で前記字幕特性シーケンスを示すと仮定すれば、構築された字幕特性シーケンスｓ（ｎ）は、それぞれｓ（０）、ｓ（１）…ｓ（Ｎ−１）である合計Ｎ個の文字特性要素を含む。

【0041】

Ｓ２０３では、前記少なくとも１つの文字フレーズにおける各文字フレーズの順序に基づいて、前記字幕特性シーケンスを構築する各文字特性要素のインデックスを決定する。
前記字幕ファイルのＮ個の文字フレーズは、ｐ（０）、ｐ（１）…ｐ（Ｎ−１）という順序で並べ、前記字幕特性シーケンスｓ（ｎ）において、ｓ（０）はｐ（０）に対応し、ｓ（１）はｐ（１）に対応し、以下、同様のように、ｓ（Ｎ−１）はｐ（Ｎ−１）に対応すると仮定すれば、前記字幕特性シーケンスｓ（ｎ）において、ｓ（０）のインデックスは１、即ち１番目の文字特性要素であり、ｓ（１）のインデックスは２、即ち２番目の文字特性要素であり、以下、同様のように、ｓ（Ｎ−１）のインデックスはＮ、即ちＮ番目の文字特性要素である。

【0042】

Ｓ２０４では、前記字幕特性シーケンスを構築する各文字特性要素の数値をすべて初期値に設定する。

【0043】

前記初期値は実際の需要に応じて設定でき、本実施例において、前記初期値を０とすると、本ステップは、前記字幕特性シーケンスｓ（ｎ）における全ての文字特性要素の数値をすべて０に設定し、即ち、ｓ（０）＝０、ｓ（１）＝０…ｓ（Ｎ−１）＝０に設定することができる。

【0044】

Ｓ２０５では、前記少なくとも１つの文字フレーズのうちいずれか１つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの後の文字フレーズとの間の最大類似度が所定の類似閾値より大きければ、前記対象文字フレーズに対応する文字特性要素の数値を初期値から対象値に変更する。

【0045】

本ステップＳ２０５の具体的な処理プロセスは、以下のｓ１１〜ｓ１３を含んでよい。

【0046】

ｓ１１では、類似度アルゴリズムで前記少なくとも１つの文字フレーズの間の類似度を計算し、ここで、各文字フレーズとその後の文字フレーズとの間の類似度を算出する必要があり、即ち、ｐ（０）とｐ（１）との間の類似度、ｐ（０）とｐ（２）との間の類似度……ｐ（０）とｐ（Ｎ−１）との間の類似度、ｐ（１）とｐ（２）との間の類似度、ｐ（１）とｐ（３）との間の類似度……ｐ（１）とｐ（Ｎ−１）との間の類似度を算出する必要があり、以下同様である。類似度アルゴリズムは、編集距離アルゴリズム、最長共通部分列アルゴリズム、Ｈｅｃｋｅｌアルゴリズム、ＧｒｅｅｄｙＳｔｒｉｎｇＴｉｌｉｎｇ（ＧＳＴ）アルゴリズムなどを含むが、これらに限られない。説明すべきことは、計算を容易にするために、算出された類似度をすべて［０，１］の区間内に正規化し、ある２つの文字フレーズの間の類似度が０に等しければ、該２つの文字フレーズが全く異なることを示し、ある２つの文字フレーズの間の類似度が１に等しければ、該２つの文字フレーズが完全に同じことを示す。

【0047】

ｓ１２では、各文字フレーズとその後の文字フレーズとの間の最大類似度を抽出し、例えば、ｐ（０）とその後の文字フレーズｐ（１）〜ｐ（Ｎ−１）の間の類似度を計算することにより、ｐ（０）とｐ（２）間の類似度が最大でＱ_０２であれば、Ｑ_０２を抽出し、また、ｐ（１）とその後の文字フレーズｐ（２）〜ｐ（Ｎ−１）の間の類似度を計算することにより、ｐ（１）とｐ（５）間の類似度が最大でＱ_１５であれば、Ｑ_１５を抽出する。

【0048】

ｓ１３では、抽出された最大類似度が所定の類似閾値より大きいか否かをそれぞれ判断し、判断結果に応じて、対応する文字特性要素の数値を変更して設定する。前記所定の類似閾値は実際の需要に応じて設定でき、該所定の類似閾値は、Ｔｈで示され、かつ０≦Ｔｈ≦１である。前記対象値は実際の需要に応じて設定でき、かつ前記対象値が前記初期値より大きく、本実施例では前記対象値を１に設定することができる。ステップｓ１２に示された例に従って、例えば、Ｑ_０２が所定の類似閾値Ｔｈより大きいか否かを判断し、Ｑ_０２＞Ｔｈであれば、ｐ（０）に対応するｓ（０）の数値を０から１に変更し、即ち、ｓ（０）＝１となり、また、Ｑ_１５が所定の類似閾値Ｔｈより大きいか否かを判断し、Ｑ_１５＞Ｔｈであれば、ｐ（１）に対応するｓ（１）の数値を０から１に変更し、即ち、ｓ（１）＝１となる。

【0049】

Ｓ２０６では、前記字幕特性シーケンスを構築する文字特性要素の数量、インデックス及び数値に基づいて、前記字幕特性シーケンスを構築する。

【0050】

構築された前記字幕特性シーケンスはｓ（ｎ）であり、ｓ（ｎ）はＮ個の文字特性要素ｓ（０）、ｓ（１）…ｓ（Ｎ−１）で順に構成され、かつ前記字幕特性シーケンスｓ（ｎ）における各文字特性要素の数値は、０と１で構成されたシーケンスを形成する。

【0051】

本実施例のステップＳ２０２〜ステップＳ２０６は、図１に示された実施例のステップＳ１０２の具体的に詳細化したステップであってよい。

【0052】

Ｓ２０７では、前記字幕特性シーケンスにおける、数値が対象値である文字特性要素の数量を統計する。本実施例に示された例に従って、本ステップは、前記字幕特性シーケンスｓ（ｎ）における、数値が１である文字特性要素の数量を統計する必要がある。

【0053】

Ｓ２０８では、前記数量が前記所定の段落総数に対応する誤差許容範囲内にあるか否かを判断し、判別結果がＹＥＳであれば、ステップＳ２１０に移行し、判別結果がＮＯであれば、ステップＳ２０９に移行する。

【0054】

Ｍ（Ｍは正の整数かつＭ＞１）で前記所定の段落総数を示すと仮定すれば、前記所定の段落総数Ｍに対応する誤差許容範囲は［Ｍ−ｕ，Ｍ＋ｕ］（ｕは整数）で示されてよく、ここで、ｕは整数範囲区間を示し、実際の需要に応じて設定することができる。本ステップにおいて、統計された前記字幕特性シーケンスｓ（ｎ）における、数値が１である文字特性要素の数量が［Ｍ−ｕ，Ｍ＋ｕ］の区間内にあるか否かを判断する必要があり、判断結果がＹＥＳであれば、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するように、前記字幕特性シーケンスｓ（ｎ）が所定の段落総数Ｍ個の字幕段落に分けられることを示す。判断結果がＮＯであれば、前記字幕特性シーケンスｓ（ｎ）が所定の段落総数Ｍ個の字幕段落に上手く分けられず、対象オーディオ・ファイルに対する実際の段落分けの需要を満足できず、何らかの調整を行う必要があることを示す。

【0055】

Ｓ２０９では、前記所定の類似閾値の大きさを調整することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。

【0056】

本ステップの調整プロセスは、以下のステップｓ２１〜ｓ２２を含んでよい。

【0057】

ｓ２１では、前記数量が、前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より大きければ、所定のステップサイズに従って前記所定の類似閾値を増大させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。

【0058】

前記数量がＭ＋ｕより大きければ、所定のステップサイズに従って前記所定の類似閾値Ｔｈの値を増加させ、かつ上記ステップｓ１３を再度実行することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する必要がある。

【0059】

ｓ２２では、前記数量が前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より小さければ、所定のステップサイズに従って前記所定の類似閾値を減少させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。

【0060】

前記数量がＭ＋ｕより小さければ、所定のステップサイズに従って前記所定の類似閾値Ｔｈの値を減少させ、かつ上記ステップｓ１３を再度実行することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する必要がある。

【0061】

ステップｓ２１〜ｓ２２において、前記所定のステップサイズは実際の需要に応じて設定でき、前記所定のステップサイズは固定したステップサイズであってよく、即ち、毎回固定したステップサイズで前記所定の類似閾値Ｔｈの値を増大又は減少させ、前記所定のステップサイズはランダムなステップサイズであってもよく、即ち、毎回異なったステップサイズで前記所定の類似閾値Ｔｈの値を増大又は減少させる。

【0062】

本実施例のステップＳ２０７〜ステップＳ２０９は、図１に示された実施例のステップＳ１０３の具体的に詳細化したステップであってよい。

【0063】

Ｓ２１０では、最適化後の前記字幕特性シーケンスから、数値が対象値である文字特性要素に対応する対象インデックスを取得する。最適化後の前記字幕特性シーケンスｓ（ｎ）において、ｓ（０）＝０、ｓ（１）＝０…ｓ（４）＝１…ｓ（１０）＝１…ｓ（Ｎ−１）＝０であり、ｓ（４）＝１、ｓ（１０）＝１であり、ｓ（４）に対応するインデックスが５であり、ｓ（１０）に対応するインデックスが１１であるため、本ステップで取得できる対象インデックスは５と１１となる。

【0064】

Ｓ２１１では、前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位する。

【0065】

前記対象インデックスが５と１１であるため、前記字幕ファイルにおいて、段落が変更する文字フレーズを５番目の文字フレーズと１１番目の文字フレーズに定位でき、即ち、５番目の文字フレーズは１つの字幕段落の開始位置となり、即ち前記字幕ファイルにおける１〜４番目の文字フレーズが１つの字幕段落を構成し、１１番目の文字フレーズは別の字幕段落の開始位置となり、即ち前記字幕ファイルにおける５〜１０番目の文字フレーズが１つの字幕段落を構成する。

【0066】

Ｓ２１２では、前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取る。

【0067】

前記字幕ファイルには、各文字フレーズの開始時間、持続時間、終了時間を含む各文字フレーズの時間属性が記録されているため、本ステップは、前記字幕ファイルから段落変更時間を読み取ることができ、本実施例に示された例に従って、前記字幕ファイルにおける１〜４番目の文字フレーズが１つの字幕段落を構成するので、読み取られた段落変更時間は、４番目の文字フレーズの終了時間と５番目の文字フレーズの開始時間であり、前記字幕ファイルにおける５〜１０番目の文字フレーズが１つの字幕段落を構成するので、読み取られた段落変更時間は、１０番目の文字フレーズの終了時間と１１番目の文字フレーズの開始時間である。

【0068】

本実施例のステップＳ２１０〜ステップＳ２１２は、図１に示された実施例のステップＳ１０４の具体的に詳細化したステップであってよい。ステップＳ２１０〜ステップＳ２１２に基づいて、Ｍ個の字幕段落の開始及び終了時間を取得することができる。

【0069】

Ｓ２１３では、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。オーディオ・ファイルと字幕ファイルが互いに対応するので、取得されたＭ個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、Ｍ個のオーディオ段落を取得することができる。

【0070】

本実施例のステップＳ２１３は、図１に示された実施例のステップＳ１０５を参照することができ、ここで説明を省略する。

【0071】

【0072】

以下、図３〜図７を参照しながら、本発明の実施例に係るオーディオ処理装置の構造と機能を詳細に記述する。なお、下記図３〜図７に示された装置は、上記図１〜図２に示された方法の実行に応用するために、端末で動作することができる。

【0073】

図３は、本発明の実施例に係るオーディオ処理装置の概略構成図である。該装置は、取得手段３０１、構築手段３０２、最適化手段３０３、決定手段３０４及び段落分け手段３０５を含んでよい。

【0074】

取得手段３０１は、対象オーディオ・ファイルに対応する、少なくとも１つの文字フレーズで順に構成された字幕ファイルを取得する。

【0075】

１つのオーディオ・ファイルは、１つの字幕ファイルに対応する。通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイル、各オーディオ・ファイルの属性及び各オーディオ・ファイルに対応する字幕ファイルが記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子などを含むが、これらに限られない。前記取得手段３０１は、インターネットオーディオ・ライブラリから対象オーディオ・ファイルに対応する字幕ファイルを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルに対応する字幕ファイルを検出し、かつ検出された字幕ファイルを取得すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位し、かつ対応する字幕ファイルを取得することを含むが、これらに限られない。

【0076】

【0077】

構築手段３０２は、前記少なくとも１つの文字フレーズの間の類似度に基づいて、少なくとも１つの文字特性要素を含む字幕特性シーケンスを構築する。

【0078】

前記字幕特性シーケンスは、前記少なくとも１つの文字フレーズの間の類似度を反映することができる。まず、前記構築手段３０２は、類似度アルゴリズムで前記少なくとも１つの文字フレーズの間の類似度を計算することができ、ここで、各文字フレーズとその後の文字フレーズとの間の類似度を算出する必要があり、即ち、ｐ（０）とｐ（１）との間の類似度、ｐ（０）とｐ（２）との間の類似度……ｐ（０）とｐ（Ｎ−１）との間の類似度、ｐ（１）とｐ（２）との間の類似度、ｐ（１）とｐ（３）との間の類似度……ｐ（１）とｐ（Ｎ−１）との間の類似度を算出する必要があり、以下同様である。類似度アルゴリズムは、編集距離アルゴリズム、最長共通部分列アルゴリズム、Ｈｅｃｋｅｌアルゴリズム、ＧｒｅｅｄｙＳｔｒｉｎｇＴｉｌｉｎｇ（ＧＳＴ）アルゴリズムなどを含むが、これらに限られない。次に、前記構築手段３０２は、前記少なくとも１つの文字フレーズの数量、順序及び算出された類似度に基づいて、前記字幕特性シーケンスを構築することができる。

【0079】

本実施例に示された例に従って、ｓ（ｎ）で前記字幕特性シーケンスを示すと、構築された字幕特性シーケンスｓ（ｎ）は、それぞれｓ（０）、ｓ（１）…ｓ（Ｎ−１）である合計Ｎ個の文字特性要素を含む。ｓ（０）の数値は、ｐ（０）とその後の文字フレーズとの間の類似状況を記述し、ｓ（１）の数値は、ｐ（１）とその後の文字フレーズとの間の類似状況を記述することができ、以下同様である。

【0080】

最適化手段３０３は、所定の段落総数に従って前記字幕特性シーケンスを最適化する。

【0081】

前記所定の段落総数は、ユーザの対象オーディオ・ファイルに対する実際の段落分けの需要に応じて設定することができる。Ｍ（Ｍは正の整数かつＭ＞１）で前記所定の段落総数を示すと仮定すれば、前記最適化手段３０３は、所定の段落総数Ｍに従って前記字幕特性シーケンスｓ（ｎ）を最適化する目的は、最適化後の前記字幕特性シーケンスｓ（ｎ）を、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するよう、ちょうどよく所定の段落総数Ｍ個の字幕段落に分けられるようにすることである。

【0082】

決定手段３０４は、最適化後の前記字幕特性シーケンスにおける少なくとも１つの文字特性要素の数値に基づいて段落変更時間を決定する。

【0083】

ここで、最適化後の前記字幕特性シーケンスｓ（ｎ）はちょうどよく所定の段落総数Ｍ個の字幕段落に分けられるとともに、前記字幕特性シーケンスｓ（ｎ）における文字特性要素の数値は、文字フレーズの間の類似状況を記述することができ、従って、前記決定手段３０４は、最適化後の前記字幕特性シーケンスｓ（ｎ）における文字特性要素の数値に基づいて、Ｍ個の字幕段落の変更点を決定し、さらに字幕ファイルからＭ個の字幕段落の開始及び終了時間を取得することができる。

【0084】

段落分け手段３０５は、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。

【0085】

オーディオ・ファイルと字幕ファイルが互いに対応するので、前記段落分け手段３０５は、取得されたＭ個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、Ｍ個のオーディオ段落を取得することができる。

【0086】

【0087】

図４は、図３に示された構築手段の実施例の概略構成図である。該構築手段３０２は、数量決定手段４０１、インデックス決定手段４０２、数値設定手段４０３、数値変更手段４０４及びシーケンス構築手段４０５を含んでよい。

【0088】

数量決定手段４０１は、前記少なくとも１つの文字フレーズの数量に基づいて、字幕特性シーケンスを構築する文字特性要素の数量を決定する。

【0089】

前記字幕ファイルはＮ（Ｎは正の整数）個の文字フレーズで順に構成され、即ち、前記少なくとも１つの文字フレーズの数量がＮであり、従って、前記数量決定手段４０１は、前記字幕特性シーケンスの文字特性要素の数量をもＮと決定でき、即ち、前記字幕特性シーケンスの長さはＮとなる。ｓ（ｎ）で前記字幕特性シーケンスを示すと、構築された字幕特性シーケンスｓ（ｎ）は、それぞれｓ（０）、ｓ（１）…ｓ（Ｎ−１）である合計Ｎ個の文字特性要素を含む。

【0090】

インデックス決定手段４０２は、前記少なくとも１つの文字フレーズにおける各文字フレーズの順序に基づいて、前記字幕特性シーケンスを構築する各文字特性要素のインデックスを決定する。

【0091】

前記字幕ファイルのＮ個の文字フレーズは、ｐ（０）、ｐ（１）…ｐ（Ｎ−１）という順序で並べ、前記字幕特性シーケンスｓ（ｎ）において、ｓ（０）はｐ（０）に対応し、ｓ（１）はｐ（１）に対応し、以下、同様のように、ｓ（Ｎ−１）はｐ（Ｎ−１）に対応すると仮定すれば、前記字幕特性シーケンスｓ（ｎ）において、ｓ（０）のインデックスは１、即ち１番目の文字特性要素であり、ｓ（１）のインデックスは２、即ち２番目の文字特性要素であり、以下、同様のように、ｓ（Ｎ−１）のインデックスはＮ、即ちＮ番目の文字特性要素である。

【0092】

数値設定手段４０３は、前記字幕特性シーケンスを構築する各文字特性要素の数値をすべて初期値に設定する。

【0093】

前記初期値は実際の需要に応じて設定でき、本実施例において、前記初期値を０とすると、数値設定手段４０３は、前記字幕特性シーケンスｓ（ｎ）における全ての文字特性要素の数値をすべて０に設定し、即ち、ｓ（０）＝０、ｓ（１）＝０…ｓ（Ｎ−１）＝０に設定することができる。

【0094】

数値変更手段４０４は、前記少なくとも１つの文字フレーズのうちいずれか１つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの後の文字フレーズとの間の最大類似度が所定の類似閾値より大きければ、前記対象文字フレーズに対応する文字特性要素の数値を初期値から対象値に変更する。

【0095】

前記数値変更手段４０４の具体的な処理プロセスは以下Ａ〜Ｃを含んでよい。

【0096】

Ａ、類似度アルゴリズムで前記少なくとも１つの文字フレーズの間の類似度を計算し、ここで、各文字フレーズとその後の文字フレーズとの間の類似度を算出する必要があり、即ち、ｐ（０）とｐ（１）との間の類似度、ｐ（０）とｐ（２）との間の類似度……ｐ（０）とｐ（Ｎ−１）との間の類似度、ｐ（１）とｐ（２）との間の類似度、ｐ（１）とｐ（３）との間の類似度……ｐ（１）とｐ（Ｎ−１）との間の類似度を算出する必要があり、以下同様である。類似度アルゴリズムは、編集距離アルゴリズム、最長共通部分列アルゴリズム、Ｈｅｃｋｅｌアルゴリズム、ＧｒｅｅｄｙＳｔｒｉｎｇＴｉｌｉｎｇ（ＧＳＴ）アルゴリズムなどを含むが、これらに限られない。計算を容易にするために、算出された類似度をすべて［０，１］の区間内に正規化し、ある２つの文字フレーズの間の類似度が０に等しければ、該２つの文字フレーズが全く異なることを示し、ある２つの文字フレーズの間の類似度が１に等しければ、該２つの文字フレーズが完全に同じことを示す。

【0097】

Ｂ、各文字フレーズとその後の文字フレーズとの間の最大類似度を抽出し、例えば、ｐ（０）とその後の文字フレーズｐ（１）〜ｐ（Ｎ−１）の間の類似度を計算することにより、ｐ（０）とｐ（２）間の類似度が最大でＱ_０２であれば、Ｑ_０２を抽出し、また、ｐ（１）とその後の文字フレーズｐ（２）〜ｐ（Ｎ−１）の間の類似度を計算することにより、ｐ（１）とｐ（５）間の類似度が最大でＱ_１５であれば、Ｑ_１５を抽出する。

【0098】

Ｃ、抽出された最大類似度が所定の類似閾値より大きいか否かをそれぞれ判断して、判断結果に応じて、対応する文字特性要素の数値を変更して設定する。ここで、前記所定の類似閾値は実際の需要に応じて設定でき、該所定の類似閾値は、Ｔｈで示され、かつ０≦Ｔｈ≦１である。前記対象値は、実際の需要に応じて設定でき、かつ前記初期値より大きく、本実施例では前記対象値を１に設定することができる。本実施例に示された例に従って、例えば、Ｑ_０２が所定の類似閾値Ｔｈより大きいか否かを判断し、Ｑ_０２＞Ｔｈであれば、ｐ（０）に対応するｓ（０）の数値を０から１に変更し、即ち、ｓ（０）＝１とし、また、Ｑ_１５が所定の類似閾値Ｔｈより大きいか否かを判断し、Ｑ_１５＞Ｔｈであれば、ｐ（１）に対応するｓ（１）の数値を０から１に変更し、即ち、ｓ（１）＝１とする。

【0099】

シーケンス構築手段４０５は、前記字幕特性シーケンスを構築する文字特性要素の数量、インデックス及び数値に基づいて、前記字幕特性シーケンスを構築する。

【0100】

構築された前記字幕特性シーケンスは、Ｎ個の文字特性要素ｓ（０）、ｓ（１）…ｓ（Ｎ−１）で順に構成されたｓ（ｎ）であり、前記字幕特性シーケンスｓ（ｎ）における各文字特性要素の数値は、０と１で構成されたシーケンスを形成する。

【0101】

【0102】

図５は、図３に示された最適化手段の実施例の概略構成図である。該最適化手段３０３は、数量統計手段５０１、判定手段５０２及び最適化処理手段５０３を含んでよい。

【0103】

数量統計手段５０１は、前記字幕特性シーケンスにおける、数値が対象値である文字特性要素の数量を統計する。図４に示された実施例の例に従って、前記数量統計手段５０１は、前記字幕特性シーケンスｓ（ｎ）における、数値が１である文字特性要素の数量を統計する必要がある。

【0104】

判断手段５０２は、前記数量が前記所定の段落総数に対応する誤差許容範囲内にあるか否かを判断する。

【0105】

Ｍ（Ｍは正の整数かつＭ＞１）で前記所定の段落総数を示すと仮定すれば、前記所定の段落総数Ｍに対応する誤差許容範囲は［Ｍ−ｕ，Ｍ＋ｕ］（ｕは整数）で示されてよく、ここで、ｕは整数範囲区間を示し、実際の需要に応じて設定することができる。前記判断手段５０２は、統計された前記字幕特性シーケンスｓ（ｎ）における、数値が１である文字特性要素の数量が［Ｍ−ｕ，Ｍ＋ｕ］の区間内にあるか否かを判断する必要があり、判断結果がＹＥＳであれば、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するように、前記字幕特性シーケンスｓ（ｎ）が所定の段落総数Ｍ個の字幕段落に分けられることを示す。判断結果がＮＯであれば、前記字幕特性シーケンスｓ（ｎ）が所定の段落総数Ｍ個の字幕段落に上手く分けられず、対象オーディオ・ファイルに対する実際の段落分けの需要を満足できず、何らかの調整を行う必要があることを示す。

【0106】

最適化処理手段５０３は、判断結果がＮＯであれば、前記所定の類似閾値の大きさを調整することにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。

【0107】

さらに図６は、図５に示された最適化処理手段の実施例の概略構成図である。該最適化手段５０３は、第１の調整手段６０１と第２の調整手段６０２を含む。

【0108】

第１の調整手段６０１は、前記数量が、前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より大きければ、所定のステップサイズに従って前記所定の類似閾値を増大させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。

【0109】

前記数量がＭ＋ｕより大きければ、前記第１の調整手段６０１は、所定のステップサイズに従って前記所定の類似閾値Ｔｈの値を増加させ、かつ前記字幕特性シーケンスにおける各文字特性要素の数値を再度調整する必要がある。

【0110】

第２の調整手段６０２は、前記数量が、前記所定の段落総数に対応する誤差許容範囲内の最大誤差許容値より小さければ、所定のステップサイズに従って前記所定の類似閾値を減少させることにより、前記字幕特性シーケンスにおける各文字特性要素の数値を調整する。

【0111】

前記数量がＭ−ｕより小さければ、前記第２の調整手段６０２は、所定のステップサイズに従って前記所定の類似閾値Ｔｈの値を減少させ、かつ前記字幕特性シーケンスにおける各文字特性要素の数値を再度調整する必要がある。ここで、前記所定のステップサイズは実際の需要に応じて設定でき、前記所定のステップサイズは固定したステップサイズであってよく、即ち、毎回固定したステップサイズで前記所定の類似閾値Ｔｈの値を増大又は減少させる。前記所定のステップサイズはランダムなステップサイズであってもよく、即ち、毎回異なったステップサイズで前記所定の類似閾値Ｔｈの値を増大又は減少させる。

【0112】

【0113】

図７は、図３に示された決定手段３０４の実施例の概略構成図である。該決定手段３０４は、対象インデックス取得手段７０１、定位手段７０２及び時間読取手段７０３を含んでよい。

【0114】

対象インデックス取得手段７０１は、最適化後の前記字幕特性シーケンスから、数値が対象値である文字特性要素に対応する対象インデックスを取得する。

【0115】

最適化後の前記字幕特性シーケンスｓ（ｎ）において、ｓ（０）＝０、ｓ（１）＝０…ｓ（４）＝１…ｓ（１０）＝１…ｓ（Ｎ−１）＝０であり、ｓ（４）＝１、ｓ（１０）＝１であり、ｓ（４）に対応するインデックスが５であり、ｓ（１０）に対応するインデックスが１１であるため、前記対象インデックス取得手段７０１が取得できる対象インデックスは５と１１となる。

【0116】

定位手段７０２は、前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位する。

【0117】

前記対象インデックスが５と１１であるため、前記定位手段７０２は、前記字幕ファイルにおいて、段落が変更する文字フレーズを５番目の文字フレーズと１１番目の文字フレーズに定位でき、即ち、５番目の文字フレーズは１つの字幕段落の開始位置となり、即ち前記字幕ファイルにおける１〜４番目の文字フレーズが１つの字幕段落を構成し、１１番目の文字フレーズは別の字幕段落の開始位置となり、即ち前記字幕ファイルにおける５〜１０番目の文字フレーズが１つの字幕段落を構成する。

【0118】

時間読取手段７０３は、前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取る。

【0119】

前記字幕ファイルには、各文字フレーズの開始時間、持続時間、終了時間を含む各文字フレーズの時間属性が記録されているため、前記時間読取手段７０３は、前記字幕ファイルから段落変更時間を読み取ることができ、本実施例に示された例に従って、前記字幕ファイルにおける１〜４番目の文字フレーズが１つの字幕段落を構成するので、読み取られた段落変更時間は、４番目の文字フレーズの終了時間と５番目の文字フレーズの開始時間であり、前記字幕ファイルにおける５〜１０番目の文字フレーズが１つの字幕段落を構成するので、読み取られた段落変更時間は、１０番目の文字フレーズの終了時間と１１番目の文字フレーズの開始時間である。

【0120】

【0121】

本発明の実施例はさらに端末を開示し、該端末はＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パソコン）、ノートパソコン、携帯電話、ＰＡＤ（タブレット型コンピュータ）、車載端末、インテリジェント着用可能設備などの設備であってよい。該端末にオーディオ処理装置を含んでよく、該装置の構造及び機能は上記図３〜図７を参照することができ、ここで説明を省略する。

【0122】

【0123】

当業者であれば理解できるように、上記実施例の全部又は一部のステップの実現はハードウェアによって実施してもよく、プログラムによって関連するハードウェアに命令することで実施してもよく、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶することができ、上記記憶媒体はリードオンリーメモリ、磁気ディスク又は光ディスクなどであってよい。

【0124】

以上の記述に基づいて、以下、図８〜図９を参照しながら、本発明の実施例に係るオーディオ処理方法を詳細に記述する。

【0125】

図８は、本発明の実施例に係るオーディオ処理方法のフローチャートである。該方法は、以下のステップＳ８０１〜ステップＳ８０５を含んでよい。

【0126】

Ｓ８０１では、対象オーディオ・ファイルに対応する、少なくとも１つの文字フレーズで順に構成された字幕ファイルを取得する。

【0127】

１つのオーディオ・ファイルは、１つの字幕ファイルに対応する。前記字幕ファイルは、少なくとも１つの文字フレーズと各文字フレーズの主要な情報を含み、１つの文字フレーズの主要な情報は、識別子（ＩＤ）、開始時間（ｓｔａｒｔ＿ｔｉｍｅ）及び終了時間（ｅｎｄ＿ｔｉｍｅ）を含む。通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイル、各オーディオ・ファイルの属性及び各オーディオ・ファイルに対応する字幕ファイルが記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子などを含むが、これらに限られない。本ステップにおいて、インターネットオーディオ・ライブラリから対象オーディオ・ファイルに対応する字幕ファイルを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルに対応する字幕ファイルを検出し、かつ検出された字幕ファイルを取得すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位し、かつ対応する字幕ファイルを取得することを含むが、これらに限られない。

【0128】

【0129】

Ｓ８０２では、前記少なくとも１つの文字フレーズの間の時間間隔に基づいて、少なくとも１つの時間特性要素を含む時間特性シーケンスを構築する。

【0130】

前記時間特性シーケンスは、前記少なくとも１つの文字フレーズの間の時間間隔の程度を反映することができる。本ステップにおいて、まず、前記少なくとも１つの文字フレーズの間の時間間隔を計算し、ここで、ｐ（１）とｐ（０）との間の時間間隔ｐ（１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（０）．ｅｎｄ＿ｔｉｍｅを計算し、ｐ（２）とｐ（１）との間の時間間隔ｐ（２）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（１）．ｅｎｄ＿ｔｉｍｅを計算し、以下、同様のように、ｐ（Ｎ−１）とｐ（Ｎ−２）との間の時間間隔ｐ（Ｎ−１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（Ｎ−２）．ｅｎｄ＿ｔｉｍｅを計算する必要がある。次に、前記少なくとも１つの文字フレーズの数量、順序及び算出された時間間隔に基づいて、前記時間特性シーケンスを構築することができる。

【0131】

本実施例に示された例に従って、ｔ（ｎ）で前記時間特性シーケンスを示すと、構築された字幕特性シーケンスｔ（ｎ）は、それぞれｔ（０）、ｔ（１）…ｔ（Ｎ−１）である合計Ｎ個の時間特性要素を含む。ここで、ｔ（０）の数値を０に設定でき、ｔ（１）の数値はｐ（１）とｐ（０）との間の時間間隔を示し、ｔ（２）の数値はｐ（２）とｐ（１）との間の時間間隔を示し、以下、同様のように、ｔ（Ｎ−１）の数値はｐ（Ｎ−１）とｐ（Ｎ−２）との間の時間間隔を示す。

【0132】

Ｓ８０３では、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整する。

【0133】

前記所定の段落総数は、ユーザの対象オーディオ・ファイルに対する実際の段落分けの需要に応じて設定することができる。Ｍ（Ｍは正の整数かつＭ＞１）で前記所定の段落総数を示すと仮定すれば、所定の段落総数Ｍに従って前記時間特性シーケンスｔ（ｎ）における各時間特性要素の数値を調整する目的は、調整後の前記字幕特性シーケンスｔ（ｎ）を、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するよう、ちょうどよくＭ個の字幕段落に対応する変更点を取得できるようにすることである。

【0134】

Ｓ８０４では、調整後の前記時間特性シーケンスにおける少なくとも１つの時間特性要素の数値に基づいて、段落変更時間を決定する。

【0135】

前記調整後の時間特性シーケンスｔ（ｎ）における各時間特性要素の数値は、Ｍ個の字幕段落に対応する変更点を反映でき、従って、本ステップは、調整後の前記時間特性シーケンスにおける少なくとも１つの時間特性要素の数値に基づいて、字幕ファイルからＭ個の字幕段落の開始及び終了時間を取得することができる。

【0136】

Ｓ８０５では、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。オーディオ・ファイルと字幕ファイルが互いに対応するので、取得されたＭ個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、Ｍ個のオーディオ段落を取得することができる。

【0137】

本発明の実施例において、対象オーディオ・ファイルに対応する字幕ファイルにおける少なくとも１つの文字フレーズの間の時間間隔に基づいて時間特性シーケンスを構築し、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整し、調整後の前記時間特性シーケンスにおける少なくとも１つの時間特性要素の数値に基づいて段落変更時間を決定し、次に、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分けることができ、該オーディオ処理プロセスは、字幕段落の間の文字フレーズの時間間隔の特徴を利用して、字幕ファイルにおける文字フレーズの間の時間間隔に基づいて対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。

【0138】

図９は、本発明の実施例に係る別のオーディオ処理方法のフローチャートである。該方法は、以下のステップＳ９０１〜ステップＳ９０５を含んでよい。

【0139】

Ｓ９０１では、対象オーディオ・ファイルに対応する、少なくとも１つの文字フレーズで順に構成された字幕ファイルを取得する。

【0140】

【0141】

本実施例のステップＳ９０１は、図１に示された実施例のステップＳ８０１を参照することができ、ここで説明を省略する。

【0142】

Ｓ９０２では、前記少なくとも１つの文字フレーズの数量に基づいて、時間特性シーケンスを構築する時間特性要素の数量を決定する。

【0143】

前記字幕ファイルはＮ（Ｎは正の整数）個の文字フレーズで順に構成され、即ち、前記少なくとも１つの文字フレーズの数量がＮであり、従って、本ステップは、前記時間特性シーケンスの時間特性要素の数量もＮであると決定でき、即ち、前記時間特性シーケンスの長さはＮとなる。ｔ（ｎ）で前記時間特性シーケンスを示すと、構築された字幕特性シーケンスｔ（ｎ）は、それぞれｔ（０）、ｔ（１）…ｔ（Ｎ−１）である合計Ｎ個の時間特性要素を含む。

【0144】

Ｓ９０３では、前記少なくとも１つの文字フレーズにおける各文字フレーズの順序に基づいて、前記時間特性シーケンスを構築する各時間特性要素のインデックスを決定する。

【0145】

前記字幕ファイルのＮ個の文字フレーズは、ｐ（０）、ｐ（１）…ｐ（Ｎ−１）という順序で並べ、前記字幕特性シーケンスｔ（ｎ）において、ｔ（０）はｐ（０）に対応し、ｔ（１）はｐ（１）に対応し、以下、同様のように、ｔ（Ｎ−１）はｐ（Ｎ−１）に対応すると仮定すれば、前記時間特性シーケンスｔ（ｎ）において、ｔ（０）のインデックスは１、即ち１番目の時間特性要素であり、ｔ（１）のインデックスは２、即ち２番目の時間特性要素であり、以下、同様のように、ｔ（Ｎ−１）のインデックスはＮ、即ちＮ番目の時間特性要素である。

【0146】

Ｓ９０４では、前記少なくとも１つの文字フレーズのうちいずれか１つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの直前の文字フレーズとの間の時間間隔を、前記対象文字フレーズに対応する時間特性要素の数値に設定する。

【0147】

本ステップＳ９０４の具体的な処理プロセスは、以下のｓ１１〜ｓ１２を含んでよい。
ｓ１１では、各文字フレーズとその直前の文字フレーズとの間の時間間隔を計算し、ここで、ｐ（１）とｐ（０）との間の時間間隔ｐ（１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（０）．ｅｎｄ＿ｔｉｍｅを計算し、ｐ（２）とｐ（１）との間の時間間隔ｐ（２）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（１）．ｅｎｄ＿ｔｉｍｅを計算し、以下、同様のように、ｐ（Ｎ−１）とｐ（Ｎ−２）との間の時間間隔ｐ（Ｎ−１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（Ｎ−２）．ｅｎｄ＿ｔｉｍｅを計算する必要がある。

【0148】

ｓ１２では、算出された時間間隔を対応する時間特性要素の数値に設定する。従って、ｔ（０）＝０、ｔ（１）＝ｐ（１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（０）．ｅｎｄ＿ｔｉｍｅ、ｔ（２）＝ｐ（２）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（１）．ｅｎｄ＿ｔｉｍｅ、以下、同様のように、ｔ（Ｎ−１）＝ｐ（Ｎ−１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（Ｎ−２）．ｅｎｄ＿ｔｉｍｅに設定することができる。

【0149】

Ｓ９０５では、前記時間特性シーケンスを構築する時間特性要素の数量、インデックス及び数値に基づいて、前記時間特性シーケンスを構築する。

【0150】

構築された前記時間特性シーケンスは、Ｎ個の時間特性要素ｔ（０）、ｔ（１）…ｔ（Ｎ−１）で順に構成されたｔ（ｎ）であり、前記時間特性シーケンスｔ（ｎ）における各時間特性要素の数値は、ｔ（０）＝０、ｔ（１）＝ｐ（１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（０）．ｅｎｄ＿ｔｉｍｅ、ｔ（２）＝ｐ（２）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（１）．ｅｎｄ＿ｔｉｍｅ、以下、同様のように、ｔ（Ｎ−１）＝ｐ（Ｎ−１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（Ｎ−２）．ｅｎｄ＿ｔｉｍｅである。

【0151】

本実施例のステップＳ９０２〜ステップＳ９０５は、図８に示された実施例のステップＳ８０２の具体的に詳細化したステップであってよい。

【0152】

Ｓ９０６では、前記時間特性シーケンスから、上位の所定の段落数量−１個の最大数値の時間特性要素を検出する。Ｍ（Ｍは正の整数かつＭ＞１）で前記所定の段落総数を示すと仮定すれば、本ステップは、前記時間特性シーケンスｔ（ｎ）から、上位のＭ−１個の最大数値の時間特性要素を検出する必要がある。

【0153】

Ｓ９０７では、検出された時間特性要素の数値を対象値に調整し、前記時間特性シーケンスにおける、検出された時間特性要素以外のその他の時間特性要素の数値を参考値に調整する。前記対象値と前記参考値は、実際の需要に応じて設定でき、本発明の実施例は前記対象値を１に、前記参考値を０に設定することができる。

【0154】

ステップＳ９０６〜Ｓ９０７の具体的な処理プロセスとして、まず、前記時間特性シーケンスｔ（ｎ）における各時間特性要素の数値を調査し、その中から最大数値に対応する時間特性要素を検出し、検出された時間特性要素を除外した後、前記時間特性シーケンスｔ（ｎ）における各時間特性要素の数値を再度調査し、その中から最大数値に対応する時間特性要素を検出し、上記調査プロセスを繰り返して、Ｍ−１個の最大数値が検出されると停止する。最後に、前記時間特性シーケンスｔ（ｎ）から検出されたＭ−１個の最大数値をすべて１に調整し、その他の数値を０に調整する。

【0155】

本実施例のステップＳ９０６〜ステップＳ９０７は、図８に示された実施例のステップＳ８０３の具体的に詳細化したステップであってよい。Ｍ個の字幕段落はちょうどよくＭ−１個の段落変更点に対応するため、ステップＳ９０６〜ステップＳ９０７に従って、調整後の前記時間特性シーケンスｔ（ｎ）は、ちょうどよくＭ個の字幕段落に対応するＭ−１段落変更点を抽出でき、それに従って、対象オーディオ・ファイルに対する実際の段落分けの需要を実現する。

【0156】

Ｓ９０８では、調整後の前記時間特性シーケンスから、数値が対象値である時間特性要素に対応する対象インデックスを取得する。本ステップは、数値が１である時間特性要素に対応する対象インデックスを取得する必要がり、即ち検出されたＭ−１個の時間特性要素のインデックスを取得する必要がある。

【0157】

Ｓ９０９では、前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位する。

【0158】

そのうちのある対象インデックスが５とすると、前記字幕ファイルにおいて、段落が変更する文字フレーズを５番目の文字フレーズに定位でき、即ち、５番目の文字フレーズは１つの字幕段落の開始位置となり、即ち前記字幕ファイルにおける１〜４番目の文字フレーズが１つの字幕段落を構成する。同様の理由で、Ｍ−１個の、段落が変更する文字フレーズを定位することができる。

【0159】

Ｓ９１０では、前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取る。

【0160】

前記字幕ファイルには、各文字フレーズの開始時間と終了時間を含む各文字フレーズの重要な情報が記録されているため、本ステップは、前記字幕ファイルから段落変更時間を読み取ることができ、本実施例に示された例に従って、前記字幕ファイルにおける１〜４番目の文字フレーズが１つの字幕段落を構成するので、読み取られた段落変更時間は、４番目の文字フレーズの終了時間と５番目の文字フレーズの開始時間である。

【0161】

本実施例のステップＳ９０８〜ステップＳ９１０は、図８に示された実施例のステップＳ８０４の具体的に詳細化したステップであってよい。ステップＳ９０８〜ステップＳ９１０に基づいて、Ｍ個の字幕段落の開始及び終了時間を取得することができる。

【0162】

Ｓ９１１では、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。オーディオ・ファイルと字幕ファイルが互いに対応するので、取得されたＭ個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、Ｍ個のオーディオ段落を取得することができる。

【0163】

本実施例のステップＳ９１１は、図８に示された実施例のステップＳ８０５を参照することができ、ここで説明を省略する。

【0164】

【0165】

以下、図１０〜図１３を参照しながら、本発明の実施例に係るオーディオ処理装置の構造と機能を詳細に記述する。なお、下記図１０〜図１３に示された装置は、上記図８〜図９に示された方法の実行に応用するために、端末で動作することができる。

【0166】

図１０は、本発明の実施例に係るオーディオ処理装置の概略構成図である。該装置は、取得手段１００１、構築手段１００２、調整手段１００３、決定手段１００４及び段落分け手段１００５を含んでよい。

【0167】

取得手段１００１は、対象オーディオ・ファイルに対応する、少なくとも１つの文字フレーズで順に構成された字幕ファイルを取得する。

【0168】

１つのオーディオ・ファイルは、１つの字幕ファイルに対応する。前記字幕ファイルは、少なくとも１つの文字フレーズと各文字フレーズの主要な情報を含み、１つの文字フレーズの主要な情報は、識別子（ＩＤ）、開始時間（ｓｔａｒｔ＿ｔｉｍｅ）及び終了時間（ｅｎｄ＿ｔｉｍｅ）を含む。通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイル、各オーディオ・ファイルの属性及び各オーディオ・ファイルに対応する字幕ファイルが記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子などを含むが、これらに限られない。前記取得手段１００１は、インターネットオーディオ・ライブラリから対象オーディオ・ファイルに対応する字幕ファイルを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルに対応する字幕ファイルを検出し、かつ検出された字幕ファイルを取得すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位し、かつ対応する字幕ファイルを取得することを含むが、これらに限られない。

【0169】

【0170】

構築手段１００２は、前記少なくとも１つの文字フレーズの間の時間間隔に基づいて、少なくとも１つの時間特性要素を含む時間特性シーケンスを構築する。

【0171】

前記時間特性シーケンスは、前記少なくとも１つの文字フレーズの間の時間間隔の程度を反映することができる。まず、前記構築手段１００２は、前記少なくとも１つの文字フレーズの間の時間間隔を計算し、ここで、ｐ（１）とｐ（０）との間の時間間隔ｐ（１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（０）．ｅｎｄ＿ｔｉｍｅを計算し、ｐ（２）とｐ（１）との間の時間間隔ｐ（２）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（１）．ｅｎｄ＿ｔｉｍｅを計算し、以下、同様のように、ｐ（Ｎ−１）とｐ（Ｎ−２）との間の時間間隔ｐ（Ｎ−１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（Ｎ−２）．ｅｎｄ＿ｔｉｍｅを計算する必要がある。次に、前記構築手段１００２は、前記少なくとも１つの文字フレーズの数量、順序及び算出された時間間隔に基づいて、前記時間特性シーケンスを構築することができる。

【0172】

【0173】

調整手段１００３は、所定の段落総数に従って前記時間特性シーケンスにおける各時間特性要素の数値を調整する。

【0174】

前記所定の段落総数は、ユーザの対象オーディオ・ファイルに対する実際の段落分けの需要に応じて設定することができる。Ｍ（Ｍは正の整数かつＭ＞１）で前記所定の段落総数を示すと仮定すれば、前記調整手段１００３が所定の段落総数Ｍに従って前記時間特性シーケンスｔ（ｎ）における各時間特性要素の数値を調整する目的は、調整後の前記時間特性シーケンスｔ（ｎ）を、対象オーディオ・ファイルに対する実際の段落分けの需要を満足するよう、ちょうどよくＭ個の字幕段落に対応する変更点を取得できるようにすることである。

【0175】

決定手段１００４は、調整後の前記時間特性シーケンスにおける少なくとも１つの時間特性要素の数値に基づいて、段落変更時間を決定する。

【0176】

前記調整後の時間特性シーケンスｔ（ｎ）における各時間特性要素の数値は、Ｍ個の字幕段落に対応する変更点を反映でき、従って、前記決定手段１００４は、調整後の前記時間特性シーケンスにおける少なくとも１つの時間特性要素の数値に基づいて、字幕ファイルからＭ個の字幕段落の開始及び終了時間を取得することができる。

【0177】

段落分け手段１００５は、前記段落変更時間に従って前記対象オーディオ・ファイルを前記所定の段落総数の段落に分ける。

【0178】

オーディオ・ファイルと字幕ファイルが互いに対応するので、前記段落分け手段１００５は、取得されたＭ個の字幕段落の開始及び終了時間に従って、対応して前記対象オーディオ・ファイルに対して段落分けを行って、Ｍ個のオーディオ段落を取得することができる。

【0179】

【0180】

図１１は、図１０に示された構築手段の実施例の概略構成図である。該構築手段１００２は、数量決定手段１１０１、インデックス決定手段１１０２、数値設定手段１１０３及びシーケンス構築手段１１０４を含んでよい。

【0181】

数量決定手段１１０１、前記少なくとも１つの文字フレーズの数量に基づいて、時間特性シーケンスを構築する時間特性要素の数量を決定する。

【0182】

前記字幕ファイルはＮ（Ｎは正の整数）個の文字フレーズで順に構成され、即ち、前記少なくとも１つの文字フレーズの数量がＮであり、従って、前記数量決定手段１１０１は、前記時間特性シーケンスの時間特性要素の数量もＮであると決定でき、即ち、前記時間特性シーケンスの長さはＮとなる。ｔ（ｎ）で前記時間特性シーケンスを示すと、構築された時間特性シーケンスｔ（ｎ）は、それぞれｔ（０）、ｔ（１）…ｔ（Ｎ−１）である合計Ｎ個の時間特性要素を含む。

【0183】

インデックス決定手段１１０２は、前記少なくとも１つの文字フレーズにおける各文字フレーズの順序に基づいて、前記時間特性シーケンスを構築する各時間特性要素のインデックスを決定する。

【0184】

前記字幕ファイルのＮ個の文字フレーズは、ｐ（０）、ｐ（１）…ｐ（Ｎ−１）という順序で並べ、前記時間特性シーケンスｔ（ｎ）において、ｔ（０）はｐ（０）に対応し、ｔ（１）はｐ（１）に対応し、以下、同様のように、ｔ（Ｎ−１）はｐ（Ｎ−１）に対応すると仮定すれば、前記時間特性シーケンスｔ（ｎ）において、ｔ（０）のインデックスは１、即ち１番目の時間特性要素であり、ｔ（１）のインデックスは２、即ち２番目の時間特性要素であり、以下、同様のように、ｔ（Ｎ−１）のインデックスはＮ、即ちＮ番目の時間特性要素である。

【0185】

数値設定手段１１０３は、前記少なくとも１つの文字フレーズのうちいずれか１つの対象文字フレーズに対して、前記対象文字フレーズと前記対象文字フレーズの直前の文字フレーズとの間の時間間隔を、前記対象文字フレーズに対応する時間特性要素の数値に設定する。

【0186】

前記数値変更手段１１０３の具体的な処理プロセスは以下Ａ〜Ｂを含んでよい。

【0187】

Ａ、各文字フレーズとその直前の文字フレーズとの間の時間間隔を計算し、ここで、ｐ（１）とｐ（０）との間の時間間隔ｐ（１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（０）．ｅｎｄ＿ｔｉｍｅを計算し、ｐ（２）とｐ（１）との間の時間間隔ｐ（２）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（１）．ｅｎｄ＿ｔｉｍｅを計算し、以下、同様のように、ｐ（Ｎ−１）とｐ（Ｎ−２）との間の時間間隔ｐ（Ｎ−１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（Ｎ−２）．ｅｎｄ＿ｔｉｍｅを計算する必要がある。

【0188】

Ｂ、算出された時間間隔を対応する時間特性要素の数値に設定すると、ｔ（０）＝０、ｔ（１）＝ｐ（１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（０）．ｅｎｄ＿ｔｉｍｅ、ｔ（２）＝ｐ（２）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（１）．ｅｎｄ＿ｔｉｍｅ、以下、同様のように、ｔ（Ｎ−１）＝ｐ（Ｎ−１）．ｓｔａｒｔ＿ｔｉｍｅ−ｐ（Ｎ−２）．ｅｎｄ＿ｔｉｍｅに設定することができる。

【0189】

シーケンス構築手段１１０４は、前記時間特性シーケンスを構築する時間特性要素の数量、インデックス及び数値に基づいて、前記時間特性シーケンスを構築する。

【0190】

【0191】

【0192】

図１２は、図１０に示された調整手段の実施例の概略構成図である。該調整手段１００３は、要素検出手段１２０１と数値調整手段１２０２を含んでよい。

【0193】

要素検出手段１２０１は、前記時間特性シーケンスから、上位の所定の段落数量−１個の最大数値の時間特性要素を検出する。

【0194】

Ｍ（Ｍは正の整数かつＭ＞１）で前記所定の段落総数を示すと仮定すれば、前記要素検出手段１２０１は、前記時間特性シーケンスｔ（ｎ）から、上位のＭ−１個の最大数値の時間特性要素を検出する必要がある。

【0195】

数値調整手段１２０２は、検出された時間特性要素の数値を対象値に調整し、前記時間特性シーケンスにおける、検出された時間特性要素以外のその他の時間特性要素の数値を参考値に調整する。前記対象値と前記参考値は、実際の需要に応じて設定でき、本発明の実施例は前記対象値を１に、前記参考値を０に設定することができる。

【0196】

前記要素検出手段１２０１と前記数値調整手段１２０２の具体的な処理プロセスとして、まず、前記要素検出手段１２０１は、前記時間特性シーケンスｔ（ｎ）における各時間特性要素の数値を調査し、その中から最大数値に対応する時間特性要素を検出し、検出された時間特性要素を除外した後、前記時間特性シーケンスｔ（ｎ）における各時間特性要素の数値を再度調査し、その中から最大数値に対応する時間特性要素を検出し、上記調査プロセスを繰り返して、Ｍ−１個の最大数値が検出されると停止する。最後に、数値調整手段１２０２は、前記時間特性シーケンスｔ（ｎ）から検出されたＭ−１個の最大数値をすべて１に調整し、その他の数値を０に調整する。

【0197】

【0198】

図１３は、図１０に示された決定手段の実施例の概略構成図である。該決定手段１００４は、対象インデックス取得手段１３０１、定位手段１３０２及び時間読取手段１３０３を含んでよい。

【0199】

対象インデックス取得手段１３０１は、調整後の前記時間特性シーケンスから、数値が対象値である時間特性要素に対応する対象インデックスを取得する。

【0200】

図５に示された例に従って、前記対象インデックス１３０１は、数値が１である時間特性要素に対応する対象インデックスを取得する必要がり、即ち検出されたＭ−１個の時間特性要素のインデックスを取得する必要がある。

【0201】

定位手段１３０２は、前記対象インデックスに基づいて、前記字幕ファイルにおいて段落が変更する文字フレーズを定位する。

【0202】

そのうちのある対象インデックスが５とすると、前記定位手段１３０２は、前記字幕ファイルにおいて、段落が変更する文字フレーズを５番目の文字フレーズに定位でき、即ち、５番目の文字フレーズは１つの字幕段落の開始位置となり、即ち前記字幕ファイルにおける１〜４番目の文字フレーズが１つの字幕段落を構成する。同様の理由で、Ｍ−１個の、段落が変更する文字フレーズを定位することができる。

【0203】

時間読取手段１３０３は、前記段落が変更する文字フレーズに基づいて、前記字幕ファイルから段落変更時間を読み取る。

【0204】

前記字幕ファイルには、各文字フレーズの開始時間と終了時間を含む各文字フレーズの重要な情報が記録されているため、前記時間読取手段１３０３は、前記字幕ファイルから段落変更時間を読み取ることができ、本実施例に示された例に従って、前記字幕ファイルにおける１〜４番目の文字フレーズが１つの字幕段落を構成するので、読み取られた段落変更時間は、４番目の文字フレーズの終了時間と５番目の文字フレーズの開始時間である。

【0205】

【0206】

本発明の実施例はさらに端末を開示し、該端末はＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パソコン）、ノートパソコン、携帯電話、ＰＡＤ（タブレット型コンピュータ）、車載端末、インテリジェント着用可能設備などの設備であってよい。該端末にオーディオ処理装置を含んでよく、該装置の構造及び機能は上記図１０〜図１３を参照することができ、ここで説明を省略する。

【0207】

【0208】

以上の記述に基づいて、以下、図１４〜図１５を参照しながら、本発明の実施例に係るオーディオ処理方法を詳細に記述する。

【0209】

図１４は、本発明の実施例に係るオーディオ処理方法のフローチャートである。該方法は、以下のステップＳ１４０１〜ステップＳ１４０５を含んでよい。

【0210】

Ｓ１４０１では、対象オーディオ・ファイルの、少なくとも１つのオーディオフレームを含むオーディオデータを取得する。

【0211】

オーディオ・ファイルはオーディオデータを含み、オーディオ・ファイルをデコード（例えば、ＰＣＭデコード）すると、オーディオデータ（例えば、ＰＣＭデータ）を取得することができる。本ステップは、前記対象オーディオ・ファイルをデコードして、前記対象オーディオ・ファイルのオーディオデータを取得することができる。前記オーディオデータは少なくとも１つのオーディオフレームを含むことができ、即ち、前記オーディオデータは、前記少なくとも１つのオーディオフレームで順に構成された１つのフレームシーケンスとして示すことができる。

【0212】

本発明の実施例において、前記オーディオデータがＮ（Ｎは正の整数）個のオーディオフレームを含み、即ちＮは前記オーディオデータのサンプリング数であるとすると、前記オーディオデータはｘ（ｎ）（ｎは正の整数かつｎ＝０、１、２、Ｎ−１）で示すことができる。

【0213】

Ｓ１４０２では、前記少なくとも１つのオーディオフレームの関連性に基づいて、少なくとも１つのピーク値特性要素を含むピーク値特性シーケンスを構築する。

【0214】

前記ピーク値特性シーケンスは、前記少なくとも１つのオーディオフレームの類似性を反映することができる。本ステップにおいて、まず、相関計算式を用いて前記少なくとも１つのオーディオフレームの関連性を計算することができ、ここで、計算によって前記少なくとも１つのオーディオフレームの相関関数シーケンスを取得することができ、ｒ（）で相関関数を示すと、相関計算によってｒ（ｎ）、ｒ（ｎ＋１）、ｒ（ｎ＋２）…ｒ（Ｎ−２）、ｒ（Ｎ−１）を取得することができる。次に、前記少なくとも１つのオーディオフレームの相関関数シーケンスに対して、最大値、ピーク値などの分析を行うことにより、ピーク値特性シーケンスを構築する。

【0215】

本発明の実施例において、ｖ（ｎ）で前記ピーク値特性シーケンスを示すと、構築されたピーク値特性シーケンスｖ（ｎ）は、それぞれｖ（０）、ｖ（１）…ｖ（Ｎ−１）である合計Ｎ個のピーク値特性要素を含む。ｖ（０）の数値は、オーディオフレームｘ（０）とその後のオーディオフレームとの間の関連性を記述し、ｖ（１）の数値は、ｘ（１）とその後のオーディオフレームとの間の関連性を記述することができ、以下同様である。

【0216】

Ｓ１４０３では、前記ピーク値特性シーケンスを規則化処理する。

【0217】

本ステップにおいて、所定の間隔係数に対応するスキャン区間で、前記ピーク値特性シーケンスｖ（ｎ）を規則化処理することができる。規則化処理は、前記ピーク値特性シーケンスｖ（ｎ）を、前記所定の間隔係数に対応するスキャン区間内で最大のピーク値が１つのみ存在するようにし、後に続く段落分けの正確性を保証することを目的とする。

【0218】

Ｓ１４０４では、規則化後の前記ピーク値特性シーケンスにおける少なくとも１つのピーク値特性要素の数値に基づいて、段落変更時間を決定する。

【0219】

前記規則化後の前記ピーク値特性シーケンスｖ（ｎ）における各ピーク値特性要素の数値は、オーディオフレームの間の関連性を記述することができ、従って、本ステップは、規則化後の前記ピーク値特性シーケンスにおける少なくとも１つのピーク値要素の数値に基づいて、オーディオ段落に変化が発生する時間を決定することができる。

【0220】

Ｓ１４０５では、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行う。取得されたオーディオ・ファイルの段落変更時間に従って、前記対象オーディオ・ファイルに対して段落分けを行うことができる。

【0221】

本発明の実施例において、対象オーディオ・ファイルのオーディオデータに含まれる少なくとも１つのオーディオフレームの関連性に基づいて、ピーク値特性シーケンスを構築し、前記ピーク値特性シーケンスに対して規則化処理を行い、規則化後の前記ピーク値特性シーケンスにおける少なくとも１つのピーク値特性要素の数値に基づいて、段落変更時間を決定し、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行うことができ、該オーディオ処理プロセスは、オーディオ段落の間のオーディオフレームの関連性の特徴を利用して、対象オーディオ・ファイルに対する段落分けを実現し、段落分け処理の効率を向上させ、オーディオ処理のインテリジェント性を向上させることができる。

【0222】

図１５は、本発明の実施例に係る別のオーディオ処理方法のフローチャートである。該方法は、以下のステップＳ１５０１〜ステップＳ１５１０を含んでよい。

【0223】

Ｓ１５０１では、ステレオチャンネルタイプ又はモノラルチャンネルタイプを含む前記対象オーディオ・ファイルのタイプを取得する。

【0224】

通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイルと各オーディオ・ファイルの属性が記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子及びオーディオ・ファイルのタイプなどを含むが、これらに限られない。本ステップにおいて、インターネットオーディオ・ライブラリから対象オーディオ・ファイルのタイプを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルのタイプを検出すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位して、前記対象オーディオ・ファイルのタイプを取得することを含むが、これらに限られない。

【0225】

Ｓ１５０２では、前記対象オーディオ・ファイルのタイプがモノラルチャンネルタイプであれば、前記対象オーディオ・ファイルが前記モノラルチャンネルから出力したコンテンツをデコードして、オーディオデータを取得し、或いは、前記対象オーディオ・ファイルのタイプがステレオチャンネルタイプであれば、前記ステレオチャンネルから１つのチャンネルを選択して、前記対象オーディオ・ファイルが選択されたチャンネルから出力したコンテンツをデコードして、オーディオデータを取得するか、又は、前記ステレオチャンネルをハイブリッドチャンネルに処理して、前記対象オーディオ・ファイルが前記ハイブリッドチャンネルから出力したコンテンツをデコードして、オーディオデータを取得する。

【0226】

ここで、前記対象オーディオ・ファイルのタイプがモノラルチャンネルタイプであれば、前記対象オーディオ・ファイルは、１つのチャンネルを介してオーディオコンテンツを出力し、本ステップは、該モノラルチャンネルが出力したオーディオコンテンツをデコードして、オーディオデータを取得する。前記対象オーディオ・ファイルのタイプがステレオチャンネルタイプであれば、前記対象オーディオ・ファイルは、２つのチャンネルを介してオーディオコンテンツを出力し、本ステップは、１つのチャンネルが出力したオーディオコンテンツを選択してデコードしてオーディオデータを取得することができ、また、本ステップは、まずＤｏｗｎｍｉｘなどの処理方式で２つのチャンネルをハイブリッドチャンネルに処理し、次にハイブリッドチャンネルが出力したオーディオコンテンツをデコードしてオーディオデータを取得することもできる。

【0227】

本発明の実施例において、前記オーディオデータがＮ（Ｎは正の整数）個のオーディオフレームを含み、即ちＮは前記オーディオデータのサンプリング数であると仮定すると、前記オーディオデータはｘ（ｎ）（ｎは正の整数かつｎ＝０、１、２、Ｎ−１）で示すことができる。

【0228】

本実施例のステップＳ１５０１〜ステップＳ１５０２は、図１４に示された実施例のステップＳ１４０１の具体的に詳細化したステップであってよい。

【0229】

Ｓ１５０３では、前記少なくとも１つのオーディオフレームにおける各オーディオフレームに対して相関計算を行って、前記少なくとも１つのオーディオフレームに対応する相関関数シーケンスを取得する。

【0230】

以下で示す相関計算式を用いて前記少なくとも１つのオーディオフレームの関連性を計算することができる。

【数1】

【0231】

上記式（１）において、ｉは整数かつ０≦ｉ≦Ｎ−１であり、ｍは整数かつ０≦ｉ≦Ｌであり、Ｌは前記オーディオデータの長さであり、前記オーディオデータのサンプリング時間がＴで、サンプリングレートがｆとすると、Ｌ＝ｆ＊Ｔとなり、Ｍはサンプリング値の最大値であり、例えば、サンプリング値が１６ｂｉｔであれば、Ｍ＝３２７６７となり、サンプリング値が８ｂｉｔであれば、Ｍ＝２５５となる。

【0232】

上記式（１）に従って、前記少なくとも１つのオーディオフレームの相関関数シーケンスをｒ（ｎ）、ｒ（ｎ＋１）、ｒ（ｎ＋２）…ｒ（Ｎ−２）、ｒ（Ｎ−１）として計算して取得することができる。

【0233】

Ｓ１５０４では、前記少なくとも１つのオーディオフレームに対応する相関関数シーケンスに対して最大値計算を行って、基準シーケンスを生成する。

【0234】

前記基準シーケンスはＤ（ｎ）で示すことができ、本ステップは、以下で示す最大値計算式を用いて前記基準シーケンスを求めることができる。

【数2】

【0235】

上記式（２）において、ｍａｘ（）は最大値求め関数である。

【0236】

上記式（２）で取得された基準シーケンスＤ（ｎ）は、それぞれｄ（０）、ｄ（１）…ｄ（Ｎ−１）である合計Ｎ個の要素を含む。

【0237】

Ｓ１５０５では、前記基準シーケンスに対してピーク値求め計算を行って、前記ピーク値特性シーケンスを取得する。

【0238】

ｖ（ｎ）で前記ピーク値特性シーケンスを示すと、構築されたピーク値特性シーケンスｖ（ｎ）は、それぞれｖ（０）、ｖ（１）…ｖ（Ｎ−１）である合計Ｎ個のピーク値特性要素を含む。ｖ（０）の数値は、オーディオフレームｘ（０）とその後のオーディオフレームとの間の関連性を記述し、ｖ（１）の数値は、ｘ（１）とその後のオーディオフレームとの間の関連性を記述することができ、以下同様である。本ステップにおいて、前記基準シーケンスＤ（ｎ）に対してピーク値求め計算を行い、計算原則として、要素ｄ（ｉ）（ここで、ｉは整数かつ０≦ｉ≦Ｎ−１）の数値がｄ（ｉ）と隣接した要素の数値以上であれば、ｖ（ｉ）＝ｄ（ｉ）とし、要素ｄ（ｉ）の数値がｄ（ｉ）と隣接した要素の数値より小さければ、ｖ（ｉ）＝０とする。このような計算原則に従って、前記ピーク値特性シーケンスｖ（ｎ）の各ピーク値特性要素の数値を取得することができる。

【0239】

本実施例のステップＳ１５０３〜ステップＳ１５０５は、図１４に示された実施例のステップＳ１４０２の具体的に詳細化したステップであってよい。

【0240】

Ｓ１５０６では、所定の間隔係数に対応するスキャン区間を取得する。

【0241】

前記所定の間隔係数は実際の需要に応じて設定でき、前記所定の間隔係数がＱとすると、前記所定の間隔係数に対応するスキャン区間は、［ｉ−Ｑ／２，ｉ＋Ｑ／２］（ここで、ｉは整数かつ０≦ｉ≦Ｎ−１）であってよい。

【0242】

Ｓ１５０７では、前記所定の間隔係数に対応するスキャン区間を用いて、前記ピーク値特性シーケンスを規則化し、前記所定の間隔係数に対応するスキャン区間内における最大のピーク値に対応するピーク値特性要素の数値を対象値に設定し、前記所定の間隔係数に対応するスキャン区間内における、前記最大のピーク値に対応するピーク値特性要素以外のその他のピーク値特性要素の数値を初期値に設定する。

【0243】

前記対象値と前記特性値は、実際の需要に応じて設定でき、本発明の実施例は前記対象値を１に、前記参考値を０に設定することができる。

【0244】

ステップＳ１５０６〜ステップＳ１５０７の前記ピーク値特性シーケンスｖ（ｎ）に対する規則化処理は、前記ピーク値特性シーケンスｖ（ｎ）を、前記所定の間隔係数に対応するスキャン区間内で最大のピーク値が１つのみ存在するようにし、後に続く段落分けの正確性を保証することを目的とする。本実施例のステップＳ１５０６〜ステップＳ１５０７は、図１４に示された実施例のステップＳ１４０３の具体的に詳細化したステップであってよい。

【0245】

Ｓ１５０８では、規則化後の前記ピーク値特性シーケンスから、数値が対象値であるピーク値特性要素に対応する対象インデックスを取得する。本ステップは、数値が１であるピーク値特性要素に対応する対象インデックスを取得する必要があり、例えば、ｖ（ｉ）＝１とすると、本ステップが取得できる対象インデックスはｉとなる。

【0246】

Ｓ１５０９では、前記対象インデックスと前記対象オーディオ・ファイルのサンプリングレートに基づいて、段落変更時間を計算する。

【0247】

本ステップは、前記対象インデックスを前記対象オーディオ・ファイルのサンプリングレートで除算することで段落変更時間を取得することができ、本実施例に示された例に従って、取得された対象インデックスはｉで、サンプリングレートはｆであるので、ある段落変更時間はｉ／ｆとなり、例えば、対象インデックスｉ＝４４１０００、サンプリングレートｆ＝４４１００であれば、ｉ／ｆ＝１００となり、即ち、前記対象オーディオ・ファイルにおいて、１００ｓの所でオーディオ段落の変化が発生する。

【0248】

Ｓ１５１０では、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行う。取得されたオーディオ・ファイルの段落変更時間に従って、前記対象オーディオ・ファイルに対して段落分けを行うことができる。

【0249】

【0250】

以下、図１６〜図２０を参照しながら、本発明の実施例に係るオーディオ処理装置の構造と機能を詳細に記述する。なお、下記図１６〜図２０に示された装置は、上記図１４〜図１５に示された方法の実行に応用するために、端末で動作することができる。

【0251】

図１６は、本発明の実施例に係るオーディオ処理装置の概略構成図である。該装置は、取得手段１６０１、構築手段１６０２、規則化処理手段１６０３、決定手段１６０４及び段落分け手段１６０５を含んでよい。

【0252】

取得手段１６０１は、対象オーディオ・ファイルの、少なくとも１つのオーディオフレームを含むオーディオデータを取得する。

【0253】

オーディオ・ファイルはオーディオデータを含み、オーディオ・ファイルをデコード（例えば、ＰＣＭデコード）すると、オーディオデータ（例えば、ＰＣＭデータ）を取得することができる。前記取得手段１６０１は、対象オーディオ・ファイルをデコードして、前記対象オーディオ・ファイルのオーディオデータ取得することができる。前記オーディオデータは少なくとも１つのオーディオフレームを含むことができ、即ち前記オーディオデータは、前記少なくとも１つのオーディオフレームで順に構成された１つのフレームシーケンスとして示すことができる。

【0254】

【0255】

構築手段１６０２は、前記少なくとも１つのオーディオフレームの関連性に基づいて、少なくとも１つのピーク値特性要素を含むピーク値特性シーケンスを構築する。

【0256】

前記ピーク値特性シーケンスは、前記少なくとも１つのオーディオフレームの類似性を反映することができる。まず、前記構築手段１６０２は、相関計算式を用いて前記少なくとも１つのオーディオフレームの関連性を計算することができ、ここで、計算に従って前記少なくとも１つのオーディオフレームの相関関数シーケンスを取得することができ、ｒ（）で相関関数を示すと、相関計算に従ってｒ（ｎ）、ｒ（ｎ＋１）、ｒ（ｎ＋２）…ｒ（Ｎ−２）、ｒ（Ｎ−１）を取得することができる。次に、前記構築手段１６０２は、前記少なくとも１つのオーディオフレームの相関関数シーケンスに対して、最大値、ピーク値などの分析を行うことにより、ピーク値特性シーケンスを構築することができる。

【0257】

【0258】

規則化処理手段１６０３は、前記ピーク値特性シーケンスを規則化処理する。

【0259】

前記規則化処理手段１６０３は、所定の間隔係数に対応するスキャン区間で、前記ピーク値特性シーケンスｖ（ｎ）を規則化処理することができる。規則化処理は、前記ピーク値特性シーケンスｖ（ｎ）を、前記所定の間隔係数に対応するスキャン区間内で最大のピーク値が１つのみ存在するようにし、後に続く段落分けの正確性を保証することを目的とする。

【0260】

決定手段１６０４は、規則化後の前記ピーク値特性シーケンスにおける少なくとも１つのピーク値特性要素の数値に基づいて、段落変更時間を決定する。

【0261】

前記規則化後の前記ピーク値特性シーケンスｖ（ｎ）における各ピーク値特性要素の数値は、オーディオフレームの間の関連性を記述することができ、従って、前記決定手段１６０４は、規則化後の前記ピーク値特性シーケンスにおける少なくとも１つのピーク値要素の数値に基づいて、オーディオ段落に変化が発生する時間を決定することができる。

【0262】

段落分け手段１６０５は、前記段落変更時間に従って前記対象オーディオ・ファイルに対して段落分けを行う。

【0263】

取得されたオーディオ・ファイルの段落変更時間に従って、前記段落分け手段１６０５は、前記対象オーディオ・ファイルに対して段落分けを行うことができる。

【0264】

【0265】

図１７は、図１６に示された取得手段の実施例の概略構成図である。該取得手段１６０１は、タイプ取得手段１７０１とデコード手段１７０２を含んでよい。

【0266】

タイプ取得手段１７０１は、ステレオチャンネルタイプ又はモノラルチャンネルタイプを含む前記対象オーディオ・ファイルのタイプを取得する。

【0267】

通常、インターネットオーディオ・ライブラリには、複数のオーディオ・ファイルと各オーディオ・ファイルの属性が記憶され、オーディオ・ファイルの属性は、オーディオ・ファイルのオーディオ特性、オーディオ・ファイルの識別子及びオーディオ・ファイルのタイプなどを含むが、これらに限られない。前記タイプ取得手段１７０１は、インターネットオーディオ・ライブラリから対象オーディオ・ファイルのタイプを取得することができ、具体的な取得方式は、対象オーディオ・ファイルの識別子に基づいて、インターネットオーディオ・ライブラリから該対象オーディオ・ファイルのタイプを検出すること、又は、対象オーディオ・ファイルのオーディオ特性を抽出して、インターネットオーディオ・ライブラリにおけるオーディオ・ファイルのオーディオ特性とマッチングすることにより、インターネットオーディオ・ライブラリにおいて対象オーディオ・ファイルを定位して、前記対象オーディオ・ファイルのタイプを取得することを含むが、これらに限られない。

【0268】

デコード手段１７０２は、前記対象オーディオ・ファイルのタイプがモノラルチャンネルタイプであれば、前記対象オーディオ・ファイルが前記モノラルチャンネルから出力したコンテンツをデコードして、オーディオデータを取得し、或いは、前記対象オーディオ・ファイルのタイプがステレオチャンネルタイプであれば、前記ステレオチャンネルから１つのチャンネルを選択して、前記対象オーディオ・ファイルが選択されたチャンネルから出力したコンテンツをデコードして、オーディオデータを取得するか、又は、前記ステレオチャンネルをハイブリッドチャンネルに処理して、前記対象オーディオ・ファイルが前記ハイブリッドチャンネルから出力したコンテンツをデコードして、オーディオデータを取得する。

【0269】

ここで、前記対象オーディオ・ファイルのタイプがモノラルチャンネルタイプであれば、前記対象オーディオ・ファイルは、１つのチャンネルを介してオーディオコンテンツを出力し、前記デコード手段１７０２は、該モノラルチャンネルが出力したオーディオコンテンツをデコードして、オーディオデータを取得する必要がある。前記対象オーディオ・ファイルのタイプがステレオチャンネルタイプであれば、前記対象オーディオ・ファイルは、２つのチャンネルを介してオーディオコンテンツを出力し、前記デコード手段１７０２は、１つのチャンネルが出力したオーディオコンテンツを選択してデコードしてオーディオデータを取得することができ、また、前記デコード手段１７０２は、まずＤｏｗｎｍｉｘなどの処理方式で２つのチャンネルをハイブリッドチャンネルに処理し、次にハイブリッドチャンネルが出力したオーディオコンテンツをデコードしてオーディオデータを取得することもできる。

【0270】

【0271】

【0272】

図１８は、図１６に示された構築手段の実施例の概略構成図である。該構築手段１６０２は、相関計算手段１８０１、生成手段１８０２及びシーケンス求め手段１８０３を含んでよい。

【0273】

相関計算手段１８０１は、前記少なくとも１つのオーディオフレームにおける各オーディオフレームに対して相関計算を行って、前記少なくとも１つのオーディオフレームに対応する相関関数シーケンスを取得する。

【0274】

前記相関計算手段１８０１は、図２に示された実施例における式（１）で示す相関計算式を用いて、前記少なくとも１つのオーディオフレームの関連性を計算することができる。上記式（１）に従って、前記少なくとも１つのオーディオフレームの相関関数シーケンスをｒ（ｎ）、ｒ（ｎ＋１）、ｒ（ｎ＋２）…ｒ（Ｎ−２）、ｒ（Ｎ−１）として計算して取得することができる。

【0275】

生成手段１８０２は、前記少なくとも１つのオーディオフレームに対応する相関関数シーケンスに対して最大値計算を行って、基準シーケンスを生成する。

【0276】

前記基準シーケンスはＤ（ｎ）で示すことができ、前記生成手段１８０２は、図２に示された実施例における式（２）で示す最大値計算式を用いて、前記基準シーケンスを求めることができる。上記式（２）に従って取得された基準シーケンスＤ（ｎ）は、それぞれｄ（０）、ｄ（１）…ｄ（Ｎ−１）である合計Ｎ個の要素を含む。

【0277】

シーケンス求め手段１８０３は、前記基準シーケンスに対してピーク値求め計算を行って、前記ピーク値特性シーケンスを取得する。

【0278】

ｖ（ｎ）で前記ピーク値特性シーケンスを示すと、構築されたピーク値特性シーケンスｖ（ｎ）は、それぞれｖ（０）、ｖ（１）…ｖ（Ｎ−１）である合計Ｎ個のピーク値特性要素を含む。ｖ（０）の数値は、オーディオフレームｘ（０）とその後のオーディオフレームとの間の関連性を記述し、ｖ（１）の数値は、ｘ（１）とその後のオーディオフレームとの間の関連性を記述することができ、以下同様である。前記シーケンス求め手段１８０３は、前記基準シーケンスＤ（ｎ）に対してピーク値求め計算を行い、計算原則として、要素ｄ（ｉ）（ここで、ｉは整数かつ０≦ｉ≦Ｎ−１）の数値がｄ（ｉ）と前後隣接した要素の数値以上であれば、ｖ（ｉ）＝ｄ（ｉ）とし、要素ｄ（ｉ）の数値がｄ（ｉ）と前後隣接した要素の数値より小さければ、ｖ（ｉ）＝０とする。このような計算原則に従って、前記ピーク値特性シーケンスｖ（ｎ）の各ピーク値特性要素の数値を取得することができる。

【0279】

【0280】

図１９は、図１６に示された規則化処理手段の実施例の概略構成図である。該規則化処理手段１６０３は、区間取得手段１９０１と規則化手段１９０２を含んでよい。

【0281】

区間取得手段１９０１は、所定の間隔係数に対応するスキャン区間を取得する。

【0282】

【0283】

規則化手段１９０２は、前記所定の間隔係数に対応するスキャン区間を用いて、前記ピーク値特性シーケンスを規則化し、前記所定の間隔係数に対応するスキャン区間内における最大のピーク値に対応するピーク値特性要素の数値を対象値に設定し、前記所定の間隔係数に対応するスキャン区間内における、前記最大のピーク値に対応するピーク値特性要素以外のその他のピーク値特性要素の数値を初期値に設定する。前記対象値と前記特性値は、実際の需要に応じて設定でき、本発明の実施例は前記対象値を１に、前記参考値を０に設定することができる。

【0284】

前記ピーク値特性シーケンスｖ（ｎ）に対する規則化処理は、前記ピーク値特性シーケンスｖ（ｎ）を、前記所定の間隔係数に対応するスキャン区間内で最大のピーク値が１つのみ存在するようにし、後に続く段落分けの正確性を保証することを目的とする。

【0285】

【0286】

図２０は、図１６に示された決定手段の実施例の概略構成図である。該決定手段１６０４は、対象インデックス取得手段２００１と時間計算手段２００２を含んでよい。

【0287】

対象インデックス取得手段２００１は、規則化後の前記ピーク値特性シーケンスから、数値が対象値であるピーク値特性要素に対応する対象インデックスを取得する。

【0288】

図１９に示された例に従って、前記対象インデックス取得手段２００１は、数値が１であるピーク値特性要素に対応する対象インデックスを取得する必要があり、例えば、ｖ（ｉ）＝１とすると、前記対象インデックス取得手段２００１が取得できる対象インデックスはｉとなる。

【0289】

時間計算手段２００２は、前記対象インデックス及び前記対象オーディオ・ファイルのサンプリングレートに基づいて、段落変更時間を計算する。

【0290】

前記時間計算手段２００２は、前記対象インデックスを前記対象オーディオ・ファイルのサンプリングレートで除算することで段落変更時間を取得することができ、本実施例に示された例に従って、取得された対象インデックスはｉで、サンプリングレートはｆであるので、ある段落変更時間はｉ／ｆとなり、例えば、対象インデックスｉ＝４４１０００、サンプリングレートｆ＝４４１００であれば、ｉ／ｆ＝１００となり、即ち、前記対象オーディオ・ファイルにおいて、１００ｓの所でオーディオ段落の変化が発生する。

【0291】

【0292】

本発明の実施例はさらに端末を開示し、該端末はＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パソコン）、ノートパソコン、携帯電話、ＰＡＤ（タブレット型コンピュータ）、車載端末、インテリジェント着用可能設備などの設備であってよい。該端末にオーディオ処理装置を含んでよく、該装置の構造及び機能は上記図１６〜図２０を参照することができ、ここで説明を省略する。

【0293】

【0294】

以上の記載は、本発明の好ましい実施例に過ぎず、本発明を限定するものではなく、本発明の構想及び原則内に行われたいずれの補正、同等置換及び改善などは、すべて本発明の保護範囲内に含まれるべきである。

【符号の説明】

【0295】

３０１取得手段
３０２構築手段
３０３最適化手段
３０４決定手段
３０５段落分け手段
４０１数量決定手段
４０２インデックス決定手段
４０３数値設定手段

【図1】