(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-26
(54)【発明の名称】長文形式のテキスト文書のための自動テキスト音声化の発音編集
(51)【国際特許分類】
G06F 40/169 20200101AFI20241219BHJP
【FI】
G06F40/169
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024537110
(86)(22)【出願日】2021-12-20
(85)【翻訳文提出日】2024-07-29
(86)【国際出願番号】 US2021073030
(87)【国際公開番号】W WO2023121681
(87)【国際公開日】2023-06-29
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】ディングラー,ライアン
(72)【発明者】
【氏名】リブリン,ジョン
(72)【発明者】
【氏名】サルバラーニ,クリストファー
(72)【発明者】
【氏名】ジャン,ユエンレイ
(72)【発明者】
【氏名】クハール,ナザリー
(72)【発明者】
【氏名】スケリー-ライアン,ラッセル・ジョン・ワイアット
(72)【発明者】
【氏名】スタントン,デイジー
(72)【発明者】
【氏名】チャン,ジュディ
(72)【発明者】
【氏名】ホサイン,ムド・エンザム
【テーマコード(参考)】
5B109
【Fターム(参考)】
5B109MJ04
(57)【要約】
本開示の態様は、長文形式のテキスト文書に対する効率的な自動テキスト音声化の発音編集を可能にする技術を対象とする。メモリ及びプロセッサを含むコンピューティングデバイスは、この技術を実行するように構成され得る。メモリは、テキスト文書を記憶することができる。プロセッサは、テキスト文書内のワードを処理して、テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の候補ワードを特定することができる。プロセッサは次に、第1の候補ワードをフィルタリングして、第1の候補ワードの1つ以上の候補ワードを除外し、第1の候補ワードよりも少ない候補ワードを有する第2の候補ワードを取得することができる。プロセッサは次に、テキスト文書に注釈を付けて、第2の候補ワードを特定する注釈付きテキスト文書を取得し、第2の候補ワードの少なくとも1つの候補ワードを特定する注釈付きテキスト文書の少なくとも一部分を出力することができる。
【特許請求の範囲】
【請求項1】
テキスト文書内のワードを処理して、前記テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、
前記第1の複数の候補ワードをフィルタリングして、前記第1の複数の候補ワードの1つ以上の候補ワードを除外し、前記第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、
前記テキスト文書に注釈を付けて、前記第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、
前記第2の複数の候補ワードの少なくとも1つの候補ワードを特定する前記注釈付きテキスト文書の少なくとも一部分を出力することとを含む、方法。
【請求項2】
前記第1の複数の候補ワードをフィルタリングすることは、
ストップワードである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記ストップワードである、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外して、前記第2の複数の候補ワードを取得することとを含む、請求項1に記載の方法。
【請求項3】
前記第1の複数の候補ワードをフィルタリングすることは、
各候補ワードが前記第1の複数の候補ワードに出現する回数を示す前記第1の複数の候補ワードの候補ワードカウントを特定することと、
閾値を超える前記候補ワードカウントを有する前記第1の複数の候補ワードから前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項4】
前記第1の複数の候補ワードをフィルタリングすることは、
共通のホモグラフリストで指定されていないホモグラフである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通のホモグラフリストで指定されていないホモグラフとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項5】
前記第1の複数の候補ワードをフィルタリングすることは、
共通の名称付きエンティティリストで指定されている名称付きエンティティである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通の名称付きエンティティリストで指定されている名称付きエンティティとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項6】
前記第1の複数の候補ワードをフィルタリングすることは、
前記第1の複数の候補ワードに言語モデルを適用して、前記第1の複数の候補ワードの各候補ワードの難読性を判定することと、
前記第1の複数の候補ワードの各候補ワードの前記難読性に基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項7】
前記第1の複数の候補ワードをフィルタリングすることは、
前記第1の複数の候補ワードに学習モデルを適用して、ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する信頼度スコアを決定することと、
ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する前記信頼度スコアに基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項8】
前記注釈付きテキスト文書の少なくとも前記一部分を出力することは、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示することを含み、前記方法は、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、
前記入力を受信することに応答して、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を表す発音オーディオデータを取得することと、
スピーカを介した再生のために前記発音オーディオデータを出力することとをさらに含む、請求項1に記載の方法。
【請求項9】
前記注釈付きテキスト文書の少なくとも前記一部分を出力することは、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示することを含み、前記方法は、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を受信することと、
前記口頭発音に基づいて、複数の潜在的な発音から潜在的な発音を特定することと、
前記潜在的な発音を前記第2の複数の候補ワードの前記少なくとも1つの候補ワードに関連付けることとをさらに含む、請求項1に記載の方法。
【請求項10】
テキスト文書を記憶するように構成されたメモリと、
1つ以上のプロセッサと、を含むコンピューティングデバイスであって、前記1つ以上のプロセッサは、
前記テキスト文書内のワードを処理して、前記テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、
前記第1の複数の候補ワードをフィルタリングして、前記第1の複数の候補ワードの1つ以上の候補ワードを除外し、前記第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、
前記テキスト文書に注釈を付けて、前記第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、
前記第2の複数の候補ワードの少なくとも1つの候補ワードを特定する前記注釈付きテキスト文書の少なくとも一部分を出力することとを行うように構成された、前記コンピューティングデバイス。
【請求項11】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
ストップワードである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記ストップワードである前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外して、前記第2の複数の候補ワードを取得することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項12】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
各候補ワードが前記第1の複数の候補ワードに出現する回数を示す前記第1の複数の候補ワードの候補ワードカウントを特定することと、
閾値を超える前記候補ワードカウントを有する前記第1の複数の候補ワードから前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項13】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
共通のホモグラフリストで指定されていないホモグラフである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通のホモグラフリストで指定されていないホモグラフとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項14】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
共通の名称付きエンティティリストで指定されている名称付きエンティティである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通の名称付きエンティティリストで指定されている名称付きエンティティとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項15】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
前記第1の複数の候補ワードに言語モデルを適用して、前記第1の複数の候補ワードの各候補ワードの難読性を判定することと、
前記第1の複数の候補ワードの各候補ワードの前記難読性に基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項16】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
前記第1の複数の候補ワードに学習モデルを適用して、ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する信頼度スコアを決定することと、
ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する前記信頼度スコアに基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項17】
前記1つ以上のプロセッサが、前記注釈付きテキスト文書の少なくとも前記一部分を出力するように構成されたときに、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示するように構成されており、
前記1つ以上のプロセッサが、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、
前記入力を受信することに応答して、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を表す発音オーディオデータを取得することと、
スピーカを介した再生のために前記発音オーディオデータを出力することとを行うようにさらに構成された、請求項10に記載のコンピューティングデバイス。
【請求項18】
前記1つ以上のプロセッサが、前記注釈付きテキスト文書の少なくとも前記一部分を出力するように構成されたときに、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示するように構成されており、
前記1つ以上のプロセッサが、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を受信することと、
前記口頭発音に基づいて、複数の潜在的な発音から潜在的な発音を特定することと、
前記潜在的な発音を前記第2の複数の候補ワードの前記少なくとも1つの候補ワードに関連付けることとを行うようにさらに構成された、請求項10に記載のコンピューティングデバイス。
【請求項19】
記憶された命令を有する非一時的コンピュータ可読記憶媒体であって、前記命令は、実行時、1つ以上のプロセッサに、
テキスト文書内のワードを処理して、前記テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、
前記第1の複数の候補ワードをフィルタリングして、前記第1の複数の候補ワードの1つ以上の候補ワードを除外し、前記第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、
前記テキスト文書に注釈を付けて、前記第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、
前記第2の複数の候補ワードの少なくとも1つの候補ワードを特定する前記注釈付きテキスト文書の少なくとも一部分を出力することとを行わせる、前記非一時的コンピュータ可読記憶媒体。
【請求項20】
実行時、前記1つ以上のプロセッサに、前記複数の候補ワードをフィルタリングさせる前記命令が、実行時、前記1つ以上のプロセッサに、
共通のホモグラフリストで指定されていないホモグラフである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通のホモグラフリストで指定されていないホモグラフとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行わせる命令を含む、請求項19に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【背景技術】
【0001】
本、マニュアル、研究論文など、一般向けに出版されている長文形式のテキスト文書が数百万ある。例えば、自己解決、ビジネス、歴史、伝記、健康、及び宗教など、ある特定の長文形式のテキストジャンルの消費者は、長文形式のテキスト文書のナレーション付きバージョンを要望することがあり、長文形式のテキスト文書のナレーション付きバージョンは、オーディオブックと称され得る。しかしながら、オーディオブック(特に、上述の長文形式のテキストジャンル)の需要がある一方で、(売上単位に関して)長文形式のテキスト文書がうまくいっていない限り、オーディオブックの生成は、法外に高価になることがある。例えば、所与のオーディオブックを生成するには、費用が高額な声優(または言い換えると、ナレータ)の採用が必要になることがあり、ナレータが、スタジオ環境(時間単位のレートは一般に高価であり、時間あたり100ドルを超える場合もある)で長文形式のテキスト文書を正しく朗読するためには何時間も必要になることがある。
【0002】
そのため、多くの著者は、ナレーションモデルを利用して長文形式のテキスト文書のテキストを朗読する自動テキスト音声化アルゴリズムに頼ることを選択する。自動テキスト音声化アルゴリズムは、オーディオブックエクスペリエンスの反復を利用する人間のナレーションに代わる迅速な代替物を提供し得(場合によっては、ほぼリアルタイムであり、そのような自動テキスト音声化アルゴリズムは、読者のデバイスに常駐してこのオーディオブックエクスペリエンスを提供することを意味する)、自動テキスト音声化アルゴリズムは、人間のナレータによっては正しくナレーションされるであろう単語を誤って発音することがある。これらの誤った発音を克服するために、著者(または他の編集者)は、基礎となる長文形式のテキスト文書を編集して、その後に読者がテキストバージョンの長文形式のテキスト文書を読もうとするときに著者の意図を低下させることになる自動テキスト音声化アルゴリズムによる誤った発音を低減することができる。
【発明の概要】
【0003】
本開示の態様は、長文形式のテキスト文書に対する効率的な自動テキスト音声化の発音編集を可能にする技術を対象とする。発音編集は、テキストエディタ(ワードプロセッサとも呼ばれる)で提供されるスペルチェックに類似(そのため発音チェックとも称され得る)していることがある。コンピューティングデバイスは、長文形式のテキスト文書を受信することができ、発音編集を実行して、自動テキスト音声化処理中に誤って発音される可能性がある候補ワードを特定することができる。しかしながら、検討のためにすべての候補ワードを編集者に提供するのではなく、コンピューティングデバイスは、候補ワードの数をより管理しやすい数(例えば、候補ワードの閾値数)に低減するために、様々な方法で候補ワードをフィルタリングすることができる。
【0004】
候補ワードのフィルタリングにより、重要でない発音ミスに費やす時間を低減することができ、発音が難しいワード(例えば、固有名詞、語形変化などの点で曖昧なワードなど)、意図的にスペルミスされたワード、スペルは同じだが発音が異なるワード(ホモグラフと称される)、等に注意を集中することができる。このように、編集者は、オーディオエクスペリエンスを著しく損なう可能性のある候補ワードに集中することができる。場合によっては、編集者はコンピューティングデバイスとインタラクトして口頭発音を入力することができ、コンピューティングデバイスは、次いで、それを使用して自動テキスト音声化発音を修正する(例えば、入力された口頭発音に最も適合する発音を選択する)。
【0005】
このように、本技術の様々な態様は、コンピューティングリソース(例えば、プロセッササイクル、メモリ使用量、メモリバス帯域幅使用量、及びそれに伴う電力消費)の点で、コンピューティングデバイスのより効率的な実行を促進することができ、一方で、自動テキスト音声化アルゴリズムによって潜在的な発音ミスを編集するためのユーザエクスペリエンスも向上する。本技術は、候補ワードをフィルタリングして、編集者が、発音が難しいワードに集中できるようにすることで、コンピューティングリソースの使用を低減することができ、その結果、編集プロセス中の処理が少なくなることにより、コンピューティングリソースの使用を低減する。さらに、これらの技術は、発音が難しいワードに注意を集中させることによって、より良い編集エクスペリエンスを提供することができ、一方で、自動テキスト音声化アルゴリズムによって、候補ワードの発音を改善する(このため、発音のレビューと調整を促進しない自動テキスト音声化アルゴリズムと比較して、より高品質のオーディオブックエクスペリエンスを生成する)。
【0006】
一例では、本技術の様々な態様は、テキスト文書内のワードを処理して、テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、第1の複数の候補ワードをフィルタリングして、第1の複数の候補ワードの1つ以上の候補ワードを除外し、第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、テキスト文書に注釈を付けて、第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、第2の複数の候補ワードの少なくとも1つの候補ワードを特定する注釈付きテキスト文書の少なくとも一部分を出力することと、を含む方法を対象とする。
【0007】
別の例では、本技術の様々な態様は、テキスト文書を記憶するように構成されたメモリと、1つ以上のプロセッサと、を含むコンピューティングデバイスであって、1つ以上のプロセッサは、テキスト文書内のワードを処理して、テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、第1の複数の候補ワードをフィルタリングして、第1の複数の候補ワードの1つ以上の候補ワードを除外し、第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、テキスト文書に注釈を付けて、第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、第2の複数の候補ワードの少なくとも1つの候補ワードを特定する注釈付きテキスト文書の少なくとも一部分を出力することと、を行うように構成された、コンピューティングデバイスを対象とする。
【0008】
別の例では、本技術の様々な態様は、記憶された命令を有する非一時的コンピュータ可読記憶媒体であって、命令の実行時、1つ以上のプロセッサに、テキスト文書内のワードを処理して、テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、第1の複数の候補ワードをフィルタリングして、第1の複数の候補ワードの1つ以上の候補ワードを除外し、第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、テキスト文書に注釈を付けて、第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、第2の複数の候補ワードの少なくとも1つの候補ワードを特定する注釈付きテキスト文書の少なくとも一部分を出力することと、を行わせる、非一時的コンピュータ可読記憶媒体を対象とする。
【0009】
別の例では、本技術の様々な態様は、装置であって、テキスト文書内のワードを処理して、テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定するための手段と、第1の複数の候補ワードをフィルタリングして、第1の複数の候補ワードの1つ以上の候補ワードを除外し、第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得するための手段と、テキスト文書に注釈を付けて、第2の複数の候補ワードを特定する注釈付きテキスト文書を取得するための手段と、第2の複数の候補ワードの少なくとも1つの候補ワードを特定する注釈付きテキスト文書の少なくとも一部分を出力するための手段と、を含む、装置を対象とする。
【図面の簡単な説明】
【0010】
【
図1】本開示の1つ以上の態様による、自動テキスト音声化アルゴリズムの発音編集を実行するように構成された例示的なコンピューティングデバイスを示す図である。
【
図2A】本開示で説明される技術の様々な態様による、長文形式のテキスト文書の効率的な発音チェックを容易にするために人間の編集者がインタラクトすることができる例示的なユーザインターフェースを示す図である。
【
図2B】本開示で説明される技術の様々な態様による、長文形式のテキスト文書の効率的な発音チェックを容易にするために人間の編集者がインタラクトすることができる例示的なユーザインターフェースを示す図である。
【
図2C】本開示で説明される技術の様々な態様による、長文形式のテキスト文書の効率的な発音チェックを容易にするために人間の編集者がインタラクトすることができる例示的なユーザインターフェースを示す図である。
【
図3A】本開示で説明されている技術の様々な態様による、長文形式のテキスト文書の効率的な発音チェックを容易にするために人間の編集者がインタラクトすることができる例示的なユーザインターフェースを示す追加の図である。
【
図3B】本開示で説明されている技術の様々な態様による、長文形式のテキスト文書の効率的な発音チェックを容易にするために人間の編集者がインタラクトすることができる例示的なユーザインターフェースを示す追加の図である。
【
図3C】本開示で説明されている技術の様々な態様による、長文形式のテキスト文書の効率的な発音チェックを容易にするために人間の編集者がインタラクトすることができる例示的なユーザインターフェースを示す追加の図である。
【
図4】本開示の1つ以上の態様による、自動テキスト音声化アルゴリズムの発音編集を実行するように構成された例示的なコンピューティングデバイスの例示的動作を示すフローチャートである。
【発明を実施するための形態】
【0011】
図1は、本開示の1つ以上の態様による、自動テキスト音声化アルゴリズムの発音編集を実行するように構成された例示的なコンピューティングデバイスを示す図である。コンピューティングデバイス100は、長文形式のテキスト文書に関して自動テキスト音声化処理を実行することができる任意タイプのコンピューティングデバイスを表し得る。コンピューティングデバイス100の例は、デスクトップコンピュータ、ラップトップコンピュータ、セルラーハンドセット(所謂、スマートフォンを含む)、ワークステーション、サーバ、ゲームコンソール、パーソナルリーディングデバイス(専用のeブックリーダなど)、等を含み得る。
【0012】
単一のコンピューティングデバイス100に関して説明しているが、コンピューティングデバイス100によって実行されると本明細書で説明される機能は、1つ以上のコンピューティングデバイスによって実行されてもよい。つまり、コンピューティングデバイス100は、分散型コンピューティングシステム(例えば、所謂、クラウドコンピューティングシステム)を表し得、分散型コンピューティングシステムでは、一例として、サーバは、本明細書で説明される技術のいくつかの態様を実行して、ネットワーク(例えば、インターネットなどの公共ネットワーク)を介したアクセスをサーバがホストするユーザインターフェースを生成することができる。この例では、クライアントコンピューティングデバイスは、(例えば、ウェブブラウザを介して)ユーザインターフェースを受け入れ、サーバとインタラクトするために、ユーザインターフェースを介して入力することができる。このように、本技術の様々な態様は、単一のコンピューティングデバイス100に限定されるべきではなく、(例えば、サーバ及びクライアントデバイス、複数のサーバが本技術の異なる態様をホストできるように)様々なコンピューティングデバイスにわたって適用することができる。
【0013】
図1の例では、コンピューティングデバイス100は、ディスプレイ102、プロセッサ(複数可)104、ストレージシステム106、入力デバイス(複数可)108、出力デバイス(複数可)110、及び通信ユニット112を含む。コンピューティングデバイス100は、例示的なコンピューティングデバイス100に含まれるコンポーネントのサブセットを含んでもよく、または説明を容易にする目的で
図1には示されていない追加のコンポーネントを含んでもよい。
【0014】
いずれの場合も、ディスプレイ102は、データの視覚的提示のための出力として機能することができる任意タイプのディスプレイを表す。ディスプレイ102の例には、液晶ディスプレイ(LCD)、ドットマトリックスディスプレイ、発光ダイオード(LED)ディスプレイ、ミニLEDディスプレイ、マイクロLEDディスプレイ、有機LED(OLED)ディスプレイ、eインク、またはコンピューティングデバイス100のユーザに視覚的情報を出力することが可能な類似のモノクロもしくはカラーのディスプレイが含まれる。この点において、ディスプレイ102は、出力デバイス110の一例を表すことができる。
【0015】
いくつかの例では、ディスプレイ102は、出力と入力の両方として動作するように構成された存在感知ディスプレイ(一般にタッチスクリーンとも称されることもあるが、これは、一部の存在感知ディスプレイが、物理的接触を必要としない存在感知ディスプレイに近づく入力を感知できるという点で若干誤称になる)を表してもよい。存在感知ディスプレイは、出力として機能することに加えて、アイコンまたは他のグラフィカルユーザインターフェース要素の選択、テキストの入力、ジェスチャ(マルチタッチジェスチャを含む)、等のような入力を受信するインターフェースとしても動作してよい。
【0016】
ディスプレイ102はまた、コンピューティングデバイス100の内部コンポーネントとして示されるが、入力及び出力を送信及び/または受信するためにコンピューティングデバイス100とデータパスを共有する外部コンポーネントを表すこともできる。例えば、一例では、ディスプレイ102は、コンピューティングデバイス100の外部パッケージング内に配置され、コンピューティングデバイス100の外部パッケージングに物理的に接続されたコンピューティングデバイス100の組み込みコンポーネント(例えば、スマートフォンまたはオールインワンコンピューティングデバイス上の画面)を表す。別の例では、ディスプレイ102は、コンピューティングデバイス100のパッケージの外側に配置され、コンピューティングデバイス100のパッケージから物理的に分離されたコンピューティングデバイス200の外部コンポーネント(例えば、有線及び/または無線のデータパスをタブレットコンピュータと共有するモニタ、プロジェクタ、等)を表す。
【0017】
プロセッサ104は、実行時、プロセッサ104に関して説明された動作をプロセッサ104に実行させる命令を含むファームウェア、ミドルウェア、ソフトウェア、等を実行することができる任意タイプのプロセッサを表すことができる。プロセッサ104の例には、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、ディスプレイプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、マイクロプロセッサ、特定用途向けプロセッサ(人工知能アクセラレータASICなどのASIC)、等が含まれる。
【0018】
いくつかの例では、プロセッサ104は、単一の、所謂チップに統合される1つ以上のコアを含み得る(1つ以上の処理コアが共にパッケージ化され、通常、メモリ、メモリバス、レジスタ、及び/または他のリソースを共有することを意味する)。複数のコアは、算術、グラフィックス処理、センサ処理、(例えば、1つ以上のASICの形式での)人工知能処理、等に専用化されたコアを含み得る。SoCを表すと想定される一方で、プロセッサ104は、本明細書で説明されている技術の様々な態様の実装を容易にする命令を実行することができる任意タイプのプロセッサを表すことができる。
【0019】
ストレージシステム106は、コンピューティングデバイス100の動作中に処理するための情報を記憶することができ、コンピュータ可読媒体の一例を表すことができる。つまり、いくつかの例では、ストレージシステム106は、一時メモリを含み、これは、ストレージシステム106の主要な目的が長期記憶ではないことを意味する。コンピューティングデバイス100のストレージシステム106は、揮発性メモリとして情報を短期記憶するように構成されることができ、したがって、電源がオフになる場合に記憶されたコンテンツを保持しない。揮発性メモリの例には、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、及びその他の形態の揮発性メモリが含まれる。
【0020】
ストレージシステム106はまた、一部の例では、1つ以上のコンピュータ可読記憶媒体を含むことができ、これらは揮発性メモリよりも多くの量の情報を記憶するように構成され得る。そのようなコンピュータ可読記憶媒体は、本質的に非一時的であってよく、これは、そのようなデータがコンピュータ可読記憶媒体内で維持され、一時的ではない(例えば、ワイヤまたは他の導体を伝わる一時的信号ではない)ことを意味する。ストレージシステム106は、さらに、不揮発性メモリ空間として情報の長期記憶のために構成され得、電源のオン/オフサイクル後に情報を保持することができる。不揮発性メモリの例には、磁気ハードディスク、光ディスク、フロッピー(登録商標)ディスク、フラッシュメモリ、または電気的にプログラム可能なメモリ(EPROM)もしくは電気的に消去可能かつプログラム可能な(EEPROM)メモリの形態が含まれる。ストレージシステム106は、長文形式のテキスト文書(LFTD)119、合成文書(SYN DOCS)121、及びオーディオブック125などのモジュール118~224及び関連データに関連付けられたプログラム命令及び/または情報(例えば、データ)を記憶することができる。
【0021】
コンピューティングデバイス100の1つ以上の入力デバイス108は、入力を受信するように構成され得る。コンピューティングデバイス100の入力デバイス108は、一例では、存在感知ディスプレイ(例えば、ディスプレイ102)、マウス、キーボード、ビデオカメラ、マイクロフォン、物理的なボタン及び/またはスイッチ(または他のアクティベータ)、ポート(例えば、電源ポート、ヘッドフォンポート、等)、または人間もしくは機械からの入力を検出するためのいずれかの他のタイプのデバイスを含む。入力デバイス108は、(例えば、ボタン、スイッチ、またはいずれかの他の物理的インタラクションオブジェクトの)アクティブ化状態の形式での入力データ、オーディオ、画像、画像シーケンス(ビデオとも称され得る)、等を受信することができる。
【0022】
コンピューティングデバイス100の1つ以上の出力デバイス110は、出力を生成するように構成され得る。コンピューティングデバイス100の出力デバイス110は、一例では、存在感知ディスプレイ(例えば、ディスプレイ102)、(例えば、触覚フィードバックを生成するための)電子回転マスアクチュエータ、サウンドカード、ビデオグラフィックスカード、スピーカ、陰極線管(CRT)ディスプレイ、液晶ディスプレイ(LCD)ディスプレイ、発光ダイオード(LED)ディスプレイ、マイクロLEDディスプレイ、ミニLEDディスプレイ、有機LED(OLED)ディスプレイ、プラズマディスプレイ、または人間もしくは機械への出力を生成するためのいずれかの他のタイプのデバイスを含む。いくつかの例では、ディスプレイ102は、(例えば、ディスプレイ102が存在感知ディスプレイを表すときの)入力デバイス108、及び/または出力デバイス110の機能を含み得る。
【0023】
コンピューティングデバイス100の1つ以上の通信ユニット112は、1つ以上のネットワーク上でネットワーク信号を送信及び/または受信することにより、1つ以上の有線ネットワーク及び/または無線ネットワークを介して外部デバイスと通信するように構成され得る。通信ユニット112の例は、ネットワークインターフェースカード(例えば、イーサネット(登録商標)カードなど)、光トランシーバ、無線周波数トランシーバ、GPS受信機、または情報を送信及び/または受信することができる他のいずれかのタイプのデバイスを含む。通信ユニット112の他の例は、短波ラジオ、セルラーデータラジオ、ワイヤレスネットワークラジオ、ならびにユニバーサルシリアルバス(USB)コントローラを含み得る。
【0024】
通信チャネル114は、コンポーネント間通信のためにコンポーネント102~112の各々を(物理的に、通信可能に、及び/または動作可能に)相互接続することができる。いくつかの例では、通信チャネル114は、システムバス、ネットワーク接続、プロセス間通信データ構造、またはデータを通信するための他のいずれかの方法を含み得る。
【0025】
図1の例にさらに示されるように、ストレージシステム106は、LFTD119を記憶することができ、これは、1,000ワードよりも多いワード、または場合によっては10,000ワードよりも多い平均ワード数を有するテキスト文書を表すことができる。LFTD119は、一例として、(eブックとも称され得る電子本を含む)本、マニュアル、研究論文、等を表し得る。LFTD119は、eブックを表すことができ、eブックが40,000ワード~約110,000ワードの範囲にあるように、その平均ワード数は、通常40,000ワードより多い。従って、LFTD119が短文形式のテキスト文書に含まれる平均ワード数よりも少なくとも1桁多い平均ワード数を含むという点で、LFTD119は、テキストメッセージ、電子メッセージ(eメールと呼ばれる電子メールを含む)などの短文形式のテキスト文書とは区別され得る。
【0026】
例えば、自己解決、ビジネス、歴史、伝記、健康、及び宗教など、ある特定の長文形式のテキストジャンルの消費者は、LFTD119のナレーション付きバージョンを要望することがあり、LFTD119のナレーション付きバージョンは、オーディオブックと称され得る。しかしながら、オーディオブック(特に、上述の長文形式のテキストジャンル)の需要がある一方で、(売上単位に関して)LFTD119が成功していない限り、オーディオブックの生成は、法外に高価になることがある。例えば、所与のオーディオブックを生成するには、費用が高額な声優(または言い換えると、ナレータ)の採用が必要になる得、ナレータが、スタジオ環境(時間単位のレートは一般に高価であり、時間あたり100ドルを超える場合もある)でLFTD119を正しく朗読するために何時間も要し得る。
【0027】
そのため、多くの著者は、ナレーションモデルを利用してLFTD119のテキストを朗読する自動テキスト音声化アルゴリズムに頼ることを選択する。自動テキスト音声化アルゴリズムは、オーディオブックエクスペリエンスの反復を利用する人間のナレーションに代わる迅速な代替物を提供することができ、(場合によっては、ほぼリアルタイムであり、そのような自動テキスト音声化アルゴリズムは、読者のデバイスに常駐してこのオーディオブックエクスペリエンスを提供することを意味する)一方、この自動テキスト音声化アルゴリズムは、人間のナレータによっては正しくナレーションされるであろう単語を誤って発音することがある。これらの誤った発音を克服するために、著者(または他の編集者)は、読者がLFTD119のテキストバージョンを読むことを試みるときに著者の意図を劣化させることになる自動テキスト音声化アルゴリズムによる誤った発音を低減するために基礎となるLFTD119を編集することができる。
【0028】
本開示で説明される技術の様々な態様によれば、コンピューティングデバイス100は、LFTD119のための効率的な自動テキスト音声化の発音編集を提供することができる。発音編集は、(ワードプロセッサとも呼ばれる)テキストエディタで提供されるスペルチェックに類似(そのため発音チェックとも称され得る)していることがある。コンピューティングデバイス100は、LFTD119を(ユーザインターフェースを介して)受信することができ、発音編集を実行して、自動テキスト音声化処理中に誤って発音される可能性がある候補ワードを特定することができる。しかしながら、検討のためにすべての候補ワードを編集者に提供するのではなく、コンピューティングデバイス100は、候補ワードの数をより管理しやすい数(例えば、候補ワードの閾値数)に低減するために、様々な方法で候補ワードをフィルタリングすることができる。
【0029】
図1の例に示すように、ストレージシステム106は、ユーザインターフェース(UI)モジュール118、前処理モジュール120、発音モジュール122、及びテキスト音声化(TTS)モジュール124を記憶することができる。最初の事項として、動作がモジュール118~124のいずれか1つによって実行されるとして説明されるとき、そのようなモジュール118~224は、実行時、プロセッサ104にモジュール118~124のそれぞれに関して説明された動作を実行させることを理解されたい。
【0030】
UIモジュール118は、実行時、プロセッサ104にUIを生成及び提示させるモジュールを形成する命令を表すことができ、このUIとユーザ(人間の編集者など)がインタラクトして、コンピューティングデバイス100から出力を受信することができ、及び/またはコンピューティングデバイス100に入力を提供することができる。UIモジュール118から生成され出力される例示的なGUIは、
図2A~
図3Cの例に対して、以下でさらに詳細に説明される。
【0031】
前処理モジュール120は、実行時、プロセッサ104にLFTD119に対して前処理を実行させるモジュールを形成する命令を表すことができる。前処理とは、LFTD119を管理可能なデータチャンク(例えば、合成された文書121)に変換するために、LFTD119が再フォーマットされ、分割され、分析され、合成され、または他の方法で処理されるプロセスを指すことができる。前処理は、LFTD219の並列(または換言すれば同時)処理を促進して、(コンピューティングリソースに関して)LFTD119の発音をチェックする効率、及びLFTD119からオーディオブック125を生成する効率を改善することができる。
【0032】
発音モジュール122は、実行時、候補ワード(CW)123Aを取得するために、プロセッサ104に、合成された文書121に対して発音チェックを実行させるモジュールを形成する命令を表すことができる。発音モジュール122はまた、実行時、CW123Aから1つ以上の候補ワードを除外するために、プロセッサ104にCW123Aのフィルタリングを実行させる命令を含むことができ、それによって残りの候補ワード(RCW)123Bを生成する。
【0033】
TTSモジュール124は、実行時、プロセッサ104に自動TTS処理を実行させてオーディオブック125を制作するモジュールを形成する命令を表すことができる。自動TTS処理は、LFTD119を合成してオーディオブック125を制作する1つ以上のTTSアルゴリズム(例えば、敵対的生成ネットワーク(GAN)モデル)を指すことができる。オーディオブック125は、LFTD119の注釈付きバージョン(このような注釈は、コンピューティングデバイス100及び他のコンピューティングデバイス(eリーダ、スマートフォン、等)上のTTSアルゴリズムのほぼリアルタイムの適用を容易にする)、及び、場合によっては、LFTD119を合成した後のTTSモジュール124からのオーディオデータ出力を含み得る。
【0034】
動作中、プロセッサ104は、最初にUIモジュール118を呼び出すことができ、UIモジュール118は、UI(グラフィカルUI(GUI)など)を生成することができ、これにより、LFTD119のアップロード及び/または配信を容易にする。UIモジュール118は、ディスプレイ102とインターフェースして、ディスプレイ102を介してGUIを提示することができる。分散型コンピューティングシステムでは、UIモジュール118は、通信ユニット112とインターフェースして、クライアントデバイス(例えば、サーバ、クライアント分散型システム)にGUIを提供することができる。いずれの場合も、人間の編集者は、GUIとインタラクトして、コンピューティングデバイス100にLFTD119を提供することができ、コンピューティングデバイス100は、LFTD119をストレージシステム106に記憶できる。
【0035】
プロセッサ104は、LFTD119を受信することに応答して、次に前処理モジュール120を呼び出すことができ、前処理モジュール120は、LFTD119を処理して合成された文書121を生成することができる。前処理モジュール120は、LFTD119の断片を管理可能なサイズのチャンク(例えば、N個の文)に共有して各チャンクをマークアップテキストでまとめることができる。前処理モジュール120は、次に、テキスト正規化を使用してまとめられた各チャンクを分析して、ワードのスパンを特定することができる。テキスト正規化とは、テキストの大きなチャンクにわたって複数語表現を検出するプロセスを指す。前処理モジュール120は、次に、テキスト正規化の結果を解析して、入力テキストの連続した重複しないスパン(この例ではまとめられたチャンクである)を生成することができる。前処理モジュール120は、次に、まとめられたチャンクの各々について決定された連続した重複しないスパンを、合成された文書121のそれぞれとして出力することができる。
【0036】
合成された文書121を取得することに応答して、プロセッサ104は、発音モデル122を呼び出すことができ、発音モデル122は、合成された文書121を処理して、LFTD119の自動テキスト音声化処理中に誤って発音されると予測されるCW123Aを特定することができる。発音モデル122は、様々な異なるシナリオの発音チェックを実行する1つ以上の異なるサブモデルを含むことができる。
【0037】
例えば、発音モジュール122は、複数の可能な発音を有し、いずれかのテキストスパン(合成された文書121で指定される)を特定するサブモデルを含むことができ、これらのテキストスパンをCW123Aとして指定する。さらに、発音モジュール122は、(例えば、発音されたワードについて)その発音が辞書外である単一の発音を有する、いずれかのテキストスパンを特定する別のサブモデルを含むことができ、これらのテキストスパンをCW123Aとして指定する。さらに、発音モジュール122は、単一の発音を有する、いずれかのテキストスパンを特定する異なるサブモデルを含むことができ、その発音は(例えば、スペルアウトされた単語及び例えば、顔文字、エモーティコン、ロゴ、商標、等の記号クラス内の単語について)複数の発音部分を有する。
【0038】
いくつかの例では、発音モジュール122は、信頼度スコアを計算、またはその他の方法で決定することができる。つまり、発音モジュール122は、合成された文書121によって表されるワードのスパンに学習モデルを適用して、各ワードスパンについて信頼度スコアを決定することができる。学習モデルは、過去の発音編集操作に基づいて訓練された機械学習モデルを指すことができる。発音編集GUI(
図2A~
図3Cの例に示す)は、いずれの所与のワードに対する発音の正確さを判定するための直接フィードバックを提供することができる。このユーザからのフィードバック(匿名化され得、デフォルトで無効にされ得、そのようなフィードバック収集を有効にするには明示的なユーザの同意を必要とする)を使用して、様々な機械学習アルゴリズムが、信頼度スコアを提供するために基礎となる学習モデルを訓練することができる。いずれにせよ、発音モジュール122は、次いで、信頼度スコアに基づいて、各ワードスパンをCW123Aに追加するかどうかを決定することができる。例えば、信頼度スコアを有さない、または閾値信頼度スコア未満の信頼度スコアを有する任意のワードスパンの場合、発音モジュール122は、ワードスパンをCW123Aに追加することができる。
【0039】
次に、発音モジュール122は、CW123Aをフィルタリングして、CW123Aから1つ以上の候補ワードを除外し、CW123Aよりも少ない候補ワードを有するRCW123Bを取得することができる。CW123Aのフィルタリングは、いくつかの異なるサブモデルに従って、反復的にまたは同時に発生し得る。
【0040】
例えば、発音モジュール122は、ストップワードであるCW123Aの1つ以上の候補ワードを特定するストップワードサブモデルを含み得る。ストップワードは、これらのストップワードがほとんど有用な情報を伝達しないような、(いずれかの所与のテキストにおける平均的な出現数に関して)非常に一般的に使用されるワードの集合を指す。ストップワードの例には、「a」、「the」、「is」、「are」などが含まれる。これらのストップワードのいくつかは複数の発音を有し得、通常、TTSモジュール124は、(選択された自動TTS音声によって決定されるように)所与の発音を選択し、それにより、ストップワードの編集が正当化されるなど、オーディオブックエクスペリエンスには一般に影響を与えない。そのように、発音モジュール122は、RCW123Bを取得するためにストップワードであるCW123Aの1つ以上の候補ワードを除外することができる。
【0041】
別の例として、発音モジュール122は、各候補ワードがCW123Aに出現する回数を示す、CW123Aの各々についての候補ワードカウントを特定する頻度カウントサブモデルを含み得る。この頻度カウントサブモデルは、ストップワードサブモデルに関して上で説明したものと同様の仮定の下で動作することができ、CW123Aの候補ワード(候補ワードカウント閾値よりも大きな候補ワードカウントを有する、これらのCW123Aの候補ワード)に従って頻繁にという点で、より少ない情報を伝達し得る。次に、発音モジュール122は、候補ワードカウント閾値を超える関連する候補ワードカウントを有する1つ以上の候補ワードをCW123Aから除外することができる。
【0042】
さらに別の例として、発音モジュール122は、共通ホモグラフリストで指定されていないホモグラフであるCW123Aの1つ以上の候補ワードを特定するホモグラフサブモデルを含み得る。ホモグラフサブモデルは、共通ホモグラフリストを(例えば、後続の編集、編集者/ユーザの音声発音の入力、等に基づく機械学習を介して)動的に更新することができる。「ホモグラフ」という用語は、同じスペルであるが異なる発音を有する単語を指す(例えば、「I will read this book」に対して「I read this book already」の場合、readはホモグラフである)。発音モジュール122は、(一部のホモグラフが、例えば、ストップワードであると仮定して、すべてのホモグラフのサブセットのみが編集を必要とされ得るように)共通ホモグラフリストで規定されていないホモグラフとして特定されたCW123Aの1つ以上の候補ワードを除外することができる。
【0043】
発音モジュール122はまた、信頼度スコアを計算するための上述の学習モデルをCW123Aに選択的に適用することができる。(コンピューティングリソースの利用を低減するための)いくつかの例では、発音モジュール122は、学習モデルを選択的に適用して、CW123Aの各々のサブセットの信頼度スコア(ゼロ要素を含む正確な数学的意味で理解されることはないが、集合のすべてよりも少ないことを示すために用いられる)を決定する。例えば、発音モジュール122は、いくつかの例では、上述の学習モデルをCW123Aに適用して、ホモグラフであるCW123Aの各候補ワードの信頼度スコアを決定することができる。発音モジュール122は、次いで、ホモグラフであるCW123Aの各候補ワードの信頼度スコアに基づいて(例えば、信頼度スコアを閾値信頼度スコアと比較することによって)、CW123Aの1つ以上の候補ワードを除外することができる。
【0044】
さらに、発音モジュール122は、共通の名称付きエンティティリストで指定されていない名称付きエンティティであるCW123Aの1つ以上の候補ワードを特定する名称付きエンティティサブモデルを含み得る。名称付きエンティティサブモデルは、共通の名称付きエンティティリストを(例えば、後続の編集、編集者/ユーザの音声発音の入力、等に基づく機械学習を介して)動的に更新することができる。名称付きエンティティは、名称、場所、会社名、商号などの固有名詞を指す。発音モジュール122は、共通のホモグラフリストにおいて(例えば、すべての名称付きエンティティが、発音が難しいわけではないために)指定されていない名称付きエンティティとして特定されたCW123Aの1つ以上の候補ワードを除外することができる。
【0045】
発音モジュール122は、(発音に関して、かつ、難読性閾値に対して測定されたような)高い難読性を有するCW123Aの1つ以上の候補ワードを特定する難読性サブモデルをさらに含むことができる。つまり、難読性サブモデルは、CW123Aの各候補ワードの難読性を決定する言語モデルを含むことができる。発音モジュール122は、関連する難読性に基づいて、CW123Aの1つ以上の候補ワードを除外することができる。例えば、発音モジュール122は、それぞれ判定された難読性を難読性閾値と比較することができ、判定された難読性が難読性閾値を超えるとき、CW123Aの関連する候補ワードを除外することができる。
【0046】
この点で、発音モジュール122は、CW123AをフィルタリングしてRCW123Bを生成するために、(現在において、または少なくとも、重複している可能性もあるが)いくつかの異なるサブモデルにシーケンスを適用する複数のモデルのうち1つのモデルを表すことができる。上述のように、サブモデルのうちの1つ以上は、サブモデルが機械学習を使用して、変化するテキスト基準及び(個々の編集者の好みに合わせることさえもできる)編集者のフィードバックに継続的に適応することができるという点で、適応的であり得る。いくつかの例では、サブモデルは二値分類モデルを含み得る。
【0047】
サブモデルの適用を通じてRCW123Bを生成した後、発音モジュール122は、LFTD119に注釈を付けて、RCW123Bを特定する注釈付きテキスト文書を取得することができ、注釈付きテキスト文書は、
図1の例においてオーディオブック125によって表され得る。発音モジュール122は、LFTD119内のそれぞれの候補ワードの開始位置及び終了位置でのRCW123Bの発生の各々にデータ入力して、RCW123Bの各々をLFTD119に戻してリンク付けすることによってLFTD119に注釈を付けることができる。発音モジュール122はまた、TTSモジュール124を呼び出して、それぞれの信頼度スコアに従って順序付けられ得る1つ以上の発音候補をRCW123Bの各々に提供することができる。発音モジュール122はまた、1つ以上の発音の各々を、LFTD119内のそれぞれの場所に関連付けることもできる。このようにして、発音モジュール122は、LFTD119の注釈付きバージョンを含むオーディオブック125を自動的に形成することができる。
【0048】
発音モジュール122は、LFTD119の基礎となるテキストを編集することはできず、単に、自動TTSアルゴリズムによるより良い発音を促進する注釈を(恐らくマークアップテキストを介して)追加するにすぎない。LFTD119のテキスト編集を回避することにより、発音モジュール122は、実際のテキストの読み上げができるようにするが、読者が、ナレータによって読み上げられるようなオーディオブックエクスペリエンスを好む場合、自動TTSアルゴリズムが採用されているプログラマによってランダムに変更される可能性のある正しい発音に関して、自動TTSアルゴリズムは、注釈を利用して、編集者が情報に基づいた決定を行うことができるようにする。このように、技術の様々な態様は、コンピューティングデバイスにガイド付き発音エクスペリエンスを可能にし、そこでは人間の編集者が効率化された(フィルタリングによる)発音エディタを利用して注釈を生成し、これにより、ガイドなしTTS合成と比較して発音が一般的に改善されるガイド付きTTSが得られる。
【0049】
オーディオブック125を生成した後、プロセッサ104は、次に、UIモジュール118を呼び出すことができ、UIモジュール118は、RCW123Bの少なくとも1つの候補ワードを特定するオーディオブック125内に含まれる注釈付きテキスト文書の少なくとも一部分を出力するGUIを生成することができる。UIモジュール118は、(改めて、例えば、分散型サーバクライアントシステムの文脈において)ディスプレイ102及び/または通信ユニット112を介してGUIを出力することができる。GUIを介して、人間の編集者は、コンピュータデバイス100とインタラクトして、発音チェッカーの視覚的表現を介して発音を編集することができ、場合によっては、以下でより詳細に説明するように、RCW123Bの好ましい発音のための口頭でのナレーションを入力することができる。
【0050】
この点では、候補ワードのフィルタリングにより、重要でない発音ミスに費やす時間を低減することができ、発音が難しいワード(例えば、固有名詞、語形変化などの点で曖昧なワードなど)、意図的にスペルミスされたワード、スペルは同じだが発音が異なるワード(これもホモグラフと称される)、等に注意を集中することができる。このように、人間の編集者は、オーディオエクスペリエンスを著しく損なう可能性のある候補ワードに集中することができる。場合によっては、編集者はコンピューティングデバイス100とインタラクトして口頭発音を入力することができ、コンピューティングデバイスは、次いで、それを使用して自動テキスト音声化の発音を修正する(例えば、入力された口頭発音に最も適合する発音を選択する)。
【0051】
このように、本技術の様々な態様は、コンピューティングリソース(例えば、プロセッササイクル、メモリ使用量、メモリバス帯域幅使用量、及びそれに伴う電力消費)の点で、コンピューティングデバイス100のより効率的な実行を促進することができ、同時に、自動テキスト音声化アルゴリズムによって潜在的な発音ミスを編集するためのユーザエクスペリエンスも向上する。本技術は、候補ワードをフィルタリングして、編集者が、発音が難しいワードに集中できるようにすることで、コンピューティングリソースの使用を低減することができ、このことで編集プロセス中の処理が少なくなり、それにより、コンピューティングリソースの使用を低減する。さらに、これらの技術は、発音が難しいワードに注意を集中させることによって、より良い編集エクスペリエンスを提供することができ、一方で自動テキスト音声化アルゴリズムによって、候補ワードの発音を改善する(このことが、発音のレビューと調整を促進しない自動テキスト音声化アルゴリズムと比較して、より高品質のオーディオブックエクスペリエンスを生成する)。
【0052】
図2A~
図2Cは、本開示で説明される技術の様々な態様による、長文形式のテキスト文書の効率的な発音チェックを容易にするために人間の編集者がインタラクトすることができる例示的なユーザインターフェースを示す図である。
図2Aの例では、ユーザインターフェース200Aは、UIモジュール118によって生成され出力されるインタラクティブユーザインターフェース(例えば、インタラクティブグラフィカルユーザインターフェース-iGUI)の例を表し得る。
【0053】
ユーザインターフェース200Aは、インタラクティブなユーザインターフェースを表すことができ、これを用いて、ユーザ(例えば、人間の編集者)は、自動ナレータによる発音を編集するためにインタラクトすることができる。ユーザインターフェース200Aは、他のセレクタの中でもオーディオブックテキストセレクタ204を含むeブックオーバービューペイン202を含み得、これらのセレクタにより、(著者、発行者、刊行年などの)ブック情報、内容(例えば、目次)、価格情報、(見返しまたは本の裏側に表示されるような)eブックの要約、及びイベント履歴を見ることができる。
図2Aの例では、ユーザはオーディオブックテキストセレクタ204を選択している。
【0054】
オーディオブックテキストセレクタ204を選択することに応答して、ユーザインターフェース200Aは、セクションペイン206、オーディオブックテキストペイン208、自動ナレータ音声セレクタ210、保存ボタン212、及び公開ボタン214を提示する。セクションペイン206は、(目次に類似している)セクションのリストを提示することができる。セクションペイン206において、ユーザインターフェース200Aは、罫線が引かれていないセクション(例えば、序文、Becoming Me、第1章、等)と共にいくつかの罫線が引かれたセクション(例えば、表紙、タイトルページ、著作権、内容、見返しの写真、ペーパーバックの紹介…)を提示している。UIモジュール118は、様々なモジュール120~124とインターフェースして、どのセクションがオーディオブック125から除外されるべきかを特定することができる。前処理モジュール120は、どのセクションがオーディオナレーションから除外されるべきかを特定し、オーディオナレーションから除外されるべきセクションのリストをUIモジュール118に渡すように構成され得る。UIモジュール118は、次いで、除外されたセクションのリストに基づいてセクションペイン206を生成することができる。
【0055】
オーディオブックテキストペイン208は、LFTD119に基づいてオーディオブック125のテキストを再現することができる。オーディオブックテキストペイン208は、除外トグル216及び再生ボタン218を含み得る。除外トグル216は、オーディオブック125内のセクションまたはサブセクション(すなわち、
図2Aの例では、Becoming Meセクションの第1章サブセクション)の除外をトグルできる。再生ボタン218は、選択された自動ナレータ音声を使用して、オーディオブックテキストペイン208に示されるオーディオブックテキストの再生を開始することができる。ユーザは、自動ナレータ音声セレクタ210とインタラクトして、異なる自動ナレータ音声(特定の性別及びアクセントを有し得る)の間で選択することができる。ユーザは、オーディオブックテキストペイン208とインタラクトして、基礎となるオーディオブックテキストを編集し、保存ボタン212を選択して編集を保存するか、または、編集が完了したときに発行ボタン214を選択してオーディオブック125を(例えば、オンラインオーディオブックストアなどのオンラインストアに)発行することができる。
【0056】
図2Bの例では、ユーザインターフェース200Bは、ユーザがワード220を選択(例えば、ユーザがワード220上にカーソルを合わせながら右マウスボタンをクリックする、マウスの所謂「右クリック」)した後のユーザインターフェース200Aを表すことができる。ワード220は、発音モジュール122の適切なエンティティサブモデルによって特定される適切なエンティティである、RCW123Bの一例を表すことができる。ワード220を選択することに応答して、UIモジュール118は、編集ペイン230を含むようにユーザインターフェース200Aを更新することができる(それによって、ユーザインターフェース200Aをユーザインターフェース200Bに移行させる)。
【0057】
編集ペイン230は、発音編集ボタン232及びワード再生ボタン234を含む。発音編集ボタン232は、ユーザがワード220の発音を編集できるようにすることができ、一方で、ワード再生ボタン234は、UIモジュール118に、ワード220に対してTTSモジュール124によって提供されたオーディオデータを(選択された自動ナレータ音声を使用して)オーディオブック125内に提示させることができる。
【0058】
次に、
図2Cの例を参照すると、ユーザインターフェース200Cは、ユーザが発音編集ボタン232を選択した後のユーザインターフェース200Bの一例を表す。ユーザインターフェース200Cは、依然としてオーディオブックテキストペイン208を表示しているが、リスト244に示されている個々のRCW123Bの再生を開始するための再生/一時停止ボタン242を含む発音編集ペイン240を表示する。
【0059】
図2Cの例では、ユーザは、辞書外のワードを表すワード「mavjee」を含むRCW123Bのリスト244内のエントリ246を選択した。ユーザはまた、再生/一時停止ボタン242を選択して、UIモジュール118にエントリ246が現れるワードスパンを再生させる。UIモジュール118は、強調表示260として示される、オーディオブックテキストペイン208内のワードスパンを強調表示することができる。
【0060】
この点で、UIモジュール118は、RCW123Bの少なくとも1つの候補ワード(エントリ246で表される)を選択する、インタラクティブユーザインターフェース200Cを介して入力(例えば、再生/一時停止ボタン242の選択)を受信することができる。UIモジュール118は、この入力に応答して、RCW123Bの(上述のようにTTSモジュール124によって提供され、発音モジュール122によってリンクされた)少なくとも1つの候補ワードの口頭発音を表す発音オーディオデータを取得することができる。UIモジュール118は、次いで、スピーカ(ラウドスピーカ、内部スピーカ、ヘッドフォンスピーカ、等)を介して再生のために発音オーディオデータを出力することができる。
【0061】
いずれの場合も、ユーザは、強調表示されたワードスパンの文脈において、自動ナレータによる発音が適切であるかどうかを判断するために、強調表示260として強調表示されたワードスパンの文脈においてエントリ246の発音を聴取することができる。ユーザが、発音が適切ではないと判断した場合、ユーザは発音を編集することができる。つまり、エントリ246は、編集ボタン248及び(発音モジュール122によって決定されるような)LFTD119におけるワード「mavjee」の発生数を伴うステータス250Aを含む。ユーザは、編集ボタン248を選択して、(例えば、ワード「mavjee」の表音スペルを提供すること、口頭発音を提供すること、等により)発音を編集することができる。ステータス250Aは、エントリ246が現在再生中であることを示すことができる。編集されると、ステータス250Aは、ステータス250Bにシフトすることができる(別のエントリに関して示されるが、そのようなステータス250Bは、エントリ246のステータス250Aに関して発生し得るステータスのシフトを例示する)。
【0062】
図3A~
図3Cは、本開示で説明されている技術の様々な態様による、長文形式のテキスト文書の効率的な発音チェックを容易にするために人間の編集者がインタラクトすることができる例示的なユーザインターフェースを示す追加の図である。
図3Aの例では、ユーザインターフェース300Aは、UIモジュール118によって生成、かつ出力されるインタラクティブユーザインターフェースの別の例を表すことができる。ユーザインターフェース300Aが、セクションペイン306、オーディオブックテキストペイン308、自動ナレータ音声セレクタ310、保存ボタン312、及び発音編集ペイン340Aを含むという点で、ユーザインターフェース300Aは、
図2Cの例に示されるユーザインターフェース200Cと同様であり得る。
【0063】
ペイン306、308、及び340Aは、実質的に類似していない場合でも、それぞれのパネル206、208、及び240に類似し得る。しかし、セクションペイン306は、線で囲まれたセクションを含まず、むしろ自動TTSナレーションの対象とならないセクションを省略する。オーディオブックテキストペイン308は、オーディオブックテキストペイン208に実質的に類似しており、そのようなオーディオブックテキストペイン308はまた、除外トグル216と同様に機能する除外トグル316、及び(
図2Aの例に示される)再生ボタン218と同様に機能する再生ボタン318を含む。
【0064】
発音編集ペイン340Aは、発音編集ペイン240に類似しているが、発音編集ペイン340Aがすべての潜在的な発音エラーのレビューを含むという点で異なっている。発音編集ペイン340Aは、結果として、発音レビューペイン340Aと称されることができる。発音レビューペイン340Aは、(例えば、信頼度スコアが閾値信頼度スコア未満であることに基づいて)レビューが必要であると予測されたRCW123Bの数を指定するレビューエントリ370を含む。
【0065】
図3Aの例にさらに示されるように、ユーザインターフェース300Aは、自動ナレータ音声セレクタ210と同一ではないが、自動ナレータ音声セレクタ210と同様に機能する自動ナレータ音声セレクタ310を含む。ユーザインターフェース300Aはまた、保存ボタン212と同様に機能する保存ボタン312を含む。ユーザインターフェース300Aはさらに、オーディオファイル作成ボタン314を含み、このオーディオファイル作成ボタン314は、オーディオブック125が作成されるという点で発行ボタン314に類似し得るが、オーディオブック125が、直ちにオンラインストアで発行されないという点で異なる。代わりに、オーディオファイル作成ボタン314を選択すると、オンラインストアですぐに発行されずに、オーディオブック125が生成されることになり得る。
【0066】
図3Bの例では、発音レビューペイン340Bは、発音レビューペイン340Aのレビューエントリ370をユーザが選択した結果を表す。そのため、UIモジュール118は、レビューエントリ370の選択を受信すると、発音レビューペイン340Aから発音レビューペイン340Bに移行することができる。
【0067】
発音レビューペイン340Bは、タブ380A及び380Bを含み得る。タブ380Aの下の線は、ユーザがタブ380Aを選択したか、またはUIモジュール118が、タブ380Aの選択をデフォルトとしたかを示している。タブ380Bは、選択時、ユーザによって以前にレビューされたすべての特定のレビューエントリがデータ入力されたUIモジュール118のレビューペイン340Bになり得る。タブ380Aの選択(デフォルトまたはその他)に応答して、UIモジュール118は、特定のレビューエントリ382A~382D(「特定のレビューエントリ382」)で発音レビューペイン340Bにデータ入力した。特定のレビューエントリ382の各々は、特定の発音エラーを表すことができ、各エラーのインスタンスの数、再生ボタン384、すべて確定ボタン386、及びレビューボタン388を表示する(これらの各々は、説明を容易にするために特定のレビューエントリ382Aに対してのみ示されている)。
【0068】
再生ボタン384は、特定のレビューエントリ382Aの1つ以上のインスタンスに関連するオーディオデータを、スピーカを介して再生するために提供するようにUIモジュール118を構成することができる。すべて確定ボタン386は、特定のレビューエントリ382Aのインスタンスの各々(すなわち、特定のレビューエントリ382Aの例では12個のインスタンスすべて)について、現在の発音(例えば、既存のオーディオデータ)を確定するようにUIモジュール118を構成することができる。レビューボタン388は、発音レビューペイン340Bから、関連する特定のレビューエントリ382の発音のレビューを容易にする(
図3Cの例に示される)発音レビューペイン340Cに移行するようにUIモジュール118を構成することができる。この点で、レビューボタン388は、誤って発音されたワードの特定のインスタンスの個別のレビュー(または換言すれば、事例ごとのレビュー)を可能にすることができる。
【0069】
図3Cの例では、ユーザインターフェース300Cは、ユーザインターフェース300Aに類似しているが、ユーザインターフェース300Cは、
図3Bの発音レビューペイン340Bに示される特定のレビューエントリ382Aをユーザが選択した結果を示す発音レビューペイン340Cを含むという点で異なる。発音レビューペイン340Cは、戻るボタン390、再生ボタン384、確定ボタン391、表音テキスト入力フィールド392、記録ボタン393、再生ボタン394、インスタンス適用ボタン395、すべてのインスタンスに適用ボタン396、及びインスタンスセレクタ398を含む。
【0070】
戻るボタン390は、UIモジュール118が、発音レビューペイン340Cから、
図3Bの例に示される発音レビューペイン340Bに戻るように構成することができる。再生ボタン384は、UIモジュール118が、スピーカを介した再生でのレビューにおける特定のインスタンスに関連付けられたオーディオデータを出力するように構成することができる。インスタンス適用ボタン395は、UIモジュール118が、現在選択されているオーディオデータをレビュー中の特定のインスタンスに適用するように構成することができる。表音テキスト入力フィールド392は、ユーザが、異なる発音になる表音テキストフレーズをタイピングできるようにして、ユーザが、再生ボタン394を選択することによってそれを聞けるようにする。そのため、表音テキスト入力フィールド392は、再生ボタン394を選択すると、UIモジュール118が、任意の入力されたテキストをTTSモジュール124に提供するように構成することができ、これによりTTSモジュール124はオーディオデータに合成することができる。UIモジュール118は、次いで、スピーカを介して再生するために合成されたオーディオデータを出力することができる。
【0071】
同様に、記録ボタン393は、ユーザが特定のインスタンスの発音を話すことを可能にし、それによって発音オーディオデータをUIモジュール118に提供する。UIモジュール118は、発音オーディオデータを発音モジュール122に提供することができ、発音モジュール122は、発音オーディオデータを使用して、TTSモジュール124によって合成され、インスタンスのいずれかに対する発音のいずれか1つに関連付けられた利用可能な発音のうちの1つを選択することができる。発音オーディオデータを提供した後に再生ボタン394を選択すると、UIモジュール118が、発音オーディオデータに基づいて選択された発音を取得し、この発音をスピーカによる再生のために出力するように構成され得る。
【0072】
この点で、UIモジュール118は、特定のレビューエントリ382Aの選択の入力を介して選択された、RCW123Bの少なくとも1つの候補ワード(すなわち、この例では「Reeaallyy」)を選択するインタラクティブユーザインターフェースを介して入力を受信することができる。UIモジュール118はまた、(記録ボタン393の選択に応答して)RCW123Bの候補ワードの口頭発音を受信することができる。発音モジュール122とインターフェースするUIモジュール118は、口頭発音に基づいて、いくつかの異なる潜在的な発音から潜在的な発音を特定することができる。発音モジュール122は、次いで、RCW123Bの少なくとも1つの候補ワードに潜在的な発音を関連付けることができる。
【0073】
適用ボタン395は、UIモジュール118が、現在の発音を候補ワードの特定のインスタンスと関連付けるように構成することができる。すべてのインスタンスに適用396は、UIモジュール118が、選択されたインスタンスの現在の発音を候補ワードのすべてのインスタンス(この例では、ここでも「Reeaallyy」)に関連付けるように構成することができる。インスタンスセレクタ398は、UIモジュール118が、候補ワードの異なるインスタンス間で切り替えるように構成することができ、それにより、ユーザが、レビューのために異なるインスタンスを選択することを可能にする。
【0074】
図4は、本開示の1つ以上の態様による、自動テキスト音声化アルゴリズムの発音編集を実行するように構成された例示的なコンピューティングデバイスの例示的動作を示すフローチャートである。プロセッサ104は、最初にUIモジュール118を呼び出すことができ、UIモジュール118は、UI(グラフィカルUI(GUI)など)を生成することができ、これにより、LFTD119のアップロード及び/または配信を容易にする。UIモジュール118は、ディスプレイ102とインターフェースして、ディスプレイ102を介してGUIを提示することができる。分散型コンピューティングシステムでは、UIモジュール118は、通信ユニット112とインターフェースして、クライアントデバイス(例えば、サーバ、クライアント分散型システム)にGUIを提供することができる。いずれの場合も、人間の編集者は、GUIとインタラクトして、コンピューティングデバイス100にLFTD119を提供することができ、コンピューティングデバイス100は、LFTD119を受信、及びストレージシステム106に記憶できる(400)。
【0075】
プロセッサ104は、LFTD119を受信することに応答して、次に、前処理モジュール120を呼び出すことができ、前処理モジュール120は、LFTD119を処理して合成された文書121を生成することができる(402)。前処理モジュール120は、LFTD119の断片を管理可能なサイズのチャンク(例えば、N個の文)に共有して各チャンクをマークアップテキストでまとめることができる。前処理モジュール120は、次に、テキスト正規化を使用してまとめられた各チャンクを分析して、ワードのスパンを特定することができる。テキスト正規化とは、テキストの大きなチャンクにわたって複数語表現を検出するプロセスを指す。前処理モジュール120は、次に、テキスト正規化の結果を解析して、入力テキストの連続した重複しないスパン(この例ではまとめられたチャンクである)を生成することができる。前処理モジュール120は、次に、まとめられたチャンクの各々について決定された連続した重複しないスパンを、合成された文書121のそれぞれとして出力することができる。
【0076】
合成された文書121を取得することに応答して、プロセッサ104は、次に、発音モデル122を呼び出すことができ、この発音モデル122は、合成された文書121を処理して、LFTD119の自動テキスト音声化処理中に誤って発音されると予測される(第1の複数の候補ワードを表す)CW123Aを特定することができる(404)。発音モジュール122は、次いで、CW123Aをフィルタリングして、CW123Aから1つ以上の候補ワードを除外し、CW123Aよりも少ない候補ワードを有する(第2の複数の候補ワードを表す)RCW123Bを取得することができる(406)。上述のサブモデルの適用を通じてRCW123Bを生成した後、発音モジュール122は、LFTD119に注釈を付けて、RCW123Bを特定する注釈付きテキスト文書を取得することができ、注釈付きテキスト文書は、
図1の例においてオーディオブック125によって表され得る(408)。
【0077】
オーディオブック125を生成すると、プロセッサ104は、次に、UIモジュール118を呼び出すことができ、UIモジュール118は、RCW123Bの少なくとも1つの候補ワードを特定するオーディオブック125内に含まれる注釈付きテキスト文書の少なくとも一部分を出力するGUIを生成することができる(410)。UIモジュール118は、(改めて、例えば、分散型サーバクライアントシステムの文脈において)ディスプレイ102及び/または通信ユニット112を介してGUIを出力することができる。GUIを介して、人間の編集者は、コンピュータデバイス100とインタラクトして、発音チェッカーの視覚的表現を介して発音を編集することができ、場合によっては、以下でより詳細に説明するように、RCW123Bの好ましい発音のための口頭でのナレーションを入力することができる。
【0078】
この点において、本技術の様々な態様は、以下の例を可能にする。
【0079】
例1.テキスト文書内のワードを処理して、前記テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、前記第1の複数の候補ワードをフィルタリングして、前記第1の複数の候補ワードの1つ以上の候補ワードを除外し、前記第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、前記テキスト文書に注釈を付けて、前記第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、前記第2の複数の候補ワードの少なくとも1つの候補ワードを特定する前記注釈付きテキスト文書の少なくとも一部分を出力することと、を含む、方法。
【0080】
例2.前記第1の複数の候補ワードをフィルタリングすることは、ストップワードである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、前記ストップワードである、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外して、前記第2の複数の候補ワードを取得することとを含む、例1に記載の方法。
【0081】
例3.前記第1の複数の候補ワードをフィルタリングすることは、各候補ワードが前記第1の複数の候補ワードに出現する回数を示す前記第1の複数の候補ワードの候補ワードカウントを特定することと、閾値を超える前記候補ワードカウントを有する前記第1の複数の候補ワードから前記1つ以上の候補ワードを除外することとを含む、例1及び2のいずれかの組み合わせに記載の方法。
【0082】
例4.前記第1の複数の候補ワードをフィルタリングすることは、共通のホモグラフリストで指定されていないホモグラフである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、前記共通のホモグラフリストで指定されていないホモグラフとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、例1~3のいずれかの組み合わせに記載の方法。
【0083】
例5.前記第1の複数の候補ワードをフィルタリングすることは、共通の名称付きエンティティリストで指定されている名称付きエンティティである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、前記共通の名称付きエンティティリストで指定されている名称付きエンティティとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、例1~4のいずれかの組み合わせに記載の方法。
【0084】
例6.前記第1の複数の候補ワードをフィルタリングすることは、前記第1の複数の候補ワードに言語モデルを適用して、前記第1の複数の候補ワードの各候補ワードの難読性を判定することと、前記第1の複数の候補ワードの各候補ワードの前記難読性に基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、例1~5のいずれかの組み合わせに記載の方法。
【0085】
例7.前記第1の複数の候補ワードをフィルタリングすることは、前記第1の複数の候補ワードに学習モデルを適用して、ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する信頼度スコアを決定することと、ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する前記信頼度スコアに基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、例1~6のいずれかの組み合わせに記載の方法。
【0086】
例8.前記注釈付きテキスト文書の少なくとも前記一部分を出力することは、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示することを含み、前記方法は、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、前記入力を受信することに応答して、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を表す発音オーディオデータを取得することと、スピーカを介した再生のために前記発音オーディオデータを出力することとをさらに含む、例1~7のいずれかの組み合わせに記載の方法。
【0087】
例9.前記注釈付きテキスト文書の少なくとも前記一部分を出力することは、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示することを含み、前記方法は、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を受信することと、前記口頭発音に基づいて、複数の潜在的な発音から潜在的な発音を特定することと、前記潜在的な発音を前記第2の複数の候補ワードの前記少なくとも1つの候補ワードに関連付けることとをさらに含む、例1~8のいずれかの組み合わせに記載の方法。
【0088】
例10.テキスト文書を記憶するように構成されたメモリと、1つ以上のプロセッサと、を含むコンピューティングデバイスであって、前記1つ以上のプロセッサは、前記テキスト文書内のワードを処理して、前記テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、前記第1の複数の候補ワードをフィルタリングして、前記第1の複数の候補ワードの1つ以上の候補ワードを除外し、前記第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、前記テキスト文書に注釈を付けて、前記第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、前記第2の複数の候補ワードの少なくとも1つの候補ワードを特定する前記注釈付きテキスト文書の少なくとも一部分を出力することと、を行うように構成された、前記コンピューティングデバイス。
【0089】
例11.前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、ストップワードである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、前記ストップワードである前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外して、前記第2の複数の候補ワードを取得することと、を行うように構成された、例10に記載のコンピューティングデバイス。
【0090】
例12.前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、各候補ワードが前記第1の複数の候補ワードに出現する回数を示す前記第1の複数の候補ワードの候補ワードカウントを特定することと、閾値を超える前記候補ワードカウントを有する前記第1の複数の候補ワードから前記1つ以上の候補ワードを除外することとを行うように構成された、例10及び11のいずれかの組み合わせに記載のコンピューティングデバイス。
【0091】
例13.前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、共通のホモグラフリストで指定されていないホモグラフである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、前記共通のホモグラフリストで指定されていないホモグラフとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、例10~12のいずれかの組み合わせに記載のコンピューティングデバイス。
【0092】
例14.前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、共通の名称付きエンティティリストで指定されている名称付きエンティティである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、前記共通の名称付きエンティティリストで指定されている名称付きエンティティとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、例10~13のいずれかの組み合わせに記載のコンピューティングデバイス。
【0093】
例15.前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、前記第1の複数の候補ワードに言語モデルを適用して、前記第1の複数の候補ワードの各候補ワードの難読性を判定することと、前記第1の複数の候補ワードの各候補ワードの前記難読性に基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、例10~14のいずれかの組み合わせに記載のコンピューティングデバイス。
【0094】
例16.前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、前記第1の複数の候補ワードに学習モデルを適用して、ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する信頼度スコアを決定することと、ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する前記信頼度スコアに基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、例10~15のいずれかの組み合わせに記載のコンピューティングデバイス。
【0095】
例17.前記1つ以上のプロセッサが、前記注釈付きテキスト文書の少なくとも前記一部分を出力するように構成されたときに、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示するように構成されており、前記1つ以上のプロセッサが、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、前記入力を受信することに応答して、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を表す発音オーディオデータを取得することと、スピーカを介した再生のために前記発音オーディオデータを出力することとを行うようにさらに構成された、例10~16のいずれかの組み合わせに記載のコンピューティングデバイス。
【0096】
例18.前記1つ以上のプロセッサが、前記注釈付きテキスト文書の少なくとも前記一部分を出力するように構成されたときに、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示するように構成されており、前記1つ以上のプロセッサが、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を受信することと、前記口頭発音に基づいて、複数の潜在的な発音から潜在的な発音を特定することと、前記潜在的な発音を前記第2の複数の候補ワードの前記少なくとも1つの候補ワードに関連付けることとを行うようにさらに構成された、例10~17のいずれかの組み合わせに記載のコンピューティングデバイス。
【0097】
例19.記憶された命令を有する非一時的コンピュータ可読記憶媒体であって、前記命令は、実行時、1つ以上のプロセッサに、テキスト文書内のワードを処理して、前記テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、前記第1の複数の候補ワードをフィルタリングして、前記第1の複数の候補ワードの1つ以上の候補ワードを除外し、前記第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、前記テキスト文書に注釈を付けて、前記第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、前記第2の複数の候補ワードの少なくとも1つの候補ワードを特定する前記注釈付きテキスト文書の少なくとも一部分を出力することとを行わせる、前記非一時的コンピュータ可読記憶媒体。
【0098】
例20.実行時、前記1つ以上のプロセッサに、前記複数の候補ワードをフィルタリングさせる前記命令が、実行時、前記1つ以上のプロセッサに、共通のホモグラフリストで指定されていないホモグラフである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、前記共通のホモグラフリストで指定されていないホモグラフとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行わせる命令を含む、例19に記載の非一時的コンピュータ可読記憶媒体。
【0099】
例21.命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記命令は、実行時、1つ以上のプロセッサに、例1~9のいずれかの組み合わせによって記載されている方法を実行させる、前記非一時的コンピュータ可読記憶媒体。
【0100】
例22.例1~9のいずれかの組み合わせによって記載されている方法の各ステップを実行するための手段を含む、装置。
【0101】
1つ以上の例では、説明される機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせに実装されることができる。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上に1つ以上の命令またはコードとして記憶されるか、またはそこを介して伝送され得、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、コンピュータ可読記憶媒体を含み得、これは、データ記憶媒体などの有形媒体、または、例えば、通信プロトコルに従って、コンピュータプログラムをある場所から別の場所へ移動させることを容易にする任意の媒体を含む通信媒体に対応する。このように、コンピュータ可読媒体は一般に、(1)非一時的である有形のコンピュータ可読記憶媒体、または(2)信号もしくは搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示に記載されている技術を実装するための命令、コード、及び/またはデータ構造を読み出すために、1つ以上のコンピュータまたは1つ以上のプロセッサによってアクセス可能な、任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。
【0102】
限定するものではなく、例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROM、または他の光ディスク記憶、磁気ディスク記憶、もしくは他の磁気記憶装置、フラッシュメモリ、または所望のプログラムコードを命令またはデータ構造の形式で記憶するために使用することができ、かつ、コンピュータによってアクセスすることができる他のいずれかの媒体を含むことができる。また、いずれの接続も、コンピュータ可読媒体と適切に称される。例えば、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線(DSL)、または赤外線、ラジオ、及びマイクロ波などの無線技術を使用して、ウェブサイト、サーバ、またはその他のリモートソースから命令が伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、ラジオ、及びマイクロ波などの無線技術が、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体及びデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、代わりに、非一時的で有形の記憶媒体を対象とすることを理解されたい。本明細書で使用されるディスク(disk)及びディスク(disc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク(DVD)、フロッピーディスク、及びブルーレイディスクを含み、ディスク(disk)は通常、磁気的にデータを再生し、一方で、ディスク(disc)は、レーザを用いて光学的にデータを再生する。上述の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
【0103】
命令は、1つ以上のデジタルシグナルプロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、または他の同等の集積型もしくは離散型論理回路などの、1つ以上のプロセッサによって実行され得る。従って、本明細書で使用される用語「プロセッサ」は、前述の構造のいずれかを指し得、または、本明細書で説明した技術の実装に適した他の構造のいずれかを指し得る。さらに、いくつかの態様では、本明細書で説明されている機能は、専用のハードウェア及び/またはソフトウェアモジュール内で提供され得る。また、技術は、1つ以上の回路または論理要素で完全に実装することができる。
【0104】
本開示の技術は、無線ハンドセット、集積回路(IC)、またはICのセット(例えばチップセット)を含む、様々なデバイスまたは装置で実装され得る。開示された技術を実行するように構成されたデバイスの機能的態様を強調するために、様々なコンポーネント、モジュール、またはユニットが本開示で説明されているが、必ずしも異なるハードウェアユニットによる実現を必要とするわけではない。むしろ、上述のように、様々なユニットは、ハードウェアユニット内で組み合わされてもよく、または適切なソフトウェア及び/またはファームウェアと併せて、上述の1つ以上のプロセッサを含む、動作中のハードウェアユニットの集合によって提供されてもよい。
【0105】
本開示の様々な例が説明された。説明されたシステム、動作、または機能の任意の組み合わせが企図されている。これらの、及び他の例は、以下の特許請求の範囲内にある。
【手続補正書】
【提出日】2024-09-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
テキスト文書内のワードを処理して、前記テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、
前記第1の複数の候補ワードをフィルタリングして、前記第1の複数の候補ワードの1つ以上の候補ワードを除外し、前記第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、
前記テキスト文書に注釈を付けて、前記第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、
前記第2の複数の候補ワードの少なくとも1つの候補ワードを特定する前記注釈付きテキスト文書の少なくとも一部分を出力することとを含む、方法。
【請求項2】
前記第1の複数の候補ワードをフィルタリングすることは、
ストップワードである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記ストップワードである、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外して、前記第2の複数の候補ワードを取得することとを含む、請求項1に記載の方法。
【請求項3】
前記第1の複数の候補ワードをフィルタリングすることは、
各候補ワードが前記第1の複数の候補ワードに出現する回数を示す前記第1の複数の候補ワードの候補ワードカウントを特定することと、
閾値を超える前記候補ワードカウントを有する前記第1の複数の候補ワードから前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項4】
前記第1の複数の候補ワードをフィルタリングすることは、
共通のホモグラフリストで指定されていないホモグラフである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通のホモグラフリストで指定されていないホモグラフとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項5】
前記第1の複数の候補ワードをフィルタリングすることは、
共通の名称付きエンティティリストで指定されている名称付きエンティティである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通の名称付きエンティティリストで指定されている名称付きエンティティとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項6】
前記第1の複数の候補ワードをフィルタリングすることは、
前記第1の複数の候補ワードに言語モデルを適用して、前記第1の複数の候補ワードの各候補ワードの難読性を判定することと、
前記第1の複数の候補ワードの各候補ワードの前記難読性に基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項7】
前記第1の複数の候補ワードをフィルタリングすることは、
前記第1の複数の候補ワードに学習モデルを適用して、ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する信頼度スコアを決定することと、
ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する前記信頼度スコアに基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを含む、請求項1に記載の方法。
【請求項8】
前記注釈付きテキスト文書の少なくとも前記一部分を出力することは、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示することを含み、前記方法は、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、
前記入力を受信することに応答して、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を表す発音オーディオデータを取得することと、
スピーカを介した再生のために前記発音オーディオデータを出力することとをさらに含む、請求項1
~7のいずれか1項に記載の方法。
【請求項9】
前記注釈付きテキスト文書の少なくとも前記一部分を出力することは、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示することを含み、前記方法は、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を受信することと、
前記口頭発音に基づいて、複数の潜在的な発音から潜在的な発音を特定することと、
前記潜在的な発音を前記第2の複数の候補ワードの前記少なくとも1つの候補ワードに関連付けることとをさらに含む、請求項1
~7のいずれか1項に記載の方法。
【請求項10】
テキスト文書を記憶するように構成されたメモリと、
1つ以上のプロセッサと、を含むコンピューティングデバイスであって、前記1つ以上のプロセッサは、
前記テキスト文書内のワードを処理して、前記テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、
前記第1の複数の候補ワードをフィルタリングして、前記第1の複数の候補ワードの1つ以上の候補ワードを除外し、前記第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、
前記テキスト文書に注釈を付けて、前記第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、
前記第2の複数の候補ワードの少なくとも1つの候補ワードを特定する前記注釈付きテキスト文書の少なくとも一部分を出力することとを行うように構成された、前記コンピューティングデバイス。
【請求項11】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
ストップワードである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記ストップワードである前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外して、前記第2の複数の候補ワードを取得することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項12】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
各候補ワードが前記第1の複数の候補ワードに出現する回数を示す前記第1の複数の候補ワードの候補ワードカウントを特定することと、
閾値を超える前記候補ワードカウントを有する前記第1の複数の候補ワードから前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項13】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
共通のホモグラフリストで指定されていないホモグラフである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通のホモグラフリストで指定されていないホモグラフとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項14】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
共通の名称付きエンティティリストで指定されている名称付きエンティティである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通の名称付きエンティティリストで指定されている名称付きエンティティとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項15】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
前記第1の複数の候補ワードに言語モデルを適用して、前記第1の複数の候補ワードの各候補ワードの難読性を判定することと、
前記第1の複数の候補ワードの各候補ワードの前記難読性に基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項16】
前記1つ以上のプロセッサが、前記第1の複数の候補ワードをフィルタリングするように構成されたときに、
前記第1の複数の候補ワードに学習モデルを適用して、ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する信頼度スコアを決定することと、
ホモグラフである前記第1の複数の候補ワードの各候補ワードに対する前記信頼度スコアに基づいて、前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行うように構成された、請求項10に記載のコンピューティングデバイス。
【請求項17】
前記1つ以上のプロセッサが、前記注釈付きテキスト文書の少なくとも前記一部分を出力するように構成されたときに、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示するように構成されており、
前記1つ以上のプロセッサが、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、
前記入力を受信することに応答して、前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を表す発音オーディオデータを取得することと、
スピーカを介した再生のために前記発音オーディオデータを出力することとを行うようにさらに構成された、請求項10
~16のいずれか1項に記載のコンピューティングデバイス。
【請求項18】
前記1つ以上のプロセッサが、前記注釈付きテキスト文書の少なくとも前記一部分を出力するように構成されたときに、インタラクティブユーザインターフェースを介して前記注釈付きテキスト文書の少なくとも前記一部分を表示するように構成されており、
前記1つ以上のプロセッサが、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードを選択する前記インタラクティブユーザインターフェースを介して入力を受信することと、
前記第2の複数の候補ワードの前記少なくとも1つの候補ワードの口頭発音を受信することと、
前記口頭発音に基づいて、複数の潜在的な発音から潜在的な発音を特定することと、
前記潜在的な発音を前記第2の複数の候補ワードの前記少なくとも1つの候補ワードに関連付けることとを行うようにさらに構成された、請求項10
~16のいずれか1項に記載のコンピューティングデバイス。
【請求項19】
記憶された命令を有す
るコンピュータ可読
プログラムであって、前記命令は、実行時、1つ以上のプロセッサに、
テキスト文書内のワードを処理して、前記テキスト文書の自動テキスト音声化処理中に誤って発音されると予測される第1の複数の候補ワードを特定することと、
前記第1の複数の候補ワードをフィルタリングして、前記第1の複数の候補ワードの1つ以上の候補ワードを除外し、前記第1の複数の候補ワードよりも少ない候補ワードを有する第2の複数の候補ワードを取得することと、
前記テキスト文書に注釈を付けて、前記第2の複数の候補ワードを特定する注釈付きテキスト文書を取得することと、
前記第2の複数の候補ワードの少なくとも1つの候補ワードを特定する前記注釈付きテキスト文書の少なくとも一部分を出力することとを行わせる
、コンピュータ可読
プログラム。
【請求項20】
実行時、前記1つ以上のプロセッサに、前記
第1の複数の候補ワードをフィルタリングさせる前記命令が、実行時、前記1つ以上のプロセッサに、
共通のホモグラフリストで指定されていないホモグラフである前記第1の複数の候補ワードの前記1つ以上の候補ワードを特定することと、
前記共通のホモグラフリストで指定されていないホモグラフとして特定された前記第1の複数の候補ワードの前記1つ以上の候補ワードを除外することとを行わせる命令を含む、請求項19に記載
のコンピュータ可読
プログラム。
【国際調査報告】