特許6021956 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アップル　インコーポレイテッドの特許一覧

特許6021956名前発音システム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6021956

(24)【登録日】2016年10月14日

(45)【発行日】2016年11月9日

(54)【発明の名称】名前発音システム及び方法

(51)【国際特許分類】

G10L 13/08 20130101AFI20161027BHJP

【ＦＩ】

G10L13/08 124

【請求項の数】18

【全頁数】25

(21)【出願番号】特願2014-560055(P2014-560055)

(86)(22)【出願日】2013年2月28日

(65)【公表番号】特表2015-512062(P2015-512062A)

(43)【公表日】2015年4月23日

(86)【国際出願番号】US2013028412

(87)【国際公開番号】WO2013130878

(87)【国際公開日】20130906

【審査請求日】2014年10月24日

(31)【優先権主張番号】13/411,180

(32)【優先日】2012年3月2日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】503260918

【氏名又は名称】アップルインコーポレイテッド

(74)【代理人】

【識別番号】100076428

【弁理士】

【氏名又は名称】大塚康徳

(74)【代理人】

【識別番号】100112508

【弁理士】

【氏名又は名称】高柳司郎

(74)【代理人】

【識別番号】100115071

【弁理士】

【氏名又は名称】大塚康弘

(74)【代理人】

【識別番号】100116894

【弁理士】

【氏名又は名称】木村秀二

(74)【代理人】

【識別番号】100130409

【弁理士】

【氏名又は名称】下山治

(74)【代理人】

【識別番号】100134175

【弁理士】

【氏名又は名称】永川行光

(72)【発明者】

【氏名】ナイク，デヴァングケー．

【審査官】千本潤介

(56)【参考文献】

【文献】米国特許出願公開第２０１０／０１５３１１５（ＵＳ，Ａ１）

【文献】特開平１１−２３１８８６（ＪＰ，Ａ）

【文献】特開２０００−３５２９８９（ＪＰ，Ａ）

【文献】特開２００１−２９６８８０（ＪＰ，Ａ）

【文献】特開２０００−０３２１４０（ＪＰ，Ａ）

【文献】米国特許第０７４７２０６１（ＵＳ，Ｂ１）

【文献】米国特許出願公開第２００２／００１３７０７（ＵＳ，Ａ１）

【文献】米国特許出願公開第２００９／００７６８１９（ＵＳ，Ａ１）

【文献】米国特許出願公開第２００７／０２１９７７７（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／０８

(57)【特許請求の範囲】

【請求項1】

名前を受け取るステップと、
前記名前を、前記名前の少なくとも２つの音節に対するとり得る音声発音を表す複数の単音節要素の複数の組にマッピングするステップであって、前記複数の単音節要素の複数の組からの複数の単音節要素が前記名前の音声発音を組み立てるように組み合わせ可能である、ステップと、
前記複数の単音節要素の複数の組をともに表示するステップと、
前記複数の単音節要素の複数の組のそれぞれから単音節要素についてのユーザ選択を受け取るステップと、
前記名前の前記音声発音を組み立てるために、前記複数の単音節要素の複数の組のそれぞれからの前記選択された単音節要素を組み合わせるステップとを含むことを特徴とする方法。

【請求項2】

ユーザインタフェースによって前記音声発音を出力するステップを含む、ことを特徴とする請求項１に記載の方法。

【請求項3】

前記音声発音を選択又は拒否するために、ユーザ入力を受け取るステップを含む、ことを特徴とする請求項２に記載の方法。

【請求項4】

ユーザと関連した連絡先リストから前記名前を受け取るステップを含む、ことを特徴とする請求項１から３のいずれか１項に記載の方法。

【請求項5】

前記名前が、名と姓の少なくとも一方を含む、ことを特徴とする請求項１から４のいずれか１項に記載の方法。

【請求項6】

前記単音節要素の１つ以上を含むデータストアを照会するステップを含む、ことを特徴とする請求項１から５のいずれか１項に記載の方法。

【請求項7】

前記単音節要素が、１つ以上の言語又は場所と関連付けられた構成要素を含む、ことを特徴とする請求項１から６のいずれか１項に記載の方法。

【請求項8】

前記名前の前記音声発音を組み立てるステップが、音声ファイルを生成することを含む、ことを特徴とする請求項１から７のいずれか１項に記載の方法。

【請求項9】

名前を受け取るように構成されたユーザインタフェースと、
前記名前を、前記名前の少なくとも２つの音節に対するとり得る音声発音を表す複数の単音節要素の複数の組にマッピングするように構成されたプロセッサであって、前記複数の単音節要素の複数の組からの単音節要素が前記名前の音声発音を組み立てるように組み合わせ可能である、プロセッサと、を備え、
前記ユーザインタフェースが、前記複数の単音節要素の複数の組をともに表示し、前記複数の単音節要素の複数の組のそれぞれから単音節要素についてのユーザ選択を受け取るように、構成され、
前記プロセッサが、前記複数の単音節要素の複数の組のそれぞれからの前記選択された単音節要素を組み合わせて前記名前の前記音声発音を組み立てるように構成された、ことを特徴とするシステム。

【請求項10】

前記ユーザインタフェースが、前記音声発音を提供するように構成された、ことを特徴とする請求項９に記載のシステム。

【請求項11】

前記ユーザインタフェースが、ユーザ入力を受け取って前記音声発音を選択又は拒否するように構成された、ことを特徴とする請求項１０に記載のシステム。

【請求項12】

前記プロセッサが、ユーザと関連した連絡先リストから前記名前を受け取るように構成された、ことを特徴とする請求項９から１１のいずれか１項に記載のシステム。

【請求項13】

前記名前が、テキスト形式である、ことを特徴とする請求項９から１２のいずれか１項に記載のシステム。

【請求項14】

前記システムが、前記名前と関連付けられた前記単音節要素のうちの１つ以上を含むデータストアを備え、前記プロセッサが、前記データストアを照会するように構成された、ことを特徴とする請求項９から１３のいずれか１項に記載のシステム。

【請求項15】

前記単音節要素が、１つ以上の言語又は場所と関連付けられた構成要素を含む、ことを特徴とする請求項９から１４のいずれか１項に記載のシステム。

【請求項16】

前記名前の前記音声発音を組み立てることが、音声ファイルを生成することを含む、ことを特徴とする請求項９から１５のいずれか１項に記載のシステム。

【請求項17】

方法であって、電子デバイスにおいて、
名前を受け取るステップと、
前記名前の第１の部分についてのとり得る音声発音を表す第１の複数の単音節要素を表示するステップと、
前記第１の複数の単音節要素の１つについての第１のユーザ選択を受け取るステップと、
前記名前の第２の部分を、前記名前の前記第２の部分についてのとり得る音声発音を表す第２の複数の単音節要素にマッピングするステップと、
前記第１の複数の単音節要素の前記１つに基づいて選択された前記第２の複数の単音節要素のサブセットを表示するステップと、
前記第２の複数の単音節要素のサブセットの少なくとも１つの単音節要素についての第２のユーザ選択を受け取るステップと、
前記名前の音声発音を組み立てるために、前記第１の複数の単音節要素の前記１つと、前記第２の複数の単音節要素のサブセットの前記少なくとも１つの単音節要素とを組み合わせるステップと含むことを特徴とする方法。

【請求項18】

名前を受け取るように構成されたユーザインタフェースであって、前記名前の第１の部分についてのとり得る音声発音を表す第１の複数の単音節要素を表示するように構成され、かつ、前記第１の複数の単音節要素の１つについての第１のユーザ選択を受け取るように構成された前記ユーザインタフェースと、
前記名前の第２の部分を、前記名前の前記第２の部分についてのとり得る音声発音を表す第２の複数の単音節要素にマッピングするように構成されたプロセッサと、を備え、
前記ユーザインタフェースが、前記第１の複数の単音節要素の前記１つに基づいて選択された前記第２の複数の単音節要素のサブセットを表示するように構成され、かつ、前記第２の複数の単音節要素のサブセットの少なくとも１つの単音節要素についての第２のユーザ選択を受け取るように構成され、
前記プロセッサが、前記名前の音声発音を組み立てるために、前記第１の複数の単音節要素の前記１つと、前記第２の複数の単音節要素のサブセットの前記少なくとも１つの単音節要素とを組み合わせるように構成された、ことを特徴とするシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、音声の認識及び合成に関し、より詳細には名前の発音の認識及び合成に関する。

【背景技術】

【0002】

名前認識は、音声認識の特に難しい側面である。名前には、人、事業及び他の団体の名前が挙げられる。名前分布は、ロングテールを有する。更に、名前の発音の仕方は、主観的かつ名前の起源によることがある。極めて一般的な少数の名前である可能性もあるが、極めて珍しい多数の名前である可能性もある。音声認識システムが名前を認識するために、言語学者は、典型的には、音声認識システムが導入された場所又は言語によって支援された音標文字のあらゆる発音を転記しなければならない。ほとんどの既存の音声認識及び合成システムは、最大で数百個又は数千個もの名前を有するが、今日使用されている固有名称は数百万個もある可能性がある。

【0003】

現在の音声認識システムは、典型的には、名前認識をモデル化して、ユーザデバイスの連絡先アプリケーションにおける命名入力に基づく電話ダイヤリング、検索と照会、リマインダ、及びイベントスケジューリングなどのタスクを支援する。名前を認識又は合成するために、現在のシステムは、しばしば辞書又は語彙集を使用する。これらの辞書又は語彙集は、名前をその可能な発音にマッピングすることを含む。しかしながら、名前が音声語彙集にモデル化されていない場合、システムは、発音を推定しなければならない。音声合成のために、システムは、名前に含まれる個々の音節の強調を推定しなければならないこともある。

【0004】

語彙集に明確にモデル化されていない名前の場合、音声認識システムは、典型的には、高度な文字音声変換規則を使用する発音ゲッサー（pronunciation guesser）に依存する。しかしながら、いくつかの音声単位が、特定の言語に固有なので、同じ名前が、異なるユーザによって違う風に発音されることがある。したがって、既存のシステムは、様々な言語及び文化から名前の発音をモデル化する適切な発音ゲッサーを構築できない。多くの場合、明確な規則がゲッサー内に存在しない限り、外国の名前の発音は、適切に推定されないことがある。

【発明の概要】

【0005】

本出願は、様々な実施態様において、名前の音声発音を効率的かつ好都合に構成するユーザインタフェースを提供するシステム、方法及び装置を提供する。

【0006】

一態様において、システムは、名前の単音節要素のユーザ選択に基づいて名前の音声発音を生成する。システムは、音声発音を名前と関連付けてもよい。システムは、名前を受け取るように構成されたユーザインタフェースを含んでもよい。システムは、また、組み合わせて名前の音声発音を組み立てることができる複数の単音節要素に名前をマッピングするように構成されたプロセッサを含んでもよい。ユーザインタフェースは、また、ユーザ入力を受け取って複数の単音節要素の１つ以上を選択するように構成されてもよい。更に、プロセッサは、複数の単音節要素のうちの選択された１つ以上を組み合わせて名前の音声発音を組み立てるように構成されてもよい。

【0007】

１つの構成では、ユーザインタフェースは、ユーザに音声発音を提供するように構成される。ユーザインタフェースは、第２のユーザ入力を受け取って音声発音を選択又は拒否するように構成されてもよい。ユーザインタフェースは、また、複数の単音節要素の第１の部分をユーザに表示するように構成されてもよい。ユーザインタフェースは、複数の単音節要素の第１の部分のうちの１つのユーザ選択に応じて、単音節要素の第２の部分を表示するように更に構成されてもよい。

【0008】

プロセッサは、連絡先アプリケーション及び／又はユーザと関連した他のアプリケーションの連絡先リストから名前を受け取るように構成されてもよい。名前は、テキスト形式であってよい。プロセッサは、名前と関連付けられた単音節要素の１つ以上を含むデータストア及び／又はデータベースを照会するように構成されてもよい。単音節要素は、１つ以上の言語、文化、及び／又は場所と関連付けられた構成要素を含んでもよい。名前の音声発音の組み立てには、音声ファイルを生成することを含んでもよい。

【0009】

別の態様において、名前の音声発音と関連付けられた用法情報を決定するためのシステムが、１つ以上の連絡先名を受け取るように構成されたサーバを含んでもよい。システムは、１つ以上の名前と関連付けられた１つ以上の音声発音を記憶するように構成されたデータストアを含んでもよい。サーバは、１つ以上のユーザデバイスからの１つ以上の名前と関連付けられた１つ以上の音声発音の指示を受け取り、１つ以上の名前と関連付けられた１つ以上の音声発音と関連付けられた用法データを決定するように構成されてもよい。

【0010】

指示は、１つ以上の音声発音を含んでもよい。指示は、１つ以上のユーザデバイスからの１つ以上の音声発音の選択を含んでもよい。用法データは、ある期間中に指示が受け取られるインスタンスの量を含んでもよい。サーバは、名前と関連付けられた音声発音の少なくとも１つを、用法データに基づいて第１のユーザデバイスに提供するように構成されてもよい。

【0011】

別の態様では、システムは、複数の発音ゲッサーを含み、及び／又は備えてもよく、発音ゲッサーはそれぞれ、言語又は場所の特定の音標文字と関連付けられる。例えば、音標文字は、英語、フランス語、ドイツ語、スペイン語、及びイタリア語であってよいがこれらに限定されない。プロセッサは、ユーザと関連付けられた言語又は場所を決定し、第１の音標文字（例えば、英語）をユーザと関連付けられた言語又は場所と関連付ける。言語及び／又は場所の決定は、メーカー入力、サービス提供者入力、ユーザ入力、システムの位置と関連付けられた地理的領域の検出、名前のタイプの分析、及び／又はユーザによる他の単語の入力などによるものであってよい。

【0012】

発音ゲッサーはそれぞれ、名前の表現を受け取ってもよい。表現は、正字法であってよい。正字法は、一般には、単語の綴りを指すとすることができる。正字法の表現は、単語及び／又は名前の表現と関連付けられた言語の音素及び／又はシンボル（例えば、書記素及び／又は方言）を定義することがある。次に、複数の発音ゲッサーはそれぞれ、名前の１つ以上の構成要素の音声発音を推定してもよい。次に、音声マッパは、複数の発音ゲッサーのそれぞれによって推定された名前の１つ以上の構成要素の音声発音を第１の音標文字にマッピングして、推定発音リストを生成してもよい。音声レコグナイザは、名前の音声発音を受け取り、次に、発音されたときに、名前の音声発音と実質的に合致及び／又は最良合致する構成要素の組み合わせを推定発音リストから選択してもよい。

【0013】

名前の１つ以上の構成要素はそれぞれ、音声単位、音素、単音節要素、特定のタイプの強調を有する単音節要素、及び単語の一部分の少なくとも１つを含んでもよい。プロセッサ１０２は、ユーザと関連付けられた言語又は場所を識別してもよい。発音ゲッサーの数は、ユーザと関連付けられた言語又は場所に基づいて決定されてもよい。複数の発音ゲッサーのそれぞれのタイプは、ユーザと関連付けられた言語又は場所に基づいて決定されてもよい。発音ゲッサーのタイプは、発音ゲッサーと関連付けられた言語又は場所のタイプを含んでもよい。

【0014】

いくつかの実施態様によれば、名前を受け取るステップと、名前を複数の単音節要素にマッピングするステップであって、複数の単音節要素のうちの少なくとも一部が、名前の音声発音を組み立てる組み合わせが可能である、ステップと、ユーザ入力を受け取って複数の単音節要素のうちの１つ以上を選択するステップと、複数の単音節要素のうちの選択された１つ以上を組み合わせて名前の音声発音を組み立てるステップとを含む方法が提供される。

【0015】

いくつかの実施態様によれば、複数の発音ゲッサーを提供するステップであって、複数の発音ゲッサーがそれぞれ、言語又は場所のそれぞれの音標文字と関連付けられる、ステップと、ユーザ言語又はユーザの場所を決定するステップと、第１の音標文字をユーザ言語又はユーザの場所と関連付けるステップと、各発音ゲッサーで、名前の表現を受け取るステップと、各発音ゲッサーで、名前の１つ以上の構成要素の音声発音を推定するステップと、複数の発音ゲッサーのそれぞれによって推定された名前の１つ以上の構成要素の音声発音を第１の音標文字にマッピングして、推定発音リストを生成するステップと、名前の音声発音を受け取るステップと、発音されたときに、名前の音声発音と実質的に合致する推定発音リストから構成要素の組み合わせを選択するステップとを含む方法が提供される。

【0016】

いくつかの実施態様によれば、名前の音声発音の用法を決定する方法であって、名前を受け取るステップと、名前と関連付けられた１つ以上の音声発音を記憶するステップと、１つ以上のユーザデバイスから名前と関連付けられた１つ以上の音声発音の指示を受け取るステップと、名前と関連付けられた１つ以上の音声発音と関連付けられた用法データを決定するステップとを含む方法が提供される。

【0017】

いくつかの実施態様によれば、電子デバイスは、１つ以上のプロセッサ、メモリ、及び１つ以上のプログラムを含み、この１つ以上のプログラムが、メモリに記憶され、１つ以上のプロセッサによって実行されるように構成され、１つ以上のプログラムが、前述の方法及び／又は技術のいずれかの動作を行うための命令を含む。いくつかの実施態様によれば、コンピュータ可読記憶媒体は内部に命令を記憶し、この命令は電子デバイスによって実行されると、機器に上記に述べた方法及び／又は技術のいずれかの動作を実行させる。いくつかの実施態様によれば、電子デバイスは、前述の方法及び／又は技術のいずれかの動作を実行する手段を有する。いくつかの実施形態によれば、電子デバイスに使用するための情報処理装置は、前述の方法及び／又は技術のいずれかの動作を実行するための手段を含む。

【0018】

いくつかの実施態様によれば、電子デバイスは、名前を受け取り、その名前を複数の単音節要素にマッピングするように構成された処理ユニットを含み、複数の単音節要素の少なくとも一部は、名前の音声発音を組み立てるように組み合わせ可能である。電子デバイスは、また、処理ユニットに結合された入力受取りユニットを含み、入力受取りユニットは、ユーザ入力を受け取って複数の単音節要素のうちの１つ以上を選択するように構成される。処理ユニットは、複数の単音節要素のうちの選択された１つ以上を組み合わせて名前の音声発音を組み立てるように更に構成される。

【0019】

いくつかの実施態様によれば、電子デバイスは、複数の発音推定ユニットを含む処理ユニットを含み、複数の発音推定ユニットはそれぞれ、言語又は場所のそれぞれの音標文字と関連付けられる。処理ユニットは、ユーザ言語又はユーザの場所を決定し、第１の音標文字をユーザ言語又はユーザの場所と関連付け、各発音推定ユニットで名前の表現を受け取り、各発音推定ユニットで、名前の１つ以上の構成要素の音声発音を推定し、複数の発音推定ユニットのそれぞれによって推定された名前の１つ以上の構成要素の音声発音を第１の音標文字にマッピングして、推定発音リストを生成するように構成される。電子デバイスは、また、処理ユニットに結合された入力受取りユニットを含み、入力受取りユニットは、名前の音声発音を受け取るように構成される。音声レコグナイザは、名前の音声発音を受け取り、次に、発音されたときに、名前の音声発音と実質的に合致及び／又は最良合致する構成要素の組み合わせを推定発音リストから選択してもよい。

【0020】

いくつかの実施態様によれば、電子デバイスは、名前を受け取るように構成された処理ユニットと、処理ユニットに結合され、名前と関連付けられた１つ以上の音声発音を記憶するように構成された記憶ユニットと、処理ユニットに結合された指示受取りユニットであって、１つ以上のユーザデバイスから名前と関連付けられた１つ以上の音声発音の指示を受け取るように構成された指示受取りユニットとを含む。処理ユニットは、更に、名前と関連付けられた１つ以上の音声発音と関連付けられた用法データを決定するように更に構成される。

【0021】

本開示の原理による名前発音システム及びインタフェースを使用する様々な利点及び用途は、以下により詳細に述べられる。

【0022】

本出願の以上その他の特徴、性質及び様々な利点は、全体にわたって同じ参照文字が同じ部分を指す添付図面と関連して行われる以下の詳細な説明の考察により明らかになる。

【図面の簡単な説明】

【0023】

【図1】ユーザ主導名前発音システムの構成要素を含む図である。

【図2】ユーザ主導発音システム内で実行される様々な機能、アプリケーション及び／又はルーチンを含むコンピュータ処理環境の図である。

【図3】ユーザ主導名前発音システムを含むネットワークの図である。

【図4】連絡先リスト又はユーザ入力から名前の発音を生成するプロセスの流れ図である。

【図5】単音節要素を含む名前の表示である。

【図6】別の名前とその単音節要素を含む表示である。

【図7】更に別の名前とその単音節要素を含む表示の図である。

【図8】名前の音声発音を決定するシステムの図である。

【図9】名前の音声発音を生成するプロセスの流れ図である。

【図10】名前の単音節要素のユーザ選択に基づいて名前の音声発音を生成する別のプロセスの流れ図である。

【図11】名前の音声発音と関連付けられた用法情報を決定するプロセスの流れ図である。

【図12】いくつかの実施形態による電子デバイスの機能ブロック図である。

【図13】いくつかの実施形態による電子デバイスの機能ブロック図である。

【図14】いくつかの実施形態による電子デバイスの機能ブロック図である。

【発明を実施するための形態】

【0024】

本出願は、様々な実施態様において、名前の音声発音を効率的かつ好都合に構成するユーザインタフェースを提供するシステム、方法及び装置を提供する。いくつかの構成では、このインタフェースは、ユーザの連絡先から任意の名前を複数の単音節名にマッピングして名前の適正な発音を組み立てるアプリケーションを実施するプロセッサを使用する。名前は、最初に、転記意図の、言語のユーザが発音し易い複数の単音節語に分けられることがある。音節は、母音、二重母音又は音節子音からなる単一連続音を含む音声言語の単一要素と見なすことができる。音は、単一の子音又は複数の子音によって先行されるか、後続されるか、又は囲まれてもよい。

【0025】

幾つかの構成では、インタフェースは、ユーザが、自分の単音節語を入力して名前の発音を正確に表すことを可能にする。インタフェースは、一連の単音節語をユーザに提示し、ユーザが様々な単音節語を選択して名前の全体的発音を構成できるようにする。特定の実施態様では、インタフェースは、ユーザが発音を改良することを可能にするフィードバックとして、選択された発音と関連した音声をユーザに提供する。

【0026】

インタフェースは、ユーザが、ユーザの連絡先リストにある名前の基本発音に最も近い１つ以上の単音節語を選択し、及び／又は特定のシーケンスの単音節語を選択することを可能にする。インタフェースは、単音節語のうちの１つ以上の効率的なユーザ選択を可能にするタッチスクリーンを含んでもよい。インタフェースは、発音の最良推定をユーザに提供してもよい。一実施態様では、洗練された発音は、音声認識機能が対応する音標文字に転記され、ユーザの動的語彙の語彙集の一部として組み込まれる。

【0027】

語彙集は、複数ユーザからの入力に基づいてクラウドソーシング発音プロセスの一部として使用されてもよい。例えば、使用される単音節語のタイプ、及び特定の単音節語が使用される頻度と関連付けられた複数のユーザからの発音データを収集することによって、言語学者を雇用する潜在的に大きいコストを削減するか又はなくし、同時に音声名前のより大規模でより適切な語彙集を作成することができる。この名前発音システムは、また、不十分な発音ゲッサーに依存するのと対照的に、ユーザが、日常作業の認識と合成のためにより正確な発音の名前を利用することを可能にする。

【0028】

図１は、ユーザ主導名前発音システム１００の構成要素を含む図である。システム１００は、ユーザインタフェース１０２、プロセッサ１０４及びデータストア１０６を含む。ユーザインタフェース１０２は、１人以上のユーザにシステム１００と通信するためのインタフェースを提供するように構成されたハードウェア、ソフトウェア又はこれらの組み合わせを含んでもよい。プロセッサ１０４は、システム１００のデータ、機能及び／又はアプリケーションを処理するように構成された１つ以上のプロセッサを含んでもよい。データストア１０６は、１つ以上の記憶装置を含んでもよい。

【0029】

特定の実施態様では、ユーザインタフェース１０２は、ユーザがシステム１００と対話することを可能にする。例えば、ユーザインタフェース１０２は、ボタン、キーパッド、ダイヤル、クリックホイール、マイクロフォン、タッチスクリーンなどの様々な形態をとることができるユーザ入力装置を含んでもよい。ユーザインタフェース１０２は、これらに限定されないが、ディスプレイ、スピーカ、トランスジューサ、ヘッドホン、振動発生機などの様々な形態をとることができる出力装置を含んでもよい。特定の実施態様では、ユーザインタフェース１０２は、ユーザから音声入力及び／又はコマンドを受け取るように構成される。ユーザインタフェース１０２は、オーディオ情報を１つ以上のスピーカ及び／又はヘッドホンを介してユーザに出力してもよい。

【0030】

特定の実施態様では、プロセッサ１０４は、ユーザデバイス内に配置された１つ以上のプロセッサを含む。他の実施態様では、プロセッサ１０４は、複数の装置間に複数のプロセッサを含んでもよい。そのような実施態様に関する更なる詳細は、本明細書の後半で図３に関して言及される。プロセッサ１０４は、図２に関して本明細書の後半で述べるような様々な機能の動作、及びシステム１００に含まれる他の回路を制御することができる。プロセッサ１０４は、ユーザインタフェース１０２の表示を駆動し、ユーザインタフェース１０２からユーザ入力を受け取ってもよい。プロセッサ１０４は、例えば、システム１００の動作中にデータストア１０６との間で実行可能コードを含むデータを受け取り、取得しかつ／又は送ることができる。プロセッサ１０４は、デジタル音声信号を、ユーザインタフェース１０２のスピーカを駆動するアナログ信号に変換して、名前、声、音楽及び他の類似の音声の発音を含む音を作成するコーダ／デコーダ（ＣＯＤＥＣ）プロセッサを含んでもよい。ＣＯＤＥＣは、また、ユーザインタフェース１０２のマイクロフォンからの音声入力をデジタル音声信号に変換することができる。プロセッサは、デジタル音声信号をデータストア１０６内にデータファイルとして記憶することができる。ＣＯＤＥＣは、デジタル及び／又はアナログビデオ信号を処理するビデオＣＯＤＥＣを含んでもよい。いくつかの構成において、プロセッサ１０４は、１つ以上のユーザデバイス、パーソナルコンピュータ、及び／又はサーバ内で動作する１つ以上の中央処理装置（ＣＰＵ）を含む。

【0031】

特定の実施態様において、データストア１０６は、媒体（例えば、音楽及びビデオファイル）、連絡先情報（例えば、連絡先名）、連絡先名と関連付けられた音声データ（例えば、単音節語）、ソフトウェア（例えば、システム１００の機能を埋め込むための）、基本設定情報（例えば、媒体再生基本設定）、トランザクション情報（例えば、クレジットカード情報などの情報）、接続情報（例えば、システム１００の構成要素が別のシステムとの通信を確立できるようにする情報）、加入情報（例えば、ユーザが加入するポッドキャスト、テレビ番組、又はその他の媒体のトラックを維持する情報）、及び任意の他の適切なデータを記憶することができる。データストア１０６は、ハードドライブ、ＲＯＭなどの永久メモリ、ＲＡＭなどの半永久メモリ、ソリッドステートメモリ、リムーバブルメモリ、ＣＤ−ＲＯＭ、ＣＤ−ＲＷ、ディスケット、ファームウェア、キャッシュ、及び電子データを記憶できる他の類似の装置を含むがこれらに限定されない１つ以上の記憶媒体を含んでもよい。データストア１０６は、データベースを含んでもよい。データベースは、リレーショナルデータベース管理システム（ＲＤＢＭＳ）及び／又は構造化照会言語（ＳＱＬ）データベースなどを含んでもよい。

【0032】

図２は、例えば、図１のシステム１００などのユーザ主導発音システム内で実行する様々な機能、アプリケーション及び／又はルーチン２０２〜２１０を含むコンピュータ処理環境２００の図である。コンピュータ処理環境２００は、発音ゲッサー２０２、音声レコグナイザ２０４、音声シンセサイザ２０６、連絡先アプリケーション２０８、及び他のアプリケーション２１０を含んでもよい。

【0033】

特定の実施態様では、発音ゲッサー２０２は、名前などの単語を発音する規則を、それらの関連付けられた文字綴りからモデル化する。発音ゲッサーには、隠れマルコフモデル、決定木クラシファイヤ、及び／又は音素又は一連の音素を文字、一連の文字及び／又は単語と関連付けて名前の発音を生成する他の統計モデルなどであるがこれらに限定されない学習アルゴリズム及び／又は技術を挙げることができる。発音ゲッサーは、１つ以上の言語と関連付けられたデータ及び／又はライブラリを利用して、例えば、データストア１０６及び／又は３１２内のデータベースからのデータを含む発音を予測することができる。

【0034】

特定の実施態様において、音声レコグナイザ２０４は、ユーザによる話し言葉を電子文字及び／又はデータに変換する。音声レコグナイザ２０４は、特定のユーザからの音声を認識しかつ／又は一般に任意のユーザから音声を認識するように構成されてもよい。音声レコグナイザ２０４は、例えば、通話を始めるための音声式ダイヤリングアプリケーション（例えば、「ＣａｌｌＢｉｌｌ」）などの他のアプリケーション２１０と共に利用されてもよい。他のアプリケーション２１０には、デバイス制御（例えば、「電話を切る」）、検索（例えば、「ラブソングを見つける」）、データ入力（例えば、「１０番大通り」）、音声文字変換処理（例えば、電子メールの内容を入力する）、及び会話ユーザ入力を利用する任意の類似のアプリケーションが挙げられる。音声レコグナイザ２０４は、隠れマルコフモデル（ＨＭＭ）、動的時間収縮法（ＤＴＷ）を利用した音声認識、及び／又は統計音声認識モデルを含むがこれらに限定ではないいくつかのモデルのいずれかを利用することができる。音声レコグナイザ２０４は、音素の文脈依存性、声道長正規化（ＶＴＬＮ）、最尤線形回帰（ＭＬＬＲ）、異分散線形判別分析（ＨＬＤＡ）、ベイジアンネットワーク、ビタビアルゴリズム、及び／又は音声認識のための類似技術を使用することができる。

【0035】

特定の実施態様では、音声シンセサイザ２０６は、人間の話し言葉を電子的に作成する。音声シンセサイザ２０６は、ソフトウェア、ハードウェア又はこれらの組み合わせで実施されてもよい。１つの構成において、シンセサイザ２０６は、電子データ、電子テキスト及び／又は発音表記など記号言語表現を音声に変換する。シンセサイザ２０６は、データストア１０６及び／又は３１２内などのデータベースからの記録音声の一部分を連結することによって、名前などの話し言葉を生成することができる。音声シンセサイザ２０６は、電話、ｄｉｐｈｏｎｅｓ、単語、単語の単音節要素、及び／又は文にアクセスして、合成音声出力及び／又は音声ファイルを作成することがある。シンセサイザ２０６は、任意の１つ以上の技術を利用して自然で明瞭な音を作成することができる。この技術には、波形接続音声合成、ユニット選択合成、ｄｉｐｈｏｎｅ合成、単音節要素合成、領域固有合成、フォーマット合成、発語合成、隠れマルコフモデル（ＨＭＭ）合成、及び／又は正弦波合成が挙げられるがこれらに限定されない。シンセサイザ２０６は、連絡先アプリケーション２０８や他のアプリケーション２１０などの１つ以上のアプリケーションと共に利用されうる。Ｓｉｒｉ（登録商標）は、カリフォルニア州クパチーノのＡｐｐｌｅＩｎｃ．，から入手可能な名前認識を使用するタイプのアプリケーションである。例えば、ユーザは、「ＦｉｎｄｅｍａｉｌｓｆｒｏｍＳｔｅｖｅ（スティーヴからの電子メールを探す）」か「ＣａｌｌＰｅｔｅｒａｔｈｏｍｅ（自宅にいるピーターに電話する）」と話すことがある。

【0036】

特定の実施態様において、連絡先アプリケーション２０８は、リスト及び／又はデータベースに記憶されることがあるユーザと関連付けられた１つ以上の連作先を含む。各連絡先は、連絡先名、住所、電話番号、電子メール（ｅメール）アドレス、及び／又は他の情報を含むことがある。各連絡先は、「表音の名」及び／又は「表音の姓」フィールドを含むことがある。連絡先アプリケーション２０８は、他のアプリケーション２１０と接続する独立型アプリケーションであってよい。例えば、別のアプリケーション２１０には、無線電話呼び出しアプリケーションを含むことがある。連絡先アプリケーション２１０は、通話アプリケーションと接続して、連絡先アプリケーション２０８から選択された連絡先に通話を開始することができる。連絡先アプリケーション２０８は、他のアプリケーション２１０と統合されてもよい。例えば、他のアプリケーション２１０は、ユーザが電子メールを送受信し及び／又はメールサーバにアクセスすることを可能にする電子メールアプリケーションを含んでもよい。連絡先アプリケーション２０８は、ユーザが、連絡先名、住所、電話番号、電子メール（ｅメール）アドレス、及び／又は他の情報などの情報と関連付けられた１つ以上の連絡先を記憶できるようにするメールアプリケーションの機能であってよい。連絡先アプリケーション及び／又は電子メールアプリケーションは、例えば、カリフォルニア州クパチーノのＡｐｐｌｅＩｎｃ．，から入手可能なＡｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、ｉＰａｄ（登録商標）及びｉＰｏｄＴｏｕｃｈ（登録商標）に実装される連絡先及び／又はメールアプリケーションを含んでもよい。

【0037】

図３は、ユーザ主導名前発音システム３００を含むネットワークの図である。システム３００は、ユーザデバイス３０２、３０４及び／又は３０６、ネットワーク３０８、サーバ３１０及び／又はデータストア３１２を含む。

【0038】

ユーザデバイス３０２、３０４及び／又は３０６は、パーソナルコンピュータ（ＰＣ）、携帯情報端末（ＰＤＡ）、携帯型コンピューティング装置、携帯電話、衛星電話、コードレス電話機、ページャ、又は図２の環境２００の１つ以上の機能を実現することができる他の電子デバイスを含んでもよい。ユーザデバイス３０２、３０４及び／又は３０６は、車両、ビデオゲームシステム、機器、衣類、ヘルメット、眼鏡、着用服、ステレオシステム、エンタテインメントシステム、又は他の携帯機器のような他の装置又は構造物のパッケージに組み込まれてもよい。ユーザデバイス３０２、３０４及び／又は３０６のタイプには、例えば、カリフォルニア州クパチーノのＡｐｐｌｅＩｎｃ．，から入手可能なＡｐｐｌｅ（登録商標）ｉＰｏｄ（登録商標）、ｉＰａｄ（登録商標）、ｉＰｈｏｎｅ（登録商標）、ｉＭａｃ（登録商標）、ＭａｃＢｏｏｋＰｒｏ（登録商標）及びＭａｃＢｏｏｋＡｉｒ（登録商標）など、並びに有線及び／又は無線で通信することができる任意の他の装置が挙げられる。

【0039】

ユーザデバイス３０２、３０４及び／又は３０６は、例えばリモート計算処理システム又はサーバ３１０と同期して、媒体及び／又はユーザ発音関連データ（無線又は有線のいずれかの通信経路を使用して）を受信することができる。媒体には、ストリーミング及び／又は個別（例えば、ファイルとパケット）形式のサウンド又は音声ファイル、音楽、ビデオ、マルチメディア及びデジタルデータが挙げられるが、これらに限定されない。

【0040】

ユーザデバイス３０２、３０４及び／又は３０６は、有線及び／又は無線通信（例えば、短距離及び／又は長距離通信）のための通信回路を含んでもよい。例えば、無線通信回路は、８０２．１１規格のうちの１つによる無線通信を可能にするＷｉ−Ｆｉ（登録商標）対応回路であってよい。特定のプロトコルの代わり又は特定のプロトコルに加えて、他のワイヤレスネットワークプロトコル規格を使用することができる。他のネットワーク規格には、Ｂｌｕｅｔｏｏｔｈ（登録商標）、モバイル通信用グローバルシステム（ＧＳＭ）、コード分割マルチプルアクセス（ＣＤＭＡ）、ロングタームエボリューション（ＬＴＥ）、及び／又は４Ｇベース無線プロトコルが挙げられる。

【0041】

通信ネットワークを作成する働きをする任意の適切な回路、装置、システム又はこれらの組み合わせ（例えば、通信タワー及び電気通信サーバを含む無線通信インフラストラクチャ）を使用して、ネットワーク３０８を作成することができる。ネットワーク３０８は、任意の適切な通信プロトコルを使用して通信を提供することができる。いくつかの実施形態では、ネットワーク３０８、ユーザデバイス３０２、３０４及び／又は３０６、並びにサーバ３１０は、例えば、従来の電話線、ケーブルテレビ、Ｗｉ−Ｆｉ（登録商標）、イーサネット（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、高周波システム（例えば、９００ＭＨｚ、２．４ＧＨｚ、及び５．６ＧＨｚ通信システム）、赤外線、伝送制御プロトコル／インターネットプロトコル（「ＴＣＰ／ＩＰ」）（例えば、ＴＣＰ／ＩＰ層のそれぞれで使用されるプロトコルのいずれか）、ハイパーテキスト転送プロトコル（「ＨＴＴＰ」）、ＢｉｔＴｏｒｒｅｎｔ（登録商標）、ファイル転送プロトコル（「ＦＴＰ」）、実時間転送プロトコル（「ＲＴＰ」）、実時間ストリーミングプロトコル（「ＲＴＳＰ」）、セキュアシェルプロトコル（「ＳＳＨ」）、他の通信プロトコル、又はこれらの任意の組み合わせに対応している。

【0042】

特定の実施態様では、サーバ３１０は、ＬＩＮＵＸ、ＵＮＩＸ、Ｗｉｎｄｏｗｓ（登録商標）、又はＭＡＣＯＳオペレーティングシステムのうちの１つ以上を含む。サーバ３１０は、１つのコンピュータ装置又は複数のコンピュータ装置上に実装され得る。データストア３１２は、１つ以上のディスクドライブ、ソリッドステートメモリ、揮発性及び／又は不揮発性メモリ、記憶ディスクアレイ、及び／又は複数の冗長記憶要素を含んでもよい。サーバ３１０は、複数のハードウェアサーバ要素間で分散及び／又は複製された仮想サーバを含んでもよい。

【0043】

一実施態様において、ユーザデバイス３０２、３０４及び／又は３０６は、図１の構成要素１０２、１０４及び１０６のうちの１つ以上、及び図２の機能２０２、２０４、２０６、２０８及び２１０のうちの１つ以上を含む。例えば、ユーザデバイス３０２は、図１の構成要素１０２、１０４及び１０６と図２の機能２０２、２０４、２０６、２０８及び２１０のすべてを含む独立型ユーザ発音システムとして動作する携帯型コンピューティング装置を含んでもよい。１つの構成において、ユーザデバイス３０２は、データストア３１２に定期的に又は他の瞬間にアクセスして、連絡先名、連絡先情報（例えば、住所、電子メールアドレス、電話番号など）、及び連絡先名と関連付けられた単音節要素を含むユーザ発音関連データを取得する。ユーザデバイス３０２は、ユーザ発音関連データを、データストア１０６内にローカルに記憶し及び／又はデータストア３１２内にリモートに記憶してもよい。

【0044】

別の実施態様において、ユーザデバイス３０２及びサーバ３１２は、協力的に動作して、図２の機能２０２、２０４、２０６、２０８及び２１０のうちの１つ以上を実施してもよい。１つの構成において、ユーザデバイス３０２は、図２の環境２００の機能を実施するサーバ３１０のクライアント及び／又は端末として動作する。別の構成では、ユーザデバイス３０２及びサーバ３１０は両方とも、図２の環境２００の１つ以上の機能を実行する。更に別の構成では、ユーザデバイス３０２は、図２の機能２０２、２０４、２０６、２０８及び２１０の一部分を実行し、サーバ３１０及び／又はデータストア３１２は、図２の機能２０２、２０４、２０６、２０８及び２１０の別の部分を実行する。

【0045】

図４は、連絡先リスト又はユーザ入力から名前の音声発音を生成するプロセス４００の流れ図である。プロセス４００のステップのうちの１つ以上は、例えば、図２の機能２０２、２０４、２０６、２０８及び２１０のうちの１つ以上を使用する図１と図３のシステム１００及び３００などのユーザ主導名前発音システムによって実施されうる。

【0046】

一実施態様では、ユーザデバイス３０２などのユーザデバイスは、１つ以上の連絡先名を含む連絡先アプリケーション２０８を含む。ユーザは、連絡先アプリケーション２０８にアクセスして、記憶された連絡先名の文字と関連付けられた音声発音を決定することができる。連絡先名は、名及び／又は姓を含むことがある。Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）などの特定の装置が、ユーザが手動で音声綴りを挿入する音声の名と音声の姓フィールドを提供して、連絡先をどのように発音すべきかを決定する。手動入力は、時間がかかり、正確な発音が最終的に合成されるかを保証しないことがあり得る。したがって、ユーザがその連絡先の名前に精通していることと、ユーザがその名前をどのように発音しようとするかを利用して、名前の発音を効率的かつ好都合に呈示し明瞭に発音する方法をユーザに提供することが有利になる。

【0047】

特定の実施態様では、ユーザは、連絡先アプリケーション２０８又は他のアプリケーション２１０のユーザインタフェース１０２によって名前を選択して、名前の適切な音声発音を指定することができる。発音ゲッサー２０２は、名前を受け取る（ステップ４０２）。代替又は追加として、ユーザデバイス３０２などのユーザデバイスは、話された名前及び／又は他の単語を受け取るためのユーザインタフェース１０２を含んでもよい。ユーザインタフェース１０２は、ユーザが提供した名前を受け取るマイクロフォンを含み、次にその名前は、音声レコグナイザ２０４に提供されて話された名前が文字に変換され得る。ユーザは、例えば、「Ｐｈｉｌｉｐｐｅ」などの名前を話し、それが電子データ及び／又は文字に変換され得る。「Ｐｈｉｌｉｐｐｅ」の電子データ及び／又は文字は、更なる処理のために発音ゲッサー２０２によって受け取られ得る。受け取った名前は、連絡先内のエントリ、例えば、ｉＰｈｏｎｅ（登録商標）などのユーザデバイス３０２内の連絡先アプリケーション２０８の「名」及び／又は「姓」フィールドであってよい。受け取った名前は、連絡先アプリケーション２０８の名前欄と関連付けられた名前の記録であってよい。例えば、１つの名前は、名前の隣りに表示及び／又は位置決めされてユーザが発音を名前に関連付けることを可能にするアイコンを有することができる。

【0048】

次に、発音ゲッサー２０２は、名前と関連付けられた１組の可能な音声発音を過剰に生成する（ステップ４０４）。例えば、図４の特徴４１４は、用語「Ｈａｆｓ」の複数の可能な発音を示す。１つの構成で、発音ゲッサー２０２は、名前に１つ以上の単音節要素をマッピングする。マッピングは、例えば、データストア１０６及び／又は３１２に含まれるデータベースから１つ以上の単音節要素を生成し、関連付けかつ／又は取得することを含むことがある。データベースは、１つ以上の連絡先名と、各連絡先名と関連付けられかつ／又はマッピングされた１つ以上の単音節要素及び／又は単語を記憶するリレーショナルデータベースを含んでもよい。特定の構成では、発音ゲッサー２０２は、１つ以上の場所及び／又は言語に基づいて可能な音声発音をマッピングしかつ／又は生成してもよい。例えば、発音ゲッサー２０２は、英語、ドイツ語、フランス語などの様々な言語での音声発音の語彙集を含むデータストア１０６及び／又は３１２内のデータベースにアクセスしてもよい。語彙集は、１つ以上の言語で名前と関連付けられた単音節要素を含んでもよい。例えば、図５と関連して、名前「Ｐｈｉｌｉｐｐｅ」は、英語要素５０８「ｆｉｌｌ」とフランス語要素５０６「ｌｅａｐ」を有することがある。

【0049】

次に、生成されたリスト及び／又は組の可能な音声発音は、例えば、可能な音声発音の認識を実行し適切な音声変換の最も近い推定を選択するレコグナイザ２０４に提供される（ステップ４０６）。１つの構成では、レコグナイザ２０４は、条件付き音声認識を使用する。条件付き認識は、制限された処理能力、より高速認識の必要性、記憶容量の可用性、音声発音の語彙集のサイズ、及び／又は他のシステム制約などの、制限された資源に基づいて使用され得る。レコグナイザ２０４は、最も近い推定を決定する際に、ユーザの位置などの要素を考慮することがある。例えば、ユーザ及び／又はユーザデバイス３０２が、実質的に、特定の言語又は場所と関連付けられた特定の地理的領域内に起源がありかつ／又は存在する場合、レコグナイザ２０４は、最も近い可能な推定を選択するときに位置を考慮することがある。レコグナイザ２０４は、また、名前の最も近い可能な推定を選択するための言語及び／又は場所を決定する際に、他の名前の音声発音のユーザの選択を考慮してもよい。

【0050】

代替の実施態様では、生成されたリスト及び／又は組の可能な音声発音は、ユーザインタフェース１０２を介してユーザに提供される。１つの構成では、ユーザインタフェース１０２は、１組の単音節要素及び／又は単語を含む音声発音のリスト及び／又は組を示す。

【0051】

図５は、単音節要素５０４、５０６、５０８、５１０、５１２、５１４、５１６及び５１８を含む名前５０２（例えば、「Ｐｈｉｌｉｐｐｅ」）の表示５００である。音節は、母音、二重母音又は音節子音によって構成された単一連続音を含む音声言語の単一要素と見なされることがある。音は、単一の子音又は複数の子音によって先行される、後続されるか、又は取り囲まれることがある。名前５０２は、連絡先アプリケーション２０８の連絡先リストの名でよい。表示５００は、例えば、ユーザデバイス３０２のユーザインタフェース１０２を介して提供されてもよい。表示５００は、１つ以上の単音節要素を選択するためにユーザ入力を受け取ることができるタッチスクリーンを含んでもよい。この場合、名前５０２「Ｐｈｉｌｉｐｐｅ」は、単音節要素５０４「ｆｅｅ」、５０６「ｌｅａｐ」、５０８「ｆｉｌｌ」、５１０「ｅａｐ」、５１２「ｐｈｉｌｌｙ」、及び５１４「ｐａｙ」を含むことができる。ユーザは、名前５０２「Ｐｈｉｌｉｐｐｅ」の音声発音を組み立てるために、単音節要素５０４「ｆｅｅ」及び５０６「ｌｅａｐ」を選択してもよい。

【0052】

あるいは、ユーザは、名前５０２「Ｐｈｉｌｉｐｐｅ」の異なる音声発音を組み立てるために、単音節要素５０８「ｆｉｌｌ」及び５０６「ｅａｐ」を選択してもよい。更に他の選択肢として、ユーザは、名前５０２「Ｐｈｉｌｉｐｐｅ」の別の音声発音を組み立てるために、単音節要素５１２「ｐｈｉｌｌｙ」及び５１４「ｐａｙ」を選択してもよい。いくつかの実施態様では、表示５００は、ユーザ入力を受け取って単音節要素又は単語を定義できるユーザ定義可能フィールドとして、単音節要素５１６及び５１８を含む。発音ゲッサーが名前の構成要素を十分に発音する単音節要素を提供しない環境があることがある。そのような状況では、ユーザインタフェース１０２は表示５００によって、名前の一部分の単音節発音を提供する構成要素５１６及び／又は５１８を介してユーザ入力した単語を受け取ることができる。いくつかの実施態様では、ユーザは、構成要素５０２〜５１８の任意の組み合わせを選択して名前５０２「Ｐｈｉｌｉｐｐｅ」の音声発音を組み立てることができる。

【0053】

前述したように、表示５００は、１つ以上の言語又は場所と関連付けられた単音節要素を受け取ることができる。１つ以上の言語と関連付けられた単音節要素を呈示することによって、ユーザインタフェース１０２は、表示５００を介して、名前の一部分の様々な可能な代替の発音をユーザに効率的に提供する。１つ以上の単音節要素は、データストア１０６及び／又は３１２内に記憶された１つ以上の言語と関連付けられた１つ以上の語彙集及び／又はデータベースに基づいて、発音ゲッサー２０２によって生成され得る。

【0054】

特定の構成において、ユーザインタフェース１０２は表示５００によって、予測されたユーザ選択に基づいた順序及び／又はシーケンスで配列された単音節要素及び／又は他の単語を表示する。例えば、図５では、単音節要素５０４「ｆｅｅ」は、フランス語発音のユーザ選択、ユーザの場所、ユーザと関連付けられた言語、及び／又はユーザが行った単音節要素の以前のタイプの選択に基づいて、構成要素５０８「ｆｉｌｌ」の上に表示される可能性がある。いくつかの構成では、ユーザインタフェース１０２は表示５００によって、単音節要素を、ある期間及び／又は特定の位置におけるユーザ群の中の特定の単音節要素の使用の人気及び／又は頻度に基づく特定のシーケンス及び／又は順序で呈示してもよい。

【0055】

特定の実施態様では、表示５００は、単音節語と組み合わせて音声発音を構成することができるデータストア１０６及び／又は３１２内の辞書からルックアップされた１つ以上の多音節の単語を含んでもよい。例えば、構成要素６２０「ｍｏｎｅｙ」（図６）と構成要素５１２「ｐｈｉｌｌｙ」は、使用できる先在辞書内にあることがある多音節（即ち、両音節）単語と見なされることがある。したがって、辞書内の正当な単音節語と見なされないが正当な単音節語から組み立てられた特定の単語を含み、音声発音の組み立てをユーザに呈示することができ、ユーザは、単音節語を類似の文脈に基づいて適切に発音できることがある。例えば、単語「Ｔｉｍ」が辞書内の正当な単語であり、一方単語「ｎｉｍ」が正当な単語でないことがあるが、子音「ｔ」が子音「ｎ」と置き換えられたことに基づいて、発音のされ方を適切に推定することができる。

【0056】

図６は、その単音節要素６０４〜６２６を含む別の名前６０２「Ｂｅｌｙａｍａｎｉ」の表示６００の別の例である。ユーザインタフェース１０２は表示６００によって、名前６０２「Ｂｅｌｙａｍａｎｉ」を、その単音節要素６０４〜６２６のうちのいくつか又はすべてで表示することがある。名前６０２は、連絡先アプリケーション２０８の連絡先リスト内の姓でよい。１つの構成では、ユーザインタフェース１０２は、名前６０２「Ｂｅｌｙａｍａｎｉ」の一部分と関連付けられた単音節要素６０４〜６２６のうちの１つ以上のユーザ選択を受け取る。単音節要素６０４〜６２６は、ユーザの特徴及び／又はユーザ群の特徴に基づいて配列されてもよい。ユーザインタフェース１０２は、単音節要素のうちの１つ以上のユーザ選択を受け取ることができるタッチスクリーンを含んでもよい。ユーザインタフェース１０２は、マウス、キーパッド、クリックホイール、マイクロフォンなどであるがこれらに限定されないユーザ入力を受け取ることができる他の装置を含んでもよい。

【0057】

一実施態様では、ユーザインタフェース１０２は、表示６００によって、単音節要素の一部分を呈示するが、他の部分がユーザ選択に関連しない限り又は関連するまで、単音節要素の別の部分を呈示しなくてもよい。例えば、表示６００は、最初に、構成要素６０４「ｂｅｌｌ」、６１０「ｂａｉｌ」、６１６「ｂａｌｅ」及び６２２だけを表示してもよい。ユーザがどの構成要素を選択するかにより、ユーザインタフェース１０２は、表示６００によって、他の構成要素６０６、６０８、６１２、６１４、６１８、６２０、６２４及び６２６のうちの１つ以上を表示してもよい。例えば、ユーザが、構成要素６０４「ｂｅｌｌ」を選択した場合、ユーザインタフェースは、構成要素６０６「ｙａ」、６０８「ｍａｎｉ」及び６２０「ｍｏｎｅｙ」だけを示すが、構成要素６１４「ａｎｙ」を示さず、その理由は、ユーザインタフェース１０２及び／又は発音ゲッサー２０２が、構成要素６１４が構成要素６０４「ｂｅｌｌ」及び／又は構成要素６０６「ｙａ」に十分に関係があると見なさないからである。

【0058】

いくつかの構成では、構成要素６０４〜６２６の任意の１つ以上の行又は列が、表示６００によって表示されてもよい。例えば、構成要素６０４、６１０、６１６及び６２２を含む第１の列が最初に表示される。ユーザが、第１の列の構成要素のうちの１つを選択した後で、構成要素６０６、６１２、６１８及び６２４を含む第２の列が表示されてもよい。第１の列は、表示６００から除去されてもよい。ユーザが、第２の列の構成要素を選択した後、構成要素６０８、６１４、６２０及び６２６を含む第３の列が表示され、第２の列の構成要素が表示６００から除去されてもよい。単音節要素の追加の列が、同じように呈示されてもよい。

【0059】

ユーザインタフェース１０２は、例えば、構成要素６０４、６０６及び６０８を含む行などの行の表示に類似の手法を使用してもよい。単音節要素の他の部分及び／又は群が、１つ以上の他の単音節要素の選択に基づいて動的に表示されてもよい。いくつかの構成では、ユーザインタフェース１０２は、表示６００によって、ユーザ入力された単音節要素及び／又は単語を受け取る１つ以上の単音節入力欄６２２、６２４及び６２６を提供する。一実施態様において、ユーザインタフェース１０２は、ユーザ入力単音節要素をユーザによるユーザインタフェース１０２による後の使用及び／又はユーザデバイス３０４及び３０６などの他のユーザデバイスと関連付けられた他のユーザによる後の使用のために、データストア１０６及び／又はデータストア３１２などのデータストアに記憶する。

【0060】

図７は、その単音節要素７０４〜７２０を含む更に別の名前７０２「Ｈａｆｓｔｅｉｎｓｓｏｎ」の表示７００である。ユーザインタフェース１０２は、表示７００によって、表示５００及び６００に関して前述した特徴物を提供することができる。いくつかの実施態様では、ユーザインタフェース１０２は、表示７００によって、名前の１つ以上の組み立てられた音声発音を含むリストをユーザに選択用に提供する。例えば、１組のユーザ選択可能な単音節要素７０４、７０６及び７０８を提供する代わりに、ユーザインタフェース１０２は、構成要素７０４、７０６及び７０８を含む組み立て音声発音を「ｙａｆ−ｓｔｅｉｎ−ｓｏｎ」として提供する。

【0061】

同様に、ユーザインタフェース１０２は、表示７００によって、構成要素７１０、７１２及び７１４などに基づいて、「Ｈａｌｆ−ｓｔｅｅｎ−ｓｏｗｎ」などの他の組み立てられた音声発音を提供する。要素４１４は、名前「Ｈａｆｓ」の複数の発音の表示の実例を提供する。したがって、ユーザインタフェース１０２は、表示５００、６００又は７００によって、単音節要素の様々な組み合わせを含む名前を発音することができる方法のリストを提供することができる。ユーザインタフェース１０２は、表示７００によって、ユーザ入力した単音節要素及び／又は単語を受け取るために１つ以上の単音節入力欄７１６、７１８及び７２０を提供してもよい。

【0062】

図４に戻ると、ステップ４０６で、名前発音選択及び／又は推定が完了した後で、条件付き認識を使用して最も近い推定を自動的に認識し選択するか、又はユーザインタフェース１０２を使用して、名前の音声発音を組み立てる選択可能な単音節要素の表示をユーザに提供することによって、シンセサイザ２０６は、選択された単音節要素を受け取り合成して名前の音声発音を生成しかつ／又は組み立てる（ステップ４０８）。名前の組み立てられた音声発音は、音声ファイルなどの電子データの形であってよい。１つの構成において、シンセサイザ２０２は、例えば、ユーザインタフェース１０２の１つ以上のスピーカによって、ユーザに、オーディオ表現及び／又は再生のためのユーザインタフェース１０２に音声発音を提供する。

【0063】

ユーザは、発音された名前を聞いて、組み立てられた音声発音を受け入れてもよく、又は拒否してもよい（ステップ４１０）。例えば、ユーザインタフェース１０２は、ユーザ入力「はい」を受け取って名前の示された音声発音を受け入れてもよく、ユーザ入力「いいえ」を受け取って名前の呈示された音声発音を拒否してもよい。ユーザ入力は、タッチスクリーン、マウス、キーパッド及び／又は音声入力などのユーザ入力装置を介して提供されてもよい。

【0064】

ユーザが、音声発音を受け入れた場合は、システム１００及び／又は３００などのユーザ主導発音システムは、名前のユーザ選択音声発音を、例えば、その後の使用及び／又はユーザへの再生のためにデータストア１０６及び／又は３１２に記憶する（ステップ４１２）。ユーザが、名前と関連付けられた音声発音を拒否する場合、ユーザ主導発音システム１００及び／又は３００は、プロセス４００のステップ４０６に戻って、次に利用手可能な最も近い推定を決定するか、ユーザが、その名前の単音節要素の新しい構成を選択することを可能にする。したがって、特定の実施態様では、ステップ４０６〜４１０は、ユーザが名前の特定の音声発音に満足するまで、繰り返し実行されてもよい。

【0065】

一般に、本明細書におけるシステム及び方法は、ユーザ主導名前発音を可能にする。様々な技術は、ユーザが、電子デバイスが認識でき、名前のより正確で適切な発音に合成できる名前を話すことを可能にする。これらの技術は、装置が、名前を発音できる仕方のリストをユーザに提供することを可能にし、それにより、ユーザが、より正確な発音を選択することができる。更に、本明細書におけるシステム及び方法は、ユーザが名前と関連付けられた１つ又はマッピングされた単音節要素を選択して、電子デバイスによる名前のより正確な発音を組み立てることができるようにするユーザインタフェースを提供する。

【0066】

図８は、名前の音声発音を決定するシステム８００の図である。システム８００は、発音ゲッサー８０２、音声マッパ８０４、及び条件付きレコグナイザ８０６を含む。発音ゲッサー８０２は、また、複数の発音ゲッサー８０８、８１０及び８１２を含む。発音ゲッサーはそれぞれ、特定の言語及び／又は場所と関連付けられる。例えば、ゲッサー８０８は、フランス語と関連付けられ、フランス語音標文字を利用して発音を推定してもよい。ゲッサー８１０は、ドイツ語と関連付けられ、ドイツ語音標文字を利用して発音を推定してもよい。ゲッサー８１２は、例えば、英語と関連付けられ、英語音標文字を利用して発音を推定してもよい。

【0067】

特定の実施態様では、発音ゲッサー８０２は、図２の発音ゲッサー２０２を含む。条件付きレコグナイザ８０６は、図２のレコグナイザ２０４を含んでもよい。また、音声マッパ８０４は、図２の構成要素２０２〜２１０のうちの１つ以上に含まれてもよい。更に、構成要素８０２〜８１２の機能及び／又は動作のいずれかが、例えば、図１のプロセッサ１０４などの１つ以上のプロセッサによって実行されてもよい。

【0068】

特定の実施態様では、ユーザは、インタフェース１０２によって、ある特定の仕方で発音される名前の音声表現（例えば、録音）を話しかつ／又は提供してもよい。インタフェース１０２は、名前と、ユーザがその名前をどのように発音するかの録音とを受け取ってもよい。インタフェース１０２は、１つ以上のゲッサー８０８、８１０及び８１２を通される名前の文字エントリを受け取ることができる。次に、名前を発音する仕方の録音は、１つ以上のゲッサー８０８、８１０及び８１２並びに／又は場所から推定された発音の条件付きリストから認識されてもよい（ターゲット場所への音声マッピング後に）。次に、システム８００は、ユーザの名前の話し方と最も合致する発音を認識する。

【0069】

より詳細には、条件付きレコグナイザ８０６は、話されかつ／又は提供された名前に実質的に近い最良合致及び／又は合致を選択してもよい。発音推定の条件付きリストは、複数の発音ゲッサー８０８、８１０及び８１２によって生成されてもよい。図８は、３つのゲッサーを示しているが、ゲッサーの数は、システム８００が効率的に対応できる１つから任意数まで異なってもよい。

【0070】

特定の実施態様において、名前は、特定の言語又は場所の文字セットに対応する複数のゲッサー８０８、８１０及び８１２に通される（例えば、英語の名前は、日本語の場所で適切に表現されないことがあるが、フランス語の場所では適切に表現される）。次に、異なる言語及び／又は場所と関連付けられた各発音ゲッサー８１０及び８１２からの発音推定は、マッパ８０４によって、例えば、発音ゲッサー８０８と関連付けられた音標文字などのターゲット場所の音標文字にマッピングされる。このマッピングアルゴリズム及び／又はプロセスは、マッパ８０４ユニットによって行われ、マッパ８０４ユニットは、各音声単位及び／又は音素を、ゲッサー８１０及び８１２の音標文字からターゲットゲッサー８０８及びその関連音標文字の音標文字にマッピングする。マッパ８０４は、音声単位、音素、単音節要素、強調のタイプを有する音節構成要素、単語の一部分などであるがこれらに限定されない様々な音声構成要素をマッピングしてよい。次に、条件付きレコグナイザ８０６は、条件付き認識を行って、これらの過剰生成された発音から最良合致を選択することができる。

【0071】

追加の態様において、名前発音は、例えば、シンセサイザ２０６による認識並びに音声合成に使用される。音声合成の場合、マッピングされる音標文字は、認識文字と異なることがある。音声合成の場合、音標文字は、話された発音を描写するために使用される音声シンセサイザが対応している文字である。１つの構成では、シンセサイザ２０６及び／又は図２の他の構成要素のうちのいずれかが、音声合成辞書に基づいて名前を合成するときに音節強調を推定する。音節強調は、言語及び／又は場所に固有の１組の規則から導出されてもよい。例えば、名前「Ｏｂａｍａ」は、音声単位「ｏ」、「ｂａｍ」及び「ａ」を含む。第１の音声単位「ｏ」は、名前が「Ｏｈｈ−ｂａｍ−ａ」と発音されるように強調されてもよい。あるいは、名前の最終単位は、名前が「Ｏ−ｂａｍ−Ａｈｈ」と発音されるように強調されてもよい。特定の構成において、システム８００及び／又は１００は、強調されるか強調されない様々な音声単位を含む。様々な音声単位は、ユーザに、例えば、図５〜７に示された構成要素のような代替の選択可能な構成要素として提示されてもよい。いくつかの実施態様において、システム８００は、ユーザが選択することがある強調音声単位と非強調音声単位を有する発音を含む様々な発音をユーザに提示してもよい。

【0072】

更に他の態様において、プロセッサ１０４などのプロセッサは、ゲッサー８０８、８１０及び／若しくは８１２の数を切り詰め、かつ／又は減少させる言語識別プロセス並びに／あるいは機能を使用することによって、名前を通すゲッサー８０８、８１０及び／又は８１２の数及び／又はリストを抑えてもよい。言語識別プロセス及び／又は機能は、名前に最も適合する言語及び／又は場所を評価するスコアを格付け及び／又は提供してもよい。次に、プロセッサ１０４は、ゲッサーのリストを切り詰めかつ／又は削減してゲッサーの数を抑えることができる。これは、システム８００及び／又は１００が、ユーザに名前発音をより迅速かつ効率的に提供できるシステム８００及び／又は１００の能力（例えば、処理能力、メモリ、及び他のリソース）が制限されている場合に有利なことがある。

【0073】

図９は、名前の音声発音を生成するプロセス９００の流れ図である。システム８００などのシステムは、複数の発音ゲッサー８０８、８１０及び／又は８１２を含みかつ／又は提供されてもよく、発音ゲッサー８０８、８１０及び／又は８１２がそれぞれ、言語又は場所の特定の音標文字と関連付けられる（ステップ９０２）。プロセッサ１０４などのプロセッサは、ユーザと関連付けられた言語又は場所を決定し（ステップ９０４）、第１の音標文字をユーザと関連付けられた言語又は場所と関連付ける（ステップ９０６）。言語及び／又は場所の決定は、メーカー入力、サービス提供者入力、ユーザ入力、システム８００及び／又は１００の場所と関連付けられた地理的領域の検出、名前のタイプの分析及び／又はユーザによって入力される他の単語などによるものであってよい。

【0074】

発音ゲッサー８０８、８１０及び／又は８１２はそれぞれ、名前の表現を受け取る（ステップ９０８）。この表現は、正字法であってよい。複数の発音ゲッサー８０８、８１０及び／又は８１２はそれぞれ、名前の１つ以上の構成要素の音声発音を推定する（ステップ９１０）。次に、音声マッパ８０４は、複数の発音ゲッサー８０８、８１０及び８１２のそれぞれによって推定された名前の１つ以上の構成要素の音声発音を第１の音標文字にマッピングして、推定発音リストを生成する（ステップ９１２）。特定の構成において、マッパ８０４及び／又はプロセッサ１０４は、第１の音標文字及び／又は別の音標文字と関連付けられた語彙集に言語学者によって転記された音声発音を受け取ってもよく、その音声発音は、推定発音リストに含まれてもよい。レコグナイザ８０６などのレコグナイザは、名前の音声発音を受け取り（ステップ９１４）、次に、発音されたときに名前の音声発音と実質的に合致及び／又は最良合致する構成要素の組み合わせを推定発音リストから選択してもよい（ステップ９１６）。

【0075】

名前の１つ以上の構成要素はそれぞれ、音声単位、音素、単音節要素、特定タイプの強調を有する単音節要素、及び単語の一部分のうちの少なくとも１つを含んでもよい。プロセッサ１０２は、ユーザと関連付けられた言語又は場所を識別することができる。発音ゲッサー８０８、８１０及び／又は８１２の数は、ユーザと関連付けられた言語又は場所に基づいて決定されてもよい。複数の発音ゲッサー８０８、８１０及び／又は８１２のそれぞれのタイプは、ユーザと関連付けられた言語又は場所に基づいて決定されてもよい。発音ゲッサーのタイプは、発音ゲッサーと関連付けられた言語又は場所のタイプを含んでもよい。

【0076】

図１０は、名前の単音節要素のユーザ選択に基づいて名前の音声発音を生成する別のプロセス１０００の流れ図である。図１のシステム１００などのシステムは、音声発音を名前と関連付けることができる。システム１００は、名前を受け取るように構成されたユーザインタフェース１０２を含んでもよい（ステップ１００２）。システムは、また、名前の音声発音を組み立てるために組み合わせ可能な複数の単音節要素に名前をマッピングするように構成されたプロセッサ１０４を含んでもよい（ステップ１００４）。ユーザインタフェース１０２は、また、複数の単音節要素の１つ以上を選択するためにユーザ入力を受け取るように構成されてもよい（ステップ１００６）。更に、プロセッサ１０４は、複数の単音節要素のうちの選択された１つ以上を組み合わせて名前の音声発音を組み立てるように構成されてもよい（ステップ１００８）。

【0077】

１つの構成において、ユーザインタフェース１０２は、音声発音をユーザに提供するように構成される。ユーザインタフェース１０２は、第２のユーザ入力を受け取って音声発音を選択又は拒否するように構成されてもよい。ユーザインタフェース１０２は、また、複数の単音節要素の第１の部分をユーザに表示するように構成されてもよい。ユーザインタフェース１０２は、更に、複数の単音節要素の第１の部分のうちの１つのユーザ選択に応じて、単音節要素の第２の部分を表示するように構成されてもよい。

【0078】

プロセッサ１０４は、連絡先アプリケーション２０８の連絡先リスト及び／又はユーザと関連付けられた他のアプリケーション２１０から名前を受け取るように構成されてもよい。名前は、テキスト形式であってよい。プロセッサ１０４は、名前と関連付けられた単音節要素のうちの１つ以上を含むデータストア１０６及び３１２に照会するように構成されてもよい。単音節要素は、１つ以上の言語及び／又は場所と関連付けられた構成要素を含んでもよい。名前の音声発音の組み立てには、音声ファイルの生成を含んでもよい。

【0079】

図１１は、名前の音声発音と関連付けられた用法情報を決定するプロセス１１００の流れ図である。図３のシステム３００などの名前の音声発音の用法を決定するシステムは、名前を受け取るように構成されたサーバ３１０を含んでもよい（ステップ１１０２）。システム３００は、名前と関連付けられた１つ以上の音声発音を記憶するように構成されたデータストア３１２を含んでもよい（ステップ１１０４）。サーバ３１０は、１つ以上のユーザデバイス３０２、３０４及び３０６から名前と関連付けられた１つ以上の音声発音の指示を受け取り（ステップ１１０６）、名前と関連付けられた１つ以上の音声発音と関連付けられた用法データを決定する（ステップ１１０８）ように構成されてもよい。

【0080】

指示は、１つ以上の音声発音を含んでもよい。指示は、１つ以上のユーザデバイス３０２、３０４及び３０６からの１つ以上の音声発音の選択を含んでもよい。用法データは、ある期間中に指示が受け取られるインスタンスの量を含んでもよい。サーバ３１０は、用法データに基づいて、名前と関連付けられた音声発音の少なくとも１つを第１のユーザデバイス３０２に提供するように構成されてもよい。

【0081】

いくつかの実施形態によれば、図１２は、前述のような本発明の原理により構成された電子デバイス１２００の機能ブロック図を示す。この装置の機能ブロックは、本発明の原理を実行するためにハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせにより実施することができる。当業者によれば、図１２に述べられる機能ブロックは、上記に述べたような本発明の原理を実施するために組み合わせるか、又はサブブロックに分割することができる。したがって、本明細書における説明は、あらゆる可能な組み合わせ若しくは分割、又は本明細書に述べられる更なる機能ブロックの定義を支持しうるものである。

【0082】

図１２に示されたように、電子デバイス１２００は、処理ユニット１２０６にそれぞれ結合された入力受取りユニット１２０２及び出力ユニット１２０３を含む。いくつかの実施態様において、処理ユニット１２０２は、名前受取りユニット１２０８、マッピングユニット１２１０、結合ユニット１２１２、データストア照会ユニット１２１４、及び音声ファイル生成ユニット１２１６を含む。いくつかの実施態様では、出力ユニット１２０３は、視覚出力ユニット１２０５と音声出力ユニット１２０７を含む。

【0083】

処理ユニット１２０６は、名前を受け取り（例えば、名前受取りユニット１２０８によって）、名前を複数の単音節要素にマッピングする（例えば、マッピングユニット１２１０によって）ように構成され、複数の単音節要素の少なくとも一部が、名前の音声発音を組み立てるように組み合わせ可能である。入力受取りユニット１２０２は、複数の単音節要素のうちの１つ以上を選択するユーザ入力を受け取るように構成される。処理ユニット１２０６は、更に、複数の単音節要素のうちの選択された１つ以上を組み合わせて名前の音声発音を組み立てるように構成されてもよい（例えば、組み合わせユニット１２１２によって）。いくつかの実施態様では、音声発音の組み立ては、音声ファイルの生成を含む（例えば、音声ファイル生成ユニット１２１６によって）。

【0084】

いくつかの実施態様では、名前受取りユニット１２０８は、ユーザと関連した連絡先リストから名前を受け取るように構成される。いくつかの実施態様では、名前は、名と姓の少なくとも一方を含む。

【0085】

いくつかの実施態様では、出力ユニット１２０３は、音声発音を出力するように構成される（例えば、音声出力ユニット１２０７によって）。いくつかの実施態様では、入力受取りユニット１２０２は、第２のユーザ入力を受け取って音声発音を選択又は拒否するように構成される。いくつかの実施態様において、出力ユニット１２０３は、更に、複数の単音節要素の第１の部分を表示するように構成される（例えば、視覚出力ユニット１２０５によって）。いくつかの実施態様において、出力ユニット１２０３は、更に、複数の単音節要素の第１の部分のうちの１つのユーザ選択に応じて（例えば、入力受取りユニット１２０２によって受け取られた）、複数の単音節要素の第２の部分を表示するように構成される。

【0086】

いくつかの実施態様では、処理ユニット１２０６は、更に、単音節要素の１つ以上を含むデータストアを照会するように構成される（例えば、データストア照会ユニット１２１４によって）。いくつかの実施態様では、単音節要素は、１つ以上の言語又は場所と関連付けられた構成要素を含む。いくつかの実施態様では、処理ユニット１２０６は、更に、構成される。

【0087】

いくつかの実施形態によれば、図１３は、前述のような本発明の原理により構成された電子デバイス１３００の機能ブロック図を示す。この装置の機能ブロックは、本発明の原理を実行するためにハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせにより実施することができる。当業者によれば、図１３に述べられる機能ブロックは、上記に述べたような本発明の原理を実施するために組み合わせるか、又はサブブロックに分割することができる。したがって、本明細書における説明は、あらゆる可能な組み合わせ若しくは分割、又は本明細書に述べられる更なる機能ブロックの定義を支持しうるものである。

【0088】

図１３に示されたように、電子デバイス１３００は処理ユニット１３０６に結合された入力受取りユニット１３０２を含む。いくつかの実施態様において、処理ユニットは、発音推定ユニット１３０７−ｎ、言語／場所決定ユニット１３０８、言語／場所関連付けユニット１３１０、マッピングユニット１３１２、及び発音選択ユニット１３１４を含む。いくつかの実施態様において、発音推定ユニット１３０７−ｎはそれぞれ、言語又は場所のそれぞれの音標文字と関連付けられる。

【0089】

入力受取りユニット１３０２は、名前の音声発音を受け取るように構成される。処理ユニット１３０６は、ユーザ言語又はユーザの場所を決定し（例えば、言語／場所決定ユニット１３０８によって）、第１の音標文字をユーザ言語又はユーザの場所と関連付け（例えば、言語／場所関連付けユニット１３１０によって）、各発音推定ユニット１３０７−ｎで名前の表現を受け取り、各発音推定ユニット１３０７−ｎで、名前の１つ以上の構成要素の音声発音を推定し、複数の発音推定ユニットのそれぞれによって推定された名前の１つ以上の構成要素の音声発音を第１の音標文字にマッピングして推定発音リストを生成する（例えば、マッピングユニット１３１２によって）ように構成される。処理ユニット１３０６は、更に、発音されたときに、名前の音声発音と実質的に合致する推定発音リストから構成要素の組み合わせを選択するように構成される（例えば、発音選択ユニット１３１４によって）。

【0090】

いくつかの実施態様では、名前の１つ以上の構成要素は、音声単位、音素、単音節要素、特定のタイプの強調を有する単音節要素、及び単語の一部分の少なくとも１つを含む。いくつかの実施態様では、ユーザ言語又はユーザの場所の決定は、ユーザ言語又はユーザの場所を識別する入力を受け取ることを含む（例えば、入力受取りユニット１３０２によって）。いくつかの実施態様において、複数の発音推定ユニット１３０７−ｎは、ユーザ言語又はユーザの場所に基づいて処理ユニット１３０６によって選択される。

【0091】

いくつかの実施形態によれば、図１４は、前述のような本発明の原理により構成された電子デバイス１４００の機能ブロック図を示す。この装置の機能ブロックは、本発明の原理を実行するためにハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせにより実施することができる。当業者によれば、図１４に述べられる機能ブロックは、上記に述べたような本発明の原理を実施するために組み合わせるか、又はサブブロックに分割することができる。したがって、本明細書における説明は、あらゆる可能な組み合わせ若しくは分割、又は本明細書に述べられる更なる機能ブロックの定義を支持しうるものである。

【0092】

図１４に示されたように、電子デバイス１４００は、処理ユニット１４０６、処理ユニット１４０６に結合された記憶ユニット１４０２、及び処理ユニット１４０６に結合された指示受取りユニット１４０３を含む。いくつかの実施態様では、電子デバイス１４００は、処理ユニット１４０６に結合されたデータ出力ユニット１４０５を含む。いくつかの実施態様では、処理ユニット１４０６は、名前受取りユニット１４０８、用法データ決定ユニット１４１０、マッピングユニット１４１２、及び発音選択ユニット１４１４を含む。

【0093】

記憶ユニット１４０２は、名前と関連付けられた１つ以上の音声発音を記憶するように構成される。指示受取りユニット１４０３は、１つ以上のユーザデバイスからの名前と関連付けられた１つ以上の音声発音の指示を受け取るように構成される。いくつかの実施態様では、指示は、１つ以上の音声発音のうちの少なくとも１つを含む。いくつかの実施態様では、指示は、１つ以上のユーザデバイスからの１つ以上の音声発音のうちの少なくとも１つの選択を含む。

【0094】

処理ユニット１４０６は、名前を受け取り（例えば、名前受取りユニット１４０８によって）、名前と関連付けられた１つ以上の音声発音と関連付けられた用法データを決定する（例えば、用法データ決定ユニット１４１０によって）ように構成される。いくつかの実施態様では、用法データは、ある期間中に指示が受け取られるインスタンスの量を含む。

【0095】

いくつかの実施態様では、データ出力ユニット１４０５は、用法データに基づいて、名前と関連付けられた音声発音の少なくとも１つを、電子デバイスから遠隔の第１のユーザデバイスに提供するように構成される。

【0096】

本出願に含まれるシステム及び方法が、コンピュータが使用可能で持続的かつ／又は読み出し可能な媒体を含むコンピュータプログラム製品で実施されてもよいことは当業者に明らかであろう。例えば、そのようなコンピュータが使用可能な媒体は、ＣＤＲＯＭディスクや従来のＲＯＭ装置などの読み出し専用メモリデバイス、ハードドライブ装置やコンピュータディスケットなどのランダムアクセスメモリ、又はコンピュータ可読プログラムコードが記憶されたフラッシュメモリデバイスからなってもよい。

【0097】

以上の図面の説明の様々な特徴、要素又はプロセスが、本明細書に記載された実施態様を実現又は実施するために交換可能又は結合可能であることを理解されたい。当業者は、本出願の態様が、記載の実施態様以外の実施態様によって実施することができ、限定ではなく例示のために呈示され、それらの態様が、以下の特許請求の範囲によってのみ限定されることを理解するであろう。

【図1】