特許第6021956号(P6021956)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アップル インコーポレイテッドの特許一覧

<>
  • 特許6021956-名前発音システム及び方法 図000002
  • 特許6021956-名前発音システム及び方法 図000003
  • 特許6021956-名前発音システム及び方法 図000004
  • 特許6021956-名前発音システム及び方法 図000005
  • 特許6021956-名前発音システム及び方法 図000006
  • 特許6021956-名前発音システム及び方法 図000007
  • 特許6021956-名前発音システム及び方法 図000008
  • 特許6021956-名前発音システム及び方法 図000009
  • 特許6021956-名前発音システム及び方法 図000010
  • 特許6021956-名前発音システム及び方法 図000011
  • 特許6021956-名前発音システム及び方法 図000012
  • 特許6021956-名前発音システム及び方法 図000013
  • 特許6021956-名前発音システム及び方法 図000014
  • 特許6021956-名前発音システム及び方法 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6021956
(24)【登録日】2016年10月14日
(45)【発行日】2016年11月9日
(54)【発明の名称】名前発音システム及び方法
(51)【国際特許分類】
   G10L 13/08 20130101AFI20161027BHJP
【FI】
   G10L13/08 124
【請求項の数】18
【全頁数】25
(21)【出願番号】特願2014-560055(P2014-560055)
(86)(22)【出願日】2013年2月28日
(65)【公表番号】特表2015-512062(P2015-512062A)
(43)【公表日】2015年4月23日
(86)【国際出願番号】US2013028412
(87)【国際公開番号】WO2013130878
(87)【国際公開日】20130906
【審査請求日】2014年10月24日
(31)【優先権主張番号】13/411,180
(32)【優先日】2012年3月2日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】503260918
【氏名又は名称】アップル インコーポレイテッド
(74)【代理人】
【識別番号】100076428
【弁理士】
【氏名又は名称】大塚 康徳
(74)【代理人】
【識別番号】100112508
【弁理士】
【氏名又は名称】高柳 司郎
(74)【代理人】
【識別番号】100115071
【弁理士】
【氏名又は名称】大塚 康弘
(74)【代理人】
【識別番号】100116894
【弁理士】
【氏名又は名称】木村 秀二
(74)【代理人】
【識別番号】100130409
【弁理士】
【氏名又は名称】下山 治
(74)【代理人】
【識別番号】100134175
【弁理士】
【氏名又は名称】永川 行光
(72)【発明者】
【氏名】ナイク, デヴァング ケー.
【審査官】 千本 潤介
(56)【参考文献】
【文献】 米国特許出願公開第2010/0153115(US,A1)
【文献】 特開平11−231886(JP,A)
【文献】 特開2000−352989(JP,A)
【文献】 特開2001−296880(JP,A)
【文献】 特開2000−032140(JP,A)
【文献】 米国特許第07472061(US,B1)
【文献】 米国特許出願公開第2002/0013707(US,A1)
【文献】 米国特許出願公開第2009/0076819(US,A1)
【文献】 米国特許出願公開第2007/0219777(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/08
(57)【特許請求の範囲】
【請求項1】
名前を受け取るステップと、
前記名前を、前記名前の少なくとも2つの音節に対するとり得る音声発音を表す複数の単音節要素の複数の組にマッピングするステップであって、前記複数の単音節要素の複数の組からの複数の単音節要素が前記名前の音声発音を組み立てるように組み合わせ可能である、ステップと、
前記複数の単音節要素の複数の組をともに表示するステップと、
前記複数の単音節要素の複数の組のそれぞれから単音節要素についてのユーザ選択を受け取るステップと、
前記名前の前記音声発音を組み立てるために、前記複数の単音節要素の複数の組のそれぞれからの記選択された単音節要素を組み合わせるステップとを含むことを特徴とする方法。
【請求項2】
ユーザインタフェースによって前記音声発音を出力するステップを含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記音声発音を選択又は拒否するために、ユーザ入力を受け取るステップを含む、ことを特徴とする請求項2に記載の方法。
【請求項4】
ユーザと関連した連絡先リストから前記名前を受け取るステップを含む、ことを特徴とする請求項1からのいずれか1項に記載の方法。
【請求項5】
前記名前が、名と姓の少なくとも一方を含む、ことを特徴とする請求項1からのいずれか1項に記載の方法。
【請求項6】
前記単音節要素の1つ以上を含むデータストアを照会するステップを含む、ことを特徴とする請求項1からのいずれか1項に記載の方法。
【請求項7】
前記単音節要素が、1つ以上の言語又は場所と関連付けられた構成要素を含む、ことを特徴とする請求項1からのいずれか1項に記載の方法。
【請求項8】
前記名前の前記音声発音を組み立てるステップが、音声ファイルを生成することを含む、ことを特徴とする請求項1からのいずれか1項に記載の方法。
【請求項9】
名前を受け取るように構成されたユーザインタフェースと、
前記名前を、前記名前の少なくとも2つの音節に対するとり得る音声発音を表す複数の単音節要素の複数の組にマッピングするように構成されたプロセッサであって、前記複数の単音節要素の複数の組からの単音節要素が前記名前の音声発音を組み立てるように組み合わせ可能である、プロセッサと、を備え、
前記ユーザインタフェースが、前記複数の単音節要素の複数の組をともに表示し、前記複数の単音節要素の複数の組のそれぞれから単音節要素についてのユーザ選択を受け取るように、構成され、
前記プロセッサが、前記複数の単音節要素の複数の組のそれぞれからの記選択された単音節要素を組み合わせて前記名前の前記音声発音を組み立てるように構成された、ことを特徴とするシステム。
【請求項10】
前記ユーザインタフェースが、前記音声発音を提供するように構成された、ことを特徴とする請求項に記載のシステム。
【請求項11】
前記ユーザインタフェースが、ユーザ入力を受け取って前記音声発音を選択又は拒否するように構成された、ことを特徴とする請求項10に記載のシステム。
【請求項12】
前記プロセッサが、ユーザと関連した連絡先リストから前記名前を受け取るように構成された、ことを特徴とする請求項から11のいずれか1項に記載のシステム。
【請求項13】
前記名前が、テキスト形式である、ことを特徴とする請求項から12のいずれか1項に記載のシステム。
【請求項14】
前記システムが、前記名前と関連付けられた前記単音節要素のうちの1つ以上を含むデータストアを備え、前記プロセッサが、前記データストアを照会するように構成された、ことを特徴とする請求項から13のいずれか1項に記載のシステム。
【請求項15】
前記単音節要素が、1つ以上の言語又は場所と関連付けられた構成要素を含む、ことを特徴とする請求項から14のいずれか1項に記載のシステム。
【請求項16】
前記名前の前記音声発音を組み立てることが、音声ファイルを生成することを含む、ことを特徴とする請求項から15のいずれか1項に記載のシステム。
【請求項17】
方法であって、電子デバイスにおいて、
名前を受け取るステップと、
前記名前の第1の部分についてのとり得る音声発音を表す第1の複数の単音節要素を表示するステップと、
前記第1の複数の単音節要素の1つについての第1のユーザ選択を受け取るステップと、
前記名前の第2の部分を、前記名前の前記第2の部分についてのとり得る音声発音を表す第2の複数の単音節要素にマッピングするステップと、
前記第1の複数の単音節要素の前記1つに基づいて選択された前記第2の複数の単音節要素のサブセットを表示するステップと、
前記第2の複数の単音節要素のサブセットの少なくとも1つの単音節要素についての第2のユーザ選択を受け取るステップと、
前記名前の音声発音を組み立てるために、前記第1の複数の単音節要素の前記1つと、前記第2の複数の単音節要素のサブセットの前記少なくとも1つの単音節要素とを組み合わせるステップと含むことを特徴とする方法。
【請求項18】
名前を受け取るように構成されたユーザインタフェースであって、前記名前の第1の部分についてのとり得る音声発音を表す第1の複数の単音節要素を表示するように構成され、かつ、前記第1の複数の単音節要素の1つについての第1のユーザ選択を受け取るように構成された前記ユーザインタフェースと、
前記名前の第2の部分を、前記名前の前記第2の部分についてのとり得る音声発音を表す第2の複数の単音節要素にマッピングするように構成されたプロセッサと、を備え、
前記ユーザインタフェースが、前記第1の複数の単音節要素の前記1つに基づいて選択された前記第2の複数の単音節要素のサブセットを表示するように構成され、かつ、前記第2の複数の単音節要素のサブセットの少なくとも1つの単音節要素についての第2のユーザ選択を受け取るように構成され、
前記プロセッサが、前記名前の音声発音を組み立てるために、前記第1の複数の単音節要素の前記1つと、前記第2の複数の単音節要素のサブセットの前記少なくとも1つの単音節要素とを組み合わせるように構成された、ことを特徴とするシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、音声の認識及び合成に関し、より詳細には名前の発音の認識及び合成に関する。
【背景技術】
【0002】
名前認識は、音声認識の特に難しい側面である。名前には、人、事業及び他の団体の名前が挙げられる。名前分布は、ロングテールを有する。更に、名前の発音の仕方は、主観的かつ名前の起源によることがある。極めて一般的な少数の名前である可能性もあるが、極めて珍しい多数の名前である可能性もある。音声認識システムが名前を認識するために、言語学者は、典型的には、音声認識システムが導入された場所又は言語によって支援された音標文字のあらゆる発音を転記しなければならない。ほとんどの既存の音声認識及び合成システムは、最大で数百個又は数千個もの名前を有するが、今日使用されている固有名称は数百万個もある可能性がある。
【0003】
現在の音声認識システムは、典型的には、名前認識をモデル化して、ユーザデバイスの連絡先アプリケーションにおける命名入力に基づく電話ダイヤリング、検索と照会、リマインダ、及びイベントスケジューリングなどのタスクを支援する。名前を認識又は合成するために、現在のシステムは、しばしば辞書又は語彙集を使用する。これらの辞書又は語彙集は、名前をその可能な発音にマッピングすることを含む。しかしながら、名前が音声語彙集にモデル化されていない場合、システムは、発音を推定しなければならない。音声合成のために、システムは、名前に含まれる個々の音節の強調を推定しなければならないこともある。
【0004】
語彙集に明確にモデル化されていない名前の場合、音声認識システムは、典型的には、高度な文字音声変換規則を使用する発音ゲッサー(pronunciation guesser)に依存する。しかしながら、いくつかの音声単位が、特定の言語に固有なので、同じ名前が、異なるユーザによって違う風に発音されることがある。したがって、既存のシステムは、様々な言語及び文化から名前の発音をモデル化する適切な発音ゲッサーを構築できない。多くの場合、明確な規則がゲッサー内に存在しない限り、外国の名前の発音は、適切に推定されないことがある。
【発明の概要】
【0005】
本出願は、様々な実施態様において、名前の音声発音を効率的かつ好都合に構成するユーザインタフェースを提供するシステム、方法及び装置を提供する。
【0006】
一態様において、システムは、名前の単音節要素のユーザ選択に基づいて名前の音声発音を生成する。システムは、音声発音を名前と関連付けてもよい。システムは、名前を受け取るように構成されたユーザインタフェースを含んでもよい。システムは、また、組み合わせて名前の音声発音を組み立てることができる複数の単音節要素に名前をマッピングするように構成されたプロセッサを含んでもよい。ユーザインタフェースは、また、ユーザ入力を受け取って複数の単音節要素の1つ以上を選択するように構成されてもよい。更に、プロセッサは、複数の単音節要素のうちの選択された1つ以上を組み合わせて名前の音声発音を組み立てるように構成されてもよい。
【0007】
1つの構成では、ユーザインタフェースは、ユーザに音声発音を提供するように構成される。ユーザインタフェースは、第2のユーザ入力を受け取って音声発音を選択又は拒否するように構成されてもよい。ユーザインタフェースは、また、複数の単音節要素の第1の部分をユーザに表示するように構成されてもよい。ユーザインタフェースは、複数の単音節要素の第1の部分のうちの1つのユーザ選択に応じて、単音節要素の第2の部分を表示するように更に構成されてもよい。
【0008】
プロセッサは、連絡先アプリケーション及び/又はユーザと関連した他のアプリケーションの連絡先リストから名前を受け取るように構成されてもよい。名前は、テキスト形式であってよい。プロセッサは、名前と関連付けられた単音節要素の1つ以上を含むデータストア及び/又はデータベースを照会するように構成されてもよい。単音節要素は、1つ以上の言語、文化、及び/又は場所と関連付けられた構成要素を含んでもよい。名前の音声発音の組み立てには、音声ファイルを生成することを含んでもよい。
【0009】
別の態様において、名前の音声発音と関連付けられた用法情報を決定するためのシステムが、1つ以上の連絡先名を受け取るように構成されたサーバを含んでもよい。システムは、1つ以上の名前と関連付けられた1つ以上の音声発音を記憶するように構成されたデータストアを含んでもよい。サーバは、1つ以上のユーザデバイスからの1つ以上の名前と関連付けられた1つ以上の音声発音の指示を受け取り、1つ以上の名前と関連付けられた1つ以上の音声発音と関連付けられた用法データを決定するように構成されてもよい。
【0010】
指示は、1つ以上の音声発音を含んでもよい。指示は、1つ以上のユーザデバイスからの1つ以上の音声発音の選択を含んでもよい。用法データは、ある期間中に指示が受け取られるインスタンスの量を含んでもよい。サーバは、名前と関連付けられた音声発音の少なくとも1つを、用法データに基づいて第1のユーザデバイスに提供するように構成されてもよい。
【0011】
別の態様では、システムは、複数の発音ゲッサーを含み、及び/又は備えてもよく、発音ゲッサーはそれぞれ、言語又は場所の特定の音標文字と関連付けられる。例えば、音標文字は、英語、フランス語、ドイツ語、スペイン語、及びイタリア語であってよいがこれらに限定されない。プロセッサは、ユーザと関連付けられた言語又は場所を決定し、第1の音標文字(例えば、英語)をユーザと関連付けられた言語又は場所と関連付ける。言語及び/又は場所の決定は、メーカー入力、サービス提供者入力、ユーザ入力、システムの位置と関連付けられた地理的領域の検出、名前のタイプの分析、及び/又はユーザによる他の単語の入力などによるものであってよい。
【0012】
発音ゲッサーはそれぞれ、名前の表現を受け取ってもよい。表現は、正字法であってよい。正字法は、一般には、単語の綴りを指すとすることができる。正字法の表現は、単語及び/又は名前の表現と関連付けられた言語の音素及び/又はシンボル(例えば、書記素及び/又は方言)を定義することがある。次に、複数の発音ゲッサーはそれぞれ、名前の1つ以上の構成要素の音声発音を推定してもよい。次に、音声マッパは、複数の発音ゲッサーのそれぞれによって推定された名前の1つ以上の構成要素の音声発音を第1の音標文字にマッピングして、推定発音リストを生成してもよい。音声レコグナイザは、名前の音声発音を受け取り、次に、発音されたときに、名前の音声発音と実質的に合致及び/又は最良合致する構成要素の組み合わせを推定発音リストから選択してもよい。
【0013】
名前の1つ以上の構成要素はそれぞれ、音声単位、音素、単音節要素、特定のタイプの強調を有する単音節要素、及び単語の一部分の少なくとも1つを含んでもよい。プロセッサ102は、ユーザと関連付けられた言語又は場所を識別してもよい。発音ゲッサーの数は、ユーザと関連付けられた言語又は場所に基づいて決定されてもよい。複数の発音ゲッサーのそれぞれのタイプは、ユーザと関連付けられた言語又は場所に基づいて決定されてもよい。発音ゲッサーのタイプは、発音ゲッサーと関連付けられた言語又は場所のタイプを含んでもよい。
【0014】
いくつかの実施態様によれば、名前を受け取るステップと、名前を複数の単音節要素にマッピングするステップであって、複数の単音節要素のうちの少なくとも一部が、名前の音声発音を組み立てる組み合わせが可能である、ステップと、ユーザ入力を受け取って複数の単音節要素のうちの1つ以上を選択するステップと、複数の単音節要素のうちの選択された1つ以上を組み合わせて名前の音声発音を組み立てるステップとを含む方法が提供される。
【0015】
いくつかの実施態様によれば、複数の発音ゲッサーを提供するステップであって、複数の発音ゲッサーがそれぞれ、言語又は場所のそれぞれの音標文字と関連付けられる、ステップと、ユーザ言語又はユーザの場所を決定するステップと、第1の音標文字をユーザ言語又はユーザの場所と関連付けるステップと、各発音ゲッサーで、名前の表現を受け取るステップと、各発音ゲッサーで、名前の1つ以上の構成要素の音声発音を推定するステップと、複数の発音ゲッサーのそれぞれによって推定された名前の1つ以上の構成要素の音声発音を第1の音標文字にマッピングして、推定発音リストを生成するステップと、名前の音声発音を受け取るステップと、発音されたときに、名前の音声発音と実質的に合致する推定発音リストから構成要素の組み合わせを選択するステップとを含む方法が提供される。
【0016】
いくつかの実施態様によれば、名前の音声発音の用法を決定する方法であって、名前を受け取るステップと、名前と関連付けられた1つ以上の音声発音を記憶するステップと、1つ以上のユーザデバイスから名前と関連付けられた1つ以上の音声発音の指示を受け取るステップと、名前と関連付けられた1つ以上の音声発音と関連付けられた用法データを決定するステップとを含む方法が提供される。
【0017】
いくつかの実施態様によれば、電子デバイスは、1つ以上のプロセッサ、メモリ、及び1つ以上のプログラムを含み、この1つ以上のプログラムが、メモリに記憶され、1つ以上のプロセッサによって実行されるように構成され、1つ以上のプログラムが、前述の方法及び/又は技術のいずれかの動作を行うための命令を含む。いくつかの実施態様によれば、コンピュータ可読記憶媒体は内部に命令を記憶し、この命令は電子デバイスによって実行されると、機器に上記に述べた方法及び/又は技術のいずれかの動作を実行させる。いくつかの実施態様によれば、電子デバイスは、前述の方法及び/又は技術のいずれかの動作を実行する手段を有する。いくつかの実施形態によれば、電子デバイスに使用するための情報処理装置は、前述の方法及び/又は技術のいずれかの動作を実行するための手段を含む。
【0018】
いくつかの実施態様によれば、電子デバイスは、名前を受け取り、その名前を複数の単音節要素にマッピングするように構成された処理ユニットを含み、複数の単音節要素の少なくとも一部は、名前の音声発音を組み立てるように組み合わせ可能である。電子デバイスは、また、処理ユニットに結合された入力受取りユニットを含み、入力受取りユニットは、ユーザ入力を受け取って複数の単音節要素のうちの1つ以上を選択するように構成される。処理ユニットは、複数の単音節要素のうちの選択された1つ以上を組み合わせて名前の音声発音を組み立てるように更に構成される。
【0019】
いくつかの実施態様によれば、電子デバイスは、複数の発音推定ユニットを含む処理ユニットを含み、複数の発音推定ユニットはそれぞれ、言語又は場所のそれぞれの音標文字と関連付けられる。処理ユニットは、ユーザ言語又はユーザの場所を決定し、第1の音標文字をユーザ言語又はユーザの場所と関連付け、各発音推定ユニットで名前の表現を受け取り、各発音推定ユニットで、名前の1つ以上の構成要素の音声発音を推定し、複数の発音推定ユニットのそれぞれによって推定された名前の1つ以上の構成要素の音声発音を第1の音標文字にマッピングして、推定発音リストを生成するように構成される。電子デバイスは、また、処理ユニットに結合された入力受取りユニットを含み、入力受取りユニットは、名前の音声発音を受け取るように構成される。音声レコグナイザは、名前の音声発音を受け取り、次に、発音されたときに、名前の音声発音と実質的に合致及び/又は最良合致する構成要素の組み合わせを推定発音リストから選択してもよい。
【0020】
いくつかの実施態様によれば、電子デバイスは、名前を受け取るように構成された処理ユニットと、処理ユニットに結合され、名前と関連付けられた1つ以上の音声発音を記憶するように構成された記憶ユニットと、処理ユニットに結合された指示受取りユニットであって、1つ以上のユーザデバイスから名前と関連付けられた1つ以上の音声発音の指示を受け取るように構成された指示受取りユニットとを含む。処理ユニットは、更に、名前と関連付けられた1つ以上の音声発音と関連付けられた用法データを決定するように更に構成される。
【0021】
本開示の原理による名前発音システム及びインタフェースを使用する様々な利点及び用途は、以下により詳細に述べられる。
【0022】
本出願の以上その他の特徴、性質及び様々な利点は、全体にわたって同じ参照文字が同じ部分を指す添付図面と関連して行われる以下の詳細な説明の考察により明らかになる。
【図面の簡単な説明】
【0023】
図1】ユーザ主導名前発音システムの構成要素を含む図である。
図2】ユーザ主導発音システム内で実行される様々な機能、アプリケーション及び/又はルーチンを含むコンピュータ処理環境の図である。
図3】ユーザ主導名前発音システムを含むネットワークの図である。
図4】連絡先リスト又はユーザ入力から名前の発音を生成するプロセスの流れ図である。
図5】単音節要素を含む名前の表示である。
図6】別の名前とその単音節要素を含む表示である。
図7】更に別の名前とその単音節要素を含む表示の図である。
図8】名前の音声発音を決定するシステムの図である。
図9】名前の音声発音を生成するプロセスの流れ図である。
図10】名前の単音節要素のユーザ選択に基づいて名前の音声発音を生成する別のプロセスの流れ図である。
図11】名前の音声発音と関連付けられた用法情報を決定するプロセスの流れ図である。
図12】いくつかの実施形態による電子デバイスの機能ブロック図である。
図13】いくつかの実施形態による電子デバイスの機能ブロック図である。
図14】いくつかの実施形態による電子デバイスの機能ブロック図である。
【発明を実施するための形態】
【0024】
本出願は、様々な実施態様において、名前の音声発音を効率的かつ好都合に構成するユーザインタフェースを提供するシステム、方法及び装置を提供する。いくつかの構成では、このインタフェースは、ユーザの連絡先から任意の名前を複数の単音節名にマッピングして名前の適正な発音を組み立てるアプリケーションを実施するプロセッサを使用する。名前は、最初に、転記意図の、言語のユーザが発音し易い複数の単音節語に分けられることがある。音節は、母音、二重母音又は音節子音からなる単一連続音を含む音声言語の単一要素と見なすことができる。音は、単一の子音又は複数の子音によって先行されるか、後続されるか、又は囲まれてもよい。
【0025】
幾つかの構成では、インタフェースは、ユーザが、自分の単音節語を入力して名前の発音を正確に表すことを可能にする。インタフェースは、一連の単音節語をユーザに提示し、ユーザが様々な単音節語を選択して名前の全体的発音を構成できるようにする。特定の実施態様では、インタフェースは、ユーザが発音を改良することを可能にするフィードバックとして、選択された発音と関連した音声をユーザに提供する。
【0026】
インタフェースは、ユーザが、ユーザの連絡先リストにある名前の基本発音に最も近い1つ以上の単音節語を選択し、及び/又は特定のシーケンスの単音節語を選択することを可能にする。インタフェースは、単音節語のうちの1つ以上の効率的なユーザ選択を可能にするタッチスクリーンを含んでもよい。インタフェースは、発音の最良推定をユーザに提供してもよい。一実施態様では、洗練された発音は、音声認識機能が対応する音標文字に転記され、ユーザの動的語彙の語彙集の一部として組み込まれる。
【0027】
語彙集は、複数ユーザからの入力に基づいてクラウドソーシング発音プロセスの一部として使用されてもよい。例えば、使用される単音節語のタイプ、及び特定の単音節語が使用される頻度と関連付けられた複数のユーザからの発音データを収集することによって、言語学者を雇用する潜在的に大きいコストを削減するか又はなくし、同時に音声名前のより大規模でより適切な語彙集を作成することができる。この名前発音システムは、また、不十分な発音ゲッサーに依存するのと対照的に、ユーザが、日常作業の認識と合成のためにより正確な発音の名前を利用することを可能にする。
【0028】
図1は、ユーザ主導名前発音システム100の構成要素を含む図である。システム100は、ユーザインタフェース102、プロセッサ104及びデータストア106を含む。ユーザインタフェース102は、1人以上のユーザにシステム100と通信するためのインタフェースを提供するように構成されたハードウェア、ソフトウェア又はこれらの組み合わせを含んでもよい。プロセッサ104は、システム100のデータ、機能及び/又はアプリケーションを処理するように構成された1つ以上のプロセッサを含んでもよい。データストア106は、1つ以上の記憶装置を含んでもよい。
【0029】
特定の実施態様では、ユーザインタフェース102は、ユーザがシステム100と対話することを可能にする。例えば、ユーザインタフェース102は、ボタン、キーパッド、ダイヤル、クリックホイール、マイクロフォン、タッチスクリーンなどの様々な形態をとることができるユーザ入力装置を含んでもよい。ユーザインタフェース102は、これらに限定されないが、ディスプレイ、スピーカ、トランスジューサ、ヘッドホン、振動発生機などの様々な形態をとることができる出力装置を含んでもよい。特定の実施態様では、ユーザインタフェース102は、ユーザから音声入力及び/又はコマンドを受け取るように構成される。ユーザインタフェース102は、オーディオ情報を1つ以上のスピーカ及び/又はヘッドホンを介してユーザに出力してもよい。
【0030】
特定の実施態様では、プロセッサ104は、ユーザデバイス内に配置された1つ以上のプロセッサを含む。他の実施態様では、プロセッサ104は、複数の装置間に複数のプロセッサを含んでもよい。そのような実施態様に関する更なる詳細は、本明細書の後半で図3に関して言及される。プロセッサ104は、図2に関して本明細書の後半で述べるような様々な機能の動作、及びシステム100に含まれる他の回路を制御することができる。プロセッサ104は、ユーザインタフェース102の表示を駆動し、ユーザインタフェース102からユーザ入力を受け取ってもよい。プロセッサ104は、例えば、システム100の動作中にデータストア106との間で実行可能コードを含むデータを受け取り、取得しかつ/又は送ることができる。プロセッサ104は、デジタル音声信号を、ユーザインタフェース102のスピーカを駆動するアナログ信号に変換して、名前、声、音楽及び他の類似の音声の発音を含む音を作成するコーダ/デコーダ(CODEC)プロセッサを含んでもよい。CODECは、また、ユーザインタフェース102のマイクロフォンからの音声入力をデジタル音声信号に変換することができる。プロセッサは、デジタル音声信号をデータストア106内にデータファイルとして記憶することができる。CODECは、デジタル及び/又はアナログビデオ信号を処理するビデオCODECを含んでもよい。いくつかの構成において、プロセッサ104は、1つ以上のユーザデバイス、パーソナルコンピュータ、及び/又はサーバ内で動作する1つ以上の中央処理装置(CPU)を含む。
【0031】
特定の実施態様において、データストア106は、媒体(例えば、音楽及びビデオファイル)、連絡先情報(例えば、連絡先名)、連絡先名と関連付けられた音声データ(例えば、単音節語)、ソフトウェア(例えば、システム100の機能を埋め込むための)、基本設定情報(例えば、媒体再生基本設定)、トランザクション情報(例えば、クレジットカード情報などの情報)、接続情報(例えば、システム100の構成要素が別のシステムとの通信を確立できるようにする情報)、加入情報(例えば、ユーザが加入するポッドキャスト、テレビ番組、又はその他の媒体のトラックを維持する情報)、及び任意の他の適切なデータを記憶することができる。データストア106は、ハードドライブ、ROMなどの永久メモリ、RAMなどの半永久メモリ、ソリッドステートメモリ、リムーバブルメモリ、CD−ROM、CD−RW、ディスケット、ファームウェア、キャッシュ、及び電子データを記憶できる他の類似の装置を含むがこれらに限定されない1つ以上の記憶媒体を含んでもよい。データストア106は、データベースを含んでもよい。データベースは、リレーショナルデータベース管理システム(RDBMS)及び/又は構造化照会言語(SQL)データベースなどを含んでもよい。
【0032】
図2は、例えば、図1のシステム100などのユーザ主導発音システム内で実行する様々な機能、アプリケーション及び/又はルーチン202〜210を含むコンピュータ処理環境200の図である。コンピュータ処理環境200は、発音ゲッサー202、音声レコグナイザ204、音声シンセサイザ206、連絡先アプリケーション208、及び他のアプリケーション210を含んでもよい。
【0033】
特定の実施態様では、発音ゲッサー202は、名前などの単語を発音する規則を、それらの関連付けられた文字綴りからモデル化する。発音ゲッサーには、隠れマルコフモデル、決定木クラシファイヤ、及び/又は音素又は一連の音素を文字、一連の文字及び/又は単語と関連付けて名前の発音を生成する他の統計モデルなどであるがこれらに限定されない学習アルゴリズム及び/又は技術を挙げることができる。発音ゲッサーは、1つ以上の言語と関連付けられたデータ及び/又はライブラリを利用して、例えば、データストア106及び/又は312内のデータベースからのデータを含む発音を予測することができる。
【0034】
特定の実施態様において、音声レコグナイザ204は、ユーザによる話し言葉を電子文字及び/又はデータに変換する。音声レコグナイザ204は、特定のユーザからの音声を認識しかつ/又は一般に任意のユーザから音声を認識するように構成されてもよい。音声レコグナイザ204は、例えば、通話を始めるための音声式ダイヤリングアプリケーション(例えば、「Call Bill」)などの他のアプリケーション210と共に利用されてもよい。他のアプリケーション210には、デバイス制御(例えば、「電話を切る」)、検索(例えば、「ラブソングを見つける」)、データ入力(例えば、「10番大通り」)、音声文字変換処理(例えば、電子メールの内容を入力する)、及び会話ユーザ入力を利用する任意の類似のアプリケーションが挙げられる。音声レコグナイザ204は、隠れマルコフモデル(HMM)、動的時間収縮法(DTW)を利用した音声認識、及び/又は統計音声認識モデルを含むがこれらに限定ではないいくつかのモデルのいずれかを利用することができる。音声レコグナイザ204は、音素の文脈依存性、声道長正規化(VTLN)、最尤線形回帰(MLLR)、異分散線形判別分析(HLDA)、ベイジアンネットワーク、ビタビアルゴリズム、及び/又は音声認識のための類似技術を使用することができる。
【0035】
特定の実施態様では、音声シンセサイザ206は、人間の話し言葉を電子的に作成する。音声シンセサイザ206は、ソフトウェア、ハードウェア又はこれらの組み合わせで実施されてもよい。1つの構成において、シンセサイザ206は、電子データ、電子テキスト及び/又は発音表記など記号言語表現を音声に変換する。シンセサイザ206は、データストア106及び/又は312内などのデータベースからの記録音声の一部分を連結することによって、名前などの話し言葉を生成することができる。音声シンセサイザ206は、電話、diphones、単語、単語の単音節要素、及び/又は文にアクセスして、合成音声出力及び/又は音声ファイルを作成することがある。シンセサイザ206は、任意の1つ以上の技術を利用して自然で明瞭な音を作成することができる。この技術には、波形接続音声合成、ユニット選択合成、diphone合成、単音節要素合成、領域固有合成、フォーマット合成、発語合成、隠れマルコフモデル(HMM)合成、及び/又は正弦波合成が挙げられるがこれらに限定されない。シンセサイザ206は、連絡先アプリケーション208や他のアプリケーション210などの1つ以上のアプリケーションと共に利用されうる。Siri(登録商標)は、カリフォルニア州クパチーノのApple Inc.,から入手可能な名前認識を使用するタイプのアプリケーションである。例えば、ユーザは、「Find emails from Steve(スティーヴからの電子メールを探す)」か「Call Peter at home(自宅にいるピーターに電話する)」と話すことがある。
【0036】
特定の実施態様において、連絡先アプリケーション208は、リスト及び/又はデータベースに記憶されることがあるユーザと関連付けられた1つ以上の連作先を含む。各連絡先は、連絡先名、住所、電話番号、電子メール(eメール)アドレス、及び/又は他の情報を含むことがある。各連絡先は、「表音の名」及び/又は「表音の姓」フィールドを含むことがある。連絡先アプリケーション208は、他のアプリケーション210と接続する独立型アプリケーションであってよい。例えば、別のアプリケーション210には、無線電話呼び出しアプリケーションを含むことがある。連絡先アプリケーション210は、通話アプリケーションと接続して、連絡先アプリケーション208から選択された連絡先に通話を開始することができる。連絡先アプリケーション208は、他のアプリケーション210と統合されてもよい。例えば、他のアプリケーション210は、ユーザが電子メールを送受信し及び/又はメールサーバにアクセスすることを可能にする電子メールアプリケーションを含んでもよい。連絡先アプリケーション208は、ユーザが、連絡先名、住所、電話番号、電子メール(eメール)アドレス、及び/又は他の情報などの情報と関連付けられた1つ以上の連絡先を記憶できるようにするメールアプリケーションの機能であってよい。連絡先アプリケーション及び/又は電子メールアプリケーションは、例えば、カリフォルニア州クパチーノのApple Inc.,から入手可能なApple(登録商標)iPhone(登録商標)、iPad(登録商標)及びiPod Touch(登録商標)に実装される連絡先及び/又はメールアプリケーションを含んでもよい。
【0037】
図3は、ユーザ主導名前発音システム300を含むネットワークの図である。システム300は、ユーザデバイス302、304及び/又は306、ネットワーク308、サーバ310及び/又はデータストア312を含む。
【0038】
ユーザデバイス302、304及び/又は306は、パーソナルコンピュータ(PC)、携帯情報端末(PDA)、携帯型コンピューティング装置、携帯電話、衛星電話、コードレス電話機、ページャ、又は図2の環境200の1つ以上の機能を実現することができる他の電子デバイスを含んでもよい。ユーザデバイス302、304及び/又は306は、車両、ビデオゲームシステム、機器、衣類、ヘルメット、眼鏡、着用服、ステレオシステム、エンタテインメントシステム、又は他の携帯機器のような他の装置又は構造物のパッケージに組み込まれてもよい。ユーザデバイス302、304及び/又は306のタイプには、例えば、カリフォルニア州クパチーノのApple Inc.,から入手可能なApple(登録商標)iPod(登録商標)、iPad(登録商標)、iPhone(登録商標)、iMac(登録商標)、MacBook Pro(登録商標)及びMacBook Air(登録商標)など、並びに有線及び/又は無線で通信することができる任意の他の装置が挙げられる。
【0039】
ユーザデバイス302、304及び/又は306は、例えばリモート計算処理システム又はサーバ310と同期して、媒体及び/又はユーザ発音関連データ(無線又は有線のいずれかの通信経路を使用して)を受信することができる。媒体には、ストリーミング及び/又は個別(例えば、ファイルとパケット)形式のサウンド又は音声ファイル、音楽、ビデオ、マルチメディア及びデジタルデータが挙げられるが、これらに限定されない。
【0040】
ユーザデバイス302、304及び/又は306は、有線及び/又は無線通信(例えば、短距離及び/又は長距離通信)のための通信回路を含んでもよい。例えば、無線通信回路は、802.11規格のうちの1つによる無線通信を可能にするWi−Fi(登録商標)対応回路であってよい。特定のプロトコルの代わり又は特定のプロトコルに加えて、他のワイヤレスネットワークプロトコル規格を使用することができる。他のネットワーク規格には、Bluetooth(登録商標)、モバイル通信用グローバルシステム(GSM)、コード分割マルチプルアクセス(CDMA)、ロングタームエボリューション(LTE)、及び/又は4Gベース無線プロトコルが挙げられる。
【0041】
通信ネットワークを作成する働きをする任意の適切な回路、装置、システム又はこれらの組み合わせ(例えば、通信タワー及び電気通信サーバを含む無線通信インフラストラクチャ)を使用して、ネットワーク308を作成することができる。ネットワーク308は、任意の適切な通信プロトコルを使用して通信を提供することができる。いくつかの実施形態では、ネットワーク308、ユーザデバイス302、304及び/又は306、並びにサーバ310は、例えば、従来の電話線、ケーブルテレビ、Wi−Fi(登録商標)、イーサネット(登録商標)、Bluetooth(登録商標)、高周波システム(例えば、900MHz、2.4GHz、及び5.6GHz通信システム)、赤外線、伝送制御プロトコル/インターネットプロトコル(「TCP/IP」)(例えば、TCP/IP層のそれぞれで使用されるプロトコルのいずれか)、ハイパーテキスト転送プロトコル(「HTTP」)、BitTorrent(登録商標)、ファイル転送プロトコル(「FTP」)、実時間転送プロトコル(「RTP」)、実時間ストリーミングプロトコル(「RTSP」)、セキュアシェルプロトコル(「SSH」)、他の通信プロトコル、又はこれらの任意の組み合わせに対応している。
【0042】
特定の実施態様では、サーバ310は、LINUX、UNIX、Windows(登録商標)、又はMAC OSオペレーティングシステムのうちの1つ以上を含む。サーバ310は、1つのコンピュータ装置又は複数のコンピュータ装置上に実装され得る。データストア312は、1つ以上のディスクドライブ、ソリッドステートメモリ、揮発性及び/又は不揮発性メモリ、記憶ディスクアレイ、及び/又は複数の冗長記憶要素を含んでもよい。サーバ310は、複数のハードウェアサーバ要素間で分散及び/又は複製された仮想サーバを含んでもよい。
【0043】
一実施態様において、ユーザデバイス302、304及び/又は306は、図1の構成要素102、104及び106のうちの1つ以上、及び図2の機能202、204、206、208及び210のうちの1つ以上を含む。例えば、ユーザデバイス302は、図1の構成要素102、104及び106と図2の機能202、204、206、208及び210のすべてを含む独立型ユーザ発音システムとして動作する携帯型コンピューティング装置を含んでもよい。1つの構成において、ユーザデバイス302は、データストア312に定期的に又は他の瞬間にアクセスして、連絡先名、連絡先情報(例えば、住所、電子メールアドレス、電話番号など)、及び連絡先名と関連付けられた単音節要素を含むユーザ発音関連データを取得する。ユーザデバイス302は、ユーザ発音関連データを、データストア106内にローカルに記憶し及び/又はデータストア312内にリモートに記憶してもよい。
【0044】
別の実施態様において、ユーザデバイス302及びサーバ312は、協力的に動作して、図2の機能202、204、206、208及び210のうちの1つ以上を実施してもよい。1つの構成において、ユーザデバイス302は、図2の環境200の機能を実施するサーバ310のクライアント及び/又は端末として動作する。別の構成では、ユーザデバイス302及びサーバ310は両方とも、図2の環境200の1つ以上の機能を実行する。更に別の構成では、ユーザデバイス302は、図2の機能202、204、206、208及び210の一部分を実行し、サーバ310及び/又はデータストア312は、図2の機能202、204、206、208及び210の別の部分を実行する。
【0045】
図4は、連絡先リスト又はユーザ入力から名前の音声発音を生成するプロセス400の流れ図である。プロセス400のステップのうちの1つ以上は、例えば、図2の機能202、204、206、208及び210のうちの1つ以上を使用する図1図3のシステム100及び300などのユーザ主導名前発音システムによって実施されうる。
【0046】
一実施態様では、ユーザデバイス302などのユーザデバイスは、1つ以上の連絡先名を含む連絡先アプリケーション208を含む。ユーザは、連絡先アプリケーション208にアクセスして、記憶された連絡先名の文字と関連付けられた音声発音を決定することができる。連絡先名は、名及び/又は姓を含むことがある。Apple(登録商標)iPhone(登録商標)などの特定の装置が、ユーザが手動で音声綴りを挿入する音声の名と音声の姓フィールドを提供して、連絡先をどのように発音すべきかを決定する。手動入力は、時間がかかり、正確な発音が最終的に合成されるかを保証しないことがあり得る。したがって、ユーザがその連絡先の名前に精通していることと、ユーザがその名前をどのように発音しようとするかを利用して、名前の発音を効率的かつ好都合に呈示し明瞭に発音する方法をユーザに提供することが有利になる。
【0047】
特定の実施態様では、ユーザは、連絡先アプリケーション208又は他のアプリケーション210のユーザインタフェース102によって名前を選択して、名前の適切な音声発音を指定することができる。発音ゲッサー202は、名前を受け取る(ステップ402)。代替又は追加として、ユーザデバイス302などのユーザデバイスは、話された名前及び/又は他の単語を受け取るためのユーザインタフェース102を含んでもよい。ユーザインタフェース102は、ユーザが提供した名前を受け取るマイクロフォンを含み、次にその名前は、音声レコグナイザ204に提供されて話された名前が文字に変換され得る。ユーザは、例えば、「Philippe」などの名前を話し、それが電子データ及び/又は文字に変換され得る。「Philippe」の電子データ及び/又は文字は、更なる処理のために発音ゲッサー202によって受け取られ得る。受け取った名前は、連絡先内のエントリ、例えば、iPhone(登録商標)などのユーザデバイス302内の連絡先アプリケーション208の「名」及び/又は「姓」フィールドであってよい。受け取った名前は、連絡先アプリケーション208の名前欄と関連付けられた名前の記録であってよい。例えば、1つの名前は、名前の隣りに表示及び/又は位置決めされてユーザが発音を名前に関連付けることを可能にするアイコンを有することができる。
【0048】
次に、発音ゲッサー202は、名前と関連付けられた1組の可能な音声発音を過剰に生成する(ステップ404)。例えば、図4の特徴414は、用語「Hafs」の複数の可能な発音を示す。1つの構成で、発音ゲッサー202は、名前に1つ以上の単音節要素をマッピングする。マッピングは、例えば、データストア106及び/又は312に含まれるデータベースから1つ以上の単音節要素を生成し、関連付けかつ/又は取得することを含むことがある。データベースは、1つ以上の連絡先名と、各連絡先名と関連付けられかつ/又はマッピングされた1つ以上の単音節要素及び/又は単語を記憶するリレーショナルデータベースを含んでもよい。特定の構成では、発音ゲッサー202は、1つ以上の場所及び/又は言語に基づいて可能な音声発音をマッピングしかつ/又は生成してもよい。例えば、発音ゲッサー202は、英語、ドイツ語、フランス語などの様々な言語での音声発音の語彙集を含むデータストア106及び/又は312内のデータベースにアクセスしてもよい。語彙集は、1つ以上の言語で名前と関連付けられた単音節要素を含んでもよい。例えば、図5と関連して、名前「Philippe」は、英語要素508「fill」とフランス語要素506「leap」を有することがある。
【0049】
次に、生成されたリスト及び/又は組の可能な音声発音は、例えば、可能な音声発音の認識を実行し適切な音声変換の最も近い推定を選択するレコグナイザ204に提供される(ステップ406)。1つの構成では、レコグナイザ204は、条件付き音声認識を使用する。条件付き認識は、制限された処理能力、より高速認識の必要性、記憶容量の可用性、音声発音の語彙集のサイズ、及び/又は他のシステム制約などの、制限された資源に基づいて使用され得る。レコグナイザ204は、最も近い推定を決定する際に、ユーザの位置などの要素を考慮することがある。例えば、ユーザ及び/又はユーザデバイス302が、実質的に、特定の言語又は場所と関連付けられた特定の地理的領域内に起源がありかつ/又は存在する場合、レコグナイザ204は、最も近い可能な推定を選択するときに位置を考慮することがある。レコグナイザ204は、また、名前の最も近い可能な推定を選択するための言語及び/又は場所を決定する際に、他の名前の音声発音のユーザの選択を考慮してもよい。
【0050】
代替の実施態様では、生成されたリスト及び/又は組の可能な音声発音は、ユーザインタフェース102を介してユーザに提供される。1つの構成では、ユーザインタフェース102は、1組の単音節要素及び/又は単語を含む音声発音のリスト及び/又は組を示す。
【0051】
図5は、単音節要素504、506、508、510、512、514、516及び518を含む名前502(例えば、「Philippe」)の表示500である。音節は、母音、二重母音又は音節子音によって構成された単一連続音を含む音声言語の単一要素と見なされることがある。音は、単一の子音又は複数の子音によって先行される、後続されるか、又は取り囲まれることがある。名前502は、連絡先アプリケーション208の連絡先リストの名でよい。表示500は、例えば、ユーザデバイス302のユーザインタフェース102を介して提供されてもよい。表示500は、1つ以上の単音節要素を選択するためにユーザ入力を受け取ることができるタッチスクリーンを含んでもよい。この場合、名前502「Philippe」は、単音節要素504「fee」、506「leap」、508「fill」、510「eap」、512「philly」、及び514「pay」を含むことができる。ユーザは、名前502「Philippe」の音声発音を組み立てるために、単音節要素504「fee」及び506「leap」を選択してもよい。
【0052】
あるいは、ユーザは、名前502「Philippe」の異なる音声発音を組み立てるために、単音節要素508「fill」及び506「eap」を選択してもよい。更に他の選択肢として、ユーザは、名前502「Philippe」の別の音声発音を組み立てるために、単音節要素512「philly」及び514「pay」を選択してもよい。いくつかの実施態様では、表示500は、ユーザ入力を受け取って単音節要素又は単語を定義できるユーザ定義可能フィールドとして、単音節要素516及び518を含む。発音ゲッサーが名前の構成要素を十分に発音する単音節要素を提供しない環境があることがある。そのような状況では、ユーザインタフェース102は表示500によって、名前の一部分の単音節発音を提供する構成要素516及び/又は518を介してユーザ入力した単語を受け取ることができる。いくつかの実施態様では、ユーザは、構成要素502〜518の任意の組み合わせを選択して名前502「Philippe」の音声発音を組み立てることができる。
【0053】
前述したように、表示500は、1つ以上の言語又は場所と関連付けられた単音節要素を受け取ることができる。1つ以上の言語と関連付けられた単音節要素を呈示することによって、ユーザインタフェース102は、表示500を介して、名前の一部分の様々な可能な代替の発音をユーザに効率的に提供する。1つ以上の単音節要素は、データストア106及び/又は312内に記憶された1つ以上の言語と関連付けられた1つ以上の語彙集及び/又はデータベースに基づいて、発音ゲッサー202によって生成され得る。
【0054】
特定の構成において、ユーザインタフェース102は表示500によって、予測されたユーザ選択に基づいた順序及び/又はシーケンスで配列された単音節要素及び/又は他の単語を表示する。例えば、図5では、単音節要素504「fee」は、フランス語発音のユーザ選択、ユーザの場所、ユーザと関連付けられた言語、及び/又はユーザが行った単音節要素の以前のタイプの選択に基づいて、構成要素508「fill」の上に表示される可能性がある。いくつかの構成では、ユーザインタフェース102は表示500によって、単音節要素を、ある期間及び/又は特定の位置におけるユーザ群の中の特定の単音節要素の使用の人気及び/又は頻度に基づく特定のシーケンス及び/又は順序で呈示してもよい。
【0055】
特定の実施態様では、表示500は、単音節語と組み合わせて音声発音を構成することができるデータストア106及び/又は312内の辞書からルックアップされた1つ以上の多音節の単語を含んでもよい。例えば、構成要素620「money」(図6)と構成要素512「philly」は、使用できる先在辞書内にあることがある多音節(即ち、両音節)単語と見なされることがある。したがって、辞書内の正当な単音節語と見なされないが正当な単音節語から組み立てられた特定の単語を含み、音声発音の組み立てをユーザに呈示することができ、ユーザは、単音節語を類似の文脈に基づいて適切に発音できることがある。例えば、単語「Tim」が辞書内の正当な単語であり、一方単語「nim」が正当な単語でないことがあるが、子音「t」が子音「n」と置き換えられたことに基づいて、発音のされ方を適切に推定することができる。
【0056】
図6は、その単音節要素604〜626を含む別の名前602「Belyamani」の表示600の別の例である。ユーザインタフェース102は表示600によって、名前602「Belyamani」を、その単音節要素604〜626のうちのいくつか又はすべてで表示することがある。名前602は、連絡先アプリケーション208の連絡先リスト内の姓でよい。1つの構成では、ユーザインタフェース102は、名前602「Belyamani」の一部分と関連付けられた単音節要素604〜626のうちの1つ以上のユーザ選択を受け取る。単音節要素604〜626は、ユーザの特徴及び/又はユーザ群の特徴に基づいて配列されてもよい。ユーザインタフェース102は、単音節要素のうちの1つ以上のユーザ選択を受け取ることができるタッチスクリーンを含んでもよい。ユーザインタフェース102は、マウス、キーパッド、クリックホイール、マイクロフォンなどであるがこれらに限定されないユーザ入力を受け取ることができる他の装置を含んでもよい。
【0057】
一実施態様では、ユーザインタフェース102は、表示600によって、単音節要素の一部分を呈示するが、他の部分がユーザ選択に関連しない限り又は関連するまで、単音節要素の別の部分を呈示しなくてもよい。例えば、表示600は、最初に、構成要素604「bell」、610「bail」、616「bale」及び622だけを表示してもよい。ユーザがどの構成要素を選択するかにより、ユーザインタフェース102は、表示600によって、他の構成要素606、608、612、614、618、620、624及び626のうちの1つ以上を表示してもよい。例えば、ユーザが、構成要素604「bell」を選択した場合、ユーザインタフェースは、構成要素606「ya」、608「mani」及び620「money」だけを示すが、構成要素614「any」を示さず、その理由は、ユーザインタフェース102及び/又は発音ゲッサー202が、構成要素614が構成要素604「bell」及び/又は構成要素606「ya」に十分に関係があると見なさないからである。
【0058】
いくつかの構成では、構成要素604〜626の任意の1つ以上の行又は列が、表示600によって表示されてもよい。例えば、構成要素604、610、616及び622を含む第1の列が最初に表示される。ユーザが、第1の列の構成要素のうちの1つを選択した後で、構成要素606、612、618及び624を含む第2の列が表示されてもよい。第1の列は、表示600から除去されてもよい。ユーザが、第2の列の構成要素を選択した後、構成要素608、614、620及び626を含む第3の列が表示され、第2の列の構成要素が表示600から除去されてもよい。単音節要素の追加の列が、同じように呈示されてもよい。
【0059】
ユーザインタフェース102は、例えば、構成要素604、606及び608を含む行などの行の表示に類似の手法を使用してもよい。単音節要素の他の部分及び/又は群が、1つ以上の他の単音節要素の選択に基づいて動的に表示されてもよい。いくつかの構成では、ユーザインタフェース102は、表示600によって、ユーザ入力された単音節要素及び/又は単語を受け取る1つ以上の単音節入力欄622、624及び626を提供する。一実施態様において、ユーザインタフェース102は、ユーザ入力単音節要素をユーザによるユーザインタフェース102による後の使用及び/又はユーザデバイス304及び306などの他のユーザデバイスと関連付けられた他のユーザによる後の使用のために、データストア106及び/又はデータストア312などのデータストアに記憶する。
【0060】
図7は、その単音節要素704〜720を含む更に別の名前702「Hafsteinsson」の表示700である。ユーザインタフェース102は、表示700によって、表示500及び600に関して前述した特徴物を提供することができる。いくつかの実施態様では、ユーザインタフェース102は、表示700によって、名前の1つ以上の組み立てられた音声発音を含むリストをユーザに選択用に提供する。例えば、1組のユーザ選択可能な単音節要素704、706及び708を提供する代わりに、ユーザインタフェース102は、構成要素704、706及び708を含む組み立て音声発音を「yaf−stein−son」として提供する。
【0061】
同様に、ユーザインタフェース102は、表示700によって、構成要素710、712及び714などに基づいて、「Half−steen−sown」などの他の組み立てられた音声発音を提供する。要素414は、名前「Hafs」の複数の発音の表示の実例を提供する。したがって、ユーザインタフェース102は、表示500、600又は700によって、単音節要素の様々な組み合わせを含む名前を発音することができる方法のリストを提供することができる。ユーザインタフェース102は、表示700によって、ユーザ入力した単音節要素及び/又は単語を受け取るために1つ以上の単音節入力欄716、718及び720を提供してもよい。
【0062】
図4に戻ると、ステップ406で、名前発音選択及び/又は推定が完了した後で、条件付き認識を使用して最も近い推定を自動的に認識し選択するか、又はユーザインタフェース102を使用して、名前の音声発音を組み立てる選択可能な単音節要素の表示をユーザに提供することによって、シンセサイザ206は、選択された単音節要素を受け取り合成して名前の音声発音を生成しかつ/又は組み立てる(ステップ408)。名前の組み立てられた音声発音は、音声ファイルなどの電子データの形であってよい。1つの構成において、シンセサイザ202は、例えば、ユーザインタフェース102の1つ以上のスピーカによって、ユーザに、オーディオ表現及び/又は再生のためのユーザインタフェース102に音声発音を提供する。
【0063】
ユーザは、発音された名前を聞いて、組み立てられた音声発音を受け入れてもよく、又は拒否してもよい(ステップ410)。例えば、ユーザインタフェース102は、ユーザ入力「はい」を受け取って名前の示された音声発音を受け入れてもよく、ユーザ入力「いいえ」を受け取って名前の呈示された音声発音を拒否してもよい。ユーザ入力は、タッチスクリーン、マウス、キーパッド及び/又は音声入力などのユーザ入力装置を介して提供されてもよい。
【0064】
ユーザが、音声発音を受け入れた場合は、システム100及び/又は300などのユーザ主導発音システムは、名前のユーザ選択音声発音を、例えば、その後の使用及び/又はユーザへの再生のためにデータストア106及び/又は312に記憶する(ステップ412)。ユーザが、名前と関連付けられた音声発音を拒否する場合、ユーザ主導発音システム100及び/又は300は、プロセス400のステップ406に戻って、次に利用手可能な最も近い推定を決定するか、ユーザが、その名前の単音節要素の新しい構成を選択することを可能にする。したがって、特定の実施態様では、ステップ406〜410は、ユーザが名前の特定の音声発音に満足するまで、繰り返し実行されてもよい。
【0065】
一般に、本明細書におけるシステム及び方法は、ユーザ主導名前発音を可能にする。様々な技術は、ユーザが、電子デバイスが認識でき、名前のより正確で適切な発音に合成できる名前を話すことを可能にする。これらの技術は、装置が、名前を発音できる仕方のリストをユーザに提供することを可能にし、それにより、ユーザが、より正確な発音を選択することができる。更に、本明細書におけるシステム及び方法は、ユーザが名前と関連付けられた1つ又はマッピングされた単音節要素を選択して、電子デバイスによる名前のより正確な発音を組み立てることができるようにするユーザインタフェースを提供する。
【0066】
図8は、名前の音声発音を決定するシステム800の図である。システム800は、発音ゲッサー802、音声マッパ804、及び条件付きレコグナイザ806を含む。発音ゲッサー802は、また、複数の発音ゲッサー808、810及び812を含む。発音ゲッサーはそれぞれ、特定の言語及び/又は場所と関連付けられる。例えば、ゲッサー808は、フランス語と関連付けられ、フランス語音標文字を利用して発音を推定してもよい。ゲッサー810は、ドイツ語と関連付けられ、ドイツ語音標文字を利用して発音を推定してもよい。ゲッサー812は、例えば、英語と関連付けられ、英語音標文字を利用して発音を推定してもよい。
【0067】
特定の実施態様では、発音ゲッサー802は、図2の発音ゲッサー202を含む。条件付きレコグナイザ806は、図2のレコグナイザ204を含んでもよい。また、音声マッパ804は、図2の構成要素202〜210のうちの1つ以上に含まれてもよい。更に、構成要素802〜812の機能及び/又は動作のいずれかが、例えば、図1のプロセッサ104などの1つ以上のプロセッサによって実行されてもよい。
【0068】
特定の実施態様では、ユーザは、インタフェース102によって、ある特定の仕方で発音される名前の音声表現(例えば、録音)を話しかつ/又は提供してもよい。インタフェース102は、名前と、ユーザがその名前をどのように発音するかの録音とを受け取ってもよい。インタフェース102は、1つ以上のゲッサー808、810及び812を通される名前の文字エントリを受け取ることができる。次に、名前を発音する仕方の録音は、1つ以上のゲッサー808、810及び812並びに/又は場所から推定された発音の条件付きリストから認識されてもよい(ターゲット場所への音声マッピング後に)。次に、システム800は、ユーザの名前の話し方と最も合致する発音を認識する。
【0069】
より詳細には、条件付きレコグナイザ806は、話されかつ/又は提供された名前に実質的に近い最良合致及び/又は合致を選択してもよい。発音推定の条件付きリストは、複数の発音ゲッサー808、810及び812によって生成されてもよい。図8は、3つのゲッサーを示しているが、ゲッサーの数は、システム800が効率的に対応できる1つから任意数まで異なってもよい。
【0070】
特定の実施態様において、名前は、特定の言語又は場所の文字セットに対応する複数のゲッサー808、810及び812に通される(例えば、英語の名前は、日本語の場所で適切に表現されないことがあるが、フランス語の場所では適切に表現される)。次に、異なる言語及び/又は場所と関連付けられた各発音ゲッサー810及び812からの発音推定は、マッパ804によって、例えば、発音ゲッサー808と関連付けられた音標文字などのターゲット場所の音標文字にマッピングされる。このマッピングアルゴリズム及び/又はプロセスは、マッパ804ユニットによって行われ、マッパ804ユニットは、各音声単位及び/又は音素を、ゲッサー810及び812の音標文字からターゲットゲッサー808及びその関連音標文字の音標文字にマッピングする。マッパ804は、音声単位、音素、単音節要素、強調のタイプを有する音節構成要素、単語の一部分などであるがこれらに限定されない様々な音声構成要素をマッピングしてよい。次に、条件付きレコグナイザ806は、条件付き認識を行って、これらの過剰生成された発音から最良合致を選択することができる。
【0071】
追加の態様において、名前発音は、例えば、シンセサイザ206による認識並びに音声合成に使用される。音声合成の場合、マッピングされる音標文字は、認識文字と異なることがある。音声合成の場合、音標文字は、話された発音を描写するために使用される音声シンセサイザが対応している文字である。1つの構成では、シンセサイザ206及び/又は図2の他の構成要素のうちのいずれかが、音声合成辞書に基づいて名前を合成するときに音節強調を推定する。音節強調は、言語及び/又は場所に固有の1組の規則から導出されてもよい。例えば、名前「Obama」は、音声単位「o」、「bam」及び「a」を含む。第1の音声単位「o」は、名前が「Ohh−bam−a」と発音されるように強調されてもよい。あるいは、名前の最終単位は、名前が「O−bam−Ahh」と発音されるように強調されてもよい。特定の構成において、システム800及び/又は100は、強調されるか強調されない様々な音声単位を含む。様々な音声単位は、ユーザに、例えば、図5〜7に示された構成要素のような代替の選択可能な構成要素として提示されてもよい。いくつかの実施態様において、システム800は、ユーザが選択することがある強調音声単位と非強調音声単位を有する発音を含む様々な発音をユーザに提示してもよい。
【0072】
更に他の態様において、プロセッサ104などのプロセッサは、ゲッサー808、810及び/若しくは812の数を切り詰め、かつ/又は減少させる言語識別プロセス並びに/あるいは機能を使用することによって、名前を通すゲッサー808、810及び/又は812の数及び/又はリストを抑えてもよい。言語識別プロセス及び/又は機能は、名前に最も適合する言語及び/又は場所を評価するスコアを格付け及び/又は提供してもよい。次に、プロセッサ104は、ゲッサーのリストを切り詰めかつ/又は削減してゲッサーの数を抑えることができる。これは、システム800及び/又は100が、ユーザに名前発音をより迅速かつ効率的に提供できるシステム800及び/又は100の能力(例えば、処理能力、メモリ、及び他のリソース)が制限されている場合に有利なことがある。
【0073】
図9は、名前の音声発音を生成するプロセス900の流れ図である。システム800などのシステムは、複数の発音ゲッサー808、810及び/又は812を含みかつ/又は提供されてもよく、発音ゲッサー808、810及び/又は812がそれぞれ、言語又は場所の特定の音標文字と関連付けられる(ステップ902)。プロセッサ104などのプロセッサは、ユーザと関連付けられた言語又は場所を決定し(ステップ904)、第1の音標文字をユーザと関連付けられた言語又は場所と関連付ける(ステップ906)。言語及び/又は場所の決定は、メーカー入力、サービス提供者入力、ユーザ入力、システム800及び/又は100の場所と関連付けられた地理的領域の検出、名前のタイプの分析及び/又はユーザによって入力される他の単語などによるものであってよい。
【0074】
発音ゲッサー808、810及び/又は812はそれぞれ、名前の表現を受け取る(ステップ908)。この表現は、正字法であってよい。複数の発音ゲッサー808、810及び/又は812はそれぞれ、名前の1つ以上の構成要素の音声発音を推定する(ステップ910)。次に、音声マッパ804は、複数の発音ゲッサー808、810及び812のそれぞれによって推定された名前の1つ以上の構成要素の音声発音を第1の音標文字にマッピングして、推定発音リストを生成する(ステップ912)。特定の構成において、マッパ804及び/又はプロセッサ104は、第1の音標文字及び/又は別の音標文字と関連付けられた語彙集に言語学者によって転記された音声発音を受け取ってもよく、その音声発音は、推定発音リストに含まれてもよい。レコグナイザ806などのレコグナイザは、名前の音声発音を受け取り(ステップ914)、次に、発音されたときに名前の音声発音と実質的に合致及び/又は最良合致する構成要素の組み合わせを推定発音リストから選択してもよい(ステップ916)。
【0075】
名前の1つ以上の構成要素はそれぞれ、音声単位、音素、単音節要素、特定タイプの強調を有する単音節要素、及び単語の一部分のうちの少なくとも1つを含んでもよい。プロセッサ102は、ユーザと関連付けられた言語又は場所を識別することができる。発音ゲッサー808、810及び/又は812の数は、ユーザと関連付けられた言語又は場所に基づいて決定されてもよい。複数の発音ゲッサー808、810及び/又は812のそれぞれのタイプは、ユーザと関連付けられた言語又は場所に基づいて決定されてもよい。発音ゲッサーのタイプは、発音ゲッサーと関連付けられた言語又は場所のタイプを含んでもよい。
【0076】
図10は、名前の単音節要素のユーザ選択に基づいて名前の音声発音を生成する別のプロセス1000の流れ図である。図1のシステム100などのシステムは、音声発音を名前と関連付けることができる。システム100は、名前を受け取るように構成されたユーザインタフェース102を含んでもよい(ステップ1002)。システムは、また、名前の音声発音を組み立てるために組み合わせ可能な複数の単音節要素に名前をマッピングするように構成されたプロセッサ104を含んでもよい(ステップ1004)。ユーザインタフェース102は、また、複数の単音節要素の1つ以上を選択するためにユーザ入力を受け取るように構成されてもよい(ステップ1006)。更に、プロセッサ104は、複数の単音節要素のうちの選択された1つ以上を組み合わせて名前の音声発音を組み立てるように構成されてもよい(ステップ1008)。
【0077】
1つの構成において、ユーザインタフェース102は、音声発音をユーザに提供するように構成される。ユーザインタフェース102は、第2のユーザ入力を受け取って音声発音を選択又は拒否するように構成されてもよい。ユーザインタフェース102は、また、複数の単音節要素の第1の部分をユーザに表示するように構成されてもよい。ユーザインタフェース102は、更に、複数の単音節要素の第1の部分のうちの1つのユーザ選択に応じて、単音節要素の第2の部分を表示するように構成されてもよい。
【0078】
プロセッサ104は、連絡先アプリケーション208の連絡先リスト及び/又はユーザと関連付けられた他のアプリケーション210から名前を受け取るように構成されてもよい。名前は、テキスト形式であってよい。プロセッサ104は、名前と関連付けられた単音節要素のうちの1つ以上を含むデータストア106及び312に照会するように構成されてもよい。単音節要素は、1つ以上の言語及び/又は場所と関連付けられた構成要素を含んでもよい。名前の音声発音の組み立てには、音声ファイルの生成を含んでもよい。
【0079】
図11は、名前の音声発音と関連付けられた用法情報を決定するプロセス1100の流れ図である。図3のシステム300などの名前の音声発音の用法を決定するシステムは、名前を受け取るように構成されたサーバ310を含んでもよい(ステップ1102)。システム300は、名前と関連付けられた1つ以上の音声発音を記憶するように構成されたデータストア312を含んでもよい(ステップ1104)。サーバ310は、1つ以上のユーザデバイス302、304及び306から名前と関連付けられた1つ以上の音声発音の指示を受け取り(ステップ1106)、名前と関連付けられた1つ以上の音声発音と関連付けられた用法データを決定する(ステップ1108)ように構成されてもよい。
【0080】
指示は、1つ以上の音声発音を含んでもよい。指示は、1つ以上のユーザデバイス302、304及び306からの1つ以上の音声発音の選択を含んでもよい。用法データは、ある期間中に指示が受け取られるインスタンスの量を含んでもよい。サーバ310は、用法データに基づいて、名前と関連付けられた音声発音の少なくとも1つを第1のユーザデバイス302に提供するように構成されてもよい。
【0081】
いくつかの実施形態によれば、図12は、前述のような本発明の原理により構成された電子デバイス1200の機能ブロック図を示す。この装置の機能ブロックは、本発明の原理を実行するためにハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせにより実施することができる。当業者によれば、図12に述べられる機能ブロックは、上記に述べたような本発明の原理を実施するために組み合わせるか、又はサブブロックに分割することができる。したがって、本明細書における説明は、あらゆる可能な組み合わせ若しくは分割、又は本明細書に述べられる更なる機能ブロックの定義を支持しうるものである。
【0082】
図12に示されたように、電子デバイス1200は、処理ユニット1206にそれぞれ結合された入力受取りユニット1202及び出力ユニット1203を含む。いくつかの実施態様において、処理ユニット1202は、名前受取りユニット1208、マッピングユニット1210、結合ユニット1212、データストア照会ユニット1214、及び音声ファイル生成ユニット1216を含む。いくつかの実施態様では、出力ユニット1203は、視覚出力ユニット1205と音声出力ユニット1207を含む。
【0083】
処理ユニット1206は、名前を受け取り(例えば、名前受取りユニット1208によって)、名前を複数の単音節要素にマッピングする(例えば、マッピングユニット1210によって)ように構成され、複数の単音節要素の少なくとも一部が、名前の音声発音を組み立てるように組み合わせ可能である。入力受取りユニット1202は、複数の単音節要素のうちの1つ以上を選択するユーザ入力を受け取るように構成される。処理ユニット1206は、更に、複数の単音節要素のうちの選択された1つ以上を組み合わせて名前の音声発音を組み立てるように構成されてもよい(例えば、組み合わせユニット1212によって)。いくつかの実施態様では、音声発音の組み立ては、音声ファイルの生成を含む(例えば、音声ファイル生成ユニット1216によって)。
【0084】
いくつかの実施態様では、名前受取りユニット1208は、ユーザと関連した連絡先リストから名前を受け取るように構成される。いくつかの実施態様では、名前は、名と姓の少なくとも一方を含む。
【0085】
いくつかの実施態様では、出力ユニット1203は、音声発音を出力するように構成される(例えば、音声出力ユニット1207によって)。いくつかの実施態様では、入力受取りユニット1202は、第2のユーザ入力を受け取って音声発音を選択又は拒否するように構成される。いくつかの実施態様において、出力ユニット1203は、更に、複数の単音節要素の第1の部分を表示するように構成される(例えば、視覚出力ユニット1205によって)。いくつかの実施態様において、出力ユニット1203は、更に、複数の単音節要素の第1の部分のうちの1つのユーザ選択に応じて(例えば、入力受取りユニット1202によって受け取られた)、複数の単音節要素の第2の部分を表示するように構成される。
【0086】
いくつかの実施態様では、処理ユニット1206は、更に、単音節要素の1つ以上を含むデータストアを照会するように構成される(例えば、データストア照会ユニット1214によって)。いくつかの実施態様では、単音節要素は、1つ以上の言語又は場所と関連付けられた構成要素を含む。いくつかの実施態様では、処理ユニット1206は、更に、構成される。
【0087】
いくつかの実施形態によれば、図13は、前述のような本発明の原理により構成された電子デバイス1300の機能ブロック図を示す。この装置の機能ブロックは、本発明の原理を実行するためにハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせにより実施することができる。当業者によれば、図13に述べられる機能ブロックは、上記に述べたような本発明の原理を実施するために組み合わせるか、又はサブブロックに分割することができる。したがって、本明細書における説明は、あらゆる可能な組み合わせ若しくは分割、又は本明細書に述べられる更なる機能ブロックの定義を支持しうるものである。
【0088】
図13に示されたように、電子デバイス1300は処理ユニット1306に結合された入力受取りユニット1302を含む。いくつかの実施態様において、処理ユニットは、発音推定ユニット1307−n、言語/場所決定ユニット1308、言語/場所関連付けユニット1310、マッピングユニット1312、及び発音選択ユニット1314を含む。いくつかの実施態様において、発音推定ユニット1307−nはそれぞれ、言語又は場所のそれぞれの音標文字と関連付けられる。
【0089】
入力受取りユニット1302は、名前の音声発音を受け取るように構成される。処理ユニット1306は、ユーザ言語又はユーザの場所を決定し(例えば、言語/場所決定ユニット1308によって)、第1の音標文字をユーザ言語又はユーザの場所と関連付け(例えば、言語/場所関連付けユニット1310によって)、各発音推定ユニット1307−nで名前の表現を受け取り、各発音推定ユニット1307−nで、名前の1つ以上の構成要素の音声発音を推定し、複数の発音推定ユニットのそれぞれによって推定された名前の1つ以上の構成要素の音声発音を第1の音標文字にマッピングして推定発音リストを生成する(例えば、マッピングユニット1312によって)ように構成される。処理ユニット1306は、更に、発音されたときに、名前の音声発音と実質的に合致する推定発音リストから構成要素の組み合わせを選択するように構成される(例えば、発音選択ユニット1314によって)。
【0090】
いくつかの実施態様では、名前の1つ以上の構成要素は、音声単位、音素、単音節要素、特定のタイプの強調を有する単音節要素、及び単語の一部分の少なくとも1つを含む。いくつかの実施態様では、ユーザ言語又はユーザの場所の決定は、ユーザ言語又はユーザの場所を識別する入力を受け取ることを含む(例えば、入力受取りユニット1302によって)。いくつかの実施態様において、複数の発音推定ユニット1307−nは、ユーザ言語又はユーザの場所に基づいて処理ユニット1306によって選択される。
【0091】
いくつかの実施形態によれば、図14は、前述のような本発明の原理により構成された電子デバイス1400の機能ブロック図を示す。この装置の機能ブロックは、本発明の原理を実行するためにハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせにより実施することができる。当業者によれば、図14に述べられる機能ブロックは、上記に述べたような本発明の原理を実施するために組み合わせるか、又はサブブロックに分割することができる。したがって、本明細書における説明は、あらゆる可能な組み合わせ若しくは分割、又は本明細書に述べられる更なる機能ブロックの定義を支持しうるものである。
【0092】
図14に示されたように、電子デバイス1400は、処理ユニット1406、処理ユニット1406に結合された記憶ユニット1402、及び処理ユニット1406に結合された指示受取りユニット1403を含む。いくつかの実施態様では、電子デバイス1400は、処理ユニット1406に結合されたデータ出力ユニット1405を含む。いくつかの実施態様では、処理ユニット1406は、名前受取りユニット1408、用法データ決定ユニット1410、マッピングユニット1412、及び発音選択ユニット1414を含む。
【0093】
記憶ユニット1402は、名前と関連付けられた1つ以上の音声発音を記憶するように構成される。指示受取りユニット1403は、1つ以上のユーザデバイスからの名前と関連付けられた1つ以上の音声発音の指示を受け取るように構成される。いくつかの実施態様では、指示は、1つ以上の音声発音のうちの少なくとも1つを含む。いくつかの実施態様では、指示は、1つ以上のユーザデバイスからの1つ以上の音声発音のうちの少なくとも1つの選択を含む。
【0094】
処理ユニット1406は、名前を受け取り(例えば、名前受取りユニット1408によって)、名前と関連付けられた1つ以上の音声発音と関連付けられた用法データを決定する(例えば、用法データ決定ユニット1410によって)ように構成される。いくつかの実施態様では、用法データは、ある期間中に指示が受け取られるインスタンスの量を含む。
【0095】
いくつかの実施態様では、データ出力ユニット1405は、用法データに基づいて、名前と関連付けられた音声発音の少なくとも1つを、電子デバイスから遠隔の第1のユーザデバイスに提供するように構成される。
【0096】
本出願に含まれるシステム及び方法が、コンピュータが使用可能で持続的かつ/又は読み出し可能な媒体を含むコンピュータプログラム製品で実施されてもよいことは当業者に明らかであろう。例えば、そのようなコンピュータが使用可能な媒体は、CD ROMディスクや従来のROM装置などの読み出し専用メモリデバイス、ハードドライブ装置やコンピュータディスケットなどのランダムアクセスメモリ、又はコンピュータ可読プログラムコードが記憶されたフラッシュメモリデバイスからなってもよい。
【0097】
以上の図面の説明の様々な特徴、要素又はプロセスが、本明細書に記載された実施態様を実現又は実施するために交換可能又は結合可能であることを理解されたい。当業者は、本出願の態様が、記載の実施態様以外の実施態様によって実施することができ、限定ではなく例示のために呈示され、それらの態様が、以下の特許請求の範囲によってのみ限定されることを理解するであろう。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14