特許第6258191号(P6258191)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

<>
  • 特許6258191-入力方法及びシステム 図000002
  • 特許6258191-入力方法及びシステム 図000003
  • 特許6258191-入力方法及びシステム 図000004
  • 特許6258191-入力方法及びシステム 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6258191
(24)【登録日】2017年12月15日
(45)【発行日】2018年1月10日
(54)【発明の名称】入力方法及びシステム
(51)【国際特許分類】
   G06F 17/27 20060101AFI20171227BHJP
   G06F 17/22 20060101ALI20171227BHJP
【FI】
   G06F17/27 660
   G06F17/22 617
【請求項の数】10
【外国語出願】
【全頁数】15
(21)【出願番号】特願2014-264836(P2014-264836)
(22)【出願日】2014年12月26日
(65)【公開番号】特開2015-179497(P2015-179497A)
(43)【公開日】2015年10月8日
【審査請求日】2015年12月18日
(31)【優先権主張番号】201410104464.7
(32)【優先日】2014年3月19日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100073184
【弁理士】
【氏名又は名称】柳田 征史
(74)【代理人】
【識別番号】100090468
【弁理士】
【氏名又は名称】佐久間 剛
(72)【発明者】
【氏名】ホアン イーホア
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 特開平10−232863(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−17/28
(57)【特許請求の範囲】
【請求項1】
入力システムのエントリ処理ユニットにおいて、少なくとも2つの英文字を含む入力された英文字列を処理する方法であって、
前記エントリ処理ユニットが、前記少なくとも2つの英文字から、第1の言語に基づいた少なくとも1つの第1の候補エントリを取得するステップと、
前記エントリ処理ユニットが、前記少なくとも2つの英文字から、第2の言語に基づいた少なくとも1つの第2の候補エントリを取得するステップと、
前記エントリ処理ユニットが、前記第1の候補エントリ及び/又は前記第2の候補エントリを組み合わせてユーザが選択し得る少なくとも1つの第3の候補エントリを取得するステップと
を含み、
前記エントリ処理ユニットが前記第1の候補エントリを取得する前記ステップが、
(i)前記エントリ処理ユニットが、前記少なくとも2つの英文字に対して第1の区切り処理を行って区切り結果を取得するステップと、
(ii)前記エントリ処理ユニットが、前記区切り結果が前記第1の言語に基づいた候補エントリである確率を示す確率情報P(E|c)を、次式:
P(E|c)=P(E)P(c|E)/(P(J)P(c|J)+P(E)P(c|E))
を用いて取得するステップであって、式中、P(E)は、前記第1の言語の単語である区切り結果cの事前確率であり、P(c|E)は、区切り結果cが前記第1の言語の語彙に現れる条件付き確率であり、P(J)は、区切り結果cが前記第2の言語の文字である事前確率であり、P(c|J)は、区切り結果cが前記第2の言語の文字に対応する英文字列に現れる条件付き確率であるステップと、
(iii)前記エントリ処理ユニットが、予め設定された確率閾値よりも高い確率を示す確率情報に対応する区切り結果を、前記第1の言語に基づいた前記第1の候補エントリとして採用するステップと、
を含み、
前記エントリ処理ユニットが前記第2の候補エントリを取得する前記ステップにおいて、前記エントリ処理ユニットが、前記第1の区切り処理とは異なる、前記第2の言語に適した第2の区切り処理を前記少なくとも2つの英文字に対して行うことにより特定される前記第2の言語の文字のエントリを、第2の候補エントリとして取得する、
ことを特徴とする、方法
【請求項2】
前記第1の言語に基づいた前記第1の候補エントリが英語エントリであり、前記第2の言語に基づいた前記第2の候補エントリが仮名エントリであるか、又は
前記第1の言語に基づいた前記第1の候補エントリが英語エントリであり、前記第2の言語に基づいた前記第2の候補エントリが漢字エントリである、
ことを特徴とする、請求項1に記載の方法。
【請求項3】
前記第2の区切り処理が、前記少なくとも2つの英文字に対して、左から右への正適合アルゴリズムを適用して行う区切り処理であることを特徴とする、請求項1または2に記載の方法。
【請求項4】
前記エントリ処理ユニットが、前記第1の候補エントリ及び/又は前記第2の候補エントリを組み合わせて、前記第3の候補エントリを取得する前記ステップ
前記エントリ処理ユニットが、入力された前記少なくとも2つの英文字における前記第1の候補エントリの位置を示す第1の位置情報を取得するステップと、
前記エントリ処理ユニットが、入力された前記少なくとも2つの英文字における前記第2の候補エントリに対応する英文字列の位置を示す第2の位置情報を取得するステップと、
前記エントリ処理ユニットが、前記第1の言語に基づいた前記第1の候補エントリと、前記第1の位置情報と、前記第2の言語に基づいた前記第2の候補エントリと、前記第2の位置情報とに従って、前記第1の候補エントリ及び/又は前記第2の候補エントリを組み合わせることにより、前記第3の候補エントリを取得するステップと
を含むことを特徴とする、請求項1〜3のいずれか一項に記載の方法。
【請求項5】
前記エントリ処理ユニットが、複数の前記第3の候補エントリを重み付け値に従って降順に順位付けし、表示ボックスへの表示のために提供するステップをさらに含むことを特徴とする、請求項1〜4のいずれか一項に記載の方法。
【請求項6】
少なくとも2つの英文字を含む入力された英文字列を受信するための入力ユニットと、
前記少なくとも2つの英文字にから第1の言語に基づいた少なくとも1つの第1の候補エントリを取得するため、前記少なくとも2つの英文字にから第2の言語に基づいた少なくとも1つの第2の候補エントリを取得するため、並びに前記第1の候補エントリ及び/又は前記第2の候補エントリを組み合わせてユーザが選択し得る少なくとも1つの第3の候補エントリを取得するためのエントリ処理ユニットと
を備え入力システムであって、
前記エントリ処理ユニットが特に、
(i)前記少なくとも2つの英文字に対して第1の区切り処理を行って区切り結果を取得し、
(ii)前記区切り結果が前記第1の言語に基づいた候補エントリである確率を示す確率情報P(E|c)を、次式:
P(E|c)=P(E)P(c|E)/(P(J)P(c|J)+P(E)P(c|E))
を用いて取得し、ここで、式中、P(E)は、前記第1の言語の単語である区切り結果cの事前確率であり、P(c|E)は、区切り結果cが前記第1の言語の語彙に現れる条件付き確率であり、P(J)は、区切り結果cが前記第2の言語の文字である事前確率であり、P(c|J)は、区切り結果cが前記第2の言語の文字に対応する英文字列に現れる条件付き確率であり、かつ
(iii)予め設定された確率閾値よりも高い確率を示す確率情報に対応する区切り結果を、前記第1の言語に基づいた前記第1の候補エントリとして採用すること、
により、前記第1の候補エントリを取得するように動作し、
前記エントリ処理ユニットがさらに、前記第1の区切り処理とは異なる、前記第2の言語に適した第2の区切り処理を前記少なくとも2つの英文字に対して行うことにより特定される前記第2の言語の文字のエントリを、前記第2の候補エントリとして取得するように動作する、
ことを特徴とするシステム
【請求項7】
前記第1の言語に基づいた前記第1の候補エントリが英語エントリであり、前記第2の言語に基づいた前記第2の候補エントリが仮名エントリであるか、又は
前記第1の言語に基づいた前記第1の候補エントリが英語エントリであり、前記第2の言語に基づいた前記第2の候補エントリが漢字エントリである、
ことを特徴とする、請求項6に記載のシステム。
【請求項8】
前記第2の区切り処理が、前記少なくとも2つの英文字に対して、左から右への正適合アルゴリズムを適用して行う区切り処理であることを特徴とする、請求項6または7に記載のシステム。
【請求項9】
前記エントリ処理ユニットが特に、
入力された前記少なくとも2つの英文字における前記第1の候補エントリの位置を示す第1の位置情報を取得すること、
入力された前記少なくとも2つの英文字における前記第2の候補エントリに対応する英文字列の位置を示す第2の位置情報を取得すること、及び
前記第1の言語に基づいた前記第1の候補エントリと、前記第1の位置情報と、前記第2の言語に基づいた前記第2の候補エントリと、前記第2の位置情報とに従って、前記第1の候補エントリ及び/又は前記第2の候補エントリを組み合わせることにより、前記第3の候補エントリを取得すること
により、前記第3の候補エントリを取得するように動作することを特徴とする、請求項6〜8のいずれか一項に記載のシステム。
【請求項10】
前記エントリ処理ユニットが特に、複数の前記第3の候補エントリを重み付け値に従って降順に順位付けし、表示ボックスへの表示のために提供するように動作することを特徴とする、請求項6〜9のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は入力方法の技術分野に関し、詳細には入力方法及びシステムに関する。
【背景技術】
【0002】
日本語入力方法は、日本語と英語の混在入力を伴うのが通例である。即ち、ユーザによって入力された英文字列は、仮名文字に対応する英文字と、英語エントリに対応する英文字とを含む。そのため、英文字列内で英語エントリと仮名文字とを識別するために、入力された英文字列に従って処理が行われる必要がある。
【0003】
現時点において、日本語入力方法で英文字列を処理する方法は、英文字列の先頭の英文字を起点に、左から右への正適合(positive matching)アルゴリズムを用いて英文字列を区切って区切り結果を取得した後、入力方法辞書で連続的に照合することであり、区切り結果に従って仮名文字が一致すると、その区切り結果が仮名文字であると判定され、区切り結果に従って仮名文字が一致しないと、その区切り結果が英文字であると判定される。
【0004】
ただし、入力された英文字列が日本語と英語とを含んでいると、英文字列に対応する仮名文字が優先的に取得されるため、英語彙の候補エントリが失われて、有効な候補エントリを取得できないことから、表示ボックスに表示される候補エントリの精度が低いという結果になる。
【発明の概要】
【課題を解決するための手段】
【0005】
そのような理由で、入力方法及びシステムが本発明の実施形態で提供される。これにより、候補表示ボックスに表示される候補エントリの精度を上げることができる。
【0006】
本発明の実施形態では、
入力された少なくとも2つの英文字を受信するステップと、
その少なくとも2つの英文字に従って、第1の言語に基づいた第1の候補エントリを取得するステップと、
その少なくとも2つの英文字に従って、第2の言語に基づいた第2の候補エントリを取得するステップと、
第1の候補エントリ及び第2の候補エントリに従って、第3の候補エントリを取得するステップと
を含む入力方法が提供される。
【0007】
上記方法においては、
第1の言語に基づいた第1の候補エントリが英語エントリ、第2の言語に基づいた第2の候補エントリが仮名エントリであるか、又は
第1の言語に基づいた第1の候補エントリが英語エントリ、第2の言語に基づいた第2の候補エントリが漢字エントリである。
【0008】
上記方法において、少なくとも2つの英文字に従って第1の言語に基づいた第1の候補エントリを取得するステップは、
少なくとも2つの英文字に対して区切り処理を行って区切り結果を取得するステップと、
その区切り結果に関する確率情報であって、区切り結果が第1の言語に基づいた候補エントリである確率を示す確率情報を取得するステップと、
予め設定された確率閾値よりも高い確率を示す確率情報に対応する区切り結果を、第1の言語に基づいた第1の候補エントリとして採用するステップと
を含む。
【0009】
上記方法においては、第1の言語に基づいた第1の候補エントリが英語エントリ、第2の言語に基づいた第2の候補エントリが仮名エントリであり、区切り結果に関する確率情報を取得するステップは、次式を用いて区切り結果に関する確率情報P(E|c)を取得することを含む:
P(E|c)=P(E)P(c|E)/(P(J)P(c|J)+P(E)P(c|E))
式中、P(E)は、区切り結果cが英単語である事前確率であり、P(c|E)は、区切り結果cが英語彙に現れる条件付き確率であり、P(J)は、区切り結果cが仮名文字である事前確率であり、P(c|J)は、区切り結果cがその仮名文字に対応する英文字列に現れる条件付き確率である。
【0010】
上記方法において、第1の候補エントリ及び第2の候補エントリに従って第3の候補エントリを取得するステップは、
入力された少なくとも2つの英文字における第1の候補エントリに関する第1の位置情報を取得するステップと、
入力された少なくとも2つの英文字における第2の候補エントリに対応する英文字列に関する第2の位置情報を取得するステップと、
第1の言語に基づいた第1の候補エントリと、第1の位置情報と、第2の言語に基づいた第2の候補エントリと、第2の位置情報とに従って第3の候補エントリを取得するステップと
を含む。
【0011】
本発明の実施形態では、
入力された少なくとも2つの英文字を受信するための入力ユニットと、
少なくとも2つの英文字に従って、第1の言語に基づいた第1の候補エントリを取得するため、少なくとも2つの英文字に従って、第2の言語に基づいた第2の候補エントリを取得するため、並びに第1の候補エントリ及び第2の候補エントリに従って、第3の候補エントリを取得するためのエントリ処理ユニットと
を備える入力システムも提供される。
【0012】
上記システムにおいては、
第1の言語に基づいた第1の候補エントリが英語エントリ、第2の言語に基づいた第2の候補エントリが仮名エントリであるか、又は
第1の言語に基づいた第1の候補エントリが英語エントリ、第2の言語に基づいた第2の候補エントリが漢字エントリである。
【0013】
上記システムにおいて、エントリ処理ユニットは特に、
少なくとも2つの英文字に対して区切り処理を行って区切り結果を取得すること、
区切り結果に関する確率情報であって、区切り結果が第1の言語に基づいた候補エントリである確率を示す確率情報を取得すること、及び
予め設定された確率閾値よりも高い確率を示す確率情報に対応する区切り結果を、第1の言語に基づいた第1の候補エントリとして採用すること
に使用される。
【0014】
上記システムにおいて、第1の言語に基づいた第1の候補エントリは英語エントリであり、エントリ処理ユニットは特に、次式を用いて区切り結果に関する確率情報P(E|c)を取得することに使用される:
P(E|c)=P(E)P(c|E)/(P(J)P(c|J)+P(E)P(c|E))
式中、P(E)は、区切り結果cが英単語である事前確率であり、P(c|E)は、区切り結果cが英語彙に現れる条件付き確率であり、P(J)は、区切り結果cが仮名文字である事前確率であり、P(c|J)は、区切り結果cが仮名文字に対応する英文字列に現れる条件付き確率である。
【0015】
上記システムにおいて、エントリ処理ユニットは特に、
入力された少なくとも2つの英文字における第1の候補エントリに関する第1の位置情報を取得すること、
入力された少なくとも2つの英文字における第2の候補エントリに対応する英文字列に関する第2の位置情報を取得すること、及び
第1の言語に基づいた第1の候補エントリと、第1の位置情報と、第2の言語に基づいた第2の候補エントリと、第2の位置情報とに従って第3の候補エントリを取得すること
に使用される。
【0016】
上記技術的解決策から、本発明の実施形態が次のような有益な効果を有することがわかる:
英文字列が入力されると、2つの言語に基づいた候補エントリがそれぞれ取得される。そのため、英語と日本語の組み合わせが入力されたとき、又は英語と中国語の組み合わせが入力されたときに、一方の言語の候補エントリが優先的に選択されることがなくなる。そのため、候補エントリが失われなくなって有効な候補エントリを取得することができるため、表示ボックスに表示される候補エントリの精度が向上する。
【0017】
本発明の実施形態に係る技術的解決策をより明確に例示するために、以降、これらの実施形態で使用する必要のある添付の図面について簡潔に紹介する。当然のことながら、以降の記載における添付の図面は、本発明の幾つかの実施形態に過ぎず、当業者であれば、独創的な努力を伴わずして、これらの図面から他の図面も取得できるであろう。
【図面の簡単な説明】
【0018】
図1】本発明の実施形態で提供される技術的解決策で使用されるシステムを示した図
図2】本発明の実施形態で提供される入力方法の概略フローチャート
図3】本発明の実施形態で提供される入力方法で入力された英文字列の概略図
図4】本発明の実施形態で提供される入力システムの機能ブロック図
【発明を実施するための形態】
【0019】
本発明の技術的解決策に対する理解を促すために、本発明の実施形態について、添付の図面と組み合わせて以下詳述する。
【0020】
記載の実施形態は、全ての実施形態についてものではなく、本発明の実施形態の一部分に過ぎないという点を明確にしておくべきであろう。本発明の実施形態を基に、当業者が独創的な努力を行うことなく得られる他の全ての実施形態は、本発明の保護範囲内である。
【0021】
本発明の実施形態で提供された技術的解決策で使用されるシステムが図1に示されている。このシステムは、入力ユニットとエントリ処理ユニットとを備え得る。図1(a)に示すとおり、エントリ処理ユニットはクライアントに所在し得る。そして図1(b)に示すとおり、エントリ処理ユニットはサーバにも所在し得る。エントリ処理ユニットは主に、入力された英文字に従って候補エントリを取得する目的で使用される。クライアントは入力方法クライアントであり得る。この入力方法クライアントは、全てのユーザ機器で稼働している入力方法クライアントを含む。そしてユーザ機器は、パーソナルコンピュータ(PC)、ノート型コンピュータ、携帯電話、又はタブレット型コンピュータを含み得る。
【0022】
本発明の実施形態に入力方法が提供されている。本発明の実施形態で提供された入力方法の概略フローチャートである図2を参照されたい。この図に示すとおり、この方法は、次に示すステップを含む:
S201で、少なくとも2つの入力された英文字が受信される。
【0023】
具体的には、ユーザがクライアントを使用してそのクライアントに文字を入力すると、クライアントが、そのユーザによって入力された少なくとも2つの英文字を受信する。
【0024】
ただし、日本語入力方法は、2つの入力手段、即ち、仮名文字を使用した日本語の入力と、英文字を使用した日本語の入力があることに留意すべきである。日本語と英語の組み合わせが入力される状況は、日本語を入力するのに英文字が使用される場合にのみ現れ、その際には、入力された英文字を、仮名候補エントリ及び/又は英語候補エントリを取得する目的で処理する必要がある。同じ理由で、中国語入力方法は、ピンイン(pinyin)入力手段、5ストローク入力手段など複数の入力手段を含む。中国語と英語の組み合わせが入力される状況は、ピンイン入力手段が使用される場合にのみ現れ、その際には、入力された英文字を、中国語文字候補エントリ及び/又は英語候補エントリを取得する目的で処理する必要がある。そのため、このステップでは、少なくとも2つの入力された英文字が受信され得る。そして、その少なくとも2つの入力された英文字に従って処理が行われ得る。
【0025】
S202で、少なくとも2つの英文字に従って、第1の言語に基づいた第1の候補エントリが取得される。
【0026】
具体的には、その少なくとも2つの入力された英文字が受信されたときに、その少なくとも2つの英文字に従って第1の言語に基づいた第1の候補エントリが取得される。第1の言語に基づいた第1の候補エントリは英語エントリであり得る。
【0027】
例えば、少なくとも2つの英文字に従って第1の言語に基づいて第1の候補エントリを取得するための方法は、
まず、少なくとも2つの英文字l...lに対して区切り処理が実行され、区切り結果c=li+1...lを取得することを含み得る。式中、nは、2以上の整数であり、iは、1以上の整数であり、jは、i以上n以下の整数である。取得した区切り結果cは、少なくとも1つの英文字を含む。
【0028】
本発明の実施形態で提供される入力方法で入力された英文字列の概略図である図3を参照されたい。図3に示すとおり、入力された英文字は「iphone」であり、区切り結果は、「i」、「ip」、「iph」、「ipho」、「iphon」、「iphone」、「p」、「ph」、「pho」などを含む。
【0029】
その後、区切り結果に関する確率情報であって、区切り結果が第1の言語に基づいた候補エントリである確率を示す確率情報が取得される。
【0030】
例えば、第1の言語に基づいた第1の候補エントリは英語エントリであり得る。そして第2の言語に基づいた第2の候補エントリは仮名エントリであり得る。区切り結果に関する確率情報を取得するための方法は次のとおりであり得る:
P(c)=P(J,c)+P(E,c)があり、式中、P(c)は区切り結果cが現れる事前確率であり、P(J,c)は、区切り結果cが現れ、区切り結果cが仮名文字を表す確率であり、P(E,c)は、区切り結果cが現れ、区切り結果cが英単語を表す確率である。
【0031】
区切り結果に関する確率情報P(E|c)は、次式を用いて取得される:
P(E|c)=P(E,c)/P(c)
=P(E,c)/(P(J,c)+P(E,c))
=P(E)P(c|E)/(P(J)P(c|J)+P(E)P(c|E))
式中、P(E,c)は、区切り結果cが現れ、区切り結果cが英単語を表す確率であり、P(c)は、区切り結果cが現れる事前確率であり、P(J,c)は、区切り結果cが現れ、区切り結果cが仮名文字を表す確率であり、P(E)は、区切り結果cが英単語である事前確率であり、P(c|E)は、区切り結果cが英語彙に現れる条件付き確率であり、P(J)は、区切り結果cが仮名文字である事前確率であり、P(c|J)は、区切り結果cが仮名文字に対応する英文字列に現れる条件付き確率である。
【0032】
例えば、区切り結果cが仮名文字である事前確率P(J)は、次式を用いて取得され得る:
P(J)=C(J)/C(W)
式中、C(J)は、入力方法クライアントにある入力エントリサンプルライブラリの統計情報に従って取得された仮名エントリの数であり、C(W)は、入力方法クライアントにある入力エントリサンプルライブラリの統計情報に従って取得された全エントリの総数である。
【0033】
区切り結果cが英単語である事前確率P(E)及び区切り結果cが仮名文字である事前確率P(J)は、統計情報を用いた計算によって事前に取得され得る。英単語に対応する事前確率P(E)及び仮名文字に対応する事前確率P(J)は、入力方法クライアントごとに記憶され得る。区切り結果cが英単語である事前確率P(E)と、区切り結果cが仮名文字である事前確率P(J)とを取得する必要がある場合、英単語が入力方法クライアントに対応する事前確率P(E)及び仮名文字が入力方法クライアントに対応する事前確率P(J)は、事前に記憶された対応関係に従って取得され得る。
【0034】
仮名文字に対応する英文字列に区切り結果cが現れる条件付き確率P(c|J)を取得する方法は、日本語語彙の発音が仮名文字のユニットで一次マルコフ過程である、即ち、最初の仮名文字の確率分布が開始位置とだけ関連すると仮定することと、例えばi番目の仮名文字の確率分布が(i−1)番目の仮名文字にだけ関連し、bと称する少なくとも1つの仮名文字k...kの前に1つの仮名文字が追加され、同時に、eと称する少なくとも1つの仮名文字k...kの後ろに1つの仮名文字が追加され、その後、少なくとも1つの仮名文字k...kが少なくとも1つの仮名文字k...kに対応する英文字列に現れる条件付き確率P(k|J)が次式であり得、
P(k|J)=P(k|b)P(k|k)...P(k|kn−1)P(e|k
式中、P(k|b)が、仮名文字kが仮名エントリの開始文字である確率であり、P(e|k)が、仮名文字kが仮名エントリの終端文字である確率であり、P(k|ki−1)が、仮名文字kが仮名エントリの仮名文字ki−1の後ろに現れる確率であり、入力方法辞書内の仮名エントリに従って統計情報が作成され、確率P(k|b)、確率P(e|k)、及び確率P(k|ki−1)を取得することとであり得る。
【0035】
例えば、仮名文字kが仮名エントリ内の仮名文字ki−1の後ろに現れる確率P(k|ki−1)は、次式を用いて取得され得る:
P(k|ki−1)=C(ki−1,k)/C(ki−1
式中、C(ki−1,k)は、入力方法クライアント内の入力エントリサンプルライブラリの統計情報に従って取得された仮名エントリに含まれている文字列ki−1の数であり、C(W)は、入力方法クライアント内の入力エントリサンプルライブラリの統計情報に従って取得された仮名エントリに含まれている文字列ki−1の数である。
【0036】
日本語の区切り規則に従って、少なくとも1つの仮名文字k...kに対して区切りが実行される。日本語の区切りは区切りがあいまいにならないため、有効な区切りがない場合、区切り結果cが仮名文字に対応する英文字列に現れる条件付き確率はP(c|J)=0であり、それに対し、有効な区切りがある場合、区切り結果cが仮名文字に対応する英文字列に現れる条件付き確率P(c|J)は、区切り結果cに従って上記方法で、即ち、P(c|J)=P(k|J)を用いて取得される。
【0037】
区切り結果cが英語彙に現れる条件付き確率P(c|E)を取得する方法は、英語彙の発音が文字のユニットにおける二次マルコフ過程である、即ち、i番目の文字の確率分布が(i−1)番目の文字及び(i−2)番目の文字にだけ関連すると仮定し、bと称する2つの英文字が少なくとも1つの英文字c...cの前に追加され、同時に、eと称する1つの英文字が少なくとも1つの英文字c...cの後ろに追加されることであってもよく、その後、少なくとも1つの英文字c...c(上記区切り結果cに相当)が英語彙に現れる条件付き確率P(c|E)は次式であり得る:
P(c|E)=P(c|b,b)P(c|b,c)...P(c|cn−2,cn−1)P(e|cn−1,c
式中、P(c|b,b)は、英文字cが英語エントリにおける開始文字である確率であり、P(c|b,c)は、英文字cがその英語エントリにおける英文字cの後ろに位置し、英文字cがその英語エントリにおける2番目である確率であり、P(c|cn−2,cn−1)は、英文字cがその英語エントリにおける英文字cn−2及び英文字cn−1の後ろに位置する確率であり、P(e|cn−1,c)は、英文字列cn−1がその英語エントリの終端である確率である。
【0038】
最後に、その区切り結果に関する確率情報P(E|c)が取得された後、その区切り結果に関する確率情報P(E|c)は、予め設定された確率閾値と比較され、予め設定された確率閾値よりも高い確率を示す確率情報に対応する区切り結果が、本発明の実施形態における第1の言語に基づいた第1の候補エントリとして採用される。例えば、予め設定された確率閾値は0.5に等しくあり得る。ここで、確率閾値を用いて区切り結果を選別し、第1の候補エントリを取得することにより、区切りがあいまいであるために生まれる多数の区切り結果が除外され、後続処理の量が低減され得る。例えば、図3に示すとおり、入力された英文字「iphone」の区切り結果「i」、「ip」、「iph」、「ipho」、「iphon」、「iphone」、「p」、「ph」、「pho」などが、この確率閾値を用いて選別され、取得された第1の候補エントリは、「ip」、「phone」、及び「iphone」を含む。
【0039】
S203で、この少なくとも2つの英文字に従って、第2の言語に基づいた第2の候補エントリが取得される。
【0040】
具体的には、この少なくとも2つの入力された英文字が受信されると、この少なくとも2つの英文字に従って、第2の言語に基づいた第2の候補エントリが取得される。第2の言語に基づいた第2の候補エントリは、仮名エントリか、又は漢字エントリである。
【0041】
例えば、少なくとも2つの英文字に従って、左から右への正適合アルゴリズムを使用して、この少なくとも2つの英文字に対して区切り処理が行われ得る。この区切り結果が、第2の言語に基づいた第2の候補エントリとして採用され、各々の第2の候補エントリに関する位置情報が記録される。例えば、区切り結果がsi+1...sであれば、第2の候補エントリに関する位置情報は[i,j]である。nが2以上の整数である少なくとも2つの英文字列s=s...sを例とした場合、少なくとも2つの英文字に従って各々の第2の候補エントリを取得するための具体的な方法は次のように説明される:
第2の言語の第2の候補エントリが仮名エントリであるケースを例とすると、仮名文字と英文字列との間での予め設定された対応関係の中で仮名文字が検索される場合、仮名文字は次の条件を満たす必要がある。仮名文字に対応する英文字列は、少なくとも2つの入力された英文字s=s...sの接頭辞であり、この接頭辞は、少なくとも2つの英文字s=s...sの全ての接頭辞の中で最大文字長を有する接頭辞である。式中、iは、1以上n以下の整数である。si+1...sは、英文字sで始まり、英文字sで終わる文字列を表す。
【0042】
上記条件を満たす仮名文字が見つかると、見つかった仮名文字及びその仮名文字の位置情報[i,j]が記録される。位置情報は、少なくとも2つの英文字列s=s...s内の仮名文字に対応する英文字列si+1...sに関する位置情報を意味する。式中、jは1以上n以下の整数である。
【0043】
上記条件を満たす仮名文字が見つからない場合には、i=i+1となり、仮名文字と英文字列との間での予め設定された対応関係の中で、上記方法に従って仮名文字の検索が継続され、j=nになったときに検索が停止する。
【0044】
そのため、最終的には少なくとも1つの仮名文字が見つかり得る。そして、各々の仮名文字に関する位置情報が取得される。この位置情報は、少なくとも2つの入力された英文字に対して区切り処理を行うことに等しい。例えば、図3に示すとおり、左から右への正適合アルゴリズムを用いて英文字「iphone」に対して区切り処理が行われ、第2の言語に基づいた第2の候補エントリ、即ち「い」、「ほ」、及び「ね」が取得される。
【0045】
S204で、第1の候補エントリ及び第2の候補エントリに従って第3の候補エントリが取得される。
【0046】
具体的には、S202で取得された第1の言語に基づいた第1の候補エントリに従って、少なくとも2つの入力された英文字における第1の候補エントリに関する第1の位置情報が取得される。例えば、第1の候補エントリがcij=li+1...lであれば、少なくとも2つの入力された英文字l...lにおける第1の候補エントリに関する第1の位置情報は[i,j]である。更に、区切り結果に関する位置情報がS203で既に記録されている。そのため、少なくとも2つの入力された英文字における第2の候補エントリに対応する英文字列に関する第2の位置情報が直接取得され得る。第3の候補エントリは、第1の言語に基づいた第1の候補エントリ、第1の位置情報、第2の言語に基づいた第2の候補エントリ、及び第2の位置情報に従って取得される。
【0047】
例えば、第1の言語に基づいた第1の候補エントリ、第1の位置情報、第2の言語に基づいた第2の候補エントリ、及び第2の位置情報に従って第3の候補エントリを取得するための方法は次のとおりであり得る:
まず、第1の候補エントリは可能性のある候補エントリであるに過ぎず、例えば、第1の候補エントリは英単語である可能性も、英単語でない可能性もあることから、入力方法辞書を用いて第1の候補エントリを選別する必要があり、選別する方法は、第1の言語に基づいた入力方法辞書において、第1の候補エントリに従って照合を行い、第1の候補エントリが第1の言語に基づいた対応エントリを入力方法辞書内に有する場合には、そのエントリを記録し、逆に、第1の候補エントリが入力方法辞書内に対応エントリを有しない場合には、第1の候補エントリを除外し、それによって、少なくとも1つの一致する英単語を取得できるようにすることであり得る。
【0048】
その後、第2の言語に基づいた第2の候補エントリが漢字エントリであれば、第2の候補エントリに対して更なる処理を行う必要はない。第2の言語に基づいた第2の候補エントリが仮名エントリであれば、第2の候補エントリに従って、第2の言語に基づいた入力方法辞書で照合を行う必要があり、対応エントリがあれば、そのエントリが記録される。逆に、第2の候補エントリが入力方法辞書内に対応エントリを有しない場合には、第2の候補エントリが除外されるため、一致する少なくとも1つの仮名エントリ又は少なくとも1つの漢字エントリが取得され得る。
【0049】
最後に、第1の候補エントリを用いて照合されたエントリ、第2の候補エントリを用いて照合されたエントリ、第1の候補エントリに関する位置情報、及び第2の候補エントリに関する位置情報に従って、第1の候補エントリ及び/又は第2の候補エントリが組み合わされ、少なくとも1つの第3の候補エントリが取得され得る。少なくとも1つの第3の候補エントリが取得された後、第1の候補エントリを用いて照合されたエントリの重み付け値、及び第2の候補エントリを用いて照合されたエントリの重み付け値が、入力方法辞書内で取得され得る。そして、それらのエントリの重み付け値に従って、各々の第3の候補エントリの重み付け値が取得される。例えば、第3の候補エントリのうちの少なくとも1つのエントリの重み付け値の積に従って、第3の候補エントリの重み付け値が取得され得る。その後、第3の候補エントリは、重み付け値に従って降順に順位付けされ、順位結果を取得する。順位結果は表示ボックスに表示され、第3の候補エントリがユーザに提供されて、ユーザが選択できるようになる。
【0050】
本発明の実施形態は、上記方法の実施形態における各ステップ及び方法を実施するデバイスの実施形態を更に提供する。
【0051】
本発明の実施形態で提供される入力システムの機能ブロック図である図4を参照されたい。同図に示すとおり、このシステムは、
少なくとも2つの入力された英文字を受信するための入力ユニット401と、
少なくとも2つの英文字に従って第1の言語に基づいた第1の候補エントリを取得するため、少なくとも2つの英文字に従って第2の言語に基づいた第2の候補エントリを取得するため、並びに第1の候補エントリ及び第2の候補エントリに従って第3の候補エントリを取得するためのエントリ処理ユニット402と
を備える。
【0052】
第1の言語に基づいた第1の候補エントリは英語エントリであり、第2の言語に基づいた第2の候補エントリは仮名エントリである。あるいは、第1の言語に基づいた第1の候補エントリは英語エントリであり、第2の言語に基づいた第2の候補エントリは漢字エントリである。
【0053】
少なくとも2つの英文字に従って第1の言語に基づいた第1の候補エントリを取得する際に、エントリ処理ユニット402は特に、
少なくとも2つの英文字で区切り処理を行って区切り結果を取得すること、
区切り結果に関する確率情報であって、区切り結果が第1の言語に基づいた候補エントリである確率を示す確率情報を取得すること、及び
予め設定された確率閾値よりも高い確率を示す確率情報に対応する区切り結果を、第1の言語に基づいた第1の候補エントリとして採用すること
に使用される。
【0054】
第1の言語に基づいた第1の候補エントリは英語エントリであり、区切り結果に関する確率情報を取得する際に、エントリ処理ユニット402は特に、次式を用いて区切り結果に関する確率情報P(E|c)を取得することに使用される:
P(E|c)=P(E)P(c|E)/(P(J)P(c|J)+P(E)P(c|E))
式中、P(E)は、英単語である区切り結果cの事前確率であり、P(c|E)は、区切り結果cが英語彙に現れる条件付き確率であり、P(J)は、区切り結果cが仮名文字である事前確率であり、P(c|J)は、区切り結果cが仮名文字に対応する英文字列に現れる条件付き確率である。
【0055】
第1の候補エントリ及び第2の候補エントリに従って第3の候補エントリを取得する際に、エントリ処理ユニット402は特に、
少なくとも2つの入力された英文字における第1の候補エントリに関する第1の位置情報を取得すること、
少なくとも2つの入力された英文字における第2の候補エントリに対応する英文字列に関する第2の位置情報を取得すること、及び
第1の言語に基づいた第1の候補エントリと、第1の位置情報と、第2の言語に基づいた第2の候補エントリと、第2の位置情報と、に従って第3の候補エントリを取得すること
に使用される。
【0056】
本実施形態における様々なユニットが、図2に示す方法を実行できるため、本実施形態に詳述されていない部分については、図2の該当記述を参照すれば良い。
【0057】
本発明の実施形態に記載された方法及びシステムが次のような利点を有することを、上記記載内容から見出すことができる。
【0058】
1.英文字列が入力されると、2つの言語に基づいた候補エントリがそれぞれ取得される。そのため、英語と日本語の組み合わせが入力されるか、又は英語と中国語の組み合わせが入力されると、一方の言語の候補エントリが優先的に選択されることがなくなる。そのため、候補エントリが失われなくなって有効な候補エントリを取得することができるため、表示ボックスに表示される候補エントリの精度が向上する。
【0059】
2.従来技術においては、入力された英文字列が複数の区切り結果を有する場合、各々の区切り結果に従って対応する候補エントリが取得されるため、多数の候補エントリが表示され、表示ボックスに表示される候補エントリの順序は、手動の重み付け調整によって取得される。表示ボックス内の各ページに表示される候補エントリの数は限られているため、有効な候補エントリを迅速に取得することができない。本発明の実施形態では、確率閾値を用いて低確率の候補エントリが除外され得るため、候補エントリの後続処理の量がある程度低減され得る。
【0060】
本発明で提供される技術的解決策では、開示されたシステム、装置、及び方法が他のやり方でも実装され得るものと理解される。例えば、上記の機器実施形態は単なる例示に過ぎず、例えば、ユニットの分割は単なる論理的な機能分割に過ぎず、実際の実装時にはそのユニットを分割する他の方法が存在し得る。
【0061】
別個の構成要素として記載されたユニットは、物理的に別個である場合、又はそうでない場合があり、ユニットとして表示された構成要素は、物理的ユニットである場合、又はそうでない場合がある。即ち、1か所に所在する場合、又は複数のネットワーク要素に分散している場合がある。本実施形態の解決策の目的は、実際のニーズに従ってこれらのユニットの一部又は全部を選択することによって実施され得る。
【0062】
更に、本発明の実施形態においては、様々な機能ユニットが1つの処理ユニットに統合され得る。そして様々なユニットが、物理的に単独で存在することも、2つ又はそれ以上のユニットが1つのユニットに統合されることもあり得る。上記統合されたユニットは、ハードウェアの形態で実装され得るし、ハードウェア及びソフトウェア機能ユニットという形態でも実装され得る。
【0063】
ソフトウェア機能ユニットという形態で実装された上記統合されたユニットは、コンピュータ可読記憶媒体に記憶され得る。ソフトウェア機能ユニットは、記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器などであり得る)又はプロセッサが、本発明の実施形態に記載された方法の幾つかのステップを実行できるようにするための、幾つかの命令を含む。上記記憶媒体は、プログラムコードを記憶し得る様々な媒体を含み、例えばユニバーサルシリアルバス(USB)フラッシュドライバ、リムーバブルハードディスク、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、又は光学ディスクを含む。
【0064】
上記記載内容は、本発明の好適な実施形態であるに過ぎず、本発明を限定する目的で使用されない。本発明の精神及び原理内で行わる如何なる改変、等価的交換、又は改良も、本発明の保護範囲内に収まるものとする。
【符号の説明】
【0065】
401 入力ユニット
402 エントリ処理ユニット
図1
図2
図3
図4