【文献】
田中 友樹,形態素間の優先関係を考慮した略語生成手法,Webとデータベースに関するフォーラム 情報処理学会シンポジウムシリーズ,日本,一般社団法人情報処理学会,2012年11月20日,Vol.2012 No.5,1−8ページ
【文献】
大工廻 史裕,確率モデルを用いた略語の自動推定,FIT2009 第8回情報科学技術フォーラム 講演論文集 第2分冊 査読付き論文・一般論文 データベース 自然言語・音声・音楽 人工知能・ゲーム 生体情報科学,2009年 8月20日,317−318ページ
(58)【調査した分野】(Int.Cl.,DB名)
複数の名称のうちの第1の名称であって、該複数の名称のいずれにも含まれる第1、第2の単語と、少なくとも前記複数の名称のいずれかには含まれない第3の単語とを含む該第1の名称について、前記第1の単語と前記第2の単語の識別力を比較し、
該第1の単語と該第2の単語のうち相対的に識別力が勝ると判断された単語と、前記第3の単語とを用い、該第1の単語と該第2の単語のうち相対的に識別力が劣ると判断された単語を用いずに、単語の結合処理を行って略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
【発明を実施するための形態】
【0012】
図1は、本発明の1つの実施形態の略称生成装置の機能を説明する図である。実施形態の略称生成装置1は、
図1に示すように、前処理部11、分解部12、抽出部13、消去部14、生成部15を有する。また、略称生成装置1は、さらに有効識別語記録部16を有していてもよい。そして、略称生成装置1は、与えられた名称から、その名称よりも文字数の少ない略称を生成する。
【0013】
略称生成装置1には、名称ファイル41が入力される。名称ファイル41には、複数の名称が記録されている。一例としては、顧客企業や団体などの名称が名称ファイル41に記録されている。なお、名称ファイル41は、特に限定されるものではないが、例えば、顧客管理データベースの一部である。この場合、名称ファイル41は、複数のレコードを有し、各レコードにそれぞれ1つの名称が記録されている。名称ファイル41の一例を
図2に示す。
【0014】
前処理部11は、入力された名称ファイル41に対して前処理を実行する。例えば、前処理部11は、まず、名称ファイル41の各レコードに記録されている名称が、互いに一意に識別可能か判定する。すなわち、前処理部11は、文字列が完全に一致する複数のレコードが存在するか否かをチェックする。そして、文字列が完全に一致する複数のレコードが検出されたときは、前処理部11は、アラームを出力する。
【0015】
また、前処理部11は、各名称を表す名称データの情報量を削減する。たとえば、名称が「スペース」「括弧記号」を含んでいるときは、前処理部11は、その名称から「スペース」「括弧記号」を削除する。また、半角データで表すことができる文字が全角データで表されているときは、前処理部11は、その文字を全角データから半角データに変換してもよい。さらに、前処理部11は、各名称の称呼に基づいて、名称ファイル41のレコードを50音順にソートする。なお、前処理部11は、名称ファイル41に対して他の処理を実行してもよい。
【0016】
分解部12は、名称ファイル41に記録されている各名称をそれぞれ単語に分解する。なお、文字列を単語に分解する処理、または文字列から単語を抽出する処理は、公知の技術により実現可能である。
【0017】
抽出部13は、名称ファイル41に記録されている名称から、2以上の共通する単語(以下、共通語)を含む名称を抽出する。なお、2以上の共通語を含む文字列を検出する処理は、公知の技術により実現可能である。
【0018】
消去部14は、抽出部13により抽出される名称に含まれている2以上の共通語のなかで、相対的に識別力の低い単語を特定する。このとき、消去部14は、各共通語についてそれぞれ検索エンジン31に検索の実行を依頼する。検索エンジン31は、特に限定されるものではないが、例えば、インターネット上に設けられている検索サーバである。この場合、消去部14は、ブラウザ21を利用して検索語(すなわち、各共通語)を検索エンジン31へ送信し、ブラウザ21を介して検索結果を受け取る。そして、消去部14は、2以上の共通語のなかで相対的に検索結果の数が多い単語を、抽出部13により抽出された名称からそれぞれ消去する。
【0019】
生成部15は、各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する。このとき、消去部14により共通語が消去された名称は、その名称よりも文字数の少ない略称に変換される。
【0020】
抽出部13および消去部14は、2以上の共通語を含む名称が検出されなくなるまで、上述の処理を繰り返し実行する。そして、生成部15は、各名称について、消去部14により消去されずに残っている単語を結合することにより、対応する略称を生成する。これにより、名称ファイル41に記録されている各名称についてそれぞれ略称が生成される。そして、生成部15は、生成した略称を記録した略称ファイル42を出力する。
【0021】
なお、略称生成装置1は、ブラウザ21を含んで構成されるようにしてもよい。すなわち、ブラウザ21は、略称生成装置1の一部であってもよい。また、有効識別語記録部16については、後で説明する。
【0022】
このように、実施形態の略称生成装置1は、複数の名称に共通する単語(すなわち、共通語)を消去することにより、それらの名称の略称を生成する。このとき、略称生成装置1は、識別力の低い共通語を消去する。一例としては、検索エンジン31においてより多くの検索結果が得られる単語が、識別力の低い単語として消去される。換言すれば、識別力の高い単語は、元の名称から消去されずに残る可能性が高い。したがって、略称生成装置1は、識別力の高い略称を生成することができる。
【0023】
次に、実施形態の略称生成方法で、与えられた名称から略称を生成する処理の実施例を説明する。なお、以下の説明では、略称生成装置1に下記の4個の名称A〜Dが入力されるものとする。また、前処理部11による前処理は、終了しているものとする。
名称A:ガトー風月福岡天神
名称B:ガトー風月福岡博多
名称C:ガトー風月宮崎
名称D:ガトーショコラ専門店
【0024】
まず、分解部12は、各名称をそれぞれ単語に分解する。この結果、各名称A〜Dについて、それぞれ下記の単語群が生成される。なお、以下の説明では、名称と、その名称を単語に分解することにより得られる単語群とを区別することなく「名称」と呼ぶことがある。
A:ガトー、風月、福岡、天神
B:ガトー、風月、福岡、博多
C:ガトー、風月、宮崎
D:ガトー、ショコラ、専門店
【0025】
抽出部13は、名称A〜Dから、2以上の共通する単語(以下、共通語)を含む名称を抽出する。ここでは、抽出部13は、2個の共通語を含む名称を抽出するものとする。一例として、抽出部13は、「ガトー、風月」を含む名称を抽出する。すなわち、以下のように、名称A、B、Cが抽出される。
A:「ガトー、風月」、福岡、天神
B:「ガトー、風月」、福岡、博多
C:「ガトー、風月」、宮崎
【0026】
消去部14は、2つの共通語「ガトー」「風月」をそれぞれブラウザ21に渡す。このとき、消去部14は、各共通語をそれぞれ検索語としてブラウザ21に入力する。そうすると、ブラウザ21は、各共通語をそれぞれ検索エンジン31に送信することにより、その検索結果を受信する。そして、ブラウザ21は、各共通語について得られた検索結果の件数を消去部14に通知する。この例では、「ガトー」について得られた検索結果の件数が1,500,000件であり、「風月」について得られた検索結果の件数が13,500,000件である。
【0027】
消去部14は、検索結果の件数の少ない方の共通語と比較して、検索結果の件数の多い方の共通語は、相対的に識別力が低いと判定する。すなわち、消去部14は、「風月」は「ガトー」よりも識別力が低いと判定する。そうすると、消去部14は、名称A、B、Cからそれぞれ「風月」を消去する。この結果、名称A〜Dの単語群は、以下のように更新される。
A:ガトー、福岡、天神
B:ガトー、福岡、博多
C:ガトー、宮崎
D:ガトー、ショコラ、専門店
【0028】
略称生成装置1は、「風月」が消去された後の名称A〜Dの文字列が互いに一意に識別可能か否かを判定する。この例では、名称A〜Dの文字列は、互いに一意に識別可能である。この場合、抽出部13は、「風月」が消去された後の名称A〜Dにおいて、2以上の共通語を含む名称をサーチする。なお、名称A〜Dの文字列が互いに一意に識別可能でないときは、消去部14は、先に消去した「風月」をそれぞれ名称A、B、Cに戻し、その後、抽出部13が他の2以上の共通語を含む名称をサーチする。
【0029】
抽出部13は、他の2以上の共通語を含む名称をサーチする。この例では、抽出部13は、「ガトー、福岡」を含む名称を抽出する。すなわち、以下のように、名称A、Bが抽出される。
A:「ガトー、福岡」、天神
B:「ガトー、福岡」、博多
【0030】
消去部14は、上述のケースと同様に、「ガトー」「福岡」について、それぞれ検索エンジン31による検索結果の件数を取得する。この結果、「ガトー」について得られた検索結果の件数よりも、「福岡」について得られた検索結果の件数の方が多いものとする。この場合、消去部14は、「ガトー」よりも「福岡」の方が識別力が低いと判定する。そうすると、消去部14は、名称A、Bからそれぞれ「福岡」を消去する。この結果、名称A〜Dの単語群は、以下のように更新される。
A:ガトー、天神
B:ガトー、博多
C:ガトー、宮崎
D:ガトー、ショコラ、専門店
【0031】
略称生成装置1は、「福岡」が消去された後の名称A〜Dの文字列が互いに一意に識別可能か否かを判定する。この例では、名称A〜Dの文字列は、互いに一意に識別可能である。ただし、「福岡」が消去された後の名称A〜Dにおいては、2以上の共通語を含む名称は存在しない。よって、抽出部13および消去部14は、処理を終了する。
【0032】
生成部15は、各名称A〜Dについて、消去されずに残っている単語を結合することにより対応する略称を生成する。この結果、以下の略称A〜Dが生成される。
略称A:ガトー天神
略称B:ガトー博多
略称C:ガトー宮崎
略称D:ガトーショコラ専門店
【0033】
このように、名称A〜Cは、それぞれ対応する名称よりも文字数の少ない略称A〜Cに変換されている。これに対して、名称Dは、その名称に含まれる単語が消去されていないので、名称Dおよび略称Dは互いに同じ文字列である。すなわち、略称生成装置1は、必ずしも全ての名称についてそれぞれ文字数が削減された略称を生成するものではなく、与えられた名称の少なくとも一部についてそれぞれ文字数が削減された略称を生成する。
【0034】
なお、上述の実施例では、抽出部13は、2個の共通語を含む名称を抽出するが、3個以上の共通語を含む名称を抽出してもよい。例えば、抽出部13は、名称A〜Dから、下記のように「ガトー、風月、福岡」を含む名称A、Bを抽出してもよい。
A:「ガトー、風月、福岡」、天神
B:「ガトー、風月、福岡」、博多
【0035】
ここで、「福岡」についての検索結果の件数が最も多く、「風月」についての検索結果の件数が2番目に多く。「ガトー」についての検索結果の件数が最も少ないものとする。この場合、消去部14は、例えば、検索結果の件数が最も多い共通語を、各名称A、Bから削除する。そうすると、名称A、Bは、下記のように更新される。
A:ガトー、風月、天神
B:ガトー、風月、博多
或いは、消去部14は、検索結果の件数が多い2つ共通語を、各名称A、Bから削除してもよい。そうすると、名称A、Bは、下記のように更新される。
A:ガトー、天神
B:ガトー、博多
すなわち、消去部14は、2以上の共通語のなかで相対的に識別力の低い少なくとも1つの単語を各名称からそれぞれ消去することができる。
【0036】
また、上述の実施例では、2以上の共通語を含む名称が検出されなくなるまで抽出部13および消去部14の処理が繰り返し実行されるが、本発明はこの手順に限定されるものではない。例えば、すべての名称の文字数が予め指定された閾値よりも少なくなったときに、抽出部13および消去部14の処理を終了してもよい。
【0037】
図3は、本発明の1つの実施形態の略称生成方法を示すフローチャートである。このフローチャートの処理は、例えば、
図1に示す名称ファイル41が略称生成装置1に入力されたときに、前処理部11、分解部12、抽出部13、消去部14、生成部15により実行される。
【0038】
S1において、前処理部11は、入力された名称ファイルに対して前処理を実行する。S2において、分解部12は、名称ファイル41の各レコードに記録されている名称をそれぞれ単語に分解する。
【0039】
S3において、抽出部13は、名称ファイルに記録されている名称から、2以上の共通語を含む名称を抽出する。S4において、消去部14は、ブラウザ21を利用して、検索エンジン31に各共通語について検索の実行を依頼する。これにより、消去部14は、各共通語についての検索結果を取得する。S5において、消去部14は、2以上の共通語のなかで、相対的に検索結果の件数の多い1または複数の単語を、抽出部13により抽出された名称からそれぞれ消去する。
【0040】
S6において、消去部14は、S5による消去が実行された時点で、各名称の文字列が互いに一意に識別可能か否かを判定する。そして、各名称の文字列が互いに一意に識別できないときは、消去部14は、S7において、S5で消去した単語を元の名称に戻す。なお、各名称の文字列が互いに一意に識別できなるときは、S7の処理はスキップされる。
【0041】
S8において、抽出部13は、S3〜S7の処理が実行された名称において、2以上の共通語を含む名称をサーチする。そして、2以上の共通語を含む名称が存在するときは、略称生成装置1の処理はS3に戻る。したがって、抽出部13および消去部14は、2以上の共通語を含む名称が検出されなくなるまで、S3〜S7の処理を繰り返し実行することになる。
【0042】
2以上の共通語を含む名称が検出されなくなると、生成部15は、S9において、各名称について、消去されずに残っている単語を結合する。これにより、各名称からそれぞれ対応する略称が生成される。
【0043】
このように、実施形態の略称生成方法においては、名称が与えられると、その略称が自動的に生成される。すなわち、利用者は、名称からその略称を生成するためのルールを作成する必要ない。よって、与えられた名称の略称を生成する処理において、利用者の負担は少ない。
【0044】
また、実施形態の略称生成方法においては、名称中の単語のうち、識別力の低い単語が自動的に消去される。したがって、生成される略称の識別力は高い。このとき、検索エンジンによる検索結果の件数に基づいて各単語の識別力が判定される方式を採用する場合、各単語の識別力を判定するための専用のソフトウェアを用意する必要はない。
【0045】
<他の実施形態1>
図4は、本発明の他の実施形態の略称生成方法を示すフローチャートである。なお、S1、S2、S4〜S7、S9は、
図3および
図4に示す略称生成方法において、実質的に同じである。
【0046】
図4に示す略称生成方法においては、各共通語についてそれぞれ検索エンジン31による検索結果が得られた後に、S11が実行される。なお、S11は、S4〜S7の間の任意のタイミングで実行することができる。S11において、消去部14は、各共通語についての検索において、その検索結果の件数の少ない方の単語を「有効識別語」として有効識別語記録部16に記録する。ここで、検索結果の件数の少ない単語は、識別力の高い単語と考えられる。すなわち、検索結果の件数の少ない単語は、その単語を含む名称を識別するために有効である。よって、検索結果の件数の少ない単語は、識別力の高い「有効識別語」として有効識別語記録部16に記録される。
【0047】
また、
図4に示す略称生成方法においては、抽出部13は、S8において、有効識別語記録部16を参照する。有効識別語記録部16に有効識別語が記録されているときは、抽出部13は、有効識別語を除く2以上の共通語を含む名称をサーチする。そして、有効識別語を除く2以上の共通語を含む名称が存在するときは、抽出部13は、S3において、そのような2以上の共通語を含む名称を抽出する。
【0048】
例えば、上述の実施例においては、2つの共通語「ガトー、風月」を含む名称が抽出されたとき、「ガトー」よりも「風月」の方が検索結果の件数が多い。そして、各名称A、B、Cからそれぞれ「風月」が消去されている。このとき、
図4に示すフローチャートによれば、「ガトー」は、相対的に識別力の高い有効識別語として有効識別語記録部16に記録される。そうすると、この後、抽出部13がS8を実行する際には、「ガトー」以外の2以上の共通語を含む名称がサーチされる。
【0049】
このように、
図4に示す略称生成方法においては、識別力が高いと判定された単語は、名称から消去される単語の候補として取り上げられることはない。よって、名称からその略称を生成する処理の効率が向上する。
【0050】
なお、
図3に示すフローチャートのS5の代わりに、
図5に示すS21〜S23を実行することで、
図4に示す略称生成方法と同等の効果を実現することができる。
図5に示すS21〜S23を含む略称生成方法においては、2以上の共通語のうちの相対的に識別力の低い単語が、先に識別力の高い単語であると判定されていたときは、その単語を消去する処理を実行しない。
【0051】
すなわち、S21において、消去部14は、相対的に検索結果の件数の多い共通語が、有効識別語記録部16に記録されているか否かを判定する。この共通語が有効識別語記録部16に記録されていなければ、消去部14は、S22において、その共通語を各名称から消去する。一方、この共通語が有効識別語記録部16に記録されているときは、S22の処理はスキップされる。この場合、この共通語は、識別力が高いと考えられるので、各名称から削除されることはない。この後、S23において、消去部14は、相対的に検索結果の件数の少ない共通語を、有効識別語として有効識別語記録部16に記録する。そうすると、このようにして記録された有効識別語は、以降の処理において消去部14によって参照される。
【0052】
<他の実施形態2>
図6は、本発明のさらに他の実施形態の略称生成方法を示すフローチャートである。ここで、S1の前処理およびS2の単語分解処理は、
図3および
図6に示す略称生成方法において、実質的に同じである。ただし、
図6に示す略称生成方法においては、S1の前処理は、名称ファイルの各レコードに記録されている名称を50音順にソートする処理を含むものとする。なお、以下の説明では、50音順にソートされた名称ファイルを名称リストと呼ぶことがある。
【0053】
S31において、略称生成装置1は、名称リストに記録されている名称をグループ化する。グループ化処理については、後で説明する。なお、グループ化処理は、
図6ではS2の後に実行されるが、S2の前に実行してもよい。S32において、略称生成装置1は、名称リストの先頭から順番に、グループを1つ選択する。そして、略称生成装置1は、選択したグループに対して、S3〜S8の処理を実行する。すなわち、選択されたグループにおいて、識別力の低い共通語が消去される。
【0054】
S33は、すべてのグループについてS3〜S8の処理を実行するために設けられている。すなわち、各グループに対して、S3〜S8の処理が実行される。この後、S9において、生成部15は、各名称について、消去されずに残っている単語を結合する。これにより、各名称からそれぞれ対応する略称が生成される。
【0055】
図7は、グループ化処理を示すフローチャートである。この処理は、
図6のS31に対応する。
S41において、略称生成装置1は、名称リストから連続する2つのレコードを選択する。なお、グループ化処理の開始時には、名称リストの先頭の2つのレコードが選択されるものとする。S42において、略称生成装置1は、S41で選択した2つのレコードに記録されている名称が、2以上の共通語を含むか否かを判定する。そして、2つのレコードに記録されている名称が2以上の共通語を含んでいないときは、略称生成装置1は、S43において、名称リストの次のレコードを指定する。この後、グループ化処理は、S41に戻る。
【0056】
上述の2つのレコードに記録されている名称が2以上の共通語を含んでいるときは、略称生成装置1は、S44において、それら2つのレコードをグループ化する。続いて、S45において、略称生成装置1は、S44でグループ化されたレコードに続く1または複数の後続レコードが、S42の2以上の共通語のうちの少なくとも2つの共通語を含んでいるか否かを判定する。
【0057】
後続レコードがS42の2以上の共通語のうちの少なくとも2つの共通語を含んでいるときは、略称生成装置1は、S46において、その後続レコードをS44で生成されたグループに追加する。なお、後続レコードがS42の2以上の共通語のうちの少なくとも2つの共通語を含んでいないときは、S46はスキップされる。
【0058】
S47は、名称リスト上のすべてのレコードについてS41〜S46の処理を実行するために設けられている。したがって、名称リスト上のすべてのレコードについてS41〜S46の処理が実行されると、グループ化処理は終了する。
【0059】
一例を説明する。ここでは、前処理において名称ファイルに対して50音順ソートが実行され、
図8に示す名称リストが得られているものとする。なお、
図8では、説明を分かりやすくするために、各レコードを識別するレコード番号が付与されている。
【0060】
たとえば、S41において、
図8に示す名称リストからレコード124、125が選択されたものとする。このとき、「ガトー、ショコラ、専門店」および「ガトー、風月、福岡、天神」の共通語は、「ガトー」のみである。よって、S42の判定結果は「No」であり、S43において、レコード番号が1だけインクリメントされる。
【0061】
レコード番号がインクリメントされた後、S41において、名称リストからレコード125、126が選択される。この場合、「ガトー、風月、福岡、天神」および「ガトー、風月、福岡、博多」は、3つの共通語「ガトー」「風月」「福岡」を有する。よって、S42の判定結果は「Yes」であり、S44において、レコード125、126はグループ化される。
【0062】
さらに、グループ化されたレコード125、126に続くレコード127には、「ガトー、風月、宮崎」が記録されている。すなわち、レコード125、126と、レコード127との間には、2個の共通語「ガトー」「風月」が存在する。よって、S45の判定結果は「Yes」であり、S46において、レコード127は、レコード125、126を含むグループに追加される。
【0063】
ただし、レコード125〜127に続くレコード128には、「北九州xxx」が記録されている。すなわち、レコード125〜127と、レコード128との間には、共通語は存在しない。よって、S45の判定結果は「No」であり、レコード128は、レコード125〜127を含むグループに追加されることはない。以下同様に、
図8に示す名称リスト全体に対して
図7に示すグループ化処理が実行される。この結果、例えば、レコード319、320を含むグループが生成される。
【0064】
この後、生成された各グループに対して、
図6のS3〜S8の処理が実行される。例えば、レコード125〜127を含むグループに対してS3〜S8が実行されたときは、
図3を参照しながら説明したように、下記の結果が得られる。
125:ガトー、天神
126:ガトー、博多
127:ガトー、宮崎
【0065】
また、レコード319、320を含むグループに対してS3〜S8が実行されたときには、「福岡」が消去されるものとすると、下記の結果が得られる。
319:めんたい、天神
320:めんたい、博多
【0066】
このように、
図6に示す略称生成方法においては、名称ファイルに記録されている名称は、50音順にソートされた後にグループ化される。ここで、例えば、顧客管理データベースの名称ファイルにおいて、50音順に名称がソートされると、同じ会社の支店、営業所、部署などが名称リスト上に連続して並ぶことが想定される。したがって、この場合、
図6に示す略称生成方法を使用すれば、例えば、同じ会社に係わる様々な名称を、適切にその略称に変換することが可能である。
【0067】
<前処理部の実施例>
前処理部11は、名称ファイル(名称リスト)41のレコードを50音順にソートする処理等に加えて、他の処理を実行してもよい。例えば、前処理部11は、2以上の名称が予め指定された文字列を含むときに、それら2以上の名称からそれぞれその予め指定された文字列を削除してもよい。たとえば、顧客を管理するデータベースにおいては、多くの名称が「株式会社」を含んでいると考えられる。そして、このような文字列(ここでは、「株式会社」)は、識別力は低い。
【0068】
そこで、多くの名称に含まれていて識別力が低いと考えられる文字列が、予め略称生成装置1の記憶領域に登録される。そして、前処理部11は、この記憶領域に登録されている文字列を各名称から削除する。この場合、前処理部11は、より多くの名称に含まれている文字列から順番に削除を行う。そして、前処理部11は、各名称を互いに一意に識別できなくなった時点で、前処理を停止する。
【0069】
また、カタカナは、漢字と比較して、その文字数が多くなる傾向にある。そこで、前処理部11は、各名称の文字数を削減するために、名称に含まれるカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換えてもよい。
【0070】
図9は、前処理部がカタカナ文字列をアルファベット文字に置き換える処理の一例を示すフローチャートである。
S51において、前処理部11は、名称ファイル41に記録されている全名称からカタカナ文字列を抽出する。S52において、前処理部11は、より多くの名称に含まれている順に、抽出したカタカナ文字列を並べ替える。S53において、前処理部11は、並べ替えられたカタカナ文字列を1つ選択する。
【0071】
S54において、前処理部11は、S53で選択したカタカナ文字列が辞書に載っているか否かを判定する。辞書は、特に限定されるものではなく、例えば、電子データにより実現される国語辞典等である。なお、前処理部11は、このような辞書にアクセス出来るものとする。そして、選択したカタカナ文字列が辞書に載っているときは、前処理部11は、S55において、そのカタカナ文字列を最小限のアルファベット文字に置き換える。例えば、カタカナ文字列が外国語の単語の発音を表記しているときは、カタカナ文字は、その外国語の単語の先頭のアルファベット文字に置き換えられる。一例としては、グループは「G」に置き換えられる。また、例えば、パーキングエリアについては、パーキングが「P」に置き換えられ、エリアが「A」に置き換えられ、この結果、「PA」が得られる。なお、選択したカタカナ文字列が辞書に載っていないときは、S55の処理はスキップされる。また、カタカナ文字列をアルファベット文字に置き換えたことによって、各名称の一意性が失われるときは、そのアルファベット文字を元のカタカナ文字列に戻すものとする。
【0072】
S56において、前処理部11は、すべてのカタカナ文字列についてS54〜S55の処理を実行したか判定する。S54〜S55の処理が実行されていないカタカナ文字列が残っていれば、前処理部11は、S53に戻って次のカタカナ文字列を選択する。すべての文字列についてS54〜S55の処理が実行されていれば、前処理部11の処理は終了する。
【0073】
<略称生成装置1のハードウェア構成>
図10は、略称生成装置1を実現するためのコンピュータシステムのハードウェア構成を示す。略称生成装置1を実現するためのコンピュータシステム100は、
図10に示すように、CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、および入出力装置107を備える。CPU101、メモリ102、記憶装置103、読み取り装置104、通信インタフェース106、入出力装置107は、例えば、バス108を介して互いに接続されている。
【0074】
CPU101は、メモリ102を利用して略称生成プログラムを実行することにより、前処理部11、分解部12、抽出部13、消去部14、生成部15の機能を提供することができる。すなわち、CPU101は、
図3〜
図7、
図9に示すフローチャートの処理を記述したプログラムを実行することができる。
【0075】
メモリ102は、例えば半導体メモリであり、RAM領域およびROM領域を含んで構成される。有効識別語記録部16は、例えば、メモリ12に形成される。記憶装置103は、例えばハードディスク装置であり、上述の略称生成プログラムを格納する。なお、記憶装置103は、フラッシュメモリ等の半導体メモリであってもよい。また、記憶装置103は、外部記録装置であってもよい。
【0076】
読み取り装置104は、CPU101の指示に従って着脱可能記録媒体105にアクセスする。着脱可能記録媒体105は、例えば、半導体デバイス(USBメモリ等)、磁気的作用により情報が入出力される媒体(磁気ディスク等)、光学的作用により情報が入出力される媒体(CD−ROM、DVD等)などにより実現される。通信インタフェース106は、CPU101の指示に従ってネットワークを介してデータを送受信する。入出力装置107は、例えば、ユーザからの指示を受け付けるデバイス、および生成した略称データを表示する表示装置等に相当する。
【0077】
実施形態の略称生成プログラムは、例えば、下記の形態でコンピュータシステム100に提供される。
(1)記憶装置103に予めインストールされている。
(2)着脱可能記録媒体105により提供される。
(3)プログラムサーバ110から提供される。
【0078】
以上記載した各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の名称をそれぞれ単語に分解し、
2以上の共通する単語を含む名称を抽出し、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
(付記2)
前記消去する処理は、
前記2以上の共通する単語のそれぞれについて、検索エンジンに検索の実行を依頼する手順と、
前記2以上の共通する単語のなかで相対的に検索結果の件数が多い単語を、前記抽出された名称からそれぞれ消去する手順と、を含む
ことを特徴とする付記1に記載の略称生成プログラム。
(付記3)
前記複数の名称の中に含まれているカタカナ文字列を抽出し、
抽出したカタカナ文字列を、そのカタカナ文字列よりも文字数の少ないアルファベット文字に置き換える
処理をさらにコンピュータに実行させることを特徴とする付記1または2に記載の略称生成プログラム。
(付記4)
前記複数の名称の中の2以上の名称が予め指定された文字列を含むときに、前記2以上の名称からそれぞれ前記予め指定された文字列を削除する
処理をさらにコンピュータに実行させることを特徴とする付記1または2に記載の略称生成プログラム。
(付記5)
前記抽出する処理および前記消去する処理は、2以上の共通する単語を含む名称が検出されなくなるまで繰り返し実行される
ことを特徴とする付記1または2に記載の略称生成プログラム。
(付記6)
前記抽出する処理において、先に実行された前記消去する処理において識別力の高い単語であると判定された単語を除いて、2以上の共通する単語を含む名称が抽出される
ことを特徴とする付記5に記載の略称生成プログラム。
(付記7)
前記2以上の共通する単語のうちの相対的に識別力の低い単語が、先に実行された前記消去する処理において相対的に識別力の高い単語であると判定されていたときは、前記2以上の共通する単語のうちの相対的に識別力の低い単語を消去する処理を実行しない
ことを特徴とする付記5に記載の略称生成プログラム。
(付記8)
複数の名称が50音順にソートされて記録されている名称リストにおいて、各名称をそれぞれ単語に分解し、
前記名称リストにおいて、2以上の共通する単語を含む、連続して記録されている複数の名称をそれぞれグループ化し、
各グループにおいて、前記2以上の共通する単語のなかの相対的に識別力の低い単語を消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。
(付記9)
複数の名称をそれぞれ単語に分解し、
2以上の共通する単語を含む名称を抽出し、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去し、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する、
ことを特徴とする略称生成方法。
(付記10)
複数の名称をそれぞれ単語に分解する分解部と、
2以上の共通する単語を含む名称を抽出する抽出部と、
前記2以上の共通する単語のなかの相対的に識別力の低い単語を、前記抽出された名称からそれぞれ消去する消去部と、
各名称について、消去されずに残っている単語を結合することにより対応する略称を生成する生成部と、
を有する略称生成装置。
(付記11)
複数の名称のうちの第1の名称であって、該複数の名称のいずれにも含まれる第1、第2の単語と、少なくとも前記複数の名称のいずれかには含まれない第3の単語とを含む該第1の名称について、前記第1の単語と前記第2の単語の識別力を比較し、
該第1の単語と該第2の単語のうち相対的に識別力が勝ると判断された単語と、前記第3の単語とを用い、該第1の単語と該第2の単語のうち相対的に識別力が劣ると判断された単語を用いずに、単語の結合処理を行って略称を生成する、
処理をコンピュータに実行させる略称生成プログラム。