(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023147968
(43)【公開日】2023-10-13
(54)【発明の名称】文字列変換プログラム及び文字列変換方法、並びに情報処理装置
(51)【国際特許分類】
G06F 40/129 20200101AFI20231005BHJP
【FI】
G06F40/129
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022055780
(22)【出願日】2022-03-30
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100087480
【弁理士】
【氏名又は名称】片山 修平
(72)【発明者】
【氏名】遠藤 進
(72)【発明者】
【氏名】前田 一穂
(72)【発明者】
【氏名】大塚 浩
【テーマコード(参考)】
5B109
【Fターム(参考)】
5B109QB18
(57)【要約】
【課題】漢字及び平仮名を含まない文字列を精度よく仮名漢字文に変換する。
【解決手段】文字列分類部は、処理対象の文字列を、変換前文字列(
図9(a)の矢印A,B参照)と変換済文字列とのいずれかに分類し、処理対象の文字列が変換済文字列に分類された場合には、頻度更新部が、処理対象の文字列に含まれる単語の情報で頻度DB44を更新する。また、処理対象の文字列が変換前文字列に分類された場合には、文字列変換部は、頻度DBを参照して、処理対象の文字列に含まれる単語を仮名漢字文(
図9(b)の矢印A’、B’参照)に変換する。
【選択図】
図9
【特許請求の範囲】
【請求項1】
処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、
処理をコンピュータに実行させることを特徴とする文字列変換プログラム。
【請求項2】
前記処理対象の文字列を入力したユーザ又は組織が前記処理対象の文字列を入力する前に漢字または平仮名を含む文字列を入力していた場合には、前記処理対象の文字列が漢字及び平仮名を含まない場合でも、前記分類する処理において前記処理対象の文字列を前記第二の文字列に分類する、ことを特徴とする請求項1に記載の文字列変換プログラム。
【請求項3】
前記更新する処理及び前記変換する処理において用いる前記記憶部は、前記処理対象の文字列を入力したユーザ又は組織に対応する記憶部である、ことを特徴とする請求項1又は2に記載の文字列変換プログラム。
【請求項4】
前記変換する処理では、カタカナから漢字に変換する変換候補を格納する変換候補格納部を参照して、前記処理対象の文字列に含まれる単語の変換候補を複数特定し、複数の前記変換候補それぞれの前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、ことを特徴とする請求項1又は2に記載の文字列変換プログラム。
【請求項5】
処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、
処理をコンピュータが実行することを特徴とする文字列変換方法。
【請求項6】
処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類する分類部と、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新する更新部と、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する変換部と、
を備える情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文字列変換プログラム及び文字列変換方法、並びに情報処理装置に関する。
【背景技術】
【0002】
自治体において固定資産税などの情報を管理するシステムには、各種機能が設けられているが、例えば、入力された資産等を表す文字列が間違えて入力されていないか、入力すべき文字列が抜けていないか等を判定する機能等があると、自治体の職員等にとって便利である。このような判定機能を実現するためには、単に文字列の一致・不一致を確認するだけでは足りず、意味が似ているものをまとめ、まとめた範囲内で入力間違いや過不足があるか等を判定する必要がある。
【0003】
従来、文字列を多次元の特徴ベクトル化して抽出する技術が知られている。この技術によれば、同意語などを近いベクトルに割り当てることができるため、類似している文字列をまとめたりすることができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平8-202706号公報
【特許文献2】特開平8-95970号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、固定資産税などの情報を管理するシステムの中には、カタカナ文(平仮名や漢字を含まない文字列)しか入力できないシステムも存在している。カタカナ文は、意味を持つ単位に分割することが難しく、分割できたとしてもどのような意味であるかを判別するのが難しい。
【0006】
このようなカタカナ文を精度よく仮名漢字文(平仮名や漢字を含む文字列)に変換することができれば、仮名漢字文に含まれる単語に基づいた特徴などを抽出することができ、類似度を算出できると考えられる。
【0007】
1つの側面では、本発明は、漢字及び平仮名を含まない文字列を精度よく変換することが可能な文字列変換プログラム及び文字列変換方法、並びに情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
一つの態様では、文字列変換プログラムは、処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、処理をコンピュータに実行させるプログラムである。
【発明の効果】
【0009】
漢字及び平仮名を含まない文字列を精度よく変換することができる。
【図面の簡単な説明】
【0010】
【
図1】一実施形態に係る情報処理システムの構成を概略的に示す図である。
【
図2】
図1の自治体税賦課サーバのハードウェア構成を示す図である。
【
図3】自治体税賦課サーバの機能ブロック図である。
【
図4】
図4(a)は、文字列特定部が資産情報DBから取得する情報の一例を示す図であり、
図4(b)は、変換辞書の一例を示す図であり、
図4(c)は、頻度DBの一例を示す図である。
【
図6】自治体税賦課サーバの処理を示すフローチャートである。
【
図7】
図6のステップS16の詳細処理を示すフローチャートである。
【
図8】
図6のステップS22の詳細処理を示すフローチャートである。
【
図9】
図9(a)~
図9(c)は、一実施形態の概要を示す図である。
【発明を実施するための形態】
【0011】
以下、一実施形態について、
図1~
図9(c)に基づいて詳細に説明する。
【0012】
図1には、一実施形態に係る情報処理システム100の構成が概略的に示されている。
図1に示すように、本実施形態の情報処理システム100は、情報処理装置としての自治体税賦課サーバ10と、資産管理システム70と、を備える。自治体税賦課サーバ10と、資産管理システム70は、インターネットなどのネットワーク80に接続されている。
【0013】
自治体税賦課サーバ10は、自治体の固定資産税課が管理・利用するサーバである。自治体税賦課サーバ10は、自治体の企業等が有する固定資産に関する情報や当該固定資産の価格を基に算定される固定資産税の情報を管理する。また、自治体税賦課サーバ10は、固定資産の税額を計算して、各企業等に対し課税賦課を行う。また、自治体税賦課サーバ10は、資産管理システム70から入力された資産名を解析し、例えば類似する資産名をまとめ、まとめた結果に基づいて、入力間違いや企業ごとの入力過不足を判断する機能も有する。
【0014】
資産管理システム70は、例えば各企業が利用するシステムであり、各企業が保有する固定資産の情報の管理や、償却資産報告書の作成に用いられる。資産管理システム70からは、作成された償却資産報告書の情報が自治体税賦課サーバ10に送信される。なお、資産管理システム70の中には、平仮名や漢字を使用することができないシステムも存在しているものとする。また、同じ企業が利用する資産管理システム70であっても、ある時期までは平仮名や漢字を使用することができないシステムであり、ある時期から平仮名や漢字を使用することができるシステムに切り替わることもある。
【0015】
図2には、自治体税賦課サーバ10のハードウェア構成の一例が示されている。
図2に示すように、自治体税賦課サーバ10は、CPU(Central Processing Unit)90、ROM(Read Only Memory)92、RAM(Random Access Memory)94、ストレージ(例えば、SSD(Solid State Drive)や、HDD(Hard Disk Drive)など)96、ネットワークインタフェース97、及び可搬型記憶媒体用ドライブ99等を備えている。これら自治体税賦課サーバ10の構成各部は、バス98に接続されている。自治体税賦課サーバ10では、ROM92あるいはストレージ96に格納されているプログラム(文字列変換プログラムを含む)、或いは可搬型記憶媒体用ドライブ99が可搬型記憶媒体91から読み取ったプログラムをCPU90が実行することにより、
図3に示す、各部の機能が実現される。なお、
図3の各部の機能は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0016】
図3には、自治体税賦課サーバ10の機能ブロック図が示されている。
図3に示すように、自治体税賦課サーバ10は、資産情報取得部120と、課税処理部122と、文字列処理部124と、解析部126と、を有する。
【0017】
資産情報取得部120は、資産管理システム70から送られてきた各企業の資産情報を資産情報DB140に格納し、管理する。
【0018】
課税処理部122は、資産情報DB140を参照して、各企業に対する課税賦課処理を実行する。
【0019】
文字列処理部124は、資産情報DB140から資産情報の文字列を取得し、取得した文字列が平仮名及び漢字を含まない第一の文字列(以下、「変換前文字列」と呼ぶ)であった場合に、平仮名や漢字に変換する処理を実行し、解析部126に出力する。また、文字列処理部124は、取得した文字列が変換前文字列以外の第二の文字列(平仮名や漢字を含む文字列、以下「変換済文字列」と呼ぶ)であった場合には、取得した変換済文字列に含まれる単語の情報を取得し、変換済み文字列をそのままの状態で解析部126に出力する。文字列処理部124の詳細については後述する。
【0020】
解析部126は、文字列処理部124から出力された文字列を解析し、例えば類似する文字列をまとめる。また、解析部126は、まとめた結果に基づいて、入力間違いがあるか否かを判断したり、ある企業が入力した文字列を他の企業が入力していないなどの過不足を判断したりする。
【0021】
(文字列処理部124について)
次に、文字列処理部124について具体的に説明する。文字列処理部124は、
図3に示すように、文字列特定部20、分類部としての文字列分類部22、文字列分割部24、更新部としての頻度更新部26、変換部としての文字列変換部28、出力部30を有する。また、文字列処理部124は、変換候補格納部としての変換辞書42や、記憶部としての頻度DB44を有する。
【0022】
文字列特定部20は、資産情報DB140から、
図4(a)に示すような固定資産を示す文字列の情報を取得し、そのうちの1つの文字列を特定する処理を実行する。
図4(a)に示すように、文字列特定部20が取得する情報は、文字列(固定資産名)の情報を含み、当該文字列それぞれに、組織IDと、入力日時と、が紐づいている。組織IDは、文字列を入力した企業の識別情報であり、入力日時は、文字列が入力された日時の情報である。
【0023】
文字列分類部22は、文字列特定部20が特定した文字列を、変換前文字列と変換済文字列のいずれかに分類する。具体的には、文字列分類部22は、平仮名と漢字を含まず、カタカナや英数文字や記号しか含まない文字列(カタカナ文)を変換前文字列に分類する。また、文字列分類部22は、平仮名又は漢字を含む文字列(仮名漢字文)を変換済文字列に分類する。更に、文字列分類部22は、カタカナ文であっても、そのカタカナ文を入力した企業がそれ以前に仮名漢字文を入力したことがある場合には、そのカタカナ文を変換済文字列に分類する。そのようなカタカナ文は、元々カタカナで表記すべき文字列であり、変換が不要である可能性が高いからである。
【0024】
文字列分割部24は、変換辞書42を参照して、文字列分類部22が変換済文字列に分類した文字列を単語に分割する。ここで、変換辞書42は、一例として、
図4(b)に示すようなデータ構造を有する。変換辞書42には、変換前の文字列(カタカナ)と、変換候補とが対応付けて格納されている。例えば、変換済文字列が「駐車場工事」である場合には、文字列分割部24は、変換辞書DB42の変換候補の欄を参照して、「駐車場」と「工事」に分割する。
【0025】
頻度更新部26は、文字列分割部24が分割した各単語の情報を用いて、頻度DB44を更新する。ここで、頻度DB44は、一例として、
図4(c)に示すようなデータ構造を有する。頻度DB44は、業種(分野)毎に用意されているものとする。例えば、
図4(a)の組織ID=1,2の企業の業種が建設業である場合には、建設業用に用意された頻度DB44を使用する。頻度DB44には、単語それぞれが各業種においてどれだけ使用されたかを示す情報(使用頻度)が格納されている。頻度更新部26は、文字列に単語「工事」が含まれていた場合には、単語「工事」の使用頻度の値に1を加算する。なお、頻度DB44に存在しない単語が文字列に含まれていた場合には、頻度更新部26は、頻度DB44にその単語のレコードを新たに追加し、使用頻度の値を1に設定する。なお、本実施例の頻度更新部26は頻度の値を記憶する例にて説明するものの、単語が使用された時期によって最近の使用実績に重みをつけることや、特定のユーザの使用実績に重みをつけること等、単語の使用頻度以外の使用状況への変形も考えられる。
【0026】
図3に戻り、文字列変換部28は、変換辞書42と頻度DB44とを参照して、文字列分類部22が変換前文字列に分類した文字列(カタカナ文)を仮名漢字文に変換する。
【0027】
出力部30は、変換済文字列と分類された文字列はそのままの状態で、変換前文字列と分類された文字列は仮名漢字文に変換した状態で、解析部126に対して出力する。例えば、
図4(a)のような情報は、
図5に示すように変換されて出力される。
【0028】
(文字列処理部124の処理について)
次に、文字列処理部124の処理について、
図6~
図8のフローチャートに沿って説明する。なお、
図6の処理は、例えば、自治体税賦課サーバ10の管理者が、ある企業(例えば組織ID=1)と、他の企業(例えば組織ID=2)のそれぞれが入力した固定資産名の入力間違いや、過不足の有無を検証したい旨の入力を行ったタイミングで開始される。なお、以下においては、組織ID=1の「企業1」と、組織ID=2の「企業2」の検証要求が入力されたものとして説明する。
【0029】
図6の処理が開始されると、まず、ステップS10において、文字列特定部20が、処理対象の文字列を特定する。より具体的には、文字列特定部20は、資産情報DB140から、
図4(a)に示すような企業1、企業2が入力した固定資産名の情報を取得し、そのうちの1つの文字列を処理対象の文字列として特定する。
【0030】
次いで、ステップS12では、文字列分類部22が、処理対象の文字列がカタカナ文(変換前文字列)であるか否かを判断する。文字列分類部22は、処理対象の文字列が、平仮名や漢字を含まない場合に、変換前文字列であると判断する。このステップS12の判断が否定された場合には、ステップS16に移行するが、肯定された場合には、ステップS14に移行する。
【0031】
ステップS14に移行した場合、文字列分類部22は、同一組織(同一企業)により、仮名漢字文(変換済文字列)が入力されたことがあるか否かを判断する。例えば、処理対象の文字列が
図4(a)の「アスフアルトホソウ」である場合、その入力日時「2006/09/03」よりも前に同一企業(企業1)が仮名漢字文を入力したという情報が無いため、ここでの判断は否定される。一方、処理対象の文字列が
図4(a)の「ホイールローダ」である場合、その入力日時「2012/06/10」よりも前に同一企業(企業1)が仮名漢字文(「駐車場工事」)を入力しているため、ここでの判断は肯定される。この場合、「アスフアルトホソウ」については変換前文字列として扱われ、「ホイールローダ」については変換済文字列として扱われることになる。
【0032】
処理対象の文字列が変換済文字列であり、ステップS16に移行すると、文字列分割部24と頻度更新部26とによる、頻度登録処理が実行される。このステップS16においては、
図7に示す処理が実行される。
【0033】
(ステップS16(
図7の処理)について)
図7のステップS16が開始されると、まず、ステップS30において、文字列分割部24が、形態素解析等により、処理対象の文字列を単語に分割する。
【0034】
次いで、ステップS32では、文字列分割部24が、処理対象の文字列から不要単語を除去する。不要単語は、例えば名詞以外の単語や、あらかじめ用意した不要単語辞書に含まれる単語などである。
【0035】
次いで、ステップS34では、文字列分割部24が、前後を結合した単語が変換辞書にあれば、それらの単語を結合する。
【0036】
次いで、ステップS36では、文字列分割部24が、文字列の中に変換辞書42にない単語があるかを確認し、そのような単語がある場合には、単語を更に分割する。そして、分割後の単語が変換辞書にあれば、その分割を採用する。
【0037】
次いで、ステップS38では、頻度更新部26が、頻度DB44を更新する。頻度更新部26は、頻度DB44において、処理対象の文字列に含まれている単語それぞれの使用頻度の値に1を加算する。なお、処理対象の文字列に含まれている単語が頻度DB44に無い場合には、頻度更新部26は、頻度DB44にその単語のレコードを新たに追加し、使用頻度の値を1に設定する。
【0038】
以上のようにして
図7の全処理が実行された後は、
図6のステップS18に移行する。
【0039】
ステップS18に移行すると、出力部30が、処理対象の文字列(変換済文字列)をそのまま(変換せずに)解析部126に対して出力する。
【0040】
次いで、ステップS20では、文字列特定部20が、処理対象の文字列をすべて特定したか否かを判断する。このステップS20の判断が否定された場合には、ステップS10に戻る。
【0041】
一方、ステップS14の判断が否定された場合、すなわち、処理対象の文字列がカタカナ文であり、変換前文字列であった場合には、ステップS22において、文字列変換部28が変換処理を実行する。このステップS22においては、
図8に示す処理が実行される。
【0042】
(ステップS22(
図8の処理)について)
図8のステップS22の処理が開始されると、まず、ステップS50において、文字列変換部28が、処理対象の文字列を文字種で分割する。ここで、処理対象の文字列は、カタカナや記号、英数字等を含むため、文字列変換部28は、カタカナとそれ以外の文字種に分割する。
【0043】
次いで、ステップS52では、文字列変換部28が、不要単語の除去を行う。この場合、文字列変換部28は、数字や不要単語辞書に含まれる文字列を除去する。なお、文字列変換部28は、不要単語を除去した後の文字列のうち、カタカナの文字列については、以降の変換処理を続行し、それ以外(例えば英単語)は、そのまま残す(変換処理は行わない)ものとする。
【0044】
次いで、ステップS54では、文字列変換部28が、変換辞書42を参照して、カタカナの文字列を変換辞書42にある単語に分割する。
【0045】
次いで、ステップS56では、文字列変換部28が、単語数が所定数以下の分割結果を選択する。本ステップS56では、分割数が多すぎるものは分割が適切でない可能性が高いため、処理から除外することとしている。
【0046】
次いで、ステップS58では、文字列変換部28が、各単語の変換候補を変換辞書42から取得する。例えば、単語「コウジ」であれば、変換辞書42から変換候補「工事」、「公示」、「浩二」を取得する。
【0047】
次いで、ステップS60では、文字列変換部28が、変換候補の組み合わせごとにスコアを求め、スコアに基づいて文字列を変換する。ここで、文字列変換部28は、一例として、スコアを次式(1)から求めることとする。
【0048】
【数1】
なお、nは文字列に含まれる単語数、f
iは単語の使用頻度、W
hは、単語の使用頻度の補正係数、Rは単語同士の関連度(共起率)、v
iは、i番目の単語の単語情報、W
cは、単語の個数の補正係数を意味する。なお、単語同士の共起率は、例えば変換辞書42やその他の辞書(例えば共起辞書)において管理されているものとする。文字列変換部28は、スコアが最も大きくなる単語の分割の仕方、変換候補の組み合わせを特定し、特定結果に基づいて文字列を変換する。上記スコアを用いた変換を行うことにより、例えば、単語「コウジ」の変換候補が3つ(「工事」、「公示」、「浩二」)ある場合であっても、企業1や企業2の業種において使用頻度の高い変換候補「工事」で変換されるようになる。
【0049】
以上のようにして
図8の全処理が実行された後は、
図6のステップS24に移行する。
【0050】
図6のステップS24に移行すると、出力部30は、変換後の文字列を解析部126に対して出力する。
【0051】
図9(a)~
図9(c)には、本実施形態の処理の概要が示されている。本実施形態では、
図9(a)に示すような文字列が、文字列処理部124の処理対象となり、文字列処理部124の処理の結果、
図9(b)に示すような情報が解析部126に出力される。この場合、
図9(a)において矢印A,矢印Bで示すカタカナ文(変換前文字列)が
図9(b)において矢印A’、矢印B’で示すような仮名漢字文(変換済文字列)に変換されて、解析部126に出力される。解析部126は、
図9(b)のように仮名漢字変換された各文字列であれば、多次元の特徴ベクトル化が可能であるため、
図9(c)に示すように各文字列を類似しているもの毎に纏めることができる。また、解析部126は、纏めた結果を用いることで、「アスファルト舗装」のように、企業1のみが入力し、企業2が入力していない文字列(過不足のある文字列)を特定することができる。また、解析部126は、「ホイーローダ」のように入力ミスがある文字列を特定することもできる。
【0052】
以上、詳細に説明したように、本実施形態によると、文字列分類部22は、処理対象の文字列を、変換前文字列(第一の文字列)と変換済文字列(第二の文字列)とのいずれかに分類する(S12、S14)。この分類により、処理対象の文字列が変換済文字列に分類された場合、頻度更新部26は、処理対象の文字列に含まれる単語の情報で頻度DB44を更新する(S16)。また、処理対象の文字列が変換前文字列に分類された場合には、文字列変換部28は、頻度DB44を参照して、処理対象の文字列に含まれる単語を仮名漢字文に変換する(S22)。これにより、本実施形態では、変換済文字列に含まれる単語の使用頻度を記憶する頻度DB44に基づいて、変換前文字列が変換されるため、使用頻度の高い変換候補で変換前文字列を変換することができる。これにより、精度よく変換前文字列を仮名漢字変換することが可能となる。また、カタカナ文が仮名漢字変換されることにより、類似する文字列をまとめることができるようになる。これにより、文字列の入力ミスや企業ごとの入力過不足などを精度よく解析することが可能となる。
【0053】
また、本実施形態では、頻度DB44を企業の業種や分野ごとに用意している。したがって、専門用語など、各業種や各分野で頻繁に用いる単語を含む変換前文字列(カタカナ文)を精度よく仮名漢字変換することができる。
【0054】
また、本実施形態では、処理対象の文字列が漢字及び平仮名を含まない場合であっても、その文字列を入力した企業が、それ以前に変換済文字列を入力していた場合(ステップS14:肯定)には、処理対象の文字列を変換済文字列に分類する。これにより、元々カタカナで表記するような文字列(変換不要文字列)を変換済文字列として扱うことができるので、変換不要な単語の使用頻度についても頻度DB44に格納することができるようになる。なお、頻度DB44にカタカナの単語が格納された場合に、変換辞書42にその単語が格納されていなければ、当該単語を変換辞書42に格納することとしてもよい。
【0055】
また、本実施形態では、前述した式(1)を用いて算出したスコアに基づいて仮名漢字変換を行うため、単に使用頻度のみを用いて変換候補を特定する場合よりも、適切な変換を行うことが可能である。なお、上式(1)は一例である。したがって、スコアをその他の式(使用頻度を含む式)に基づいて算出してもよい。
【0056】
なお、上記実施形態では、資産管理システム70を企業が利用する場合について説明したが、これに限らず、個人(ユーザ)が利用してもよい。また、資産管理システム70を企業以外の組織(学校や自治体、その他の団体など)が利用してもよい。
【0057】
なお、上記実施形態では、自治体税賦課サーバ10において、
図6~
図8の処理が行われる場合について説明したが、これに限らず、自治体で用いられるその他のサーバや端末において
図6~
図8の処理が行われることとしてもよい。また、自治体に限らず、企業等において用いられるサーバや端末において
図6~
図8の処理が行われることとしてもよい。
【0058】
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体(ただし、搬送波は除く)に記録しておくことができる。
【0059】
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD-ROM(Compact Disc Read Only Memory)などの可搬型記憶媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【0060】
プログラムを実行するコンピュータは、例えば、可搬型記憶媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
【0061】
上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。
【0062】
なお、以上の実施形態の説明に関して、更に以下の付記を開示する。
(付記1) 処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、
処理をコンピュータに実行させることを特徴とする文字列変換プログラム。
(付記2) 前記処理対象の文字列を入力したユーザ又は組織が前記処理対象の文字列を入力する前に漢字または平仮名を含む文字列を入力していた場合には、前記処理対象の文字列が漢字及び平仮名を含まない場合でも、前記分類する処理において前記処理対象の文字列を前記第二の文字列に分類する、ことを特徴とする付記1に記載の文字列変換プログラム。
(付記3) 前記更新する処理及び前記変換する処理において用いる前記記憶部は、前記処理対象の文字列を入力したユーザ又は組織に対応する記憶部である、ことを特徴とする付記1又は2に記載の文字列変換プログラム。
(付記4) 前記変換する処理では、カタカナから漢字に変換する変換候補を格納する変換候補格納部を参照して、前記処理対象の文字列に含まれる単語の変換候補を複数特定し、複数の前記変換候補それぞれの前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、ことを特徴とする付記1~3のいずれか一項に記載の文字列変換プログラム。
(付記5) 処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、
処理をコンピュータが実行することを特徴とする文字列変換方法。
(付記6) 処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類する分類部と、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新する更新部と、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する変換部と、
を備える情報処理装置。
(付記7) 前記分類部は、前記処理対象の文字列を入力したユーザ又は組織が前記処理対象の文字列を入力する前に漢字または平仮名を含む文字列を入力していた場合には、前記処理対象の文字列が漢字及び平仮名を含まない場合でも、前記処理対象の文字列を前記第二の文字列に分類する、ことを特徴とする付記6に記載の情報処理装置。
(付記8) 前記記憶部は、前記処理対象の文字列を入力したユーザ又は組織に対応している、ことを特徴とする付記6又は7に記載の情報処理装置。
(付記9) 前記変換部は、カタカナから漢字に変換する変換候補を格納する変換候補格納部を参照して、前記処理対象の文字列に含まれる単語の変換候補を複数特定し、複数の前記変換候補それぞれの前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、ことを特徴とする付記6~8のいずれかに記載の情報処理装置。
【符号の説明】
【0063】
10 自治体税賦課サーバ(情報処理装置)
22 文字列分類部(分類部)
26 頻度更新部(更新部)
28 文字列変換部(変換部)
42 変換辞書(変換候補格納部)
44 頻度DB(記憶部)