特開2023-147968 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-147968文字列変換プログラム及び文字列変換方法、並びに情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023147968

(43)【公開日】2023-10-13

(54)【発明の名称】文字列変換プログラム及び文字列変換方法、並びに情報処理装置

(51)【国際特許分類】

G06F 40/129 20200101AFI20231005BHJP

【ＦＩ】

G06F40/129

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022055780

(22)【出願日】2022-03-30

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100087480

【弁理士】

【氏名又は名称】片山修平

(72)【発明者】

【氏名】遠藤進

(72)【発明者】

【氏名】前田一穂

(72)【発明者】

【氏名】大塚浩

【テーマコード（参考）】

5B109

【Ｆターム（参考）】

5B109QB18

(57)【要約】

【課題】漢字及び平仮名を含まない文字列を精度よく仮名漢字文に変換する。
【解決手段】文字列分類部は、処理対象の文字列を、変換前文字列（図９（ａ）の矢印Ａ，Ｂ参照）と変換済文字列とのいずれかに分類し、処理対象の文字列が変換済文字列に分類された場合には、頻度更新部が、処理対象の文字列に含まれる単語の情報で頻度ＤＢ４４を更新する。また、処理対象の文字列が変換前文字列に分類された場合には、文字列変換部は、頻度ＤＢを参照して、処理対象の文字列に含まれる単語を仮名漢字文（図９（ｂ）の矢印Ａ’、Ｂ’参照）に変換する。
【選択図】図９

【特許請求の範囲】

【請求項1】

処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、
処理をコンピュータに実行させることを特徴とする文字列変換プログラム。

【請求項2】

前記処理対象の文字列を入力したユーザ又は組織が前記処理対象の文字列を入力する前に漢字または平仮名を含む文字列を入力していた場合には、前記処理対象の文字列が漢字及び平仮名を含まない場合でも、前記分類する処理において前記処理対象の文字列を前記第二の文字列に分類する、ことを特徴とする請求項１に記載の文字列変換プログラム。

【請求項3】

前記更新する処理及び前記変換する処理において用いる前記記憶部は、前記処理対象の文字列を入力したユーザ又は組織に対応する記憶部である、ことを特徴とする請求項１又は２に記載の文字列変換プログラム。

【請求項4】

前記変換する処理では、カタカナから漢字に変換する変換候補を格納する変換候補格納部を参照して、前記処理対象の文字列に含まれる単語の変換候補を複数特定し、複数の前記変換候補それぞれの前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、ことを特徴とする請求項１又は２に記載の文字列変換プログラム。

【請求項5】

処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、
処理をコンピュータが実行することを特徴とする文字列変換方法。

【請求項6】

処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類する分類部と、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新する更新部と、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する変換部と、
を備える情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文字列変換プログラム及び文字列変換方法、並びに情報処理装置に関する。

【背景技術】

【0002】

自治体において固定資産税などの情報を管理するシステムには、各種機能が設けられているが、例えば、入力された資産等を表す文字列が間違えて入力されていないか、入力すべき文字列が抜けていないか等を判定する機能等があると、自治体の職員等にとって便利である。このような判定機能を実現するためには、単に文字列の一致・不一致を確認するだけでは足りず、意味が似ているものをまとめ、まとめた範囲内で入力間違いや過不足があるか等を判定する必要がある。

【0003】

従来、文字列を多次元の特徴ベクトル化して抽出する技術が知られている。この技術によれば、同意語などを近いベクトルに割り当てることができるため、類似している文字列をまとめたりすることができる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開平８－２０２７０６号公報

【特許文献2】特開平８－９５９７０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、固定資産税などの情報を管理するシステムの中には、カタカナ文（平仮名や漢字を含まない文字列）しか入力できないシステムも存在している。カタカナ文は、意味を持つ単位に分割することが難しく、分割できたとしてもどのような意味であるかを判別するのが難しい。

【0006】

このようなカタカナ文を精度よく仮名漢字文（平仮名や漢字を含む文字列）に変換することができれば、仮名漢字文に含まれる単語に基づいた特徴などを抽出することができ、類似度を算出できると考えられる。

【0007】

１つの側面では、本発明は、漢字及び平仮名を含まない文字列を精度よく変換することが可能な文字列変換プログラム及び文字列変換方法、並びに情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0008】

一つの態様では、文字列変換プログラムは、処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、処理をコンピュータに実行させるプログラムである。

【発明の効果】

【0009】

漢字及び平仮名を含まない文字列を精度よく変換することができる。

【図面の簡単な説明】

【0010】

【図1】一実施形態に係る情報処理システムの構成を概略的に示す図である。

【図2】図１の自治体税賦課サーバのハードウェア構成を示す図である。

【図3】自治体税賦課サーバの機能ブロック図である。

【図4】図４（ａ）は、文字列特定部が資産情報ＤＢから取得する情報の一例を示す図であり、図４（ｂ）は、変換辞書の一例を示す図であり、図４（ｃ）は、頻度ＤＢの一例を示す図である。

【図5】出力例を示す図である。

【図6】自治体税賦課サーバの処理を示すフローチャートである。

【図7】図６のステップＳ１６の詳細処理を示すフローチャートである。

【図8】図６のステップＳ２２の詳細処理を示すフローチャートである。

【図9】図９（ａ）～図９（ｃ）は、一実施形態の概要を示す図である。

【発明を実施するための形態】

【0011】

以下、一実施形態について、図１～図９（ｃ）に基づいて詳細に説明する。

【0012】

図１には、一実施形態に係る情報処理システム１００の構成が概略的に示されている。図１に示すように、本実施形態の情報処理システム１００は、情報処理装置としての自治体税賦課サーバ１０と、資産管理システム７０と、を備える。自治体税賦課サーバ１０と、資産管理システム７０は、インターネットなどのネットワーク８０に接続されている。

【0013】

自治体税賦課サーバ１０は、自治体の固定資産税課が管理・利用するサーバである。自治体税賦課サーバ１０は、自治体の企業等が有する固定資産に関する情報や当該固定資産の価格を基に算定される固定資産税の情報を管理する。また、自治体税賦課サーバ１０は、固定資産の税額を計算して、各企業等に対し課税賦課を行う。また、自治体税賦課サーバ１０は、資産管理システム７０から入力された資産名を解析し、例えば類似する資産名をまとめ、まとめた結果に基づいて、入力間違いや企業ごとの入力過不足を判断する機能も有する。

【0014】

資産管理システム７０は、例えば各企業が利用するシステムであり、各企業が保有する固定資産の情報の管理や、償却資産報告書の作成に用いられる。資産管理システム７０からは、作成された償却資産報告書の情報が自治体税賦課サーバ１０に送信される。なお、資産管理システム７０の中には、平仮名や漢字を使用することができないシステムも存在しているものとする。また、同じ企業が利用する資産管理システム７０であっても、ある時期までは平仮名や漢字を使用することができないシステムであり、ある時期から平仮名や漢字を使用することができるシステムに切り替わることもある。

【0015】

図２には、自治体税賦課サーバ１０のハードウェア構成の一例が示されている。図２に示すように、自治体税賦課サーバ１０は、ＣＰＵ（Central Processing Unit）９０、ＲＯＭ（Read Only Memory）９２、ＲＡＭ（Random Access Memory）９４、ストレージ（例えば、ＳＳＤ（Solid State Drive）や、ＨＤＤ（Hard Disk Drive）など）９６、ネットワークインタフェース９７、及び可搬型記憶媒体用ドライブ９９等を備えている。これら自治体税賦課サーバ１０の構成各部は、バス９８に接続されている。自治体税賦課サーバ１０では、ＲＯＭ９２あるいはストレージ９６に格納されているプログラム（文字列変換プログラムを含む）、或いは可搬型記憶媒体用ドライブ９９が可搬型記憶媒体９１から読み取ったプログラムをＣＰＵ９０が実行することにより、図３に示す、各部の機能が実現される。なお、図３の各部の機能は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

【0016】

図３には、自治体税賦課サーバ１０の機能ブロック図が示されている。図３に示すように、自治体税賦課サーバ１０は、資産情報取得部１２０と、課税処理部１２２と、文字列処理部１２４と、解析部１２６と、を有する。

【0017】

資産情報取得部１２０は、資産管理システム７０から送られてきた各企業の資産情報を資産情報ＤＢ１４０に格納し、管理する。

【0018】

課税処理部１２２は、資産情報ＤＢ１４０を参照して、各企業に対する課税賦課処理を実行する。

【0019】

文字列処理部１２４は、資産情報ＤＢ１４０から資産情報の文字列を取得し、取得した文字列が平仮名及び漢字を含まない第一の文字列（以下、「変換前文字列」と呼ぶ）であった場合に、平仮名や漢字に変換する処理を実行し、解析部１２６に出力する。また、文字列処理部１２４は、取得した文字列が変換前文字列以外の第二の文字列（平仮名や漢字を含む文字列、以下「変換済文字列」と呼ぶ）であった場合には、取得した変換済文字列に含まれる単語の情報を取得し、変換済み文字列をそのままの状態で解析部１２６に出力する。文字列処理部１２４の詳細については後述する。

【0020】

解析部１２６は、文字列処理部１２４から出力された文字列を解析し、例えば類似する文字列をまとめる。また、解析部１２６は、まとめた結果に基づいて、入力間違いがあるか否かを判断したり、ある企業が入力した文字列を他の企業が入力していないなどの過不足を判断したりする。

【0021】

（文字列処理部１２４について）
次に、文字列処理部１２４について具体的に説明する。文字列処理部１２４は、図３に示すように、文字列特定部２０、分類部としての文字列分類部２２、文字列分割部２４、更新部としての頻度更新部２６、変換部としての文字列変換部２８、出力部３０を有する。また、文字列処理部１２４は、変換候補格納部としての変換辞書４２や、記憶部としての頻度ＤＢ４４を有する。

【0022】

文字列特定部２０は、資産情報ＤＢ１４０から、図４（ａ）に示すような固定資産を示す文字列の情報を取得し、そのうちの１つの文字列を特定する処理を実行する。図４（ａ）に示すように、文字列特定部２０が取得する情報は、文字列（固定資産名）の情報を含み、当該文字列それぞれに、組織ＩＤと、入力日時と、が紐づいている。組織ＩＤは、文字列を入力した企業の識別情報であり、入力日時は、文字列が入力された日時の情報である。

【0023】

文字列分類部２２は、文字列特定部２０が特定した文字列を、変換前文字列と変換済文字列のいずれかに分類する。具体的には、文字列分類部２２は、平仮名と漢字を含まず、カタカナや英数文字や記号しか含まない文字列（カタカナ文）を変換前文字列に分類する。また、文字列分類部２２は、平仮名又は漢字を含む文字列（仮名漢字文）を変換済文字列に分類する。更に、文字列分類部２２は、カタカナ文であっても、そのカタカナ文を入力した企業がそれ以前に仮名漢字文を入力したことがある場合には、そのカタカナ文を変換済文字列に分類する。そのようなカタカナ文は、元々カタカナで表記すべき文字列であり、変換が不要である可能性が高いからである。

【0024】

文字列分割部２４は、変換辞書４２を参照して、文字列分類部２２が変換済文字列に分類した文字列を単語に分割する。ここで、変換辞書４２は、一例として、図４（ｂ）に示すようなデータ構造を有する。変換辞書４２には、変換前の文字列（カタカナ）と、変換候補とが対応付けて格納されている。例えば、変換済文字列が「駐車場工事」である場合には、文字列分割部２４は、変換辞書ＤＢ４２の変換候補の欄を参照して、「駐車場」と「工事」に分割する。

【0025】

頻度更新部２６は、文字列分割部２４が分割した各単語の情報を用いて、頻度ＤＢ４４を更新する。ここで、頻度ＤＢ４４は、一例として、図４（ｃ）に示すようなデータ構造を有する。頻度ＤＢ４４は、業種（分野）毎に用意されているものとする。例えば、図４（ａ）の組織ＩＤ＝１，２の企業の業種が建設業である場合には、建設業用に用意された頻度ＤＢ４４を使用する。頻度ＤＢ４４には、単語それぞれが各業種においてどれだけ使用されたかを示す情報（使用頻度）が格納されている。頻度更新部２６は、文字列に単語「工事」が含まれていた場合には、単語「工事」の使用頻度の値に１を加算する。なお、頻度ＤＢ４４に存在しない単語が文字列に含まれていた場合には、頻度更新部２６は、頻度ＤＢ４４にその単語のレコードを新たに追加し、使用頻度の値を１に設定する。なお、本実施例の頻度更新部２６は頻度の値を記憶する例にて説明するものの、単語が使用された時期によって最近の使用実績に重みをつけることや、特定のユーザの使用実績に重みをつけること等、単語の使用頻度以外の使用状況への変形も考えられる。

【0026】

図３に戻り、文字列変換部２８は、変換辞書４２と頻度ＤＢ４４とを参照して、文字列分類部２２が変換前文字列に分類した文字列（カタカナ文）を仮名漢字文に変換する。

【0027】

出力部３０は、変換済文字列と分類された文字列はそのままの状態で、変換前文字列と分類された文字列は仮名漢字文に変換した状態で、解析部１２６に対して出力する。例えば、図４（ａ）のような情報は、図５に示すように変換されて出力される。

【0028】

（文字列処理部１２４の処理について）
次に、文字列処理部１２４の処理について、図６～図８のフローチャートに沿って説明する。なお、図６の処理は、例えば、自治体税賦課サーバ１０の管理者が、ある企業（例えば組織ＩＤ＝１）と、他の企業（例えば組織ＩＤ＝２）のそれぞれが入力した固定資産名の入力間違いや、過不足の有無を検証したい旨の入力を行ったタイミングで開始される。なお、以下においては、組織ＩＤ＝１の「企業１」と、組織ＩＤ＝２の「企業２」の検証要求が入力されたものとして説明する。

【0029】

図６の処理が開始されると、まず、ステップＳ１０において、文字列特定部２０が、処理対象の文字列を特定する。より具体的には、文字列特定部２０は、資産情報ＤＢ１４０から、図４（ａ）に示すような企業１、企業２が入力した固定資産名の情報を取得し、そのうちの１つの文字列を処理対象の文字列として特定する。

【0030】

次いで、ステップＳ１２では、文字列分類部２２が、処理対象の文字列がカタカナ文（変換前文字列）であるか否かを判断する。文字列分類部２２は、処理対象の文字列が、平仮名や漢字を含まない場合に、変換前文字列であると判断する。このステップＳ１２の判断が否定された場合には、ステップＳ１６に移行するが、肯定された場合には、ステップＳ１４に移行する。

【0031】

ステップＳ１４に移行した場合、文字列分類部２２は、同一組織（同一企業）により、仮名漢字文（変換済文字列）が入力されたことがあるか否かを判断する。例えば、処理対象の文字列が図４（ａ）の「アスフアルトホソウ」である場合、その入力日時「2006/09/03」よりも前に同一企業（企業１）が仮名漢字文を入力したという情報が無いため、ここでの判断は否定される。一方、処理対象の文字列が図４（ａ）の「ホイールローダ」である場合、その入力日時「2012/06/10」よりも前に同一企業（企業１）が仮名漢字文（「駐車場工事」）を入力しているため、ここでの判断は肯定される。この場合、「アスフアルトホソウ」については変換前文字列として扱われ、「ホイールローダ」については変換済文字列として扱われることになる。

【0032】

処理対象の文字列が変換済文字列であり、ステップＳ１６に移行すると、文字列分割部２４と頻度更新部２６とによる、頻度登録処理が実行される。このステップＳ１６においては、図７に示す処理が実行される。

【0033】

（ステップＳ１６（図７の処理）について）
図７のステップＳ１６が開始されると、まず、ステップＳ３０において、文字列分割部２４が、形態素解析等により、処理対象の文字列を単語に分割する。

【0034】

次いで、ステップＳ３２では、文字列分割部２４が、処理対象の文字列から不要単語を除去する。不要単語は、例えば名詞以外の単語や、あらかじめ用意した不要単語辞書に含まれる単語などである。

【0035】

次いで、ステップＳ３４では、文字列分割部２４が、前後を結合した単語が変換辞書にあれば、それらの単語を結合する。

【0036】

次いで、ステップＳ３６では、文字列分割部２４が、文字列の中に変換辞書４２にない単語があるかを確認し、そのような単語がある場合には、単語を更に分割する。そして、分割後の単語が変換辞書にあれば、その分割を採用する。

【0037】

次いで、ステップＳ３８では、頻度更新部２６が、頻度ＤＢ４４を更新する。頻度更新部２６は、頻度ＤＢ４４において、処理対象の文字列に含まれている単語それぞれの使用頻度の値に１を加算する。なお、処理対象の文字列に含まれている単語が頻度ＤＢ４４に無い場合には、頻度更新部２６は、頻度ＤＢ４４にその単語のレコードを新たに追加し、使用頻度の値を１に設定する。

【0038】

以上のようにして図７の全処理が実行された後は、図６のステップＳ１８に移行する。

【0039】

ステップＳ１８に移行すると、出力部３０が、処理対象の文字列（変換済文字列）をそのまま（変換せずに）解析部１２６に対して出力する。

【0040】

次いで、ステップＳ２０では、文字列特定部２０が、処理対象の文字列をすべて特定したか否かを判断する。このステップＳ２０の判断が否定された場合には、ステップＳ１０に戻る。

【0041】

一方、ステップＳ１４の判断が否定された場合、すなわち、処理対象の文字列がカタカナ文であり、変換前文字列であった場合には、ステップＳ２２において、文字列変換部２８が変換処理を実行する。このステップＳ２２においては、図８に示す処理が実行される。

【0042】

（ステップＳ２２（図８の処理）について）
図８のステップＳ２２の処理が開始されると、まず、ステップＳ５０において、文字列変換部２８が、処理対象の文字列を文字種で分割する。ここで、処理対象の文字列は、カタカナや記号、英数字等を含むため、文字列変換部２８は、カタカナとそれ以外の文字種に分割する。

【0043】

次いで、ステップＳ５２では、文字列変換部２８が、不要単語の除去を行う。この場合、文字列変換部２８は、数字や不要単語辞書に含まれる文字列を除去する。なお、文字列変換部２８は、不要単語を除去した後の文字列のうち、カタカナの文字列については、以降の変換処理を続行し、それ以外（例えば英単語）は、そのまま残す（変換処理は行わない）ものとする。

【0044】

次いで、ステップＳ５４では、文字列変換部２８が、変換辞書４２を参照して、カタカナの文字列を変換辞書４２にある単語に分割する。

【0045】

次いで、ステップＳ５６では、文字列変換部２８が、単語数が所定数以下の分割結果を選択する。本ステップＳ５６では、分割数が多すぎるものは分割が適切でない可能性が高いため、処理から除外することとしている。

【0046】

次いで、ステップＳ５８では、文字列変換部２８が、各単語の変換候補を変換辞書４２から取得する。例えば、単語「コウジ」であれば、変換辞書４２から変換候補「工事」、「公示」、「浩二」を取得する。

【0047】

次いで、ステップＳ６０では、文字列変換部２８が、変換候補の組み合わせごとにスコアを求め、スコアに基づいて文字列を変換する。ここで、文字列変換部２８は、一例として、スコアを次式（１）から求めることとする。

【0048】

【数1】

なお、ｎは文字列に含まれる単語数、ｆ_iは単語の使用頻度、Ｗ_hは、単語の使用頻度の補正係数、Ｒは単語同士の関連度（共起率）、ｖ_iは、ｉ番目の単語の単語情報、Ｗ_cは、単語の個数の補正係数を意味する。なお、単語同士の共起率は、例えば変換辞書４２やその他の辞書（例えば共起辞書）において管理されているものとする。文字列変換部２８は、スコアが最も大きくなる単語の分割の仕方、変換候補の組み合わせを特定し、特定結果に基づいて文字列を変換する。上記スコアを用いた変換を行うことにより、例えば、単語「コウジ」の変換候補が３つ（「工事」、「公示」、「浩二」）ある場合であっても、企業１や企業２の業種において使用頻度の高い変換候補「工事」で変換されるようになる。

【0049】

以上のようにして図８の全処理が実行された後は、図６のステップＳ２４に移行する。

【0050】

図６のステップＳ２４に移行すると、出力部３０は、変換後の文字列を解析部１２６に対して出力する。

【0051】

図９（ａ）～図９（ｃ）には、本実施形態の処理の概要が示されている。本実施形態では、図９（ａ）に示すような文字列が、文字列処理部１２４の処理対象となり、文字列処理部１２４の処理の結果、図９（ｂ）に示すような情報が解析部１２６に出力される。この場合、図９（ａ）において矢印Ａ，矢印Ｂで示すカタカナ文（変換前文字列）が図９（ｂ）において矢印Ａ’、矢印Ｂ’で示すような仮名漢字文（変換済文字列）に変換されて、解析部１２６に出力される。解析部１２６は、図９（ｂ）のように仮名漢字変換された各文字列であれば、多次元の特徴ベクトル化が可能であるため、図９（ｃ）に示すように各文字列を類似しているもの毎に纏めることができる。また、解析部１２６は、纏めた結果を用いることで、「アスファルト舗装」のように、企業１のみが入力し、企業２が入力していない文字列（過不足のある文字列）を特定することができる。また、解析部１２６は、「ホイーローダ」のように入力ミスがある文字列を特定することもできる。

【0052】

以上、詳細に説明したように、本実施形態によると、文字列分類部２２は、処理対象の文字列を、変換前文字列（第一の文字列）と変換済文字列（第二の文字列）とのいずれかに分類する（Ｓ１２、Ｓ１４）。この分類により、処理対象の文字列が変換済文字列に分類された場合、頻度更新部２６は、処理対象の文字列に含まれる単語の情報で頻度ＤＢ４４を更新する（Ｓ１６）。また、処理対象の文字列が変換前文字列に分類された場合には、文字列変換部２８は、頻度ＤＢ４４を参照して、処理対象の文字列に含まれる単語を仮名漢字文に変換する（Ｓ２２）。これにより、本実施形態では、変換済文字列に含まれる単語の使用頻度を記憶する頻度ＤＢ４４に基づいて、変換前文字列が変換されるため、使用頻度の高い変換候補で変換前文字列を変換することができる。これにより、精度よく変換前文字列を仮名漢字変換することが可能となる。また、カタカナ文が仮名漢字変換されることにより、類似する文字列をまとめることができるようになる。これにより、文字列の入力ミスや企業ごとの入力過不足などを精度よく解析することが可能となる。

【0053】

また、本実施形態では、頻度ＤＢ４４を企業の業種や分野ごとに用意している。したがって、専門用語など、各業種や各分野で頻繁に用いる単語を含む変換前文字列（カタカナ文）を精度よく仮名漢字変換することができる。

【0054】

また、本実施形態では、処理対象の文字列が漢字及び平仮名を含まない場合であっても、その文字列を入力した企業が、それ以前に変換済文字列を入力していた場合（ステップＳ１４：肯定）には、処理対象の文字列を変換済文字列に分類する。これにより、元々カタカナで表記するような文字列（変換不要文字列）を変換済文字列として扱うことができるので、変換不要な単語の使用頻度についても頻度ＤＢ４４に格納することができるようになる。なお、頻度ＤＢ４４にカタカナの単語が格納された場合に、変換辞書４２にその単語が格納されていなければ、当該単語を変換辞書４２に格納することとしてもよい。

【0055】

また、本実施形態では、前述した式（１）を用いて算出したスコアに基づいて仮名漢字変換を行うため、単に使用頻度のみを用いて変換候補を特定する場合よりも、適切な変換を行うことが可能である。なお、上式（１）は一例である。したがって、スコアをその他の式（使用頻度を含む式）に基づいて算出してもよい。

【0056】

なお、上記実施形態では、資産管理システム７０を企業が利用する場合について説明したが、これに限らず、個人（ユーザ）が利用してもよい。また、資産管理システム７０を企業以外の組織（学校や自治体、その他の団体など）が利用してもよい。

【0057】

なお、上記実施形態では、自治体税賦課サーバ１０において、図６～図８の処理が行われる場合について説明したが、これに限らず、自治体で用いられるその他のサーバや端末において図６～図８の処理が行われることとしてもよい。また、自治体に限らず、企業等において用いられるサーバや端末において図６～図８の処理が行われることとしてもよい。

【0058】

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体（ただし、搬送波は除く）に記録しておくことができる。

【0059】

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ（Digital Versatile Disc）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）などの可搬型記憶媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

【0060】

プログラムを実行するコンピュータは、例えば、可搬型記憶媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。

【0061】

上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。

【0062】

なお、以上の実施形態の説明に関して、更に以下の付記を開示する。
（付記１）処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、
処理をコンピュータに実行させることを特徴とする文字列変換プログラム。
（付記２）前記処理対象の文字列を入力したユーザ又は組織が前記処理対象の文字列を入力する前に漢字または平仮名を含む文字列を入力していた場合には、前記処理対象の文字列が漢字及び平仮名を含まない場合でも、前記分類する処理において前記処理対象の文字列を前記第二の文字列に分類する、ことを特徴とする付記１に記載の文字列変換プログラム。
（付記３）前記更新する処理及び前記変換する処理において用いる前記記憶部は、前記処理対象の文字列を入力したユーザ又は組織に対応する記憶部である、ことを特徴とする付記１又は２に記載の文字列変換プログラム。
（付記４）前記変換する処理では、カタカナから漢字に変換する変換候補を格納する変換候補格納部を参照して、前記処理対象の文字列に含まれる単語の変換候補を複数特定し、複数の前記変換候補それぞれの前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、ことを特徴とする付記１～３のいずれか一項に記載の文字列変換プログラム。
（付記５）処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類し、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新し、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、
処理をコンピュータが実行することを特徴とする文字列変換方法。
（付記６）処理対象の文字列を、漢字及び平仮名を含まない第一の文字列と、前記第一の文字列以外の第二の文字列と、のいずれかに分類する分類部と、
前記処理対象の文字列が前記第二の文字列に分類された場合に、単語の使用状況を記憶する記憶部を、前記処理対象の文字列に含まれる単語の情報で更新する更新部と、
前記処理対象の文字列が前記第一の文字列に分類された場合に、前記記憶部を参照して、前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する変換部と、
を備える情報処理装置。
（付記７）前記分類部は、前記処理対象の文字列を入力したユーザ又は組織が前記処理対象の文字列を入力する前に漢字または平仮名を含む文字列を入力していた場合には、前記処理対象の文字列が漢字及び平仮名を含まない場合でも、前記処理対象の文字列を前記第二の文字列に分類する、ことを特徴とする付記６に記載の情報処理装置。
（付記８）前記記憶部は、前記処理対象の文字列を入力したユーザ又は組織に対応している、ことを特徴とする付記６又は７に記載の情報処理装置。
（付記９）前記変換部は、カタカナから漢字に変換する変換候補を格納する変換候補格納部を参照して、前記処理対象の文字列に含まれる単語の変換候補を複数特定し、複数の前記変換候補それぞれの前記使用状況に基づいて、前記処理対象の文字列に含まれる単語を変換する、ことを特徴とする付記６～８のいずれかに記載の情報処理装置。

【符号の説明】

【0063】

１０自治体税賦課サーバ（情報処理装置）
２２文字列分類部（分類部）
２６頻度更新部（更新部）
２８文字列変換部（変換部）
４２変換辞書（変換候補格納部）
４４頻度ＤＢ（記憶部）

【図1】