(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-17
(45)【発行日】2022-08-25
(54)【発明の名称】情報処理システム、日本語の意味内容解釈方法及びプログラム
(51)【国際特許分類】
G06F 16/332 20190101AFI20220818BHJP
G06F 40/242 20200101ALI20220818BHJP
【FI】
G06F16/332
G06F40/242
(21)【出願番号】P 2021038736
(22)【出願日】2021-03-10
【審査請求日】2021-03-22
【新規性喪失の例外の表示】特許法第30条第2項適用 日刊工業新聞 令和2年6月8日版
(73)【特許権者】
【識別番号】521102960
【氏名又は名称】小林 哲
(74)【代理人】
【識別番号】100117514
【氏名又は名称】佐々木 敦朗
(72)【発明者】
【氏名】小林 哲
【審査官】佐賀野 秀一
(56)【参考文献】
【文献】特開2013-033351(JP,A)
【文献】特開2016-157408(JP,A)
【文献】特開2019-003387(JP,A)
【文献】特開平11-259469(JP,A)
【文献】特開2009-223895(JP,A)
【文献】特開2015-031895(JP,A)
【文献】特開2006-004427(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
G06F 40/242
(57)【特許請求の範囲】
【請求項1】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、日本語の
各々の音節が有する自然言語としての意味内容を表す対応表を記憶する意味内容データベースとを有し、
前記プロセッサは、日本語のテキストを取得する処理と、
取得した日本語のテキストから
音節を判別する処理と、
判別された
音節について、前記意味内容データベースを参照し前記
音節が有する各々の自然言語としての意味内容を解釈する処理と、
解釈された意味内容を出力する処理と、
を実行することを特徴とする情報処理システム。
【請求項2】
請求項1に記載の情報処理システムであって、
前記意味内容データベースは、音節として、日本語の単語及び擬態語・擬声語・擬音語を構成し、これらに対して、各々の音節が有する自然言語としての意味内容を記憶する
ことを特徴とする情報処理システム。
【請求項3】
請求項1に記載の情報処理システムであって、
前記意味内容データベースは、母音単独からなる音節を含む少なくとも28個以上の音節を含み、これらに対して、各々の音節が有する自然言語としての意味内容を記憶する
ことを特徴とする情報処理システム。
【請求項4】
請求項1に記載の情報処理システムであって、
前記意味内容データベースは、音節として、少なくとも[ka]、[sa]、[ta]、[la]、[wa]、[ga]、[i]および/あるいは[wi]、[shi]、[chi]、[ni]、[li]、[bi]、[gi]、[u]、[su]、[nu]、[fu]、[mu]、[zu]および/あるいは[dzu]、[ke]、[le]、[be]、[ge]、[ze]、[to]、[mo]、[lo]、[do]を含み、これらに対して、各々の音節が有する自然言語としての意味内容を記憶する
ことを特徴とする情報処理システム。
【請求項5】
請求項1に記載の情報処理システムであって、
前記意味内容データベースは、音節のうち少なくとも一つとして、[ka]、[sa]、[ta]、[la]、[wa]、[ga]、[i]および/あるいは[wi]、[shi]、[chi]、[ni]、[li]、[bi]、[gi]、[u]、[su]、[nu]、[fu]、[mu]、[zu]および/あるいは[dzu]、[ke]、[le]、[be]、[ge]、[ze]、[to]、[mo]、[lo]、[do]を含み、各々の音節に対応した意味内容として、[ka]が「難儀, 辛苦, 困苦, 辛さ, 不快」、[sa]が「登ること, 昇ること, 上がること, 上昇(する), 渡ること, 差し出すこと」、[ta]が「腕(手)を差し上げること, 持ち上げること, 物を差し上げること, 上にあげること」、[la]が「空気, 大気, 気体, 空間」、[wa]「切り裂き, 引き裂き, 溝(掘り), 壕, 堀, 掘り割り」、[ga]が「かがむこと, こごむこと, 前かがみになること, うつむくこと」、[i]あるいは[wi]が「出現, 発現, 発生, 膨れること, 膨張, 増大, 増加」、[shi]が「広がり, 海, 水たまり, 淀み, 淵」、[chi]が「通り道, 通路, 経路, 軌道, 轍, 航跡」、[ni]が「貝類, 巻貝, 二枚貝, 海老, 蟹, 甲殻類, 節足動物」、[li]が「蓄積, 積み重ね, 積み上げ, 盛り上げ, 重ねること, 堆積, 揚げ」、 [bi]が「毛, 毛髪, 毛状のもの, (黍属や葦・ススキ・竹・籐等の節のある植物の)茎やメシベの絹糸, 杖, ステッキ, 鞭」、[gi]が「芒(のぎ), 涙滴型形状, 葦葉(型形状)」、[u]「吠え(声), 唸り(声), 遠吠え, 怒号, 轟き」、 [su]が「消失, 不可視, 透明」、 [nu]が「ぬかるみ, 粘り気, 粘性, 粘性物質」、[fu]が「踏むこと, 踏み上がること, 載る, 踏み付け」、[mu]が「拍動、脈拍, 鼓動, 波動, 振動, 周期的運動・事象」、[zu]あるいは[dzu]が「ぶら下がり, ぶらぶら揺れ, 振り子, 垂下(状態), 懸垂(状態), 吊り下げ」、[ke]が「中央よりも縁が盛り上がった鉢状の形状, 水盤(状の形状), くぼみ(状の形状), 盆地(状の形状)」、[le]が「堆積, 蓄積, 貯まり, 沈殿, 蓄蔵, 重なり合い」、[be]が「すりつぶし, 挽き, 押しつぶし, 押し砕き, 圧搾, 粉砕, すりおろし, 研ぎ, 咬み, 噛み砕き, 咀嚼, 顎」、[ge]が「黒くする(なる)こと, 黒化, 暗くする(なる)こと, 暗転, 燃焼, 燻し, 炙り, 焼き, 焙じ, 炒り, 加熱, 焦がし, 焦げ, 炭化, 蒸し焼き」、[ze]が「丸太, 棒, 伐採した樹, 材木, 木材, 木挽材, 角材, 板材, 建造物の構造材の内で垂直に立てられる以外の柱状材, 屋根のハゼ, スラブ」、[to]が「平地, 整地された土地, 居住可能な土地, 生活の地」、[mo]が「地下, 地中, 足元, 地盤」、[lo]が「岩盤, 石畳」、[do]が「穴, 孔, 坑, 洞窟, 洞穴, 穿孔, 窪み」、[bo]が「攪拌、ごちゃ混ぜ、しおれること、枯れること、しぼむこと、しなびること、縮むこと、シワが寄ること、萎縮、くしゃくしゃに潰すこと」
を記憶することを特徴とする情報処理システム。
【請求項6】
請求項1に記載の情報処理システムであって、
前記意味内容データベースは、記された各音節に対応する自然言語としての意味内容が、それぞれの終止形、名詞形、動詞形、形容詞形、形容動詞形、副詞形、接続詞形、感動詞形、助詞形、助動詞形、連体詞形、あるいは語幹のいずれかの表記、または、いずれかの表記の内の複数の表記としての意味内容である
ことを特徴とする情報処理システム。
【請求項7】
プログラムを実行するプロセッサと、前記プロセッサが実行するプログラムを格納する記憶デバイスと、を備える情報処理システムが実行する日本語の意味内容解釈方法であって、
前記プロセッサが、日本語のテキストを取得する処理と、
取得した日本語のテキストから
音節を判別する処理と、
判別された
音節について、
日本語の各々の音節が有する自然言語としての意味内容を表す対応表を記憶する意味内容データベースを参照し前記
音節が有する各々の自然言語としての意味内容を解釈する処理と、
解釈された意味内容を出力する処理と、
を実行することを特徴とする日本語の意味内容解釈方法。
【請求項8】
プログラムを実行するプロセッサと、前記プロセッサが実行するプログラムを格納する記憶デバイスと、を備える情報処理システムに、
日本語のテキストを取得する処理と、
取得した日本語のテキストから
音節を判別する処理と、
判別された
音節について、
日本語の各々の音節が有する自然言語としての意味内容を表す対応表を記憶する意味内容データベースを参照し前記
音節が有する各々の自然言語としての意味内容を解釈する処理と、
解釈された意味内容を出力する処理と、
を実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明の実施形態は、例えば文章を解析し日本語の音節の持つ自然言語としての固有の意味内容を解釈して出力する情報処理システム、日本語の意味内容解釈方法及びプログラムに関する。
【背景技術】
【0002】
近年、インターネット上で国語、四字熟語、英和・和英、または専門用語等の言葉を検索しその意味を解説するオンライン辞書が広く利用されている。(例えば、非特許文献1、2を参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】weblio辞典 (https://www.weblio.jp/)
【文献】goo辞書 (https://dictionary.goo.ne.jp/)
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記したように、オンライン辞書は様々な分野で利用されているが、言葉の意味を検索し解説するサービスに限られており、例えば、日本語の単語や語句を構成する音節の持つ自然言語としての固有の意味内容を検索して解説する辞書はなかった。
【0005】
この発明は上記事情に着目してなされたもので、日本語の音節が有する各々の自然言語としての意味内容を解説する情報処理システム、日本語の意味内容解釈方法及びプログラムを提供しようとするものである。
【課題を解決するための手段】
【0006】
上記課題を解決するためにこの発明の一態様の情報処理装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムであって、日本語の各々の音節が有する自然言語としての意味内容を表す対応表を記憶する意味内容データベースとを有し、
前記プロセッサは、テキストを取得する取得部と、
取得したテキストから音節を判別する判別部と、
判別された各音節について、前記意味内容データベースを参照し前記各音節が有する各々の自然言語としての意味内容を解釈する解釈部と、解釈された意味内容を出力する出力部と、
を備える。
【発明の効果】
【0007】
この発明の一態様によれば、日本語の音節及びこれらを組み合わせた音節群が有する各々の自然言語としての意味内容を解説する技術を提供することが可能となる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態に係る情報処理システム100の全体構成及びハードウェアの構成を示す図である。
【
図2】本発明の一実施形態に係るサーバ1のソフトウェア構成の一例を示すブロック図である。
【
図3】本発明の一実施形態に係る利用者端末2のソフトウェア構成の一例を示すブロック図である。
【
図4】本発明の一実施形態に係る情報処理システムによる情報処理の一例を示すフローチャートである。
【
図5】本発明の一実施形態に係るサーバ1による解釈結果の画面表示の一例を示す図である。
【
図6】本発明の他の実施形態に係る情報処理システム200の全体構成及びハードウェアの構成を示す図である。
【
図7】本発明の一実施形態に係る利用者端末のソフトウェア構成の一例を示すブロック図である。
【
図8】本発明の一実施形態に係る情報処理システムによる情報処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、図面を参照してこの発明に係わる実施形態を説明する。
[一実施形態]
(構成例)
図1は、一実施形態に係る情報処理システム100の全体構成及びハードウェアの構成を示す図である。
情報処理システム100は、日本語の音節及び音節群が有する各々の自然言語としての意味内容を付与するシステムである。本システムは、インターネットブラウザを利用しインターネットサイトに接続して、日本語の音節及び音節群が有する各々の自然言語としての意味内容を把握したいユーザによって利用される。
【0010】
情報処理システム100は、サーバ1、利用者端末2を備える。サーバ1、利用者端末2、ネットワークNW3を介して互いに通信自在に接続する。ネットワークNWは、インターネット、及びLAN(Local Area Network)等のうちの1以上のネットワークで構成される。典型的には、LANは、無線LANであるが、有線LANであってもよい。
【0011】
サーバ1は、日本語の語句や単語の構成要素である音節が有する自然言語としての意味内容を表す辞書データを記憶し、辞書に関する種々の処理を行う電子機器である。電子機器は、コンピュータの一例である。サーバ1は、情報を処理する情報処理装置の一例である。例えば、サーバ1は、日本語の音節及びこれらを組み合わせた音節群が有する自然言語としての意味内容を表す対応表を記憶し、利用者端末2へ対応表に基づく解釈結果を出力する。サーバ1の構成例については後述する。
【0012】
利用者端末2は、利用者が使用する端末である。利用者端末2は、入力機能、表示機能及び通信機能を備える電子機器である。例えば、利用者端末2は、タブレット端末、スマートフォン、又はPC(Personal Computer)等であるが、これらに限定されない。利用者端末2の構成例については後述する。
【0013】
サーバ1のハードウェアの構成例について説明する。
サーバ1は、制御部11、プログラム記憶部12、データ記憶部13、及び通信部14を備える。サーバ1を構成する各要素は、バスを介して、互いに接続されている。
【0014】
制御部11は、サーバ1の中枢部分に相当する。制御部11は、中央処理ユニット(Central Processing Unit:CPU)等のプロセッサを備える。制御部11は、不揮発性のメモリ領域としてROM(Read Only Memory)を備える。制御部11は、揮発性のメモリ領域としてRAM(Random Access Memory)を備える。プロセッサは、ROM、又はプログラム記憶部12に記憶されているプログラムをRAMに展開する。プロセッサがRAMに展開されるプログラムを実行することで、制御部11は、後述する各部を実現する。
【0015】
プログラム記憶部12は、記憶媒体としてHDD(Hard Disk Drive)、又はSSD(Solid State Drive)等の随時書込み及び読出しが可能な不揮発性メモリで構成される。プログラム記憶部12は、各種制御処理を実行するために必要なプログラムを記憶する。例えば、プログラム記憶部12は、制御部11に実現される後述する各部による処理をサーバ1に実行させる情報処理プログラムを記憶する。プログラム記憶部12は、ストレージの一例である。
【0016】
データ記憶部13は、記憶媒体としてHDD又はSSD等の随時書込み及び読出しが可能な不揮発性メモリで構成される。データ記憶部13は、ストレージ、又は記憶部の一例である。データ記憶部13は、利用者端末2から入力される日本語のテキストデータを記憶する。また、意味内容DB121による解釈結果を記憶する。
【0017】
通信部14は、ネットワークNWにより定義される通信プロトコルを使用して、サーバ1を他の電子機器と通信可能に接続する種々のインタフェースを含む。
【0018】
なお、サーバ1のハードウェア構成は、上述の構成に限定されるものではない。サーバ1は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。
【0019】
図2は、一実施形態に係るサーバ1のソフトウェア構成の一例を示すブロック図である。
制御部11は、プログラム記憶部111、取得部112、判別部113、解釈部114、出力部115を備える。制御部11が、情報処理プログラムを実行することにより、意味内容記憶部121、取得部112、判別部113、解釈部114、及び出力部115の各部の機能が実現される。
【0020】
プログラム記憶部111は、本情報処理装置10の全体の動作を司るシステムプログラム、通信部27を介して外部の電子機器と通信接続するためのプログラム、及び、データ記憶部13に記憶されているデータを使って、日本語の意味内容の解釈を実行するためのプログラムなどを含む。また、プログラム記憶部111は、日本語の音節及びこれらを組み合わせた音節群が有する自然言語としての意味内容を表す対応表を記憶する意味内容DB121を含む。なお、対応表は、予めPC等の端末により作成され意味内容DB121へ入力され記憶される。
【0021】
取得部112は、利用者端末から入力されたテキストデータを、ネットワークNWを介して取得しデータ記憶部13へ記憶させる。
【0022】
判別部113は、データ記憶部13に記憶した日本語のテキストから音節及びこれらを組み合わせた音節群を判別する。例えば、「浜(はま)」の場合、音節としては、「ha」及び「ma」であり、音節群としては [ha-ma]と判別する。音節の判別は、他のインターネットサイトに接続し検索して結果を得てもよいし、サーバ内に備える国語辞書等のデータを参照してもよい。
【0023】
解釈部114は、判別された各音節及び音節群について、意味内容DB131を参照し各音節及び音節群の意味を解釈する。
【0024】
出力部115、解釈部114により解釈された結果をデータ記憶部13へ記憶させ、その後、通信部14より利用者端末に対して出力する。
【0025】
利用者端末2のハードウェアの構成例について説明する。
利用者端末2は、制御部21、プログラム記憶部22、データ記憶部23、入力部24、表示部25、音声出力部26、及び通信部27を備える。利用者端末2を構成する各要素は、バスを介して、互いに接続されている。
【0026】
制御部21は、利用者端末2の中枢部分に相当する。制御部21は、CPU等のプロセッサを備える。制御部21は、不揮発性のメモリ領域としてROMを備える。制御部21は、揮発性のメモリ領域としてRAMを備える。プロセッサは、ROM、又はプログラム記憶部22に記憶されているプログラムをRAMに展開する。プロセッサがRAMに展開されるプログラムを実行することで、制御部21は、各種動作を実現する。
【0027】
プログラム記憶部22は、記憶媒体としてフラッシュメモリ、HDD、又はSSD等の随時書込み及び読出しが可能な不揮発性メモリで構成される。プログラム記憶部22は、各種制御処理を実行するために必要なプログラムを記憶する。例えば、プログラム記憶部22は、Webブラウザを動作させるWebブラウザプログラムを記憶する。プログラム記憶部22は、ストレージの一例である。
【0028】
データ記憶部23は、記憶媒体としてフラッシュメモリ、HDD、又はSSD等の随時書込み及び読出しが可能な不揮発性メモリで構成される。データ記憶部23は、ストレージの一例である。データ記憶部23は、利用者が入力した日本語のテキストデータを記憶する。また、サーバから受信した解釈結果のデータを記憶する。
【0029】
入力部24は、利用者端末2へデータ、又は指示を入力可能なデバイスである。例えば、入力部24は、タッチ操作による入力を可能にするキーボード、又はタッチパネル等を含む。入力部24は、音声入力を可能にするマイクを含む。入力部24は、映像の取り込み可能にするカメラを含む。利用者は、意味内容を調べたい日本語を入力部24により入力する。
【0030】
表示部25は、画像データに基づく画像を表示可能なデバイスである。例えば、表示部25は、液晶ディスプレイ、又はEL(Electroluminescence)ディスプレイ等である。表示部25は、サーバから出力された解釈結果を表示する。
【0031】
音声出力部26は、音声データに基づく音声を出力可能なデバイスである。例えば、音声出力部26は、スピーカである。サーバから出力された解釈結果を音声データとしてスピーカから出力してもよい。
【0032】
通信部27は、ネットワークNWにより定義される通信プロトコルを使用して、利用者端末2を他の電子機器と通信可能に接続する種々のインタフェースを含む。通信部27は、利用者が入力した日本語のテキストデータをサーバに対して送信する。また、サーバが出力する解釈結果のデータを受信する。
【0033】
図3は、一実施形態に係る利用者端末2のソフトウェア構成の一例を示すブロック図である。
制御部11は、プログラム記憶部111、データ記憶部を備える。制御部11が、情報処理プログラムを実行することにより、各部の機能が実現される。
【0034】
(動作例)
次に、以上のように構成されたサーバ1の動作例を説明する。
図4は、一実施形態に係る情報処理システムによる情報処理の一例を示すフローチャートである。
例えば、インターネットサイトにおいて日本語の音節及び音節群の意味内容を調べる際に、本実施形態の情報処理システムを適用する。
入力部は、利用者が意味内容を調べたい日本語のテキストデータの入力を受け付ける(ステップS101)。ここで、意味内容を調べたい日本語のテキストデータの入力は、漢字、平仮名、片仮名、ローマ字のいずれであってもよい。利用者が、漢字を入力した場合、他のインターネットサイトで検索してから、また、本情報処理システムに組み込まれた国語辞典等の辞書を参照して、その読み方を受け付けてもよい。例えば、利用者が、「山」と入力した場合、読みを「ya-ma」と特定してから入力データとして受け付ける。また、利用者が、平仮名や片仮名を入力した場合、一般のインターネットサイトや本情報処理システムに組み込まれた国語辞典等の辞書を参照して、音節を特定してから入力データとして受け付ける。例えば、利用者が、「やま」と入力した場合、読みを「ya-ma」と特定してから入力データとして受け付ける。
【0035】
制御部21は、利用者端末の通信部から、受け付けた当該テキストデータをサーバ1へ送信する(ステップS102)。
サーバ1の通信部14は、受信したテキストデータをデータ記憶部13に記憶する(ステップS103)。制御部21は、日本語のテキストデータについて、データ記憶部13から読み出し、意味内容DB121を参照しその意味内容を解釈し、解釈結果をデータ記憶部13へ記憶する(ステップS104)。ここで、解釈結果は、音節だけであってもよいし、音節群の結果としてもよい。また、各音節及び音節群のそれぞれについての結果であってもよい。制御部21は、解釈結果を通信部14から利用者端末へ出力する(ステップS105)。表示部25は、受信した解釈結果を利用者端末の画面に表示させる(ステップS106)。
【0036】
図5は、一実施形態に係るサーバ1による解釈結果の画面表示の一例を示す図である。
例えば、「山」を検索した場合、解釈結果として、音節「ya」に対応する「三角, 三角形, 円錐, 尖端形状」、音節「ma」に対応する「地, 大地, 地面, 鉱物, 地球」、および、それらを組みあせた音節群である「ya-ma」に対応する「円錐形の地」を利用者端末の画面上に表示させる。なお、解釈結果は、これらいずれかであってもよい。
【0037】
表1は、意味内容DB121が記憶する音節及び音節群とその意味内容の対応表の一例である。ここでは、[a]、[i]、[u]、[e]、[o]の母音単独からなる音節、及び、[k]、[s]、[t]、[n]、[h]、[f]、[m]、[y]、[l]、[w]、[g]、[z]、[d]、[b]、[sh]、[j]、[p]の内の1個の子音に続き[a]、[i]、[u]、[e]、[o]の母音の内1個が組み合わされた音節からなる音節群に対して、各々の音節に対応した自然言語としての意味内容が記憶される。
なお、対応表で記載される音節の発音は、歴史的な変遷や方言、表記法の違いによる混乱等を避けるために、通常日本語で発声される発音をローマ字表記で記載してある。また、意味内容の日本語による表記に対応する英語による表記を並記してもよい。
【表1】
【表2】
【表3】
【表4】
【表5】
【0038】
以上により、本実施形態によれば、インターネット上のWeb辞書サイトにおいて利用者が調べたい日本語の音節が有する自然言語としての意味内容を検索し出力する技術を提供することができる。例えば、音節ごとの意味内容とそれらを組み合わせた音節群の意味内容を出力することができる。
【0039】
[他の実施形態]
(構成例)
図6は、他の実施形態に係る情報処理システム200の全体構成及びハードウェアの構成を示す図である。
情報処理システム200は、日本語の音節及び音節群が有する各々の自然言語としての意味内容を付与するシステムである。
本実施形態に係る情報処理システム200は、日本語の音節及び音節群が有する各々の自然言語としての意味内容を付与する辞書プログラムがアプリケーションサーバから、スマートフォン等の利用者端末へ配信される場合であって、利用者による検索及び検索結果の表示を利用者端末で行う場合である。
【0040】
情報処理システム200は、サーバ1、利用者端末2を備える。サーバ1、利用者端末2は、ネットワークNW3を介して互いに通信自在に接続する。ネットワークNWは、インターネット、及びLAN(Local Area Network)等のうちの1以上のネットワークで構成される。典型的には、LANは、無線LANであるが、有線LANであってもよい。
【0041】
サーバ1は、日本語の語句や単語の構成要素である音節及び音節群が有する自然言語としての意味内容を表す辞書プログラムの配信処理を行う電子機器である。電子機器は、コンピュータの一例である。サーバ1は、情報を処理する情報処理装置の一例である。サーバ1は、利用者端末2からの要求に応じて、ネットワークNWを介して利用者端末2へ辞書プログラムを配信する。
【0042】
利用者端末2は、利用者が使用する端末である。利用者端末2は、日本語の音節及びこれらを組み合わせた音節群が有する自然言語としての意味内容を辞書プログラム(アプリケーション)として記憶し、利用者端末2へ解釈結果を表示する機能を備える電子機器である。例えば、利用者端末2は、タブレット端末、スマートフォン、又はPC(Personal Computer)等であるが、これらに限定されない。利用者端末2の構成例については後述する。
【0043】
利用者端末2のハードウェアの構成例について説明する。
利用者端末2は、制御部21、プログラム記憶部22、データ記憶部23、入力部24、表示部25、音声出力部26、及び通信部27を備える。利用者端末2を構成する各要素は、バスを介して、互いに接続されている。
【0044】
制御部21は、利用者端末2の中枢部分に相当する。制御部21は、CPU等のプロセッサを備える。制御部21は、不揮発性のメモリ領域としてROMを備える。制御部21は、揮発性のメモリ領域としてRAMを備える。プロセッサは、ROM、又はプログラム記憶部22に記憶されているプログラムをRAMに展開する。プロセッサがRAMに展開されるプログラムを実行することで、制御部21は、各種動作を実現する。
【0045】
プログラム記憶部22は、記憶媒体としてフラッシュメモリ、HDD、又はSSD等の随時書込み及び読出しが可能な不揮発性メモリで構成される。プログラム記憶部22は、各種制御処理を実行するために必要なプログラムを記憶する。例えば、プログラム記憶部22は、Webブラウザを動作させるWebブラウザプログラムを記憶する。プログラム記憶部22は、ストレージの一例である。
【0046】
データ記憶部23は、記憶媒体としてフラッシュメモリ、HDD、又はSSD等の随時書込み及び読出しが可能な不揮発性メモリで構成される。データ記憶部23は、ストレージの一例である。データ記憶部23は、利用者が入力した日本語のテキストデータを記憶する。また、解釈部による解釈結果のデータを記憶する。
【0047】
入力部24は、利用者端末2へデータ、又は指示を入力可能なデバイスである。例えば、入力部24は、タッチ操作による入力を可能にするキーボード、又はタッチパネル等を含む。入力部24は、音声入力を可能にするマイクを含む。入力部24は、映像の取り込み可能にするカメラを含む。利用者は、意味内容を調べたい日本語を入力部24により入力する。
【0048】
表示部25は、画像データに基づく画像を表示可能なデバイスである。例えば、表示部25は、液晶ディスプレイ、又はEL(Electroluminescence)ディスプレイ等である。表示部25は、サーバから出力された解釈結果を表示する。
【0049】
音声出力部26は、音声データに基づく音声を出力可能なデバイスである。例えば、音声出力部26は、スピーカである。サーバから出力された解釈結果を音声データとしてスピーカから出力してもよい。
【0050】
通信部27は、ネットワークNWにより定義される通信プロトコルを使用して、利用者端末2を他の電子機器と通信可能に接続する種々のインタフェースを含む。通信部27は、利用者が入力した日本語のテキストデータをサーバに対して送信する。また、サーバが出力する解釈結果のデータを受信する。
【0051】
図7は、一実施形態に係る利用者端末のソフトウェア構成の一例を示すブロック図である。
制御部220が、情報処理プログラムを実行することにより、プログラム記憶部221、データ記憶部223、取得部224、判別部225、解釈部226、及び出力部227の各部の機能が実現される。
【0052】
プログラム記憶部22は、プログラム記憶部22は、日本語の音節及びこれらを組み合わせた音節群が有する自然言語としての意味内容を表す対応表を記憶する意味内容DB222を含む。
【0053】
意味内容DB222は、日本語の音節及びこれらを組み合わせた音節群とそれらの意味内容を表す対応表を記憶する。対応表は、サーバ1から、ネットワークNWを介して利用者端末へ送信される辞書プログラムに含まれる。
【0054】
データ記憶部223は、利用者により入力された日本語及び解釈部による解釈結果を記憶する。
【0055】
入力部24は、利用者が意味内容を調べたい日本語を受け付ける。テキストデータであってもよいし、音声データを入力し、既存技術を利用してテキストデータへ変換してもよい。
【0056】
判別部225は、取得した日本語のテキストから音節及びこれらを組み合わせた音節群を判別する。例えば、「浜(はま)」の場合、音節としては、「ha」及び「ma」であり、音節群としては [ha-ma]となる。
【0057】
解釈部226は、判別された音節及び音節群について、前記意味内容DB222の対応表を参照して意味内容を解釈する。
【0058】
出力部227、解釈部226により解釈された結果を出力する。例えば、「浜(はま)」の場合、「ha」は「端」、「ma」は、「地」であり、音節群 [ha-ma]としては、「端の地」として出力する。
【0059】
(動作例)
次に、以上のように構成されたサーバ1の動作例を説明する。
図8は、一実施形態に係る情報処理システムによる情報処理の一例を示すフローチャートである。
例えば、日本語の音節及び音節群が有する各々の自然言語としての意味内容を付与する辞書プログラムがアプリケーションサーバから、スマートフォン等の利用者端末へ配信される場合であって、利用者による検索及び検索結果の表示を利用者端末で行う際に、本実施形態の情報処理システムを適用する。
【0060】
制御部220は、辞書プログラムをアプリケーションサーバから受信する(ステップS101)。
入力部は、利用者が意味内容を調べたい日本語のテキストデータの入力を受け付ける(ステップS102)。ここで、意味内容を調べたい日本語のテキストデータの入力は、漢字、平仮名、片仮名、ローマ字のいずれであってもよい。
【0061】
データ記憶部223は、受け付けたテキストデータを記憶する(ステップS103)。制御部220は、日本語のテキストデータについて、データ記憶部223から読み出し、意味内容DB222を参照しその意味内容を解釈し、解釈結果をデータ記憶部223へ記憶する(ステップS104)。ここで、解釈結果は、音節だけであってもよいし、音節群の結果としてもよい。また、各音節及び音節群のそれぞれについての結果であってもよい。表示部25は、受信した解釈結果を利用者端末の画面に表示させる(ステップS105)。
【0062】
以上により、本実施形態によれば、スマートフォン等の利用者端末にインストールされた辞書アプリケーションにおいて、利用者が調べたい日本語の音節が有する自然言語としての意味内容を検索し表示する技術を提供することができる。例えば、音節ごとの意味内容とそれらを組み合わせた音節群の意味内容を利用者に提示することができる。
【0063】
(その他の補足事項)
本発明の対応表について、下記にその他の補足事項及び利点を挙げる。
【0064】
本発明の対応表では、音節[ma]を有する語句に共通した特徴として、地学的な意味内容を内包する。例えば、「浜(はま) [ha-ma]」、「山(やま) [ya-ma]」、「沼(ぬま) [nu-ma]」、火山の「浅間(あさま) [a-sa-ma]」である。
また、音節[ya]を有する語句に共通した特徴として、三角形・三角錐あるいは尖端を持つ幾何学的な形状を内包する。例えば、「山(やま) [ya-ma]」、「矢(や) [ya]」、「屋(や) [ya]」、「谷戸(やと) [ya-to]」である。
ここで、「山(やま) [ya-ma]」という語句が音節[ya]と[ma]を連結することで「円錐形の地」という合理的な意味内容を表現した単語であると解する。
【0065】
また、音節[ha]、[nu]、[a]、[sa]、[to]の各々が「末端、終わり」、「ぬかるみ、粘性」、「熱感」、「上昇、差し出し」、「平坦な地」の意味を含むと解する。その結果、[ha-ma]は「端の地」、[nu-ma]は「ぬかるんだ地」、[a-sa-ma]は「熱いものが立ち昇る地」、[ya-to]は「平坦な三角州」という意味内容を表現した語であると解釈する。
【0066】
また、古代より装飾品に利用されてきた翡翠や碧玉などを表す「玉(たま) [ta-ma]」、火山の噴火口クレーターを表す「御釜(おかま) [o-ka-ma]」、巷や大きな通りを表す「街(まち) [ma-chi]」といった、音節[ma]を含む語に対しても当該音節に「地学的なもの」を適用できることを確認した。これらの語の意味内容はそれぞれ「掲げる鉱物」すなわち、「日の光に掲げて透過する色を観て、ヒスイなどで有ることを確認する動作を行うような鉱物」、「大きな苦難の地」、「地面にある通り道」であることが示される。
【0067】
また、民間伝承、伝説、あるいは俗説の類にも適用ができる。例えば、ダイダラボッチの伝説は、現在の東京都世田谷区代田(だいた)や埼玉県さいたま市南区及び緑区太田窪(だいたくぼ)などに残っており、かつて巨人ダイタが残した足跡が窪地になって、その地名に名残を残していると言われている。ここで、残存している地名「ダイタ」と促音便が無い発声「ボチ」が正確な発声と考え「ダイタラボチ」[da-i-ta-la-bo-chi]を、本発明の辞書で翻訳すると、[da]、[i]、[ta]、[la]、[bo]、[chi]はそれぞれ「渦巻き」、「出現・発生」、「持ち上げ」、「空間」、「かき乱し」、「通り道, 通路, 経路, 軌道, 轍」の意であるので、この語が「竜巻が生じ、かき乱された軌跡」を意味することが示される。すなわち、巨人の足跡というような伝説ではなく、過去に生じた物理現象・気象現象・災害を正確に表現した語であることが理解可能となる。
【0068】
また、日本国内では民話や民俗的伝承にしばしば登場する「鬼(おに) [o-ni]」は、実在しない想像上のものとして認識されている。しかし、本発明による辞書を用いることで、大きなものや大きなことを表現する音節[o]と貝類・節足動物などの殻を有するものを表現する音節[ni]の連結に依って成る単語として、その本来の意味内容を理解することができる。[o-ni]の名称は、空想上のものではなく、有史以前の遺跡から多数発掘される例えばスイジガイのような成長に従って殻にツノを有するようになる「大型の貝類」を指すことが推察できるようになる。
【0069】
また、現代社会の通常の生活でも用いられる、「紅(ベニ)[be-ni]」は色としての赤や化粧品の口紅として認識されている。この語[be-ni]を本発明の辞書を用いて翻訳すると、[be]および[ni]はそれぞれ「すりつぶし, 挽き, 押しつぶし」および「貝類, 甲殻類, 節足動物」を意味することが解る。したがって本発明によって、[be-ni]は「押しつぶした殻を持つ生物」の意味であり、現代でも産業的に利用されているラカイガラムシを押し潰して得られる赤色のコチニール色素に対応することが理解できるようになる。
【0070】
また、自然現象においても、その現象を表す語の起源が不明確であったり、伝承や俗説の類が諸説存在し語源が不明なものが多くある。例えば、「稲妻(いなずま)[i-na-zu-ma]」は、その語感からか稲と妻の当て字が多くの場合に用いられているために、稲作と関連づけられた諸説がある。しかし、本発明の辞書を用いると、[i]、[na]、[zu]、[ma]はそれぞれ「出現, 発現, 発生」、「音を出す, 鳴る」、「ぶら下がり, 垂下(状態)」、「地, 大地, 地面」である。したがって、本発明によって、語としての[i-na-zu-ma]は、「雷鳴および地上への放電」を意味し、落雷による雷鳴と電光を発生する自然現象の様子を記述した語であることがわかるようになる。
【0071】
また、人体の部位の呼称や、人体に生じる生理現象や生体の反応についても、例えば「お腹(おなか) [o-na-ka]」、これに似た音声の発生を伴う語である「屁(おなら) [o-na-la]」、それぞれは本発明で得られた辞書に従って「大きい」、「音を出す, 鳴る」、「空気, 大気, 気体, 空間」、「難儀, 辛苦, 困苦, 辛さ, 不快」という意味内容を表す[o]、[na]、[la]、[ka]という音節で構成されることがわかる。したがって、[o-na-ka]は、「大きな音がなるときに不快感(例えば空腹感)や苦痛(例えば腹痛や飢餓感)を覚えるもの」、[o-na-la]は「大きな音を発する気体」という意味であると解することができる。
【0072】
[su-mi]という単語は、現在では「炭」や「墨」、「角」や「隅」あるいは「住み」や「済み」の様に同音異義語と認識されている。しかし、本発明による音節の辞書を用いることで、[su]は「消失, 不可視, 透明」を表し、[mi]は「見ること」を表す。したがって[su-mi]は「見えなくなること」や「見えないこと」を表現した語であることがわかる。類似した語の「煤(すす) [su-su]」が[su]を強調していることも考慮すると、「炭」や「墨」は黒く塗りつぶして下の物を視認できなくすることを、「角」や「隅」は人物などが通過した後には視認できなくなることを表現し、「住み」は住居に入ることで住人は見えなくなることを示し、「済み」は物事が済むと始めの状態は見えなくなることを示すことがわかる。つまり、日本語のプロト言語としての各音節の意味を用いることで、これらの語が同一の語源から生じていることが明確にわかるようになる。本発明によって、いずれの語も語源は同一の同義語であったことが示される。
【0073】
また、「鏡」と「屈み」も[ka-ga-mi]という同じ発声を伴う同音異義語と認識されている。しかし、本発明による音節の辞書を用いることで、「辛さ、不快感」を表す音節[ka]と「前かがみになること」を表す[ga]、に「見る」を表す音節[mi]が連なって構成されているこの語が「辛いほど前屈して見る」ことを意味する、すなわち、いわゆる「水鏡」を表現していることが理解される。「見る」と「水、液体」がともに音節[mi]を用いて表現されている起源も同時に示される。
【0074】
また、植物の「栗(くり)[ku-li]」は、近年の考古学的な調査で、縄文時代に既に栽培種が人為的に植えられ、その実は当時の日本人の主要な食料の一つであったことが示されている。この語を構成する[ku]と[li]はそれぞれ「食物、食べること」と「蓄積、積み上げ」であることが、本発明による辞書で示される。すなわち、[ku-li]は植物そのものの固有名称ではなく「貯蔵食料」を意味することがわかる。同時に厨房・台所を表す[ku-li-ya]は、[ku-li]に建物を表す[ya]が付加された語であるので、「食料貯蔵庫」に対応する語であることもわかる。
【0075】
また、日本語では、擬態語・擬音語・擬声語の類の「アッと驚く」「カッと怒る」、「ハッと驚く」、「スッと消える」、「サッと出す」、「ズッと続ける」「マァ悪くない出来」、「モッと頑張る」等が日常生活でも多用される。本発明により、これらの例は、熱感を意味する[a]、辛苦や不快感を意味する[ka]、終末や最期を意味する[ha]、消失や不可視化を意味する[su]、差し出すことや差し渡すことを意味する[sa]、垂下状態を意味する[zu]、地と意味する[ma]、地下を意味する[mo]を語源とすることが示される。[ma]と[mo]の用法では、地面と地下の物理的な上下関係を、物事の良し悪しや評価の上下関係に投影した表現であることがわかる。個々の音節で語句を構成する用法とは異なり、単独で擬態語の類、いわゆるオノマトペイアとして用いられている表現であることが本発明によって示される。本発明によって、従来は曖昧で任意性を伴うと考えられていたオノマトペイアに明確で矛盾のない言語的な意味の解釈を与えることができる。
【0076】
また、複数の音節が組み合わされて用いられる擬態語類の例としては、眩暈を感じた状態に用いられる「クラクラする」の表現[ku-la-ku-la]が「空気を食う」すなわち「喘ぐ」状態を描写していることが、本発明によって理解できるようになる。憤怒を抱いた状態に用いる「ムカムカする」の表現[mu-ka-mu-ka]や、強い情感を抱いた状態に対して用いる「ムラムラする」の表現[mu-la-mu-la]さらに、焦燥や苛立ちを抱いた状態に用いる「イライラする」の表現[i-la-i-la]は、拍動を意味する[mu]や発現を意味する[i]に不快感を意味する[ka]や空気を意味する[la]を組み合わされた表現で、それぞれ「ムカムカ」は「拍動と不快感」、「ムラムラ」は「拍動と吐息」、「イライラ」は「吐息」を発する身体の様子を具体的に表現したものであることがわかる。物を細かく切る場合に用いる「ズタズタに裂く」という表現も、「ぶら下がった状態」の意味を持つ[zu]に「掲げる、持ち上げる」の意味を有する[ta]を組み合わせて、シート状のものを両手で持ち上下に引き裂く動作そのものを描写していることが理解できるようになる。
【0077】
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【符号の説明】
【0078】
1…サーバ
2…利用者端末
3…NW
10…本情報処理装置
11…制御部
12…プログラム記憶部
13…データ記憶部
14…通信部
21…制御部
22…プログラム記憶部
23…データ記憶部
24…入力部
25…表示部
26…音声出力部
27…通信部
100…情報処理システム
111…プログラム記憶部
112…取得部
113…判別部
114…解釈部
115…出力部
121…意味内容記憶部
131…DB
200…情報処理システム
220…制御部
221…プログラム記憶部
222…DB
223…データ記憶部
224…取得部
225…判別部
226…解釈部
227…出力部