IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ShareFairの特許一覧

特開2023-51296情報処理装置、情報処理方法、および情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図6
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図7
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図8
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図9
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図10
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図11
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図12
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図13
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図14
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図15
  • 特開-情報処理装置、情報処理方法、および情報処理プログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023051296
(43)【公開日】2023-04-11
(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20230404BHJP
   G06F 40/279 20200101ALI20230404BHJP
【FI】
G06F16/35
G06F40/279
【審査請求】有
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021161872
(22)【出願日】2021-09-30
(11)【特許番号】
(45)【特許公報発行日】2022-04-05
(71)【出願人】
【識別番号】519229024
【氏名又は名称】株式会社ShareFair
(74)【代理人】
【識別番号】100185719
【弁理士】
【氏名又は名称】北原 悠樹
(74)【代理人】
【識別番号】100170748
【弁理士】
【氏名又は名称】稲垣 悟
(74)【代理人】
【識別番号】100150072
【弁理士】
【氏名又は名称】藤原 賢司
(72)【発明者】
【氏名】岡崎 良
(72)【発明者】
【氏名】小林 潤平
(72)【発明者】
【氏名】鎌田 吉英
(72)【発明者】
【氏名】中澤 敏明
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091AA15
5B091CA01
5B175DA01
5B175FA03
(57)【要約】
【課題】複数の文書データに含まれている各文を関連する内容ごとに分類することで文書データの分析を支援するための技術を提供する。
【解決手段】情報処理装置は、複数の文書データを取得するための取得部と、複数の文書データに含まれている文字列を文単位に分割するための分割部と、第1分類アルゴリズムに従って、文単位に分割された複数の文の全部または一部の各文に、第1分類群の内のいずれかの第1分類を付与するための分類付与部と、第1分類が付与された各文を第1分類の種別に並び替えるための並び替え部と、並び替え部によって並び替えられた各文を出力するための出力部とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
情報処理装置であって、
複数の文書データを取得するための取得部と、
前記複数の文書データに含まれている文字列を文単位に分割するための分割部と、
第1分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、第1分類群の内のいずれかの第1分類を付与するための分類付与部と、
前記第1分類が付与された各文を前記第1分類の種別に並び替えるための並び替え部と、
前記並び替え部によって並び替えられた各文を出力するための出力部とを備える、情報処理装置。
【請求項2】
前記分類付与部は、さらに、第2分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、第2分類群の内のいずれかの第2分類を付与し、
前記第2分類群が属するカテゴリーは、前記第1分類群が属するカテゴリーとは異なり、
前記並び替え部は、さらに、同種の第1分類が付与されている文の集合ごとに、前記第2分類が付与された各文を、前記第2分類の種別に並び替える、請求項1に記載の情報処理装置。
【請求項3】
前記出力部は、前記並び替え部による並び替え前における文の並び順が連続している文群であり、かつ、同種の第1分類が付与されている文群については、当該文群を統合して出力する、請求項1または2に記載の情報処理装置。
【請求項4】
前記並び替え部は、前記第1分類の付与数を前記第1分類の種別にカウントし、前記第1分類が付与された各文を前記付与数が多い順に並び替える、請求項1~3のいずれか1項に記載の情報処理装置。
【請求項5】
前記第1分類群は、組織に関する分類を含む、請求項1~4のいずれか1項に記載の情報処理装置。
【請求項6】
コンピュータによって実行される情報処理方法であって、
複数の文書データを取得するステップと、
前記複数の文書データに含まれている文字列を文単位に分割するステップと、
第1分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、第1分類群の内のいずれかの分類を付与するステップと、
前記第1分類が付与された各文を前記第1分類の種別に並び替えるステップと、
前記並び替えるステップで並び替えられた各文を出力するステップとを実行させる、情報処理方法。
【請求項7】
コンピュータによって実行される情報処理プログラムであって、
前記情報処理プログラムは、前記コンピュータに、
複数の文書データを取得するステップと、
前記複数の文書データに含まれている文字列を文単位に分割するステップと、
第1分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、第1分類群の内のいずれかの分類を付与するステップと、
前記第1分類が付与された各文を前記第1分類の種別に並び替えるステップと、
前記並び替えるステップで並び替えられた各文を出力するステップとを実行させる、情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
特開2019-200488号公報(特許文献1)は、「所定の文法機能分類を構成素に対して特定する」自然言語処理装置を開示している。当該自然言語処理装置は、文書データに含まれている各文に対して文法機能分類を付与している。当該文法機能分類の種類としては、主語や目的語などが挙げられている。当該自然言語処理装置は、検索キーワードの入力だけでなく、当該検索キーワードの文法機能分類の入力をユーザから受け付ける。これにより、当該自然言語処理装置は、例文の検索結果の精度を高める。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-200488号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、主に経営コンサルタントや企業の企画部門の担当者は、世の中に存在する膨大な文書データの中から目的に合った情報を収集し、収集した情報を分析する。世の中に存在する文書データの数は膨大であるため、必要な情報を分析するために多大な時間が必要となる。このとき、文書データに含まれている各文が関連する内容ごとに纏められていると、情報分析の負担が軽減される。したがって、複数の文書データに含まれている各文を関連する内容ごとに分類することで文書データの分析を支援するための技術が望まれている。なお、特許文献1は、当該技術に関するものではない。
【課題を解決するための手段】
【0005】
本開示の一例では、情報処理装置は、複数の文書データを取得するための取得部と、上記複数の文書データに含まれている文字列を文単位に分割するための分割部と、第1分類アルゴリズムに従って、上記文単位に分割された複数の文の全部または一部の各文に、第1分類群の内のいずれかの第1分類を付与するための分類付与部と、上記第1分類が付与された各文を上記第1分類の種別に並び替えるための並び替え部と、上記並び替え部によって並び替えられた各文を出力するための出力部とを備える。
【0006】
本開示の一例では、上記分類付与部は、さらに、第2分類アルゴリズムに従って、上記文単位に分割された複数の文の全部または一部の各文に、第2分類群の内のいずれかの第2分類を付与する。上記第2分類群が属するカテゴリーは、上記第1分類群が属するカテゴリーとは異なる。上記並び替え部は、さらに、同種の第1分類が付与されている文の集合ごとに、上記第2分類が付与された各文を、上記第2分類の種別に並び替える。
【0007】
本開示の一例では、上記出力部は、上記並び替え部による並び替え前における文の並び順が連続している文群であり、かつ、同種の第1分類が付与されている文群については、当該文群を統合して出力する。
【0008】
本開示の一例では、上記並び替え部は、上記第1分類の付与数を上記第1分類の種別にカウントし、上記第1分類が付与された各文を上記付与数が多い順に並び替える。
【0009】
本開示の一例では、上記第1分類群は、組織に関する分類を含む。
【0010】
本開示の他の例では、コンピュータによって実行される情報処理方法が提供される。上記情報処理方法は、複数の文書データを取得するステップと、上記複数の文書データに含まれている文字列を文単位に分割するステップと、第1分類アルゴリズムに従って、上記文単位に分割された複数の文の全部または一部の各文に、第1分類群の内のいずれかの第1分類を付与するステップと、上記第1分類が付与された各文を上記第1分類の種別に並び替えるステップと、上記並び替えるステップで並び替えられた各文を出力するステップとを実行させる。
【0011】
本開示の他の例では、コンピュータによって実行される情報処理プログラムが提供される。上記情報処理プログラムは、上記コンピュータに、複数の文書データを取得するステップと、上記複数の文書データに含まれている文字列を文単位に分割するステップと、第1分類アルゴリズムに従って、上記文単位に分割された複数の文の全部または一部の各文に、第1分類群の内のいずれかの第1分類を付与するステップと、上記第1分類が付与された各文を上記第1分類の種別に並び替えるステップと、上記並び替えるステップで並び替えられた各文を出力するステップとを実行させる。
【0012】
本発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解される本発明に関する次の詳細な説明から明らかとなるであろう。
【図面の簡単な説明】
【0013】
図1】情報処理システムの装置構成の一例を示す図である。
図2】情報処理装置の機能構成の一例を示す図である。
図3】取得部の機能を説明するための図である。
図4】分割部の機能を概略的に示す図である。
図5】企業分類付与部の機能を概略的に示す図である。
図6】商品分類付与部の機能を概略的に示す図である。
図7】並び替え部の機能を概略的に示す図である。
図8】分類の付与数のカウント結果を示す図である
図9】出力部の機能を概略的に示す図である。
図10】情報処理装置のハードウェア構成の一例を示す模式図である。
図11】ユーザ端末のハードウェア構成の一例を示す模式図である。
図12】情報処理装置が実行する処理の一部を表わすフローチャートである。
図13】変形例に従う情報処理装置の機能構成の一例を示す図である。
図14】変形例に従う入力画面を示す図である。
図15】一例としての目的選択画面を示す図である。
図16】一例としての領域選択画面を示す図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しつつ、本発明に従う各実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態および各変形例は、適宜選択的に組み合わされてもよい。
【0015】
<A.情報処理システム10>
まず、図1を参照して、情報処理システム10について説明する。図1は、情報処理システム10の装置構成の一例を示す図である。
【0016】
図1に示されるように、情報処理システム10は、情報処理装置100と、ユーザ端末200とを含む。
【0017】
情報処理装置100は、たとえば、ノート型のPC(Personal Computer)、デスクトップ型のPC、タブレット端末、スマートフォン、または、その他の通信端末である。情報処理システム10を構成する情報処理装置100の数は、1つであってもよいし、2つ以上であってもよい。
【0018】
ユーザ端末200は、たとえば、ノート型のPC、デスクトップ型のPC、タブレット端末、スマートフォン、または、その他の通信端末である。情報処理システム10を構成するユーザ端末200の数は、1つであってもよいし、2つ以上であってもよい。ユーザ端末200は、情報処理装置100と通信可能に構成される。
【0019】
<B.分類処理の概要>
次に、引き続き図1を参照して、情報処理装置100による文の分類機能について説明する。
【0020】
情報処理装置100は、膨大な文書データDに含まれている各文に対して自動で分類を付与する。文書データDは、文字列を含む任意の種類のファイルである。文書データDの一例としては、Wordファイル、Excelファイル、PPTファイル、PDFファイル、テキストファイル、HTML(Hyper Text Markup Language)ファイル、XML(Extensible Markup Language)ファイルなどが挙げられる。また、文書データDは、日本語で記載された文書であってもよいし、英語で記載された文書であってもよいし、その他の言語で記載された文書であってもよい。
【0021】
膨大な文書データDに含まれている各文に対して分類が自動で付与されることで、膨大な文が構造化される。これにより、ユーザは、文書データDに含まれている各文を、内容が関連する記載ごとに分析することができる。
【0022】
より具体的な処理として、ステップS1において、ユーザは、分析対象の文書データDをユーザ端末200において準備する。その後、ユーザは、文書データDをユーザ端末200から情報処理装置100にアップロードする。アップロードされる文書データDは、同一種類のファイルであってもよいし、異なる種類のファイルであってもよい。
【0023】
ステップS2において、情報処理装置100は、ユーザ端末200から文書データDを受信したことに基づいて、文書データDに含まれている文字列を文単位に分割する。本明細書でいう「文単位」は、1文に限定されず、複数文であってもよい。すなわち、情報処理装置100は、文書データDに含まれている文字列を必ずしも1文ごとに分割する必要はなく、2文以上の複数文ごとに分割してもよい。
【0024】
ステップS3において、情報処理装置100は、予め定められた分類アルゴリズムに従って、ステップS2で文単位に分割された各文に、予め定められた分類群の内のいずれかの分類を付与する。当該分類群は、設計者によって予め定義されていてもよいし、ユーザによって任意に設定されてもよい。上記分類アルゴリズムには、種々のアルゴリズムが採用され得る。分類の付与方法の詳細については後述する。
【0025】
なお、分類は、ステップS2で文単位に分割された全部の文に付与される必要はない。分類は、ステップS2で文単位に分割された少なくとも一部の文に付与されればよい。また、1つの文に対して1つの分類が付与されてもよいし、1つの文に対して複数の分類が付与されてもよい。
【0026】
ステップS4において、情報処理装置100は、ステップS3で分類が付与された各文を当該分類の種別に並び替える。これにより、情報処理装置100は、文書データDに記載されている各文を同種の分類ごとに纏める。
【0027】
ステップS5において、情報処理装置100は、ステップS2~S4での処理結果を出力結果130として出力する。出力結果130に示されるように、文書データDに記載されている各文は、同種の分類ごとに並べられている。情報処理装置100は、出力結果130をユーザ端末200に送信する。
【0028】
ユーザ端末200は、情報処理装置100から受信した出力結果130を表示する。これにより、ユーザは、文書データDに含まれている各文を、内容が関連する記載ごとに分析することができる。結果として、情報処理装置100は、ユーザによる文書データDの情報分析を支援することができる。
【0029】
<C.情報処理装置100の機能構成>
次に、図2図9を参照して、情報処理装置100の機能構成について説明する。図2は、情報処理装置100の機能構成の一例を示す図である。
【0030】
図2に示されるように、情報処理装置100は、ハードウェア構成として、制御装置101と、記憶装置120とを含む。制御装置101は、機能構成として、取得部52と、分割部54と、分類付与部56と、並び替え部58と、出力部60とを含む。記憶装置120には、たとえば、辞書データ124と、設定データ126とが格納されている。
【0031】
以下では、取得部52、分割部54、分類付与部56、並び替え部58、出力部60の機能構成について順に説明する。
【0032】
(C1.取得部52)
まず、図3を参照して、図2に示される取得部52の機能について説明する。図3は、取得部52の機能を説明するための図である。
【0033】
取得部52は、分類付与対象の文書データDを取得するための機能モジュールである。文書データDの取得先は任意である。一例として、取得部52は、外部装置(たとえば、上述のユーザ端末200)から文書データDを取得してもよいし、記憶装置120内から文書データDを取得してもよい。
【0034】
以下では、ユーザ端末200から文書データDを取得する前提で説明を行なう。文書データDは、たとえば、図3に示される入力画面230においてアップロードされる。入力画面230は、たとえば、ユーザ端末200のディスプレイに表示される。
【0035】
図3に示されるように、入力画面230は、タイトルの入力領域231と、文書データDの受付領域233Aと、選択ボタン233Bと、作成ボタン234とを含む。
【0036】
入力領域231は、文字列の入力を受け付ける。入力領域231に入力された文字列は、上述の出力結果130のタイトルとしてみなされる。
【0037】
受付領域233Aは、文書データDの入力を受け付けることが可能な領域である。ユーザは、文書データDを受付領域233Aにドラッグ&ドロップすることによって、アップロード対象の文書データDを指定することができる。このとき、文書データDは1つずつドラッグ&ドロップされてもよい。複数の文書データDが同時にドラッグ&ドロップされてもよい。なお、アップロード対象の文書データDは、ユーザ端末200内に保存されていてもよいし、クラウド上に保存されていてもよい。
【0038】
選択ボタン233Bは、ファイルを直接指定するためのボタンである。ユーザが選択ボタン233Bを押したことに基づいて、ファイルの選択画面が入力画面230上に表示される。ユーザは、表示された選択画面において任意の文書データDを指定することができる。
【0039】
作成ボタン234は、アップロード対象として指定された文書データDを情報処理装置100に送信するためのボタンである。ユーザが作成ボタン234を押したことに基づいて、ユーザ端末200は、アップロード対象の文書データDを情報処理装置100に送信する。これにより、情報処理装置100の取得部52は、ユーザ端末200から文書データDを取得する。
【0040】
(C2.分割部54)
次に、図4を参照して、図2に示される分割部54の機能について説明する。図4は、分割部54の機能を概略的に示す図である。
【0041】
分割部54は、取得部52によって取得された文書データDに含まれている文字列を文単位に分割するための機能モジュールである。当該文単位は、1文であってもよいし、2文以上であってもよい。
【0042】
一例として、分割部54は、文書データD内で予め定められたキーワード(たとえば、句点、ピリオド)を検索し、当該キーワードの文字位置で文書データDに含まれている文字列を分割する。図4には、その分割結果の一例として、分割結果70が示されている。
【0043】
分割結果70は、分割後の各文について、文ID(Identification)と、文書IDと、文の開始位置と、文の終了位置とを関連付けている。
【0044】
分割結果70に規定されている文IDは、分割後の各文を一意に特定するための情報である。文IDは、番号で示されてもよいし、文名で示されてもよい。一例として、分割部54は、文書データDに含まれている文の並び順に従って、連番の文IDを各文に割り振る。これにより、元々の文の並び順が文IDから特定され得る。
【0045】
分割結果70に規定されている文書IDは、文書データDを一意に特定するための情報である。文書IDは、番号で示されてもよいし、ファイル名などの文書名で示されてもよいし、ファイルパスで示されてもよい。
【0046】
分割結果70に規定されている開始位置は、文書データDに含まれている各文の開始位置を特定するための情報である。当該開始位置は、たとえば、文書データD内における各文の1文字目の位置を示す。
【0047】
分割結果70に規定されている終了位置は、文書データDに含まれている各文の終了位置を特定するための情報である。当該終了位置は、たとえば、文書データD内における各文の最終文字(たとえば、句点)の位置を示す。あるいは、当該終了位置は、各文の開始位置からの文字数で示されてもよい。
【0048】
(C3.分類付与部56)
次に、図5および図6を参照して、図2に示される分類付与部56の機能について説明する。
【0049】
分類付与部56は、分割部54による分割後の各文に対して様々な観点の分類を付与する。各観点は、たとえば、カテゴリーによって定義される。1つのカテゴリーには、当該カテゴリーの下位概念である分類群が予め対応付けられている。
【0050】
カテゴリーの一例として、組織に関する分類が挙げられる。組織に関する分類には、下位概念である種々の分類群が予め対応付けられている。一例として、当該分類群は、企業名、会社名、組織名、および団体名を含む。なお、以下では、組織に関する分類として「企業分類」を例に挙げて説明を行うが、組織に関する分類は、企業分類に限定されない。
【0051】
カテゴリーの他の例として、商品分類が挙げられる。当該商品分類には、下位概念である種々の分類群が予め対応付けられている。当該分類群は、企業が提供する商品やサービスに関する分類を含む。一例として、当該分類群は、商品名、サービス名、領域名などを含む。
【0052】
上記企業分類は、たとえば、図2に示される企業分類付与部56Aによって付与される。また、上記商品分類は、図2に示される商品分類付与部56Bによって付与される。以下では、企業分類付与部56Aおよび商品分類付与部56Bの機能について順に説明する。
【0053】
(a)企業分類付与部56A
まず、図5を参照して、図2に示される企業分類付与部56Aの機能について説明する。図5は、企業分類付与部56Aの機能を概略的に示す図である。
【0054】
企業分類付与部56Aは、予め定められた分類アルゴリズムに従って、分割部54によって文単位に分割された各文に対して、「企業分類」に属する分類群の内のいずれかの分類を付与する。企業分類は、各文がどの企業に関する記載であるのかを示す。
【0055】
図5に示されるように、企業分類付与部56Aは、文書データDと、分割結果70と、辞書データ124Aとの入力を受けて、分類結果71Aを出力する。
【0056】
企業分類を付与するための分類アルゴリズムには、種々のアルゴリズムが採用され得る。以下では、企業分類を付与するための分類アルゴリズムの一例について説明する。
【0057】
企業分類付与部56Aは、分割部54による分割後の各文を、形態素解析や構文解析を行うための学習済みモデルに入力する。その後、企業分類付与部56Aは、各解析結果に基づいて、各文の企業分類を特定する。なお、企業分類付与部56Aは、共参照情報をさらに用いて各文の企業分類を特定してもよい。
【0058】
形態素解析プログラムとしては、たとえば、MECAB、JUMAN、JANOME、TREE TAGGER、またはNLTKなどの既存のプログラムが用いられる。形態素解析により、分割後の各文が言語上の最小単位である形態素に分割され、各形態素について品詞または格などの言語マーカーが特定される。
【0059】
構文解析プログラムの一例としては、たとえば、KNP、CaboCha、またはGiNZAなどの既存のプログラムが用いられる。
【0060】
他の例として、企業分類付与部56Aは、辞書データ124Aを参照して、各文の企業分類を特定する。辞書データ124Aは、たとえば、言語マーカーとキーワードとの組み合わせを企業分類ごとに対応付けている。
【0061】
一例として、辞書データ124Aは、企業分類「A社」に対して、言語マーカー「主語」およびキーワード「α」の組み合わせを対応付けているとする。この場合、企業分類付与部56Aは、上記の形態素解析の結果に基づいて、キーワード「α」を主語として含む文に企業分類「A社」を付与する。なお、キーワード「α」には、企業分類名「A」が含まれていてもよいし、企業分類名「A」が含まれていなくてもよい。
【0062】
このように、企業分類付与部56Aは、形態素への言語マーカーとキーワードとの組み合わせに基づいて、分割部54による分割後の各文に対して企業分類を付与する。その結果、企業分類付与部56Aは、図5に示される分類結果71Aを出力する。
【0063】
なお、企業分類を付与するに際には、言語マーカーおよびキーワードの組み合わせが必ずしも用いられる必要はない。一例として、辞書データ124Aは、企業分類ごとにキーワードのみを対応付けていてもよい。この場合、企業分類付与部56Aは、分割部54による分割後の各文から、辞書データ124Aに規定されているキーワードを検索する。検索対象のキーワードを含む文に対しては、当該キーワードに対応付けられている企業分類が付与される。
【0064】
(b)商品分類付与部56B
次に、図6を参照して、図2に示される商品分類付与部56Bの機能について説明する。図6は、商品分類付与部56Bの機能を概略的に示す図である。
【0065】
商品分類付与部56Bは、予め定められた分類アルゴリズムに従って、分割部54によって文単位に分割された各文に対して、「商品分類」に属する分類群の内のいずれかの分類を付与する。商品分類は、各文がどの商品に関する記載であるのか、どのサービスに関する記載であるのか、またはどの領域に関する記載であるのかを示す。
【0066】
図6に示されるように、商品分類付与部56Bは、文書データDと、分割結果70と、辞書データ124Bとの入力を受けて、分類結果71Bを出力する。
【0067】
商品分類を付与するための分類アルゴリズムには、種々のアルゴリズムが採用され得る。以下では、商品分類を付与するための分類アルゴリズムの一例について説明する。
【0068】
商品分類付与部56Bは、企業分類付与部56Aと同様に、形態素解析結果および構文解析結果に基づいて、分割部54による分割後の各文に商品分類を付与する。
【0069】
他の例として、商品分類付与部56Bは、辞書データ124Bを参照して、各文の商品分類を特定する。辞書データ124Bは、言語マーカーとキーワードとの組み合わせを商品分類ごとに対応付けている。
【0070】
一例として、辞書データ124Bは、商品分類「商品A」に対して、言語マーカー「述語」とキーワード「αを発売した」との組み合わせを対応付けているとする。この場合、商品分類付与部56Bは、上記の形態素解析の結果に基づいて、キーワード「αを発売した」を述語として含む文に商品分類「商品A」を付与する。なお、キーワード「α」には、商品分類名「A」が含まれていてもよいし、商品分類名「A」が含まれていなくてもよい。
【0071】
このように、商品分類付与部56Bは、形態素への言語マーカーとキーワードとの組み合わせに基づいて、分割部54による分割後の各文に対して商品分類を付与する。その結果、商品分類付与部56Bは、図6に示される分類結果71Bを出力する。
【0072】
なお、商品分類を付与する際には、言語マーカーおよびキーワードの組み合わせが必ずしも用いられる必要はない。一例として、辞書データ124Bは、商品分類ごとにキーワードのみを対応付けていてもよい。この場合、商品分類付与部56Bは、分割部54による分割後の各文から、辞書データ124Bに規定されているキーワードを検索する。検索対象のキーワードを含む文に対しては、当該キーワードに対応付けられている商品分類が付与される。
【0073】
(C4.並び替え部58)
次に、図7および図8を参照して、図2に示される並び替え部58の機能について説明する。図7は、並び替え部58の機能を概略的に示す図である。
【0074】
図7に示されるように、並び替え部58は、分類結果72の入力と、設定データ126との入力を受けて、並び替え結果73を出力する。分類結果72は、上述の分割結果70と、上述の分類結果71A,71Bとを統合したものである。
【0075】
並び替え部58は、分類結果72に規定されている各文を、分類付与部56によって付与された分類の種別に並び替える。一例として、並び替え部58は、分類の付与数を当該分類の種別にカウントし、当該付与数が多い順に各文を並び替える。これにより、各文が分類の出現数が多い順に並び替えられる。なお、並び替え部58は、類似する文を統合した上で分類をカウントしてもよい。
【0076】
図8は、分類の付与数のカウント結果74を示す図である。図8の例では、カテゴリー「企業分類」については、分類「A社」、分類「F社」、分類「S社」の順に付与数が多くなっている。この場合、並び替え部58は、分類「A社」が付与されている各文を最上位に移動する。次に、並び替え部58は、分類「A社」が付与されている各文の下位に、分類「F社」が付与されている各文を移動する。次に、並び替え部58は、分類「F社」が付与されている各文の下位に、分類「S社」が付与されている各文を移動する。
【0077】
図8の例では、カテゴリー「商品分類」については、分類「商品D」、分類「商品G」、分類「サービスI」の順に付与数が多くなっている。この場合、並び替え部58は、分類「商品D」が付与されている各文を最上位に移動する。次に、並び替え部58は、分類「商品D」が付与されている各文の下位に、分類「商品G」が付与されている各文を移動する。次に、並び替え部58は、分類「商品G」が付与されている各文の下位に、分類「サービスI」が付与されている各文を移動する。
【0078】
なお、並び替え部58は、2つ以上のカテゴリーに基づいて各文を並び替える場合には、各カテゴリーの優先度に応じて並び替え処理の順番を変える。当該優先度は、たとえば、設定データ126において規定されている。当該優先度は、設計時などに予め設定されていてもよいし、ユーザによって任意に設定されてもよい。
【0079】
一例として、並び替え部58は、分割部54による分割後の各文を、優先度の低いカテゴリーから順に並び替える。一例として、カテゴリー「企業分類」の優先度がカテゴリー「商品分類」の優先度よりも高く設定されているとする。この場合、並び替え部58は、カテゴリー「商品分類」に基づいて分割部54による分割後の各文を並び替え、その後、並び替えられた各文をカテゴリー「企業分類」に基づいてさらに並び替える。
【0080】
より具体的には、並び替え部58は、分割部54による分割後の各文を、商品分類「商品D」、「商品G」、「サービスI」の順に並び替える。その後、並び替え部58は、商品分類に基づいて並び替えられた各文を、企業分類「A社」、「F社」、「S社」の順に並び替える。
【0081】
これにより、分割部54による分割後の各文は、企業分類「A社」、「F社」、「S社」の順に並べられる。さらに、企業分類「A社」が付与されている文の集合は、商品分類「商品D」、「商品G」、「サービスI」の順に並べられる。同様に、企業分類「F社」が付与されている文の集合は、商品分類「商品D」、「商品G」、「サービスI」の順に並べられる。同様に、企業分類「S社」が付与されている文の集合は、商品分類「商品D」、「商品G」、「サービスI」の順に並べられる。結果として、並び替え部58は、同種の企業分類が付与されている文の集合ごとに、商品分類が付与された各文を、商品分類の種別に並び替えることができる。
【0082】
(C5.出力部60)
次に、図9を参照して、図2に示される出力部60の機能について説明する。図9は、出力部60の機能を概略的に示す図である。
【0083】
出力部60は、並び替え部58によって並び替えられた各文を出力する。このとき、出力部60は、ユーザが情報を分析しやすいように、並び替え部58による並び替え結果73を整える。図9の例では、その結果として、出力結果130が示されている。出力結果130は、予め定められたファイル形式(たとえば、Excel形式やHTML形式)で出力される。出力結果130は、ユーザ端末200に送信される。
【0084】
一例として、図9に示されるように、出力結果130は、ファイル情報77と、並び替え結果78とを含む。
【0085】
ファイル情報77は、上述の入力領域231(図3参照)に入力されたタイトルと、出力結果130の作成日時とを含む。
【0086】
並び替え結果78には、上述の並び替え部58によって並び替えられた各文が表示される。典型的には、並び替え結果78として表示される各文は、文書データDに含まれている文と同じであり、文書データDに含まれる文を要約したものではない。
【0087】
並び替え結果78として表示される各文には、上述の分類付与部56によって付与された分類と、元文書に関する時期(たとえば、元文書の保存日時)とが並べて表示される。
【0088】
好ましくは、出力部60は、並び替え部58による並び替え前における文の並び順が連続している文群であり、かつ、同種の分類が付与されている文群については、当該文群を統合して出力する。
【0089】
より具体的な処理として、出力部60は、まず、出力結果130に示されている文IDが連続している文群を特定する。次に、出力部60は、特定した文群の中で同種の分類が付与されている文群を抽出する。その後、出力部60は、抽出した文群を一纏まりに統合する。
【0090】
図9の例では、元々の並び順が連続していた文群73Aが、一纏まりの文78Aに統合されている。これにより、意味的に関わりがある文群が視覚的に纏められ、情報分析が容易になる。
【0091】
出力部60による出力結果130は、ユーザ端末200に送信され、ユーザ端末200上に表示される。ユーザは、ユーザ端末200上で出力結果130を編集することができる。一例として、出力結果130における各カテゴリーには、フィルタリングボタン80A,80Bが設けられる。フィルタリングボタン80A,80Bは、表示対象の文をフィルタリングするための条件を受け付ける。
【0092】
フィルタリングボタン80Aは、企業分類に関するフィルタリング条件の入力を受け付ける。より具体的には、ユーザがフィルタリングボタン80Aを押すと、企業分類のリストが表示される。リスト内の各企業分類は、選択可能に構成される。ユーザによって企業分類が選択されたことに基づいて、ユーザ端末200は、選択された企業分類に対応する文のみを表示する。これにより、ユーザは、自身の目的に合致する企業の情報を収集することができる。
【0093】
フィルタリングボタン80Bは、商品分類に関するフィルタリング条件の入力を受け付ける。より具体的には、ユーザがフィルタリングボタン80Bを押すと、商品分類のリストが表示される。リスト内の各商品分類は、選択可能に構成される。ユーザによって商品分類が選択されたことに基づいて、ユーザ端末200は、選択された商品分類に対応する文のみを表示する。これにより、ユーザは、自身の目的に合致する商品の情報を収集することができる。
【0094】
好ましくは、出力部60は、出力結果130に含まれている文内で、分類に係る部分の文字列を他の部分よりも強調する。一例として、出力部60は、企業分類「A社」が付与されている文78Aについては、文中の「A社」に係る文字列を他の部分よりも強調する。
【0095】
強調の方法は任意である。一例として、出力部60は、強調部分の文字色を第1の色(たとえば、赤色)で表示し、他の部分の文字列を第1の色とは異なる第2の色(たとえば、黒色)で表示する。他の例として、出力部60は、強調部分の文字サイズを他の部分の文字サイズよりも大きくする。他の例として、出力部60は、強調部分の文字列に下線を付してもよい。
【0096】
なお、上述では、出力結果130がユーザ端末200に送信された後にフィルタリング操作が行われる例について説明を行ったが、当該フィルタリング操作は、出力結果130がユーザ端末200に送信される前に行われてもよい。この場合、ユーザは、ユーザ端末200を介してWeb上でフィルタリング条件を入力する。情報処理装置100は、フィルタリング条件の入力をユーザ端末200から受信する度に、当該フィルタリング条件に基づいて表示対象の文をフィルタリングする。その後、ユーザ端末200がユーザによる出力操作を受け付けたことに基づいて、情報処理装置100は、フィルタリング後の出力結果をユーザ端末200に送信する。
【0097】
また、情報処理装置100は、各カテゴリーの優先度の入力を受け付けてもよい。情報処理装置100は、各カテゴリーの優先度の入力をユーザ端末200から受信する度に上述の設定データ126(図7参照)を更新し、更新後の設定データ126に基づいてカテゴリーの表示順を入れ替える。設定データ126に基づく並び替え処理については上述の通りであるので、その説明については繰り返さない。その後、情報処理装置100は、ユーザによる出力操作を受け付けたことに基づいて、並び替え後の出力結果をユーザ端末200に送信する。
【0098】
<D.ハードウェア構成>
図10および図11を参照して、上述の図1に示される情報処理装置100とユーザ端末200とのハードウェア構成について順に説明する。
【0099】
(D1.情報処理装置100のハードウェア構成)
まず、図10を参照して、情報処理装置100のハードウェア構成について順に説明する。図10は、情報処理装置100のハードウェア構成の一例を示す模式図である。
【0100】
情報処理装置100は、制御装置101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、通信インターフェイス104と、表示インターフェイス105と、入力インターフェイス107と、記憶装置120とを含む。これらのコンポーネントは、バス110に接続される。
【0101】
制御装置101は、たとえば、少なくとも1つの集積回路によって構成される。集積回路は、たとえば、少なくとも1つのCPU(Central Processing Unit)、少なくとも1つのGPU(Graphics Processing Unit)、少なくとも1つのASIC(Application Specific Integrated Circuit)、少なくとも1つのFPGA(Field Programmable Gate Array)、またはそれらの組み合わせなどによって構成され得る。
【0102】
制御装置101は、情報処理プログラム122やオペレーティングシステムなどの各種プログラムを実行することで情報処理装置100の動作を制御する。情報処理プログラム122は、上述の図2に示される各種機能構成に係るプログラムである。制御装置101は、情報処理プログラム122の実行命令を受け付けたことに基づいて、記憶装置120またはROM102からRAM103に情報処理プログラム122を読み出す。RAM103は、ワーキングメモリとして機能し、情報処理プログラム122の実行に必要な各種データを一時的に格納する。
【0103】
通信インターフェイス104には、LAN(Local Area Network)やアンテナなどが接続される。情報処理装置100は、通信インターフェイス104を介して、外部機器との間でデータをやり取りする。当該外部機器は、たとえば、ユーザ端末200やサーバーなどを含む。情報処理装置100は、サーバーから情報処理プログラム122をダウンロード可能に構成されてもよい。
【0104】
表示インターフェイス105には、ディスプレイ106が接続される。表示インターフェイス105は、制御装置101などからの指令に従って、ディスプレイ106に対して、画像を表示するための画像信号を送出する。ディスプレイ106は、たとえば、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、またはその他の表示機器である。なお、ディスプレイ106は、情報処理装置100と一体的に構成されてもよいし、情報処理装置100とは別に構成されてもよい。
【0105】
入力インターフェイス107には、入力デバイス108が接続される。入力デバイス108は、たとえば、マウス、キーボード、タッチパネル、またはユーザの操作を受け付けることが可能なその他の装置である。なお、入力デバイス108は、情報処理装置100と一体的に構成されてもよいし、情報処理装置100とは別に構成されてもよい。
【0106】
記憶装置120は、たとえば、ハードディスクやフラッシュメモリなどの記憶媒体である。記憶装置120は、情報処理プログラム122、上述の辞書データ124、および上述の設定データ126などを格納する。これらの格納場所は、記憶装置120に限定されず、制御装置101の記憶領域(たとえば、キャッシュメモリなど)、ROM102、RAM103、外部機器(たとえば、サーバー)などに格納されていてもよい。
【0107】
なお、情報処理プログラム122は、単体のプログラムとしてではなく、任意のプログラムの一部に組み込まれて提供されてもよい。この場合、情報処理プログラム122に規定される各種処理は、任意のプログラムと協働して実現される。このような一部のモジュールを含まないプログラムであっても、本実施の形態に従う情報処理プログラム122の趣旨を逸脱するものではない。さらに、情報処理プログラム122によって提供される機能の一部または全部は、専用のハードウェアによって実現されてもよい。さらに、少なくとも1つのサーバーが情報処理プログラム122の処理の一部を実行する所謂クラウドサービスのような形態で情報処理装置100が構成されてもよい。
【0108】
(D2.ユーザ端末200のハードウェア構成)
次に、図11を参照して、ユーザ端末200のハードウェア構成について順に説明する。図11は、ユーザ端末200のハードウェア構成の一例を示す模式図である。
【0109】
ユーザ端末200は、制御装置201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、通信インターフェイス204と、表示インターフェイス205と、入力インターフェイス207と、記憶装置220とを含む。これらのコンポーネントは、バス210に接続される。
【0110】
制御装置201は、たとえば、少なくとも1つの集積回路によって構成される。集積回路は、たとえば、少なくとも1つのCPU、少なくとも1つのGPU、少なくとも1つのASIC、少なくとも1つのFPGA、またはそれらの組み合わせなどによって構成され得る。
【0111】
制御装置201は、情報処理プログラム222やオペレーティングシステムなどの各種プログラムを実行することでユーザ端末200の動作を制御する。情報処理プログラム222は、上述の入力画面230や出力結果130を表示するためのプログラムである。
【0112】
制御装置201は、情報処理プログラム222の実行命令を受け付けたことに基づいて、記憶装置220またはROM202からRAM203に情報処理プログラム222を読み出す。RAM203は、ワーキングメモリとして機能し、情報処理プログラム222の実行に必要な各種データを一時的に格納する。
【0113】
通信インターフェイス204には、LAN(Local Area Network)やアンテナなどが接続される。ユーザ端末200は、通信インターフェイス204を介して、外部機器との間でデータをやり取りする。当該外部機器は、たとえば、情報処理装置100やサーバーなどを含む。ユーザ端末200は、当該外部機器から情報処理プログラム222をダウンロード可能に構成されてもよい。
【0114】
表示インターフェイス205には、ディスプレイ206が接続される。表示インターフェイス205は、制御装置201などからの指令に従って、ディスプレイ206に対して、画像を表示するための画像信号を送出する。ディスプレイ206は、たとえば、液晶ディスプレイ、有機ELディスプレイ、またはその他の表示機器である。なお、ディスプレイ206は、ユーザ端末200と一体的に構成されてもよいし、ユーザ端末200とは別に構成されてもよい。
【0115】
入力インターフェイス207には、入力デバイス208が接続される。入力デバイス208は、たとえば、マウス、キーボード、タッチパネル、またはユーザの操作を受け付けることが可能なその他の装置である。なお、入力デバイス208は、ユーザ端末200と一体的に構成されてもよいし、ユーザ端末200とは別に構成されてもよい。
【0116】
記憶装置220は、たとえば、ハードディスクやフラッシュメモリなどの記憶媒体である。記憶装置220は、上述の文書データD、出力結果130、情報処理プログラム222などを格納する。これらの格納場所は、記憶装置220に限定されず、制御装置201の記憶領域(たとえば、キャッシュメモリなど)、ROM202、RAM203、外部機器(たとえば、サーバー)などに格納されていてもよい。
【0117】
<E.フローチャート>
次に、図12を参照して、情報処理装置100の制御構造について説明する。図12は、情報処理装置100が実行する処理の一部を表わすフローチャートである。
【0118】
図12に示される処理は、制御装置101が上述の情報処理プログラム122を実行することにより実現される。他の局面において、処理の一部または全部が、回路素子またはその他のハードウェアによって実行されてもよい。
【0119】
ステップS110において、制御装置101は、上述の取得部52(図2参照)として機能し、ユーザ端末200から文書データDを受信したか否かを判断する。制御装置101は、ユーザ端末200から文書データDを受信したと判断した場合(ステップS110においてYES)、制御をステップS112に切り替える。そうでない場合には(ステップS110においてNO)、制御装置101は、ステップS110の処理を再び実行する。
【0120】
ステップS112において、制御装置101は、上述の分割部54(図2参照)として機能し、ユーザ端末200から受信した文書データDに含まれている文字列を文単位に分割する。分割部54の機能については上述の通りであるので、その説明については繰り返さない。
【0121】
ステップS114において、制御装置101は、上述の分類付与部56(図2参照)として機能し、ステップS112で分割された各文に対して様々な観点の分類を付与する。分類付与部56の機能については上述の通りであるので、その説明については繰り返さない。
【0122】
ステップS116において、制御装置101は、上述の並び替え部58(図2参照)として機能し、ステップS112で分割された各文を、ステップS114で付与された分類の種別に並び替える。その結果、制御装置101は、上述の並び替え結果73(図7参照)を出力する。並び替え部58の機能については上述の通りであるので、その説明については繰り返さない。
【0123】
ステップS118において、制御装置101は、上述の出力部60(図2参照)として機能し、ユーザが情報を分析しやすいようにステップS116での並び替え結果73を整えて、出力結果130を出力する。出力部60の機能については上述の通りであるので、その説明については繰り返さない。制御装置101は、出力結果130をユーザ端末200に送信する。
【0124】
<F.変形例1>
次に、図13図19を参照して、変形例に従う情報処理装置100Aについて説明する。図13は、情報処理装置100Aの機能構成の一例を示す図である。
【0125】
図13に示される情報処理装置100Aは、分類付与部56として、ラベル付与部56Cと、フラグ付与部56Dとを備える点で、上述の図2に示される情報処理装置100とは異なる。ハードウェア構成などのその他の点については上述の通りであるので、以下ではそれらの説明については繰り返さない。
【0126】
ラベル付与部56Cは、文書データDに含まれている各文の一部または全部に対して、企業による取り組み内容などを示すラベルを分類として付与する。ラベル付与部56Cは、たとえば、異なる複数の観点で各文の概要を特定し、特定した概要の組み合わせに応じたラベルを各文に付与する。各ラベルと概要の組み合わせとの対応関係は、予め規定されていてもよいし、ユーザによって設定されてもよい。
【0127】
一例として、ラベル付与部56Cは、特定企業に関する記載であるか、市場に関する記載であるか、特定企業および市場以外に関する記載であるかとの観点で各文の概要を特定する。当該概要は、たとえば、上述の企業分類に基づいて特定される。
【0128】
他の例として、ラベル付与部56Cは、製品に関する記載であるか、サービスに関する記載であるかとの観点で各文の概要を特定する。当該概要は、たとえば、上述の商品分類に基づいて特定される。
【0129】
さらに他の例として、ラベル付与部56Cは、過去に関する記載であるか、未来に関する記載であるかとの観点で各文の概要を特定する。当該概要は、たとえば、文中に記載の日時に基づいて特定される。
【0130】
フラグ付与部56Dは、文書データDに含まれている各文の一部または全部に対して、特定の情報が含まれていることを示すフラグを付与する。当該特定の情報は、たとえば、定量情報と、地名と、化学的元素との少なくとも1つを含む。
【0131】
定量情報を例に挙げると、フラグ付与部56Dは、文書データDに含まれている各文から定量情報(たとえば、数値情報)を検索し、当該定量情報を含む文に対して定量フラグを付与する。定量情報は、企業分析に用いられる数値情報を意味する。一例として、定量情報は、企業業績を示す数値、企業または製品の売り上げなどを含む。
【0132】
ラベル付与部56Cによって付与されたラベルと、フラグ付与部56Dによって付与された定量フラグは、出力結果130(図9参照)のフィルタリング条件として用いられる。
【0133】
図14は、変形例に従う入力画面230Aを示す図である。ラベルおよび定量フラグに基づくフィルタリング条件は、たとえば、入力画面230Aにおいて受け付けられる。入力画面230Aは、たとえば、ユーザ端末200のディスプレイ206に表示される。
【0134】
図14に示される入力画面230Aは、入力領域231Aと、ボタン232A~232Cとをさらに備える点で、図3に示される入力画面230と異なる。入力領域231Aおよびボタン232A~232C以外の機能については上述の通りであるので、以下ではそれらの説明については繰り返さない。
【0135】
入力領域231Aは、ユーザが抽出したいトピックの入力を受け付ける。当該トピックは、文字列で入力される。当該トピックとしては、たとえば、「開発」、「部品調達」、「販売手法」、「工作機械受注」などが挙げられる。情報処理装置100Aは、入力領域231Aにトピックが入力された場合には、当該トピックのいずれかを含む文を上述の出力結果130に含める。
【0136】
ボタン232Aは、文の収集目的を指定するためのボタンである。ユーザ端末200は、ボタン232Aが押されたことに基づいて、図15に示される目的選択画面240を表示する。
【0137】
図15は、一例としての目的選択画面240を示す図である。目的選択画面240は、目的選択ボタン241A~241Cと、閉じるボタン242とを含む。
【0138】
目的選択ボタン241Aが押された場合には、情報処理装置100Aは、上述のラベル付与部56Cによって付与されたラベルの内の第1ラベルが付与されている各文を上述の出力結果130に含め、第1ラベル以外のラベルが付与されている各文については上述の出力結果130に含めない。
【0139】
目的選択ボタン241Bが押された場合には、情報処理装置100Aは、上述のラベル付与部56Cによって付与されたラベルの内の第2ラベルが付与されている各文を上述の出力結果130に含め、第2ラベル以外のラベルが付与されている各文については上述の出力結果130に含めない。
【0140】
目的選択ボタン241Cが押された場合には、情報処理装置100Aは、定量フラグが付与されている文であり、かつ上述のラベル付与部56Cによって付与されたラベルの内の第3ラベルが付与されている文を上述の出力結果130に含める。
【0141】
ユーザが閉じるボタン242を押した場合には、ユーザ端末200は、目的選択画面240を閉じ、図14に示される入力画面230Aに戻る。
【0142】
ユーザ端末200は、入力画面230Aのボタン232Bが押されたことに基づいて、図16に示される領域選択画面250を表示する。
【0143】
図16は、一例としての領域選択画面250を示す図である。目的選択画面240は、領域選択ボタン251A~251Cと、閉じるボタン254とを含む。ユーザは、領域選択ボタン251A~251Cの内の1つまたは複数の領域選択ボタンを選択することができる。
【0144】
領域選択ボタン251Aが選択された場合には、情報処理装置100Aは、上述のラベル付与部56Cによって付与されたラベルの内の第4ラベルが付与されている各文を上述の出力結果130に含める。
【0145】
領域選択ボタン251Bが選択された場合には、情報処理装置100Aは、上述のラベル付与部56Cによって付与されたラベルの内の第5ラベルが付与されている各文を上述の出力結果130に含める。
【0146】
領域選択ボタン251Cが選択された場合には、情報処理装置100Aは、上述のラベル付与部56Cによって付与されたラベルの内の第6ラベルが付与されている各文を上述の出力結果130に含める。
【0147】
ユーザが閉じるボタン254を押した場合には、ユーザ端末200は、領域選択画面250を閉じ、図14に示される入力画面230Aに戻る。
【0148】
入力画面230Aのボタン232Cが押された場合には、情報処理装置100Aは、目的や領域で絞らずに出力結果130を生成する。
【0149】
<G.変形例2>
上述では、図1に示されるステップS2~S4の処理が情報処理装置100で実行される例について説明を行ったが、これらの処理は、必ずしも情報処理装置100によって処理される必要はない。これらの処理は、ユーザ端末200などの他のコンピュータによって実行されてもよい。
【0150】
この場合、上述の情報処理プログラム122は、ユーザ端末200などのコンピュータに予め配布される。これにより、図1に示されるステップS2~S4の処理は、ユーザ端末200などの他のコンピュータによって実行される。このように、情報処理プログラム122がユーザ端末200などのコンピュータに配布されるような場合であっても、本実施の形態に従う情報処理プログラム122の趣旨を逸脱するものではない。
【0151】
今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。
【符号の説明】
【0152】
10 情報処理システム、52 取得部、54 分割部、56 分類付与部、56A 企業分類付与部、56B 商品分類付与部、56C ラベル付与部、56D フラグ付与部、58 並び替え部、60 出力部、70 分割結果、71A 分類結果、71B 分類結果、72 分類結果、73 並び替え結果、73A 文群、74 カウント結果、77 ファイル情報、78 並び替え結果、78A 文、80A フィルタリングボタン、80B フィルタリングボタン、100 情報処理装置、100A 情報処理装置、101 制御装置、102 ROM、103 RAM、104 通信インターフェイス、105 表示インターフェイス、106 ディスプレイ、107 入力インターフェイス、108 入力デバイス、110 バス、120 記憶装置、122 情報処理プログラム、124 辞書データ、124A 辞書データ、124B 辞書データ、126 設定データ、130 出力結果、200 ユーザ端末、201 制御装置、202 ROM、203 RAM、204 通信インターフェイス、205 表示インターフェイス、206 ディスプレイ、207 入力インターフェイス、208 入力デバイス、210 バス、220 記憶装置、222 情報処理プログラム、230 入力画面、230A 入力画面、231 入力領域、232A ボタン、232B ボタン、232C ボタン、233A 受付領域、233B 選択ボタン、234 作成ボタン、240 目的選択画面、241A 目的選択ボタン、241B 目的選択ボタン、241C 目的選択ボタン、242 閉じるボタン、250 領域選択画面、251A 領域選択ボタン、251B 領域選択ボタン、251C 領域選択ボタン、254 閉じるボタン。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
【手続補正書】
【提出日】2021-12-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
情報処理装置であって、
複数の文書データを取得するための取得部と、
前記複数の文書データに含まれている文字列を文単位に分割するための分割部と、
第1分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、組織名に関する第1分類群の内のいずれかの第1分類を付与するための分類付与部と、
前記第1分類が付与された各文を前記第1分類の種別に並び替えるための並び替え部と、
前記並び替え部によって並び替えられた各文を出力するための出力部とを備える、情報処理装置。
【請求項2】
前記分類付与部は、さらに、第2分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、第2分類群の内のいずれかの第2分類を付与し、
前記第2分類群が属するカテゴリーは、前記第1分類群が属するカテゴリーとは異なり、
前記並び替え部は、さらに、同種の第1分類が付与されている文の集合ごとに、前記第2分類が付与された各文を、前記第2分類の種別に並び替える、請求項1に記載の情報処理装置。
【請求項3】
前記出力部は、前記並び替え部による並び替え前における文の並び順が連続している文群であり、かつ、同種の第1分類が付与されている文群については、当該文群を統合して出力する、請求項1または2に記載の情報処理装置。
【請求項4】
前記並び替え部は、前記第1分類の付与数を前記第1分類の種別にカウントし、前記第1分類が付与された各文を前記付与数が多い順に並び替える、請求項1~3のいずれか1項に記載の情報処理装置。
【請求項5】
コンピュータによって実行される情報処理方法であって、
複数の文書データを取得するステップと、
前記複数の文書データに含まれている文字列を文単位に分割するステップと、
第1分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、組織名に関する第1分類群の内のいずれかの第1分類を付与するステップと、
前記第1分類が付与された各文を前記第1分類の種別に並び替えるステップと、
前記並び替えるステップで並び替えられた各文を出力するステップとを備える、情報処理方法。
【請求項6】
コンピュータによって実行される情報処理プログラムであって、
前記情報処理プログラムは、前記コンピュータに、
複数の文書データを取得するステップと、
前記複数の文書データに含まれている文字列を文単位に分割するステップと、
第1分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、組織名に関する第1分類群の内のいずれかの第1分類を付与するステップと、
前記第1分類が付与された各文を前記第1分類の種別に並び替えるステップと、
前記並び替えるステップで並び替えられた各文を出力するステップとを実行させる、情報処理プログラム。
【手続補正書】
【提出日】2022-02-08
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
情報処理装置であって、
複数の文書データを取得するための取得部と、
前記複数の文書データに含まれている文字列を文単位に分割するための分割部と、
第1分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、組織名に関する第1分類群の内のいずれかの第1分類を付与するための分類付与部とを備え、前記分類付与部は、さらに、第2分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、商品名に関する第2分類群の内のいずれかの第2分類を付与し、
前記第1分類および前記第2分類が付与された各文を、前記第1分類の種別および前記第2分類の一方の種別に並び替えた後に、前記第1分類の種別および前記第2分類の他方の種別に並び替えるための並び替え部と、
前記並び替え部によって並び替えられた各文を出力するための出力部とを備え、
前記出力部は、前記並び替え部による並び替え前における文の並び順が連続している文群であり、かつ、同種の第1分類および同種の第2分類が付与されている文群については、当該文群を統合して出力する、情報処理装置。
【請求項2】
前記第2分類群が属するカテゴリーは、前記第1分類群が属するカテゴリーとは異なり、
前記並び替え部は、さらに、同種の第1分類が付与されている文の集合ごとに、前記第2分類が付与された各文を、前記第2分類の種別に並び替える、請求項1に記載の情報処理装置。
【請求項3】
前記並び替え部は、前記第1分類の付与数を前記第1分類の種別にカウントし、前記第1分類が付与された各文を前記付与数が多い順に並び替える、請求項1または2に記載の情報処理装置。
【請求項4】
コンピュータによって実行される情報処理方法であって、
複数の文書データを取得するステップと、
前記複数の文書データに含まれている文字列を文単位に分割するステップと、
第1分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、組織名に関する第1分類群の内のいずれかの第1分類を付与するステップとを備え、前記付与するステップは、さらに、第2分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、商品名に関する第2分類群の内のいずれかの第2分類を付与するステップを含み、
前記第1分類および前記第2分類が付与された各文を、前記第1分類の種別および前記第2分類の一方の種別に並び替えた後に、前記第1分類の種別および前記第2分類の他方の種別に並び替えるステップと、
前記並び替えるステップで並び替えられた各文を出力するステップとを備え、
前記出力するステップは、前記並び替えるステップでの並び替え前における文の並び順が連続している文群であり、かつ、同種の第1分類および同種の第2分類が付与されている文群については、当該文群を統合して出力するステップを含む、情報処理方法。
【請求項5】
コンピュータによって実行される情報処理プログラムであって、
前記情報処理プログラムは、前記コンピュータに、
複数の文書データを取得するステップと、
前記複数の文書データに含まれている文字列を文単位に分割するステップと、
第1分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、組織名に関する第1分類群の内のいずれかの第1分類を付与するステップとを備え、前記付与するステップは、さらに、第2分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、商品名に関する第2分類群の内のいずれかの第2分類を付与するステップを含み、
前記第1分類および前記第2分類が付与された各文を、前記第1分類の種別および前記第2分類の一方の種別に並び替えた後に、前記第1分類の種別および前記第2分類の他方の種別に並び替えるステップと、
前記並び替えるステップで並び替えられた各文を出力するステップとを実行させ
前記出力するステップは、前記並び替えるステップでの並び替え前における文の並び順が連続している文群であり、かつ、同種の第1分類および同種の第2分類が付与されている文群については、当該文群を統合して出力するステップを含む、情報処理プログラム。