抄録:
最近、ビッグデータ(big data)という言葉が頻繁に使われている。ビッグデータの定義はないが、従来のデータベース管理ツールでは処理するのが困難なほど巨大で複雑なデータ集合のことを指す場合が多いようだ。具体的なビッグデータとしてはSNSなどの掲示板への書き込みやウェブ
ショップのアクセス記録などがある。しかし、それらは外部に提供されておらず、入手は難しい。外部に提供されているデータとして有名なものに新聞記事がある。筆者は、日本経済新聞社の新聞記事(本紙、産業新聞、流通新聞)を18年分(1995年1月~2012年12月)入手した。容量は約
8GBである。18年分の量をビッグデータと言えるかどうかという指摘はあるだろうが、ビッグデータに近い量を処理して実験を行うのには妥当であると判断した。さて、筆者は,コンピュータを用いた自然言語処理に長年、取り組んできた。今まで使ってきた手法は、語の意味を記述し、語の構文に従って、文の意味を合成し、更に、談話の意味も合成する、というものである。本質的にたいへんなのは、語の意味を1つ1つ記述している作業が膨大であることである。更に、ビッグデータに対して意味の合成を続けていくと、データ量が爆発してしまうという現象に遭遇する。そこで、一般に行われているビッグデータ処理では、意味の合成は行わずに、語の出現頻度を利用している。しかし、処理対象によっては、語の出現頻度だけを利用した処理では上手く行かないことがある。そこで、本研究では、既に多量の意味の記述が行われている既存の意味記述辞書を使い、更に、処理可能な範囲内のデータ量に収まることを目指し、日本語WordNetを使用した意味処理を行うことにした。