Abstract:
筆者が取り組んできた「コンピュータを用いた自然言語の意味処理」において、長い間、使われてきた手法は、語の意味を記述し、語の構文に従って、文の意味を合成し、更に、談話の意味も合成する、というものである。しかし、語の意味を1つ1つ記述している作業が膨大であることから、一般に行われているビッグデータ処理では、意味の合成は行わずに、語の出現頻度を統計処理している。そこで筆者も意味の合成を行わない手法を検討することにし、前稿(吉武 2015)において、日本経済新聞社の新聞記事18年分(1995年1月~2012年12月)を処理する際の日本語WordNetの可能性を検討した。日本語WordNet は、曖昧さ解消に有効であると判明したが、全ての語の意味を日本語WordNet に記述することには無理があるために、別の手法を検討することにした。別の手法として、潜在意味解析 Latent Semantic Analysis(LSA)(Landauer et al. 1998)がある。これは、文章の意味を表すために単語の意味を合成していくのではなく、文章と、そこに出現する単語との間には、共通のトピックとなるような意味があると仮定し、その意味を確率的に抽出するという手法である。本研究では、潜在意味解析の中の1つの手法であるWord2Vec(Mikolov et al. 2013)が、日本経済新聞社の新聞記事の解析に適用可能かの検証に取り組むものである。