テキストマイニングのソフトを初めて使ってみた。KH Coderという、立命館大学の先生(樋口耕一・准教授)が開発されたソフトだ。使い方は、至って簡単。わずか2時間で、基本をほとんどマスターすることができた。「青空文庫」に収録された、福沢諭吉の『学問のすすめ』を使って、ちょっといじってみたので、簡単にご紹介したいと思う。

(1)分析対象のテキスト化

 青空文庫をダウンロードする。テキスト形式のファイルでダウンロードする。

 ダウンロードしたファイルには、ルビが含まれているので、これを秀丸を使って削除する。

 また、余計なタグなどもあり、これも秀丸で削除する。

(2)KH Coderを起動

 「新規プロジェクト」を選び、さきほどのテキストファイルを指定する。

(3)前処理の実行

KH Coder1

(4) 「ツール」「抽出語」「抽出語リスト」で出現頻度の高い語をリストアップ

 自動的にエクセルファイル形式で、出現頻度の高い語のリストが生成される(下図)

KH Coder2

 「人」がもっとも多く出現し、それに次いで「言う」「政府」「人民」の順番となっている。「学問」は以外と少ない。

(5)クラスター分析

 語の出現状況から、クラスター分析を実行することができる。最小出現数を50以上に限定して、階層型クラスター分析を行うと、下のような結果が得られた。

KH Coder3

「学問」「知る」「学者」が同一クラスターに含まれているのは、納得がゆく。「文明」「西洋」「日本」「力」が同一クラスターというのも、なんとなく分かる。

(6)編ごとの集計

 「編」ごとの出現頻度の集計も行うことができる。そのためには、「編」の部分を<h1> </h1>で囲むことが必要だ。これも、秀丸を使えば、簡単に行うことができる。集計結果は、下の図に示すとおり。

KH Coder4

 こうしてみると、編ごとに出現する語に違いがあるということがわかる。

(7)対応分析

 これは、出現語の関連を2次元のマップで示すことができるものだ。

KH Coder5

 「学問」という言葉が、全体の中心に位置しているのは、「見事」という他はない。編別では、12編あたりが本書の中心なのであろうか?本を読まなくても、ある程度本書の構造が見えてくるようで興味深い。

 とりあえず、入手してから5時間くらいの間に習得したことを述べてきた。これから、じっくりと使い込んでいきたいものだ。

【参考サイト】

KH Coderオフィシャルサイト