テキストマイニングのソフトを初めて使ってみた。KH Coderという、立命館大学の先生(樋口耕一・准教授)が開発されたソフトだ。使い方は、至って簡単。わずか2時間で、基本をほとんどマスターすることができた。「青空文庫」に収録された、福沢諭吉の『学問のすすめ』を使って、ちょっといじってみたので、簡単にご紹介したいと思う。
(1)分析対象のテキスト化
青空文庫をダウンロードする。テキスト形式のファイルでダウンロードする。
ダウンロードしたファイルには、ルビが含まれているので、これを秀丸を使って削除する。
また、余計なタグなどもあり、これも秀丸で削除する。
(2)KH Coderを起動
「新規プロジェクト」を選び、さきほどのテキストファイルを指定する。
(3)前処理の実行
(4) 「ツール」「抽出語」「抽出語リスト」で出現頻度の高い語をリストアップ
自動的にエクセルファイル形式で、出現頻度の高い語のリストが生成される(下図)
「人」がもっとも多く出現し、それに次いで「言う」「政府」「人民」の順番となっている。「学問」は以外と少ない。
(5)クラスター分析
語の出現状況から、クラスター分析を実行することができる。最小出現数を50以上に限定して、階層型クラスター分析を行うと、下のような結果が得られた。
「学問」「知る」「学者」が同一クラスターに含まれているのは、納得がゆく。「文明」「西洋」「日本」「力」が同一クラスターというのも、なんとなく分かる。
(6)編ごとの集計
「編」ごとの出現頻度の集計も行うことができる。そのためには、「編」の部分を<h1> </h1>で囲むことが必要だ。これも、秀丸を使えば、簡単に行うことができる。集計結果は、下の図に示すとおり。
こうしてみると、編ごとに出現する語に違いがあるということがわかる。
(7)対応分析
これは、出現語の関連を2次元のマップで示すことができるものだ。
「学問」という言葉が、全体の中心に位置しているのは、「見事」という他はない。編別では、12編あたりが本書の中心なのであろうか?本を読まなくても、ある程度本書の構造が見えてくるようで興味深い。
とりあえず、入手してから5時間くらいの間に習得したことを述べてきた。これから、じっくりと使い込んでいきたいものだ。
【参考サイト】
・KH Coderオフィシャルサイト
コメント
コメント一覧 (2)
★真のスーパーコピー品質をお届けするルイヴィトンブランドコピー!
※価値あるブランドスーパーコピー財布、バッグのヴィトンコピー※
■品質重視なブランドコピー商品販売!
★高級品☆┃時計┃バッグ┃財 布┃その他┃
◆★ 誠実★信用★顧客は至上
http://bit.ly/2BHRMV3
●在庫情報随時更新!
品質がよい 価格が低い 実物写真 品質を重視
%品質保証 100%満足保障 信用第一
★人気最新品┃特恵中┃☆腕時計、バッグ、財布、ベルト、靴、帽子、アクセサリー、小物☆
★当店商品送料無料日本全国!
※全物品激安,到着するのは迅速で、安全。
■あなたの訪問のを期待しています!☆ヽ(▽⌒)
会社名称 ルイヴィトンコピーN品第1店
ホームページ上でのご注文は24時間受け付けております
http://bit.ly/2Ccf6O5