メディア研究の重要な方法論の一つとして、「内容分析」というものがある。メディアのテキスト(あるいは画像)を数量的に処理することによって、メディアの内容(メッセージ)を分析するのがその目的である。最近では、新聞報道の分析をするときに、「記事データベース」を用いる機会が多くなった。
それにも拘わらず、記事データベースから内容分析に至るまでのプロセスを解説してくれる本がない、というのが現状である。そこで、私なりに、その手順を考えてみたので、忘れないうちに、ここでメモしておくことにしたい。
具体的な事例として、朝日、読売両新聞における「原発」報道をあげることにしたい。これは、私自身、来年度にもこれを対象として内容分析を行い、その結果を大学の紀要で発表したいからである。
手順1:
記事データベースにアクセスし、「キーワード」で分析対象記事を抽出する。キーワードとしては、「原発」を用いることにする。ここでは、読売新聞の記事データベースを用いて説明したい。分析の単位は、1日ごとの記事報道とする。対象期間は、2011年3月12日以降とする。とりあえずは、3月13日の読売新聞(全国版)の記事を対象として、記事を検索したところ、合計39本の記事が得られた。それぞれの記事をコピーして、yomi0313-1.txtといった名称のテキストファイルとして、\c:genpatsu\yomi\yomi0313というフォルダに保存する。このフォルダには、合計39個のテキストが保存されることになる。
手順2:
次に、この39個のファイルを結合して、yomi0313.txtという一つのファイルをつくりたいと思う。これには、Dosコマンドをつかえば、あっという間に作業が終了する。次のようなコマンドだ。
type *.txt > yomi0313.txst
これは実に簡単かつ便利なコマンドだ。39個の長大なテキストが、あっという間に一つのファイルに統合されるのだから、まったく驚くべきことだ。大いに時間の節約になるので、いろいろな機会に、ぜひ試してみたいと思う。このやり方は、ネットで検索しているうちに発見した方法だ。コマンドは、上記のフォルダ内で実行することが必要である。
手順3:
こうしてできたyomi0313.txtにテキスト処理を施す。余計な部分を削除したり、整形するのが目的だ。見出しの部分は、本文と重複するので、その部分だけを削除したいと思う。読売新聞の場合、見出しには■または◆が先頭についているので、「■または◆を含む行」をすべて削除することにしたい。
実は、このような処理は、「秀丸」など、通常のテキストエディタではできないので、Perlというテキスト処理用のプログラムを使わざるを得ない。私のようなプログラミングの苦手な人間にとっては、かなり高いハードルの作業だったが、「入門書」を購入して初歩の勉強をしたのに加えて、ネット上でPerlの見本サンプルを入手することができたので、そのプログラムを紹介することにしたい。
入力ファイルは、yomi0313.txt、出力ファイルはyomi0313b.txtとして、次のようなPerl スクリプトを書いて、perlで実行させればよい。yomi0313.txtから入力して、yomi0313b.txtというファイルに出力させるのである。これらのファイルは、いずれも同じフォルダにあることに注意されたい。このプログラムでは、「■または◆を含む行を削除する」という作業を行っている。私などの超初心者には、このプログラムの意味の半分もわからないのだが、これで実行した結果、首尾良くできたので、正解なのだろうと思う(結果良ければ、すべて良しw)。高性能のパソコンを使っているせいか、計算はあっという間にできた。
これで、テキスト処理の前準備の段階は完了である。あとは、KH Coderというテキスト・マイニングソフトを活用して、内容分析を行えばよい。KHCoderを使った分析については、稿を改めて紹介することにしたい。
それにも拘わらず、記事データベースから内容分析に至るまでのプロセスを解説してくれる本がない、というのが現状である。そこで、私なりに、その手順を考えてみたので、忘れないうちに、ここでメモしておくことにしたい。
具体的な事例として、朝日、読売両新聞における「原発」報道をあげることにしたい。これは、私自身、来年度にもこれを対象として内容分析を行い、その結果を大学の紀要で発表したいからである。
手順1:
記事データベースにアクセスし、「キーワード」で分析対象記事を抽出する。キーワードとしては、「原発」を用いることにする。ここでは、読売新聞の記事データベースを用いて説明したい。分析の単位は、1日ごとの記事報道とする。対象期間は、2011年3月12日以降とする。とりあえずは、3月13日の読売新聞(全国版)の記事を対象として、記事を検索したところ、合計39本の記事が得られた。それぞれの記事をコピーして、yomi0313-1.txtといった名称のテキストファイルとして、\c:genpatsu\yomi\yomi0313というフォルダに保存する。このフォルダには、合計39個のテキストが保存されることになる。
手順2:
次に、この39個のファイルを結合して、yomi0313.txtという一つのファイルをつくりたいと思う。これには、Dosコマンドをつかえば、あっという間に作業が終了する。次のようなコマンドだ。
type *.txt > yomi0313.txst
これは実に簡単かつ便利なコマンドだ。39個の長大なテキストが、あっという間に一つのファイルに統合されるのだから、まったく驚くべきことだ。大いに時間の節約になるので、いろいろな機会に、ぜひ試してみたいと思う。このやり方は、ネットで検索しているうちに発見した方法だ。コマンドは、上記のフォルダ内で実行することが必要である。
手順3:
こうしてできたyomi0313.txtにテキスト処理を施す。余計な部分を削除したり、整形するのが目的だ。見出しの部分は、本文と重複するので、その部分だけを削除したいと思う。読売新聞の場合、見出しには■または◆が先頭についているので、「■または◆を含む行」をすべて削除することにしたい。
実は、このような処理は、「秀丸」など、通常のテキストエディタではできないので、Perlというテキスト処理用のプログラムを使わざるを得ない。私のようなプログラミングの苦手な人間にとっては、かなり高いハードルの作業だったが、「入門書」を購入して初歩の勉強をしたのに加えて、ネット上でPerlの見本サンプルを入手することができたので、そのプログラムを紹介することにしたい。
入力ファイルは、yomi0313.txt、出力ファイルはyomi0313b.txtとして、次のようなPerl スクリプトを書いて、perlで実行させればよい。yomi0313.txtから入力して、yomi0313b.txtというファイルに出力させるのである。これらのファイルは、いずれも同じフォルダにあることに注意されたい。このプログラムでは、「■または◆を含む行を削除する」という作業を行っている。私などの超初心者には、このプログラムの意味の半分もわからないのだが、これで実行した結果、首尾良くできたので、正解なのだろうと思う(結果良ければ、すべて良しw)。高性能のパソコンを使っているせいか、計算はあっという間にできた。
$file="yomi0313.txt";
$outfile="yomi0313b.txt";
open (IN, $file) or die "$!"; # ファイルを開く
open (OUT, ">$outfile") or die "$!"; # ファイルを開く
flock(IN, 2); # ファイルをロックする
while(){
push(@lines,$_);
}
foreach $line (@lines) {
if($line !~/■|◆/) {
push(@new,$line); # 配列@newの最後にlineを追加する
}
}
truncate(IN,0); # ファイルINのサイズを0に変更する
seek(IN,0,0); # 書き込み位置を先頭に戻す
print OUT @new;
close(IN);
close(OUT) ;
これで、テキスト処理の前準備の段階は完了である。あとは、KH Coderというテキスト・マイニングソフトを活用して、内容分析を行えばよい。KHCoderを使った分析については、稿を改めて紹介することにしたい。
コメント