自然言語処理の研究では正解データを作るのが大変という話はしました。 今回は正解データの作り方について書きます。
ちなみに音声言語処理の研究では実験の計算量が大変らしいです。 後輩が研究室中のコンピュータを総動員して24時間かかる実験をやってます。
あらかじめ正解データを用意せず、プログラムの出力を見て○×をつけるのは最悪です。 ちょっとパラメータを変更したら、最初から採点をし直さなければなりません。 正解データを用意しておいて、採点そのものはコンピュータに任せなければ、 とても実験が終わりません。
実のところ、過去何回もこの失敗をやりました。 どうも手間ばかりかかって時間が足りないのです。 あまりに当たり前すぎるためか、先生も先輩も教えてくれないのでした。
実際の作業は文章を見ながらマークしていくことになります。 赤線を引くような感覚ですね。 画面上ですから括弧で印を付けたりします。
これもけっこうしんどいので、評価しようと思っているシステムを利用します。 システムを通せば、それなりの精度で正解がマークされるはずなので、 正しいものはそのまま残し、間違っているものを修正します。 ここでは○×をつける必要はないことに注意してください。 ○×は1組のデータしか評価できませんが、正解データは何回でも使い回しがききます。
できるだけ使い回しがきくような形式で正解データを作りましょう。