福冨諭の福冨論

RSSリーダーではこちらをどうぞ→https://feeds.feedburner.com/fuktommy

正解データの作り方

自然言語処理の研究では正解データを作るのが大変という話はしました。 今回は正解データの作り方について書きます。

ちなみに音声言語処理の研究では実験の計算量が大変らしいです。 後輩が研究室中のコンピュータを総動員して24時間かかる実験をやってます。

あらかじめ正解データを用意せず、プログラムの出力を見て○×をつけるのは最悪です。 ちょっとパラメータを変更したら、最初から採点をし直さなければなりません。 正解データを用意しておいて、採点そのものはコンピュータに任せなければ、 とても実験が終わりません。

実のところ、過去何回もこの失敗をやりました。 どうも手間ばかりかかって時間が足りないのです。 あまりに当たり前すぎるためか、先生も先輩も教えてくれないのでした。

実際の作業は文章を見ながらマークしていくことになります。 赤線を引くような感覚ですね。 画面上ですから括弧で印を付けたりします。

これもけっこうしんどいので、評価しようと思っているシステムを利用します。 システムを通せば、それなりの精度で正解がマークされるはずなので、 正しいものはそのまま残し、間違っているものを修正します。 ここでは○×をつける必要はないことに注意してください。 ○×は1組のデータしか評価できませんが、正解データは何回でも使い回しがききます。

できるだけ使い回しがきくような形式で正解データを作りましょう。