未来検索livedoorというのがあります。 「日本国内のBlogすべて」を検索対象にしているといいつつも、 このサイトが検索できるようになったのは、ごく最近のことです。 その一方で声のかけら。をBlogと判断していた時期がありました。 一体、どういう原理で判断していたのでしょうか。
今度のは、あの奥村研究室のblogWatcherです。
そこで、blogWatcherでは、これらのWeb日記も含めて「blog」と呼び、 それらの網羅的な収集に取り組みました。 具体的には、Webページ中の日付表現に注目し、HTML文書の構造解析を行うことで、 あるページがblogかどうかを判定することができる技術を開発しました。 これらの技術を用いることにより、 Web上にあるあらゆる日記的なコンテンツを収集することが可能になりました。
だそうです。 「未来検索独自の方法」と威張っていたlivedoorに比べると、ずっと具体的です。 どの程度の性能なんでしょうかね。
- 日付のない日記はどうするのか
- 更新履歴と日記はどう区別するのか/しないのか
- 掲示板と日記はどう区別するのか/しないのか
- このサイトを日記と認識できるのかどうか
公開が楽しみです。
【参考】このサイトが検索対象になっているかどうか
○ 未来検索livedoor http://sf.livedoor.com/ ○ Bulkfeeds: RSS Directory & Search http://bulkfeeds.net/ × blog search/ブログ検索エンジン http://blog.threetree.jp/ × BLOGNAVI http://www.blognavi.com/ それぞれ「Googleで遊ぶ」で検索
例えば↓は日記なのだろうか
- 1日1つ俳句を公開するページ
- 新聞のコラムのようなもの
http://www.ipa.go.jp/SPC/report/03fy-pro/mito/15-821a.pdfより:
blog判定の精度は94.3%
推定再現率は83.8%
blogWatcherついに公開
http://blogwatcher.pi.titech.ac.jp/
RinGOch Blogが入ってるのが凄いぞ。 このサイトはやっぱり入ってない。∩( ・ω・)∩ばんじゃーい
まだindexingされてない、残りの300万entryに入ってるのかしらん。
fuktommyの関連語に
- pweb ←p2pwebの分割ミスだ(w
- winny
- 名無し
なんかがあるのはいいなあ。