Javaの RDF crawler (検索ロボット)

  • 投稿日:
  • by

 Goodpicさんのページで、Javaの RDF crawler (検索ロボット)の記事を読みました。

WEB上をcrawlしてRDFを探しつつ情報をデーターベースに格納してくれる、Javaベースの検索ロボットだそうです。
 
An RDF crawler(Hackdiary)
 
アクセスログを見ると、このブログにもGoogleなどの大手の検索以外のクローラーが結構来ているようなのですが、XMLメタデータの活用方法を考えつつ、色々な検索ロボットを作っている人も多いのでしょうか?以前にJavaベースの検索ロボットを調べてJ-Spiderは結構よさそうだったのですが、RDFに特化したクローラーというのは色々と使えそうですね。

 そこで、Hackdiaryの方ですが、簡単に出来そうだったので試してみました。
 ↓このプログラムのDataSourceとアカウントの自分の環境に合わせてReCompileだけで動作しました。
 src/com/hackdiary/foaf/scutter/Scutter.java
 ここを修正 → DBConnection dbcon = new DBConnection("jdbc:mysql://localhost/scutter", "scutter", "scutfoo");
 
 起動は付属のシェル(scutter.sh)にRDFなどのURLを引数として渡せば動作します。
例 )
# scutter.sh http://www.myblog.jp/blogs.rdf?type=rss1.0
2003-12-10 07:11:34.711 INFO [http://www.myblog.jp/blogs.rdf?type=rss1.0] com.hackdiary.foaf.scutter.Retriever - Retrieving
2003-12-10 07:11:39.305 INFO [http://www.myblog.jp/blogs.rdf?type=rss1.0] com.hackdiary.foaf.scutter.Retriever - Finished retrieving
2003-12-10 07:11:39.473 INFO [http://www.myblog.jp/blogs.rdf?type=rss1.0] com.hackdiary.foaf.scutter.Aggregator - Deleted 0 triples from http://www.myblog.jp/blogs.rdf?type=rss1.0
2003-12-10 07:11:55.955 INFO [http://www.myblog.jp/blogs.rdf?type=rss1.0] com.hackdiary.foaf.scutter.Aggregator - Added 820 triples to model (with provenance), now have 1340 triples.
 
 設定や検索情報などはDBの下記テーブルの様に作成されます。
 +---------------------------+
 | RDF_LAYOUT_INFO
 | RDF_LITERALS
 | RDF_MODELS
 | RDF_NAMESPACES
 | RDF_RESOURCES
 | RDF_STATEMENTS
 +---------------------------+
 
 この中で、参考までに RDF_NAMESPACES を見てみた。
mysql> select * from RDF_NAMESPACES ;
+----+-----------------------------------------------------------------------------------------+
| ID | URI
+----+-----------------------------------------------------------------------------------------+
| 1 | http://www.myblog.jp/blogs.rdf?type=
| 2 | http://accessmx.web.infoseek.co.jp/
| 3 | http://news.2log.net/slows/archives/
| 4 | http://misc.2log.net/tabini000/archives/
| 5 | http://www.miryuna.net/greenblood/index.php?id=
| 6 | http://blog.nettribe.org/btblog.php?bid=
| 7 | http://www.myprofile.ne.jp/blog/archive/brain-tennis/
 
 きちんと動作しているようだ!
 
 時間があれば色々してみたいが、XMLをベースとしたセマンテックウェブの何か楽しい事が出来るような気がします。 しかしそのアイデアが、なかなかあるようで無いようで・・・