nutch1.0各种命令

gavinlau

浏览: 290111 次
性别:
来自: 上海

最近访客更多访客>>

icedcoco

stanley_llin

yonghong

bichonghai_1111

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎

Hadoop 互联网 Apache

nutch.job 文件的使用：

hadoop jar nutch-1.0.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1

局域网抓取

bin/nutch crawl urls -dir 20090519 -depth 1 -topN 50 -threads 2 >& nutch.log

互联网抓取命令(注：1.0版本的命令和以前版本有许多不一样)

1.读取urls目录下的站点添加到crawldb里
bin/nutch inject 20090519/crawldb urls
2.创建一个segments,存放到20090519目录下
bin/nutch generate 20090519/crawldb 20090519/segments
3.根据文件夹20090519102635下生成的下载列表获取页面内容
bin/nutch fetch 20090519/segments/20090519102635/
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容
bin/nutch updatedb 20090519/crawldb 20090519/segments/20090519102635
5.分析链接关系,生成反向链接
bin/nutch invertlinks 20090519/linkdb -dir 20090519/segments
6.创建页面内容索引
bin/nutch index 20090519/indexes 20090519/crawldb 20090519/linkdb 20090519/segments/20090519102635
7.删除重复数据
bin/nutch dedup 20090519/indexes
8.合并索引文件
bin/nutch merge 20090519/index 20090519/indexes

读取命令
1.查看crawldb数据库：bin/nutch readdb 20090519/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。

   导出权重和相关的url信息：bin/nutch readdb 20090519/crawldb/ -topN 20 urldb(out_dir)

   查看每个url地址的详细内容，导出数据：bin/nutch readdb 20090519/crawldb/ -dump crawldb(out_dir)

   查看具体的url，以163为例：bin/nutch readdb 20090519/crawldb/ -url http://www.163.com/

2.查看linkdb数据库的链接情况：bin/nutch readlinkdb 20090519/linkdb/ -url http://www.163.com/

   导出linkdb数据库文件：bin/nutch readlinkdb 20090519/linkdb/ -dump linkdb(out_dir)

3.查看segments：bin/nutch readseg -list -dir 20090519/segments/ 可以看到每一个segments的名称，产生的页面数，抓取的开始时间和结束时间，抓取数和解析数。

导出segments：bin/nutch readseg -dump 20090519/segments/20090309103156 segdb(out_dir)

其他相关命令，可输入bin/nutch查看各自具体用法自行参考

分享到：

Nutch1.0源码分析-----抓取部分 | JIRA搭建成功

2009-09-17 20:53
浏览 1110
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论