nutch.job 文件的使用:
hadoop jar nutch-1.0.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1
局域网抓取
bin/nutch crawl urls -dir 20090519 -depth 1 -topN 50 -threads 2 >& nutch.log
互联网抓取命令(注:1.0版本的命令和以前版本有许多不一样)
1.读取urls目录下的站点添加到crawldb里
bin/nutch inject 20090519/crawldb urls
2.创建一个segments,存放到20090519目录下
bin/nutch generate 20090519/crawldb 20090519/segments
3.根据文件夹20090519102635下生成的下载列表获取页面内容
bin/nutch fetch 20090519/segments/20090519102635/
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容
bin/nutch updatedb 20090519/crawldb 20090519/segments/20090519102635
5.分析链接关系,生成反向链接
bin/nutch invertlinks 20090519/linkdb -dir 20090519/segments
6.创建页面内容索引
bin/nutch index 20090519/indexes 20090519/crawldb 20090519/linkdb 20090519/segments/20090519102635
7.删除重复数据
bin/nutch dedup 20090519/indexes
8.合并索引文件
bin/nutch merge 20090519/index 20090519/indexes
读取命令
1.查看crawldb数据库:bin/nutch readdb 20090519/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
导出权重和相关的url信息:bin/nutch readdb 20090519/crawldb/ -topN 20 urldb(out_dir)
查看每个url地址的详细内容,导出数据:bin/nutch readdb 20090519/crawldb/ -dump crawldb(out_dir)
查看具体的url,以163为例:bin/nutch readdb 20090519/crawldb/ -url http://www.163.com/
2.查看linkdb数据库的链接情况:bin/nutch readlinkdb 20090519/linkdb/ -url http://www.163.com/
导出linkdb数据库文件:bin/nutch readlinkdb 20090519/linkdb/ -dump linkdb(out_dir)
3.查看segments:bin/nutch readseg -list -dir 20090519/segments/ 可以看到每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。
导出segments:bin/nutch readseg -dump 20090519/segments/20090309103156 segdb(out_dir)
其他相关命令,可输入bin/nutch查看 各自具体用法自行参考
分享到:
相关推荐
Nutch1.0的API,不过注意没有搜索功能
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Eclipse 中编译 Nutch-1.0 运行源代码
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
nutch-1.0-dev.jar nutch devlope
Nutch-1.0分布式安装手册.rar,完整的
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
$ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。