RSS
WAP
简体中文
繁体中文
English
游客:
注册
;
用户登录
搜索
论坛首页
您现在的位置:
网站引擎
产品论坛
SiteEngine
安装使用
采集功能使用教程[链接已修复]
您好,
积分:
,您有
0
条新站内短信
最新帖子
主题: 采集功能使用教程[链接已修复]
上一主题
下一主题
TinTin
商务门户版
Level: 35
HP: 979 / 979
MP: 607 / 899
Exp: 98%
帖子: 912
积分: 2386
注册时间: 2006-01-17
采集功能使用教程[链接已修复]
1楼
采集功能使用教程[链接已修复]
关键词:
采集
功能
教程
使用
修复
附件
ssm8r73Ms8w=_8PuwzF.rar
(1.82 M,下载次数:
82
)
07-3-16 10:30 1楼
flyboybz
普及版
Level: 17
HP: 58 / 458
MP: 15 / 485
Exp: 36%
帖子: 23
积分: 51
注册时间: 2007-03-07
采集图片注意路径
2楼
如果采集带图片的页面,查看页面源文件时,注意看下图片的路径是相对的还是绝对路径。
比如网站地址是
www.ctwh.com
,采集的图片 格式为 src="./images/1.gif就是相对的。
绝对路径为 http: //
www.ctwh.com/images/1.gif
如果相对得改为绝对才可以采集下来,否则还是空白。就要在采集规则的替换里面这样写
src="./images/"|src="http://www.ctwh.com/images/"
请技术人员证实。
07-3-23 19:41 2楼
admin
Administrator
Level: 1
HP: 0 / 0
MP: 0 / 246
Exp: 0%
帖子: 0
积分: 0
注册时间: 2007-11-01
3楼
07-3-24 10:58 3楼
hws68
免费版
Level: 9
HP: 5 / 225
MP: 1 / 344
Exp: 5%
帖子: 2
积分: 7
注册时间: 2007-07-26
4楼
此教程无法观看,请问是什么原因?
我已经下载出来了。
07-7-26 19:22 4楼
东方书画网
普及版
Level: 22
HP: 140 / 609
MP: 37 / 829
Exp: 77%
帖子: 56
积分: 163
注册时间: 2006-03-28
5楼
采集功能无法浏览???????????????
07-11-26 11:44 5楼
淡蓝海王星
普及版
Level: 15
HP: 98 / 409
MP: 26 / 170
Exp: 59%
帖子: 39
积分: 87
注册时间: 2008-01-16
转“天下布武” 的回帖
6楼
以下内容 转自“天下布武” 的回帖
希望有点帮助:
我想这位朋友已经了解了咱们"采集"的原理 我说说我的看法
首先 获取新闻列表 是在一个真正的标题页面地址分析它的代码
然后从中取出带有 咱们设定的 "必含字符" 的所有连接(规则大概是第二个"采集路径"+"必含字符") 作为采集列表
然后在从这些列表中的所有连接指向的新闻页面 再进行分析 获得"开始标记"和"结束标记" 的语句 去掉用不上的代码
最后就生成了 采集到的新闻了
那么由于的这位朋友的环境是在内网 没法亲自试验 只能谈些个人看法
首先 如果不是文章开始和结束的标识 设置不当的话
那么只能是采集路径的问题了 大部分的网页我们遇到的都是直接在页面源代码中就存在的新闻列表
当然很容易分析出所有列表
这位朋友遇到是的list型的列表页面 我们只要找到真正的页面地址就可以继续我们的工作了
但是有些列表是分页的 就不一定能保证咱们的第一个"采集路径"的正确性 导致工作的无法完成 这或许就能解释这位朋友提出的第二个问题了
第一个问题就比较怪异了 但是原因无非采集的要求咱们要达到
首先 列表地址的真实性
第二 连接到新闻页面的地址的真实性和规则性
第三 文章"起始位置"和"结束位置"的准确性,通用性和唯一性
30个列表中的16个之外的连接或许指向的不是真实的地址? 这个有一定的可能性
您可以单独采集一个不能批量采集的连接 然后在分析下这个连接指向的新闻页面的源代码
在列表直接点击 也在浏览器地址栏直接输入 看是否是已经采集过的新闻
同时检查下"起始位置"和"结束位置"的准确性和唯一性
这就是我个人的看法 没有真正解决问题 仅供大家一起讨论
==========================================================
可能有些人会迷糊 什么第一个采集路径 第二个采集路径.......
可以参见楼主上传的图片 有两个文本框都叫"采集路径"
在这里 我称 最上面一个叫 "第一个采集路径"
在"文章开始标记"上面那个叫 "第二个采集路径"
08-1-23 09:46 6楼
相关新闻
相关下载
相关论坛
购买SiteEngine后,一定要使用贵公司的服务器空间
2007-11-30
安装使用SiteEngine,对环境有什么要求
2007-11-30
Apache无法启动:另一个Webserver使用了同一个端口
2007-11-30
如何在前台调用留言板的功能
2007-11-23
默认的首页flash轮播功能在哪里修改
2007-11-23
使用采集功时,为何新闻标题和内容对应不上
2007-11-23
编辑功能页面
2007-11-08
目前解决方法只有强制性修改模板,我们会在后续的版本中改进此功能。
2007-11-26
采集新闻教程无法浏览是怎么回事?
2007-11-26
这个数据库错误怎么解决?
2007-10-31
© 2002 - 2007
BOKAVAN
Inc. All Rights Reserved
博卡先锋
版权所有
京ICP备06013158