RSS  WAP  简体中文  繁体中文  English  
高级搜索
游客:注册    ;用户登录 搜索  论坛首页  
您现在的位置:网站引擎产品论坛SiteEngine安装使用采集功能使用教程[链接已修复]
您好,  积分:,您有0条新站内短信 最新帖子
  
主题: 采集功能使用教程[链接已修复] 上一主题  下一主题
TinTin


商务门户版

Level: 35
HP: 979 / 979
MP: 607 / 899
Exp: 98%

帖子: 912
积分: 2386
注册时间: 2006-01-17
采集功能使用教程[链接已修复] 1楼
采集功能使用教程[链接已修复]

关键词:采集 功能 教程 使用 修复 


附件
ssm8r73Ms8w=_8PuwzF.rar (1.82 M,下载次数:82)
07-3-16 10:30 1楼
  插入邮件地址  发短消息     回复
flyboybz


普及版

Level: 17
HP: 58 / 458
MP: 15 / 485
Exp: 36%

帖子: 23
积分: 51
注册时间: 2007-03-07
采集图片注意路径 2楼
如果采集带图片的页面,查看页面源文件时,注意看下图片的路径是相对的还是绝对路径。
比如网站地址是www.ctwh.com,采集的图片 格式为 src="./images/1.gif就是相对的。
绝对路径为 http: // www.ctwh.com/images/1.gif
如果相对得改为绝对才可以采集下来,否则还是空白。就要在采集规则的替换里面这样写
src="./images/"|src="http://www.ctwh.com/images/"
请技术人员证实。



07-3-23 19:41 2楼
  插入邮件地址  发短消息     回复
admin

Administrator


Level: 1
HP: 0 / 0
MP: 0 / 246
Exp: 0%

帖子: 0
积分: 0
注册时间: 2007-11-01
3楼




07-3-24 10:58 3楼
  插入邮件地址  发短消息     回复
hws68


免费版

Level: 9
HP: 5 / 225
MP: 1 / 344
Exp: 5%

帖子: 2
积分: 7
注册时间: 2007-07-26
4楼
此教程无法观看,请问是什么原因?
我已经下载出来了。



07-7-26 19:22 4楼
  插入邮件地址  发短消息     回复
东方书画网


普及版

Level: 22
HP: 140 / 609
MP: 37 / 829
Exp: 77%

帖子: 56
积分: 163
注册时间: 2006-03-28
5楼
采集功能无法浏览???????????????



07-11-26 11:44 5楼
  插入邮件地址  发短消息     回复
淡蓝海王星


普及版

Level: 15
HP: 98 / 409
MP: 26 / 170
Exp: 59%

帖子: 39
积分: 87
注册时间: 2008-01-16
转“天下布武” 的回帖 6楼
以下内容 转自“天下布武” 的回帖
希望有点帮助:
我想这位朋友已经了解了咱们"采集"的原理 我说说我的看法

首先 获取新闻列表 是在一个真正的标题页面地址分析它的代码
然后从中取出带有 咱们设定的 "必含字符" 的所有连接(规则大概是第二个"采集路径"+"必含字符") 作为采集列表
然后在从这些列表中的所有连接指向的新闻页面 再进行分析 获得"开始标记"和"结束标记" 的语句 去掉用不上的代码
最后就生成了 采集到的新闻了

那么由于的这位朋友的环境是在内网 没法亲自试验 只能谈些个人看法
首先 如果不是文章开始和结束的标识 设置不当的话
那么只能是采集路径的问题了 大部分的网页我们遇到的都是直接在页面源代码中就存在的新闻列表
当然很容易分析出所有列表
这位朋友遇到是的list型的列表页面 我们只要找到真正的页面地址就可以继续我们的工作了

但是有些列表是分页的 就不一定能保证咱们的第一个"采集路径"的正确性 导致工作的无法完成 这或许就能解释这位朋友提出的第二个问题了

第一个问题就比较怪异了 但是原因无非采集的要求咱们要达到
    首先 列表地址的真实性
    第二 连接到新闻页面的地址的真实性和规则性
    第三 文章"起始位置"和"结束位置"的准确性,通用性和唯一性

30个列表中的16个之外的连接或许指向的不是真实的地址? 这个有一定的可能性

您可以单独采集一个不能批量采集的连接 然后在分析下这个连接指向的新闻页面的源代码
在列表直接点击 也在浏览器地址栏直接输入 看是否是已经采集过的新闻
同时检查下"起始位置"和"结束位置"的准确性和唯一性

这就是我个人的看法 没有真正解决问题 仅供大家一起讨论

==========================================================
可能有些人会迷糊 什么第一个采集路径 第二个采集路径.......
可以参见楼主上传的图片 有两个文本框都叫"采集路径"
在这里 我称 最上面一个叫 "第一个采集路径"
在"文章开始标记"上面那个叫 "第二个采集路径"



08-1-23 09:46 6楼
  插入邮件地址  发短消息     回复
     
© 2002 - 2007 BOKAVAN Inc. All Rights Reserved  博卡先锋 版权所有  京ICP备06013158