火车头采集器怎么用?
软件程序的获取:大家可以从百度中搜索“火车头采集器”,并进入对应官方来获取程序的最新版本下载地址。当然也可以从小编所提供的网盘地址中获取最新版本程序:请点击输入图片描述请点击输入图片描述2安装并运行“火车头采集器”程序,在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。请点击输入图片描述3在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。请点击输入图片描述4在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。请点击输入图片描述5接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。请点击输入图片描述6然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。请点击输入图片描述7在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。请点击输入图片描述8接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为"“、”".请点击输入图片描述9利用同样的方法添加其它采集内容的规则。切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。请点击输入图片描述10最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。请点击输入图片描述如果还有啥问题,请留言或者私信,如果回答的还算可以,请列为最佳答案
如何使用火车头采集器采集网页图片详细图文教程
火车头采集器采集信息分两个步骤:
1,采网址。这一步也是就告诉软件,有多少个网页需要去采,并给出具体的网页地址。
2,采内容。有了网址之后,就可以去这个网址上采集信息了,但网页上信息众多,软件不知道你想采哪些。在采内容部分,就要做规则了。告诉软件我想采什么。
1,采网址。
网页上的产品信息就是所想采的,即为目标。
在采集链接页面里,输入采集地址的列表页,这里要注意无用链接的过滤。
然后点击测试按钮测试所填信息的正确性:
测试正确以后,我们对地址进行扩展,现在我们只不过是采了一张列表页的文章地址,还有其它的列表要需要采集,其它的列表页就在它的分页上,我们观察这些分布的链接形式,找出规律,然后批量填入网址规则。
2,内容的采集
经过上面的处理,目标产品页的链接都已经能够采到,下面我们进入内容的采集。
明确好要采集的内容以后,我们开始编写采集规则,火车头采集内容是采集网页的源代码,因此我们要打开产品页的源代码,找到我们要采集信息所在的位置。比如,Description字段的采集:
找到Description的位置,找到之后,如何填写采集规则呢,很简单,只要将采集目标的开始字符串与结束字符串填入采集的对应位置。这里我们选取Description:作为开始字符串,为结束字符串。值得注意的是,开始字符串必须在本页面是唯一的,并且在其它产品页面也存在这个字符串。本页面唯一能使软件找到要采集的位置,其它页面通用,保证软件能够采到其它页面的数据。
填完以后并不表示就能采集正确了,还需测试一下,排除一些无用数据,排除可在HTML标签排除和内容排除中进行。测试成功后,这样一个标签就制作好了。
这里我们使用通配符来实现这一要求。我们把不通用的地方用(*)通配符来表示任意。而要采集的地址我们用参数(变量)来表示。最后我们将这段内容变为:(*)Compare Prices(*)Product Details,填入模块,并测试是否成功。
如果测试没有成功,那说明你填入的内容还不符合唯一且通用的标准,还需要调试。测试成功以后,可以保存,进入标签的制作了。
这里的标签制作与上面的是一样的,找到要采集信息的所在地,填入开始结束字符串,并做好过滤,唯一的不同的在于所属页面选项里要选择刚才制作好的模块,这里就不赘述,直接显示结果了。
这样标签就制作完成了。点击更新以后,去掉发布选项,就可以进行任务的采集了。
有没有phpcms v9的火车头采集入口
1、首先下载安装好火车头采集器软件(收费免费的本文均适用),这个我相信大家都会,如有不会的找百度或官方论坛。二、下载phpcmsv9火车头接口文件jiekou.php与发布模块,官方下载地址http://bbs.locoy.com/spider-57236-1-1.html,本站下载地址(选本站更好些,不用转换发布模块,站在前辈肩膀上就是好,不用写接口文件也不用写模块)。
2、接口文件修改与上传:用软件或文本打开jiekou.php文件,找到$password='123456'; ”这句把123456修改成你想要的数字串,任意数字吧,我现在把它修改为$password='111111'; ,记下这个数字串,后面设置发布模块要用到。修改后保存,用FTP上传到你网站的根目录下,即www文件夹下。
3、设置发布模块:打开火车头软件,找到界面上的:发布:按钮
4、点击进入发布模块界面,我们用6步来完成模块设置,与界面上面的12345步骤顺序有所不同。1.点击新建,找到配置名处:起个配置名,在这里我把这个配置名命名为lunwen。2.选择编码设置,与自己网站的一样吧,在这里我选择GB2312.3.登录操作:首先填入网站根目录地址,如*********,记得这个一定要填根目录;然后点击“在内置浏览器中登录”按钮,用内置浏览器把网站打开,输全后台登录网址,和平时进后台方法一样,登录后台。登录成功后点下下面的“确定”按钮,点击回到模块设置界面:
5、这步很重要,“选择web在线发布模块”,里面没有模块,我们就点最右边的绿字“更多”,然后选择“导入”选中我们在第二步中下载好的phpcmsv9发布模块phpcms9.wpm(官方下载的叫phpcms9.cwr,需要转为wpm格式,欢迎页界面的扩展上可以转)。导入后,点绿色字“编辑”,进入编辑界面,点击获取栏目列表,看到界面中“刷新列表页面”中的地址:/jiekou.php?pw=123456,后面的123456数字串要改为与jiekou.php里的一样,即/jiekou.php?pw=111111,前面jiekou.php里我们是设置为了111111,所以这里改为与之一样。
phpcms v9火车头采集器接口设置图文教程
6、设置完后再点击“内容发布参数”按钮,设置方法和上面图中的一样,见下图吧
phpcms v9火车头采集器接口设置图文教程
7、上面设置好了,这步就点“获取列表”,如果上面设置都正确,就会自动获取到网站的所有栏目,如果不能获取就说明上面设置不对,重新检查一次看看。6.成功获取列表后就算成功了,点击“保存设置”,模块设置成功。6步走总图见下图
phpcms v9火车头采集器接口设置图文教程
8、下一步就等着写采集规则了,做过采集的写火车头采集器采集规则应该不难,都差不多,只要在有多页时注意一下就行了,不懂可以查下百度或论坛,例子很多也很全。
火车头采集器犯法吗
根据普通人的理解,使用火车头采集器采集火车头信息是不犯法的,因为火车头信息是公开的,也并不涉及到个人隐私。但是需要注意的是,不同国家和地区的法律法规有所不同,如若有部分法规明确禁止使用火车头采集器,则需遵循当地法规,避免违反法律。同时,在火车站铁路线附近使用采集器时,需要注意自身安全,避免发生危险事件。【摘要】
火车头采集器犯法吗【提问】
我还是有些不太明白,回答能否再详细些?【提问】
根据普通人的理解,使用火车头采集器采集火车头信息是不犯法的,因为火车头信息是公开的,也并不涉及到个人隐私。但是需要注意的是,不同国家和地区的法律法规有所不同,如若有部分法规明确禁止使用火车头采集器,则需遵循当地法规,避免违反法律。同时,在火车站铁路线附近使用采集器时,需要注意自身安全,避免发生危险事件。【回答】
火车头如何自动采集
说下我做采集的方式哈,我这边主要有两种方式,第一个,常规站点,内容很全,那就先找一个采集源,然后爬取整站数据,注意,这种方式,如果源站小说比较多的话,会非常耗时,按火车头十个进程来计算的话,一个进程可以开十个线程,也就是一个火车头最多可以跑100个线程,平均采集一章大概时间为1秒(加上列表采集所耗时间进行平均),10万本书的站,大概5000万加的章节,数据采集完毕大概需要一周时间,这是在你服务器配置比较好的情况下。然后就是发布,发布不能多线程,那么时间就得翻倍,也就是差不多两个多月时间吧。这也是为什么有人说火车采集小说比较慢的原因了。原始内容采集完了,然后每天就采集更新了,方式如第二点。
那么第二个,就是直接采集每日更新,以前的旧书就不采集了。这样的话,速度会比较快。当时就能用。火车头设置好定时任务,自动触发。
这是火车头采集小说网站的传统方式。
我研究火车头采集一个月,找到一个比较合适的快速采集方式,经多方位,多客户测试,采集10万本书,发布完毕,大概就是两天的时间。
具体时间跟服务器配置有一定的关系,比如,硬盘读写速度快慢、网络带宽(火车头放在服务器上的可以忽略)等,测试2H4G美国服务器,10万本大概两天加几个小时,采集需要花几个小时,发布大概接近两天时间。然后每日定时更新即可。
可百度搜索“九七阅读”查看站点,有书库频道,时间一看就知道了。
火车头采集器的功能
火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。LocoySpider采用Visual C#编写,可独立在Windows2008下运行(windows2003 自带.net1.1框架。最新版的火车采集器是2008版,需要升级到.net2.0框架才能使用),如您在Windows2000、Xp等环境下使用,请先到微软官方下载一个.net framework2.0或更高环境组件。火车采集器V2009 SP2 04月29日 在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。 火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。