闪电下载吧 最新软件 免费软件 绿色软件

教程资讯 软件专题

您的位置:SD124 > 网络资源 > 软件教程 > 万能文章采集器中文v2.17.7.0下载安装学习使用图文教程

万能文章采集器中文v2.17.7.0下载安装学习使用图文教程

软件教程 发布日期:2018-07-11  浏览: 次 网友评论
水淼·万能文章采集器破解版是一款功能强大的文章采集工具,使用可帮助用户快速采集列表页(栏目页)文章、关键词新闻、微信等,可输入关键词采集各大搜索引擎网页和新闻,也可以采集指定网站文章。基于水淼自主研发的正文识别智能算法,能在互联网纷繁复杂的网页中尽可能准确地提取出正文内容。正文识别有自动识别(即以前的“标准”、“严格”模式)、“精确标签”、“头尾标记”。其自动识别能适应绝大多数网页的正文提取,而“精确标签”只需指定正文标签头,如“<div class="text">”,就能通吃所有网页的正文提取;头尾标记则是指定正文的开头和结尾。关键词采集目前支持的搜索引擎有:百度、搜狗、360、谷歌、必应、雅虎等,采集指定网站文章的功能也非常简单,只需要稍微设置(不需要复杂的规则),就能批量采集目标网站的文章了。因为墙的问题,要使用谷歌搜索和谷歌转译文章的功能,需要使用VPN换国外IP。本次小编带来的是水淼·万能文章采集器最新破解版,绿色无需安装,运行即是破解版,需要的朋友不要错过了 !

安装破解教程

在本站下载并解压,双击水淼·万能文章采集器Cracked.exe运行,软件即使中文破解版

使用帮助

下面是界面组件的说明:
1、采集分页:如果正文有分页显示,则自动采集分页合并
删除链接:删除网页中锚文本的链接功能,只留下锚文本的标题
2、txt 格式:保存成txt文本(自动清除HTML标签)
3、调试模式:在正文的开头插入“调试模式:标题和链接”的内容,以方便进入原网页对比正文识别效果
4、标题有关键词:只有标题中包含搜索关键词的网页才采集
5、放弃短标题:当自动识别的标题的长度低于原始标题三分之一时,即为短标题,通常这种标题是错误的,因此可以勾选放弃它,这样就使用原始标题(此段遇到时自会理解)。
6、删除外层代码:使用自动识别和精确标签时,通常都会包含<div id="mm"></div>这样的外层代码,如果不需要,那就要打勾删除。
7、过滤正文:有些正文里包含了标题元素,如<h1><h2><h3>这三种需要删除,还有很多有class属性的标签也属于系统定义的非正文内容,比如 <p class="ee">推荐内容</p>,一般只要删除class代码,就能去掉绝大多数的非正文内容,然后跟着还有个例外编辑框,用于输入不能删除的class,直接填入class的值,多个值使用|隔开。
8、【精确标签】特别说明:
请使用谷歌浏览器或傲游浏览器,鼠标右键单击正文的开始位置-审查元素,然后定位正文的代码段,将该代码段的标签头复制。
如代码段:<div class="text">正文部分</div>,则复制<div class="text">
多个标签可以使用“|”隔开
关键词采集的文章自动比对本地相同标题的文章,相似度超过60%就跳过,低于60%就自动重命名保存。

使用说明

1、文章分页采集的最大页数,没有设置有效数字的话默认为50页。
2、在有些网页混乱的标题中,自动识别标题时侧重于h1、h2、h3等哪个标签,在上面第一行填写。
3、文章正文识别的最少字数,没有设置有效数字的话默认为200字。
4、如果自动识别的标题不满意,可以在本文件的第一行设置标题的开始内容和结束内容,使用|隔开,
比如:<div class="newde-title">【周报第398期】为何我的管理如此高效?</div>
设置:<div class="newde-title">|</div>

使用教程

1、POST方法
采集列表页的文章URL时支持POST方法原先只有访问地址(GET方法)但是有时候遇到需要投递参数就需要POST方法了。
在软件的【列表页URL】里可以这样填:POST地址IPOST参数比如:
百科的这个列表页有多种文章URL格式,如:
http://baike.baidu.com/subview/272093/8954610.htm http://baike.baidu.com/view/949203.htm
2、采集百度贴吧用户名  
(1)首先,生成贴吧用户名的列表页地址:  
(2)然后单篇采集一个列表页以确定能采集到用户名列表(使用精确标签所有): 
(3)最后就是将全部的列表页地址放到批量采集区里开始采集:  
采集好之后,一个列表页的用户名是保存一个文件的。
3、批量采集视频地址
这个跟采集文章地址的原理都是一样的。可以使用万能文章采集器的采集文章URL列表的功能,如下图:


4、采集已发布文章地址或删除已经发布的本地文章
采集文章的网址列表
要采集已经发布文章的网址列表,可以使用水淼·万能文章采集器的采集文章URL列表栏目
采集网址列表的标题、关键字、描述等
如果还要进一步采集网址列表的标题或其他信息,可以使用水淼·文章组合工具集程序界面右上角的网页标题提取工具
删除本地已经发布的文章
有的朋友在使用水淼系列站群文章更新器发布文章时,可能忘了打勾软件里的删除已更新文章,导致本地文章目录没有及时删掉已更新文章,下次再更新同一个目录就可能发生重复。所以,在获取到已发布文章标题列表后,可以使用水淼·文件筛选助手,把相同标题的文章列出来再批量删除。

5、采集文章+转译伪原创+关键词插入+生成单页
(1)万能文章采集器-采集文章
(2)万能文章采集器-转译文章(伪原创)
(3)关键词插入助手-插入关键词组合锚文本
(4)单页网站生成系统-导入文章生成静态网页系统
提示1:如果不需要转译文章,则跳过第1和第2步,其中第3步的关键词插入,使用万能文章采集器-采集设置中的关键词插入设定,在采集文章时自动完成。第2步的伪原创,你也可以使用其他工具来处理。
提示2:第4步生成单页,先用内置的模板2生成一个单页目录,再使用批量改名软件,将文章列表的文件名修改成递进状态,再使用内置的模板1或自定义模板生成一个单页目录,完成。
内置模板生成的单页都是使用相对路径,因此你可以直接上传到任意网站的任意目录下直接访问。
如水淼将最后生成“单页目录”改名为“mbdy”,并上传到水淼官网(www.shuimiao.net)根目录下的“demo”中。
最后可以通过这个地址访问到生成好的静态网站系统 http://www.shuimiao.net/demo/mbdy/
6、使用精确标签删除正文中的广告等多余内容。
使用精确标签来采集文章:
比如这个网页,使用《万能文章采集器》的精确标签来提取正文:
<div id="bookContent">
使用精确标签来删除多余内容:
然后发现这个正文里还包括了一些不需要的内容,通常在正文尾部。
这里则使用《多功能批量排版》的精确标签(网页处理-删除标签之间)来删除不需要的内容:
<div class="pro-examine" id="proScoreModule">
该软件还有各种文本处理功能,可以组合处理。
《万能文章采集器》的最新版本也支持了过滤正文时指定精确标签:

本文地址:http://www.sd124.com/article/2018/0711/224156.html
《万能文章采集器中文v2.17.7.0下载安装学习使用图文教程》由闪电下载吧整理并发布,欢迎转载!

  • 相关文章:
  • 相关软件:
本周热点
本月热点
关于本站 - 网站帮助 - 广告合作 - 下载声明 - 友情连接 - 网站地图 - 网站标签
有任何意见或者建议请联系邮箱:858898909[at]qq.com 本站部分内容收集于互联网,如果有侵权内容、不妥之处,请联系我们删除。敬请谅解!
Copyright © 2012 SDBETA.com. All Rights Reserved 豫ICP备12021367号 豫公网安备 41019702002546号闪电下载吧