安装破解教程
在本站下载并解压,双击水淼·万能文章采集器Cracked.exe运行,软件即使中文破解版使用帮助
下面是界面组件的说明:
1、采集分页:如果正文有分页显示,则自动采集分页合并
删除链接:删除网页中锚文本的链接功能,只留下锚文本的标题
2、txt 格式:保存成txt文本(自动清除HTML标签)
3、调试模式:在正文的开头插入“调试模式:标题和链接”的内容,以方便进入原网页对比正文识别效果
4、标题有关键词:只有标题中包含搜索关键词的网页才采集
5、放弃短标题:当自动识别的标题的长度低于原始标题三分之一时,即为短标题,通常这种标题是错误的,因此可以勾选放弃它,这样就使用原始标题(此段遇到时自会理解)。
6、删除外层代码:使用自动识别和精确标签时,通常都会包含<div id="mm"></div>这样的外层代码,如果不需要,那就要打勾删除。
7、过滤正文:有些正文里包含了标题元素,如<h1><h2><h3>这三种需要删除,还有很多有class属性的标签也属于系统定义的非正文内容,比如 <p class="ee">推荐内容</p>,一般只要删除class代码,就能去掉绝大多数的非正文内容,然后跟着还有个例外编辑框,用于输入不能删除的class,直接填入class的值,多个值使用|隔开。
8、【精确标签】特别说明:
请使用谷歌浏览器或傲游浏览器,鼠标右键单击正文的开始位置-审查元素,然后定位正文的代码段,将该代码段的标签头复制。
如代码段:<div class="text">正文部分</div>,则复制<div class="text">
多个标签可以使用“|”隔开
关键词采集的文章自动比对本地相同标题的文章,相似度超过60%就跳过,低于60%就自动重命名保存。
使用说明
1、文章分页采集的最大页数,没有设置有效数字的话默认为50页。
2、在有些网页混乱的标题中,自动识别标题时侧重于h1、h2、h3等哪个标签,在上面第一行填写。
3、文章正文识别的最少字数,没有设置有效数字的话默认为200字。
4、如果自动识别的标题不满意,可以在本文件的第一行设置标题的开始内容和结束内容,使用|隔开,
2、在有些网页混乱的标题中,自动识别标题时侧重于h1、h2、h3等哪个标签,在上面第一行填写。
3、文章正文识别的最少字数,没有设置有效数字的话默认为200字。
4、如果自动识别的标题不满意,可以在本文件的第一行设置标题的开始内容和结束内容,使用|隔开,
比如:<div class="newde-title">【周报第398期】为何我的管理如此高效?</div>
设置:<div class="newde-title">|</div>
使用教程
1、POST方法
采集列表页的文章URL时支持POST方法原先只有访问地址(GET方法)但是有时候遇到需要投递参数就需要POST方法了。
在软件的【列表页URL】里可以这样填:POST地址IPOST参数比如:
百科的这个列表页有多种文章URL格式,如:
http://baike.baidu.com/subview/272093/8954610.htm http://baike.baidu.com/view/949203.htm
2、采集百度贴吧用户名
(1)首先,生成贴吧用户名的列表页地址:
(2)然后单篇采集一个列表页以确定能采集到用户名列表(使用精确标签所有):
(3)最后就是将全部的列表页地址放到批量采集区里开始采集:
采集好之后,一个列表页的用户名是保存一个文件的。
3、批量采集视频地址
3、批量采集视频地址
这个跟采集文章地址的原理都是一样的。可以使用万能文章采集器的采集文章URL列表的功能,如下图:
4、采集已发布文章地址或删除已经发布的本地文章
4、采集已发布文章地址或删除已经发布的本地文章
采集文章的网址列表
要采集已经发布文章的网址列表,可以使用水淼·万能文章采集器的采集文章URL列表栏目
采集网址列表的标题、关键字、描述等
如果还要进一步采集网址列表的标题或其他信息,可以使用水淼·文章组合工具集程序界面右上角的网页标题提取工具
删除本地已经发布的文章
有的朋友在使用水淼系列站群文章更新器发布文章时,可能忘了打勾软件里的删除已更新文章,导致本地文章目录没有及时删掉已更新文章,下次再更新同一个目录就可能发生重复。所以,在获取到已发布文章标题列表后,可以使用水淼·文件筛选助手,把相同标题的文章列出来再批量删除。
5、采集文章+转译伪原创+关键词插入+生成单页
5、采集文章+转译伪原创+关键词插入+生成单页
(1)万能文章采集器-采集文章
(2)万能文章采集器-转译文章(伪原创)
(2)万能文章采集器-转译文章(伪原创)
(3)关键词插入助手-插入关键词组合锚文本
(4)单页网站生成系统-导入文章生成静态网页系统
提示1:如果不需要转译文章,则跳过第1和第2步,其中第3步的关键词插入,使用万能文章采集器-采集设置中的关键词插入设定,在采集文章时自动完成。第2步的伪原创,你也可以使用其他工具来处理。
提示2:第4步生成单页,先用内置的模板2生成一个单页目录,再使用批量改名软件,将文章列表的文件名修改成递进状态,再使用内置的模板1或自定义模板生成一个单页目录,完成。
内置模板生成的单页都是使用相对路径,因此你可以直接上传到任意网站的任意目录下直接访问。
如水淼将最后生成“单页目录”改名为“mbdy”,并上传到水淼官网(www.shuimiao.net)根目录下的“demo”中。
最后可以通过这个地址访问到生成好的静态网站系统 http://www.shuimiao.net/demo/mbdy/
6、使用精确标签删除正文中的广告等多余内容。
6、使用精确标签删除正文中的广告等多余内容。
使用精确标签来采集文章:
比如这个网页,使用《万能文章采集器》的精确标签来提取正文:
<div id="bookContent">
使用精确标签来删除多余内容:
然后发现这个正文里还包括了一些不需要的内容,通常在正文尾部。
这里则使用《多功能批量排版》的精确标签(网页处理-删除标签之间)来删除不需要的内容:
<div class="pro-examine" id="proScoreModule">
该软件还有各种文本处理功能,可以组合处理。
《万能文章采集器》的最新版本也支持了过滤正文时指定精确标签:
本文地址:http://www.sd124.com/article/2018/0711/224156.html
《万能文章采集器中文v2.17.7.0下载安装学习使用图文教程》由闪电下载吧整理并发布,欢迎转载!