它是将网站复制到您的磁盘,而不是使用专有数据库格式存储网站。当所有链接都被更正为相对文件路径时,您可以随身携带下载的网站,然后在任何浏览器中离线查看。我们的网站复印机软件可以下载包含数千页的大型网站,并包括配置下载速度的选项,例如:通过使用同时连接。使用包含和排除过滤器控制要爬网的文件和要下载的文件。还支持通过大多数帖子形式的用户/密码系统下载和登录网站。网站下载程序了解各种引用,包括重定向,框架,javascripts和图像。它还能够正确转换css和大多数javascript文件中的链接。您甚至可以从多个起始路径扫描和下载网站,如果网站中的内容未交联,则非常有用。本次小编带来的是A1 Website Downloader Pro最新破解版,含破解文件和安装破解图文教程!
13、在任何互联网浏览器中离线查看下载的网站
软件特色
1、使用Website Scraping提取数据
使用网Website Scraping提取数据对于广泛的工具和服务非常有用:
Scrape和mashup网站数据,例如旅游,酒店,天气和股票报价。
整合各种数据分析算法和工具的网站数据。
获取产品和库存清单,并从您自己的网站链接到它们。
2、刮板 - 网站爬虫:
网站爬虫具有很多选项。例如用于过滤URL。
调整爬行速度以适应您的需求与服务器负载。
3、刮板 - 数据提取器:
支持使用多个正则表达式来匹配和提取所需的数据。
附带示例和各种工具,以帮助您分析和创建必要的正则表达式。
4、下载我们的网站抓取工具和:
立即开始使用网站抓取工具提取数据。
将已删除的网站数据视为可随时随地导入的CSV和SQL文件。
在每个计划的运行中自动添加数据并将生成的文件导入数据库。
使用帮助
1、抓取并提取数据选项
在具有网站抓取和数据提取选项的初始屏幕中,您可以:
配置选项:
用于从已爬网页面提取数据的正则表达式。
控制如何格式化提取的数据并将其转换为CSV数据。
测试选项:
插入测试输入页面内容
查看格式化的输出数据(CSV)
查看原始输出数据
各种刮削预设测试预先填充上述所有内容。
各种按钮,可以更轻松地创建和测试设置,包括用于提取的正则表达式。
2、不同的网站Scrape演示预设
在右下角,您可以找到一个部分调用插入各种文本示例。 在此下,您可以找到将使用测试/演示示例预填充所有选项的按钮,包括:
获取数据的页面内容。
提取数据的正则表达式。
配置提取的数据如何格式化为CSV文件。
输出如何。
3、正则表达式和CSV文件格式
部分:定义正则表达式
定义正则表达式时,每对()都被视为匹配项。 匹配ID从#1开始。 匹配包含由给定正则表达式匹配和提取到给定()匹配的数据。
您可以通过在它们之间插入空行来定义多个正则表达式。 正则表达式ID从#1开始。
部分:定义输出数据格式
配置CSV文件输出的格式设置时,可以配置输出CSV文件中每列的生成方式。 对于大多数列,您将列类型设置为正则表达式匹配。
您可以控制列数据的填充和格式化方式,包括正则表达式正则表达式函数#ID和正则表达式匹配#ID()用作数据源。
4、正则表达式帮助和技巧
虽然正则表达式通常令人生畏,但这里有一些技巧可以与演示示例一起使用:
.+将匹配内容中的任何字符一次或多次。
.*将匹配内容中的任何字符零次或多次。 (这很少有用,请参阅下面的替代方案。)
.*?将匹配内容中的任何字符,直到以下正则表达式代码可以匹配内容。
\s*将匹配内容中的所有空格零次或多次。 (因此,如果找到任何空格,它们都是匹配的。)
\s+将匹配内容中的所有空格一次或多次。 (意味着必须匹配至少一个空格。)
\s将匹配内容中的一个空格一次。 (意味着只匹配一个空格。)
[0-9a-zA-Z]将匹配内容中的英文字母或数字一次。
[^<]*将匹配内容为零或更多次的除“<”之外的任何字符。
()将使括号内的正则表达式代码将匹配的内容存储在匹配的#ID中。 (有关说明,请参阅上一节。)
(this|that|the)将匹配“this”或“that”或“the”+将匹配的内容存储在匹配的#ID中。
(this|that|the)?如果可以匹配,将会如上所述,但在所有情况下都会继续使用以下正则表达式。
通过将上述正则表达式结构(所有正则表达式实现中常见的)与要删除的页面中的HTML代码片段相结合,您可以从大多数网站将数据提取到CSV文件中。
注意:A1 Website Scraper将修剪正则表达式中的每一行以用于空格,以便更轻松地进行格式化。 务必使用\ s来表示空格。
5、刮整个网站
刮取整个网站所需的步骤:
首先在Scraper选项中定义并测试您的scrape配置。
确保在“刮板选项”中选择有效的CSV文件输出路径,以将数据提取到CSV文件路径中。
在扫描网站| 路径输入域地址以从中抓取和抓取数据。
在“扫描”网站中,单击“开始扫描”按钮开始此过程。
扫描完成后,A1 Website Scraper将在包含所刮取数据的选定路径上生成.csv文件。
如果文件创建成功,则其内容将自动显示在“查看文件”选项卡中。
6、过滤单个网站中要删除的URL
如果您需要从简单的网站获取数据:
输入数据所在的根地址。
单击“开始扫描”以启动网站爬网。
如果您需要从复杂的网站中提取数据:
输入数据所在的根地址。
禁用简易模式。
配置分析过滤器以控制哪些URL获取分析链接的内容等。
配置输出筛选器以控制从中抓取数据的URL。
开始扫描。
7、网站刮板路径选项
请务必注意,从中抓取数据的URL必须通过分析过滤器和输出过滤器中定义的过滤器。
从多个网站中截取URL列表
创建一个包含URL列表的文件并导入它们。
(如果列表包含来自不同域的URL,它们将自动放置在Analyze website | Website analysis section中的External选项卡中。)
勾选扫描网站|重新抓取选项。
勾选扫描网站|数据收集|验证外部URL存在选项。
8、CSV文件字符编码和其他选项
您可以配置生成的CSV文件的编码和字符格式:
带有可选BOM的UTF-8。 (ASCII是UTF-8的子集。非常适合英文文档。)
UTF-16 LE(UCS-2),带可选BOM。 (在当前Windows系统内部使用。)
本地ANSI代码页。 (并非总是可以移植到其他平台和语言。)
根据您希望导入CSV文件的工具/数据库,您可能需要在网站扫描之前配置上述内容。
更新日志
9.2.0
--------------------------------------------------------------------------------
* Mac的主要更新包括64位。
*各种小改进和修复。