闪电下载吧 最新软件 免费软件 绿色软件

教程资讯 软件专题

您的位置:SD124 > 工具软件 > Unicode HTML分析器 DIHtmlParser 7.12.0 for Delphi 10.3 Rio

Unicode HTML分析器 DIHtmlParser 7.12.0 for Delphi 10.3 Rio

  • 软件大小:未知
  • 更新日期:2019-11-27
  • 官方网站:闪电下载吧
  • 软件等级:★★★☆☆
  • 运行环境:Winxp/Win7/Win8/Win10
Unicode HTML分析器 DIHtmlParser 7.12.0 for Delphi 10.3 Rio
  • 软件说明
  • 软件截图
  • 下载地址
  • 相关软件
  • 用户评论
  • 投诉建议: 858898909@qq.com
DIHtmlParser破解版是适用于Borland / CodeGear Delphi的快速,灵活的Unicode HTML分析器。它简化了HTML和XHTML的处理,无论是读取,写入,修改还是提取数据。TDIHtmlParser是主要工作程序组件。它分析文档并识别各种HTML和XML片段,例如标签,文本,注释,脚本,样式,DTD等。标记存储在类结构中,可以查询其属性和值。DIHtmlParser全面支持Unicode,并在常用的字符编码之间自动转换。它保留预格式化的文本并解析HTML实体,包括命名实体和数字实体。如果需要,可以添加自定义命名实体。如果HTML片段和标签与应用程序无关,则可以对其进行过滤。这加快了解析速度,隐藏了复杂性,并帮助开发人员保持其源代码简洁明了。插件可用于通过特定任务扩展HTML解析器的功能。解析器在主解析过程旁边“动态”触发其方法。预构建插件可以轻松提取电子邮件地址,链接和标题,实现HTML事件,跟踪HTML表并自动写入HTML数据。解析器的插件没有限制,并且每个插件都可以像主解析器一样设置自己的过滤器机制。所有插件都附带完整的源代码,开发人员可以将其用于自己的插件。本次带来的是最新破解版下载,含破解文件,替换即可破解!

安装破解教程

1、在本站下载并解压,如图所示,得到DIHtmlParser_7.12.0.exe安装程序和crack破解文件夹
2、双击DIHtmlParser_7.12.0.exe安装,安装位置,点击install安装

3、安装完成,点击finish
5、将crack中的DIHtmlParserBase.dcu复制到安装目录中,主要根据实际需求选择对应的文件夹,点击替换目标中的文件,例如C:\Users\用户名\Desktop\DIHtmlParser\D10_3\win64

功能特色

1、总览
完全的Unicode支持(UnicodeString或WideString,取决于Delphi版本)。
本机可读写70多个字符集(与OS无关)。在DIConverters的帮助下,可支持150 多个。
在TStream,内存缓冲区或字符串上运行。
一次将单个HTML返回给应用程序。
通过TDIHtmlParserPlugin接口轻松扩展。
2、公认的HTML片段
DIHtmlParser可识别10个HTML加4个Non- HTML。
该HTML片段是:
CData节:在XML中找到的CData节,用于转义包含字符的文本块,否则这些字符将被识别为标记。CData节以开头<![CDATA[和结尾]]>。
注释:注释的内容可以很容易地从注释标记中删除而返回。注释以开头,以<!–结束–>。
文档类型定义:文档类型定义定义标记构造的语法。它以开始,以<!DOCTYPE结束>。
HTML处理指令: HTML处理指令是一种捕获特定于平台的惯用法的机制。他们以开头<?和结尾>。
HTML标签: HTML标签很容易解析为名称,属性和值。DIHtmlParser可以识别开始标签,结束标签和空元素标签。范例:<TagName Attribute=“Value” />。
脚本: DIHtmlParser 以简单文本形式返回<SCRIPT>和</SCRIPT>标记之间的内容。周围的HTML标记将单独报告。
样式: DIHtmlParser 以简单文本形式返回<STYLE>和</STYLE>标记之间的内容。周围的HTML标记将单独报告。
文字:文字就是没有标记的所有内容。如果NormalizeWhiteSpace启用该选项,则DIHtmlParser会将多个空格减少为一个字符。预格式化的文本由包裹,<PRE>并且</PRE>永远不会规范化。
标题: DIHtmlParser 以简单文本形式返回<TITLE>和</TITLE>标记之间的内容。标题不是普通文本,因为它们的解析方式不同。
XML处理指令: XML处理指令与HTML处理指令类似,但语法略有不同:它们以<?XML和开头?>。
非HTML片段包括:
Active Server Pages(ASP): Active Server Page标记通常用于封装脚本宏。它以开始,<%一直到%>。
自定义标签:自定义标签与HTML -Tags和Delphi的帮助称为“透明标签” 相似。对于DIHtmlParser,自定义标签的名称必须以用户定义的起始字符开头,#就像中的一样<#Name Attribute=“Value” />。
PHP: PHP是一种功能强大且流行的脚本语言。其标记以开头,以<?PHP结束?>。
服务器端包含(SSI): SSI是Apache Web服务器的扩展,以开头,<!–#一直到–>。它允许将包含文件和其他数据即时插入HTML文档中。
3、解析效率
DIHtmlParser非常快,尤其是在解析大型文件时。由于采用了内部缓冲机制,它不需要一次将整个文件加载到内存中,而只能一次读取一个小块。即使使用了过时的166 MHz处理器,DIHtmlParser每秒最多可解析5万个标签。在现代机器上,分数高达每秒超过15 MB的HTML数据。
DIHtmlParser仅解析它需要解析的内容。由于其过滤机制,解析器可以跳过应用程序未请求的所有HTML。即使解析器最终必须触摸HTML文档的每个字符,它也可能只需要存储一部分数据以进行进一步处理。我们称其为“智能解析”,因为不存储不必要的数据是节省时间最多的方法之一。
“智能解析”的另一个技巧是将相关的标签和属性字符串转换为序号ID。结果,解析器不需要比较包含许多字符的冗长的字符串,而是可以通过一个简单的数字比较轻松地摆脱掉。这样可以提高性能并减少处理器负载。您自己的编码也将从该技术中受益,因为标记和属性ID是DIHtmlParser接口的一部分。
4、个别标签过滤
标签过滤将常规过滤转发到各个标签。它使程序员能够指示解析器保留所有与应用程序不相关的标签。<TABLE>如果您只对HTML文档的图像感兴趣,为什么还要打扰标签?无需让应用程序检查每个标签中的<IMG>标签,只需指示解析器首先报告<IMG>标签即可。这使DIHtmlParser可以优化其解析,并且您的应用程序不再需要担心不需要的标签。
5、进一步定制
DIHtmlParser插件是自定义HTML解析的下一步。TDIHtmlParser的单个实例可以与其主解析过程并行运行任意数量的解析过程。每个插件都具有自己的灵活过滤机制,就像主解析器一样。插件体系结构将开销降至最低,因为它们每个都在解析之前通知解析器有关其要求的信息。因此,即使有许多有效的插件,DIHtmlParser所解析的内容也永远不会超过您的应用程序实际要求的内容。

使用说明

1、插件方案  
考虑如何提取HTML文档的标题文本。您可能首先想找到<TITLE>开始标签,然后收集所有文本直到</TITLE>结束标签。本身就很简单,不是吗?但是,如果您已经在进行复杂的解析过程,那么很高兴知道DIHtmlParser允许您将不同的内容分开。  
TDIHtmlTablesPlugin插件与主解析过程并行地查找和提取HTML文档的标题,而无需执行任何操作。插件找到标题后,它将存储其文本并触发应用程序回调。另外,解析完成后,您的应用程序可以从插件请求标题。它是如此简单。  
2、现成的插件  
DIHtmlParser附带了许多可供使用的插件。  
外壳插件  
TDIHtmlCasePluginTDIHtmlCasePlugin将标记和属性名称更改为大写或小写。用户已经要求创建统一格式的HTML,并且自那以后,它已被证明对许多其他人有用。  
字符集插件  
TDIHtmlCharSetPluginTDIHtmlCharSetPlugin监视HTML文档中的字符集信息,并自动更新HTML解析器的字符解码。如果在分析或更改文档中间之前未知字符集,这将很有用。  
电子邮件插件  
TDIHtmlEmailsPluginTDIHtmlEmailsPlugin扫描HTML文档以查找到电子邮件地址的链接。对于每次命中,它都可以触发应用程序事件和/或将地址添加到内部列表中,以供以后检索。请勿将此插件滥用为电子邮件收割机。  
活动插件  
TDIHtmlEventsPluginTDIHtmlEventsPlugin触发HTML片段的事件。这会将DIHtmlParser变成类似HTMLSAX解析器的东西。TDIHtmlEventsPlugin支持标签过滤(所有插件都支持),而SAX解析器不支持!  
链接插件  
TDIHtmlLinksPlugin链接插件收集HTML文档中包含的所有链接。它是完全可定制的,还可以为每个新链接触发一个事件。  
表格插件  
TDIHtmlTablesPluginTable插件跟踪在解析过程中遇到的HTML表。其他解析过程可以向Table插件查询有关表单元格和列以及表嵌套的信息。  
作家插件  
TDIHtmlWriterPluginWriter插件可自动将HTML数据写入另一个HTML文档。它可以编写70多种不同的字符集和编码(144个带有DIConverters),并在必要时自动替换HTML实体。

更新日志

DIHtmlParser 7.12.0 – 2019年3月7日
TDIUnicodeWriter如果TDIUnicodeWriteMethods.Init分配自己的内存,请修复潜在的内存泄漏。
TDIUnicodeWriter.Clear调用TDIUnicodeWriteMethods.Flush以重置编码器状态。
KOI8-U转换器现在将0xB4映射到U + 0404而不是U + 0403。
将DIUtils.pasUnicode函数更新为Unicode 12。
与DIConverters 1.18.0的兼容性更新。这些更改仅影响使用DIConverters的项目:
添加ISO-2022-CP-MS编码:Read_iso_2022_jp_ms读取方法和Write_iso_2022_jp_ms写入方法。这是由识别的TDIHtmlCharSetPlugin。
DIConverters转换器函数现在使用本机无符号整数类型作为字符串的长度,并支持大于2 GB的字符串。
UTF-8转换器功能拒绝代理和超出范围的代码点,即范围在0xD800..0xDFFF和> = 0x110000之间。
修复了UCS-2,UCS-4和UTF-32解码器功能中的错误处理。
调整GB18030转换器功能以将0x8135F437映射到U + E7C7。
更新CP1255转换器功能,以将0xCA映射到U + 05BA。

有任何意见或者建议请联系邮箱:858898909[at]qq.com 本站部分内容收集于互联网,如果有侵权内容、不妥之处,请联系我们删除。敬请谅解!
Copyright © 2012 SDBETA.com. All Rights Reserved 豫ICP备12021367号 豫公网安备 41019702002546号闪电下载吧