html在线解析(HtmlParse:一款超轻量级的HTML文件解析和爬取工具)
HtmlParse 是一款基于windwos平台的HTML文档解析工具 ,可快速构建DOM树 ,从而轻松实现网页元素的爬取工作 。DOM树就是一个HTML文档的节点树 ,每个节点由:标签(Tag) 、属性(Attribute) 、文本(Text)三个值来描述 。
所谓的HTML文档解析 ,指的就是如何构建一颗DOM树 ,只有成功构建出DOM树 ,才有可能进行后续的数据爬取和分析工作 。显然 ,构建DOM树是比较复杂的过程 ,因为不是每一个HTML文档都会严格按照规范来书写 ,因此解析过程需要具有一定容错能力 。此外 ,解析效率也是一个需要考虑的因素 ,也就是说最好通过一次文档扫描即可建立起DOM树 ,而不是反复扫描 。
下面是HtmlParse介绍 。
工具特点
1 、绿色纯天然,无任何第三方依赖库 ,文件大小不到150K;
2 、解析速度快 ,具有一定的HTML语法容错能力,可快速将HMTL文档解析为DOM树;
3 、基于命令行参数 ,可通过不同参数获取指定TAG的属性值和文本内容 ,从而实现网页爬取功能;
4 、可将爬取数据输出为json格式 ,方便第三方程序进一步分析和使用;
5 、可爬取script脚本到指定的js文件中;下载地址:http://softlee.cn/HtmlParse.zip
使用方法
HtmlParse HtmlPathFile -tag TagName [-attr] [Attribute] [-o] [JsonPathFile]解析指定的HTML文档 ,并将文档中指定的标签及属性输出到指定文件中 。
HtmlPathFile:必选参数 ,要解析的HTML文档路径名 ,如果文件路径中有空格 ,可使用双引号将文件路径包含;
-tag
:必选参数 ,用于指定要抓取的HTML标签名称;
-attr:可选参数 ,用于指定标签的属性值 ,如果不指定 ,则返回该标签的所有属性值;
-o:可选参数 ,用于指定抓取内容输出的文件,可将抓取的内容保存为json格式的文件 。 如果该参数不指定 ,则进行控制台输出 。 如果抓取的是script 、style则会保存为js格式文件 。如果要抓取doctype ,可使用-tag doctype,将整个doctype内容获取 。此时将会忽略-attr指定的任何属性值 。
举例说明
1 、爬取网页中所有超链接
HtmlParse c:/sina.html -tag a -attr href -o c:/sina.json解析C盘下的sina.html文档 ,并提取该文档中的所有超链接到sina.json文件中。其中-tag a -attr href ,用于指定获取超链接标签a的href属性 。
2 、爬取网页中所有图片链接
HtmlParse c:/sina.html -tag img -attr src -o c:/sina.json解析C盘下的sina.html文档 ,并提取该文档中的所有图片链接到sina.json文件中 。
3 、爬取网页中所有脚本
HtmlParse c:/sina.html -tag script -o c:/sina.js解析C盘下的sina.html文档 ,并提取该文档中的所有脚本函数到sina.js文件中。
输出内容
如果通过-o参数指定输出文件 ,则会生成一个json格式的文档 。
TagName为爬取的标签名称 ,比如超链接的a ,其值是一个json数组 ,数组中的每个内容为Json对象 ,每个Json对象 ,有属性和文本构成 。如果-attr 指定了要爬取的属性 ,则AttrName为指定的属性名称 ,比如href或src 。text为该标签的文本内容,有些标签不存在文本内容 ,比如img 、meta等 ,则该值为空 。json格式如下: { "TagName": [ {"AttrName":"AttrValue1", "text":"text1"} {"AttrName":"AttrValue1", "text":"text2"} ] }下面是一个sina网页的所有超链接json
{ "a": [{ "href": "javascript:;", "text": "设为首页" }, { "href": "javascript:;", "text": "我的菜单" }, { "href": "https://sina.cn/", "text": "手机新浪网" }, { "href": "", "text": "移动客户端" }, { "href": "https://c.weibo.cn/client/guide/download", "text": "新浪微博" }, { "href": "https://so.sina.cn/palmnews/web-sinanews-app-download.d.html", "text": "新浪新闻" }, { "href": "https://finance.sina.com.cn/mobile/comfinanceweb.shtml", "text": "新浪财经" }, { "href": "https://m.sina.com.cn/m/sinasports.shtml", "text": "新浪体育" }, { "href": "https://tousu.sina.com.cn/about_app/index?frompage=heimaopc", "text": "黑猫投诉" }, { "href": "http://blog.sina.com.cn/lm/z/app/", "text": "新浪博客" }, { "href": "https://games.sina.com.cn/o/kb/12392.shtml", "text": "新浪游戏" }, { "href": "https://zhongce.sina.com.cn/about/app", "text": "新浪众测" }, { "href": "https://mail.sina.com.cn/client/mobile/index.php?suda-key=mail_app&suda-value=login", "text": "新浪邮箱客户端" }, { "href": "javascript:;", "text": "关闭置顶" }, {写在最后
网页下载可通过wincurl工具,这是一个windows平台下的curl程序 。
下载地址:http://softlee.cn/wincurl.zip
介绍文章:《wincurl:一款基于HTTP协议的轻量级web资源抓取和上传工具》
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!