首页IT科技myproject(MyProject / FuzzyPages | Elias的个人主页)

myproject(MyProject / FuzzyPages | Elias的个人主页)

时间2025-05-30 16:08:21分类IT科技浏览3393
导读:我使用本脚本处理httrack程序下载的phpbb2论坛页面,对下载页面中的冗余部分进行去除和合并,以达到减小文件大小,以供存储的目的。...

我使用本脚本处理httrack程序下载的phpbb2论坛页面,对下载页面中的冗余部分进行去除和合并,以达到减小文件大小,以供存储的目的。

原理是:如果两个html页面十分相似(用diff检查的差别小于定义的最大差别),那么删除其中的一个,将其余文件中指向被删除文件的链接改为指向与之相似的文件。

具体实现看代码好了。使用了Python的os,re,difflib库。

Attach:FuzzyPages.zip

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
android集成uniapp(在Android端集成OpenCV的三种方式)