首页IT科技基于核心素养下的大单元教学设计(基于Simhash的应用模板识别Perl_信息安全自留地_百度空间)

基于核心素养下的大单元教学设计(基于Simhash的应用模板识别Perl_信息安全自留地_百度空间)

时间2025-07-31 16:50:07分类IT科技浏览4579
导读:|文章出处:http://hi.baidu.com/_wang8...

|文章出处:http://hi.baidu.com/_wang8

基于Simhash的应用模板识别Perl demo

对于同一应用模板生成不同的url              ,url可能的pathdir             、filename                    、arguments的一项或者几项可能不同             。同时

web页面的展示一眼看过去也差别较大                    。在url聚类的需求场合                    ,需要能自动识别web/url的相似度       。

这里是利用simhash算法      ,通过对web页面的一些token的value进行统计分析             。来综合判断两条url间的是

否为同一应用模板生成       ,也为web相似度                    。理论上                    ,由同一模板生成的页面在token的数量       、顺序             、值上会存

在一定的规律

#!/usr/bin/perl

#Compare the similarity of two pages

#http://hi.baidu.com/_wang8

#2011.04.23

#use warnings;

#use strict;

use HTML::TokeParser;

use LWP::Simple;

#use Data::Dumper;

use URI;

use URI::Split qw(uri_split uri_join);

sub GetUrl

{

my $url = shift;

if($url !~ /^http/)

{

print "warning:error format url.\n";

next;

}

my $content = LWP::Simple::get($url) or die "cannot request the url:$url\n";

utf8::decode($content);

return $content;

}

sub GetToken

{

my $content = shift;

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
ffmpeg转avi(使用ffmpeg把mp4与m3u8相互转换的操作) mac book air屏幕保护程序(苹果 macOS Big Sur 11.3怎么使用新增的你好幕保护程序?)