基于核心素养下的大单元教学设计(基于Simhash的应用模板识别Perl_信息安全自留地_百度空间)
|文章出处:http://hi.baidu.com/_wang8
基于Simhash的应用模板识别Perl demo
对于同一应用模板生成不同的url ,url可能的pathdir 、filename 、arguments的一项或者几项可能不同 。同时
web页面的展示一眼看过去也差别较大 。在url聚类的需求场合 ,需要能自动识别web/url的相似度。这里是利用simhash算法 ,通过对web页面的一些token的value进行统计分析 。来综合判断两条url间的是
否为同一应用模板生成 ,也为web相似度 。理论上 ,由同一模板生成的页面在token的数量、顺序 、值上会存
在一定的规律#!/usr/bin/perl
#Compare the similarity of two pages
#http://hi.baidu.com/_wang8
#2011.04.23
#use warnings;
#use strict;
use HTML::TokeParser;
use LWP::Simple;
#use Data::Dumper;
use URI;
use URI::Split qw(uri_split uri_join);
sub GetUrl
{
my $url = shift;
if($url !~ /^http/)
{
print "warning:error format url.\n";
next;
}
my $content = LWP::Simple::get($url) or die "cannot request the url:$url\n";
utf8::decode($content);
return $content;
}
sub GetToken
{
my $content = shift;
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!