首页IT科技基于核心素养下的大单元教学设计(基于Simhash的应用模板识别Perl_信息安全自留地_百度空间)

基于核心素养下的大单元教学设计(基于Simhash的应用模板识别Perl_信息安全自留地_百度空间)

时间2025-06-19 15:52:10分类IT科技浏览4119
导读:|文章出处:http://hi.baidu.com/_wang8...

|文章出处:http://hi.baidu.com/_wang8

基于Simhash的应用模板识别Perl demo

对于同一应用模板生成不同的url            ,url可能的pathdir            、filename                  、arguments的一项或者几项可能不同            。同时

web页面的展示一眼看过去也差别较大                  。在url聚类的需求场合                  ,需要能自动识别web/url的相似度      。

这里是利用simhash算法      ,通过对web页面的一些token的value进行统计分析            。来综合判断两条url间的是

否为同一应用模板生成      ,也为web相似度                  。理论上                  ,由同一模板生成的页面在token的数量      、顺序            、值上会存

在一定的规律

#!/usr/bin/perl

#Compare the similarity of two pages

#http://hi.baidu.com/_wang8

#2011.04.23

#use warnings;

#use strict;

use HTML::TokeParser;

use LWP::Simple;

#use Data::Dumper;

use URI;

use URI::Split qw(uri_split uri_join);

sub GetUrl

{

my $url = shift;

if($url !~ /^http/)

{

print "warning:error format url.\n";

next;

}

my $content = LWP::Simple::get($url) or die "cannot request the url:$url\n";

utf8::decode($content);

return $content;

}

sub GetToken

{

my $content = shift;

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
foreach和map和filter的区别(【JavaScript】- map、forEach、filter之间的区别!) 学费补偿申请表模板(如何在Windows 11中使用网络速度监视器?Win11中使用网络速度监视器教程)