首页IT科技web网页分为两大类(webclassify 用于网页分类的python工具包)

web网页分为两大类(webclassify 用于网页分类的python工具包)

时间2025-07-31 16:01:45分类IT科技浏览4825
导读:使用说明: from mypack.util.ictclas import ICTclas ic = ICTclas( text ic.finger( #返回text的指纹 ic.words( #返回list:[(word,num ,(word,num ,...]使用说明: from mypack.util.smallse...

使用说明: from mypack.util.ictclas import ICTclas ic = ICTclas( text ) ic.finger() #返回text的指纹 ic.words() #返回list:[(word,num),(word,num),...]使用说明: from mypack.util.smallseg.myseg import seg word_nums = seg( text ) #返回list:[(word,num),(word,num),...]使用说明: pr = Parser()

if pr.parse( url ):

print pr.get_html() #返回网页的html格式 print pr.get_text().encode(utf-8) #返回网页中的字符串

if pr.parse( url ):

print pr.get_html() #返回网页的html格式 print pr.get_text().encode(utf-8) #返回网页中的字符串

print pr.get_html() #返回网页的html格式 print pr.get_text().encode(utf-8) #返回网页中的字符串格式如下,book为word在book类的文档频率(int)              ,total为各类的df之和                      ,为word的总df: word|book|edu|finance|house|mil|sport|car|ent|game|lady|mobile|tech|total2. min_df2. 执行db/create.py      ,创建数据库表 3. 爬取url 4. 执行chi模块:去低频词              、卡方值计算                    、idf值计算 from mypack.classfiy.preprocess.chi import chi_compute chi_compute() 5. 执行卡方特征选择          ,构建新字典 from mypack.classify.preprocess.voca import read_voca,transform_samples voca = read_voca() transform_samples( voca ) 6. 预测 from mypack.classify.svm.predict import classify_text#对文本进行分类 from mypack.classify.svm.predict import classify_text#对url进行分类如果要自己训练的话                       ,自己下libsvm              。liblinear用python不方便调用                      。from mypack.web_content_extract.extract import Extractor extr = Extractor( url ) if extr.is_content_page(): #判断是否是正文页面

text = extr.get_content() # 提取正文

text = extr.get_content() # 提取正文html = extr.get_content_with_format() #带html标签的正文

images = extr.get_images() # 提取正文中的图片 title = extr.get_title() # 提取正文的标题

confidence = extr.get_confidence() #是正文的置信度

extr.get_detail()#详细分析信息

images = extr.get_images() # 提取正文中的图片 title = extr.get_title() # 提取正文的标题confidence = extr.get_confidence() #是正文的置信度extr.get_detail()#详细分析信息

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
vue如何实现路由跳转缓存(Vue缓存路由(keep-alive)以及新的生命周期) 小程序map层级(微信小程序引入map组件并在地图上标点的实现代码)