首页IT科技扩词法和组词法的区别(词库的扩充百度百科的抓取你知道这些热词吗? rabbit9898 ITeye技术网站)

扩词法和组词法的区别(词库的扩充百度百科的抓取你知道这些热词吗? rabbit9898 ITeye技术网站)

时间2025-05-05 04:31:48分类IT科技浏览3021
导读:词库的扩充-百度百科的抓取-你知道这些热词吗? 博客分类: 百度百科词库抓取 做中文分词需要一个好的词库,网上收集的这些都基本不更新,没有办法,只有自己抓取百科中的词条了。但是百科中有300多万词条,要全部抓取下来把其中的优质词条摘录出来并非易事。 抓取用 httpclient 应该就够了 Java代码 org.apache.ht...

词库的扩充-百度百科的抓取-你知道这些热词吗? 博客分类: 百度百科词库抓取 做中文分词需要一个好的词库           ,网上收集的这些都基本不更新                ,没有办法     ,只有自己抓取百科中的词条了           。但是百科中有300多万词条           ,要全部抓取下来把其中的优质词条摘录出来并非易事                。 抓取用 httpclient 应该就够了 Java代码 org.apache.httpcomponents httpclient 4.1 解析用htmlclener 就够了 Java代码关于抓取维基百科,百度百科,Google News的记录 最近由于项目中需要抓取维基百科,百度百科,Google News的数据                ,做了些研究     。维基百科开放性做的好     ,用强大的API支持查询      ,不过中文的API貌似是基于繁体的                ,而且中文的维基信息太少了          ,有些关键词没有对应的词条           。于是目标转向百度百科                。百度百科的词条确实很丰富      ,一般的关键词基本都有对应的词条     。不过百度百科的词条对应的html页面的连接是这样的 baike.baidu.com/view/0000.html       。0000对应的是某个词条了                。要想根据URL来获取就首先需要把关键词转换成对应的数字          。通过httpwatch查看后发现http://baike.baidu.com/searchword/?word= keyWord &pic=1&sug=1&enc=gbk 这个url返回的信息中包含了关键词对应的0000.html此格式的数据      。关键词要gb2312编码                 。把信息提取出来                 ,拼接一下url          ,这样就能顺利获取百度百科的html页面了          。然后把html页面做处理,输出到自己的页面上。因为html页面结构复杂                 ,在服务器做处理效率低                 。所以我觉得还不如把所有html代码输出到自己的页面中                ,在用JQuery来处理页面,只要用IE或者chrome的开发人员工具           ,看一下结构                ,然后用JQuery来提取啊     ,隐藏啊           ,这样方便多了                。Google New的思路同百度百科                ,用webrequest来模拟搜索请求     ,取得html代码      ,输出到自己的页面                ,JQuery来处理下就OK了。

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
windows7任务栏显示不全(在win7中,为什么任务栏无法显示在最前面?) windowsxp桌面图标消失该怎么办(在xp系统中,桌面常见图标消失了是怎么回事?)