抓取网页页面信息(有关网页抓取问题的一些经验总结 passover【毕成功的博客】 51CTO技术博客)
导读:标签:爬虫 网页抓取...
标签:爬虫 网页抓取
在写爬虫的时候经常会遇到有些页面下载下来会有问题 ,如果你把请求模拟成和浏览器一样 ,肯定是可以把页面正确获取的 ,但是其中往往很多参数都没有什么用 ,真正影响的就几个关键参数 。这里特别把自己的经验做一下总结 。
重点需要关注的参数有:
1. url: 这主要就是URL编码会导致问题 ,在URL中包含中文的时候可能会出现
2. user-agent: 大网站通常会对不同的浏览器做优化 ,所以会有区别
3. cookie: 有些网站会用到cookie信息 ,比如有些网站会把session信息记录在cookie中
4. refer: 有些网站为了防止跨站攻击 ,会对refer的页面进行检查
5. accept-charset和accept-encoding: 个别网站会对接收的编码会有特殊处理
6. sessionID: 这个有时会设在参数中 ,有些网站会用到这个值 ,当然还有其他参数可能会有用到 。
上面都是经验之谈 ,希望能对大家有所帮助 。
声明:本站所有文章 ,如无特殊说明或标注,均为本站原创发布 。任何个人或组织 ,在未征得本站同意时 ,禁止复制 、盗用 、采集 、发布本站内容到任何网站 、书籍等各类媒体平台 。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理 。
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!