用php实现的小偷程序原理
来源:昆明网络公司 日期:2010-09-15 阅读: 发表评论
很多站因为无法及时更新网站信息,所以都采用了程序自动采集网络新闻的做法,这里我们来说一下php的自动采集原理。
1、确定采集的网站目标。
2、使用file_get_contents来获取远程网站的内容存储到某个变量当中。
3、构建正则表达式,提取需要的内容,并循环存储到数据库中。
该任务的主要技术难点有以下:
1、正则表达式的构建,需要重复测试并且试验一段时间。
2、对方采取一些了防采集的措施,比如,网页内容规律的刻意打乱,服务器端的检测,对内容读取时间频率的控制等等。
上一篇:snoopy中文手册 下一篇:css reset css重置分享
发表评论评论列表(有 条评论)