我们了解过什么是搜索引擎蜘蛛后,就应该了解下什么是robots.txt,因为前面介绍搜索引擎蜘蛛是按照链接爬行的,有的时候我不希望搜索引擎蜘蛛爬行并抓取,比如网站后台文件,如果地址被抓取暴露出来,那后果不是很严重吗?那么是否有制约搜索引擎蜘蛛的规则或文件呢?
什么是robots.txt
当搜索引擎爬行到某个网站的时候,首先第一查看的文件就是robots.txt,查看是否存在,如果存在那么网站的哪些文件不允许爬行,就像道路交通一样,某些道路无法通行。而robots.txt就像交警的存在,明确指示着某条道路不能通行,如果不存在,那么网站所有页面将均可以被蜘蛛爬行并收录。
robots.txt的写法
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。格式例如:
User-agent: *
Disallow: /admin/ <后台管理文件>
Disallow: /require/ <程序文件>
Disallow: /attachment/ <附件>
Disallow: /images/ <图片>
Disallow: /data/ <数据库文件>
Disallow: /template/ <模板文件>
Disallow: /css/ <样式表文件>
Disallow: /lang/ <编码文件>
Disallow: /script/ <脚本文件>
• User-Agent: 遵守的规则
• Disallow: 要拦截的网页