360和百度为什么打架?谁赢了?( 二 )


为了提高网络用户获取信息的效率 , 搜索引擎出现 , 但同时也带来了新问题:
一是网络机器人过快抓取或重复抓取相同的网页内容导致受访网站的服务器过载 , 影响网站正常运行 , 降低了抓取的效率;
二是一些网络机器人抓取网站管理后台的内部信息、临时性文件、cgi脚本等对网络用户没有使用价值的信息 。
这些问题表明 , 需要建立一种受访网站与搜索引擎的网络机器人之间的交互方式 , 通过这种方式 , 网站所有者能够提示网络机器人哪些网页内容没有必要抓取 , 从而引导其抓取对网络用户有用的信息 。
为解决上述问题 , 荷兰网络工程师Martijn Koster于1994年初首先提出通过在网站的根目录下设置robots.txt文件的方式来提示搜索引擎的网络机器人抓取的范围 。
1994年6月30日 , 一些网络机器人设计者及爱好者在网络机器人邮件组论坛上就Martijn Koster的提议达成一致意见 , 并形成了一个书面文档《机器人排除标准》(《A Standard for Robot Exclusion》) , 其中有如下说明:“它不是一个由标准组织备案的官方标准 , 也不属于任何商业组织 。 它没有强制执行力 , 也不能保证所有目前的或未来的网络机器人将使用它 。 它是网络机器人的设计者们提供给互联网社区的一个通用工具 , 能够保护服务器免受网络机器人不必要的打扰 。 ”
若某网站希望禁止任何搜索引擎的网络机器人抓取 , 该网站的robots.txt文件写法如下:
User-agent:*
Disallow:/
1997年 , Martijn Koster向互联网工程任务组(IETF , Internet Engineering Task Force)提交了一份名为《网络机器人控制方法》(《A Method for Web Robots Control》)的互联网草案(Internet-Draft) , 其中对如何设置robots.txt文件作了进一步的说明 。
IETF是互联网领域最具权威的国际组织 , 其主要任务是制定互联网领域的技术规范 , 绝大多数互联网技术标准均出自IETF 。 任何人都可以向IETF提交互联网草案 , 只有被IETF采纳才会成为行业标准或规范 。
然而 , IETF至今仍未采纳该草案 。
被搁置的争议
2014年8月7日 , 百度起诉360不正当竞争案一审宣判 , 百度胜诉 , 获赔70万元 。 但法院在这起案件中搁置了百度Robots协议拒绝360搜索的合理性问题 。

360和百度为什么打架?谁赢了?

文章插图

(2014年8月7日 , 百度360不正当竞争纠纷案宣判 来源:北京一中院)
此案中 , 北京一中院认定 , 360搜索引擎在网络用户点击原本链接到百度具体网页的搜索结果时 , 直接链接至奇虎公司网页快照界面 , 其行为明显已经超出网页快照的合理范围 。 这种行为构成了不正当竞争 。
百度曾请求法院判令禁止360搜索抓取百度网站 , 但没有得到法院支持 。
法院认为:百度在不知晓360提供搜索引擎服务的前提下 , 没有将360搜索引擎加入其Robots协议的白名单内并无不当 。 但是在360推出搜索引擎之后 , 尤其是在双方争议短时间内快速升级 , 行政机关和行业协会已经积极介入调处 , 360也明确表示希望抓取原告网站内容的前提下 , 百度既没有充分阐明如此设置Robots协议的理由 , 又拒绝修改其Robots协议 。
事实上 , 根据今年7月北京高院作出的判决书披露 , 当年北京一中院已经就百度Robots协议是否合理留出了余地:“鉴于本案360对于百度将其网站相关栏目设置的Robots协议是否正当已经另行提起诉讼 , 对于网站服务商或所有者设置Robots协议限制搜索引擎爬虫机器人抓取的合理理由的范围不予评述 , 留待后续案件中 , 在双方当事人充分阐明对合理理由的意见后 , 再行判定 。 ”

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。