计算机程序设计

什么是爬虫? 履带式工具“Yandex的”和谷歌

在互联网上每天有一个巨大的新材料量,以创建一个网站更新了旧的网页,上传照片和视频。 如果没有搜索引擎隐藏无法在万维网中找到,这些文献都没有。 像机器人程序的替代品,在任何给定的时间不存在。 什么是搜索机器人,你为什么需要它,以及如何操作?

什么是搜索机器人

履带网站(搜索引擎) - 这是一个自动程序,它是能够访问数以百万计的网页,通过互联网快速导航,没有任何操作员干预。 机器人也在不断扫描空间万维网的,寻找新的网页,并定期访问已建立索引。 对于网络爬虫蜘蛛,爬虫,机器人等名称。

为什么搜索引擎蜘蛛

网页索引,以及文本,图像,音频和那些对他们的视频文件 - 执行搜索引擎蜘蛛的主要功能。 机器人检查引用,镜像站点(副本)和更新。 机器人还进行了世界组织,这为万维网开发和实施技术标准的合格标准HTML代码控制。

什么是索引,为什么它是需要

索引 - 是的,其实,是由搜索引擎访问特定网页的过程。 该程序扫描本网站上的文字,图像,视频,出站链接,则该页面将出现在搜索结果中。 在某些情况下,该网站不能被自动扫描,然后它可以被添加到搜索引擎手动站长。 通常,这发生在不存在 外部链接 到特定的(通常是唯一的最近创建的)页面。

如何搜索引擎蜘蛛

每个搜索引擎都有自己的机器人与谷歌搜索机器人根据作用机理可显著变化工作在一个类似的计划,“Yandex的”或其他系统。

一般情况下,机器人的工作原理如下:程序“来”在现场,并从主网页外部链接,“阅读” Web资源(包括那些寻找开销不会看到用户)。 船是怎样一个网站的页面之间进行导航和移动到其他人。

该计划将选择哪个网站索引? 更多的往往不是“跳”蜘蛛新闻网站和主要资源目录和集成商与大的参考权重开始。 履带连续扫描的速度和索引以下因素的一致性逐个页面:

  • 内部:perelinovka,场地大小,正确的代码,用户友好等(同一资源的页面之间的内在联系);
  • 外部:总参考重量,从而导致该网站。

首先通过robots.txt的任何网站搜索机器人进行搜索。 进一步的资源索引是根据接收到的信息是从该文件执行。 此文件包含“蜘蛛”,可以通过搜索引擎提高页面访问的机会,并因此实现在“Yandex的”或谷歌早期的命中网站的具体说明。

计划类似物爬虫

通常,术语“搜索机器人”被混淆智能,用户或自主代理,“蚂蚁”或“虫”。 只有在与代理商比较沉浸显著差异,其他的定义指的是相似类型的机器人。

例如,试剂可以是:

  • 智力:程序,这是从站点到站点移动,独立决定如何进行; 他们不是在互联网上非常普遍;
  • 自治区:这些代理帮助用户选择产品,搜索,或填写表格,即所谓的过滤器,这是很少涉及的网络程序。
  • 用户:该程序有助于用户交互与万维网,浏览器(例如,歌剧,IE浏览器,谷歌Chrome,火狐),信使(Viber的,电报)或电子邮件程序(MS Outlook和高通)。

“蚂蚁”和“虫”更类似于搜索引擎的“蜘蛛”。 一个网络和一致地之间的第一形式类似这样的蚁群相互作用,“蠕虫”是能够在其它方面相同的标准履带复制。

搜索引擎机器人的品种

许多类型的爬虫的区分。 根据该计划的目的,他们是:

  • “镜报” - 重复浏览的网站。
  • 手机 - 专注于网页的移动版本。
  • 快速 - 通过查看最新更新迅速解决新的信息。
  • 参考 - 参考指数,计算它们的数量。
  • 索引不同类型的内容 - 文本,音频,视频,图像的具体方案。
  • “间谍软件” - 寻找还未被显示在搜索引擎的网页。
  • “啄木鸟” - 定期访问网站,检查其相关性和效率。
  • 国家 - 浏览位于国家域名之一的网络资源(例如,.MOBI,或.kz .ua)。
  • 全球 - 索引的所有国家的网站。

机器人主要的搜索引擎

也有一些搜索引擎蜘蛛。 从理论上讲,它们的功能可以有很大的不同,但在实践中的程序几乎是相同的。 索引网页的主要区别用机器人两大搜索引擎如下:

  • 测试的严格性。 据认为,履带式的机制“Yandex的”稍微严格估算网站是否符合万维网的标准。
  • 该遗址的完整性的保护。 该谷歌爬虫索引整个网站(包括媒体内容),“Yandex的”也可以有选择地查看内容。
  • 速度测试新的页面。 谷歌在几天之内搜索结果中增加了新的资源,在“由Yandex的”过程的情况下,可能需要两周或更长时间。
  • 重新索引的频率。 履带式“Yandex的”检查更新,每周两次,和谷歌 - 一个每14天。

互联网,当然不限于这两个搜索引擎。 其他搜索引擎有他们的机器人谁遵循自己的索引参数。 此外,还有几个“蜘蛛”,其设计不是主要的搜索资源,单个团队或网站管理员。

常见的误解

流行的看法相反,“蜘蛛”不处理信息。 该程序只扫描并存储网页和进一步的处理采用了一种完全不同的机器人。

此外,许多用户认为,搜索引擎的蜘蛛有负面影响,“有害”的互联网。 事实上,“蜘蛛”的某些版本中可以显著服务器超载。 还有一种人的因素 - 站长,谁创建的程序,可以使机器人配置错误。 然而,大多数现有方案都精心设计和专业的管理,任何新出现的问题及时清除。

如何管理索引

搜索引擎机器人是自动程序,但索引进程可以通过网站管理员被部分地控制。 这大大有助于外部和 内部优化 的资源。 此外,您也可以手动添加一个新的网站,搜索引擎:大型资源具有网页注册的一种特殊形式。

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 zhcn.delachieve.com. Theme powered by WordPress.