当前位置:首页 > 数码 > 揭开搜索引擎判定网站价值的秘密-深入探索其算法的奥秘 (揭开搜索引擎的密码)

揭开搜索引擎判定网站价值的秘密-深入探索其算法的奥秘 (揭开搜索引擎的密码)

admin3个月前 (04-19)数码16

引言

在当今互联网时代,搜索引擎已成为人们获取信息、解决问题的首选工具。对于网站所有者而言,如何让自己的网站被搜索引擎评定为有价值,已成为一项关键问题。本文将从多个角度探讨什么样的网站会受到搜索引擎的青睐,并提供一些建议。

正文

1. 高质量的内容

搜索引擎非常注重网站的内容质量。高质量的内容不仅能够吸引用户,还能提升网站在搜索引擎结果页面(SERP)中的排名。有价值的网站应提供深入、原创、独立的内容,满足用户需求并解决他们的问题。

2. 友好的用户体验

搜索引擎希望为用户提供最佳结果,因此网站的用户体验至关重要。有价值的网站应具备良好的页面加载速度、易用的导航结构、清晰的页面布局以及适用于不同设备的响应式设计。网站还应提供有效的内部链接和搜索功能,以方便用户浏览和查找内容。

3. 外部链接的数量和质量

外部链接是搜索引擎判断网站价值的重要指标之一。如果其他有影响力的网站愿意链接到你的网站,说明你的网站内容对他们来说具有一定的价值。因此,有价值的网站应努力获取高质量的外部链接,这可以通过提供有用的内容、与其他网站建立合作关系或参与行业社区等方式来实现。

4. 搜索引擎优化(SEO)

SEO 是提高网站在搜索结果中排名的关键。有价值的网站应遵循搜索引擎的规则和准则,使用恰当的关键字、标签和元数据,以帮助搜索引擎更好地理解和索引网站的内容。网站的结构和链接也需要进行优化,以提高搜索引擎的抓取效率和用户的浏览体验。

5. 用户信任和社交媒体影响力

搜索引擎越来越注重用户信任和社交媒体影响力对网站价值的影响。有价值的网站应建立良好的信誉和口碑,提供可靠的信息,并与用户积极互动。同时,积极参与社交媒体平台,与用户分享有价值的内容,并获得用户的认可和分享,也能提升网站的价值。

结论

搜索引擎判断网站价值的标准是多方面的,包括高质量的内容、良好的用户体验、外部链接数量和质量、SEO 以及用户信任和社交媒体影响力等。作为网站所有者,我们应努力提供有价值的内容,改善用户体验,积极进行 SEO,并建立良好的用户信任和社交媒体影响力,从而让我们的网站被搜索引擎认可为有价值的网站。


开发搜索引擎需要具备哪些知识?

下面以网络搜索机器人为例来说明搜索引擎技术。 1.网络机器人技术网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。 一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。 机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。 网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。 机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。 它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。 所有WWW的搜索程序都有如下的工作步骤:(1)机器人从起始URL列表中取出URL并从网上读取其指向的内容;(2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中;(3)从文档中提取指向其他文档的URL,并加入到URL列表中;(4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间);(5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。 搜索算法一般有深度优先和广度优先两种基本的搜索策略。 机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。 也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。 搜索引擎是一个技术含量很高的网络应用系统。 它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。 2.索引技术索引技术是搜索引擎的核心技术之一。 搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。 分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。 目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:(1)存储语法库,和词汇库配合分出句子中的词汇;(2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;(3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;(4)对无法分词的句子,把每个字当作词来处理。 索引器生成从关键词到URL的关系索引表。 索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。 索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。 不同的搜索引擎系统可能采用不尽相同的标引方法。 例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。 检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。 3. 检索器与结果处理技术检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。 这里的相关度是指搜索关键字在文档中出现的额度。 当额度越高时,则认为该文档的相关程度越高。 能见度也是常用的衡量标准之一。 一个网页的能见度是指该网页入口超级链接的数目。 能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。 特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。 结果处理技术可归纳为:(1)按频次排定次序 通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。 (2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。 人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。 这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。 (3)二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。 由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。 所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。 搜索引擎技术的行业应用:搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式:1、 政府机关行业应用 n 实时跟踪、采集与业务工作相关的信息来源。 n 全面满足内部工作人员对互联网信息的全局观测需求。 n 及时解决政务外网、政务内网的信息源问题,实现动态发布。 n 快速解决政府主网站对各地级子网站的信息获取需求。 n 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。 n 节约信息采集的人力、物力、时间,提高办公效率。 2、企业行业应用 n 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。 n 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。 n 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。 n 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。 n 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。 3、新闻媒体行业应用 n 快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。 n 支持每天对数万条新闻进行有效抓取。 监控范围的深度、广度可以自行设定。 n 支持对所需内容智能提取、审核。 n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。 4、 行业网站应用n 实时跟踪、采集与网站相关的信息来源。 n 及时跟踪行业的信息来源网站,自动,快速更新网站信息。 动态更新信息。 n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。 n 针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。 n 针对资讯网站分类目录生成,提出用户生成网站分类结构。 并可以实时增加与更新分类结构。 不受级数限制。 从而大大利高行业的应用性。 n 提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。 n 提供与CCDC呼叫搜索引擎的广告合作。 建立行业网站联盟,提高行业网站知名度。 5) 网络信息监察与监控n 网络舆情系统。 如“千瓦通信-网络舆情雷达监测系统”n 网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)”随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞 针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。 目前, 搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来 的技术。 据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前 的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。 用户要在如此浩 瀚的信息海洋里寻找信息,必然会大海捞针无功而返。 搜索引擎正是为了解决这个迷航 问题而出现的技术。 搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解 、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 搜索引擎提供 的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为网络门户 。 搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。 本文旨在对搜索 引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。 分 类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人 工形成信息摘要,并将信息置于事先确定的分类框架中。 信息大多面向网站,提供目录浏 览服务和直接检索服务。 该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高 ,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。 这类搜索引擎的代表是 :Yahoo、LookSmart、Open Directory、Go Guide等。 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互 联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输 入检索索引库,并将查询结果返回给用户。 服务方式是面向网页的全文检索服务。 该类搜 索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关 信息,用户必须从结果中进行筛选。 这类搜索引擎的代表是:AltaVista、Northern Ligh t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:天网、悠游、O penFind等。 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜 索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用 户。 服务方式为面向网页的全文检索。 这类搜索引擎的优点是返回结果的信息量更大、更 全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。 这类搜索引 擎的代表是WebCrawler、InfoMarket等。 性 能 指 标 我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索 出与用户查询相关的文档。 所以我们可以用衡量传统信息检索系统的性能参数-召回率(R ecall)和精度(Pricision)衡量一个搜索引擎的性能。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系 统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量 的是检索系统(搜索引擎)的查准率。 对于一个检索系统来讲,召回率和精度不可能两全 其美:召回率高时,精度低,精度高时,召回率低。 所以常常用11种召回率下11种精度的 平均值(即11点平均精度)来衡量一个检索系统的精度。 对于搜索引擎系统来讲,因为没 有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。 目前的搜索引擎系 统都非常关心精度。 影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询 的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相 关度反馈的机制。 主 要 技 术 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 1.搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。 它常常是一个计算机程序,日夜 不停地运行。 它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信 息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 目前有 两种搜集信息的策略: ● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深 度优先或启发式方式循环地在互联网中发现信息。 这些起始URL可以是任意的URL,但常常 是一些非常流行、包含很多链接的站点(如Yahoo!)。 ● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽 搜索。 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、 字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息 发现和更新的速度。 商业搜索引擎的信息发现可以达到每天几百万网页。 2.索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生 成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、 URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来 反映文档内容的,如关键词及其权重、短语、单字等等。 内容索引项可以分为单索引项和 多索引项(或称短语索引项)两种。 单索引项对于英文来讲是英语单词,比较容易提取, 因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切 分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分 度,同时用来计算查询结果的相关度。 使用的方法一般有统计法、信息论法和概率法。 短 语索引项的提取方法有统计法、概率法和语言学法。 索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档 。 索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或 接近关系(proximity)。 索引器可以使用集中式索引算法或分布式索引算法。 当数据量很大时,必须实现即时 索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。 索引算法对索引器 的性能(如大规模峰值查询时的响应速度)有很大的影响。 一个搜索引擎的有效性在很大 程度上取决于索引的质量。 3.检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与 查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 4.用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的 目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。 简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如 逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如、) 、出现位置(如标题、内容)、信息时间、长度等等。 目前一些公司和机构正在考虑制定 查询选项的标准。 未 来 动 向 搜索引擎已成为一个新的研究、开发领域。 因为它要用到信息检索、人工智能、计算 机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和 技术,所以具有综合性和挑战性。 又由于搜索引擎有大量的用户,有很好的经济价值,所 以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃, 并出现了很多值得注意的动向。 1.十分注意提高信息查询结果的精度,提高检索的有效性用户在搜索引擎上进行 信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。 对于一 个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。 解 决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句 中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关 度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些 不相关,通过多次交互逐步求精。 二是用正文分类(Text Categorization)技术将结果分 类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。 三是进行站点类 聚或内容类聚,减少信息的总量。 2.基于智能代理的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制。 它使用自动获得的领域模型(如We b知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景 、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户有用的信息提交给用户。 智能代理具有不断学习、适 应信息和用户兴趣动态变化的能力,从而提供个性化的服务。 智能代理可以在用户端进行 ,也可以在服务器端运行。 3.采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。 但 当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高 系统性能。 搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以 在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可 以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上

百度搜索引擎的算法是怎样的?

衡量网页质量的维度

网络搜索引擎在衡量网页质量时,会从以下三个维度综合考虑给出一个质量打分。下面会一一介绍这些影响网页质量判断的维度特征:

?内容质量

?浏览体验

?可访问性

一个访问流畅,内容质量高且浏览体验好的网页具有较高的质量;反之,任何一个维度出现问题,都会影响网页的整体质量。下面我们具体介绍下这三个维度。

衡量网页质量的维度——内容质量

网页主体内容是网页的价值所在,是满足用户需求的前提基础。网络搜索引擎评价网页内容质量主要看其主体内容的好坏,以及主体内容是否可以让用户满意。不同类型网页的主体内容不同,网络搜索引擎判断不同网页的内容价值时,需要关注的点也有区别,如:

?首页:导航链接和推荐内容是否清晰、有效。

?文章页:能否提供清晰完整的内容,图文并茂更佳。

?商品页:是否提供了完整真实的商品信息和有效的购买入口。

?问答页:是否提供了有参考价值的答案。

?下载页:是否提供下载入口,是否有权限限制,资源是否有效。

?文档页:是否可供用户阅读,是否有权限限制。

?搜索结果页:搜索出来的结果是否与标题相关。

网络搜索引擎考量网页内容质量的维度非常多,最为重要的是:成本;内容完整;信息真实有效以及安全。下面我们通过举例来感受一下网络搜索引擎是如何对网页的内容质量进行分类的,请站长对比自己站点的页面,站在搜索引擎和用户的角度为自己打分:

1、内容质量好:

网络搜索引擎认为内容质量好的网页,花费了较多时间和精力编辑,倾注了编者的经验和专业知识;内容清晰、完整且丰富;资源有效且优质;信息真实有效;安全无毒;不含任何作弊行为和意图,对用户有较强的正收益。对这部分网页,网络搜索引擎会提高其展现在用户面前的机率。例如:

?专业医疗机构发布的内容丰富的医疗专题页面;

?资深工程师发布的完整解决某个技术问题的专业文章;

?专业视频网站上,播放清晰流畅的正版电影或影视全集页面;

?知名B2C网站上,一个完整有效的商品购买页;

?权威新闻站原创或经过编辑整理的热点新闻报道;

?经过网友认真编辑,内容丰富的词条;

实例参考:

示例

内容质量

说明

case3.1.1-1

专业医疗网站发布的丰富医疗专题页面

case3.1.1-2

资深工程师发布的完整解决某个技术问题的专业文章

case3.1.1-3

深入探索其算法的奥秘

专业视频网站上,播放清晰流畅的正版影视全集页面

case3.1.1-4

京东的一个完整有效的商品购买页

case3.1.1-5

权威新闻站原创的热点新闻的报道

case3.1.1-6

经过网友认真编辑,内容丰富的百科词条

case3.1.1-7

网络知道上,完美解决用户问题的问答页

2、内容质量中:

内容质量中等的网页往往能满足用户需求,但未花费较多时间和精力进行制作编辑,不能体现出编者的经验和专业知识;内容完整但并不丰富;资源有效但质量欠佳;信息虽真实有效但属采集得来;安全无毒;不含作弊行为和意图。在互联网中,中等质量网页其实是一个比较大的数量集合,种类面貌也繁杂多样,网络搜索引擎在评价这类网页时往往还要考虑其它非常多因素。在这里,我们仅部分举例来让各位感受一下:

?论坛类网站里一个普通的帖子;

?一个普通的问答网页;

?没有进行任何编辑,直接转载其它网站的新闻;

?无版权信息的普通电影播放页

?采集知名小说网站的盗版小说页。

实例参考:

示例

内容质量

说明

case3.1.2-1

网易直接转载了中国新闻网的一篇新闻。

case3.1.2-2

文库上网友上传的“国庆放假安排”新闻

case3.1.2-3

采集起点小说网的盗版小说站

case3.1.2-4

网络贴吧里一个普通的帖子

3、内容质量差:

网络搜索引擎认为主体内容信息量较少,或无有效信息、信息失效过期的都属于内容质量差网页,对用户没有什么实质性的帮助,应该减少其展现的机会。同时,如果一个网站内该类网页的占比过大,也会影响网络搜索引擎对站点的评级,尤其是UGC网站、电商网站、黄页网站要尤其重视对过期、失效网页的管理。例如:

?已下架的商品页,或已过期的团购页;

?已过有效期的招聘、交易页面;

?资源已失效,如视频已删除、软件下载后无法使用等。

4、没有内容质量可言:

没有内容质量可言的网页指那些制作成本很低,粗制滥造;从别处采集来的内容未经最起码的编辑整理即放置线上;挂木马等病毒;含有作弊行为或意图;完全不能满足用户需求,甚至含有欺骗内容的网页。例如:

?内容空短,有很少量的内容,却不能支撑页面的主要意图;

?站内搜索结果页,但没有给出相关信息

除上述网页外,欺骗用户和搜索引擎的网页在无内容质量可言集合里占很高比例。网络搜索引擎对作弊网页的定义是:不以满足用户需求为目的,通过不正当手段欺骗用户和搜索引擎从而获利的网页。目前互联网上这部分网页还属少数,但作弊网页的价值是负向的,对用户的伤害非常大,对这类网页,搜索引擎持坚决打击态度。

衡量网页质量的维度——浏览体验

不同质量的网页带给用户的浏览体验会有很大差距,一个优质的网页给用户的浏览体验应该是正向的。用户希望看到干净、易阅读的网页,排版混乱、广告过多会影响用户对网页主体内容的获取。在网络搜索引擎网页质量体系中,用户对网页主体内容的获取成本与浏览体验呈反比,即获取成本越高,浏览体验越低。面对内容质量相近的网页,浏览体验佳者更容易获得更高的排位,而对于浏览体验差的网页,网络搜索引擎会视情况降低其展现的机率甚至拒绝收录。

影响用户浏览体验好坏的因素很多,目前网络搜索引擎主要从内容排版、广告影响两方面对网页进行考量:

内容排版:用户进入网页第一眼看到的就是内容排版,排版决定了用户对网页的第一印象,也决定了用户对内容获取的成本。

广告影响:网络搜索引擎理解网站的生存发展需要资金支持,对网页上放置正当广告持支持态度。网页应该以满足用户需求为主旨,最佳状态即“主体内容与广告一起满足用户需求,内容为主,广告为辅”,而不应让广告成为网页主体。

下面我们通过举例来感受一下网络搜索引擎是如何对网页的浏览体验进行分类的,站长可以据此对比检验自己站点的浏览体验如何:

1、浏览体验好:

页面布局合理,用户获取主体内容成本低,一般具有以下特征:

?排版合理,版式美观,易于阅读和浏览;

?用户需要的内容占据网页最重要位置;

?能够通过页面标签或页面布局十分清楚地区分出哪些是广告;

?广告不抢占主体内容位置,不阻碍用户对主要内容的获取;

实例参考:

示例

浏览体验

说明

case3.2.1-1

招聘、房产等网站首页也有很多广告,但都是招聘相关的,浏览体验是ok的。

case3.2.1-2

文章页,页面布局合理,无广告,排版好,结构合理

case3.2.1-3

游戏首页,排版美观,布局合理,无广告,浏览体验优

2、浏览体验差:

页面布局和广告放置影响了用户对主体内容的获取,提高了用户获取信息的成本,令用户反感。包括但不仅限于以下情况:

?正文内容不换行或不分段,用户阅读困难;

?字体和背景颜色相近,内容辨别困难;

?页面布局不合理,网页首屏看不到任何有价值的主体内容;

?广告遮挡主体内容;或者在通用分辨率下,首屏都是广告,看不到主体内容;

?弹窗广告过多;

?影响阅读的浮动广告过多

?点击链接时,出现预期之外的弹窗;

?广告与内容混淆,不易区分;

衡量网页质量的维度——可访问性

用户希望快速地从搜索引擎获取到需要的信息,网络搜索引擎尽可能为用户提供能一次性直接获取所有信息的网页结果。网络搜索引擎认为不能直接获取到主体内容的网页对用户是不友好的,会视情况调整其展现机率。

网络搜索引擎会从正常打开、权限限制、有效性三方面判断网页的可访问性,对于可以正常访问的网页,可以参与正常排序;对于有权限限制的网页,再通过其它维度对其进行观察;对于失效网页,会降权其展现机制甚至从数据库中删除。

1、可正常访问的网页

无权限限制,能直接访问所有主体内容的网页。

2、有权限限制的网页

此类网页分为两种:打开权限和资源获取权限

1)打开权限:指打开网页都需要登录权限,没有权限完全无法看到具体内容,普通用户无法获取或获取成本很高,网络搜索引擎会降低其展现机率。不包括以登录为主要功能的网页。

2)资源获取权限:指获取网页主要内容,如文档、软件、视频等,需要权限或者需要安装插件才能获得完整内容。此时会分三种情况:

?提供优质、正版内容的网站,由于内容建设成本很高,尽管查看全文或下载时需要权限或安装插件,但属于用户预期之内,网络搜索引擎也不认为权限行为对用户造成伤害,给予与正常可访问页面相同的对待。

?还有一些视频、下载资源页,也许自身资源质量并不差,但需要安装非常冷门的插件才能正常访问,比如要求安装“xx大片播放器”,网络搜索引擎会怀疑其有恶意倾向。

实例参考:

示例

可访问性

说明

CNKI上的一篇论文,收费才能下载,但有版权,浏览体验好

优酷上一部新电影,需要付费才能观看,浏览体验好。

内容是copy来,但是需要登录才能看更多

入党申请书,本身就是转载的,网上到处都是,但这个页面仍然要求收费才能下载。

3、失效网页

往往指死链和主体资源失效的网页。网络搜索引擎认为这部分网页无法提供有价值信息,如果站点中此类网页过多,也会影响网络搜索引擎对其的收录和评级。建议站长对此类网页进行相应设置,并及时登录网络站长平台,使用死链提交工具告知网络搜索引擎。

失效网页包括但不仅限于:

?404、403、503等网页;

?程序代码报错网页;

?打开后提示内容被删除,或因内容已不存在跳转到首页的网页;

?被删除内容的论坛帖子,被删除的视频页面(多出现在UGC站点)

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: 搜索引擎

“揭开搜索引擎判定网站价值的秘密-深入探索其算法的奥秘 (揭开搜索引擎的密码)” 的相关文章

SEO优化提升排名的秘诀-揭秘企业缺席搜索结果之因-搜索引擎之谜 (seo常用优化技巧)

SEO优化提升排名的秘诀-揭秘企业缺席搜索结果之因-搜索引擎之谜 (seo常用优化技巧)

在这个信息爆炸的时代,搜索引擎成为了我们获取信息的主要途径。你是否曾遇到过在搜索引擎中无论如何也找不到自己企业的情况?这究竟是怎么回事?优化是否真的能提升企业排名?今天,我们就来揭秘搜索引擎背后的...

取代搜索引擎的潜在威胁-聊天机器人-AI-不是玩笑! (替代搜索引擎)

取代搜索引擎的潜在威胁-聊天机器人-AI-不是玩笑! (替代搜索引擎)

作为互联网行业中最经典的商业产品之一,搜索引擎在太平洋两岸分别哺育出了谷歌和百度这两大科技巨头。虽然在过去二十余年间,无数挑战者试图掀翻百度和谷歌的铁王座,却无一成功。 不过搜索引擎的好日子...

搜索引擎如何对网站评分和排序-网站排名规则 (搜索引擎如何使用)

搜索引擎如何对网站评分和排序-网站排名规则 (搜索引擎如何使用)

搜索引擎排名规则:提升网站可见度的关键 引言 在现代互联网时代,搜索引擎已成为人们获取信息的重要途径。因此,了解搜索引擎排名规则对于企业和个人而言至关重要,因为这些规则直接影响着网站在搜索结果中...

搜索引擎的工作原理及其影响网站自然排名的稳定性 (搜索引擎的工作原理是什么)

搜索引擎的工作原理及其影响网站自然排名的稳定性 (搜索引擎的工作原理是什么)

引言 搜索引擎优化(SEO)对于网站运营者来说一直是至关重要的。在当今竞争激烈的网络世界中,稳定网站自然排名对于吸引流量、提升曝光至关重要。搜索引擎的排名机制却是一个不断摸索的过程,需要不断地...

揭秘搜索引擎背后的奥秘-了解搜索巨头的运作机制 (揭秘搜索引擎有哪些)

揭秘搜索引擎背后的奥秘-了解搜索巨头的运作机制 (揭秘搜索引擎有哪些)

在这个信息爆炸的时代,搜索引擎成为了我们获取信息的主要途径。你是否曾遇到过在搜索引擎中无论如何也找不到自己企业的情况?这究竟是怎么回事?优化是否真的能提升企业排名?今天,我们就来揭秘搜索引擎背后的...

分析搜索引擎青睐的网站标题-揭开优化之谜 (分析搜索引擎竞价和搜索引擎优化的方法和区别)

分析搜索引擎青睐的网站标题-揭开优化之谜 (分析搜索引擎竞价和搜索引擎优化的方法和区别)

在当今信息爆炸的时代,搜索引擎已经成为我们获取信息的主要途径。对于网站拥有者来说,一个吸引人的标题是吸引用户点击的关键。那么,搜索引擎到底喜欢什么样的标题呢? 分析网站标题 简...