必须了解的百度搜索引擎原理

搜索是一个复杂的系统,了解一些基础搜索知识,有助于开发者少走弯路。

百度搜索引擎原理:了解搜索引擎工作原理,可以更好的指导开发者,提高智能小程序和网站的搜索友好性。百度搜索引擎工作原理主要包括资源抓取、页面分析、建立索引、搜索排序。

075041596613883.png

1、资源抓取:指百度蜘蛛对开发者主动提交的资源,以及互联网发布的资源进行抓取和存储的过程,为搜索结果展现提供了基础数据支持。

2、页面分析:对抓取的资源进行信息提取和分析处理,包括TDK参数和页面正文信息、服务价值等,为精准匹配搜索用户需求提供参考。

3、建立索引:参考页面分析情况,建立URL索引、关键词索引关系,同时索引库分层级存储,便于不同搜索关键词需求下快速定位资源页面。

4、搜索排序:结合用户搜索需求、页面因素、索引关系(存储层级),综合计算得到搜索排序。

百度蜘蛛(UA/IP):智能小程序抓取蜘蛛,即智能小程序UA/IP,开发者要正确识别抓取蜘蛛,确保未针对其进行任何封禁设置,正常访问返回码为200,访问异常时可能会返回404、503等。识别方式参考《轻松两步,教你快速识别百度蜘蛛》。

robots文件:开发者可通过 robots 文件声明智能小程序中不想被搜索引擎收录的部分,如果您的智能小程序高度开放,完全可以不必设置robots文件。智能小程序robots设置参考《robots协议介绍》

索引量与流量:索引量是指智能小程序资源中可以被搜索用户搜索到的资源量,流量是指智能小程序资源在百度APP内搜索结果中的点击量。

首先需要澄清,索引量的下降,不一定会带来流量下降。

因为基于智能小程序资源内容质量和服务价值,百度搜索会对智能小程序资源进行分层管理,内容质量和服务价值越高,层级越高,在搜索中被展现和被用户点击的可能性越大,从而获取更多的搜索流量收益。搜索会定期评估资源情况更新分层,同时对质量差和服务价值低的底层资源进行删除,因而索引量数据可能会下降,被删除的该类资源在搜索中被展现和被点击的可能性很小,所以一般不会影响流量收益。

搜索排序:搜索结果的排序策略一直是严格保密的,智能小程序的介入,让排序策略进一步复杂化。

1、传统排序原则:时效性、权威性、内容丰富度,以及与用户需求的相关性匹配度永远是搜索排序不变的考量因素。

2、优待浏览和服务体验好的智能小程序:由于智能小程序给搜索用户带来了浏览和服务体验增益,所以在N个搜索结果得分相近的情况下,搜索会优先展现智能小程序的结果。

3、优待性能稳定的智能小程序:百度搜索非常重视搜索结果的稳定性,H5结果的死链问题,智能小程序的白屏、加载失败等问题严重影响用户体验,不仅造成用户流失,更有可能被搜索限制展现。

4、优待用心经营用户的智能小程序:百度搜索希望搜索用户可以通过智能小程序获得更好的服务,同时为智能小程序经营用户提供了诸多能力,对于认真经营用户的智能小程序会有更多的倾斜扶持。