新闻资讯

新闻资讯 行业动态

电子商务-搜索引擎

编辑:008     时间:2020-02-11

1,搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序收集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。

2,搜索引擎分类

(1) 全文搜索引擎:从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,可分为两类:

一类拥有自己的网页抓取、索引、检索系统(Indexer)

另一类则是租用其他搜索引擎的数据库。

搜索引擎的自动信息搜集功能分两种:定期搜索,提交网站搜索。

(2) 目录索引:将网站分门别类地存放在相应的目录中,只是按目录分类的网站链接列表而已。

(3) 元搜索引擎:接受用户查询后同时在多个搜索引擎上搜索并返回结果给用户。

(4) 垂直搜索引擎:专注于特定搜索领域和需求。

3,搜索引擎工作原理

 

 

(1).抓取网页---网页抓取程序(spider,蜘蛛程序)。

(2).处理网页

最重要的就是提取关键词,建立索引文件,其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

(3) 提供检索服务

4,搜索引擎组成部分

搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:

搜索器:其功能是在互联网中漫游,发现和搜集信息;(使用分布式、并行计算技术)。

索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;(使用集中式索引算法或分布式索引算法)。

检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。

用户接口(HTML页面):其作用是接纳用户查询、显示查询结果、提供个性化查询项。

 

5, 索引项有客观索引项和内容索引项两种

---客观项与文档的语意内容无关,如作者名、URL

---内容索引项是用来反映文档内容的,如关键词及其权重、短语、单词等等。

内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。

对于中文等连续书写的语言,必须进行词语的切分(分词技术)。

6,检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。

7,用户输入接口可以分为简单接口和复杂接口

简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制。

8,网络蜘蛛即Web Spider,是一种半自动的程序, 通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

9,网络蜘蛛在抓取时,评价网页重要性的主要依据之一是某个网页的链接深度

两种策略:广度优先(最常用的方式,可以让网络蜘蛛并行处理,提高其抓取速度)

深度优先。

关键问题:HTML分析,页面处理,多线程,确定何时完成

10,搜索引擎核心算法

ü 网页抓取程序(网络蜘蛛)

ü 关键词提取

ü 索引文件创建方式

ü 重复网页合并

ü 结果排序算法

ü 中文分词算法(如:理念和服务)

ü 网页类型判断(语言判断:meta标签、字符编码、内容分析等)

ü 超链接分析

ü 网页重要性与丰富度计算

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

回复列表

相关推荐