天网搜索,天网搜索简介

时间:2023-04-01 11:35:01编辑:coo君

天网搜索简介

天网搜索的前身是北大天网。北大天网由北京大学网络实验室研究开发,是国家重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。北大天网于1997年10月29日正式在 CERNET上向广大互联网用户提供Web信息搜索及导航服务,是国内第一个基于网页索引搜索的搜索引擎。北大天网见证了中国互连网和中文搜索引擎发展的历史并参与其中,她是国内中文搜索领域的一面旗帜!
天网搜索继承了北大天网的所有知识产权,并与北大网络实验室保持着密切的合作伙伴关系。天网搜索希望将北大天网的搜索技术和搜索成果更好的服务社会,服务公众,并能够不断的为互连网用户提供最纯正的搜索体验!
天网搜索秉承北大天网研发团队的优良传统,致力于探索和研究中英文搜索引擎系统的核心技术并不断推出更新的搜索产品。目前天网搜索引擎维护的文档数量达到 6亿之多,并正在以平均每月一千万页文档的数量扩大着规模。天网搜索的中文文档数量超过4亿,其中包括html、txt、pdf、doc、ps、ppt等多种类型的文档和资源。
天网搜索凭借北大天网深厚的技术背景及技术积累和对搜索引擎的理解,致力于为合作伙伴提供更为先进的搜索引擎技术。
目前,天网搜索已经建成了一个以索引搜索为基础应用,以个性化搜索和专业搜索为辅助应用的综合搜索平台。
天网搜索有一支高素质的人才队伍,他们有着极高的技术天赋和对天网搜索的热爱。
天网的成功来自于对人的价值的尊重和认同。
天网深信,今天的专注意味着明天更大的成功!

天网搜索

天网中英文搜索引擎

技术报告

国际互连网(Internet)这一个全球性的计算机网络在九十年代得到了迅速的发展,连入的主机数以几乎每年翻一翻的速度增长,并已将它的影响扩大到信息化社会的各个角落。Internet上丰富的信息资源和便捷的通信手段是其吸引用户的主要因素。WWW(World Wide Web)是目前Internet上使用最广泛的信息服务之一。它利用超文本制标语言HTML(Hypertext Markup Language)描述超文本和超媒体信息,将分布在网络中各个节点上的文字、声音、图形、图象、视频等多媒体信息有机地联系和组织起来,用户可用友好、方便、多样的界面存取信息,因而在Internet上得到了迅速的发展,已成为人们发布和共享信息的重要工具。除此之外,Internet上还提供News, Email, Ftp, Telnet, Gopher等多种服务。

WWW信息量的增加,给人们带来一个新的问题,即如何在庞大的WWW信息网内找到自己所需要的信息.解决这个问题的途径是建立WWW搜索引擎,即用一定方法发现WWW信息,生成WWW资源索引,并为用户提供检索和查询服务.WWW搜索擎已成为人们争相研究开发的热点.近年来,国外已先后有一些此类系统(例如Yahoo!,AltaVista,HotBot,MetaCrawler等)在Internet上运行.在我国,由于信息网络的带宽较窄、中文信息占较大比例、大部分用户习惯使用中文、对中文检索需求很大等原因,使得这些搜索引擎不能完全满足用户的需要.在这种情况下,我们设计开发了一个大型、高效的分布式中英文信息发现和资源索引检索服务系统―“天网(WebGather)”中英文搜索引擎,取得了很好的效果.

一、系统结构

本系统主要由WWW信息存取和分析子系统、WWW信息收集控制子系统 、News收集分析子系统、资源索引数据库、信息检索子系统、管理和监控子系统等几个部分组成。各个部分的功能如下:

1、WWW信息存取和分析子系统 根据WWW信息收集控制子系统提供的URL和相关信息,使用HTTP协议,在Internet上获取相关资源,并能就对方主机返回的不同状态码作出相应处理。对取回的Web页面(主要是HTML格式)进行分析,自动对中文编码进行识别和转化,对中文信息进行分词、提取页面的标题、关键词、摘要以及其中的超链(HyperLink)。 将分析的结果通过扩展SOIF接口提交给信息收集控制子系统。

2、WWW信息收集控制子系统 根据配置文件运用自然语言理解和知识获取技术、引导信息收集系统优先访问特定知识领域和特定地域范围内的信息,向HTML存取分析进程发送需访问的URL及相关信息,接收其发回的访问和分析结果。将相应的数据存入信息数据库中。并对信息收集的频度和流量加以控制。

3、News收集分析子系统 使用NNTP协议访问News Server,收集所关心的Newsgroup(在配置文件里配置)中的文章。并进行分析,提取文章的摘要、标题、关键词。将这些信息存入信息数据库中。

4、资源索引数据库 存储收集到的WWW和News信息,以及分析的结果。并对其重新进行基于词的分级优化索引,以加快查询速度.

5、信息检索子系统 提供基于WWW方式的信息检索服务。用户通过任何标准的WWW浏览器直接访问。检索系统可以支持在一次检索中使用多个检索词(中、英文),并支持检索词之间的逻辑关系(与、或)。还可以指定查询的范围:WWW、News,和方式(精确、模糊)。检索结果以HTML形式返回给用户。各项结果的标题与它所对应的URL用超链连接起来。用户只需在浏览器中点中检索结果项的标题,就能马上取得相应页面的实际内容。命中的URL页面按它与用户检索关键词的关联程度排序,使用户的检索更有效率。本系统还支持在上一次返回的结果中进行查询。

6、管理和监控子系统 提供系统配置,启动、停止、监控、统计等管理功能。

信息收集控制子系统与WWW存取分析进程以及NEWS存取分析子系统之间的信息交互是通过TCP Socket连接来实现的,因此各子系统可以分布运行于网络中不同的主机上。

二、技术特征

本系统有以下技术特征:

1、信息收集符合Internet的相关协议和标准。

因为本系统收集的主要是Internet上的信息,所以在设计开发时把对有关协议和标准的支持作为一个重要的目标。主要包括:

(1)HTTP协议

3、HTTP为WWW所使用的超文本信息传输协议。目前使用的主要有1.0和1.1版本。本系统在实现中可以通过与WWW SERVER的协商判断其所支持的HTTP协议版本,并自动选用相应版本的协议进行访问。因而做到了较好的兼容性和适应性。

(2)MIME

WWW的超媒体信息在传输过程中使用MIME进行信息的表示和封装。本系统可以自动识别和处理MIME格式的信息。

(3)HTML语言 HTML为WWW所使用的超文本制标语言,是国际标准ISO8879:1986 SGML(Standard Generalized Markup Language) 的一个应用。SGML 是一种定义结构化标准语言的语言。HTML就是用SGML定义的一种非专利性质的Hypertext的标注语言。HTML语言的版本从最初的1.0、2.0一直发展到3.2。最近又推出HTML 4.0(97年12月)。本系统遵循HTML 3.2标准,并对Netscape和Microsoft使用的一些扩展Tag提供支持。

(4)WWW Robots 标准 本系统在进行WWW信息的自动收集时,实际上使用的是WWW 机器人方式.然而出于某些原因,一些WWW 服务器的管理员或拥有者不希望他们的信息被WWW机器人访问.ROBOT Exclusion标准提出了一种方法来满足这种需要.它规定在WWW 服务器的“/robots.txt”文件可以限制WWW机器人对该WWW服务器的访问,并定义了这个文件的格式和含义.此标准无强制性,由WWW机器人自愿遵守.本系统在实现中遵循了这一标准.

(5)NNTP协议

NNTP是网络新闻传输协议。该协议规定了一套利用可靠的、流式传输来在Internet上发送和阅读新闻的方法。本系统在访问和收集News信息时完全遵守这一协议。

上一篇:贷款工作证明模板,深圳贷款工作证明模板

下一篇:一中全会是什么意思