1.2.3 万维网及Web技术

1.万维网

万维网简称为Web,又称WWW,英文全称为World Wide Web,它是一个由许多互相链接的超文本组成的系统,通过互联网访问。WWW起源于1989年3月由欧洲量子物理实验室CERN所开发的主从结构分布式超媒体系统。到了1993年,WWW的技术有了突破性的进展,它解决了远程信息服务中的文字显示、数据连接以及图像传递的问题,使其成为Internet上最为流行的信息传播方式。现在,Web服务器成为Internet上最大的计算机群,Web文档之多、链接的网络之广,令人难以想象。可以说,Web为Internet的普及迈出了开创性的一步,是近年来Internet上取得的最激动人心的成就。

万维网的核心部分是由3个标准构成的:统一资源定位器(URL),这是一个统一的资源定位系统;超文本传送协议(HTTP),负责规定客户端和服务器怎样互相交流;超文本置标语言(HTML),作用是定义超文本文档的结构和格式。

万维网现在已经发展成为全球最大的电子信息载体和信息媒体,万维网是人类历史上最深远、最广泛的传播媒介。万维网出现之前,人们只是通过传统的媒体(如电视、报纸、杂志和广播等)获得信息。但随着互联网的发展,人们获取信息已不再满足于传统媒体那种单方面传输和获取的方式,而希望有一种主观的选择性。通过万维网,人们只要通过使用简单的方法,就可以很迅速方便地取得丰富的信息资料。用户在通过Web浏览器访问信息资源的过程中,无须再关心一些技术性的细节,而且界面非常友好,因而Web在Internet上一经推出就受到了热烈欢迎,并迅速得到了爆炸性的发展。

Web是建立在Internet上的交互的、动态的、多平台的图形信息系统。Web也是Internet提供的一种服务,其内容保存在Web服务器中,用户通过浏览器来访问。1994年10月,在麻省理工学院计算机科学实验室成立了万维网联盟(World Wide Web Consortium,W3C,又称W3C理事会)。万维网联盟的创建者是万维网的发明者蒂姆·伯纳斯·李。

2.Web服务器

准确地说,Web服务器就是专门处理HTTP请求的计算机系统,不同于处理商业逻辑的应用程序服务器,采用浏览器/服务器结构。其作用是整理和存储各种WWW资源,并响应客户端软件的请求,把客户所需的资源传送到Windows、UNIX或Linux等平台上。目前常用的Web服务器软件有微软的IIS、IBM公司的IBM Lotus Notes Domino、Netscape公司Netscape Enterprise Server和Apache,其中常用的是IIS和Apache。

通常把安装Web服务器软件的计算机主机称为Web服务器。Web空间是Web服务器上专门存放网页文件的磁盘计算机空间,一般通过虚拟主机技术来实现。必须把网页放在Internet上Web服务器的硬盘中,通过浏览器才能观看。有关申请Web空间的内容请参考本书第11.3节。

3.Web浏览器

浏览器(Web Browser)是浏览网页的客户端程序,是可以显示网页服务器或者本地文件系统内的HTML文件并让用户与这些文件互动的一种软件。网页浏览器主要通过HTTP协议与网页服务器交互并获取网页,这些网页由URL指定,文件格式通常为HTML等。另外,许多浏览器还支持其他的URL类型及其相应的协议,如FTP、Gopher、HTTPS(HTTP协议的加密版本)。

目前,大部分浏览器均支持许多HTML以外的文件格式,例如JPEG、PNG和GIF图像格式,还可以利用外挂程序(插件)来支持更多文件类型。例如,允许网页设计者在网页中嵌入图像、动画、视频、声音、流媒体等。

目前,支持HTML5的主流网页浏览器包括Google公司开发的Chrome、微软的Internet Explorer 9.0以上、网景公司的Firefox、苹果公司的Safari、Opera软件公司开发的Opera网络浏览器等。

4.HTTP协议

HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。HTTP定义了浏览器怎样向万维网服务器请求万维网文档,以及服务器怎样把文档传送给浏览器,是一个标准的客户端服务器模型。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示等。

因特网是基于TCP/IP协议实现的,TCP/IP协议由很多协议组成,不同类型的协议又被放在不同的层。其中,位于应用层的协议就有很多,如FTP、SMTP、HTTP。只要应用层使用的是HTTP协议,就称为万维网(World Wide Web)。例如,在浏览器里输入百度网址时,能看见百度网提供的网页,就是因为个人浏览器和百度的服务器之间使用的是HTTP协议在交流。Web服务器向浏览器提供服务的过程:由客户通过浏览器向Web服务器发出HTTP请求,Web服务器接到请求后,进行相应处理,并将结果以HTML文件的形式返回到浏览器,客户浏览器对其解释并显示给客户,如图1-2所示。

基于HTTP协议的客户/服务器模式的信息交换过程包括4个步骤:

①建立TCP连接。用户在客户机上所下达的指令通过浏览器分析后,与服务器建立TCP连接;Web系统中有一个专门的服务器进程来监听TCP的80端口,一旦发现浏览器向它发出连接建立请求,继而建立TCP连接。

图1-2 Web的客户/服务器结构模型

②客户端发送请求。建立连接后,浏览器就向万维网服务器发出浏览某个网页的请求。

③服务器发送响应。服务器接收到用户的请求后,就会做出响应处理客户的请求,把存放在服务器上的信息(网页形式)传回给用户,向客户机发送响应消息。

④关闭连接。客户机接收响应消息后发出断开连接的请求,服务器关闭TCP/IP连接,一次会话结束。

5.网站

网站就是互联网上固定地发布信息的地方,一般存放在Web服务器,它由域名和网站空间构成。网站是通过超链接形式构成的一组相关网页以及相关的文件集合,网站上的网页文件的入口页被称为主页(Home Page)。衡量网站的性能通常从网站的空间大小、网站的位置、链接速度和网站提供的服务等方面考虑。

6.网页

网页是位于Web网站上的超文本文件,是WWW中最基本的信息单位。网页一般由一个超文本文件以及相关的图形和脚本文件组成。在网站设计中,有“静态网页”和“动态网页”的区别。

静态网页的特点如下:①每个网页都有一个固定的URL,且网页以.html、.shtml、.xml等常见形式为扩展名;②每个静态网页都是一个独立的html文件,网页内容一经发布到网站服务器上,就永远不发生变化;③静态网页的内容相对稳定,因此容易被搜索引擎检索;④静态网页没有数据库的支持,在网站制作和维护方面工作量较大,因此当网站信息量很大时完全依靠静态网页制作方式比较困难。当然,静态网页并不是说网页中的元素是静止不动的,而是指没有后台数据库、不含程序、浏览器不与服务器发生交互的网页。静态网页也可以出现各种动态的效果,如GIF格式的动画、Flash、滚动字母等。

与静态网页相对应,动态网页是以.aspx、.asp、.jsp、.php、.perl、.cgi等形式为扩展名,并且在动态网页网址中有一个标志性的符号——“?”。程序在服务器端运行,它们会随不同客户、不同时间,返回不同的网页。