关于爬虫的知识就告一段落了,在爬虫的爬取数据中,学记所记录的是网页端的内容,也就是WEB端的内容。由于在爬虫的知识中web只是其中一个数据源,因此对于 WEB 的知识没有很详细的进行讲述。
为此,在这篇文章中,我们就来详细的了解一下 web的相关知识。
在了解网页之前,先来了解一下网页的集合体—万维网。
万维网
万维网(World Wide Web)亦作WWW,是一个通过互联网访问,由许多互相链接的超文本组成的系统。英国科学家蒂姆·伯纳斯-李于1989年发明了万维网。1990年他编写了第一个网页浏览器。网页浏览器于1991年发行,1991年1月最先向研究机构发行,并于1991年8月在互联网上向公众开放。
蒂姆·伯纳斯-李
万维网是信息时代发展的核心,也是数十亿人在互联网上进行交流的主要工具。
万维网并不等同于互联网,万维网只是互联网所能提供的服务其中之一,是依附于互联网运行的一项服务。
万维网的起源
万维网最早的构想可以追溯到遥远的1980年,蒂姆·伯纳斯-李构建的ENQUIRE项目。这是一个类似于维基百科的超文本在线编辑数据库。尽管这个项目与我们现在使用的万维网大不相同,但是它们之间有许多相同的核心思想。
1989年3月,伯纳斯.李撰写了《关于信息化管理的建议》一文,文中提及ENQUIRE并且描述了一个更加精巧的管理模型。1990年11月12日他和罗伯特·卡里奥合作提出了一个更加正式的关于万维网的建议。在1990年11月13日他在一台NeXT工作站上写了第一个网页以实现他文中的想法。
罗伯特·卡里奥设计的web图标
在1990年的圣诞节,伯纳斯-李制作了要让网页工作的所有必要工具:第一个网页浏览器WorldWideWeb(同时也是网页编辑器)和第一个网页服务器。
世界上第一台作为网页服务器的NeXT电脑
万维网上需要单向连接而不是双向连接,这使得任何人可以在资源拥有者不作任何行动情况下链接该资源。和早期的网络系统相比,这一点对于减少实现网络服务器和网络浏览器的困难至关重要。万维网不像某些应用软件,它不是私有的,这使得服务器和客户端能够独立地发展和扩展,而不受许可限制。
1994年10月,万维网联盟(W3C)在麻省理工学院计算机科学实验室成立,创建者是万维网的发明者蒂姆·伯纳斯-李。到了1994年底,全球网站数量仍然相对稀少,但是很多著名网站已经相当活跃,这些网站已经预示或者启发了当今最流行的服务。
万维工作室的标牌
通过互联网,世界各地都创建了其他网站。这促进了协议和格式化的国际标准发展。伯纳斯-李继续参与指导万维网标准的开发,例如编写网页的标记语言。万维网通过一种易于使用和灵活的格式,使信息在互联网上传播。因此,万维网对于互联网的普及发挥了重要的作用。虽然这两个词语有时被混在一起使用,但万维网并不是互联网的同义词。万维网是一个信息空间(Information space),包含超链接文档和其他资源,由其URIs标识。它使用互联网协议如TCP/IP和HTTP实现为客户端和服务端服务。
那为什么World Wide Web 在中文环境中被称为万维网呢?
1994年6月,在北美留学的李小文(中国科学院院士)于中国新闻电脑网络(CND)的电子出版物《华夏文摘》上首次将“World Wide Web”称为“万维天罗地网”,简称“万维网”,这样其中文名称汉语拼音也是以WWW开始,自此“万维网”这一名称开始被广泛采用。
名副其实的扫地僧
万维网的核心部分是由三个标准构成的:
- 统一资源标识符(URI),这是个为资源定位的标识系统。
- 超文本传送协议(HTTP),此协议负责规定客户端和服务器之间的交流规则。
- 超文本标记语言(HTML),此语言作用是定义超文本文档的结构和格式。
万维网由上述三者构成,而网页主要是由 URI 和 HTML 构成,超文本传输协议此前学记曾经详细的介绍过,因此此次就略过它,继续介绍 URI 和 HTML。
统一资源标识符(URI)
统一资源标识符(Uniform Resource Identifier)在电脑术语中是一个用于标识某一互联网资源名称的字符串。
该种标识允许用户对网络中(一般指万维网)的资源通过特定的协议进行交互操作。URI的最常见的形式是统一资源定位符(URL),经常指定为非正式的网址。更罕见的用法是统一资源名称(URN),其目的是通过提供一种途径。用于在特定的名字空间资源的标识,以补充网址。
URL(定位符)和URN(名称)方案属于URI的子类,URI可以为URL或URN两者之一或同时是URI和URN。技术上讲,URL和URN属于资源ID;但是,人们往往无法将某种方案归类于两者中的某一个:所有的URI都可被作为名称看待,而某些方案同时体现了两者中的不同部分。
URI可被视为定位符(URL),名称(URN)或两者兼备。统一资源名(URN)如同一个人的名称,而统一资源定位符(URL)代表一个人的住址。换言之,URN定义某事物的身份,而URL提供查找该事物的方法。
通用URI的格式如下:
[协议名]://[用户名]:[密码]@[主机名]:[端口]/[路径]?[查询参数]#[片段ID]
EX:https://www.baidu.com/tn=62004195_oem_dg
URI的历史
URI与URL有着共同的历史。在1990年,蒂姆·伯纳斯-李的关于超文本的提案中,间接地引入了使用URL作为一个表示超链接目标资源的短字符串的概念。当时,人们称之为“超文本名”或“文档名”。
在之后的三年半中,由于万维网的超文本标记语言核心技术、HTTP与浏览器都得到了发展,区别提供资源访问和资源标记的两种字符串的必要性开始显现。虽然在当时,未被正式定义,但“统一资源定位符”这一术语开始被用于代表URI,而URL则由“统一资源名称”所表示。
上面的内容就是有关 URI 的知识,构成网页的一大关键已经介绍了,我们来继续看下一个关键知识—超文本。
超文本
超文本(Hypertext)是一种可以显示在电脑显示器或其他电子设备的文本,其中的文字包含有可以链接到其他字段或者文档的超链接,允许从当前阅读位置直接切换到超链接所指向的文字。(就是我们在网页进行浏览时可以点击的字段)超文本文档通过超链接相互链接,超链接通常通过鼠标点击、按键设置或触屏来点阅。
超文本系统
超文本系统是一种提供了复杂格式的解释的软件系统,包括文本,图像,超链接一种文字间的跳转以提供某一个关键词的相关内容。这种系统为出版、更新和搜寻的工作提供了更多的便利。最成功的超文本系统之应用,就是在互联网上使用的万维网。
这就是网页的另一构成部分超文本的知识。
如果想学习更多科技知识,可以点击关注。
如果对文章中的内容有什么困惑的地方,可以在评论区提出自己的问题,学记同大家一起交流,解决各种问题,一起进步。
青年学记 陪伴着各位青年
作者:青年学记 一名不断进步的程序猿
一起学习 一起进步
走向自立