NatureDNS--一种自然语言式域名寻址系统.cas.201208.v4.from.cas

计算机应用与软件 Computer Applications and SoftwareNatureDNS: 一种自然语言式域名寻址系统刘振兴11(人民网股份有限公司 人民网研究院, 北京 中国 100

计算机应用与软件 Computer Applications and Software

NatureDNS: 一种自然语言式域名寻址系统

刘振兴

11(人民网股份有限公司 人民网研究院, 北京 中国 100733)

摘 要 本文探讨一种使用自然语言进行域名注册登记、解析和寻址的方法。现行的域名系统(Domain Name System ,DNS )采用层级式的命名空间,点分多段表达式,域名与IP 的对应关系维护在一个分布式的数据库系统中。随着网络发展这种体系面临:1)越来越多的人们被迫接受一种点分字符串作为访问对象的标记,2)随着新顶级域名的增多和国际化域名的启用,点分字符串的域名变得进一步复杂多变。在深入分析这一体系及其他相关改进型探索的基础上,本文提出一种以“-”(hyphen )为起始和分级标记使用自然语言式字符串进行网络寻址的新方法(“-xxxx ”),取名为NatureDNS ,即“自然语言式DNS 系统”。 关键词 网络地址;域名;域名系统;网络寻址;自然语言;国际化域名

中图分类号 TP3 文献标识码 A

DOI:

NatureDNS: an Approach to DNS Using Natural Languages

Liu Zhenxing1

1(Institute of People Daily Online, People Daily Online, Beijing 100733, China)

Abstract This paper proposes a new approach to rebuilding the DNS using natural languages to register and resolve a domain name. The current DNS is a hierarchical naming system where a domain is expressed by a dot-delimited string and the mapping of domain names and IP addresses are stored in a distributed database system. With the development of Internet, the DNS encounters: 1) more people are compelled to remember the ever-growing dot-delimited strings as resources addresses; 2) with new gTLD and the IDN are introduced, domain names become more complex than ever. Based on a deep investigation with the DNS and other refining works, the article presents a new method (“-xxxx”) that expresses a domain name with natural languages starting/separating with a hyphen (-) tag, named as “NatureDNS”, i.e., “express domain names in natural languages”.

Keywords Network Addresses; Domain Name; Domain Name System (DNS); IP Addresses Lookup; Natural Languages; Internationalized Domain Names 0 研究背景

域名系统(Domain Name System, DNS)是互联网关键性基

础服务之一,解决的问题是减省了人们需要记住数字IP 地址的

负担,避免了因为IP 地址变化导致域名所代表服务不可用,提

供了多地址对应一个主机的可能 [1] 。

IPv6作为IPv4的继承者和替代者,正逐渐向人们走来。IPv6

显著的、首要的功能就是解决了IPv4地址短缺的问题 [2] 。地

址空间的增大,也带来了地址表达式长度的增长,现行的IPv6

地址的表达式为分号间隔16进制法,是IPv4的点分十进制表

达式长度的39/15 =2.6倍。

IP 地址表达式的复杂,导致在应用中直接引用IP 地址变得

更加困难。因此,在可见的未来,直接使用IP 地址的地方越来

越少,取而代之的是使用易于理解和记忆的域名作为IP 寻址手

段,这会引起人们对域名系统更加依赖和重视。

另一方面,域名系统也在不断的发展,根据ICANN 的数

据 [3] ,目前已经有顶级域名326个,主要分为三类:通用顶

级域名(gTLD )、国家代码顶级域名(ccTLD )和赞助类顶级域名(sponsored )。2012年1月,经过 ICANN 第41届新加坡会议确定开放新顶级域名的申请,任何法人组织可以申请任意未被抢注的新顶级域名。根据2012年6月披露的首批新顶级域名的申请情况,共1930个新顶级域名申请通过初步审查 [4] 。 与此同时,国际化域名从另一个视角来延展域名表达的丰富性——在域名中引入非ASCII 语言符号,也即国际化域名(Internationalized Domain Name, IDN)。多种顶级域名极大的丰富了域名的表达形式,但也可能会商标或者品牌保护带来不利。更多的顶级域名意味着品牌拥有者需要注册更多的域名来求得全面保护所持有品牌。 以上两个方面反映出,随着IPv6的临近,域名系统正变得日益重要;随着新顶级域名和国际化域名的推行,域名的表达变得丰富而“杂乱”。这些举措会给域名系统带来哪些变化,这些变化对于人们使用互联网有哪些影响?有没有一种更好的方法来解决这些问题?带着这些思考和想法,本文深入分析了

,

2

计算机应用与软件

现有的域名系统以及与之相关的其他研究,提出一种使用自然语言来直接表达域名的新方法,并取名为“NatureDNS ”。

下面的章节内容顺序为:在第1章论述了现有DNS 面临的问题;第2章列举和分析了目前对上述问题进行改进和补充的方式方法;第3章详细阐述了NatureDNS 域名系统,分定义、注册与解析过程、实例与应用场景、对比分析等小节;第4章提出由现行DNS 系统向NatureDNS 过渡的方法;第5章进行总结;第6章补充了进一步的研究工作。

1 DNS 系统面临的问题

1.1 DNS 系统自身

现行的DNS 系统是1983年由美国两位计算机科学家发明,起初的目标是取代维护在单机上的“主机表(host table)”[5] 。近30年后的今天看来这个系统仍在可靠地运行中,并可能将继续为互联网的发展作出贡献。然而,今天的互联网技术水平和发展规模,与几十年前毕竟有很大不同,若以现在的条件来审视这一域名系统,并结合该域名面临的一些改革,有如下几点不足可供改进。

(1) 点分多级不均等域 DNS 要表达“域”的概念,将一个整体的互联网划分成.COM 域,.NET 域等,然后有了地区的.US 域,.CN 域等,之后才是每个域上的二级域。这种分法在理论是可靠的,也是可行的,但却不是最优的,一个明显的地方是,这种设计不是从人的角度去认识和区分互联网。最早将网络简单的划分为.COM/NET/ORG等有限的几个域,显然是过于简略了,后期启用了国家代码顶级域名缓解了一下,目前的任意字符的顶级域名才更接近人的思维。

不均等的.COM/NET/ORG等域带来的问题是,域的拥有者都想拥有一个.COM 的二级域,而网络使用者则会首选.COM 域去访问(Figure 1)。研究 [6] 发现大部分网络用户只用了很少一小部分DNS 服务器。

Figure 1 前五通用顶级域名的注册量及百分比 [7]

如果大多数二级域都在一个域里,那么这个域的分法就值得商榷,最大的域就非常拥挤,资源也相对稀缺,有进一步细分的必要。DNS 首要使命是解决人们难以记住IP 数字地址,采用点分多级表达法降低了记忆难度,而没有真正的解决这个问题。

(2) 非自然语言

点分多级的表达式强加给了人们另外一种语法,为了使用互联网,人们不得不像学习信件地址格式一样再学习一种“网络地址格式”。如果有可能,改成人们似乎用的自然语言来表

达网址,就像信件的地址一样,无疑会减省人们学习的网络地址格式的繁琐。

(3) 受限的LDH 表达式

技术上看,DNS 的域名可以使用任何八进制的字符,但实际被允许使用的字符集只是ASCII 字符集的一个子集,也即字母a-z, A-Z 、数字0-9和连字符“-”,又由于域名不区分大小写,所以实际使用的字符只有26个字母,10个数字,1个连字符共37个符号,这就是LDH 规则(Letters, Digits and Hyphen)。

就连使用其他ASCII 符号做域名都不被允许,这从根本上否定了使用其他语言来注册域名的可能性。如此小的字符集合,全世界的网络使用者来抢注域名,这可能也是ICANN 不断探索新的域名表达式的原因之一。

(4) 过度设计的127-253

与现行的DNS 狭小的表达空间相比,对域名长度的设计可谓绰绰有余。DNS 设计成每个Label (每级域的名称)的长度可以有63个字符,可以划分成127级,总长度可以允许253个字符。

统计数据显示,目前注册登记的域名,平均长度只有11个字符(Figure 2)。

Figure 2 已注册域名的长度分布 [8]

如果在网络上检索,也能发现发现超长至63字符的域名,但多数是验证域名的这条规则或者是另外一种噱头,如http://www.abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijk.com/ 等超长域名 [9] 。与IP 地址的预留空间越大越好,设计给人类使用的域名,是越简单越好,试图挑战人类的临时记忆极限的方法可以再改进。

(5) 其他问题

也有其他学者指出 [10],现行的DNS 系统除了上述域名设计上的不足之外,还存在着记录更新速度慢、服务模式单一、资源描述能力不够强、配置易出错等缺点。

1.2 IPv6带来的新需求

如在“研究背景”一节所述,IPv6正向我们走来,其中的一个显著的变化是IPv6地址表达式长度增长到39字节 [11],如,

2001:0DB8:0000:2F3B:02AA:00FF:FE28:9C5A

如果说在IPv4时代,还能够将形如“1.2.3.4”直接应用在程序中,那么在IPv6时代这种可能性变得更小。取而代之的,越来越多的应用选择比以往更加频繁地使用DNS 系统进行寻址。随着而来的还有互联网的进一步渗透发展——物联网,更

,

计算机应用与软件

3

多智能终端设备接入互联网络。

这一方面会加重DNS 服务器的负担,另一方面会迫使用户不得不在短域名之外寻找相对复杂难记的长域名来用,只要这个域名看起来比IPv6地址稍微好些就可以。

谷歌2012年2月份宣称其提供的Public DNS 成为世界上最大的DNS 服务提供商,每天处理超过700亿次查询 [12]。

这也带来了一个新的契机,或籍此解决互联网发展中的IP 地址语义过载的问题 [10],由于IPv6地址的复杂化,迫使应用层不再试图使用网络层的标识,把设备的身份标志和位置标志分离开来。

2 DNS 改进的方式方法

2.1 关键词寻址技术

网络技术从实验室走出来之后,其绝大多数多用户就由科研技术人员变成了普通民众。人们在使用互联网的时候更希望是使用已知的语言和方式进行相关操作,这催生了一种新的寻址方式的产生——网络关键词(Internet Keyword)技术 [13]。

网络关键词技术通过建立关键词与网络资源地址对应关系,来实现通过输入某一特定关键词直达对应网络资源地址的实现方式。网络关键词允许用户直接使用企事业单位名称、简称,商品、产品的全称或者简称,网站的中文名称等直接到达网站,对本地用户来说,是非常接近自然语言的一种网络资源定位方式,符合用户的使用习惯。比如去清华大学的网站,使用“-清华大学”比“TSINGHUA.EDU.CN ”更容易。

然而,这种方式本质不是域名到IP 地址的转换,而是关键词到URL 地址的映射,因此不是真正意义上的域名系统,而且域名系统相关的问题都没有触及。尽管十分好用,但需要单独安装额外的客户端和没有分层级的扁平结构阻碍了其进一步的发展。

2.2 国际化/多语种域名

与关键词寻址技术不同,国际化域名(Internationalized Domain Name, IDN)是实实在在的要在域名中引入非ASCII 字符,也即向使用本地语言来表达域名的方向努力。

如前所述,之前的DNS 中,受LDH 规则限制,域名的表达方式只有37个ASCII 字符,IDN 将使用Unicode 字符集内的绝大多数字符,通过NamePrep (Name Preparation ),ACE(ASCII-Compatible Encoding)等处理方式,把非ASCII 字符转换成ASCII 的表达形式 [14]。

Figure 3 中文域名

如在已经支持IDN 技术的浏览器里输入“导航. 中国” ,浏览器将地址转换为“http://xn--fet810g.xn--fiqs8s/”,同时加载“中文域名网址大全”的页面,如Figure 3所示。

这是最接近自然语言的一种方式,如果去掉了中间的点号分隔符的话。

它的不足在于只是对DNS 改良,将非ASCII 字符处理成ASCII 字符,因为这个提供了其与现行DNS 兼容的可行性,也

因为这一点导致其无法再往前一步。另外,地址栏内的Punycode 代码 [15] 对用户也显得不友好。如Figure 4所示。

Figure 4 地址栏内的Punycode

2.3 新顶级域名

国际化域名解决的问题是使用非ASCII 来表达域名,这一问题对英语国家来说是不存在的,可能也因为这一点,以说英语国家为主的互联网管理协调机构解决域名稀缺的问题角度也就不同。与非英语国家积极探索使用本地语言来表达域名的解决办法不同,互联网协调与管理机构ICANN 最近几年运作的对顶级域名扩增的部分日益加快 [16]。

Figure 5 新顶级域名 [17]

国际化域名与新顶级域名不是对立的举措,在新顶级域名的申请中,也可以递交非LDH 的字符作为新顶级域名。根据ICANN 的描述,ICANN 理事会于 2011 年 6 月通过决议,决定实施新 gTLD 计划。2012年6月第一批1930个 “新顶级域名”通过初步审查,在此之前,已经有22个“通用顶级域名 (gTLD)”和280个“国家顶级域名 (ccTLD)”。

这一举措缓解了DNS 设计之初简单的.COM 域划分导致的域名稀缺,并且形成一套规则,随着以后逐步推进顶级域可以无限多。

然而,新顶级域名也为域名系统带来负面影响,其中之一就是不利于企事业单位的品牌保护。理论上,设若有N 种顶级域名,M 种国家代码顶级域名和K 种国际化语言,那么一个公司要保全所有的注册商标,需要注册的域名个数为:

T (域名总数)= N(顶级域名)× M (国家代码顶级域名)× K (国际化语言)

根据已知的数据N=22, M=280,国际化语言版本在IDN 实践[18]中显示,有98种.COM 的语言版本,因此,以保护ufqi.com 这个品牌UFQI 为例,需要注册的全部域名为:

T = 22 × 280 × 98 = 603,680 (个域名)

若以每域名每年费用100元人民币计,则企事业单位年度域名注册费为:

603,680 × 100 = 60,368,000 (元人民币)

如果再加上申请中的1930个“新顶级域名”,则是一笔更大的开支。有统计数据显示[19] ,截至2011年8月Google 已

,

4

计算机应用与软件

经注册了9591个域名。

其次,从另外一个角度来看,如果“域”可以随意划分和定义,那么“域”就没有存在的意义了。

再次,如此多的顶级域名,对普通用户来说会因为选择太多而显得杂乱和无所适从,适得其反地使用户对新顶级域名有抵触感情。从而导致对用户、对企业双输的局面。

2.4 通用搜索引擎

搜索引擎是广义上的“关键词寻址技术”,解决了“关键词”到网络资源的定位,所不同的是,关键词定位技术提供了直接跳转,而搜索引擎提供的是与之相关的网络资源列表。相比较之下,对普通用户而言,搜索引擎对“找东西”的人来说,有更大的选择和更友好的用户体验。

和关键词寻址技术一样,搜索引擎也没有解决DNS 的核心任务——解析域名到数字IP 地址,隔离应用层和网络层。也许普通用户可以忘记DNS 的存在,但应用层却不能。

2.5 其他对DNS 的补充和改进

如上所述,在域名设计层面对DNS 系统做了一些改进的尝试。除此之外,在其他层面上,对IP 地址与域名的混用,对DNS 的一些缺陷也做了许多补充,主要有HIP (Host Identity Protocol ),PeerNet ,URN (Uniform Resource Names ),INS (International Naming System)和CoDoNS (Cooperative Domain Name System)等[10]。

3 NatureDNS

3.1 NatureDNS

(1) NatureDNS 的定义

NatureDNS 是一种以自然语言为域名表达形式,通过将自然语言编码后的字符串与IP 数字地址建立对应关系,实现网络域名寻址的技术系统。它采用通过语义本身来隐式地定义域,使用符合本地语言语法的词组或者句子的表达方式来定位网络资源。

NatureDNS 域名由连续的实义字符组成,定义连字符“-”(hyphen )作为下一级子域的开始,或者称之为NatureDNS 的根域 (“-”) 。NatureDNS 的域名必须以连字符开始,而不能以连字符结尾,可以有多个子级域,其正则表达式为:

^-([^-] )([-])([^-] )$

连字符(hyphen )“-”在这里可以理解为“连接/前往(Connect/to)”某个主机/域,或者理解成就是一根可以连接任何网络的网线,与在电话号码前加“ ”类似。下列NatureDNS 域名表达式是合法的:

Table 1 NatureDNS域名样例

下列NatureDNS 域名是不合法的:

中国导航 -People-

其中两个以上连续的连字符会被等同视为一个。

域从大到小从左至右排列,域级之间使用连接符隔开,如: -live-mail-bay146-bay146w (by146w.bay146.mail.live.com )

上面的域名可以理解成从当前连接到live 域的子域mail ,再从mail 的子域bay146中查找bay146w 所代表的主机IP 地址。

由于“-人民网财经”比“-人民网-财经”更符合人们使用习惯,因此前者可以单独注册一个独立域名以区别于后者“-财经”作为“-人民网”的子域。

(2) 注册与解析

NatureDNS 与现行的DNS 结构 [2] 相似,由4个部分构成:1)客户端解析器,2)本地DNS 服务器,3)授权DNS 服务器,4)根和顶级域DNS 服务器。如Figure 6所示,其中的gTLD 可能包含多层。

Figure 6 DNS组成部分 [6]

Figure 7 NatureDNS解析流程

NatureDNS 解析过程除了在客户端做编码外,其余的与现有的DNS 解析处理过程 [20] 一致,主要步骤如Figure 7所示。

NatureDNS 域名的注册过程与现有DNS 注册基本一致,除了在注册时,生成域名的Punycode 并同时以Punycode 为索引来存储和管理。

为正确显示和处理国际化语言,注册系统要支持UTF-8等国际化语言显示字符编码。

(3) NatureDNS 轮询系统

,

计算机应用与软件

5

Figure 8 NatureDNS层级查询树

NatureDNS 的轮询结构采用分层树状结构(如Figure 8)。

在最顶层根服务器(Root-A, B, C等)。每个Root 后面对应着

一组顶级域查询服务器群,标记为“a „”的负责进一步的解析

NatureDNS 域名Punycode 编码以字母a 开头的顶级域名,以

“b „”处理以字母b 开头的Punycode 编码的域名,循此直到

z 开头、0-9开头的顶级域名。

顶级数据表中,视所查询域名的情况,如果存在以连字符

连接的二级域,则进一步按此形如“9a „”, “9b „”, “9c „”

开头的形式做进一步的查找;如果只有此一顶级域名,则从

“a „”获得该域名的授权DNS 服务器IP ,请求被进一步的前

转到所查询域名的授权DNS 服务器,在那里获知当前域名对应

的IP 数字地址。

(4) 分析比较与评估

NatureDNS 系统使用一些新方法来实现使用自然语言进行

扁平化的方式来表达域名地址。

Unicode ,是国际组织制定的试图包括世界上所有文字和符

号的字符编码方案,目标定位于满足用户在计算机输入的任何

字符都能够使用Unicode 表示出来。尽管Unicode 本身也在发

展进化中,但比起使用某一种语言的某个字符集而言,其稳定

性相对较好。Unicode 的实现方式之一UTF-8在互联网上得到

广泛的使用。

ACE Punycode,这种算法满足了将Unicode 表示的多语种

域名编码成ASCII 表示的域名,如此一来可以在不改变现有

ASCII 域名协议的情况下,实现对国际化域名的支持,同时可

以兼容旧的不支持Unicode 的主机系统,为并行和过渡系统提

供了可能。Punycode 提供了较好的Unicode 与ASCII 互转的算

法,除此,还可以考虑使用Base62x ,实现类似功能 [21] 。

层级式,与现行DNS 系统一样,NatureDNS 继承了这一优

点,发展和运行经验表明,这是一个稳定的结构,在负载分发、

可用性和部署方式上都表现不错 [6]。

另外一点需要考量的是性能。NatureDNS 对比现行DNS 系

统,在客户端增加了将非ASCII 字符转为Punycode 代码的开销,

在服务器端增加对非ASCII 字符的存储空间。在客户端进行字符串进行转码的操作是运行在每个独立的终端上,多一个转码步骤不会对DNS 系统造成任何性能影响,一是运算处理是分布式地在每一台终端进行,二是Punycode 代码是经过优选的算法,经过这一转码操作之后进入DNS 轮询系统的只有Punycode 。在NatureDNS 的服务器端,在DNS 记录集上,多增加一个数据字段,这对于目前的计算处理能力和存储空间来说,都是可以实现的。后期,在下文中会提到过渡方案,待到全部系统都支持Unicode (UTF-8)之后,Punycode 转码就可以省略,服务器端的DNS 记录也可以减去一个字段,整个DNS 系统恢复到NatureDNS 变更以前的状态。因此在NatureDNS 开始部署及从DNS 向NatureDNS 过渡期间,客户端和服务器端可能会轻微地增加一些运算和存储,理论上推算增加一步Punycode 转码或增加一列字段,都不会对系统造成严重影响。 3.2 实例及应用场景 (1) 实例域名注册与解析过程 如下以“-有福气网-科技”(tech.ufqi.com )的为例说明NatureDNS 注册与解析流程的运行机制。 在注册前端系统收集数据,获得“有福气网”和“科技”的Punycode 为“8ov35i1wnrsf ”和“2qux23c ” ,则在生成的DNS 数据文件(“8ov35i1wnrsf.zone ”和“有福气网.zone ”)里形成的对应记录为: 科技 2qux23c IN A 1.2.3.4 记录格式为: UTF-8字符串 Punycode 码 Class RRType Data

,

6

计算机应用与软件

Figure 9 实例域名解析过程

该域名的解析过程如Figure 9所示,每个步骤执行内容: S1. 客户机发出“-有福气网-科技”(8ov35i1wnrsf )的域名解析请求;

S2. 本地DNS 在本地缓存找到则直接返回给客户机,如果没有找到,则向根域“-”发出“-有福气网-科技”(8ov35i1wnrsf )地址的请求;

S3. 根域“-”根据其Punycode 码获知是以“8”开头的,遂将“8„”子域的参考信息(IP 地址)返回给本地DNS ;

S4. 本地DNS 访问“8„”DNS, 请求8ov35i1wnrsf 域名的IP 地址;

S5. “8„”DNS 根据自己的记录,将8ov35i1wnrsf 对应的该域名的参考信息(授权DNS 的IP 地址)返回给本地DNS ;

S6. 本地DNS 根据收到的IP 地址,向授权DNS 发出请求解析8ov35i1wnrsf 域名的IP 地址;

S7. 8ov35i1wnrsf 域名的授权DNS 根据自己的记录信息,返回8ov35i1wnrsf 域名对应的IP 地址给本地DNS ;

S8. 本地DNS 将该域名和IP 对应关系缓存后,将IP 地址传给客户机。

(2) 应用场景HTTP, Email

NatureDNS 在实际应用场景中的情形如下, 如用NatureDNS 域名在浏览器里访问一个网站,有如下例子网址:

如用在Email 地址里,则用NatureDNS 域名的email 地址形如:

张三@-中国计算机学会 JohnWang@-NewYorkTimes 在已知的语境下,如果当前位置期望的是一个主机IP 或者域名,则根域(“-”) 可以省略,变成

如用在命令行下,因为与参数标志符冲突,需要转义操作,如:

Shell> telnet -有福气网 22

3.3 NatureDNS 的优点

与现行的DNS 系统相比,NatureDNS 有如下几点优势。 (1) 使用本地化自然语言标记,易懂易记易用

使用本地化自然语言既有利于品牌保护,将访问域名设置

成与商标、商品名称相一致;也避开了非英文国家的人们在普及互联网过程中遇到的障碍,本地化语言或能加速互联网在非英语国家的推广和普及,改进人们使用互联网的方式。

比如在中文环境中,每一个网站有个英文的网址,然后推广的时候又需要取一个符合中文文化的名称,使用NatureDNS 就可以合二为一。无需去记忆“新华网”、“凯迪网”对应的域名“xinhuanet.com ”和“kdnet.net ”,当然也不会有两个开心网——“kaixin.com ”和“kaixin001.com ”[22] 。

(2) 自由的表达格式,宽松的表达空间

以“. ”为根域,然后依次扩展顶级域,二级域等表达方式,以及仅用LDH 字符等,不符合常规的英语语法,更不符合非英语国家的人们语言习惯。NatureDNS 域名除了“-”字符外,不限定表达方式。与之相比,极大的丰富了表达式多样性,从一个极小的37个字符的集合,扩大到所有Unicode 字符,而且对语法也不作过多限制。

(3) 避免过多顶级域名带来的混乱

现行DNS 最早只划分少数几个.COM/NET/ORG顶级域,导致域名资源紧缺,现在推行任意顶级域名和国际化域名,或将引发域名注册的混乱,使域名保护变得困难。如此前所述,在没有推行新顶级域名之前,一个域名品牌要注册603,680个域名才能保全所有顶级域和二级域,新增1930个顶级域名之后,域名品牌保护将变得更加困难。

NatureDNS 没有类别顶级域和地区顶级域,而是从语义上区分归属和类别,避免了这种可能的混乱局面。

(4) 继承并改进了层级结构

NatureDNS 继承了现行DNS 的层级树状轮询系统,并对其进行了改进。而且使用域名本身的特征码,如首位字符将查询量均分到所有服务器群。

(5) 推进解决IP 地址语义过载问题

IP 地址语义过载是IPv4时代就有的问题,如果没有解决好域名紧缺和域名混乱相交互的局面,这个问题可能也要带入到IPv6时代。NatureDNS 域名因其易用性将有助于推进在应用层尽可能少地使用网络层的设备标志——IP 地址。

4 过渡方案

过渡方案遵循的原则是与现有DNS 系统并行,同时使用UTF-8和Punycode 记录域名,对只支持ASCII 的系统,只使用Punycode 定位;待所有DNS 系统都支持UTF-8之后,减去Punycode 编码环节。

在现行的DNS 中并列运行一套新的NatureDNS 系统,根据先后顺序并行情况可分为三期:i) 前向兼容:在现行DNS 中建立“.-”顶级域;ii) 反转切换:使用根域“-”替代现行的DNS 中的“. ”根域;iii) 后向兼容:在NatureDNS 顶级域中建立“-. ”顶级域。

4.1 前向兼容

NatureDNS 的切入点分DNS 客户端端升级和服务器升级。在客户端,允许所有“-xxxx ”命名的域名,并转换成形如“xxxx.-”的现行DNS 系统格式,进入现行DNS 解析系统。在服务器端,现行的DNS 中写入一个“.-”(dot hyphen)顶级域,接管发向现行DNS 系统根DNS 对“-xxxx ”的解析请求。由新运行的“.-”域负责对NatureDNS 新域名的解析,如Figure 10所示。

,

计算机应用与软件

7

Figure 10 增加新顶级域hyphen

4.2 反转切换

启用前向兼容后,引导企事业单位和个人将现行的DNS 域名转换为新的NatureDNS 域名,待“.-”顶级域的使用量超过50或更高占比之后,将现行DNS 顶级的根域由“. ”切换成“-”。此前这一时期之前是两个DNS 系统并行,实际上是在现行DNS 系统模拟运行NatureDNS 系统;此后全面启用NatureDNS 系统,如Figure 11所示。

Figure 11 切换成hyphen 为根域

4.3 后向兼容

在全面启用NatureDNS 系统的同时,在“-”根域中写入“-. ”(hyphen dot) 顶级域,负责解析现行DNS 的原域名如“a.b.com ”。与此同时升级客户端解析,增加功能将“a.b.com ”的域名转为“-.a.b.com ”发给在NatureDNS 中顶级域“-. ”负责解析,也即在NatureDNS 中模拟运行原DNS 系统,如Figure 12所示。

Figure 12 在hyphen 根域中增加dot 顶级域

此时,在“-”根域中模拟解析“. ”根域的域名,待到“a.b.com ”的历史DNS 域名流量逐渐减少到一个极小的量级后,设定一个缓冲期,然后永久性关闭“-. ”顶级域,DNS 系统全面地、单一地使用全新的NatureDNS 系统。

5 结 论

本文提出了一种新的域名系统方法,由使用以hyphen 为起始和分级标记的域名表示方法(“-xxxx ”)和基于这种域名的注册、解析系统组成,被命名为NatureDNS ,即“自然语言式域名寻址系统”。

现行DNS 在域名设计层面存在一些问题,如点分多级不均等域、只有LDH 表达字符等,这些问题阻碍了DNS 系统进一步发展。针对这些问题技术专家们从未停止探索的脚步,提出各种改进和补充的方式方法,如上文所列举的关键词寻址、国

际化域名、新顶级域名,以及其他学者提出相关改进措施。由于域名系统的基础性与关键性,虽有改进但主要问题依然存在。

本文提出一种新的方法,将域名重新定义为以hyphen 开头任意实义字符组成的连续字符串格式(“-xxxx ”),极大地扩展了域名表达的多样性和丰富性。并在上文章节中给出了详细的阐述,对其注册与解析过程、实例与应用场景、过渡方案等环节做了详细分析。

相比较而言,NatureDNS 优势在于: 使用本地化自然语言标记,易懂易记易用 自由的表达格式,宽松的表达空间 避免过多顶级域名带来的混乱 继承并改进了层级结构 推进解决IP 地址语义过载问题

对NatureDNS 这个新事物而言,还有一些研究工作要做,随后一章列举了二点:一个实体名的多个变体和Unicode 的进化对NatureDNS 的影响。

我们相信NatureDNS 域名系统会给全球网络系统带来一些思考和改进,使得DNS 系统不再是阻碍互联网发展的因素,而是促进互联网更快更好地惠及全球,让人类的生活变得更加美好。

6 进一步的研究

6.1 一个实体名的多个变体

使用自然语言来表示域名为域名的表达提供了极大的丰富性和多样性。NatureDNS 除了占用了“-”(hyphen )作为标志符和分节符,其余所有的语法形式和可打印的字符形式都是被允许的。这可能面临一个问题是,具体到一个实体名,可能有多种表达方式,如同一个人有全名、昵称、俗称、简称一样,到底使用哪个来注册,还是全部都要注册需要制定的相应的规则。

6.2 Unicode 进化带来的影响

由于兼容国际化语言,经过权衡我们选择了Unicode 统一编码字符集,并推荐了Punycode 和Base62x 两个将Unicode 字符ASCII 化的编码方案。

然而,Unicode 本身也在进化中,这种进化尽管幅度很小、步子很慢,但可能因此影响到NatureDNS 的稳定性——作为互联网基础核心服务,DNS 对稳定性的要求无论多么苛刻都不为过。对此,随着Unicode 的日趋成熟,其变化频次逐渐减少;另外只要NatureDNS 有相应的更新修正机制即可应对。

参 考 文 献

[1] J. Klensin. IETF RFC3467, http://tools.ietf.org/html/rfc3467, 2012.06.15. [2] Z. Liu., L. Liu., et al, "Dot-base62x: A Compact Textual Representation

of IPv6 Address for Clouds," in UCC '11 Proceedings of the 2011 Fourth IEEE International Conference on Utility and Cloud Computing, Melbourne, 2011.

[3] Root Zone Database, http://www.iana.org/domains/root/db/, 2012.06.15. [4] New

gTLD

Reveal

Day

-

Applied-for

Strings,

,

8

计算机应用与软件

[5] P.

Mockapetris.

IETF

RFC882,

2012.06.15.

[6] J. Pang., J. Hendricks. and et. al, "Availability, usage, and deployment

characteristics of the domain name system," in IMC '04 Proceedings of the 4th ACM SIGCOMM conference on Internet measurement, Sicily, Italy, 2004.

[7] Global Domain Registry Statistics, http://www.webhosting.info/registries/,

2012.06.15. [8] Domain Name Length Allocation,

World ’s

Longest

Domain

Name,

[10] D. Liu., Y. Chen., K. Xie. and J. Wu, "Research on the Structures and

Resolutions of Internet Namespaces," Journal of Software, vol. 16, no. 8, pp. 1445-1455, 2005.

[11] B. Stockbrand, IPv6 in Practice -- A Unixer's Guide to the Next

Generation Internet, Verlag Berlin Heidelberg: Springer, 2007, pp. 22-29. [12] Google

Public

DNS:

world’s

largest

DNS

service ,

[13] W. Mao.;Y. Wang., F. Wang., "The New Generation Technologies of

Internet Resources Naming and Addressing," Application Research of Computers, vol. 21(4), pp. 233-235,250, 2004.

[14] H. Zhang., X. Deng. and H. Qian., "Analysis of Internationalized Domain

Name System," Journal of Computer Applications, vol. 22(10), pp. 9-11, 2002.

[15] IETF RFC 3492, “Punycode: A Bootstring encoding of Unicode for

IDNA”, http://tools.ietf.org/html/rfc3492, 2012.06.15 [16] ICANN, “New

Generic Top-Level

Domains ”, http://newgtlds.icann.org/en/about, 2012.06.15

[17] NetC,

“New

gTLD ”, http://www.net-chinese.com.tw/new_gtld/new_gtld.asp, 2012.06.15 [18] IANA,

“Repository

of

IDN Practices”,

[19] Tuwang, “Google 一共有多少个域名”, http://www.tuwang.org/394.html,

2012.06.20

[20] J. Gan. and L. Huang., "The Research on Translating of Domain name and

Practice of Server Configuration," JOURNAL OF YULIN NORMAL UNIVERSITY (Natural Science), vol. 28, no. 5, pp. 136-141, 2007. [21] Z. Liu, L. Liu, R. Hill and Y. Zhan, "Base62x: An alternative approach to

Base64 for non-alphanumeric characters," in Fuzzy Systems and Knowledge Discovery (FSKD), 2011 Eighth International Conference, Shanghai, 2011. [22] 人

,

计算机应用与软件

9

--作者简介及联系方式--

第一作者:刘振兴 电话:8610-65363472 手机:139 1190 1921

Email :

作者简介:刘振兴,人民网研究院网络技术研究员,硕士研究生学位,主要研究领域为IP 网络通信协议、互联网后台支撑技术、网络安全与架构等,在上述领域发表过一些中英文论文。

本文研究背景:

This paper makes a deep investigation into the Domain Name System (DNS). DNS is regarded as one of the core and critical infrastructures of Internet. It transfers human-readable names into IP addresses under the networks, and vice versa.

Due to its design of domain names which only allow LDH (letters, digits and hyphen) characters to be used in, the DNS cannot cope with the increasing demand for more domain names arising by more devices are connected to Internet, especially to mobile Internet. Another reason to encourage scholars to look for improvements to the DNS is IP overload in semantics. Some other issues are also found with the DNS, e.g. unique service model, slow update speed and weak capacity in resource description.

Thus, lots of efforts have made to improve the DNS. The list may include IKA (Internet Keyword Addressing), IDN (Internationalized Domain Name), new gTLD, HIP (Host Identity Protocol), PeerNet, URN (Uniform Resource Names) and INS (International Naming System). The second group is from IETF where there is a

long list of RFC amendments for the DNS. More or less, they have matured the DNS in some way or bring new features to it. However, the DNS still has a few issues which hold back the progress of Internet to a certain extent.

This paper proposes a new method to rebuild the DNS with NatureDNS. Natu reDNS comes from “express domain names in natural languages”. It consists of two parts: the design of domain name, and the system of its registration and resolving.

It designates a pattern of “-xxxx” as the new domain name syntax where a domain name must start with a hyphen and except that any other real-meaningful character is allowed in composing a domain name.

NatureDNS employs a similar mechanical lookup system like the DNS where a hyphen root answers all DNS queries and distributes the queries to a hierarchical system to look for the IP addresses mapping with the domain names. It may likely solve most of the DNS issues discussed above.

Furthermore, this paper also introduces a route to deploy NatureDNS with the DNS running in parallel mode. Following the three-step method described in this paper, the DNS could migrate into NatureDNS gradually and smoothly.

The Institute of People Daily Online is a newly-created researching unit in People Daily Online. The Institute is young but it has a luxury academic advisory team which consists of Prof. Wu Jianping from Tsinghua University, Prof. Fang Binxing from Beijing University of Posts and Telecommunications, Prof. Liu Runjie, Fellow of China Academy of Engineering and some other distinguishing experts and scholars.

,

10

计算机应用与软件

--修改说明—

感谢评审专家对本论文给予了综合好评和一个不错的评分,因此才有现在修改和发表的机会。

本论文在CNCC2012征文活动中收到的专家评审意见为:“评语_1:论文提出了一种基于自然语言的域名解析系统,研究很有新意,提出的方案也有一定的可行性。 存在的主要问题是没有进行细致的性能方面的评估来体现大规模部署后方案的实际可用性。”

收到评审意见后,我们认真分析了论文中所提议的设计方案,反复就专家意见中提到的性能方面的评估问题进行讨论,并征询人民网研究院的其他同事和领导对此方案性能方面的看法。由于DNS 服务是一项系统工程,无法在较短时间内在较封闭的空间以相对低廉的成本构建出来,因此通过实验环节来验证和回答专家的疑问暂时不具有可行性。

于是,我们将思路调整到理论推演上来论证NatureDNS 与现行DNS 在实际运行中中可能遇到的性能问题会有哪些?两者两比会有哪些异同。从这一角度出发,经过分析对比,发现NatureDNS 运行时的性能问题较小,不会对方案的推行构成障碍。

有鉴于此,我们在修改论文的时候增加了一个节关于性能问题进行评估的阐述,详细内容在3.1.(4)“分析比较与评估”。其主要观点认为,与现行DNS 系统相比,NatureDNS 增加了在客户端对字符串进行Punycode 转码,在服务器端多增加一列存储,这两个方面不会对实际运行的DNS 轮询环节产生影响。

请再审阅,谢谢。

标签: