域名趣味分析
因为正好需要测试某个低端硬件的性能(SQLServer2005新特性的测试和演示),想找一些真实世界的数据,其数据量中等。但它们应该是公开的,也就是说不可以是商业数据,另外我并不想用人造数据。恰好当时
因为正好需要测试某个低端硬件的性能(SQLServer2005新特性的测试和演示),想找一些真实世界的数据,其数据量中等。但它们应该是公开的,也就是说不可以是商业数据,另外我并不想用人造数据。恰好当时我正需要获取.COM/.NET和.EDU 的顶级域名(TLD: Top Level Domain--译注)信息,于是就向Verisign 申请获取了这些数据(任何人可以免费向verisign 索取顶级域名数据库 -- 译注)。
很快我就得到了3.5GB 的.COM 域名数据,以及650MB 的.NET 域名数据,然后统统装入了数据库(后面的分析结果全部基于.COM 域名的,截止到2006年3月28日)。这些数据很好的满足了我测试和演示的需要。但是因为好奇我也顺便做了些简单的分析,想看看被注册的都是哪些域名,注册量如何。
备注一下,这些数据来源于Verisign 的zone 文件,不包含那些没有进行域名解析(即被注册,但无法解析为IP 地址的域名 --译注)的或者被保留的域名。尽管那些域名其实数量很少,但会对结果的准确性产生影响。为了提高准确度,对于比较小的样本集我都会通过WHOIS 系统进行验证(比如一些2字母和3字母的域名,表面上可以注册,但其实并没有设定DNS 服务器做IP 解析,也就是说处于保留状态)。除此之外,我还做了一些过滤,比如去除了国际化域名(IDN: InternationalDomain Name,即非ascii 编码的域名,比如中文域名 -- 译注)。
搜索域名
如果你正巧想到了一个绝妙的Web2.0应用,或者正要发布一个尚未出名的“杀手级”应用。你首先要做的就是寻找一个完美的域名来做准备(事实上,目前的流行趋势是根据你找到的域名来命名你的公司)。
你打开GoDaddy (著名的域名注册代理商--译注),开始敲入一些有创意的名字,或者是稍做些变动,但是你发现所有的域名都已经被注册掉了。
“这怎么可能!”,你喊道,“难道每个域名都被注册掉了么?”
事实上,已经注册的.COM 域名已经有5000万个,那些容易想到的域名绝对已经被别人抢先了,找到一个未被关注的3字母顶级域名的可能性也几乎为零,所能做的恐怕只有寻求域名黄牛的帮助了。
缩写字做域名?
如果你取2字母序列组合的676中的一种,作为一种缩写,那你注定不会走运。它们都已经名花有主了。即便允许其中出现数字,也仅有1296种组合,也统统没有了。
当然,实际情况是.COM 注册机构还要求域名长度至少有3个字符,所以,死了这条心吧。 3字母序列的可能性有17576种,很不幸,也都没有了。如果加上数字的组合(不考虑连接号/减号,即便你可以这样做,但是这么短的域名加上这个也不会有意义)共有46656种变化,算上大量的“垃圾”域名(即被域名商保留的、赎回或者没有设定解析服务器),也只能得到228个看似可用的域名,而实际上它们是不能被注册到的。
如果你的确很想要一个像8VZ.com 或者Q6X.com 这样的域名,你可以等一个月,总会等到几个可用的。尽管看起来大量的黄牛一直在伺机而动,争抢无主的域名,但它们不会一直独自买断手头的域名。
来看看4个字符组合的域名,一共456976种可能,这么多的数量,或许黄牛们也不能全部覆盖吧 ----有97786个看起来可以用。不过检查一遍以后其实大部分都是理论上可用而已。那种AGJV.com ,EIYK.com ,GZVW.com 和QFEV.com 恐怕也不怎么有实际用处。算上数字组合的话有大约116万个未注册域名,比如7RG8.com 或者U3JZ.com ,如果你打算用这样的域名,那么你得把这缩写的含义先想好,如何向别人解释这究竟是什么东西的缩写呢。
,最后是5字符的组合(YAFLA? (作者的网站域名 -- 译注)),当然现在组合可能性已经非常多了,你可以很容易注册到,但问题仍然是你需要对那些缩写做出恰当的解释。全字母的组合共有11881376种可能,其中11015028种尚未被注册。
下图为2-5个字符长度域名的注册率

大多数域名有多长?
大多数域名都很少被访问,即便有也是因为有人访问注册者待价而沽的广告页面。所以不考虑实际流量而直接分析域名长度会有失偏颇,不过其结果还是有点意思的。
如前所述,所有的2字符、3字符域名都已经被注册了,但一直到最大63字符长度的域名范围内还有很多的名字有待选取。注册数量最多的是11

字符长的域名。基本呈正态分布。
故事到31字符长还没有结束,有253000多个纯英语域名长度超过32字符,有538个是
,63字符长的。

比如这几个:
ZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZ.c om
EBWEBWEBWEBWEBWEBWEBWEBWEBWEBWEBWEBWEBWEBWEBWEBWEBWE BWEBWEBWEB.com
DIDYOUKNOWTHATYOUCANONLYHAVESIXTY-THREECHARACTERSINADOMAIN-N AME.com
姓名来做域名?
美国人口普查司提供了这个公开文件,这让我很想了解人们是否还能把自己的姓名注册为域名。
如果你对男性名字域名感兴趣,你会很失望的发现1219个男性名字都已经被注册了。如果是女性名字域名,人口普查司共给出了2841个名字,你依然可以选择Erlinda.com 或者Shanita.com 来注册,不过当你看到本文时恐怕也已经晚了。
姓氏部分,10000个姓氏统统没有了。
,
将300个男性名字和300个家族姓氏组合起来,90000种组合中有10112种没有被注册,比如Antonio Hughes 和Lawrence Torres !类似的,300女性名字和300个姓氏组合起来有约14103个可以成功。

有“爱”的域名
来关注爱(Love )吧,形如ILOVE 的前缀加上女性名字(2841个)作为域名,有1958个(约68.9)尚未注册。而ILOVE 前缀加上男性名字的1219个域名中有665(54.5)个未被注册。
,
顺着这个思路,我们发现互联网的丑陋面暴露无疑。DNS 再次证明了这一点。有268971个域名含有SEX (其中11333个还同时含有FREE 字样),而含有LOVE 的域名只有143683。

其他小细节
最常见的域名首字母是S ,最少出现的首字母则是Q ,X ,Y 和Z 。
,
作为首字符出现在域名中的数字是毫无悬念的"1" 。

每个成功的公司都有不少竞争对手或者拥趸,所以研究一下以著名公司域名作为后缀的域名也不错。其中一部分域名为原公司所拥有,大多数都是爱好者或者批评者所注册的。
,
比如 GOOGLE-AMERICA ,GOOGLE-BUDDY ,MICROSOFT-EBOOKS ,SLASHDOTREVIEW ,SLASHDOTSLASH 和YAHOO2007。
结论
希望这些结论你会喜欢,或许也还能对你有点用处。我还在做更多细致庞大的分析(这是一个演示SQLServer 2005新功能的好机会)