别人都送月饼，我们送……

2016-09-15 尹兴强 爬虫俱乐部爬虫俱乐部

http://mmbiz.qpic.cn/mmbiz/PaCPwXIogdsTGIURmJBTGANaHXPhU52bjfzJEIRxThjhSu1hPGoU8wEgIOUJPnBDC6Ckv3CoaZlDGunBHuf9Zg/0?wx_fmt=png

中秋佳节来临，小编先在此祝福大家圆圆满满，中秋快乐。当别人在中秋节都送月饼的时候，小编给大家送来的是stata的一些好用的基础命令，一看我们的礼物就和外面的妖艳贱货不一样是不是！快来看看都有些什么好用的命令。

（1）缺失值的查看、检验和替换

*安装命令

ssc install mdesc

*导入数据

use http://www.stata-press.com/data/r11/mheart5,clear

*查看缺失值

mdesc

*结果显示如下：

（2）变量均值获取：egen rowmean

egen函数作为generate的扩展，有着很强大的特性，拥有着众多的生成变量函数，能够满足不同的需求，具体的应用大家可以去看help文档，熟悉了会有很多应用，比如某些命令不支持在by或bysort，可以利用group来分组，然后用循环的形式来处理。本次简单介绍的是egen rowmean，用于取变量均值，该命令会依据列入其中的varlist生成横向均值。以下是命令演示：

（3）变量分级（依据分位数分级）：xtile and quantiles

大家在阅读文献的时候，经常会看到作者对变量进行分级处理，如decile（十分级）处理。其基本原理很简单，就是先将变量从小到大排列，然后选取所定的分位数为节点，将整体数据分组，从小到大依次取值。以三分级为例，先将数据从小到大排列，然后分别找到33%分位和67%分位数，然后将小于33%分位数的全部取值为1，33%至67%的取值为2，大于67%的取值为3。我们要进行变量分级处理的时候，可以使用官方xtile命令，以十分级为例（数据为伍德里奇《计量经济学导论》wage2）：

结果显示如下：

大家可能注意到里面似乎每组的数据量并不相等，这是因为xtile严格按照先确定分位数，然后分组的顺序来处理，这导致某些观测值相等的话会被分到同一组，使得每组数量可能并不相同。极端的例子，假如某个变量中有大量的0值，最终分级的结果可能是第1组的数量比重非常大，这显然不是我们所希望。因此，通常情况下，并不推荐使用官方命令xtile，而是使用第三方命令quantiles，它由Rafael Guerreiro Osorio编写，会将每组观测数自动处理好，延续上述的例子，以下是quantiles命令处理的结果：