主要变量的描述性统计是实证结果中不可缺少的一部分。通过描述性统计表,作者和读者可以了解文中所用数据及其分布,并可据此判断数据的真实性和方法的正确性。
比如,如果描述性统计显示Leverage的最大值大于1,这就说明文中使用了资不抵债公司样本,有可能是在数据筛选的过程中出了问题;再比如,如果因变量的75分位以下都是0,说明数据有明显的截断,应使用截断模型,或者用heckman两阶段模型进行修正。
经常使用的输出描述性统计的Stata命令是tabstat。其具体的syntax如下:
tabstat varlist [if] [in] [weight] [, options]
要想输出比较漂亮的描述性统计表,则要在option上面花功夫。
sysuse "auto.dta",clear
tabstat price mpg rep78 headroom trunkweight
不加选项时,Stata默认只输出均值
通过help tabstat,我们可以通过s()选项输出其他统计量。如下程序可输出变量的观测值数量、均值、标准差、最小值、四分位数以及最大值。
tabstat price mpg rep78 headroom trunk weight,s(n mean sd min p25 median p50 max)
虽然统计量丰富了,但是表格似乎与正规期刊的描述性统计表还有差异。仔细对比可发现,还需转置一下。通过help tabstat,我们能够找到另一个选项c(s)。
tabstat price mpg rep78 headroom trunk weight,s(n mean sd min p25 median p50 max) c(s)
除此之外,我们还是通过format选项调整统计值的格式。
tabstat命令的功能齐全,但是选项颇多,容易忘记。对此我们发现还有一个比较简洁的外部命令:univar。其syntax如下:
univar varlist [if] [in] [weight] [, options]
为什么说univar命令相对简洁呢?我们看个例子就知道:
ssc install univar
univar price mpg rep78 headroom trunk weight
其输出的统计描述表格基本能够满足一般发表的需求。当然,通过help univar,我们还可以发现一些比较有用的选项,如调整数值格式等。
我们在之前的推文“关于RTF你不知道的命令之番外篇”介绍过使用estpost和esttab配合rtf系列命令输出描述性统计和其他各种表格的方法。除此之外,我们还有别的方法可以输出表格。
不管是使用tabstat还是univar,其打印结果都可以使用外部命令logout输出。以univar为例:
logout, save(mfile) word replace: univar price mpg rep78 headroom trunk weight
这一输出结果稍作调整,即可使用。
希望能对你有所帮助,谢谢!
以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。
应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~
文字编辑:强宇曦
技术总编:刘贝贝
往期推文推荐:
7.一言不合就用stata写邮件(Outlook/Foxmail)
9.I have a Stata, I have a python
10.I have a Stata, I have a Python之二——pdf转word
关于我们
微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。
此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。
欢迎关注爬虫俱乐部
微信扫一扫
关注该公众号