按照分位数对数据进行分样本处理

2018-01-26 高金凤 爬虫俱乐部 爬虫俱乐部


        有问题,不要怕!点击推文底部“阅读原文”下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱statatraining@163.com,我们会及时为您解答哟~

        喜大普奔~爬虫俱乐部的github主站正式上线了!我们的网站地址是:https://stata-club.github.io,粉丝们可以通过该网站访问过去的推文哟~

         在实证研究中,我们经常会对变量进行分样本处理,常用的方法是运用分位数进行分样本,基本原理是先将给定变量的观测值按从小到大的顺序排列,然后选取所定 的分位数为节点,将整体数据分组,从小到大依次取值。比如我们想让样本数据按五分位数进行分样本处理,第一步将数据按照指定变量从小到大排列,第二步分别 找到20%分位点、40%分位点、60%分位点和80%分位点,然后将小于20%分位点的全部取值为1,20%至40%的取值为2,60%至80%的取值 为3,大于80%的取值为4。

在Stata中对样本按照分位数作分样本处理时,我们可以用到xtile命令、quantiles命令,以及egen命令与cut命令的结合,提醒大家quantiles命令需要提前下载哦(ssc install quantiles)!下面我们就用例子来看看它们的用法吧~

首先,我们在国泰安下载一个关于公司注册的数据集,可以得到样本数据如下所示:

        可以看到,同时按行业、年份分类的基础上,数据实现了分样本处理。这里每一组不同是因为每一年的行业数量不相同哦~

        其中,Stkcd表示股票代码, Indcd 表示行业代码,Regcap2表示企业注册年份。

        接下来,我们先用到xtile命令将数据按照四分位数进行分样本处理:

xtile x_Regcap2=Regcap2,nq(4)

tab x_Regcap2

        结果如下:

        可以看到,整个样本已经分成4类。然后用egen命令与cut命令结合使用,对样本进行分类:

        同样看到,整个样本已经分成4类。最后用quantiles命令对样本进行分类:

quantiles Regcap2,gen(q_Regcap2) nq(4)

tab q_Regcap2

        quantiles命令也将样本分成了4类,同时看到数据编辑窗口生成了对应的分组情况的变量,如下所示:

        此外,在实证研究中,我们的分样本处理一般需要在分年份或分行业的基础上,因此,我们会考虑上述3种方法与bysort命令结合使用,从而达到这样的效果。然而经过爬虫酱的尝试,发现只有quantiles命令可以达到这样的效果哦~

        我们仍然使用刚才的数据集,按照三分位数进行分样本处理:

bysort Indcd year:quantiles Regcap2,gen(fq_Regcap2) nq(3)

tab fq_Regcap2

        可以看到,同时按行业、年份分类的基础上,数据实现了分样本处理。这里每一组不同是因为每一年的行业数量不相同哦~

注:此推文中的图片及封面均来源于网络!如有雷同纯属巧合!

以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。另外,我们开通了苹果手机打赏通道,只要扫描下方的二维码,就可以打赏啦!

应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~

文字编辑/徐露露

技术总编/刘贝贝


往期推文推荐:

1.高校学术大神:你的导师上榜了吗?

2.中国高校财经、管理与综合类期刊灌水排行榜

3.命令sum2docx输出统计量表到docx文件

4.reg2docx报告你的实证结果吧!

5.爬虫俱乐部又出新命令了——wordconvert转换你的word文件

6.putdocx+wordconvert—将实证结果输出到Word.docx)文档

7.如何从pdf中提取表格数据

8.爬虫俱乐部出品——获取上市公司数据的利器

9.爬虫俱乐部出品——实证结果输出命令

10.Putpdf--神奇的转换工具



关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿邮箱:statatraining@163.com

投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

欢迎关注爬虫俱乐部

微信扫一扫
关注该公众号

公开收集正在保存拖拽至此处以完成收集私密