朝花夕拾 | 如何扩展数据?

2016-12-23 爬虫俱乐部 爬虫俱乐部 爬虫俱乐部

天是朝花夕拾板块的不定期更新时间。不管你是想温习我们之前推送的命令,还是要学习新的技巧,都且听小编慢慢道来。


在做实证研究的过程中,我们可能会遇到这样一个问题:如何扩展手中的数据?expand命令可以帮我们完美解决这个问题!


下面主要介绍命令expand,该命令的主要使用格式是:

expand [=]exp [if] [in] [, generate(newvar)]


举个栗子,首先生成如下数据:

clear

set more off

set obs 4

gen n=_n

input m

3

6

9

1

end


(1)把所有数据的条数都增加一倍:

expand 2


(2)把变量n等于1的数据增加一倍:

expand 2 if n==1

sort n



(3)把变量n根据变量m进行数据扩展,即变量n为1的数据拓展到3倍;n为2的数据扩展到6倍,依此类推。

expand m

sort n



tab n


(4)在扩展数据之后恢复之前的数据:比如把所有数据扩展3倍再恢复为之前的数据:

expand 3 ,gen(d)

注意:加入option选项gen(d)生成了新变量d,当数据为之前的数据时,d=0;当数据为新扩展的数据时,d=1


恢复数据:

keep if d==0


以上的内容就是关于Stata网络爬虫技术的初步内容。朝花夕拾,旧文重提,爬虫俱乐部将不定期回顾之前公众号中有用的文章,满足大家的需求。




今天分享的内容就是这些啦

接下来让我们关注一下空气质量情况

全国空气质量如下


新疆的朋友

别出门了


以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~,点赞打赏随您心意,么么哒~

应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~


编辑 by 强宇曦


往期推文推荐:

1.火锅和肥羊,啤酒和炸鸡,cnstock和chinafin

2.天路——chinafin与cntrade命令

3.用subinfile修改文件,滚蛋吧,繁琐的命令君!

4.分时数据,从此唾手可得

5.爬虫俱乐部周末送大礼——chinagcode提取中文地址经纬度

6.esttab功能挖掘:“Yes”or“No”

7.用“套路”处理数据

8.厉害了,我stata哥

9.众里寻她千百度,synth命令来帮助!

10.I have a Stata, I have a python




关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。


此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿邮箱:xueyuan19920310@163.com

投稿要求:

1)必须原创,禁止抄袭;

2)必须准确,详细,有例子,有截图;

注意事项:

1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”。

3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。


长按关注哦~

微信扫一扫
关注该公众号