在数据的处理过程中,我们往往会遇到数据重复,不能唯一识别或1:1进行匹配的现象。如何识别出变量中的重复值?不要着急,小编今天就来介绍一个非常实用的stata命令——isid。
首先导入数据
import excel F:\数据\并购数据.xls,firstrow clear
rename A stkcd
gen year=substr(B,1,4)
destring stkcd year,replace
下面一部分数据的截图
假如我们要利用变量stkcd与另外一份数据进行1:1的合并,此时我们需要检验变量stkcd是否唯一能否被识别,我们该怎么做呢?现在就要用到我们的isid命令,首先我们输入命令:
isid stkcd
得到结果如下:
此时我们就可以发现变量stkcd不能唯一识别数据,那么我们在进行1:1的合并前,就需要删除stkcd中的重复值,程序如下:
import excel F:\数据\并购数据.xls,firstrow clear
rename A stkcd
gen year=substr(B,1,4)
destring stkcd year,replace
duplicates drop stkcd,force
isid stkcd
得到结果如下图所示
此时即可利用此数据中的stkcd与另一份数据进行1:1的匹配。
我们经常利用数据中的股票代码stkcd和year与另一份数据进行1:1的匹配,那么也必须删除该数据中stkcd和year的组合的重复值,程序如下:
import excel F:\数据\并购数据.xls,firstrow clear
rename A stkcd
gen year=substr(B,1,4)
destring stkcd year,replace
duplicates drop stkcd year,force
isid stkcd year
得到结果如下:
上面结果stkcd和year的组合的重复值为0,说明可以利用stkcd和year与另外一个数据进行1:1的匹配。
妈妈再也不用担心我数据中的重复值啦,isid命令帮你轻松解决。今天小编又给大家分享了一个好用的命令,是不是要给我一个大大的赞呢~如果你有什么新问题或新想法,欢迎告诉小编,我在爬虫俱乐部等你哟。
我们团队原来的微信公众号是“数据处理援助中心”,现在正式搬家到“爬虫俱乐部”,欢迎关注。新的公众号开始,我们推出有问必答栏目,对您提出的问题,我们会尽力回答,并通过推文的形式进行发布。我们也欢迎各位粉丝向公众号投稿。
欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。
投稿邮箱:xueyuan19920310@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名。
2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”
3)如果大家遇到关于stata处理分析数据的问题,也可以给该邮箱写邮件,邮件名称为“提问”+“问题名称或者关键词”,我们会在后期的推文里给予解答。
长按二维码关注公众号
微信扫一扫
关注该公众号