有了这个命令,以后还怕重复?

2016-09-12 叶旺 爬虫俱乐部 爬虫俱乐部

在数据的处理过程中,我们往往会遇到数据重复,不能唯一识别或1:1进行匹配的现象。如何识别出变量中的重复值?不要着急,小编今天就来介绍一个非常实用的stata命令——isid

  • 首先导入数据

import excel F:\数据\并购数据.xls,firstrow clear

rename A stkcd

gen year=substr(B,1,4)

destring stkcd year,replace

  • 下面一部分数据的截图


  • 假如我们要利用变量stkcd与另外一份数据进行1:1的合并,此时我们需要检验变量stkcd是否一能否被识别,我们该怎么做呢?现在就要用到我们的isid命令,首先我们输入命令:

isid stkcd

  • 得到结果如下:


  • 此时我们就可以发现变量stkcd不能唯一识别数据,那么我们在进行1:1的合并前,就需要删除stkcd中的重复值,程序如下

import excel F:\数据\并购数据.xls,firstrow clear

rename A stkcd

gen year=substr(B,1,4)

destring stkcd year,replace

duplicates drop stkcd,force

isid stkcd

  • 得到结果如下图所示


  • 此时即可利用此数据中的stkcd与另一份数据进行1:1的匹配。

  • 我们经常利用数据中的股票代码stkcdyear与另一份数据进行1:1的匹配,那么也必须删除该数据中stkcdyear的组合的重复值,程序如下

import excel F:\数据\并购数据.xls,firstrow clear

rename A stkcd

gen year=substr(B,1,4)

destring stkcd year,replace

duplicates drop stkcd year,force

isid stkcd year

  • 得到结果如下:


  • 上面结果stkcdyear的组合的重复值为0,说明可以利用stkcdyear与另外一个数据进行1:1的匹配

妈妈再也不用担心我数据中的重复值啦,isid命令帮你轻松解决。今天小编又给大家分享了一个好用的命令,是不是要给我一个大大的赞呢~如果你有什么新问题或新想法,欢迎告诉小编,我在爬虫俱乐部等你哟。

我们团队原来的微信公众号是“数据处理援助中心”,现在正式搬家到“爬虫俱乐部”,欢迎关注。新的公众号开始,我们推出有问必答栏目,对您提出的问题,我们会尽力回答,并通过推文的形式进行发布。我们也欢迎各位粉丝向公众号投稿。


欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿邮箱:xueyuan19920310@163.com

投稿要求

1)必须原创,禁止抄袭;

2)必须准确,详细,有例子,有截图;

注意事项

1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名。

2)邮件请注明投稿,邮件名称为投稿”+“推文名称

3)如果大家遇到关于stata处理分析数据的问题,也可以给该邮箱写邮件,邮件名称为提问”+“问题名称或者关键词,我们会在后期的推文里给予解答。


长按二维码关注公众号

微信扫一扫
关注该公众号