朝花夕拾|生成交叉变量和非线性关系

2016-11-09 爬虫俱乐部 爬虫俱乐部 爬虫俱乐部

      今天是朝花夕拾板块的不定期更新时间。不管你是想温习我们之前推送的命令,还是要学习新的技巧,都且听小编慢慢道来。

文章来源:数据处理援助中心公众号  已获得授权

在回归模型中,我们经常会用到交叉变量,考察核心解释变量与某控制变量的交叉效应,或者用解释变量的高次项来刻画与被解释变量的非线性关系。今天的推文我们简单介绍如何在回归中生成交叉变量二次项

webuse fvex,clear

des


其中sex表示性别,是虚拟变量;agedistance分别表示年龄和距离,是连续变量。

首先,我们生成虚所拟变量与连续变量的交叉项。当然可以通过gennerate新的变量表示交叉项,但也有更简便的方法。虚拟变量用i作前缀,连续变量用c作前缀,用#表示两个变量的交叉变量:

reg y i.sex#c.distance age


回归结果显示,对于male来说,distance负向影响y,对于female来说,distance正向影响y。上面的回归只纳入了交叉变量,并未纳入独立的虚拟变量。在命令中,使用##,可以将虚拟变量本身加入回归模型:

reg y i.sex##c.distance age


回归结果显示,femaledistancey的影响比male0.0000463。

当然,我们也可以使用两个连续变量的交叉项:

reg y i.sex  c.distance##c.age


假定我们认为ydistance的关系是非线性的,可以尝试把distance的二次项放进回归模型。二次项就相当于distancedistance的交叉。


我们可以看到结果中distance一次项系数为负,二次项系数为正,且都显著,表明distancey的影响是非线性的。只有当distance大于某个临界点时才会对y有正的影响;当distance小于某个临界点时,其对y的影响是负的。


以上的内容就是生成交叉变量和非线性关系的小技巧。朝花夕拾,旧文重提,希望我们“朝花夕拾”不定期的更新能满足大家的需求。说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场,点赞打赏,且随心意。今朝点滴,让我们更进一步;他年涌泉,更好的文章给更好的你。

 爬虫出品,必属优品。
不忘初心,共享好货。

编辑/徐苾雯

往期推文推荐:

1.天路——chinafin与cntrade命令

2.分时数据,从此唾手可得

3.有了这个命令,以后还怕重复?

4.esttab功能挖掘:“Yes”or“No”

5.用“套路”处理数据

6.厉害了,我stata哥

7.爬虫俱乐部周末送大礼——chinagcode提取中文地址经纬度

8.据说这样数据替换比较快,你试一下,然后……

9.众里寻她千百度,synth命令来帮助!

10.I have a Stata, I have a python

11.用subinfile修改文件,滚蛋吧,繁琐的命令君!

12.删繁就简三秋叶,subinfile似剪刀



此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿邮箱:xueyuan19920310@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。


欢迎关注爬虫俱乐部

✬如果你喜欢这篇文章,欢迎分享到朋友圈✬

评论和打赏功能都已开启,灰常接受一切形式的吐槽和赞美

微信扫一扫
关注该公众号