Stata你把我的信息放在哪里了

2016-09-22 宝宝爬虫俱乐部爬虫俱乐部

就像被张士超藏起来的钥匙遍寻不着，你想要的信息总是散落在天涯海角，考验着你的眼力与耐心。这时候，你需要Stata君来助你一臂之力，让信息快到碗里来。下面，我们以获取期刊目录为例，向大家展示Stata君的具体操作。

为了获得期刊目录，小编从网上下载了有关期刊目录的txt文档，文档通过stata的insheet导入命令时，发现变量V1只有期刊名称是小编需要的，其余有很多不需要的内容。

此时小编就要拥有大师兄孙悟空的火眼金睛将需要的期刊名称辨别出来再制作小编想要的期刊目录，接下来小编将使用stata将其一一清除。

clear

set more off

cd "D:期刊目录"

insheet using "CSSCI期刊目录.txt",nonames

drop if v1==”期刊名称”

运行之后，却发现第一行期刊名称并没有被drop掉。

这是因为insheet命令读取的txt文件包含utf-8编码且带BOM头和一些字符串处理问题。所以小编使用drop if v1==”期刊名称”命令不能将第一行“期刊名称”剔除掉，因为第一行除了“期刊名称”外还包含了不可见字符（BOM）在内。我们可以通过看”期刊名称”的字符串长度来观察区别首先生成一个新变量来观察字符长度。

gen length=strlen(v1)

为了方便读者，小编新生成一组变量v2包含”期刊名称”和”主办（管）单位”对其字符串再处理两组字符串长度进行对照。

gen v2=""

replace v2="期刊名称" if_n==1

replace v2="主办（管）单位" if _n==2

gen length1=strlen(v2)

根究length 和length1进行比较可以发现两组”期刊名称”的字符串不一样，v1组字符串为15，v2组字符串则是12少三个，其余的字符串两组都一致，说明txt文档导入数据第一行出现不可见字符（BOM）与此同时小编对v1v2使用ustrreverse函数因为Stata14 新增的ustrreverse函数可以很出色的文字逆反而且不会出现新生变量出现乱码。