我来告诉你stata命令有多少

原创 2017-01-09 薛原 & 司海涛 爬虫俱乐部爬虫俱乐部

哈喽，诸君安。在我们学习stata的过程中会接触很多命令，我们通过ssc install下载各种命令到自己的stata中，那么大家知道ssc上面到底有多少命令吗？它们又是什么呢？之前的推文中已经多次介绍到用 subinfile命令替换、保留、删除数据，今天我们用subinfile命令来爬取上传到ssc中的所有命令。

虫

爬

一、找到网络数据源

在这个网站中（https://ideas.repec.org/s/boc/bocode.html）列出了上传到ssc中的所有命令，如下图所示：

可以看到，ssc中的命令包含在15个网页中，对应上图0-14。相应网页为：https://ideas.repec.org/s/boc/bocode.html；

https://ideas.repec.org/s/boc/bocode1.html；

https://ideas.repec.org/s/boc/bocode2.html

......

https://ideas.repec.org/s/boc/bocode.html14

我们首先介绍如何爬取一个网页中的命令，再通过循环爬取15个网页的命令。

查看网页源代码如下：

可以看到在网页源代码的第225行有我们需要获取的内容。

虫

爬

二、copy网页源代码

首先我们用copy命令将网页的内容copy到计算机硬盘：

clear

set more off

cap mkdir "d:\命令"

cd "d:\命令"

copy "https://ideas.repec.org/s/boc/bocode.html" "temp.txt", replace

这样网页源代码就保存在了d:\命令\temp.txt中。

虫

爬

三、爬取可行性分析

通过查看网页源代码，找寻爬取信息以及定位字符。我们可以找到网页源代码中有我们需要获取的内容。如下图所示：

因为从225行开始，才是我们需要的内容，因此我们只需保留该部分即可。subinfile可以帮我们保留文本文档中含有某个字符串的行。通过分析（如上图所示），我们把定位内容用黄色阴影high light起来，对应“<LI class="list”。绿色阴影是我们所需要获取的内容，如：JC: Stata module to dynamically load and call Java plugins。

虫

爬

四、用subinfile处理文本文档

保留所需信息源代码

经过上述爬取可行性分析，我们知道定位内容为“<LI class="”。接下来，就用subinfile这支利器来保留我们所需要的信息源代码，程序如下：

subinfile temp.txt, index(`"<LI') replace

执行结果如下：

删除多余字符串

通过上述操作，我们保留了所需要信息的所在行，但是我们知道只有绿色阴影部分才是我们需要获取的内容，而其他的字符串都需要被删除掉。来吧，继续使用subinfile：

subinfile temp.txt,from(`"(<.+html">)|(<.+)"') fromregex replace

这里我们用了正则表达式，其中，(<.+html">)表示上图黄色阴影部分，(<.+)表示紫色阴影部分。好了，我们就这样用subinfile轻轻松松删除了多余的字符串。

执行结果如下：

当然，我们也可以把以上两个命令写在一起，变成：

subinfile temp.txt, index(`"<LI') from(`"(<.+html">)|(<.+)"') fromregex replace

你们看，用subinfile这支利器，只需一行命令！一行命令！！一行命令！！！就帮助我们从密密麻麻的网页源代码中提取到我们所需要的信息。（关于subinfile的详细用法，请移步往期推文用subinfile修改文件，滚蛋吧，繁琐的命令君！【ps：我们前一段时间更新了subinfile命令，修正了一点小bug，欢迎大家更新：ssc install subinfile ,replace】）

虫

爬

五、加入循环语句爬取所有网页中的命令

程序如下：

forvalues i = 0/14 {

if `i' == 0 {

copy "https://ideas.repec.org/s/boc/bocode.html" "temp.txt", replace

}

else {

copy "https://ideas.repec.org/s/boc/bocode`i'.html" "temp.txt", replace

}

subinfile temp.txt, index(`"<LI') from(`"(<.+html">)|(<.+)"') fromregex replace