爬虫俱乐部Stata编程技术定制培训班——2018年1月武汉专场

2017-11-28 动态阅读量

前言

当前是信息社会高速发展的时代，信息无处不在，信息的价值和数量决定着一个人、一个企业以至于一个国家的未来，信息最常见的形式是数据，我们每天都要面对大量的数据，我们看到的仅仅是数据，还是数据的背后，这直接决定着我们决策的正确与否。因此，数据分析、数据管理、数据呈现成为现代社会最具现实意义和最热门的工作。Stata是国际上最流行的数据分析、数据管理、数据呈现以及绘制专业图表的完整及整合性统计软件，该软件以其友好的人机界面，简单的编程语言和强大的功能，赢得了越来越多专业人士的关注和认可，其市场占有率也越来越高，Stata正逐渐成为许多研究都进行各门类社会科学学习和研究的首选软件。

爬虫俱乐部将于2018年1月20日至28日在武汉举行两期Stata编程技术定制培训，此次采用初级班和高级班分批次培训模式，初级班主要是为了让学员掌握Stata数据分析的技巧，并能独立撰写简单的程序。涉及的主要内容有多种复杂数据的读取和输出、数据的合并、各种数据整理的技巧、简单网络爬虫工具、绘图、Stata15新增功能以及我们团队编写的自动输出实证结果的命令介绍。全部课程采用案例教学的模式，经过爬虫俱乐部团队多年的精心策划，我们选择了合理的内容和合适的顺序，通过20多个教学案例，旨在帮助大家在较短的时间内掌握 Stata软件与金融计算的核心技术和方法，同时也教大家如何 用Stata软件做实证结果。

高级班主要是为了让学员熟练掌握Stata爬虫技术和文本分析技术，内容包括利正则表达式的文本处理技术、利用正则表达式的网络爬虫技术、文本分析、Mata语言以及计量经济学中模型识别问题。全部课程采用理论与案例相结合的方式，旨在帮助大家熟悉Stata核心的爬虫技术，以及Stata与其他软件的交互的高端技术。

“爬虫俱乐部”(微信公众号)是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。爬虫俱乐部团队是Stata技术控，专注于分享使用Stata的技术，解决Stata相关问题。提供编程技术咨询，编程和实证培训。“爬虫俱乐部”为提高爬虫君们的技术需求，以每天至少更新一个Stata技术的速度在为爬虫君们服务。

授课老师

李春涛教授

爬虫俱乐部创始人，香港大学博士，中南财经政法大学金融学教授，博士生导师。李春教授有15年的stata编程经验，编写过ttable2、chinafin、cntrade、eventstudy、psemail、sum2docx、reg2docx、wordconvert、corr2docx、t2docx等stata命令，这些命令让中国的股票日交易数据、日内分时数据和上市公司财务数据免费且唾手可得，让Stata可以发送电子邮件，让中文地址和经纬度轻松转换等。李教授主要的研究方向为公司治理和企业创新，在Journal of Comparative Economics、International Journal of Auditing、Stata Journal、《经济研究》和《金融研究》等期刊发表论文近30篇。

薛原

爬虫俱乐部资深Stata编程资深专家，具有丰富的程序设计经验，在Stata前20大最热门的用户命令中，薛原贡献了4个，其中2个进入前10名。薛原还参与了多个实证研究项目，熟练掌握正则表达式，curl技术和各种爬虫技术，多次参与爬虫俱乐部的培训工作，积累了丰富的数据分析经验、授课经验和学术研究经验。薛原已经有一篇论文被国内金融学权威期刊接收。

张璇副教授

2011年毕业于中国人民大学统计学院，获应用经济学博士学位。2005-2006年访问香港大学香港商业决策与研究中心，担任研究助理工作。主要研究兴趣是网络爬虫、大数据分析方法和微观计量方法的应用研究，涉及腐败、收入分配、微观企业行为等。在“Stata Journal”、“Statistical Papers”、《经济研究》、《金融研究》、《财贸经济》、《南方经济》等SCI和CSSCI期刊上发表文章多篇。获中国博士后面上基金、特别基金以及国家自科青年基金资助。获中南财经政法大学第三批“文澜青年”学者称号。

刘贝贝

中南财经政法大学2016级博士研究生。有论文发表在《经济研究》、《金融研究》、《南方经济》，2015年6月-2017年1月在香港岭南大学财务保险系担任研究助理一职，研究生期间两次获得国家奖学金，2017年获得鸿儒奖学金，熟练掌握图形绘画和数据挖掘。

初级班培训内容

第一部分：Stata初步与数据读入

熟悉界面（菜单栏、工具栏、命令输入窗口、历史命令窗口、结果输出窗口等）
读入Stata格式的数据（use）
寻求帮助（在线帮助、搜索帮助、人肉帮助）
DOS命令（cd、mkdir、dir、erase、rm、rmdir、copy、type、shell等）
Winexec调用windows系统(播放音乐、打开、关闭浏览器等)
Copy命令（文件转移、文件重命名、网络文件读取、网页源代码读取）
常用命令（常用的30个命令：keep、drop、use save table browse等）
日期定义（Stata可识别的日期和时间格式、主要日期函数、时间函数等）
函数（数学函数、字符串函数、随机函数、编程函数等）
egen函数（egen与bysort结合、egen与常见统计量结合等）
读入TXT、CSV文件（万德交易数据为例）
Excel文件（单个Excel文件、单个Sheet的读入与保存）
固定宽度的txt文件（构造固定宽度数据，用命令读入）
分行显示的txt文件（构造分行显示的固定宽度数据，用命令读入）
基金经理变更案例（不规则数据的整理、数据搬家与填充）

第二部分：宏与循环

Local概念与基本操作（如何定义local）
global概念与基本操作（与local的区别）
宏扩展函数（将dis结果、dir结果等赋值给local）
while 循环
forvalue 循环
跳出循环的continue 和continue, break
NBER工作论文下载案例(forvalue循环与copy命令)
上交所年报抓取案例(forvalue循环，日期函数、容错命令cap、循环过程中的终止)
foreach循环, 读入多个csv文件（以wind交易数据为例）
获取文件夹中文件名列表（fs命令）并对多个文件循环
获取一个变量的取值列表（levelsof命令）并对变量的多个取值进行循环
读入多个Excel的多个Sheet案例（以csmar交易和财务数据为例）

第三部分：数据库操作

数据的纵向合并（CSMAR交易数据为例、cntrade命令、工企数据库运用）
数据的横向合并（财务数据为例）
数据长宽变换（wind财务数据、多列变一列reshape，stack命令）
美国流行歌曲目录案例（reshape命令长变宽）
起死回生（preserve restore命令）
CSSCI期刊目录案例（preserve restore一列变多列）
label(文件label、变量label、观测值label)
用label找变量（labelsof、label 的宏扩展函数）
字符串处理（长度、关键词、替换、提取、寻找总经理、寻找董事长、两职合一）

第四部分：Post命令与网络爬虫入门

post 原理
定义post
用post计算同步性和Beta
基于网络数据的事件研究
股本变更数据
新浪公告数据抓取
新浪高管任职数据抓取

第五部分：绘图

基本统计图形的绘制
1. 散点图：twoway scatter
2. 折线图：twoway line
3. 连线图：twoway connected
4. 连线阴影图：twoway area
5. 柱状图: twoway bar
6. 直方图: twoway histogram
7. 条形统计图：graph bar
8. 饼图：graph pie
基本统计图形的属性：颜色、形状、大小、标签、位置、坐标轴、图例等
复杂图形的绘制(多个图形在同一个图形中的显示，多个坐标轴的绘画等)
透明图片的绘制
命令grss的运用
图形的保存、合并和输出
中国地图的绘制
DID的平行性趋势检验图形绘制
断点回归的图形绘制

第六部分：回归分析及结果输出

输出表格或图形到WORD文档、EXCEL文档和PDF文档：putdocx、putpdf、putexcel
基本统计信息：sum2doxc
分组检验：t2docx
相关系数矩阵：corr2docx
简单线性回归：reg2docx

第七部分：论文实证重现（如果时间允许）

知识产权保护与企业创新
分析师跟踪与盈余管理

高级班培训内容

第一部分：正则表达式

正则表达式基本函数介绍：
1. ustrregexm()
2. ustrregexs()
3. ustrregexrf()与ustrregexra()
正则表达式元字符介绍：
1. 基本元字符
2. 数量元字符
3. 位置元字符
4. 前后查找
5. 特殊字符元字符
6. 回溯引用
7. unicode编码
正则表达式匹配模式
1. 贪婪模式
2. 懒惰模式
正则表达式例子
1. 邮编提取
2. 英文姓与名的拆分
3. CSSCI数据预处理
4. 百度新闻数量
5. 城市名称提取
6. pdf表格数据的提取
7. 英文姓名的拆分
8. 用正则表达式表示日期
正则表达式相关命令
1. moss命令与简单的词频统计
2. subinfile命令对文本文档进行操作

第二部分：网络爬虫

爬虫初步
1. 新浪高管任职数据抓取
2. NBER Working Paper信息的抓取
寻找真实链接：
1. 和讯网港股数据
2. 深交所信息披露质量
3. 百度新闻逐年结果数
调用curl：
1. 新浪财经港股数据
2. 环保部AQI
3. P2P平台数据抓取方法
4. 同花顺研发费用
5. 土地市场网

第三部分：Mata

mata简介
mata简单操作
1. 进入与退出mata环境
2. 定义mata矩阵
3. mata读取文件
4. mata运算
5. mata循环与条件语句
定义mata函数
使用mata进行网络数据处理

第四部分：文本分析

分词原理
分词的实现
1. 函数ustrwordcount()和ustrword()
2. 调用Python的jieba和pynlpir
3. Bosonnlp的API
4. 词频统计
高亮输出文章重点
词云图的实现
情感分析原理
情感分析的实现
1. Bosonnlp
2. 构建词库计算情感值
3. 大众点评日料评论情感分析

第五部分：模型识别

IV原理与经典案例
DID原理与经典案例
RD原理与经典案例

培训目的

本次培训通过具体的案例对每部分技术进行讲解，力图使大家掌握Stata的基本命令、编程、数据处理以及抓取网络数据的方法。专题式的讲解使你能在短时间内掌握Stata的精髓，精选的实例和翔实的配套资料能让你在课后快速拓展所学，并能够编写一些实用的Stata程序，为进一步学习和科研打下扎实的基础。希望通过本次培训，使培训人员对Stata软件有更深入的认识，并在其工作岗位上发挥其强大的功能。

培训相关事项

培训时间

初级班：2018年1月20-23日
高级班：2018年1月25-28日

培训地点

湖北武汉（具体地点报名后通过微信通知）

培训对象

国内高校教师、硕士生、博士生、科研院所科研人员、社会团体及Stata爱好者。

报名方式

即日起发送“报名回执表+支付截图”至邮箱：statatraining@163.com，邮件主题为：爬虫俱乐部2018武汉培训+姓名+单位。

培训费用

初级班：4000元/人，学生可以享受八折优惠，即3200元/人（学生需出示有效学生证件）。另外，三人同行可以在前面价格的基础上享受第三位半价优惠。
高级班：4000元/人，学生可以享受八折优惠，即3200元/人（学生需出示有效学生证件）。另外，三人同行可以在前面价格的基础上享受第三位半价优惠。
初级班和高级班均报名者7200元/人，学生5800元/人（学生需出示有效学生证件）。另外，三人同行可以在前面价格的基础上享受第三位半价优惠。

支付方式

对公转账

开户名：湖北青澜云科技有限公司

开户行：招商银行武汉光谷支行

帐号：127908956810901

备注：姓名、发票抬头、纳税人识别号、开票内容

对私转账

支付宝：高金凤 18894312912@163.com

相关单位

主办方： 湖北青澜云科技有限公司

协助方：爬虫俱乐部 、北京友万科技有限公司

其它事项及培训安排

请学员自带笔记本电脑，我们将提供Stata原厂软件试用程序。
本次培训食宿及往返交通费用学员自理。
即日起开始正式报名和收费，每班限40人，招满为止。

会务组联系方式

联系人：高金凤

手机：15827152922

QQ ：1048044678

WeChat：18894312912

邮箱：statatraining@163.com

前言