暑期Stata编程技术定制培训班

爬虫俱乐部 爬虫俱乐部 5月30日

暑期Stata编程技术定制培训班

开始报名啦!!!

爬虫俱乐部将于2018年8月4日至12日河南驻马店黄淮学院举行两期Stata编程技术定制培训,此次采取初级班高级班分批次培训模式。全部课程采用理论与案例相结合的方式,旨在帮助大家熟悉Stata核心的爬虫技术,以及Stata与其他软件的交互的高端技术。

其 中初级班主要是为了让学员掌握Stata数据分析技巧,并能独立撰写简单的程序。涉及的主要内容有多种复杂数据的读取和输出、数据的合并、各种数据整理的 技巧、绘图、实证结果的输出以及我们团队自己编写的一些命令的介绍。全部课程采用案例教学的模式,经过爬虫俱乐部团队多年的精心策划,我们选择了合理的内 容和合适的顺序,通过20多个教学案例,旨在帮助大家在较短的时间内掌握Stata软件与金融计算的核心技术和方法,同时也教大家如何用Stata软件做 实证结果。而高级班主要是为了让学员熟练掌握Stata爬虫技术和文本分析技术,内容包括利用正则表达式的文本处理技术、利用正则表达式的网络爬虫技术、 文本分析、Mata语言以及Markdown相关知识的介绍。

爬 虫俱乐部已多次举办线下培训活动,曾经在武汉大学、华中科技大学、中央财经大学、中南财经政法大学、郑州大学、河南大学、福州大学、长沙理工大学、湖北大 学和湖北经济学院等进行师资和研究生实证方法的培训,获得了一致的好评。爬虫俱乐部的公开培训也进行了八场,场场爆满座无虚席。我们会继续努力,以培养学 生、技术研发为己任,在少量盈利的基础上,努力将公益事业做好,传播实证技术和数据分析方法、开发数据分析的工具等,造福于学术界。在接力第一季的网上课 程后,我们在今夏再一次举办暑期的培训活动。

授课老师简介

李春涛

985 知名大学教授、博士生导师;香港大学博士;主要研究领域是公司治理和企业创新,在《经济研究》、《金融研究》、Journal of Comparative Economics等主流期刊上发表学术论文三十余篇。李老师是Stata统计软件的资深用户,有20多年的Stata编程经验,他有十多名学生正在或曾 经在海外名校从事研究助理工作。

薛原

华 科博士生,爬虫俱乐部高级成员,擅长Stata编程、正则表达式、字符串处理及网络爬虫技术。与李老师合作开发了chinagcode、 chinaaddress、cnintraday、cnstock、subinfile、reg2docx、sum2docx、wordconvert等 重要命令,实现了中文地址与经纬度之间的转换,中国上市公司股票代码和分时交易数据的获取以及修改文本文件,有一篇论文被《金融研究》接收。

初级班培训内容

第一部分:初识Stata与数据读入


1)熟悉界面(菜单栏、工具栏、命令输入窗口、历史命令窗口、结果输出窗口等)

2)读入Stata格式的数据(use)

3)寻求帮助(在线帮助、搜索帮助、人肉帮助)

4)DOS命令(cd、mkdir、dir、erase、rm、rmdir、copy、type、shell等)

5)Winexec调用windows系统(播放音乐、打开、关闭浏览器等)

6)Copy命令(文件转移、文件重命名、网络文件读取、网页源代码读取)

7)常用命令(常用的30个命令:keep、drop、use save table browse等)

8)日期定义(Stata可识别的日期和时间格式、主要日期函数、时间函数等)

9)函数(数学函数、字符串函数、随机函数、编程函数等)

10)egen函数(egen与bysort结合、egen与常见统计量结合等)

11)读入TXT、CSV文件(万德交易数据为例)

12)Excel文件 (单个Excel文件、单个Sheet的读入与保存)

13)固定宽度的txt文件(构造固定宽度数据,用命令读入)

14)分行显示的txt文件(构造分行显示的固定宽度数据,用命令读入)

15)基金经理变更案例(不规则数据的整理、数据搬家与填充)

第二部分:宏与循环

1)Local概念与基本操作(如何定义local)

2)global概念与基本操作(与local的区别)

3)宏扩展函数(将dis结果、dir结果等赋值给local)

4)while 循环

5)forvalue 循环

6)跳出循环的continue 和continue, break

7)NBER工作论文下载案例(forvalue循环与copy命令)

8)上交所年报抓取案例(forvalue循环,日期函数、容错命令cap、循环过程中的终止)

9)foreach循环, 读入多个csv文件(以wind交易数据为例)

10)获取文件夹中文件名列表(fs命令)并对多个文件循环

11)获取一个变量的取值列表(levelsof命令)并对变量的多个取值进行循环

12)读入多个Excel的多个Sheet案例(以csmar交易和财务数据为例)

第三部分:数据库操作

1)数据的纵向合并(CSMAR交易数据为例、cntrade命令、工企数据库运用)

2)数据的横向合并 (财务数据为例)

3)数据长宽变换 (wind财务数据、多列变一列reshape,stack命令)

4)美国流行歌曲目录案例(reshape命令长变宽)

5)起死回生(preserve restore命令)

6) CSSCI期刊目录案例(preserve restore一列变多列)

7) label(文件label、变量label、观测值label)

8)用label找变量(labelsof、label 的宏扩展函数)

9)字符串处理(长度、关键词、替换、提取、寻找总经理、寻找董事长、两职合一)

第四部分:Post命令与网络爬虫入门

1)post 原理

2)定义post

3)用post计算同步性和Beta

4)基于网络数据的事件研究

5)股本变更数据

6)新浪公告数据抓取

7)新浪高管任职数据抓取

第五部分:绘图

1)基本统计图形的绘制:

    a)散点图:twoway scatter

    b)折线图:twoway line

    c)连线图:twoway connected

    d)连线阴影图:twoway area

    e)柱状图: twoway bar

    f)直方图: twoway histogram

    g)条形统计图:graph bar

    h)饼图:graph pie

2)基本统计图形的属性:颜色、形状、大小、标签、位置、坐标轴、图例等

3)复杂图形的绘制(多个图形在同一个图形中的显示,多个坐标轴的绘画等)

4)透明图片的绘制

5)命令grss的运用

6)图形的保存、合并和输出

7)中国地图的绘制

8)DID的平行性趋势检验图形绘制

9)断点回归的图形绘制

第六部分:回归分析及结果输出

1)输出表格或图形到WORD文档、EXCEL文档和PDF文档:putdocx、putpdf、putexcel

2)基本统计信息:sum2doxc

3)分组检验:t2docx

4)相关系数矩阵:corr2docx

5)简单线性回归:reg2docx

高级班培训内容

第一部分:正则表达式

1)正则表达式基本函数介绍:

    a)ustrregexm()

    b)ustrregexs()

    c)ustrregexrf()与ustrregexra()

2)正则表达式元字符介绍:

    a)基本元字符

    b)数量元字符

    c)位置元字符

    d)前后查找

    e)特殊字符元字符

    f)回溯引用

    g)unicode编码

3)正则表达式匹配模式

    a)贪婪模式

    b)懒惰模式

4)正则表达式例子

    a)邮编提取

    b)英文姓与名的拆分

    c)CSSCI数据预处理

    d)百度新闻数量

    e)城市名称提取

    f)pdf表格数据的提取

    g)英文姓名的拆分

    h)用正则表达式表示日期

5)正则表达式相关命令

    a)moss命令与简单的词频统计

    b)subinfile命令对文本文档进行操作

第二部分:网络爬虫

1)爬虫初步:

    a)新浪高管任职数据抓取

    b)NBER Working Paper信息的抓取

2)寻找真实链接:

    a)和讯网港股数据

    b)深交所信息披露质量

    c)百度新闻逐年结果数

3)调用curl:

    a)新浪财经港股数据

    b)环保部AQI

第三部分:Mata

1)mata简介

2)mata简单操作

    a)进入与退出mata环境

    b)定义mata矩阵

    c)mata读取文件

    d)mata运算

    e)mata循环与条件语句

3)定义mata函数

4)使用mata进行网络数据处理

第四部分:文本分析

1)分词原理

2)分词的实现

    a)函数ustrwordcount()和ustrword()

    b)调用Python的jieba和pynlpir

    c)Bosonnlp的API

    d)词频统计

3)高亮输出文章重点

4)词云图的实现

5)情感分析原理

6)情感分析的实现

    a)Bosonnlp

    b)构建词库计算情感值

    c)大众点评日料评论情感分析

第五部分:markdown及其相关知识

1)Markdown应用场景

2)Markdown基本标记

3)Markdown渲染html网页脚本

4)用Markdown生成Stata静态网页报告(webdoc)

5)用Markdown生成Stata动态网页报告(dyndoc)

培训目的

本 次培训通过具体的案例对每部分技术进行讲解,力图使大家掌握Stata的基本命令、编程、数据处理以及抓取网络数据的方法。专题式的讲解使你能在短时间内 掌握Stata的精髓,精选的实例和翔实的配套资料能让你在课后快速拓展所学,并能够编写一些实用的Stata程序,为进一步学习和科研打下扎实的基础。 希望通过本次培训,使培训人员对Stata软件有更深入的认识,并在其工作岗位上发挥其强大的功能。

培训对象

国内高校教师、硕士生、博士生、科研院所科研人员、社会团体及Stata爱好者。

报名方式

即日起发送“报名回执表(请点击文末阅读原文获得报名回执表)+支付截图”至邮箱:statatraining@163.com,邮件主题为:“爬虫俱乐部2018暑期培训+姓名+单位”。

报名费用及优惠

学生报名需提供有效学生证件

支付方式

对公转账

开户名:武汉字符串数据科技有限公司

开户行:中国银行股份有限公司武汉中南财经政法大学分理处

对公账号:579473738265

对私转账

支付宝:张计宝  18827400998

相关单位

主办方:武汉字符串数据科技有限公司、爬虫俱乐部

其他事项及培训安排

1.请学员自带笔记本电脑,我们将提供Stata原厂软件试用程序。

2.本次培训食宿及往返交通费用学员自理。

3.即日起开始正式报名和收费。每班限40人,招满为止。

初级班:2018年8月4日-7日

高级班:2018年8月9日-12日

河南省驻马店黄淮学院

statatraining@163.com

李先生

QQ:1473997645

微信:15051528196

手机:13618643018

邮箱:chenailuodinglpc@163.com

吴女士

QQ:2536897837

微信:15827497880

手机:15827497880

邮箱:2536897837@qq.com

注:此推文中的图片及封面(除操作部分的)均来源于网络!如有雷同,纯属巧合!

以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。另外,我们开通了苹果手机打赏通道,只要扫描下方的二维码,就可以打赏啦!

应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~


                                   

             文字编辑:何雪泽

  技术总编:刘贝贝

往期推文推荐:

1.爬虫俱乐部新版块--和我们一起学习Python

2.hello,MySQL--Stata连接MySQL数据库

3.hello,MySQL--odbcload读取MySQL数据

4.再爬俱乐部网站,推文目录大放送!

5.用Stata生成二维码—我的心思你来扫

6.Hello,MySQL-odbc exec查询与更新

7.Python第一天

8.Python第二天

9.事件研究大放送



关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿邮箱:statatraining@163.com

投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

    阅读原文

    微信扫一扫
    关注该公众号

    公开收集正在保存拖拽至此处以完成收集私密