朝花夕拾 | 如何解决大小写的问题?

2017-01-12 爬虫俱乐部 爬虫俱乐部 爬虫俱乐部

      

 今天是朝花夕拾板块的不定期更新时间。不管你是想温习我们之前推送的命令,还是要学习新的技巧,都且听小编慢慢道来。

文章来源:数据处理援助中心公众号  

已获得授权



前一阵子笔者在处理数据的过程中遇到了这么一个问题:从数据库下载的数据中有个变量是分析师的名字,但其形式非常杂乱,很不规范,如何让其规范化?而最近几天,又有几个朋友询问:英语学得不是太好,看不习惯大写字母构成的单词或文章,能不能转为小写形式?


笔者在这里用一个例子来介绍解决这些问题的方法。


变量不规范问题


首先来看一下从数据库直接下载的数据是有多不规范:变量analyst有非常规范的Weibo Hu,也有不规范的weijia WANG和Wen DAI等,这里仅仅显示了部分分析师名字,还有一些更杂乱的没有显示出来。



我们需要让所有的analyst都以非常规范的形式显示出来,怎么办?这里需要用到文本函数proper


gen analyst_edit=proper(analyst)

order id analyst analyst_edit


对比一下:


小贴士proper 是对英文名字进行规范化,如果对应的变量既包含英文名又包含中文名,笔者建议把数据拆分为英文名和中文名两部分,因为proper会改变某些中文汉字,比 如笔者的这个数据中,变量analyst既包含英文名又包含中文名,笔者对其全部使用proper,有一些汉字就发生了改变,如下图所示:




大小写转换问题


如果要把大写改为小写怎么做呢?笔者所用的这个数据有个变量title,全部是大写字母写成的,笔者用文本函数lower把它改为小写字母。




gen title_edit1=lower(title)

order id title title_edit1



那么问题来了,怎么把小写改为大写呢?即把刚刚改过的title_edit1改为title呢?使用文本函数upper


gen title_edit2=upper(title_edit1)




以上就是本次推文的全部内容

有没有很实用!

接下来报告空气质量

全国空气质量如下


山东的朋友

别忘了戴口罩出门哟


以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~,点赞打赏随您心意,么么哒~

应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~

编辑 by 强宇曦



往期推文推荐:

1.独家Stata技术培训,千呼万唤始出来

2.关于RTF你不知道的命令

3.关于RTF你不知道的命令之番外篇

4.免费事件研究,一片片从邮局寄来

5.免费的股价同步性,一片片从邮局寄来

6.Stata叫你回家听音乐了!

7.一言不合就用stata写邮件(Outlook/Foxmail)

8.玩转stata之调用浏览器

9.I have a Stata, I have a python

10.I have a Stata, I have a Python之二——pdf转word




关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。


此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿邮箱:xueyuan19920310@163.com

投稿要求:

1)必须原创,禁止抄袭;

2)必须准确,详细,有例子,有截图;

注意事项:

1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”。

3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。


欢迎关注爬虫俱乐部

微信扫一扫
关注该公众号