分割大文件--chunky & chewfile

原创 2017-01-16 赵文泽 爬虫俱乐部爬虫俱乐部

哈喽，诸君安。大家在实证研究过程中可能会遇到文件太大的问题。怎么办呢？既然数据too large，那就把它分开！今天我们就来介绍两种分割“超大型”数据的方法：chunky和chewfile。

在实证研究过程中，当你准备好数据，打开stata却发现：

chunky和chewfile这两个命令都能轻松帮助你轻松分割txt、csv、xml等格式文件，区别则在于分割的方式不同。究竟如何分割、方式有何不同？请接着往下看：

一、chunky命令的使用格式是：

chunky using filename [,[ [peek(#) analyze] | [chunksize(#.#)header(string)stub(string)replace] ]

我们来看如何把2.17GB的Test.xml分割成可以导入stata的数据：

（1）运行chunky using Test.xml, peek(5)

peek(5)命令就是列出Test.xml前5行的数据。观察数据确认无误后，使用analyze选项分析数据的分割方式。

（2）运行chunky using Test.xml, analyze

chunky ,[analyze] 命令帮助分析目标文件分割的大小，以及具体分成多“块”。从分析结果可以看出，Test.xml中数据有2467272行，每行平均947个字节；数据由64%的字母、12%的数字和24%的其他字符组成。表格中的结果则展示了10MB、30MB、100MB、300MB、1000MB、3000MB等大小的6种分割方式。如果按照100MB大小进行分割，Test.xml可以分割成24个子文件，每个文件包含102083个观察值。

（3）根据以上分析结果，按照100MB对Hiprc.xml文件进行分割：

.chunky using Test.xml, chunksize(100m) header(include) stub(part) replace

运行完毕，你就会发现Test.xml分割出的24个子文件已经出现在你stata根目录了！本条命令中包含三个选项，分别是：

（1）chunksize(#.# [[k|kb]|[m|mb]|[g|gb]])。chunksize(10m)命令是按照10MB的大小对文件进行分割，如果你的文件足够大，可以使用更大“块”的分割方法。

（2）header(none|include|skip)。变量名称经常出现在CSV文件的第一行，可以使用header（include）将原文件第一行变量名称复制到每一个分割后的文件中。你也可以使用 header（skip）略过第一行，如果你想要数据没有第一行变量名称，则使用header（none）。三种命令的缩写依次为h(n/i/s)。

（3）stub(string)。stub命令用来对分割以后的文件命名，如果按照stub(part)命名，分割出的子文件则以part0001, part0002, part0003...命名。

除了例子中的csv，你还可以使用chunky处理txt、csv、raw等格式的大型文件，例如：

.chunky using"c:\rawfiles\123.raw",chunksize(.5GB)header(none)stub(Part)

二、chewfile命令的使用格式

chewfile [using filename] [, options]

Hiprc.tx记录了上证1210支A股近三年的是日最高价（如下图）