Node.js中实现文件的循环写入-js写入文件

node.js对所有外部资源调用提供异步机制，文件IO也不例外。在这种异步机制下，进程不会被阻塞，这极大提高了CPU的利用率，为单进程的模式奠定了基础。但同时，异步机制的引入也给程序逻辑的实现带来了一定复杂性，原来一些惯常的思维方式需要进行转换。

本文将以一个文件操作的实例来说明这一点。

假设我们需要新建一个文件，在其中循环写入0-9的数字，文件的总长度为1G bytes。在通常情况下，我们需要建立一个buffer，将内容放入其中，然后打开文件，在一个循环中多次向文件中写入，直至写满1G的长度。在node.js中我们同样可以使用同步文件写操作(例如 fs.writeSync)来实现这个逻辑，但这样做显然无法利用node.js提供的异步机制的优势。写操作会在fs.writeSync调用时阻塞，如果同时有其他运算任务需要处理，则会在进程中排队，造成 CPU资源浪费。

如果我们使用基于事件回调的异步文件写操作(例如 fs.write)，如何来模拟同步模式下的循环逻辑呢?自然可以想到的一点是定义一个函数用来处理单次写入操作，然后依靠事件回调反复调用此函数，直至写满计划中的长度。但问题在于回调函数的参数形式是固定的，无法加入fd (file descriptor)和循环变量来标注当前运行的进度状况。解决这个问题，我们可以应用js语言中的“闭包”机制，因为闭包函数可以在栈中保存定义此函数的现场。

具体代码如下：

var file_size = 1024*1024*1024;         //1G  
var buf_size = 10240;  
 
var fs = require('fs');  
var buf = new Buffer(buf_size);  
 
// init temp buffer  
var temp = new Buffer(10);  
for (var i=0; i<10; i++) {  
    temp[i] = (i).toString().charCodeAt(0);  
}  
 
// init buf  
for (var i=0; i<buf_size/10-1; i++) {  
    temp.copy(buf, 10*i);  
}  
temp.copy(buf, 10*i, 0, buf_size-parseInt(buf_size/10)*10);  
 
// write to file  
fs.open('big.block', 'w', 0666, function(err, fd){  
    if (err) throw err;  
 
    function write(err, written) {  
        if (err) throw err;  
        if (i>=file_size/buf_size) {    //close the file  
            fs.close(fd);  
        } else {            //continue to write  
            var length = buf_size;  
            if ((i+1)*buf_size>file_size) {  
                length = file_size-i*buf_size;  
            }  
            fs.write(fd, buf, 0, length, null, write);  
            i++;  
        }  
    }  
 
    var i=0;  
    write(null, 0);  
});

需要注意缓冲区大小对写操作的性能影响很大。过小的缓冲区会造成从磁盘到文件系统，甚至用户程序，整个过程更大的资源消耗，从而影响程序的执行效率。通过time数据可明显观察到其差别：

1K缓冲：

real 0m39.340s

user 0m18.244s

sys 0m34.750s

10K缓冲：

real 0m7.985s

user 0m2.037s

sys 0m7.525s

100K缓冲：

real 0m4.223s

user 0m0.312s

sys 0m4.077s

原文：http://cnodejs.org/blog/?p=168#comment-820

【编辑推荐】