浅谈Java读取Csv实践

开发 后端
CSV是逗号分隔型取值格式的英文简称(英文全称为Comma Separated Values),是一种纯文本格式,用来存储数据。本文主要介绍Java读取Csv的方法。

CSV中,数据的字段由逗号分开,程序通过读取文件重新创建正确的字段,方法是每次遇到逗号时开始新一段数据。CSV文件是一个计算机数据文件用于执行审判和真正的组织工具,逗号分隔的清单。CSV文件是用于数字存储的数据结构表的形式列出,每个相关的项目(会员)的一组是与他人也由逗号隔开的规定。中的每一行都CSV文件对应表中的行。在一条线,字段用逗号分隔,每一个领域属于一个表列。CSV文件常常被用于移动表格数据之间的两个不同的计算机程序,例如关系数据库程序和电子表格程序。让我们一起来探讨Java是怎样读取CSV的??

看项目中以前的处理方式是直接用用java IO类库读取Csv文件,实际处理中发现Csv文件本身包含了对各种特殊字符的处理信息。最常见的比如:

1. 对包含特殊字符的字符串数据首尾加双引号

2. 对数据中的单个双引号前加单个双引号

其它...

所以用Java IO读到的字符串全是经过处理后的字符串,在某些场景下是不符合预期需求的。比如我需要的是不做任何处理的原始内容。

项目中另一种常见的文件格式Excel用了POI来处理,但是POI不支持Csv格式,于是找到了javacsv。

代码很简单:

Java代码

 

  1. public List importCsv(String file)   
  2. {  
  3. List list = new ArrayList();  
  4. CsvReader reader = null;  
  5. try   
  6. {  
  7. //初始化CsvReader并指定列分隔符和字符编码  
  8. reader = new CsvReader(file, ',', Charset.forName("GBK"));  
  9. while (reader.readRecord())   
  10. {  
  11. //读取每行数据以数组形式返回  
  12. String[] str = reader.getValues();  
  13. if (str != null && str.length > 0)   
  14. {  
  15. if (str[0] != null && !"".equals(str[0].trim()))   
  16. {  
  17. list.add(str);  
  18. }  
  19. }  
  20. }  
  21. }   
  22. catch (FileNotFoundException e) {  
  23. log.error("Error reading csv file.",e);  
  24. }   
  25. catch (IOException e)   
  26. {  
  27. log.error("",e);  
  28. }  
  29. finally 
  30. {  
  31. if(reader != null)  
  32. //关闭CsvReader  
  33. reader.close();  
  34. }  
  35. return list;  

 

以上代码有几个要点:

1 初始化CsvReader时指定分隔符和字符编码,如果不指定,默认分别为逗号和ISO-8859-1,我用了GBK,具体使用时要看当时的字符编码而定。

2 读取每行数据,返回字符串数组,数组内的顺序即文件数据列的顺序

3 ***记得关闭CsvReader

是不是很简单,返回的数组格式也正好是我想要的,而且拿到是原始的数据,没有经过特殊字符处理。

有些同学质疑特殊字符未经处理,插到数据库会出错,其实大可不必我们手工处理,一些基础组件比如JDBC的preparedstatement已经包含了对特殊字符的处理,我们只要以绑定参数的形式来传送这些包含特殊字符的数据就可以。常用的持久化框架底层也封装了JDBC,自然也对特殊字符做了处理。

【编辑推荐】

  1. 学习java编程的八大优势
  2. 解析Java平台的构架与版本
  3. 体验Hyper-V 2.0中的CSV功能
  4. Java架构设计和开发中的小技巧
责任编辑:于铁 来源: 中国IT实验室
相关推荐

2011-04-02 09:30:46

JavaIO

2017-11-10 13:02:44

iOSUI代码

2009-07-09 14:56:23

Servlet读取

2016-08-31 09:58:55

JavascriptFlux架构

2009-08-20 09:41:36

2023-06-12 15:43:44

鸿蒙智能家居开发

2021-07-28 13:29:57

大数据PandasCSV

2010-02-01 13:26:58

C++读取CSV文件

2018-08-29 13:57:40

前端性能测试Html5

2023-12-05 13:47:00

Java开发

2011-07-28 18:11:18

Objective-C Cocoa 编程

2023-03-28 07:42:03

2015-01-15 17:41:54

soa云计算BPEL

2022-12-14 10:09:44

研发效能

2009-08-21 11:02:55

C#异步调用

2024-10-23 21:21:32

2019-01-02 13:45:19

2024-06-25 09:08:24

.NETCSV文件

2022-07-11 12:14:56

Pandashtmljson

2011-05-26 15:33:29

volatilejava
点赞
收藏

51CTO技术栈公众号