R语言进阶之2:文本(字符串)处理与正则表达式

大数据
处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本。R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强,DNA/RNA/AA等生物序列现在已经可以使用R来处理。

R语言处理文本的能力虽然不强,但适当用用还是可以大幅提高工作效率的,而且有些文本操作还不得不用。高效处理文本少不了正则表达式(regular expression),虽然R在这方面先天不高效,但它处理字符串的绝大多数函数都使用正则表达式。

0、正则表达式简介:

正则表达式不是R的专属内容,所以用0编号,这里也只简单介绍,更详细的内容请查阅其他文章。

正则表达式是用于描述/匹配一个文本集合的表达式。

1.  所有英文字母、数字和很多可显示的字符本身就是正则表达式,用于匹配它们自己。比如 'a' 就是匹配字母 'a' 的正则表达式

2.  一些特殊的字符在正则表达式中不在用来描述它自身,它们在正则表达式中已经被“转义”,这些字符称为“元字符”。perl类型的正则表达式中被转义的字符有:. \ | ( ) [ ] { } ^ $ * + ?。被转义的字符已经有特殊的意义,如点号 . 表示任意字符;方括号表示选择方括号中的任意一个(如[a-z] 表示任意一个小写字符);^ 放在表达式开始出表示匹配文本开始位置,放在方括号内开始处表示非方括号内的任一字符;大括号表示前面的字符或表达式的重复次数;| 表示可选项,即 | 前后的表达式任选一个。

3.  如果要在正则表达式中表示元字符本身,比如我就要在文本中查找问号‘?’, 那么就要使用引用符号(或称换码符号),一般是反斜杠 '\'。需要注意的是,在R语言中得用两个反斜杠即 ‘\\’,如要匹配括号就要写成 ’\\(\\)‘

4.  不同语言或应用程序(事实上很多规则都通用)定义了一些特殊的元字符用于表示某类字符,如 \d 表示数字0-9, \D 表示非数字,\s 表示空白字符(包括空格、制表符、换行符等),\S 表示非空白字符,\w 表示字(字母和数字),\W 表示非字,\< 和 \> 分别表示以空白字符开始和结束的文本。

5.  正则表达式符号运算顺序:圆括号括起来的表达式***先,然后是表示重复次数的操作(即:* + {} ),接下来是连接运算(其实就是几个字符放在一起,如abc),***是表示可选项的运算(|)。所以 'foot|bar' 可以匹配’foot‘或者’bar‘,但是 'foot|ba{2}r'匹配的是’foot‘或者’baar‘。

一、字符数统计和字符翻译

nchar这个函数简单,统计向量中每个元素的字符个数,注意这个函数和length函数的差别:nchar是向量元素的字符个数,而length是向量长度(向量元素的个数)。其他没什么需要说的。

  1. > x <- c("Hellow", "World", "!") 
  2. > nchar(x) 
  3. [1] 6 5 1 
  4. > length(''); nchar('') 
  5. [1] 1 
  6. [1] 0 

另外三个函数用法也很简单:

  1. > DNA <- "AtGCtttACC" 
  2. > tolower(DNA) 
  3. [1] "atgctttacc" 
  4. > toupper(DNA) 
  5. [1] "ATGCTTTACC" 
  6. > chartr("Tt", "Uu", DNA) 
  7. [1] "AuGCuuuACC" 
  8. > chartr("Tt", "UU", DNA) 
  9. [1] "AUGCUUUACC" 

 

二、字符串连接

paste应该是R中最常用字符串函数了,也是R字符串处理函数里面非常纯的不使用正则表达式的函数(因为用不着)。它相当于其他语言的strjoin,但是功能更强大。它把向量连成字串向量,其他类型的数据会转成向量,但不一定是你要的结果:

  1. > paste("CK", 1:6, sep=""
  2. [1] "CK1" "CK2" "CK3" "CK4" "CK5" "CK6" 
  3. > x <- list(a="aaa"b="bbb"c="ccc"
  4. > y <- list(d=1e=2
  5. > paste(x, y, sep="-")     #较短的向量被循环使用 
  6. [1] "aaa-1" "bbb-2" "ccc-1" 
  7. > z <- list(x,y) 
  8. > paste("T", z, sep=":")   #这样的结果不知合不合用 
  9. [1] "T:list(a = \"aaa\", b = \"bbb\", c = \"ccc\")" 
  10. [2] "T:list(d = 1e = 2)" 

短向量重复使用,列表数据只有一级列表能有好的表现,能不能用看自己需要。会得到什么样的结果是可以预知的,用as.character函数看吧,这又是一个字符串处理函数:

  1. > as.character(x) 
  2. [1] "aaa" "bbb" "ccc" 
  3. > as.character(z) 
  4. [1] "list(a = \"aaa\", b = \"bbb\", c = \"ccc\")" 
  5. [2] "list(d = 1e = 2)"  

paste函数还有一个用法,设置collapse参数,连成一个字符串:

  1. > paste(x, y, sep="-"collapse='; '
  2. [1] "aaa-1; bbb-2; ccc-1" 
  3. > paste(x, collapse='; '
  4. [1] "aaa; bbb; ccc" 

三、字符串拆分

strsplit函数使用正则表达式,使用格式为:strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)

参数x为字串向量,每个元素都将单独进行拆分。

参数split为拆分位置的字串向量,默认为正则表达式匹配(fixed=FALSE)。如果你没接触过正则表达式,设置fixed=TRUE,表示使用普通文本匹配或正则表达式的精确匹配。普通文本的运算速度快。

perl=TRUE/FALSE的设置和perl语言版本有关,如果正则表达式很长,正确设置表达式并且使用perl=TRUE可以提高运算速度。

参数useBytes设置是否逐个字节进行匹配,默认为FALSE,即按字符而不是字节进行匹配。

下面的例子把一句话按空格拆分为单词:

> text <- "Hello Adam!\nHello Ava!"

> strsplit(text, ' ')

[[1]]

[1] "Hello"        "Adam!\nHello" "Ava!"            

 R语言的字符串事实上也是正则表达式,上面文本中的\n在图形输出中是被解释为换行符的。     

> strsplit(text, '\\s')

[[1]]

[1] "Hello" "Adam!" "Hello" "Ava!"  

strsplit得到的结果是列表,后面要怎么处理就得看情况而定了:

> class(strsplit(text, '\\s'))

[1] "list"

有一种情况很特殊:如果split参数的字符长度为0,得到的结果就是一个个的字符:

> strsplit(text, '')

[[1]]

 [1] "H"  "e"  "l"  "l"  "o"  " "  "A"  "d"  "a"  "m"  "!"  "\n" "H"  "e"  "l"  "l" 

[17] "o"  " "  "A"  "v"  "a"  "!" 

从这里也可以看到R把 \n 是当成一个字符来处理的。

四、字符串查询:

1、grep和grepl函数:

这两个函数返回向量水平的匹配结果,不涉及匹配字符串的详细位置信息。

 

  1. grep(pattern, x, ignore.case = FALSEperl = FALSEvalue = FALSE
  2.      fixed = FALSEuseBytes = FALSEinvert = FALSE
  3. grepl(pattern, x, ignore.case = FALSEperl = FALSE
  4.       fixed = FALSEuseBytes = FALSE

 

虽然参数看起差不多,但是返回的结果不一样。下来例子列出C:\windows目录下的所有文件,然后用grep和grepl查找exe文件:

 

  1. > files <- list.files("c:/windows") 
  2. > grep("\\.exe$", files) 
  3.  [1]   8  28  30  35  36  57  68  98  99 101 110 111 114 116 
  4. > grepl("\\.exe$", files) 
  5.   [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE 
  6.  [14] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
  7. #...... 

 

grep仅返回匹配项的下标,而grepl返回所有的查询结果,并用逻辑向量表示有没有找到匹配。两者的结果用于提取数据子集的结果都一样:

 

  1. > files[grep("\\.exe$", files)] 
  2.  [1] "bfsvc.exe"      "explorer.exe"   "fveupdate.exe"  "HelpPane.exe"   
  3.  [5] "hh.exe"         "notepad.exe"    "regedit.exe"    "twunk_16.exe"   
  4.  [9] "twunk_32.exe"   "uninst.exe"     "winhelp.exe"    "winhlp32.exe"   
  5. [13] "write.exe"      "xinstaller.exe" 
  6. > files[grepl("\\.exe$", files)] 
  7.  [1] "bfsvc.exe"      "explorer.exe"   "fveupdate.exe"  "HelpPane.exe"   
  8.  [5] "hh.exe"         "notepad.exe"    "regedit.exe"    "twunk_16.exe"   
  9.  [9] "twunk_32.exe"   "uninst.exe"     "winhelp.exe"    "winhlp32.exe"   
  10. [13] "write.exe"      "xinstaller.exe" 

 

2、regexpr、gregexpr和regexec

这三个函数返回的结果包含了匹配的具体位置和字符串长度信息,可以用于字符串的提取操作。

 

  1. > text <- c("Hellow, Adam!", "Hi, Adam!", "How are you, Adam.") 
  2. > regexpr("Adam", text) 
  3. [1]  9  5 14 
  4. attr(,"match.length") 
  5. [1] 4 4 4 
  6. attr(,"useBytes") 
  7. [1] TRUE 
  8. > gregexpr("Adam", text) 
  9. [[1]] 
  10. [1] 9 
  11. attr(,"match.length") 
  12. [1] 4 
  13. attr(,"useBytes") 
  14. [1] TRUE 
  15. [[2]] 
  16. [1] 5 
  17. attr(,"match.length") 
  18. [1] 4 
  19. attr(,"useBytes") 
  20. [1] TRUE 
  21. [[3]] 
  22. [1] 14 
  23. attr(,"match.length") 
  24. [1] 4 
  25. attr(,"useBytes") 
  26. [1] TRUE 
  27. > regexec("Adam", text) 
  28. [[1]] 
  29. [1] 9 
  30. attr(,"match.length") 
  31. [1] 4 
  32. [[2]] 
  33. [1] 5 
  34. attr(,"match.length") 
  35. [1] 4 
  36. [[3]] 
  37. [1] 14 
  38. attr(,"match.length") 
  39. [1] 4 

 

五、字符串替换

虽然sub和gsub是用于字符串替换的函数,但严格地说R语言没有字符串替换的函数,因为R语言不管什么操作对参数都是传值不传址。

 

  1. > text 
  2. [1] "Hello Adam!\nHello Ava!" 
  3. > sub(pattern="Adam"replacement="world", text) 
  4. [1] "Hello world!\nHello Ava!" 
  5. > text 
  6. [1] "Hello Adam!\nHello Ava!" 

 

可以看到:虽然说是“替换”,但原字符串并没有改变,要改变原变量我们只能通过再赋值的方式。

sub和gsub的区别是前者只做一次替换(不管有几次匹配),而gsub把满足条件的匹配都做替换:

 

  1. > sub(pattern="Adam|Ava"replacement="world", text) 
  2. [1] "Hello world!\nHello Ava!" 
  3. > gsub(pattern="Adam|Ava"replacement="world", text) 
  4. [1] "Hello world!\nHello world!" 

 

sub和gsub函数可以使用提取表达式(转义字符+数字)让部分变成全部:

> sub(pattern=".*(Adam).*", replacement="\\1", text)

[1] "Adam"

六、字符串提取

substr和substring函数通过位置进行字符串拆分或提取,它们本身并不使用正则表达式,但是结合正则表达式函数regexpr、gregexpr或regexec使用可以非常方便地从大量文本中提取所需信息。两者的参数设置基本相同:

 

  1. substr(x, start, stop) 
  2. substring(text, first, last = 1000000L

 

第 1个参数均为要拆分的字串向量,第2个参数为截取的起始位置向量,第3个参数为截取字串的终止位置向量。但它们的返回值的长度(个数)有差 别:substr返回的字串个数等于***个参数的长度;而substring返回字串个数等于三个参数中最长向量长度,短向量循环使用。先看第1参数(要 拆分的字符向量)长度为1例子:

 

  1. > x <- "123456789" 
  2. > substr(x, c(2,4), c(4,5,8)) 
  3. [1] "234" 
  4. > substring(x, c(2,4), c(4,5,8)) 
  5. [1] "234"     "45"      "2345678" 

 

因为x的向量长度为1,所以substr获得的结果只有1个字串,即第2和第3个参数向量只用了***个组合:起始位置2,终止位置4。

而substring的语句三个参数中最长的向量为c(4,5,8),执行时按短向量循环使用的规则***个参数事实上就是c(x,x,x),第二个参数就成了c(2,4,2),最终截取的字串起始位置组合为:2-4, 4-5和2-8。

请按照这样的处理规则解释下面语句运行的结果:

 

  1. > x <- c("123456789", "abcdefghijklmnopq") 
  2. > substr(x, c(2,4), c(4,5,8)) 
  3. [1] "234" "de"  
  4. > substring(x, c(2,4), c(4,5,8)) 
  5. [1] "234"     "de"      "2345678" 

 

用substring函数可以很方便地把DNA/RNA序列进行三联拆分(用于蛋白质翻译):

 

  1. > bases <- c('A','T','G','C') 
  2. > DNA <- paste(sample(bases, 12, replace=T), collapse=''
  3. > DNA 
  4. [1] "CCTTTACGGTGT" 
  5. > substring(DNA, seq(1,10,by=3), seq(3,12,by=3)) 
  6. [1] "CCT" "TTA" "CGG" "TGT" 

 

用regexpr、gregexpr或regexec函数获得位置信息后再进行字符串提取的操作可以自己试试看。

七、其他:

比如strtrim、strwrap、charmatch、match和pmatch等,甚至是 %in% 运算符都是可以使用的。R的在线帮助很全,自己看吧,就当学习E文。

原文链接:http://helloxxxxxx.blog.163.com/blog/static/21601509520133492033667/?latestBlog

 

【编辑推荐】

1.R语言学习笔记(1):R是什么

1.R语言学习笔记(2):数据类型和数据结构

 

责任编辑:彭凡 来源: 网易博客
相关推荐

2024-09-30 11:16:39

C#正则表达式

2009-09-16 17:02:15

正则表达式匹配字符串

2012-04-28 15:22:46

PHP

2009-08-20 14:31:55

C#正则表达式字符串

2017-05-12 10:47:45

Linux正则表达式程序基础

2009-08-14 17:44:46

C#中使用正则表达式匹

2010-03-15 16:13:11

Python正则表达式

2009-09-16 17:54:31

正则表达式实现

2009-06-08 16:49:05

Java正则表达式group

2024-04-16 00:11:05

Python换行符测试

2009-11-27 09:05:50

PHP函数split(

2019-10-29 09:20:48

Python文本正则表达式

2009-09-16 17:25:53

正则表达式字符集

2009-09-16 11:17:12

PHP正则表达式定位字

2009-08-20 13:26:35

C#正则表达式

2018-09-27 15:25:08

正则表达式前端

2020-09-04 09:16:04

Python正则表达式虚拟机

2009-09-16 10:59:24

PHP正则表达式元字符

2010-03-22 18:20:47

Python正则表达式

2010-03-15 16:21:28

Python正则表达式
点赞
收藏

51CTO技术栈公众号