3 数据清洗
从非结构的、半结构的数据中抽取有用的信息,常常需要一番数据清洗操作,最重要的工具之一是正则表达式。R 语言内置一系列函数,组成一套工具,详见 ?regex
。
3.1 正则表达式
3.1.1 量词
3.1.2 级联
3.1.3 断言
正向查找 / 反向查找
3.1.4 反向引用
3.1.5 命名捕捉
3.2 字符串操作
3.2.1 查找
grep()
/ grepl()
返回是否匹配的结果
3.2.2 替换
sub()
/ gsub()
替换一次和多次
3.2.3 提取
regexpr()
/ gregexpr()
regexec()
/ gregexec()