“Kettle转换步骤”的版本间的差异

来自小能手俱乐部
跳到导航 跳到搜索
(创建页面,内容为“== 概述 ==   转换步骤分类:     1. 增加新的列     2. 字符串处理     3. 行列变换     4. 排序/排重/…”)
 
 
第17行: 第17行:
增加一列常量的列
增加一列常量的列


插图
[[文件:Ct5-1.png|无框|701x701像素]]


  其它增加列的操作大同小异,不一一赘述,只介绍计算器
  其它增加列的操作大同小异,不一一赘述,只介绍计算器
第31行: 第31行:
可以进行数值运算、日期运算等...
可以进行数值运算、日期运算等...


插图
[[文件:Ct5-2.png|无框|579x579像素]]
 
  


== 字符串处理 ==
== 字符串处理 ==


=== 字符串拆分 ===
=== 字符串拆分 ===
插图
[[文件:Ct5-3.png|无框|574x574像素]]


1.同Java的indexOf,左闭右开的形式
1.同Java的indexOf,左闭右开的形式
第44行: 第42行:
2.将一个字段拆分为多个字段,注意配置拆分后接收的字段
2.将一个字段拆分为多个字段,注意配置拆分后接收的字段


插图
[[文件:Ct5-4.png|无框|690x690像素]]


3.拆分成多行
3.拆分成多行
第50行: 第48行:
类似上面,不过拆分成多行是这样的结果:
类似上面,不过拆分成多行是这样的结果:


插图
[[文件:Ct5-5.png|无框]]


=== 字符串合并 ===
=== 字符串合并 ===
插图
[[文件:Ct5-6.png|无框|718x718像素]]


=== 字符串替换 ===
=== 字符串替换 ===
插图
[[文件:Ct5-7.png|无框|652x652像素]]


值映射:对数值进行映射,例如经典的性别1 0映射为男 女:
值映射:对数值进行映射,例如经典的性别1 0映射为男 女:


插图
[[文件:Ct5-8.png|无框|570x570像素]]


正则匹配:
正则匹配:


插图
[[文件:Ct5-9.png|无框|866x866像素]]


=== 字符串其它转换 ===
=== 字符串其它转换 ===
插图    
[[文件:Ct5-10.png|无框|623x623像素]]


字符串操作:
字符串操作:


插图
[[文件:Ct5-11.png|无框]]


可以进行字符串转义(例如> 转义为 &gt)、保留/去除字符串里的数字、移除特殊字符、补充长度
可以进行字符串转义(例如> 转义为 &gt)、保留/去除字符串里的数字、移除特殊字符、补充长度
第78行: 第76行:
图示如下:(也叫正规化-列转行-宽表变窄表/        反正规化-行转列-窄表变宽表)
图示如下:(也叫正规化-列转行-宽表变窄表/        反正规化-行转列-窄表变宽表)


插图
[[文件:Ct5-12.png|无框|536x536像素]]


示例如下:
示例如下:


插图
[[文件:Ct5-13.png|无框|657x657像素]]


窄表变宽表的配置:注意理解分组字段的含义
窄表变宽表的配置:注意理解分组字段的含义


插图
[[文件:Ct5-14.png|无框|744x744像素]]


== 排序/去重/字段选择 ==
== 排序/去重/字段选择 ==
1.排序
1.排序


插图
[[文件:Ct5-15.png|无框]]


2.排重
2.排重
第97行: 第95行:
Unique Row: 需要事先排序:
Unique Row: 需要事先排序:


插图
[[文件:Ct5-16.png|无框|445x445像素]]


Unique Row(Hash): 不排序,速度快,占内存。
Unique Row(Hash): 不排序,速度快,占内存。

2021年10月29日 (五) 08:02的最新版本

概述

  转换步骤分类:

    1. 增加新的列

    2. 字符串处理

    3. 行列变换

    4. 排序/排重/字段选择

    5. 其他转换步骤

增加新的列

增加常量列

增加一列常量的列

生成缩略图出错:无法找到文件

  其它增加列的操作大同小异,不一一赘述,只介绍计算器

  • 增加常量列
  • 增加序列列
  • 增加分组序列列
  • 增加校验列
  • 增加XML列
  • 计算器

计算器

可以进行数值运算、日期运算等...

生成缩略图出错:无法找到文件

字符串处理

字符串拆分

生成缩略图出错:无法找到文件

1.同Java的indexOf,左闭右开的形式

2.将一个字段拆分为多个字段,注意配置拆分后接收的字段

生成缩略图出错:无法找到文件

3.拆分成多行

类似上面,不过拆分成多行是这样的结果:

Ct5-5.png

字符串合并

Ct5-6.png

字符串替换

Ct5-7.png

值映射:对数值进行映射,例如经典的性别1 0映射为男 女:

生成缩略图出错:无法找到文件

正则匹配:

生成缩略图出错:无法找到文件

字符串其它转换

Ct5-10.png

字符串操作:

Ct5-11.png

可以进行字符串转义(例如> 转义为 &gt)、保留/去除字符串里的数字、移除特殊字符、补充长度

行列变换

图示如下:(也叫正规化-列转行-宽表变窄表/        反正规化-行转列-窄表变宽表)

生成缩略图出错:无法找到文件

示例如下:

生成缩略图出错:无法找到文件

窄表变宽表的配置:注意理解分组字段的含义

生成缩略图出错:无法找到文件

排序/去重/字段选择

1.排序

Ct5-15.png

2.排重

Unique Row: 需要事先排序:

Ct5-16.png

Unique Row(Hash): 不排序,速度快,占内存。