微商城帮助 门店连锁帮助 美业帮助 CRM帮助 导购助手帮助 企业微信助手帮助 群团团帮助

数据源使用说明

一、连接数据

1、新建数据连接

在分析开始之前,需要做的第一步就是连接数据,如下图所示(以连接MySQL数据库为例):

 

图片


1)在“数据源”模块,添加数据连接

 

图片


2)选择要添加的数据连接类型(新增apach phoenix及Druid数据源)

 

图片


3)填写数据库信息后保存即可完成数据连接的添加

 

图片

 

2、缓存有效期的解释

“缓存有效期”则指定了缓存在数据罗盘系统内存留的时间。可以看到在数据库设置的页面,有一项“缓存有效期”的设置。为了提升访问性能,访问报告时,数据罗盘会对查询到的结果数据进行缓存,以便下次访问相同数据时加载速度更快。

举例说明:缓存有效期设置为1小时,则首次访问报告会进行缓存,1小时内再次访问相同报告时会直接读取缓存数据,1小时之后再访问报告,缓存已经失效,会重新访问数据库获取最新的数据并重新进行缓存。

因此,为了提高访问性能,同时又要保证数据的时效性,建议缓存有效期的设置跟所连接的数据库的更新周期保持一致。(比如所连接的MySQL数据库会在每日的凌晨6点更新数据,则可以将该数据连接的“缓存有效期”设置为“1天”,“缓存失效点”设置为“06时00分”)

图片


3、数据连接信息的查看

已建立的数据连接会显示在数据连接列表中,除了基本信息,还可以在数据罗盘系统中查看选中的数据连接的“表信息”、“相关内容”、“操作记录”。

1)表信息

表信息会显示选中数据连接的所有数据表。数据表分为“原始表”跟“自定义表”两种类型,“原始表”指的是数据库中已存在的表,“自定义表”指的是在有赞数据罗盘内通过输入SQL建立的自定义视图(注:自定义视图只存储SQL逻辑,查询的数据不会落库存储)。另外可以设置抽取,将数据库中的表抽取至数据罗盘提供的速度更快的MPP内存数据库,关于抽取的设置跟管理,会在后续章节进行更详细的介绍,初学者暂时不需要了解此功能。

 

图片

 

点击数据表的名称,可以在弹出的窗口中预览数据表的数据。

 

图片


2)相关内容

在“相关内容”可以查看基于该数据连接建立的数据模型跟报告,点击名称可以快速跳转至对应的数据模型或报告。

 

图片

 

3)操作记录

会显示用户对该数据连接的操作记录。会记录的行为包含以下几种:添加/修改数据连接、添加/修改/删除/暂停抽取任务、添加/修改/删除自定义表。

 

图片

 

4)字段配置

字段配置支持对数据连接下表粒度的字段配置,一次配置同步至所有相关模型,提高配置效率。

 

图片

 

二、建立模型

1、新建数据模型

连接完数据后,便可以将需要的多张数据表关联成一张表,并进行需要的数据处理(诸如字段重命名、空值处理、建立数据字典、添加计算字段、创建层级等操作),建立数据模型以进行后续的数据可视化分析工作,如下图所示:

 

图片


1)在“数据源”模块,添加数据模型

 

图片


2)选择需要的数据连接,基于该连接建立数据模型

 

图片

 

3)选择需要的一张或多张数据表,若选择多张数据表,则需要关联成一张宽表

 

图片


拖入两张表时,若它们在原数据库中存在外键关联,则会自动进行关联;若无外键,系统会自动将两张表中相同名称的列设置为外键进行关联。用户也可以手动添加或修改“关联字段”。

 

图片

 

完成关联后,下方会显示宽表中的所有字段,并将字段划分为维度、度量两种类型进行展示。

 

图片


4)如果需要,可对字段进行处理,比如创建计算字段

 

图片

 

5)保存后完成数据模型的建立

 

图片

 

2、什么是维度、度量

维度:观察数据时,使用的粒度

度量:汇总的统计值

聚合方式:汇总的方式,比如求和、求平均、最大值、最小值

数据导入数据罗盘后,默认会把字符型的字段归类为维度,数值型的字段归类为度量,用户也可以手动更改字段的类型。

 

3、表关联的说明

多张数据表进行关联时,数据罗盘提供4种关联类型:

 

关联类型

说明

内关联

使用内关联来合并表时,生成的表将包含与两个表均匹配的值

左关联

使用左关联来合并表时,生成的表将包含左侧表中的所有值以及右侧表中的对应匹配项;当左侧表中的值在右侧表中没有对应匹配项时,您将在数据网格中看到 null 值

右关联

使用右关联来合并表时,生成的表将包含右侧表中的所有值以及左侧表中的对应匹配项;当右侧表中的值在左侧表中没有对应匹配项时,您将在数据网格中看到 null 值

外关联

使用完全外部关联来合并表时,生成的表将包含两个表中的所有值;当任一表中的值在另一个表中没有匹配项时,您将在数据网格中看到 null 值

 

4、跨数据连接关联表

数据罗盘支持将不同数据连接中的表进行关联,比如一张数据表来自MySQL数据库,一张数据表来自Excel文件,要将两张数据表关联成一张宽表后分析,此时需要将不同数据连接的表抽取至数据罗盘提供的MPP数据库中。

注:此功能暂时只针对付费用户开放

 

图片


还可以通过“抽取设置”对抽取任务进行更灵活的设置,比如设置“每小时自动抽取一次”或“按照日期字段进行增量抽取”(关于抽取设置的更详细的内容,将在项目管理章节进行介绍)。

 

图片


5、添加自定义SQL视图

当基于数据库(比如MySQL、Oracle)类型的数据连接建立数据模型时,可以在数据罗盘内通过SQL语句建立自定义视图。

 

图片

 

图片

 

6、将数据库的Comment内容作为字段名

在数据模型编辑界面,我们可以进行批量编辑字段和批量设置数据格式的操作。

点击[批量编辑字段],用户可以批量将别名修改为注释内容,也可以将字段说明修改为注释内容。

 

图片

 

三、数据抽取(新用户可跳过此章节,先阅读其他章节)

注:使用到抽取功能的用户才需要查阅此章节

 

图片

 

数据罗盘支持对数据表进行抽取,将表数据抽取到数据罗盘的MPP数据库中,提升查询效率。

数据罗盘支持全量抽取、增量抽取两种抽取方式。

全量抽取:每次抽取的时候将表数据全部抽取至数据罗盘的MPP数据库。

增量抽取:每次抽取只抽取相比于上次更新增加的数据。

 

关于增量抽取,需要注意的是:

1、只支持针对日期型(Date)和数值型(Int)的字段作为增量抽取的依据字段;

2、只支持对源表新增的数据做增量,如果源表中对数据有更新或删除操作,增量抽取的时候不会检测到这些变化;

我们可以在“数据源”模块,进行抽取设置。选择需要设置的数据连接后,选择表信息模块,列表中会显示该连接内所有的数据表,我们可以对需要抽取的表进行抽取设置。

图片

 

进入抽取设置界面后,允许设置抽取方式、高级设置、添加定时邮件。

针对全量抽取和增量抽取,分别提供了两种抽取方式:全量覆盖抽取/全量追加抽取;增量抽取/增量抽取(滚动覆盖)

全量覆盖抽取:每次抽取,对数据库的全部数据进行抽取,并覆盖数据罗盘MPP数据库已有的数据,如下图所示:

全量追加抽取:每次抽取,对数据库的全部数据进行抽取,并追加在数据罗盘MPP数据库中,如下图所示:

增量抽取:每次抽取,根据增量字段判断数据库中的数据是否为新增数据,对数据库的新增数据进行抽取,并追加在数据罗盘MPP数据库中,如下图所示:

注:

1、只支持针对日期型(Date)和数据型(Int)的字段做增值设置;

2、只支持对源表数据新增做增量,如果源表中对数据有更新或删除操作,增量抽取的时候不会检测到这些变化;

增量抽取(滚动覆盖):每次抽取,根据日期及滚动周期将数据库中的新增以及部分历史数据抽取到数据罗盘MPP数据库中,其中历史数据将会覆盖原数据。

 

允许添加/暂停抽取的定时任务比如下图,设置成每天00:00执行抽取任务。

 

图片

 

设置完后,点击“完成”按钮,保存你的抽取设置。

 

另外,在项目中心,可以对所有的抽取任务进行统筹管理。

 

图片