租户端大数据数据分析挖掘操作指南

最佳实践

最近更新时间: 2019-11-26 15:30:16

用户身份验证：数据挖掘组件需要使用对象存储资源，因此，需要租户填写了IaaS层的AK/SK和APPID；此外，数据挖掘需要利用用户的AK/SK来验证用户身份，因此，用户需要有用户级的AK/SK才能使用数据挖掘组件的相关功能。

资源组：数据挖掘组件的相关服务需要使用CU和DCU这些计算资源，因此，在开通数据挖掘相关的项目时需要确保为数据挖掘组件创建了对应的资源组，并分配了足够的资源配额。

数据权限：数据挖掘组件可以从数据管理获取元数据，并通过数据服务或SparkMagic读取相关的数据，用户想要使用相关的数据表，需要先在数据管理申请相应的权限。

实时推理服务：数据挖掘组件提供两种推理服务：批量推理和实时推理，批量推理用于解决对时间不敏感（通常需要消耗为几分钟甚至几小时），一次接受的样本量（通常是几万甚至几百万）较大的情况，产出的结果是一个结果名单；实时推理服务用于应对对时间延迟很敏感（通常要求亚秒级的响应），一次推理一个样本。在实时推理场景下，需要依赖API网关对应用调用进行鉴权。

CU/DCU资源申请：数据挖掘组件需要使用CU/DCU这些计算资源来进行模型训练以及对外提供推理服务。对于一个5人左右小团队来说，20CU/DCU左右可以应对一般的工作负荷，如果工作负荷较多可以适当增加CU/DCU配额。DCU是数据挖掘组件的基础计算资源，是K8S相关计算资源的配额，而CU是yarn相关计算资源的配额，只有当需要使用Spark框架运行相关计算任务时才需要申请。