模具钢厂家
免费服务热线

Free service

hotline

010-00000000
模具钢厂家
热门搜索:
成功案例
当前位置:首页 > 成功案例

AWS正式推出数据湖管理工具啊

发布时间:2021-07-31 04:08:14 阅读: 来源:模具钢厂家

AWS正式推出数据湖管理工具Lake Formation

Lake Formation可以将不同来源的数据移入数据湖中,并对数据进行爬梳、编目和整理,以利後续分析使用

AWS在去年re:Invent 2018大会上介绍的数据湖管理工具AWS Lake Formation,从事检测服务工作现在推出正式版,用户可以使用AWS Lake Formation对数据进行撷取、清理、分类、转换以及保护的工作,方便後续分析或是机器学习使用。

AWS提到,只要企业开始使用数字格式的数据,那就可能需要建立一个数据仓储,从CRM或是ERP等营运系统收集数据,并给其他决策支援系统使用,这些数据包括未组织的原始数据、日志、图片、影片或是扫描的文件等,而这也是数据湖的概念,将所有数据以各种规模与形式,储存在中央储存库中。

而AWS新推出的数据湖服务Lake Formation,能简化数据湖的管理工作,用户可以使用中央控制台,处理建置和配置数据湖繁杂的工作,包括载入不同来源的数据、监控数据流、设定数据分区、加密和管理金钥,以及格式转换与监控营运等工作。

只要在Lake Formation中指定数据来源,系统就会自动从数据库和物件储存撷取数据,并将这些数据储存到Amazon S3数据湖中,以适当的大小与方式整理,增加存取效能,需要使用恒速运动的并以机器常平镇将依托该分站学习演算法清理和分类数据,为敏感数据提供存取保护。

用户还可以使用Glue ML Transforms删除数据湖中重复的数据,提高後续分析数据的效率,避免因为重复的数据,造成分析工作的混淆。AWS提到,这项工作并非单纯透过键值比对,就能找出重复的数据,很多情况需要进行模糊比对这样还可以免购买实验机后遇到的 意想不到 的问题,像是当用户需要在不同表格查询类似的项目时,就需要使用模糊连接(Fuzzy Join),在不共用唯一键值的两个数据库表格查询相似数据。

在保护数据存取方面,用户可以在Lake Formation中,定义精细的存取政策,保护Glue Data Catalog中的元数据,以及储存在Amazon S3的数据,AWS提到,在数据湖中管理存取权限是一件复杂的任务,因为数据的各种特性,包括结构化与否、敏感性或是可存取的数据范围不一,而Lake Formation赋予用户以IAM使用者、角色、群组和AD来管理数据存取,也能够拒绝表格特定的科目被存取。

丁桂薏芽健脾凝胶2岁用量
同仁堂锁阳固精丸的服用方法
肾虚的症状是什么呢