数据软件有哪些(大数据软件和分析工具)

数据分析是对数据进行摄取、转换和可视化的过程,用来发掘对业务决策有用的洞见。

在过去的十年中,越来越多的数据被收集,客户希望从数据中获得更有价值的洞见。他们还希望能在最短的时间内(甚至实时地)获得这种洞见。他们希望有更多的临时查询以便回答更多的业务问题。为了回答这些问题,客户需要更强大、更高效的系统。

批处理通常涉及查询大量的冷数据。在批处理中,可能需要几个小时才能获得业务问题的答案。例如,你可能会使用批处理在月底生成账单报告。

实时的流处理通常涉及查询少量的热数据,只需要很短的时间就可以得到答案。例如,基于MapReduce的系统(如Hadoop)就是支持批处理作业类型的平台。数据仓库是支持查询引擎类型的平台。

流数据处理需要摄取数据序列,并根据每条数据记录进行增量更新。通常,它们摄取连续产生的数据流,如计量数据、监控数据、审计日志、调试日志、网站点击流以及设备、人员和商品的位置跟踪事件。

图13-6展示了使用AWS云技术栈处理、转换并可视化数据的数据湖流水线。

数据软件有哪些(大数据软件和分析工具)

▲图13-6 使用数据湖ETL流水线处理数据

在这里,ETL流水线使用Amazon Athena对存储在Amazon S3中的数据进行临时查询。从各种数据源(例如,Web应用服务器)摄取的数据会生成日志文件,并持久保存在S3。然后,这些文件将被Amazon Elastic MapReduce(EMR)转换和清洗成产生洞见所需的形式并加载到Amazon S3。

用COPY命令将这些转换后的文件加载到Amazon Redshift,并使用Amazon QuickSight进行可视化。使用Amazon Athena,你可以在数据存储时直接从Amazon S3中查询,也可以在数据转换后查询(从聚合后的数据集)。你可以在Amazon QuickSight中对数据进行可视化,也可以在不改变现有数据流程的情况下轻松查询这些文件。

以下是一些最流行的可以帮助你对海量数据进行转换和处理的数据处理技术:

01 Apache Hadoop

数据软件有哪些(大数据软件和分析工具)

Apache Hadoop使用分布式处理架构,将任务分发到服务器集群上进行处理。分发到集群服务器上的每一项任务都可以在任意一台服务器上运行或重新运行。集群服务器通常使用HDFS将数据存储到本地进行处理。

在Hadoop框架中,Hadoop将大的作业分割成离散的任务,并行处理。它能在数量庞大的Hadoop集群中实现大规模的伸缩性。它还设计了容错功能,每个工作节点都会定期向主节点报告自己的状态,主节点可以将工作负载从没有积极响应的集群重新分配出去。

Hadoop最常用的框架有Hive、Presto、Pig和Spark。

02 Apache Spark

数据软件有哪些(大数据软件和分析工具)

Apache Spark是一个内存处理框架。Apache Spark是一个大规模并行处理系统,它有不同的执行器,可以将Spark作业拆分,并行执行任务。为了提高作业的并行度,可以在集群中增加节点。Spark支持批处理、交互式和流式数据源。

Spark在作业执行过程中的所有阶段都使用有向无环图(Directed Acyclic Graph,DAG)。DAG可以跟踪作业过程中数据的转换或数据沿袭情况,并将DataFrames存储在内存中,有效地最小化I/O。Spark还具有分区感知功能,以避免网络密集型的数据改组。

03 Hadoop用户体验

Hadoop用户体验(Hadoop User Experience,HUE)使你能够通过基于浏览器的用户界面而不是命令行在集群上进行查询并运行脚本。

HUE在用户界面中提供了最常见的Hadoop组件。它可以基于浏览器查看和跟踪Hadoop操作。多个用户可以登录HUE的门户访问集群,管理员可以手动或通过LDAP、PAM、SPNEGO、OpenID、OAuth和SAML2认证管理访问。HUE允许你实时查看日志,并提供一个元存储管理器来操作Hive元存储内容。

04 Pig

数据软件有哪些(大数据软件和分析工具)

Pig通常用于处理大量的原始数据,然后再以结构化格式(SQL表)存储。Pig适用于ETL操作,如数据验证、数据加载、数据转换,以及以多种格式组合来自多个来源的数据。除了ETL,Pig还支持关系操作,如嵌套数据、连接和分组。

Pig脚本可以使用非结构化和半结构化数据(如Web服务器日志或点击流日志)作为输入。相比之下,Hive总是要求输入数据满足一定模式。Pig的Latin脚本包含关于如何过滤、分组和连接数据的指令,但Pig并不打算成为一种查询语言。Hive更适合查询数据。Pig脚本根据Pig Latin语言的指令,编译并运行以转换数据。

05 Hive

数据软件有哪些(大数据软件和分析工具)

Hive是一个开源的数据仓库和查询包,运行在Hadoop集群之上。SQL是一项非常常见的技能,它可以帮助团队轻松过渡到大数据世界。

Hive使用了一种类似于SQL的语言,叫作Hive Query语言(Hive Query Language,HQL),这使得在Hadoop系统中查询和处理数据变得非常容易。Hive抽象了用Java等编码语言编写程序来执行分析作业的复杂性。

06 Presto

Presto是一个类似Hive的查询引擎,但它的速度更快。它支持ANSI SQL标准,该标准很容易学习,也是最流行的技能集。Presto支持复杂的查询、连接和聚合功能。

与Hive或MapReduce不同,Presto在内存中执行查询,减少了延迟,提高了查询性能。在选择Presto的服务器容量时需要小心,因为它需要有足够的内存。内存溢出时,Presto作业将重新启动。

07 HBase

数据软件有哪些(大数据软件和分析工具)

HBase是作为开源Hadoop项目的一部分开发的NoSQL数据库。HBase运行在HDFS上,为Hadoop生态系统提供非关系型数据库。HBase有助于将大量数据压缩并以列式格式存储。同时,它还提供了快速查找功能,因为其中很大一部分数据被缓存在内存中,集群实例存储也同时在使用。

08 Apache Zeppelin

Apache Zeppelin是一个建立在Hadoop系统之上的用于数据分析的基于Web的编辑器,又被称为Zeppelin Notebook。它的后台语言使用了解释器的概念,允许任何语言接入Zeppelin。Apache Zeppelin包括一些基本的图表和透视图。它非常灵活,任何语言后台的任何输出结果都可以被识别和可视化。

09 Ganglia

Ganglia是一个Hadoop集群监控工具。但是,你需要在启动时在集群上安装Ganglia。Ganglia UI运行在主节点上,你可以通过SSH访问主节点。Ganglia是一个开源项目,旨在监控集群而不影响其性能。Ganglia可以帮助检查集群中各个服务器的性能以及集群整体的性能。

10 JupyterHub

JupyterHub是一个多用户的Jupyter Notebook。Jupyter Notebook是数据科学家进行数据工程和ML的最流行的工具之一。JupyterHub服务器为每个用户提供基于Web的Jupyter Notebook IDE。多个用户可以同时使用他们的Jupyter Notebook来编写和执行代码,从而进行探索性数据分析。

11 Amazon Athena

数据软件有哪些(大数据软件和分析工具)

Amazon Athena是一个交互式查询服务,它使用标准ANSI SQL语法在Amazon S3对象存储上运行查询。Amazon Athena建立在Presto之上,并扩展了作为托管服务的临时查询功能。Amazon Athena元数据存储与Hive元数据存储的工作方式相同,因此你可以在Amazon Athena中使用与Hive元数据存储相同的DDL语句。

Athena是一个无服务器的托管服务,这意味着所有的基础设施和软件运维都由AWS负责,你可以直接在Athena的基于Web的编辑器中执行查询。

12 Amazon Elastic MapReduce

Amazon Elastic MapReduce(EMR)本质上是云上的Hadoop。你可以使用EMR来发挥Hadoop框架与AWS云的强大功能。EMR支持所有最流行的开源框架,包括Apache Spark、Hive、Pig、Presto、Impala、HBase等。

EMR提供了解耦的计算和存储,这意味着不必让大型的Hadoop集群持续运转,你可以执行数据转换并将结果加载到持久化的Amazon S3存储中,然后关闭服务器。EMR提供了自动伸缩功能,为你节省了安装和更新服务器的各种软件的管理开销。

13 AWS Glue

AWS Glue是一个托管的ETL服务,它有助于实现数据处理、登记和机器学习转换以查找重复记录。AWS Glue数据目录与Hive数据目录兼容,并在各种数据源(包括关系型数据库、NoSQL和文件)间提供集中的元数据存储库。

AWS Glue建立在Spark集群之上,并将ETL作为一项托管服务提供。AWS Glue可为常见的用例生成PySpark和Scala代码,因此不需要从头开始编写ETL代码。

Glue作业授权功能可处理作业中的任何错误,并提供日志以了解底层权限或数据格式问题。Glue提供了工作流,通过简单的拖放功能帮助你建立自动化的数据流水线。

小结

数据分析和处理是一个庞大的主题,值得单独写一本书。本文概括地介绍了数据处理的流行工具。还有更多的专有和开源工具可供选择。

秒鲨号所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈!本站将在三个工作日内改正。
(0)

大家都在看

  • 身份证丢失补办要多久(身份证掉了补办很麻烦吗)

    刚放暑假的时候回来的时候,就不小心把身份证给弄丢了,我慌了,找了很久都没有找到,我不断地在回忆这个身份证到底是怎么丢掉的,从头到尾,我想了很久,最终确定是坐完火车回来就丢了,应该是…

    2022年6月8日 投稿
  • 苹果6s悬浮球怎么设置(苹果6s悬浮球怎么设置返回)

    网友今天又来给我秀战果了。 这位网友非常乐意和卖家周璇,而且他买手机有一个特点,就要货到付款,而且要求开箱验机。 今天网友又送上捷报,她说在某鱼899元买了一款iPhone6sPl…

    2022年5月28日 投稿
  • 营业执照怎么注销(怎么注销营业执照)

    营业执照是非常重要的行政文件,在创业开公司的时候,就必须要有营业执照才可以的,公司倒闭或营业执照不用了可以进行注销,而且还可以在网上申请注销,那么网上申请注销营业执照,营业执照注销…

    2022年6月20日 投稿
  • 排行榜英文(打游戏歌曲排行榜英文)

    泰国头条新闻社讯 据泰媒报道,近日全球知名英语培训机构英孚教育公布了全球100国英语水平指数排行榜,榜单显示,荷兰以652的高分夺得排行榜第一名,也就是英语水平最高国家。其次是丹麦…

    2022年6月7日
  • 本田新款suv(本田新出的suv叫什么)

    6月20日,广汽本田e:NP1极湃1正式上市,新车共推出4款车型,售价区间为17.5-21.8万元。极湃1基于本田Architecture F纯电平台打造,外观造型与海外版缤智相似…

    2022年6月21日 投稿
  • 四十年产权房子利弊(四十年产权到期拆了怎么赔)

    一般来说,房屋的产权年限有50年和70年的,也有40年的,对于40年这类房子相信大多数的人都是了解得比较少的。下面我们来一起了解一下吧。 1、 房子的土地使用权,是指单位或者个人依…

    2022年4月9日
  • 华为荣耀怎么录屏(荣耀手机怎么录屏)

    有用过荣耀手机的朋友应该都知道,荣耀手机有很多的实用功能。比如说单指关节双击截屏、智慧多窗功能、色彩校正等等,不过今天小编要讲的是一个比较小众的功能【屏幕录制】,不知道你是否有用过…

    2022年5月31日 投稿
  • 5000元创业做什么好(5000元怎么样创业)

    摘要:现在越来越多的人想要自己创业,可是自己创业也要找对合适的项目才能赚钱,下面我给大家分享十个低投资高回报的创业项目:①特色地摊,摆地摊能赚大钱,而且没有什么技巧,只要你卖的货足…

    2022年6月6日 投稿
  • 社保卡可以办几张(换工作跨省了社保怎么办)

    实体社保卡知识问答 哪些人可以办理社保卡? 目前有在职职工社保,城市个人自由职业的可办灵活就业社保,无业一老一小城市户口的可在街道上城镇居民社保,农户没工作的可在上农民社保,已经步…

    2022年4月4日
  • 哈弗h9多少钱(哈弗h9全款多少钱)

    22万提了辆哈弗H9,开了8700公里,车主一肚子话要说。大家好!我是哈弗H9车主,来自绵阳,我提的车型是”2022款 2.0T 汽油四驱舒适型 7座”,购车价22万,开了8700…

    2022年4月20日 投稿
品牌推广 在线咨询
返回顶部