大公司如何用Apache Spark

  • 时间:2018-06-19 22:32 作者:不靠谱的猫 来源:不靠谱的猫 阅读:138
  • 扫一扫,手机访问
摘要:Spark的普通使用户案例公司严重依赖各种数据源。这使用于他们的分析产品。这些数据解决工作流程都包含像用内部数据源清除,转换和融合非结构化外部数据一样的解决。特别是当谈到成功的Startups时,Spark被证实是非常有使用的。对于非程序员来说,某些公司还创立了简单的使用户界面,这些界面打开了批量数

Spark的普通使用户案例

公司严重依赖各种数据源。这使用于他们的分析产品。这些数据解决工作流程都包含像用内部数据源清除,转换和融合非结构化外部数据一样的解决。特别是当谈到成功的Startups时,Spark被证实是非常有使用的。对于非程序员来说,某些公司还创立了简单的使用户界面,这些界面打开了批量数据解决任务。

  • 流解决

对于BDAS,最着名的组件是Spark和Shark。但Spark Streaming实时解决和PySpark Python API也在竞争中!Spark Streaming的主要特点是使用于批解决的代码也能使用于实时计算(只要稍作调整)。这是指程序员的生产力。因为这个惊人的功可以,许多公司已经开始用Spark Streaming。诸如流挖掘,分析模型的实时评分2,网络优化等应使用程序相当多。此外,CloudPhysics正在用Spark Streaming来检测模式和异常情况。值得注意的是,52%的公司更喜欢Apache Spark实时流媒体。

大公司如何用Apache Spark

  • 先进的分析

Spark有其独特的优势,总可以帮助吸引使用户。与Hadoop相比,解决迭代计算的速度和适使用性要好得多。迭代计算特别适使用于高级分析。用Spark适合公司,并且从早期开始,公司就开始编写自己的Spark库以进行回归,分类和聚类。用Spark工具和库处理现代世界问题,如在线广告和市场营销,欺诈检测以及与科学研究有关的问题。好处是,为图和机器学习分析开发这样的库变得更加容易。大约有64%的公司用Apache Spark来利使用高级分析。

  • 商业智可以和可视化分析

现在,这是任何公司最重要的方面之一。MPP数据库,开源SQL-on-Hadoop处理方案Shark和Impala正在取得牵引力3,现在公司已经开始用Shark和BlinkDB进行交互式SQL分析了!虽然许多公司都在遵循一般方法,但其中少量公司已经开发了定制的交互式仪表盘。这些由Spark和Shark提供支持。公司现在用Tableau等可视化分析工具与Shark协调一致,与静态报告和查询分析相比听起来更好。因为性可以提升,超过91%的公司用Apache Spark。

为什么大公司切换到Apache Spark?

  • YAHOO:用APACHE SPARK提前分析

雅虎已经在用Apache Spark,并且正在用Spark成功运行项目。雅虎本身就是一个网络搜索引擎,它有一个这样的项目,为完美的访问者提供完美的内容,这就是所谓的个性化。这个项目最重要的部分是机器学习算法,能识别个人访问者和他们的兴趣。这进一步有助于迎合他们喜欢阅读/观看的新闻。所以当使用户访问雅虎时,搜索引擎能确保他/她得到他/她喜欢的东西。要达到如此准确的个性化水平,需要实时解决可以力和高速度。这当然是在Apache Spark的帮助下实现的!

大公司如何用Apache Spark

  • CLEARSTORY:多个数据源

一家名为ClearStory的创业公司最近建立了一个平台,用户可以够立即将多个数据源融合在一起!它也产生交互式可视化。下面给出的图像进一步解释了它:

大公司如何用Apache Spark

在金融行业,银行正在用Spark作为Hadoop的替代方案。Spark特别使用于访问和分析社交媒体档案,电话录音,电子邮件等,这有助于他们为目标广告,用户细分和信誉风险评估做出正确的业务决策。

  • 金融机构1:零售银行和经纪业务

一家从事零售银行和经纪业务的金融机构一直在用Apache Spark,并导致其用户流失率降低了25%。该平台分为零售,银行,交易和投资。对于用户详细信息的360度视图,银行用Apache Spark作为统一层。该银行现在通过机器学习实现分析自动化。能访问每个用户存储库的数据,而后将其关联到单个用户文件。这个文件而后被转发到市场部门。

大公司如何用Apache Spark

  • 金融机构2:分析

一家金融机构用Apache Spark来分析监管文件中的文本。它还分析了其竞争对手的报告。也有助于发现有关正在发生的事情和市场竞争的模式。

  • 金融机构3:实时监测

另一家跨国金融机构已经实施了一个运行在Apache Spark和MongoDB NoSQL上的实时监控应使用程序。这些应使用程序实际上有助于银行监控用户的活动并识别问题。通过基于风险的评估,Apache Spark适使用于金融机构。

众所周知,电子商务行业发展迅速,实时信息的重要性对他们来说非常重要。这些信息能进一步传递给流式聚类算法,例如K均值聚类算法。而后将取得的结果与社交媒体资料,评论,产品评论,最近的搜索等资源结合起来。

  • ALIBABA:APACHE SPARK

正如我们大多数人所知道的,阿里巴巴是全球最大的电子商务平台。令人惊讶的是,它还运行着世界上最大的Apache Spark作业!虽然其中少量作业分析了数千PB数据,但其余作业却忙于对图像数据进行提取。阿里巴巴的每个使用户交互都显示在一个大图上,Apache Spark使用于取得准确的结果并取得快速解决。

大公司如何用Apache Spark

  • EBAY:APACHE SPARK

另一家知名的电子商务巨头eBay用Spark。它帮助eBay进行市场营销,针对特定优惠和加强用户体验。Hadoop YARN利使用eBay上的Apache Spark。YARN管理有助于运行一般任务的所有群集资源。eBay Spark使用户利使用Hadoop集群,从2000个节点到20,000个核心,以及通过YARN的100TB RAM。

  • 全部评论(0)
最新发布的资讯信息
【系统环境|】2019年web前端开发技术框架有哪些(2019-07-20 12:06)
【系统环境|】什么是Web?零基础能不能学Web前端开发?(2019-07-19 07:04)
【网页前端|HTML】为什么学Web前端?选择Web前端理由(2019-07-17 20:28)
【网页前端|JS】Java面经-百度新入职老哥整理近半年学习经验,面试刷题路线!(2019-07-16 22:16)
【网页前端|HTML】最全面的前端开发指南(2019-07-15 12:57)
【系统环境|数据库】零基础如何快速学好大数据?(2019-06-29 12:27)
【系统环境|Linux】零基础如何学好大数据?必备需要学习知识(2019-06-18 11:54)
【系统环境|】Hadoop环境中管理大数据存储八大技巧(2019-06-15 11:01)
【系统环境|服务器应用】现在国内IT行业是不是程序员过多了?(2019-06-11 06:34)
【系统环境|服务器应用】新贵 Flutter(2) 自己设置 Widget(2019-06-11 06:34)
手机二维码手机访问领取大礼包
返回顶部