缺乏统一的标准就像脱轨的火车一样威胁着大数据创新

古越龙魂 2 数据分析师
       

       创新在实时的大数据技术时代蓬勃发展,可是这同样也产生了问题。

       大数据也意味着更大的竞争。正如在每个不同摊位层的销售商一样,很多公司在不断发展的大数据架构中想争取自己的一席之地。至今最火的竞争领域之一可能就是在系统数据移动逻辑后端。对大多数企业来说,在大数据中的大与其说是数据总量,还不如说关于在实时缓慢处理数据中对处理速度的需求。因此,这就驱动了mapruduce转向apache spark。企业从长远的发展看到了批量处理流数据的重要性。所以很多企业很想了解最新的驱动流数据更新技术的动态。

       关于在后端系统中调整数据有什么新的变化?

       移动的基本原理是我们已经从静止数据转向了移动数据。数据以前是线下的,现在,它变成线上的。

       大数据的第一阶段依旧是静止数据,在HDFS或其他相似的系统中存储大量的数据,然后你在线下会花费大量的时间去批量处理数据。

       在第二阶段,我们看到在对移动数据实时反映方面的需求——捕捉实时的数据,然后处理数据,最后在几秒钟内甚至更少的时间内向运转系统反馈结果。这样的需求已经越来越重要。这样子就形成了混合结构,就像LAMBDA体系结构,一共有2层,速度层和批次层,在速度层实时处理的结果与批次层合并的较晚。他解决了对数据快速反应的迫切需求。但同时你要给数据建立2个独立的模型和数据处理通道,在最后还要进行合并。这样子做的话,就增加了不必要的复杂性。

       我相信在第三阶段,我们已经看到了它正在发生,完全包含了移动数据并且对大多数使用情况和数据大小而言,正从传统批量导向结构移向纯粹的流处理结构。

       这种变化要求新的工具和技术并且经常增加硬件的成本,工具依旧要使用,其结果就是系统变得更响应,更适合,且更有弹力和可扩展性,但是随着复杂性的降低,让他们更简单来使更容易理解。这样的好处是,在今天市场竞争中必不可少的,在大多数情况,有值得潜在的附加价值。(我们也知道硬件一年一年正在越来越便宜。)
另外一个大的改变就是我们今天所看到的是应用程序自身必须处理数据流内外的逻辑问题,我们正在以安全平台为目标。如今这很关键,在应用软件范围内处理流数据会在竞争中变得更好,而目前的问题是单点故障,体统超载,和不可预测的性能保证。

       流数据结构用在应用软件层我们能获得什么好处?

       现在,实际上我们用有效的工具让我们很快的去改变用户的模式同时改变我们正在使用的应用程序。这也许可能就是决定性的商业数据,它同样也可以用于对计算机检查的流,也用于提示了应用程序怎么处理负载。这是很大的一块宝库,直接以数据为生同时返回到系统上持续反馈给系统,通过这样子的方法使自己适用用户和性能模式。
这不是数据的量有多少——大不是那么令人关注的——而是能够快速反应并且改变用户,同时执行数据。

       关于AKKA流和typesafe在应用程序中简化不同的数据流的进度?

       AKKA流允许开发人员来定义流处理过程图作为阶段式的计算,所谓的蓝图就是那些能被储存,重组,重复使用的东西。它减弱了怎么样做和做什么,通过其中的一个引擎允许开发者去实现蓝图或者计划。这样就能被单独穿过,平行或者分布。
       
       这解决了应用程序通过不同的流端点去捕捉数据来参与流结构的工作流程。解决了工作流程,产生新的输出,同时串接在一起把这些流做成图形。就像乐高积木一样。它也提供了大量预先计划好的流转换,来处理,裂开,转移,合并任务的问题。我们很兴奋地看到带来一些简化和舒适的模型的行为,如果你在给流写应用程序它反而从其他方面来说是很复杂的不可预测的。

       在流移动中有什么创新发生,有那些参与者?

       成为一名系统架构师现在是一个很好地时机,因为在每个水平选择的多样性是很大,但是也非常迷惑因为一个消费者是基于所有的选择和事情的进展率。

       有大量的创新在分布式真实时间处理交叉群集,就像INTEL的齿轮泵,LINDEDLN的SAMZA,雅虎的S4, TWITTER的APACHE  storm 和谷歌的MILLWHEEL。

       反应式兼容性资源器流正在激增,像AKKA流,像SPARK流是为了在摄取数据到APACHE SPARK(通过微批量),还有针对驱动大多数NOSQL数据库流,像Cassandra,Riak,MongoDB,Membas;也有针对SQL的流,像Typesafe's Slick.

       典型复杂的处理流(CEP)工具像Esper and Oracle CEP,在很低的潜伏因素周围,还有大量令人关注的事情都发生在高频率的交易(HFT)。就像超消息和AERO 产品。

       随着流系统的发展,我们看到避免孤立,单一的失败和争论的重要性。这就反应了流说明的重要性,我们的希望是每个在流生态系统中的参与者能靠拢这个标准——联合关键事物,NETFLIX,RED HAT,TWITTER,TYPESAFE和ORECAL--任何一个流系统有了一样基础的互用性和处理最普遍反压力挑战的保证。确保一个单独的不好的链接流结果不能让整个系统倒下。

       在流时代销售商会有更大的竞争,但在他们最难得问题上会有更大的合作,如今大多数产品都很公开发展,正如真正开源的项目,很多热情的成员通过合作和真实世界的需求驱动着创新,这样才能使成功的机会最大化。

       原文作者:Matt Asay    本译文在原文基础上有所改动
       本译文由CDA数据分析研究院翻译,译者:旭尧
文章为作者独立观点,不代表经管之家立场

2

要评论?请先注册或者登录,可用人大经济论坛帐号登录。

zd0901
学习了学习了学习了!!
cqhcj2002
大数据创新。学习了!!!
^