星环科技孙元浩:用自研框架取代Hadoop,加速实现基础软件国产化替代数字观察

   2019年将近尾声,谈到截止目前,2019年星环科技所取得成绩,创始人孙元浩做了一些简单的总结。

  

  “第一,从产品线来说,从2017年开始,星环科技已经基本确定三条产品线,大数据产品是主要产品线,而人工智能机器学习平台和容器的智能大数据云平台,是围绕客户在使用大数据基础软件的基础需求上,对AI建模、容器编排等需求延展的产品线。

  同时,大数据产品线坚持自主研发,技术上不断更新迭代,应用范围越来越广,成功取代了Teradata或者Cloudera、IBM等国外厂商,有一些比较典型的客户案例落地。

  其次,伴随着产品更新,星环科技的客户群体也不断扩张,已覆盖金融、政府、能源、交通、教育、制造业、运营商、传媒等二十多个行业,其中,财政部、国家邮政局、国家商标局、中国人民银行、国泰君安、招商证券、中国邮政、中国石油、广州供电局等都是星环的标杆客户。

  总的来说,2019年我们在技术产品上有比较大的突破,让整个公司的发展到了一个新的里程碑阶段。在品牌推广和市场占有上,我们会继续努力。”

  星环科技成立于2013年,总部位于上海,定位于提供大数据和人工智能的技术平台。创始人孙元浩任英特尔亚太研发有限公司数据中心软件部CTO,在2009年带领团队研究Hadoop于2011年发布了英特尔Hadoop发行版。随着大数据概念的兴起,越来越多的人知道了Hadoop这款专门处理大数据的软件。

  2013年,孙元浩带领创始团队成立星环科技。

  值得一提的,2019年10月星环科技完成5亿D2轮融资,这距星环D1轮融资后,仅仅半年多的时间。同时,星环科技也入选i黑马&数字观察发布《产业互联网产业独角兽》榜单里的硬独角兽称号。

  大数据进入3.0时期

  是人工智能、大数据与云计算融合阶段

  我们知道,自计算机诞生以来,信息技术潜移默化的影响着人类生活的方方面面。尤其是近十余年来,大数据、人工智能、云计算等技术蓬勃发展,让人们的生活方式每隔几年就产生天翻地覆的改变。

  这时候,企业每天产生的数据量正呈爆炸式增长,面临海量的数据,传统数据库的IT架构和处理技术已经逐渐无法适应巨大的数据处理需求。如果按照传统方式,数据量的存储和处理将耗费大量的时间和硬件成本。

  在孙元浩看来,目前,大数据已经进入3.0时代,随着技术不断延伸发展,大数据、人工智能与云计算的边界越来越模糊,三类技术不断互相影响与融合。

  “我们指的大数据3.0是从技术角度来分类的,大数据技术可以分为三代。星环科技成立之初,正处在大数据1.0的阶段,大部分公司都是使用开源的软件,用API去开发编程。这样带来的问题是,产品受限,而且只有大公司才有玩转大数据的能力。

  大数据2.0时代是一个百花争鸣的时代,更多的玩家参与到了技术角逐中,诞生了很多全新的技术,能解决更多业务场景下的实际问题。

  从2017年起,结构化数据的处理问题已经基本解决,人们开始把关注焦点转到了非结构化数据处理上面,特别是图像、视频、语音、文本的处理。这时期人们将此前在非结构化数据表现出众的深度学习技术与大数据技术相结合,大数据技术开始进入3.0时代。”

  孙元浩告诉i黑马&数字观察,大数据3.0时期的技术首先要具备四个统一:第一,统一融合的数据平台,取代混合架构。

  目前的企业数据业务架构中,往往需要包含数据湖、数据仓库、数据集市、综合搜索等不同数据业务系统,很多企业采用复杂的混合架构,不仅产生庞大的数据冗余,也严重限制了数据应用的时效性。新的大数据平台需要能一站式的满足所有需求,解决大数据的4-V需求,应对从快速响应到海量分析的各层级需求,淘汰混合架构的模式。

  第二,统一的开放接口。据悉,SQL作为经过历史检验的结构化查询语言,具有庞大的用户群和灵活性,开发人员无需了解架构细节就能高效开发应用,而以往通过API开发的方式存在应用兼容性差、开发难度高等问题。

  新一代大数据平台需要使用SQL来支持全部功能,包括数据仓库、OLTP数据库、搜索引擎、实时计算、时空数据库等,降低开发者门槛,加快产品开发与上线速度。

  第三,统一的管理和调配。云计算的弹性和随处接入可以让更多的数据业务和开发者使用大数据技术,因此新的大数据技术需要能够提供云化的能力。

  在硬件层面上,大数据平台对CPU、GPU、网络、存储等资源进行统一管理和调配,基于容器技术实现云上的大数据应用统一部署,平台租户按需申请大数据的技术和产品。此外云化可以极大的降低运维成本,使得单单一个团队就可以同时运维很多的大数据系统软件。

  第四,统一的数据仓库与数据资产的管理。数据业务化是大数据技术最终的价值体现,而在新的架构设计上,星环科技也把这个要素作为重要的设计考量点。

  在数据层面上,平台所有数据统一存储,建立统一的数据仓库与数据资产目录,再根据应用场景传输至不同数据集市中,各业务部门根据需求调用,打通数据孤岛,提升数据质量,转化数据价值。

  在模型层,通过建立模型市场,租户训练好的模型可以选择一键发布至模型市场,其他租户无需重复训练,直接调用。

  在应用层,平台内用户可将业务验证过的应用发布至企业级应用市场,共享给其他用户,所有运行的应用被统一管理。

  其次,大数据3.0时期的技术本质是融合。随着时间和业务不断的发展,人们提出了新的需求,是否能将大数据这种分布式的架构部署在云平台上,更好的实现数据共享,解决数据孤岛和烟囱开发等难题。

  所以,在大数据3.0时代,大数据技术、人工智能技术、云计算技术开始融合,融合在一个平台中,满足企业客户各种不同层次的大数据需求。

  简单来说,大数据技术,解决了深度学习计算力和训练数据量的问题,开始产生巨大的生产价值。同时,大数据技术通过将传统机器学习算法分布式实现,向人工智能领域延伸。

  此外,随着数据不断汇聚在一个平台,通过容器技术,在容器云平台上构建大数据与人工智能基础公共能力,将人工智能、大数据与云计算进行融合。

  “伴随着大数据3.0的出现,大数据的新的基础架构开始出现,要实现上面提到的四个统一:统一的编程语言或者操作语言,统一的计算引擎,统一的存储管理系统,统一的资源调度系统,和一个不同,即不同的数据模型。

  总体来说,大数据3.0阶段,统一和融合是主旋律。”

  围绕上述思路,在大数据3.0时代,产业趋势出现变化,而星环科技的业务模式,也将会出现变化。

  根据孙元浩介绍,星环科技的具体的做法是:

  第一,建立统一的数据的平台,将大数据技术和人工智能技术融汇起来,也可以依赖智能化的方式来梳理数据,并保证数据质量。2018年星环科技发布的新一代智能大数据云平台TDC,践行了大数据、人工智能与云计算的融合趋势,推动服务容器化以及大数据生态上云。

  第二,建模型生态、应用生态。星环科技认为,必须要有标准的接口才能形成生态,星环科技的大数据平台提供SQL、R和Python三种语言,用户和生态伙伴就不必关心底层使用哪种引擎实现,就可以极大程度的降低开发成本。

  其三,通过云化的PaaS层提供开发平台,用户无需关注底层细节,让服务随处可用。过去,当客户需要去用大数据服务的时候,先要立项,再找厂商走流程,初次获取成本高,需要构建团队,而且经常采用烟囱式的开发。

  星环科技希望的是,服务可以立马可用,不管是做数据、提供数据、分析数据,还是做开发模型的人,都能够找到他期望的工作平台和工作方式。

  那么,对于星环科技来说,如何才能形成这种四个统一、一个不同的呢?

  自研框架取代Hadoop

  想要加速实现基础软件国产化替代

  i黑马&数字观察了解到,从2013年公司成立到现在,星环科技这6年主要经历三个发展阶段。上文提到,最初星环科技的产品主要是基于Hadoop和Spark实现的,星环科技抱着想让更多客户享有大数据能力的想法,专注在大数据的数据库化上。

  

  “2013-2014年,星环科技还属于基于开源技术,做产品化探索阶段,当时还是以纯大数据为主,提供分析型数据库产品。”

  到了2014年,星环科技进入第二个阶段。但随着星环科技的产品和业务不断发展,Hadoop在技术和商业方面的局限性慢慢凸显出来。

  星环科技的业务想围绕基础软件这一层,继续往上走。Hadoop是最底层,再往上还有很多工作,开源软件是无法做好这部分内容,特别是针对企业级服务市场。

  但是Hadoop起源于互联网公司,存在很多优点:处理数据量很大,支持非结构化数据,海量存储而且成本很低。

  而对于服务企业级市场,开源软件在应用上存在很多不足。例如,银行的数据分析有三十几个模块,这些模块都是基于Oracle或者是IBM的数据库,可能涉及几十万行代码,将这些都改成与Hadoop接口相适应的程序是不现实的。而且开源的Hadoop最开始都没有一个图形化的界面,都是以命令行来操作的。

  上述这些都制约了Hadoop在企业级市场的发展,但是企业级客户又很看好这种软件的未来。

  另一方面,孙元浩指出,Hadoop作为基础框架,其设计需要结合硬件情况,而Hadoop是基于15年前的技术环境设计的,是低速硬盘,低速网络时代。

  如今的硬件技术环境发生根本性变化,网络普及万兆,存储每秒钟能够做上百万次操作,当时的架构已经完全跟不上硬件的发展。

  其次,从企业应用需求的角度来看,Hadoop软件是仿造谷歌的系统来构建的,最初的目标是用于互联网公司的日志处理和营销推广等场景。

  当Hadoop技术应用到各行各业时,就发现它在功能缺失、一致性和可靠性、高性能并发等问题上的局限性,无法突破,甚至有分析机构说Hadoop技术已死。

  “例如,过去我们企业做交互分析时候,数据量一个TB就够了,尤其是在美国,数据量基本是100G就足够支撑企业的交互分析需求,这也促使美国的基础软件服务商没有动力去开发高度可扩展的引擎。

  但在中国的情况不太一样,随着移动化、大数据、云计算、物联网、人工智能的发展,多重技术浪潮叠加发展,促使中国企业的数据量呈现爆发式增长,像运营商或者金融行业,终端客户都是to C的,客户群体很大,数据量也很大,动辄几百个TB,传统的Hadoop技术根本支撑不了,传统的大数据引擎产品也满足不了客户需求。

  不仅是并发量承载的问题,资源隔离、资源调度等问题,传统的Hadoop也存在很大的问题。在这种环境下,我们如果想活下去,满足客户的需求,就必须有绝招,像我们这样的创业公司,没有背景没事,可以拼技术,所以我们从2015年开始研发闭源基础架构。”

  依托于星环科技的创始团队技术基因浓厚,本身就擅长研发,还具有丰富的框架设计和开发经验,慎重考虑后,选择了完全脱离Hadoop框架,从2015年开始,星环科技的团队开始重新设计研发自己的大数据处理框架。目的是想把将之前传统的底层框架都替换掉。

  据悉,星环科技重构一个五层架构,脱离了原来架构,更容易在技术上突破,如在分析数据库,星环科技远远甩开了国外的大数据厂商,也超过了传统数据库厂商。在一些数据技术上面,星环科技可以把批处理与事件驱动的流处理融合,实现了别人难以实现的技术突破。

  

  到了2017年,星环科技不但把引擎和资源调度器给彻底改造了,还把AI的产品独立出来。“如果说前几年还是在产品形态探索阶段,那么这两年基本确定我们的产品方向,继而重点研发自己的技术架构。

  同时,2014年之后也是我们商业化探索阶段,已经打磨出一些标杆性客户。到了2015年是星环科技真正商业化落地阶段,拓展市场。”而2017年到现在,是星环科技规模化增长的阶段,开始在市场宣传和销售方面进行投入。”

  在谈到从开源到闭源自主框架研发的难点与挑战,孙元浩表示,“早些时候星环科技要坚持自己的技术路线,需要和Hadoop技术路线兼容,很多企业客户看到我们不用Hadoop技术,就不敢用,所以我们需要花很多时间和精力,研究产品的兼容性。

  其次,即使很多客户想用我们自研产品,也不敢轻易完全替换Hadoop,需要长时间的测试和验证,同类产品反复对比。所以,我们都是从很简单的基础应用部分开始替换,让客户慢慢接受,然后我们开始在更多的应用上替换。”

  覆盖ABC三大领域

  为头部企业提供一站式基础软件平台

  经过多年发展,星环科技实现了AI、大数据、云计算的融合,充分发挥大数据平台的多年积累和技术优势,完善人工智能平台建设,并推出新一代智能大数据云平台。

  首先,星环科技打造的一站式大数据平台Transwarp Data Hub ( TDH ),这是一站式的企业级大数据平台,也是核心的产品。

  据悉,TDH主要提供5类核心产品:分析型数据库(Transwarp Inceptor和Transwarp ArgoDB),实时流计算引擎(Transwarp Slipstream),知识库(Transwarp Search和Transwarp StellarDB),操作型数据库(Transwarp Hyperbase),数据科学平台(Transwarp Discover)。通过部署、安装、使用TDH,企业能够更有效的利用数据构建核心商业系统,加速商业创新。

  其次,星环科技还把机器学习的建模平台给分离出来,形成一个独立产品线智子人工智能平台Transwarp Sophon。平台对应有四种不同的引擎,包括统计、机器学习、深度学习还有图的分析引擎,在其上提供交互式的建模工具。

  在原有产品基础上,星环科技所有产品实现了容器化部署,,将应用、数据、模型统一化,可以提供IT所需要的基础设施、中间件、PaaS平台包括应用hosting。

  这样在产品布局上,星环科技的三大产品线覆盖ABC三大领域。可以满足各种不同层次的大数据需求,解决了深度学习计算力和训练数据量的问题,开始产生巨大的生产价值。

  同时,大数据技术通过将传统机器学习算法分布式实现,向人工智能领域延伸;此外,随着数据不断汇聚在一个平台,通过容器技术,在容器云平台上构建大数据与人工智能基础公共能力,将人工智能、大数据与云计算进行融合。

  目前,星环科技的产品覆盖了20多个行业,金融、政府、能源、交通、制造、教育这些行业都有覆盖到,客户数量也是在快速增长,细分行业的市场份额超过70%。

  针对星环科技去Hadoop,自研技术架构,i黑马&数字观察也询问了不少技术型投资人以及相关技术专家,有疑问是可能性是有,但是生态如何建立?

  其实星环科技早就开始生态建设,今年,星环科技提出坚持“平台+生态”规模化发展战略,构建“数据驱动”的大生态。此次融资后也会在生态上加大投入,推动更多行业深入使用大数据、AI和云计算技术,着力推进与生态伙伴的合作深度与广度,打造全新的生态体系。

  “一个公司要想独立发展,要能够基业长青,就不能建立在别人的成果基础上,一定要自己创造出来,创新的东西才能保持公司的长期存在。具有前瞻性的技术引领者一向是会面对很多质疑的,但时间会给出证明。我也坚信,星环科技会成为世界级的伟大的基础软件公司,我们也在不断为此努力。”孙元浩针对外界疑问回应到。

相关产品

评论