新一代数据库「偶数」获红杉中国、红点中国投资,开源技术商业化是个好方向
0
0
偶数是一家算法公司。算法不断迭代,就能让数据库提升更快的效率。“偶数”成立于2016年底,是一个基于HAWQ的新一代数据库项目,目前团队在30人。今年4月份公司获得红点中国的天使轮投资,又于近期完成了红杉中国领投、红点中国跟投的A轮融资,两轮共计数千万元。我们先来看一下数据库的发展历程。数据库承担的功能是存储和计算,可分为交易型OLTP(on-line transaction processing)、分析型OLAP(On-Line Analytical Processing)两类:交易型OLTP是最稳定的,主要是针对基本的、日常的事务处理,银行交易就是一个典型的应用场景,由于不能出纰漏,大企业基本都选用Oracle的产品,该市场80%已饱和,并且增长缓慢。分析型OLAP是数据仓库系统,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,像现在智能交通中识别车牌就是典型应用,需要分析大量数据,以及现在正火热的AI都需要分析型数据库做底层支撑。分析型数据库是创业公司的机会,存量市场在200亿美元,目前还在保持高速增长。分析型数据库目前已经历三代,正朝着第四代演变。Oracle做为数据库的巨头,产品即有OLTP,也有OLAP。第一代分析型数据库/OLAP,代表有Oracle的Exadata,缺点是只能储存在EMC这样的高端专有硬件上,每个节点要花费400多万,并且,多节点共享一个存储设备,导致可拓展性差,往往只能支持10几个节点。接着,出现第二代数据仓——MPP大规模并行处理。这时,数据已经不需要储存在专有硬件上,普通的x86服务器即可,成本自然下降。各个计算节点的数据独立存在本地的硬盘上,互相之间不共享,计算时将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。代表产品有HP Vertica、EMC收购的Greenplum、IBM Netezza,虽然这种架构下节点可拓展至几十个,但依旧不能满足大规模的扩展需求。随着Hadoop的发展,第三代数据库崛起,数据存储在HDFS上,HDFS是运行在通用硬件上的分布式文件系统。此时,存储、计算分离,各节点之间能够互相访问,扩展性强,可以延伸到上千个节点。不过由于新产品的性能还没能很好磨合,有些情况下,第三代数据库不如第二代快速。之后,在Hadoop上就长出了很多开源技术,用来更进一步完善、优化性能,HAWQ就是其中之一,此外还有Hive、Impala、Spark SQL等。偶数的CEO常雷便是Apache HAWQ创始人,他告知,HAWQ数据库可以比第二代快10倍,比第三代快30-50倍。数据库的性能取决于“优化器”和“执行器”,其中优化器负责找出最佳步骤,执行器负责控制硬件。而HAWQ的关键就在于执行器。例如,给一堆数据做排序,“先排序还是先筛选”是由优化器决定,当优化器决定先排序时,接下来由执行器调配硬件。我们知道在冒泡排序的算法里,用一个数据跟其他比较然后插入位置,此时用两个甚至多个同时计算就会快很多,而HAWQ就是用一种高级指令控制硬件,同时计算多条数据。再比如,CPU有一定的缓存空间,计算时访问距离最近、速度最快,但空间有限,磁盘存储空间最大却访问最远、速度最慢,所以,怎样分配指令,用最快的资源处理最实时的需求,就是HAWQ执行器需要做的事情。这样看来,偶数是一家算法公司。算法不断迭代,就能让数据库提升更快的效率。目前,偶数有两款产品,一个是开源版的Apache HAWQ,另一个是商业版的Oushu Database(HAWQ++)。据常雷告知,刚发布的Oushu Database 3.0商业版比开源版快10倍,这样算下来,就比Spark SQL等其他数据引擎快几十倍。至于应用,偶数可以在数据库内做AI算法,效果会优于TensorFlow,TensorFlow是独立系统,加在数据库外,而偶数的算法可以做在数据库内,访问越近,速度越快。常雷告知,像是航母、银行、电力运维、金融、政府公安等行业目前都在应用偶数数据库,像是传感器采集大量数据的场景,都需要快速处理。收费方面,偶数商业版根据CPU/节点/容量收取账号年费。对于本次融资,红点中国管理合伙人袁文达先生表示:“红点中国本身是很看好大数据技术领域未来的发展趋势,在国内外投资了不少大数据技术公司,包括MapR、Dremio、Snowflake、Crunchbase、Kyligence等等,偶数团队来自于Pivotal、IBM等著名软件公司,对国内和国际市场以及产品落地有丰富的经验,以及HAWQ++在MPP分析数据库的技术处于国际领先水平。我们很高兴跟这样的团队合作。”至于融资资金,常雷透露,将主要用于研发和市场。----附:以下是Oushu Database 3.O主要的革新点1. 全新执行器,性能提升10倍。执行器是数据库最核心的部件之一,Oushu Database 3.0对执行器进行了完全重新设计,充分利用了最新CPU的每一个特性,比如SIMD指令等,可以做到性能的极致。2. 支持ORC外部存储格式,结合新的执行器,外部存储的性能可以提升10-50倍。这就使得外部存储达到了内部存储的性能。3. 支持新一代可插拔存储框架,只需简单编写几个函数就可以添加一个外部数据源。传统数据仓库连接外部数据往往都是使用Connector形式,性能很慢,从而导致用户需要使用先导入外部数据再查询的方式,数据需要在多个系统存储多份,浪费了多倍存储空间。结合新一代执行器,Oushu Database可插拔存储框架使得数据库可以直接高性能访问外部数据,查询外部数据的性能和查询内部数据类似。
智能界(www.znjchina.com)中国智能科技聚合推荐平台,秉承“引领未来智能生活”的理念,专注报道智能家居、可穿戴设备、智能医疗、机器人、3D打印、智能汽车、VR/AR/MR/、人工智能等诸多科技前沿领域。关注智能创新对人的生活方式、价值的改变,致力传播放大这部分声量。聚合品牌宣传、代理招商、产品评测、原创视频、fm电台与试用众测,深入智能科技行业,全平台多维度为用户及厂商提供服务,致力成为中国最具影响力的智能科技聚合推荐平台。
智能界【微信公众号ID:znjchina】【新浪/腾讯微博:@智能界】
人已赞