来源:雪球App,作者: 成长企业常识,(https://xueqiu.com/3833741437/274177379)
后浪森林研究室|IVY
编辑|罗周
统筹、编辑助理|许佳维
在这篇发现与探索中,我将深入地讨论“星环科技”产品含义、行业变化,它是销售的是什么和它怎么样。
我认为这是它的成长常识之根:行业与产品是什么,为什么是它。
一
按企业披露的自我描述,星环科技是“企业级大数据软件开发商”,产品与服务体系如下:
虽然图表很清晰地表述了企业产品体系,但对于不熟悉大数据的读者,并不易弄懂。为搞清这家企业究竟在做什么,我科普一下:
首先明确,星环科技是2B企业。它们的产品销售给不同行业企业的IT部门,支撑企业的数据管理,不卖给个人消费者,所以我们很少听说。
第一类产品:软件与技术服务。这类产品装载在客户小型机与各类服务器上,就像我们个人电脑上的Office、浏览器等各种不同功能的软件工具,后面会展开介绍。
第二类产品:应用与解决方案。不妨理解为,针对客户对业务与数据处理的不同需求,星环科技把第一类软件产品进行组合,可能也包含一些定制开发,再打包卖给客户。
第三类产品:软硬一体产品及服务。这是把第一类产品与小型机及服务器等外购硬件进行搭售。
不难看出,第一类产品,软件与技术服务,是企业的核心产品。第二、第三类产品则为第一类产品的衍生。
所以,监管方发审委在审核意见中,要求其给出三类产品细分的收入占比。用以判断,其业务收入的支撑与企业核心产品是否一致。如果企业收入是靠外购硬件销售而不是核心软件产品销售支撑,那显然与企业对自身业务描述不符。
需要指出,下表中,其第三类产品的软件与服务已拆分入基础软件业务,即第一类产品。可以看出,和应用于解决方案比较,其大数据基础软件业务产品的销售占比确实占强。
那么,第一类产品中的大数据与云基础软件、分布式关系型数据库,数据开发与智能分析工具又是什么呢?为什么数据库占比不足5%,而大数据与云基础平台软件占比能达到一半左右呢?
二
先说说所谓“数据库”到底是指什么。
经典且基础的企业数据库系统可以由IBM小型机、Oracle关系型数据库,与EMC(2016年被戴尔收购)高端存储服务器构成。
如果把数据想象成源源不断的货物,高端存储服务器就是储存物品的仓库。而我们常说的数据库其实一般是指数据库管理软件(Data Base Management System,DBMS),它装在小型机里,用来对数据进行存储操作。
接着上面的比喻,DBMS涉及的数据存储原理可以看作用来规划货物在仓库进行存储与管理的“路线图”,而“路线图”的执行者就是这套软件,不妨把他想象成负责物品存储管理的仓库管理员。
过去,想与执行者交流,必须用到结构化查询语言,也就是我们常说的SQL(Structured Query Language),就像你与仓库管理员必须要“说话”,才能存取你想要的物品一样。现实中,IT人员需要利用SQL或其他NOSQL计算机语言,通过显示器与装在小型机里的DBMS进行交互,进行数据管理。
常用的DBMS不仅有占据半壁江山的甲骨文Oracle,还有IBM的DB2、微软的SQL Server与Access。在国内,做数据库比较早的企业包括成立于1999年的国内首家数据库企业人大金仓、依托华中理工的达梦数据、南大通用数据,在中国航天科技旗下的神通数据库,以及北大系的优炫软件。
上述经典数据库主要以传统关系型数据库为主打产品,近年来也涉猎分布式数据库。
那什么叫关系型、集中式数据存储方式,什么又叫非关系型、分布式存储技术呢?
从客户需求角度说,当需要存储的数据偏大,单个数据库或存储服务器不能支持这样规模的数据时,分布式存储技术应运而生。
而最早提出与实践相关理论的作者往往都在运营大型网站,比如Google,Yahoo等等。可以说,分布式存储技术与互联网的发展成熟及其大规模数据的运营需求一起成长。
回到仓库的比喻,传统的集中式、关系型数据存储可以想象成把所有物品都放置在一个仓库里,且物品摆放要遵循较为严格的关系/规则,比如,运来一袋拼图,需要先打散,再分类,才能摆放,让红色插片挨着红色插片放在红色货架上,绿色挨着绿色。
这样的摆放有利于存储与管理,但如果一袋拼图里,红色插片占比过高,红色货架摆放不下,就需要对其他颜色货架进行相应调整,并不方便。
如果此时,我们又找到一个仓库,这个仓库也可以通过管理员用电脑对物品进行操作,但物品不再需要拆分,可以把一整个拼图,以其原有的样子摆好。这样,无论红色插片比重有多高,管理员都可以把拼图直接塞进仓库。
更重要的是,如果一个仓库摆不下,我们可以在其他地方再寻找一个仓库,也让这位管理员远程管理。如果管理员事情太多,可以再雇佣一位管理员。
通过这样的方法,我们希望能够通过从雇佣十位管理员,上升至雇佣一千位管理员,就扛住一百倍的物品流量。这里,把不同物品不经拆分,让不同管理员,同时(并行)放入(不同)仓库的数据存储管理方法,就叫做非关系型,分布式存储。它的高性能就是常说的可扩展性。
如果不这样做,就相当于,我们要换一位有更高工作效率的仓库管理员(DBMS),实现存储目标。可仓库管理员总有自己的局限性,无法一直提升效率。现实中,企业很难请程序员对DBMS代码进行修改来大幅提高DBMS效率,但购买更多小型机与数据库软件,及EMC高端存储服务器总是能通过钱来达成。
这样的存储方式,也有其缺点。最关键的是“一致性”差。在数据存储里,为防止数据丢失,备份很重要。在分布式数据存储中,某一个物品与其“备份”可能根据先“原件”再“备份”的顺序分别存储到“原件仓”与“备份仓”。此时,如果“原件”已存好,但“备份”存储时出现错误,没能按需求放入仓库,那么两个仓库中的数据就会出现不一致。
这样偶尔细微的不一致,在网页搜索类应用里,是可以忽略的,但对于银行等需要精准记录的交易信息,是不被允许的。所以,传统的关系型数据库,在金融、电信等领域是很难被替代的。
这也在一定程度解释了, 为什么星环科技的分布式关系型数据库销量并不高。当然,更重要的原因在于,Oracle等企业对于关系型数据库核心技术的掌握,短期内,还很难被超越。
三
而所谓第三代多模型数据库,简单粗暴的说,就是可以用SQL语言,也可以用NOSQL语言操作,可以存储文档、图形等不同类型数据的数据库,比传统SQL关系型数据库更加多元。云原生数据库不妨理解为将数据存储在云端,而不是企业自己的本地存储服务器。
从行业规模来看,全球大数据市场在2017年,软件产品规模首次超出硬件产品规模,达到109亿美元,预计在2024年达到377亿美元,年复合增长率约为17.3%。其中,大数据管理平台占比高达约41%。
国内方面,大数据市场软件产品收入预计在2024年达到492亿元RMB,占比不及硬件,还在30%上下徘徊。随着国内对数据运用程度日益提高,有关软件产品收入占比有望在未来进一步提高,与国际发展趋势接近。
所以向未来看,星环科技选择的赛道还处在发力阶段,拥有高增长,强趋势的特点。如果能抓住行业红利,可以有较好的发展。这也是为何该企业股价自69元发行价起,一直保持高位徘徊的原因。而抓手,在于技术能力。
对于这家企业,技术能力的关键,是大数据与云基础软件。这部分内容有点难搞,我们从架构图聊起。
如果说分布式数据库与互联网发展及其数据规模提升有关,那大数据与云计算更与其脱不了干系。
随着数据规模的增大,惯用的数据处理方法变得力不从心。2006年,Google发了3篇论文,也被业内认为是大数据的3驾马车:分布式文件系统GFS;分布式KV存储数据库BigTable;处理和生成超大数据集的算法模型:MapReduce。
依靠论文的想法,诞生了Hadoop生态,也为前文提到的分布式数据库做好了基垫。
而Hadoop生态系统,简单来说,可以按下图分成数据采集、数据计算、数据存储与数据应用几个模块。模块与模块之间可能会用到数据中间件。
其中核心部分包括:数据采集好后,通过离线计算与实时计算实现的数据计算模块,通过关系型与非关系型数据库,及其他数据库实现的数据存储。当然,数据分析、人机交互界面、生成报表等数据应用功能也是客户的常见需求。
以阿里为例:当千千万万个与我一样的用户注册支付宝,并将银行存款转入支付宝时,阿里的大数据平台会采集我们的有关信息,并存入数据库。
某日,我登录支付宝,查看余额,选择转账时,后台使用SQL/NOSQL工具操作支付宝的数据库,把里面的数据查找出来,进行计算,然后将钱数返回给我。
这样,用户就可以看到存放到支付宝里的钱与相关收益了。只不过,这个过程用户看不到,都在支付宝后台完成,用户看到的只是最后一个查询结果。
四
这里提到的Hadoop生态,与企业披露资料中说到的“国产化”息息相关。
大数据领域,狭义的“国产化”实际是指阿里在09年以前提出的“去IOE”,即前文所说一套商用数据库的标配,IBM小型机+Oracle数据库+EMC存储服务器。当时,一个IBM小型机,比如P570、P590的满配价格在五、六百万RMB级别。
当然,阿里想要“去IOE”,并不单纯因为成本,也不是与外资软件企业过不去,而是业务需求所迫。
随着淘宝“双十一”等活动上线,淘宝的整个数据存储管理系统都面临着新的挑战。Oracle作为商业产品,本身也有性能上限,无法实现阿里想要的扩展。
据团队内部成员分享,当时他们遇到很多奇葩问题,“比如链接hung住,系统在某些极端情况下出现异常。然而,查遍说明手册,却发现对于这类异常,商业数据库给的提示是,理论上不会出现。如果你看到了就联系售后支持。而发邮件给国外售后支持,个把月后才收到回复。”
这样的效率,对于淘宝这样高速发展的企业来说,显然跟不上趟。于是他们采用了Hadoop等开放源代(即我们常说的“开源”),进行自主研发。将增量Oracle数据库产品换成了自研产品OceanBase等数据库软件产品,将昂贵的小型机与高端存储服务器换成了华为等高性价比的服务器集群。
但是,阿里对其去“IOE”也有一些忠告:“我们要知道开源软件跟商业产品最重要的一个区别就是,开源软件其实只是一个基本上不成熟的框架,后期需要企业与相关业务去磨合,如果碰到缺陷更没有厂商对技术的支持。”
“没有庞大的技术后盾,冒然使用开源软件结合自己的业务,是一件危险的事。阿里属于去IOE最彻底的公司。在初期,淘宝曾多次尝试从Oracle数据库迁移到开源软件系统,都失败了,最根本的原因就是懂相关技术的人才极少。”
不仅人才,传统数据库的技术门槛与替代成本也极高。如果是传统企业,以金融行业为例,目前国内难以找到让客户满意又能替代Oracle的产品。原因很简单,传统企业IT基础架构不是很完善,突然替换,不但起不到成本降低的要求,低效的工作会让自己的用户无法满足。此外,Oracle集成体系在传统行业已经根深蒂固,几乎渗透到金融业,运输业,电信业,连锁业等等,客户也在这个过程中形成了一种依赖。
而在2013年,阿里基本完成去“IOE”,也是大数据软件“国产化”声浪最旺的这一年,星环科技董事长孙元浩先生,从英特尔离职,与投资公司一起创建了这家企业。
英特尔是做什么的?我们熟知的计算机微处理器架构X86。而X86虽然性能与IBM小型机相关架构不同,但也试图挤进小型机占据的商业数据库领域。
孙元浩先生当时的团队主攻方向在于,让X86与开源Apache Hadoop1.x 技术结合,实现与商用Oracle对接的IBM小型机产品的抗衡。可以说,对Hadoop技术及数据库相关领域的应用有深入了解。而这也就催生了孙先生的出走与星环科技的创建。
后续一篇文章,我们会继续研究,星环科技,是怎么运营管理的。$星环科技-U(SH688031)$