科技成果简介
成果名称:
存储编码技术
项目负责人:
付希明
所属领域:
新一代信息技术
成果简介:
进入大数据时代,数据呈现的显著特点是体量巨大和增长迅速,2019年中国新增数据量就达到了3.9ZB (≈1014GB)。如此庞大的数据量对数据存储性能提出了更高的需求。要实现如此大规模数据的持续健康发展,离不开绿色节能的分布式数据存储技术作为保障。2020年3月4日,中央政治局常务委员会召开会议,要求加快数据中心、5G网络等新型基础设施建设(新基建)进度。
在数据中心等存储系统中,可能存在硬盘损坏等带来的数据丢失,需要增加一定的冗余来保证数据的可靠性。传统的数据中心存储采用3备份机制来增加冗余,在1个或2个硬盘损坏的情况下仍然可以用剩下1个硬盘来恢复原始数据。这种备份机制的存储效率低下,存储冗余较高。
相较于备份机制,存储编码是一种更加有效的解决方案,可以用更少的存储冗余带来更高的可靠性。MDS码可以最好地平衡存储开销和可靠性,受到学术界和产业界的广泛关注。Reed-Solomon(RS)码是一种有效的MDS码,广泛应用在商业存储系统中,如Google的GFS II系统、Facebook开发的HDFS系统、微软的WAS云存储系统、百度云盘的Atlas存储系统和阿里的TFS系统。Intel结合最新的指令集开发了编解码库ISA-L,是当前RS码最快的实现。
RS码采用有限域操作,编解码的复杂度较高。复杂的编解码运算不仅会带来性能的下降,而且带来巨大的能源消耗和碳排放问题。美国自然资源保护委员会最新的报告表明,数据中心消耗了全球能源的5%。根据国家能源局数据显示,2020年我国数据中心耗电超过了2000亿千瓦时,相当于三峡水电站年发电量的2倍。数据中心的大量能源消耗不仅造成运营成本上升,还带来碳排放的问题。我国是碳排放大国,年碳排放量占全球碳排放总量的28.8%。
我们提出了一种低计算复杂度的存储编码技术。该成果可以为数据中心等分布式存储系统提供高可靠、高性能、绿色节能的分布式存储解决方案。在该编解码技术中,编码、解码和数据更新只需要异或操作,复杂度低,保证数据存储稳定性和可靠性的同时,相较于备份机制大大减少了存储开销,相较于RS码可以大大降低编解码的计算开销。在单机上已完成该技术的性能测试,编解码的吞吐量比目前最快的ISA-L库提高80%以上。在存储编码技术领域,我们申请了国家发明专利2项,均已公开,其中1项已提交PCT,在相关领域顶级期刊和顶级会议上发表论文多篇。
主要技术特点:
本项目采用的关键技术是高效的编解码技术。编码、解码和数据更新等操作都只需要异或操作,在现代微处理器上只需要简单的指令集就可以实现,可实现高速数据处理。与当前部分数据存储公司使用的RS码对比,我们的编码技术不仅具有RS码所具有的提供任意参数的存储编码构造的优势,能够满足任意存储冗余条件的特性,而且我们所提出的编解码技术克服了RS码计算开销大的缺陷,对高速数据处理场景友好。
应用范围:
大数据存储(包括数据中心、云存储)、分布式缓存
照片资料:
图1 存储编码专利1
图2 存储编码专利2
图3 国际专利PCT国际检索报告
图4 发表论文及测试结果,其中Two-tone为我们的编码技术,ISA-L为Intel开发的RS码的编解码库。