训练数据集越大 , 参数规模越强 , 取得效果越好 , 也成了目前AI领域的共识 。 但问题是单一一家企业的数据量都是有限的 , 即使是工行其市场份额也不足10% , 而且一般企业数据往往都保有自身客户的敏感信息 , 想让工行将数据完全透明的共享出来是不可能的 , 而隐私计算技术恰恰是解决这个问题的关键 。 随着2021年中北京大数据交易所的建成 , 隐私计算技术也逐渐被人们所熟知 , 不少业内人士都将2021年定为隐私计算大规模应用元年 。
数牍科技在隐私计算方面所取得的成果引业界瞩目 , 今年3月数牍科技成为北京国际大数据交易联盟的首批成员单位 。 今年11月数牍科技成为上海数据交易所、西部数据交易平台首批签约数据商 , 并深度参与深圳数据交易所关键技术预研项目 , 并将作为深圳数据交易所首批数据服务商之一参与数据交易服务 。
从技术上讲数牍科技的整合秘密分享、模糊传输协议、同密加密等技术全方位打造了一个可信执行环境(TEE) 。 并基于这种高效的密态数据库框架;利用 TEE 提升设备的安全计算性能 , 构建面向海量设备的数据联邦 。
随着隐私计算的发展 , 打破数据孤岛 , 实现“数据可用不可见” 。 在这种新型计算架构下 , 可区别于传统的集中式共享来保护各方的数据隐私安全 , 通过海量移动设备的端侧联邦学习 , 来保证个人敏感数据不离开端侧设备本地 。 因此未来数据库结合联邦学习、联邦计算也是热门的发展方向之一 。
TDEngine:物联网时代的时序数据库
随着移动端发展走向饱和 , 现在整个IT行业都期待着“万物互联”的物联网时代所带来的流量红利 , 但是与互联网不同 , 物联网有自己的信息处理需求 。
在物联网时代的首要目标是数据最大化 , 其底层逻辑是数据不能漏 , loT终端往往都是一些传感器 , 其自身可靠性有限 , 一般都是靠多点这冗余相互验证来保证整体可靠性的 , 所以对于某一点的准确率要求并不高 , 但是很多数据不能及时采集就会丢失 , 因此 物联网往往使用时序数据库 , 其对于速度与效率要求更高 。 如果用汽车类比 , 传统数据库的最高目标是做类似迈巴赫、宾利这样的顶级家用轿车以安全优先;而物联网则要做类似于法拉利这样为速度而生的跑车 。
在典型的物联网场景中 , 往往有许多各类不同的终端设备 , 部署在不同的位置 , 去采集各种数据 , 比如某一生产区有5万个终端 , 每个终端每10秒发送一次数据 。 那么每年会产生1600亿个数据点 。 而这些数据都是顺序产生的 , 并且每次监测产生数据的格式全部是一致的、结构化的 , 并且没有删除和修改的需求 , 所以时序数据库一般使用LSM模型 , 从而将随机写转化为顺利写 , 以提升效率 。
今年涛思数据就在数据时序性和结构化 , 继续做了很多开拓性的工作 , 一共发布了184个版本 , 其中社区版52个、企业版132个 。 合并4607个Pull Requests , 正在运行的测试例接近1800个 , 软件代码行数共计104万行 。 从用户需求出发 , 我们在2021年发布了大大小小30余个新功能 , 重点包括:降低企业迁移成本的独立程序taosAdapter、基于Grafana的TDengine零依赖监控解决方案TDinsight、纳秒时间精度、浮点数有损压缩、原生接口写入、嵌套查询、无模式(Schemaless)写入等等 。
写在最后
历史经验告诉我们: 淘金时代下 , 埋头淘金的人可能不是胜利者 , 而洞察用户真切需求、并在适合的时间提供适合工具以提高效率的人 , 极有可能独占鳌头 。
2021年国产数据库百花争鸣 , 蓬勃发展 。 在这个在独特的历史关键拐点下 , 各类国产数据库不断涌现 , 老牌厂商也开始逐步创新 , 取得了重大的进展 。 相信新的一年中 , 国产数据库势将创造新的惊喜等待着我们 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
