鹅厂开搞“海绵宝宝”，面向大模型发布向量数据库，中国AI迎拐点

2023-07-07 17:02:52 来源 : 财经侦探社

ChatGPT要凉了？

作为史上用户量增长最快的应用程序，ChatGPT让无数人为之疯狂。

但是200天后，我们回头再看ChatGPT，发现它的访问量从1月份的环比增长率为131.6%下降到了5月份2.8%。

【资料图】

数据的背后，是一次业界焦点的大转移：从对 AIGC 大模型技术的狂热，转移到对商业化落地效果的审视。

而这次大转移让向量数据库这个新的数据库品类站上了风口浪尖，不仅给大模型应用的变革指了一条明路，也为国产化大模型提供了一次在落地阶段弯道超车的机会。

向量数据库出圈

GPT 展现出来了强大的智能水平，它的成功有很多因素，但在工程上关键的一步是：神经网络与大语言模型将一个语言问题转化为数学问题，并使用工程手段高效解决了这个数学问题。

对于AI来说，各种各样的知识与概念在内部都使用数学向量来存储表示输入输出。将词汇/文本/语句/段落/图片/音频各种对象转换为数学向量的这个过程被叫做嵌入（Embedding）。

例如 OpenAI 就使用 1536 维的浮点数向量空间。当你问 ChatGPT 一个问题时，输入的文本首先被编码转换成为一个数学向量，才能作为神经网络的输入。而神经网络的直接输出结果，也是一个向量，向量被重新解码为人类的自然语言或其他形式，再呈现到人类眼前。

但是只有计算是不够的，还有一个重要的部分是记忆。大模型本身可以视作人类公开数据集的一个压缩存储，这些知识通过训练被编码到了模型中，内化到了模型的权重参数里。而精确性的，长期性的，过程性的，大容量的外部记忆存储，就需要用到向量数据库了。

向量数据库通常被认为是大模型的“海马体”或者“记忆海绵”。目前的大模型都是预训练模型，对于训练截止日之后发生的事情一无所知。

第一是没有实时的数据，第二是缺乏私域数据或者企业数据，向量数据库可以通过存储最新信息或者企业数据有效弥补了这些不足，让大模型突破在时间和空间上的限制，加速大模型落地行业场景。

同时，通过向量数据的本地存储，还能够协助解决目前企业界最担忧的大模型泄露隐私的问题。

国内外科技大厂竞逐向量数据库

现阶段，全球大模型与应用发展的如火如荼，已经走到了产业落地的早期，业界真正关心的是业务效果。

在这种情况下，向量数据库成为玩家们的新擂台，最近腾讯云正式发布AI原生(AI Native)向量数据库Tencent Cloud VectorDB。该数据库能够被广泛应用于大模型的训练、推理和知识库补充等场景，是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。

据介绍，腾讯云向量数据库最高支持10亿级向量检索规模，延迟控制在毫秒级，相比传统单机插件式数据库检索规模提升10倍，同时具备百万级每秒查询(QPS)的峰值能力。

与此同时，全球最火的开源向量数据库项目 Milvus 在 Github 的标星已经突破 2 万，官方显示，目前 Milvus 已经拥有超过 1000+ 中大型企业用户。

作为 Milvus 的原厂，Zilliz 已经完成 1.13 亿美元融资，并全面启动商业化步伐，为大模型落地提供向量数据库全栈产品与服务。

其实除了Tencent Cloud VectorDB和 Milvus ，目前全球已有的向量数据库产品主要包括 Pinecone、Weaviate、Vespa 等。其中，超过一半的向量数据库具有云化部署的能力。

并且全球数据库市场规模仍处在高速成长期。根据前瞻产业研究院，预计到2026年，全球数据库市场规模将达到2086亿美元，2021-2026年复合增长率达到21.13%。其中，中国向量数据库市场空间或将达到253-949亿元。

根据中国信通院数据，预计到2025年，中国数据库市场规模为688亿元，2020-2025年复合增长率为23.4%，占全球数据库市场的比重约为6.14%。

尽管国内大模型的综合能力与GPT-4还有代差，但现在要拼模型能力，更要拼知识库的构建能力、模型与知识库的集成水平。

而在向量数据库ChatGPT + VectorDB + Prompt（CVP）架构中，哪怕仅使用GPT3.5或一些头部开源模型，其端到端效果也明显优于GPT-4，这也为国产化大模型提供了一次在落地阶段弯道超车的机会。

对现有玩家来说，大模型是一场艰苦的马拉松竞赛，但是挑战与机会并存，如今入场的每一家企业，都有可能成为技术处女地的拓荒者，在当下，谁能率先在赛道里抢到更多筹码，就非常关键了，或许中国人工智能就在这一团团迷雾中，正走过它崎岖而混沌的序章。

标签：

哈弄夺机：永不停歇的“草原信使”
2023-07-07
全球每年5%成年人患抑郁症中低收入国家八九成患者未诊治
2023-07-07
5名基金经理离职，融通基金上半年离职数量最多，发生了啥?
2023-07-07
戴尔5405笔记本（戴尔5405笔记本怎么样）
2023-07-07
@高考生各地高考成绩今起陆续公布，河南是6月25日公布成绩
2023-07-07
大连新推70条措施优化营商环境
2023-07-07
申请美国大学只提高GPA成绩就够了吗？
2023-07-07
DC 牌组构建游戏揭示 Flashpoint 交叉扩展
2023-07-07
番茄todo直播官网下载（番茄todo直播官网下载苹果版
2023-07-07
2023年郑州市内十区中招网上成绩查询开放时间7月10日10点
2023-07-07
【暗杀】忍者神龟实体书简约导引·独立联动漫画和精选集篇
2023-07-07
网红大猩猩和小女孩合影一套商业化流程太6 果然进化就要上班
2023-07-07
中国石化集团新星石油有限责任公司原党委书记徐向荣受贿案一审公开开庭
2023-07-07
暑期防意外急救学起来
2023-07-07
汽车发动机温度高是什么原因分析（车子发动机温度过高怎么回事）
2023-07-07
第八届中国食品安全追溯大会在山东青岛召开
2023-07-07
甘源食品: 2023年半年度业绩预告
2023-07-07
生意社：供过于求有色金属上半年跌多涨少
2023-07-07
7.7午评|越多人看不上越要有信心！
2023-07-07
午评:跌下来更多的是机会而非风险
2023-07-07
槽钢商品报价动态（2023-07-07）
2023-07-07
外交部：当前伊核局势的症结在于美国单方面退出全面协议并对伊朗极限施压
2023-07-07
淘气天尊：午后市场能否重拾升势？
2023-07-07
N,N-二乙基苯胺商品报价动态（2023-07-07）
2023-07-07
海岱财评︱打好先进制造业突破提升攻坚战
2023-07-07
歌颂祖国的古诗文（歌颂祖国的古诗大全）
2023-07-07
港股6月日均成交额按月跌1.3%
2023-07-07
2022安徽合肥市长丰县部分单位招聘（补招）编制外工作人员第六批拟录用人员公示
2023-07-07
奇瑞1-6月累销74万辆，创半年度销量历史新高
2023-07-07
双色球23077期：头奖8注735万奖池23.34亿元
2023-07-07
特斯拉高级副总裁朱晓彤近一个月以来套现970万元在美国能买15辆Model S！
2023-07-07
因她而触动，音乐剧《绽放》再次回家
2023-07-07
血粉（关于血粉的基本详情介绍）
2023-07-07
证监会：积极培育专业REITs投资者引入境外投资者
2023-07-07
【点石成金】锡：年度高位，观察社库
2023-07-07
TestFlight 在开发套件发布之前增加了对 VisionOS 应用程序的支持
2023-07-07
是的，其实很多人还没见过5G的完全形态
2023-07-07
今年上半年我国自然灾害形势总体平稳损失较往年同期明显偏轻
2023-07-07
鹅厂开搞“海绵宝宝”，面向大模型发布向量数据库，中国AI迎拐点
2023-07-07
英国房地产因利率上升陷入困境房价正以2011年来最快速度下跌
2023-07-07
洛阳市人大常委会任免名单
2023-07-07
2023年9月acca考试时间是几号到几号？几点到几点？
2023-07-07
西游记第三章好句赏析_西游记第三回赏析
2023-07-07
苹果可折叠屏笔记本电脑最快2026年推出已在洽谈显示屏供应事宜
2023-07-07
咒术回战Ⅱ|五条老师与挚友们
2023-07-07
全球平均气温已连续3天处于历史高位
2023-07-07
媒体人：杨鸣、刘维伟、王博都去跟乔帅学习了篮协这工资发得值
2023-07-07
张家口桥西区：实践基地里的快乐实践课
2023-07-07
扎克伯格仓促推出“推特杀手” 这六大功能都没有
2023-07-07
暑期来临，孩子们在家无人看管？“爱心暑托班”守护孩子们健康快乐过暑假
2023-07-07