凯发·k8国际app娱乐荆棘文长度为 32K-凯发·k8国际(中国)首页登录入口

发布日期：2025-03-08 07:39 点击次数：199

最新音书凯发·k8国际app娱乐，斯隆奖得主、姚班学友马腾宇大模子创业恶果，被收购！

收购方是 MongoDB，一家开源数据库上市龙头。

而距离他 2023 年 11 月官宣。其时创业声势绝顶之介怀和豪华，李飞飞曼宁等大佬担任参谋人。

他们主如若作念针对 RAG（检索增强生成）有益优化的镶嵌模子，为智能 AI 运用门径提供扶持。

在这短短一年多时辰里，模子更新到了第三个版块，达成了首先进的检索精度和向量存储老本的大幅裁汰；期间完成了两轮融资，总筹集金额达到 2800 万好意思元。

这次收购，具体金额还未露出。

但在马腾宇公司博客中露出了他们采用被 MongoDB 收购的原因。

粗略来说便是，两者强强集合，将 AI 检索模子胜仗引入数据库，在更长入的堆栈下带来更高效的竖立体验，还能升迁 AI 运用门径的性能和准确性。

不少业内东说念主士，在马腾宇推文下面暗示了道贺。

5 年时辰作念出 SOTA 镶嵌模子

当初创业时，他们曾露出一个紧迫的创业原因是以为业界对镶嵌模子的敬爱进程远远不够。

镶嵌模子与生成式模子有一定相似之处，但愈加侧重于语义知道，通过神经集聚（每每是 Transformer）架构来对语义荆棘文进行拿获和压缩。

难度上，磨练镶嵌模子和生成式模子相同费劲——磨练高质料的镶嵌模子需要在架构、数据、吃亏函数等很多方面进行反复实验。

于是，他们用了 5 年时辰，网罗了海量磨练数据和预 / 后处理设施，最终打造出了一款 SOTA 的镶嵌模子。

而在创业之后，模子的迭代还在不时。

Voyage 发布了诸多系列模子，包括通用镶嵌模子、代码检索镶嵌模子、多模态镶嵌模子，他们都在畴昔三个月期间都纷纷升级到了第三个版块。

通用和多谈话镶嵌模子 voyage-3-large：该模子在涵盖 100 个数据集的八个评估范畴中名依次一，包括法律、金融和代码，荆棘文长度为 32K。通过俄罗斯套娃表征学习（MRL）和量化感知磨练，扶持更小的尺寸和 int8 和二进制量化，可明白裁汰 vectorDB 老本，同期对检索质料的影响最小。

基于代码检索的镶嵌模子 voyage-code-3。在一组 32 个代码检索数据集上，它的性能分离比 OpenAI-v3-large 和 CodeSage-large 平均跳跃 13.80% 和 16.81%。通过使用 Matryoshka 学习和量化体式（如 int8 和二进制体式）扶持更小的维度，voyage-code-3 还能显贵裁汰存储和搜索老本，同期将对检索质料的影响降至最低。

多模态镶嵌模子 voyage-multimodal-3，可用于包含丰富视觉和文本的文档。与现存的多模态镶嵌模子不同，voyage-multimodal-3 能够对交错文本和图像进行矢量化处理，并从 PDF、幻灯片、表格、数字等截图中捕捉关节视觉特征，从而省去了复杂的文档领会经过。在对 3 个多模态检索任务（共 20 个数据集）进行评估时，voyage-multimodal-3 比性能仅次于它的多模态镶嵌模子平均升迁了 19.63% 的检索准确率。

与此同期，还积贮了一众顶尖的配合资伴，包括 AWS、Databricks、Anthropic、Harvry、LangChain、Replit 等等着名公司。

这次收购之后，Voyage AI 不错 MongDB 带来什么？

用一张图就不错笼统之。

以往竖立东说念主员需要依靠多样寂然组件来构建 AI 运用门径，这些组件的次优采用（举例镶嵌模子）可能导致数据检索联系性低和生成输出质料低下。这种分散的设施对竖立东说念主员来说既复杂又腾贵，服从低下，况且繁琐。

咫尺，他们无需实施变通设施或处分单独的系统，而是不错从及时操作数据中生成高质料的镶嵌、存储向量、扩充语义搜索并优化终结 - 通盘这些都在 MongoDB 中完成。

关于这次收购，MongDB CEO 暗示：

AI 有后劲调动每个行业，但其运用因"幻觉"可能带来的风险而受到截止。通过将先进的 AI 运转搜索和检索才能整合至咱们高度生动的数据库系统中，MongoDB 和 Voyage AI 将匡助企业节略构建能够创造紧要业务影响的可靠 AI 运用。通过这次收购，MongoDB 从头界说了 AI 期间的数据库。

马腾宇则暗示：要使 AI 运用门径弘扬一皆潜能，企业必须信任其输出终结，因此需要将检索与操作数据深度集成，以确保其准确性和联系性。加入 MongoDB 使咱们能够将前沿的 AI 检索工夫带给更庸碌的受众，并将其无缝集成到关节任务运用中。通过将咱们在镶嵌和重排序方面的专科常识与 MongoDB 一流的数据库相祛除，咱们不错匡助组织构建能够大限制提供更准确、更可靠终结的 AI 运用，使他们能够自信地将 AI 运用于高风险用例。

清华姚班学友，和陈丹琦同学

马腾宇，现任斯坦福大学助理训诲，有计划标的包括机器学习、算法过火表面等多项推行。