最佳开源大模型选择方案Mixtral-8x7b,Mixtral AI公布MoE 8x7B详细细节

目前最受欢迎的最佳开源大模型选择方案Mixtral-8x7b,由8个7b的专家模型进行混合,参数量为46.7B,速度与成本相当于 12.9B 的模型。 但推理速度是 llama2 的 6倍。在大部分的性能测试中,Mixtral 不仅达到了 Llama 2 70B 的水平,甚至在很多方面超越了 GPT-3.5。

之前 Mixtral 开源的 7B 模型就备受好评,而这次的MixtralMixtral 8x7B 是一个采用稀疏专家混合网络的模型,它是一个仅包含解码器的模型。在这个模型中,前馈块从 8 组不同的参数组中进行选择。对于每一层的每个 Token,一个路由网络会挑选两组“专家”处理 Token,并将它们的输出结果进行加法组合。 这种技术让模型在增加参数数量的同时,有效控制了成本和延迟,因为模型每处理一个 Token 只会使用部分参数。具体来说,Mixtral 总共有 46.7B参数,但每个 Token 只用到了其中的 12.9B。因此,它在处理输入和生成输出时,无论是速度还是成本,都相当于一个 12.9B 参数的模型。

Mixtral AI公布MoE 8x7B详细细节

• 32k上下文。

• 支持英语、法语、意大利语、德语和西班牙语。

• 性能超过Llama 2系列和GPT3.5

• 在代码生成方面表现强劲。

• 在MT-Bench上达到8.3的分数。 技术细节:

•Mixtral是一个稀疏混合专家网络,是一个仅解码器模型,其中前馈块从8组不同的参数组中选择。在每一层,对于每个令牌,路由网络选择两组(“专家”)来处理令牌并加性地结合它们的输出。

•Mixtral总共有45B个参数,但每个令牌只使用12B个参数。因此,它以与12B模型相同的速度和成本处理输入和生成输出。

https://mistral.ai/news/mixtral-of-experts/

Performance overview

 

Mistral AI宣布推出了其新平台“La Plateforme”!

该平台提供了三个聊天端点,并且价格有竞争力:

1. Mistral-tiny:升级后的基础模型Mistral 7B Instruct v0.2,上下文长度从8K提高到32K,同时在微调上有所改进,在MT Bench上的得分从6.84提升到了7.61。

2. Mistral-small:Mistral 8x7B Instruct v0.1,性能匹敌甚至超越GPT-3.5,支持多语言。

3. Mistral-medium:在所有指标上超越GPT-3.5的表现,同样支持多语言。

 

宣布了Mistral-embed,这是一个具有1024嵌入维度的嵌入模型,在MTEB上达到了55.26的得分。 更多详情请访问:[Mistral AI 新闻发布页面](mistral.ai/news/la-platef)

注册及加入等待名单请至:[Mistral AI 控制台](console.mistral.ai)

 

MoE 8x7B模型发布,是目前最佳开源大模型选择方案

Mistral AI以一种很随意的方式发布了一款新的和GPT-4很类似的模型:MoE 8x7B –

直接在X上丢了一个模型种子链接(87GB),其他什么也没说 – MoE 8x7B被称其为“缩小版的GPT-4,因为它是由8个拥有70亿参数(7B)的“专家”组成的混合专家(MoE)模型。每个令牌的推断仅使用2个专家。 – 而根据GPT-4的泄露信息,GPT-4很可能也是一个拥有8个专家的MoE模型,每个专家拥有自己的1110亿参数和550亿共享注意力参数(每个模型1660亿参数)。每个令牌的推断也仅使用2个专家。 – Mistral AI是一家总部位于巴黎的初创公司,刚刚获得由Andreessen Horowitz领投的新一轮融资,估值20亿美金。

Mixtral种子下载链接:magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%2Ftracker.openbittorrent.com%3A80%2Fannounce RELEASE

a6bbd9affe0c2725c1b7410d66833e24

 

huggingface下载:

https://huggingface.co/mistralai/Mixtral-8x7B-v0.1

 

Mixtral MoE 8x7B在线体验

最强的开放模型Mixtral-8x7b已在 chat.lmsys.org 上可供测试。

MoE 8x7B在线体验1,由@mattshumer_ 提供:https://replicate.com/nateraw/mixtral-8x7b-32kseqlen 

MoE 8x7B在线体验2:https://app.fireworks.ai/models/fireworks/mixtral-8x7b-fw-chat

最强的开放模型Mixtral-8x7b已在 chat.lmsys.org 上可供测试。

到 POE 上去测试:https://poe.com/universal_link_page?handle=Mixtral-8x7B-Chat

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
搜索