2023 年十大人工智能(LLM)必读论文(下)
阿法兔研究笔记2024/01/02 05:37
作者:阿法兔研究笔记
用读论文迎接新的一年,新年快乐!!!看到这篇的朋友 2024 运气爆棚,顺利满满!
欢迎大家点击在看,或转发到朋友圈~~这样兔儿就更有动力发更多好内容了~ LLM
6)Mistral 7B 尽管 Mistral 7B 论文有些简短,但它提出的模式很有影响力:
简而言之,Mistral 7B 论文介绍了一个紧凑但功能强大的语言模型,尽管它的规模相对较小,只有 70 亿个 Token,但在各种 benchmark测试中,它的表现却优于更大的同类模型,比如它的表现超过了 13B Llama 2 模型。 ( 除了比其大两倍的 Qwen 14B 之外,Mistral 7B 也是今年 NeurIPS LLM Finetuning Efficiency 挑战赛获胜方案中使用的 base mode)
来自 https://arxiv.org/abs/2310.06825 的注释图,Mistral 7B 和 Llama 13B 的性能比较
从架构上来看,Mistral 7B 与 Llama 2 共享了 group-query attention,虽然与 Llama 2 非常相似,但 Mistral 架构中的一个有趣的补充是 sliding window attention ,用以节约内存并提高计算吞吐量,从而加快训练速度。 (Sliding window attention was previously proposed in Child et al. 2019 and Beltagy et al. 2020)
为什么选择 MoE?
结合起来,像 Mixtral 这样的 7B 模型中的 8 个Expert,总共有约 56B 个参数。实际上,它少于 56B,因为 MoE 方法仅应用于 FFN (feed forward network, aka fully-connected) ,而不是self-attention weight matrices。因此,它可能更接近 40-50B 个参数。请注意, Router 会 rerouteToken,这样在前向传播过程中一次只使用<14B 个参数(2x <7B,而不是全部<56B),因此与传统的非 MoE 方法相比,训练(尤其是 inference)将会更快。
如果想要了解更多关于 MOE 的内容,这里有一个 Sophia Yang 推荐的阅读清单:
此外,如果读者对尝试 MoE 和 LLM 感兴趣,也可以查看 OpenMoE 的repository,在今年早些时候实现并分享了 MoE LLM 地址:https://github.com/XueFuzhao/OpenMoE
(via the phi-1.5 paper,https://arxiv.org/abs/2309.05463) 更多关于 phi models 的资料:
7) Orca 2: Teaching Small Language Models How to Reason
这是一篇相对较新的论文,因此时间会证明它是否会在未来数月或数年内对我们如何训练 LLM 产生持久的影响。
收录这篇论文的原因在于:它融合了多个概念和观点:
它是如何工作的?简而言之,主要分为 4 个步骤:
在图像和视频中的Object recognition和segmentation,以及分类和生成建模,是计算机视觉的主要研究领域。
简要说明这两项任务之间的区别:Object recognition是预测边界框和相关标签;segmentation则是对每个像素进行分类,以区分前景和背景物体: Object recognition(上图)与 Segmentation(下图)。 图片来自 YOLO 论文(https://arxiv.org/abs/1506.02640)和 Mask R-CNN 论文(https://arxiv.org/abs/1703.06870v3)
The Segment Anything Model 三个主要组成部分,见https://arxiv.org/abs/2304.02643 稍微详细一点,这三个部分可以总结如下:
图像segmentation对于自动驾驶汽车、医学成像等应用至关重要。在短短 6 个月内,该论文已经被引用超过 1500 次,并且已经有许多项目在这篇论文的基础上构建。
Emu 是一个可以从文本提示生成整个视频的文本到视频模型, 虽然它不是第一个令人印象深刻的文本到 视频生成模型,但它与以前的作品相比有很大优势: Emu 与其他文本到视频模型的性能比较,见 https://arxiv.org/abs/2311.10709 正如作者所指出的,与之前的方法相比,Emu 架构的设置相对简单。
新年快乐!2024 大展宏图,越来越好!
欢迎大家点击在看,或转发到朋友圈~~这样兔儿就更有动力发更多好内容了~ LLM
*本文 4400 字左右
作者:SEBASTIAN RASCHKA, PHD,原文名称:Ten Noteworthy AI Research Papers of 2023
2023 年,是机器学习和人工智能发展最为迅速的一年,这里和分享分享 10 篇笔者认为最值得关注的论文(今天是第二部分)。
上一篇见: 2023 年十大人工智能(LLM)必读论文(上)
当然,这里主要是以大语言模型(LLM)论文为主。选择标准可能也会稍显主观,但还是基于笔者个人特别喜欢或认为有影响力、值得关注的论文。( 注:这里的排序顺序是推荐阅读顺序,而不是根据质量或影响力排序)。
6)Mistral 7B 尽管 Mistral 7B 论文有些简短,但它提出的模式很有影响力:
简而言之,Mistral 7B 论文介绍了一个紧凑但功能强大的语言模型,尽管它的规模相对较小,只有 70 亿个 Token,但在各种 benchmark测试中,它的表现却优于更大的同类模型,比如它的表现超过了 13B Llama 2 模型。 ( 除了比其大两倍的 Qwen 14B 之外,Mistral 7B 也是今年 NeurIPS LLM Finetuning Efficiency 挑战赛获胜方案中使用的 base mode)
来自 https://arxiv.org/abs/2310.06825 的注释图,Mistral 7B 和 Llama 13B 的性能比较
从架构上来看,Mistral 7B 与 Llama 2 共享了 group-query attention,虽然与 Llama 2 非常相似,但 Mistral 架构中的一个有趣的补充是 sliding window attention ,用以节约内存并提高计算吞吐量,从而加快训练速度。 (Sliding window attention was previously proposed in Child et al. 2019 and Beltagy et al. 2020)
Zephyr 和 Mixtral
Mixture of Experts 101
如果你对 MOE 还比较陌生,可以参考下面的解释: 上面的图表展示了 Switch Transformer 的架构,该架构对每个 Token 使用 1 个Expert ,总共有 4 个Expert。另一方面,Mixtral-8x-7B 由 8 个Expert组成,每个 Token 对应 2 个Expert。为什么选择 MoE?
结合起来,像 Mixtral 这样的 7B 模型中的 8 个Expert,总共有约 56B 个参数。实际上,它少于 56B,因为 MoE 方法仅应用于 FFN (feed forward network, aka fully-connected) ,而不是self-attention weight matrices。因此,它可能更接近 40-50B 个参数。请注意, Router 会 rerouteToken,这样在前向传播过程中一次只使用<14B 个参数(2x <7B,而不是全部<56B),因此与传统的非 MoE 方法相比,训练(尤其是 inference)将会更快。
如果想要了解更多关于 MOE 的内容,这里有一个 Sophia Yang 推荐的阅读清单:
- The Sparsely-Gated Mixture-of-Experts Layer (2017)
- GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (2020)
- MegaBlocks: Efficient Sparse Training with Mixture-of-Experts (2022)
- Mixture-of-Experts Meets Instruction Tuning (2023)
此外,如果读者对尝试 MoE 和 LLM 感兴趣,也可以查看 OpenMoE 的repository,在今年早些时候实现并分享了 MoE LLM 地址:https://github.com/XueFuzhao/OpenMoE
(via the phi-1.5 paper,https://arxiv.org/abs/2309.05463) 更多关于 phi models 的资料:
- Textbooks Are All You Need -- the phi-1 paper
- Textbooks Are All You Need II: phi-1.5 Technical Report
- The Phi-2: The Surprising Power of Small Language Models announcement
7) Orca 2: Teaching Small Language Models How to Reason
这是一篇相对较新的论文,因此时间会证明它是否会在未来数月或数年内对我们如何训练 LLM 产生持久的影响。
收录这篇论文的原因在于:它融合了多个概念和观点:
它是如何工作的?简而言之,主要分为 4 个步骤:
- 用一组人类编写的指令(本例中为 175 条)和示例指令建立任务池;(Seed task pool with a set of human-written instructions (175 in this case) and sample instructions;)
- 使用预训练 LLM(如 GPT-3)确定任务类别;( Use a pretrained LLM (like GPT-3) to determine the task category)
- 给定新指令,让经过预训练的 LLM 生成响应(Given the new instruction, let a pretrained LLM generate the response)
- 收集、修剪和过滤回复,然后将其添加到任务池中(Collect, prune, and filter the responses before adding them to the task pool)
在图像和视频中的Object recognition和segmentation,以及分类和生成建模,是计算机视觉的主要研究领域。
简要说明这两项任务之间的区别:Object recognition是预测边界框和相关标签;segmentation则是对每个像素进行分类,以区分前景和背景物体: Object recognition(上图)与 Segmentation(下图)。 图片来自 YOLO 论文(https://arxiv.org/abs/1506.02640)和 Mask R-CNN 论文(https://arxiv.org/abs/1703.06870v3)
The Segment Anything Model 三个主要组成部分,见https://arxiv.org/abs/2304.02643 稍微详细一点,这三个部分可以总结如下:
- An image encoder utilizing a masked autoencoder based on a pretrained vision transformer (ViT) that can handle high-resolution inputs. This encoder is run once per image and can be applied before prompting the model
- A prompt encoder that handles two types of prompts: sparse (points, boxes, text) and dense (masks). Points and boxes are represented by positional encodings combined with learned embeddings for each prompt type. And free-form text uses an off-the-shelf text encoder from CLIP. Dense prompts, i.e., masks, are embedded using convolutions and summed element-wise with the image embedding.
- A mask decoder maps the image embedding, prompt embeddings, and an output token to a mask. This is a decoder-style transformer architecture that computes the mask foreground probability at each image location.
图像segmentation对于自动驾驶汽车、医学成像等应用至关重要。在短短 6 个月内,该论文已经被引用超过 1500 次,并且已经有许多项目在这篇论文的基础上构建。
10) Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
Emu 视频:通过显式图像条件分解文本到视频生成,是 Meta 研究部门的另一个值得注意的计算机视觉项目。Emu 是一个可以从文本提示生成整个视频的文本到视频模型, 虽然它不是第一个令人印象深刻的文本到 视频生成模型,但它与以前的作品相比有很大优势: Emu 与其他文本到视频模型的性能比较,见 https://arxiv.org/abs/2311.10709 正如作者所指出的,与之前的方法相比,Emu 架构的设置相对简单。
新年快乐!
新年快乐!2024 大展宏图,越来越好!
【阅读更多】
6000 字解读:当前大语言模型 LLM 研究的 10 大挑战
2023 年十大人工智能(LLM)必读论文(上)
最新!彻底颠覆 Office,微软发布 Copil
生成式 AI 颠覆前端,你该何去何从?
重磅突发!OpenAI 正式推出多模态 GPT-4
0
0
免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。
PoolX:锁仓获得新代币空投
不要错过热门新币,且APR 高达 10%+
立即参与!
你也可能喜欢
被解雇的编辑和被审查的文章:CoinDesk面临行业严厉审查
CoinDesk在删除一篇批评Justin Sun的文章后经历编辑动荡。包括主编在内的多名高层编辑在争议中被解雇。Charles Hoskinson质疑CoinDesk的未来价值,暗示由于最近的编辑决策,其价值已下降。
CoinEdition•2024/12/22 11:45
大帽山的TerraUSD骗局代价高昂:美国证监会处以1.23亿美元罚款
美国证券交易委员会对大帽山公司处以1.23亿美元罚款,原因是其误导投资者关于TerraUSD的稳定性。大帽山通过LUNA代币交易销售未注册证券,违反了法律。TerraUSD的崩溃暴露了加密货币透明度的缺陷和监管监督的需求。
CoinEdition•2024/12/22 11:45
彼得·希夫发布其提议的USAcoin升级版
CoinEdition•2024/12/22 11:45
比特币FUD达到年度最高点:这对BTC牛市意味着什么
CoinEdition•2024/12/22 11:45
加密货币价格
更多Bitcoin
BTC
$95,755.84
-1.61%
Ethereum
ETH
$3,308.63
-2.46%
Tether USDt
USDT
$0.9995
-0.03%
XRP
XRP
$2.21
-2.05%
BNB
BNB
$655.43
-1.58%
Solana
SOL
$180.97
-2.84%
Dogecoin
DOGE
$0.3110
-4.89%
USDC
USDC
$1.0000
-0.01%
Cardano
ADA
$0.8802
-4.59%
TRON
TRX
$0.2449
-0.38%
Bitget 盘前交易
在币种上市前提前买卖,包括 ME、TOMA、OGC、USUAL 等。
立即交易
立即成为交易者?新用户可获得价值 6200 USDT 的迎新大礼包
立即注册