预测模型

QLORA: Efficient Finetuning of Quantized LLMs

February 08, 2025

微调大型语言模型(LLMs)是提高性能和调整行为的有效方法。然而,对于非常大的模型来说,微调成本非常高昂,需要大量的GPU内存。传统的量化方法虽然可以减小模型的内存占用,但只适用于推理阶段,无法在训练过程中有效减少内存需求,这对于大型模型的微调构成了严重的限制。因此,当前研究面临着在保持性能的同时降低微调过程中的内存需求的挑战。

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

January 31, 2025

在⼈⼯智能领域,⽆监督语⾔模型(Language Models, LMs)的发展已经达到了令⼈惊叹的⽔平,这些模型能够在⼴泛的数据集上进⾏预训练,学习到丰富的世界知识和⼀定的推理能⼒。然⽽,如何精确控制这些模型的⾏为, 使其按照⼈类的偏好和⽬标⾏动,⼀直是⼀个难题。这主要是因为这些模型的训练完全是⽆监督的,它们从⼈类⽣成的数据中学习,⽽这些数据背后的⽬标、优先级和技能⽔平五花⼋⻔。例如,我们希望⼈⼯智能编程助⼿能够理解常⻅的编程错误以便纠正它们,但在⽣成代码时,我们⼜希望模型能偏向于它训练数据中的⾼质量编码能⼒,即使这种能⼒可能相对罕⻅。

DeepSeek V3 综述

December 30, 2024

Deepseek系列更看重“成本”与“效率“的平衡。 训练DeepSeek-V3每万亿tokens仅需要180KH800 GPU小时,假设H800 GPU的租赁价格为每GPU小时2美元,总训练成本仅为557.6万美元。 DeepSeek-V3 是一款拥有671B参数的大型混合专家(MoE) 模型,其中每个token 会有37 B参数被激活。 14.8T高质量token上完成了训练。

因果推断与科学评估

December 14, 2024

因果推断, 上海市, 上海市

实践经验发现,穿鞋睡觉的人第二天起床大概率都会头疼,我们可以确定“穿鞋睡觉”和“起床头疼”有正相关性。 那么,“睡觉穿鞋”是否是“起床头疼” 的原因? 相关性是否可以直接等价于因果性?什么情况下相关性=因果性? 因果性如何度量评估?

ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

December 01, 2024

位置编码最近在Transformer架构中显示出了有效性。在序列中不同位置元素之间的依赖关系建模,它提供有价值的监督。本文首先研究将位置信息集成到基于Transformer语言模型的学习过程。然后,作者提出一种新的方法,称为旋转位置编码(RoPE),可有效地利用位置信息。具体而言,所提出的RoPE用旋转矩阵对绝对位置进行编码,同时在自注意公式中引入显式的相对位置依赖性。值得注意的是,RoPE实现了有价值的特性,如序列长度的灵活性、随相对距离增加而衰减的token间依赖性,以及为线性自注意配备相对位置编码。最后,在各种长文本分类基准数据集上评估了这个旋转位置嵌入的增强Transformer,也称为RoFormer。RoFormer已集成到开源的Huggingface代码库中。

XGBoost: A Scalable Tree Boosting System-论文阅读

October 01, 2021

提升树是一种高效且被广泛使用的机器学习方法。在本文中,我们描述了一个可扩展的端对端的提升树系统,叫做XGBoost,该系统被数据科学家广泛使用,在许多机器学习任务中取得了显著效果。针对稀疏数据,我们提出一种新的稀疏数据感知算法。我们也提出了分布式加权分位数草图来近似实现树模型的学习。更重要的是,我们陈述了缓存访问模式、数据压缩和分片的见解以构建可扩展的提升树系统。通过结合这些知识,XGBoost可以使用比现有系统少得多的资源就能够扩展数十亿的实例。

DeepSeek-R1:通过强化学习提升LLM的推理能力

January 31, 2020

DeepSeek-V3的横空出世引起了轰动,当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时,DeepSeek-V3用557.6万美元的预算,在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间,就达到了足以与它们比肩的性能。DeepSeek-V3 是一个 MoE(Mixture-of-Experts)语言模型,总参数量 671B,每个 Token 激活的参数量为 37B。为实现高效训练与推理,DeepSeek-V3 延续了 DeepSeek-V2 的 MLA(Multi-head Latent Attention)及 DeepSeekMoE 架构。此外,DeepSeek-V3 首创了无需辅助损失的负载均衡策略,还使用了多 Token 预测训练目标以增强性能。

Timer:生成式预训练 Transformer 是大型时间序列模型

August 29, 2024

深度学习为时间序列分析的进步做出了巨大贡献。 尽管如此,深度模型在现实世界的数据稀缺场景中仍可能遇到性能瓶颈,而由于当前基准测试中小模型的性能饱和,这种瓶颈可能被隐藏起来。 同时,大型模型通过大规模预训练在这些场景中展现了强大的威力。 随着大型语言模型的出现,取得了持续的进步,表现出前所未有的能力,例如少样本泛化性、可扩展性和任务通用性,而这些能力是小型深度模型所不具备的。 为了从头开始改变训练场景小模型的现状,本文针对大型时间序列模型(LTSM)的早期开发。 在预训练过程中,我们整理了多达 10 亿个时间点的大规模数据集,将异构时间序列统一为单序列序列 (S3) 格式,并开发面向 LTSM 的 GPT 风格架构。 为了满足不同的应用需求,我们将时间序列的预测、插补和异常检测转换为统一的生成任务。

A decoder-only foundation model for time-series forecasting-论文阅读

June 14, 2024

该工作提出了一种time series foundation model,名为TimesFM。该工作的关键在于构建了一个时间序列预测数据集,该数据集由Google trends, Wiki Pageviews和合成数据组成。TimesFM的性能上略微优胜llmtime,也优胜了traditional methods。

FTTransformer预测准确率超过LightGBM-论文阅读

May 14, 2024

FTTransformer是一个可以用于结构化(tabular)数据的分类和回归任务的模型。 FT 即 Feature Tokenizer的意思,把结构化数据中的离散特征和连续特征都像单词一样编码成一个向量。 从而可以像对text数据那样 应用 Transformer对 Tabular数据进行特征抽取。 值得注意的是,它对Transformer作了一些微妙的改动以适应 Tabular数据。

Long-term Forecasting with TiDE: Time-series Dense Encoder - 论文阅读

April 04, 2024

最近的工作表明,在长期时间序列预测中,简单的线性模型可以优于几种基于Transformer的方法。受此启发,文章提出了一种基于多层感知器(MLP)的编码器-解码器模型,即时间序列密集编码器(TiDE),用于长期时间序列预测,该模型具有线性模型的简单性和速度,同时能够处理协变量和非线性依赖关系。理论上,文章证明了该模型的线性类似物可以在某些假设下实现对线性动力系统(LDS)的近最优错误率。经验上,该方法可以在流行的长期时间序列预测基准上匹配或优于以前的方法,同时比最好的基于Transformer的模型快5-10倍。

Revisiting Deep Learning Models for Tabular Data - 论文阅读

December 04, 2023

现有的关于表格数据深度学习的文献提出了各种新颖的架构,并在多个数据集上报告了竞争性的结果。然而,这些模型通常没有被适当地相互比较,并且现有的研究通常使用不同的基准和实验协议。因此,对于研究人员和实践者来说,哪个模型表现最佳尚不清楚。

Selective review of offline change point detection methods-论文阅读

October 06, 2023

本文介绍了离线检测多元时间序列中多个变化点的算法的选择性调研。采用了一种普适而有结构的方法论策略来组织这个广泛的研究领域。具体而言,本综述中考虑的检测算法由三个要素来描述:代价函数、搜索方法和变化点数量的约束。对这些要素进行了描述、评估和讨论。本文还提供了在名为ruptures的Python软件包中实现的主要算法的实例。

Reversible Instance Normalization for Accurate Time-Series Forecasting Against Distribution Shift - 论文阅读

April 12, 2022

时间序列中的统计属性经常发生变化,即数据分布随时间而变化。这种时间分布变化是阻碍准确时间序列预测的主要挑战之一。为了解决这个问题,我们提出了一种简单但有效的归一化方法,称为可逆实例归一化(RevIN)。具体来说,RevIN 由两个不同的步骤组成,归一化和非归一化。前者对输入进行归一化以根据均值和方差来固定其分布,而后者将输出返回到原始分布。此外,RevIN 与模型无关,通常适用于各种时间序列预测模型,预测性能有显着提高。如图 1 所示,RevIN 有效地增强了基线的性能。我们广泛的实验结果验证了对各种现实世界数据集的普遍适用性和性能改进。

Transformers are RNNs:Fast Autoregressive Transformers with Linear Attention-论文阅读

March 14, 2020

Transformers 在一些任务中取得了显著的性能,但由于其二次复杂度(相对于输入长度),对于非常长的序列,它们的速度会非常慢。为了解决这一限制,我们将 self-attention 表示为核特征图的线性点积,并利用矩阵乘积的结合性将复杂度从O(N2) 降低到O(N),其中N为序列长度。我们展示了这种公式允许迭代实现,极大地加速了自回归Transformers ,并揭示了它们与循环神经网络的关系。我们的线性Transformers 实现了与普通Transformers 相似的性能,并且在非常长的序列的自回归预测方面快了4000倍。

Attention is all you need - 论文阅读

November 04, 2018

Transformer是一种仅使用attention机制、encoder-decoder架构的神经网络,最初应用于NLP领域的机器翻译,后逐渐在语音、CV、时间序列分析等多个领域成为主流深度模型。