Alpha

Thinking will not overcome fear but action will.

黑客松思考之大话AI

是大模型呀

黑客松思考之大话AI 因为种种原因,要离开啦。来不及一一道别。有收获也有遗憾,不管怎样,希望我们每个人都能找到最初的自己,祝各位安好。 因为之前参加了黑客松比赛,我们的作品ChatTravel拿到了最佳合作奖和最佳人气奖(虽然实现极其简单,望各位别吐槽啊 😂,但我们的美好愿景,还是希望滴滴可以成为集各出行能力于一体的 智能个人助手)。这次受主办方邀请,回顾下黑客松的参赛作品,恰逢组内分享...

大语言模型微调实践记录

是大模型呀

大语言模型微调实践记录 背景 根据目前公开的训练范式,大模型微调主要经过三个步骤的训练: 万亿Token预训练 SFT指令对齐 RLHF阶段 目前开源的模型大部分为基座大模型与对齐后的chat模型,大体对应了两个阶段中的1与2阶段。本篇将记录根据开源的基座大模型进行SFT微调的实战记录。 基座大模型是不具备对话能力的,所以回答会出现牛头不对马嘴的情况。所以需要我们针...

如何充分高效训练多轮对话模型

是大模型呀

如何充分高效训练多轮对话模型 原文出处: HuggingFace 前言 本次讨论的话题为如何训练大模型的多轮对话能力。 本文将详细介绍Firefly项目中时如何充分高效利用多轮对话数据训练大模型。注意,我们重点圈出了【充分】和【高效】两个关键词,这是Firefly项目训练多轮对话的特点。 Fireyfly项目链接: https://github.com/yangjianxin1/...

解码的生成多样性

是大模型呀

解码的生成多样性 原文出处: https://huggingface.co/docs/transformers/v4.18.0/en/main_classes/text_generation https://huggingface.co/blog/zh/how-to-generate 对于自回归文本生成任务中的预训练模型,每一个框架都有对应的generate生成方法,一般封...

大型语言模型初探 + 实施路线探讨

是大模型呀

大型语言模型初探 + 实施路线探讨 ​ 4月初惊艳于ChatGPT与stable diffusion的模型效果,才发觉自己跟业界最新进展落后的程度很大(还停留在Bert时代),所以对相关内容开始了一顿恶补,并初步进行了动手尝试,下面简要总结下大模型前期的调研与这两天的实践成果。 ​ 近期做的尝试主要进行了模型微调与上层应用构建两件事,时间跨度分别为10天与1天。起初模型微调效果不理想...

电影聚合网站的建设-前后端建站全过程回顾

Programming Massively Parallel Processors

​ 疫情三年,经历很多了事情,年纪也来到了32岁,这三年熟悉的朋友大部分都离开了北京,自己的心境也发生了很多变化,由焦虑、抑郁逐渐转为目前的自洽,才发现这是一场与自己斗争的战争,幸运的事,这场战争目前我幸存下来了。由于在抗争的过程中,发现自己的时间原来可以去做好多事情,不是只躺在床上打游戏浪费时间,时间真是个好东西。 ​ 言归正传,本篇呢,是今年开始逐渐给自己找事做,自己建了一个小站的...

CUDA-Parallel patterns convolution

Programming Massively Parallel Processors

本章主要介绍了卷积作为一种重要的并行计算模式。首先展示了基本的并行卷积算法,其执行速度受到了DRAM带宽的限制。然后提出了tiling kernel。并介绍了一种数据缓存的简化版代码。最后介绍了2D卷积核。 在高性能计算中,卷积通常称为stencil computation。因为每一个输出元素均可以独立计算,且输入数据共享了输出元素,这些特性使得卷积成为复杂tiling 方法与输入数据分布策...

CUDA-Performance considerations

Programming Massively Parallel Processors

性能考量 在不同的应用程序中,由于不同因素,经常会遇到性能瓶颈。我们需要考虑清楚是算法策略还是硬件因素的影响,基于这个认识,本章将给出算法模式的类型对高性能表现的影响。 全局内存带宽 影响CUDA Kernel表现的主要因素之一是对全局内存的数据访问。本节将介绍Memory coalescing技术,该技术经常与tiling技术一起应用以高效利用全局内存带宽。 CUDA设备中全局内存的实现...

深度学习模型性能影响分析

模型参数,内存访问

http://machinethink.net/blog/how-fast-is-my-model/ 在移动端部署深度学习模型时,准确率并不是唯一需要衡量的因素,还需要考虑以下4个方面: 模型占用的app内存空间大小-一个模型可能给app增加100MB。 运行时占用的内存大小-iPhone和iPad的GPU会占用设备的全部RAM,但是只有几GB。 模型运行的速度-特别是当运行实...

CUDA-Memory and data locality

Programming Massively Parallel Processors

本章总结了共享内存的用法以及注册器可以影响每个流多处理器能容纳的线程BLOCK的数量—memory bound. 迄今为止我们了解的知识只是挖掘了潜在硬件性能的很小一部分.程序的糟糕表现主要是由于全局内存的长访问延迟和有限的获取带宽,通常是由Dynamic Random Access Memory.(DRAM). 内存高效访问的重要性 compute-to-global-memory-acc...