训练_搜你所想

AI大模型探索之路-训练篇10：大语言模型Transformer库-Tokenizer组件实践

系列篇章💥 AI大模型探索之路-训练篇1：大语言模型微调基础认知 AI大模型探索之路-训练篇2：大语言模型预训练基础认知 AI大模型探索之路-训练篇3：大语言模型全景解读 AI大模型探索之路-训练篇4：大语言模型训练数据集概览 AI大模型探索之路-训练篇5：大语言模型预训练数据准备-词元化 AI大模型探索之路-训练篇6：大语言模型预训练数据准备-预处理 AI大模型探索之路-训练篇7：大语言模型Tra...

(view)

【图像超分】论文复现：Pytorch实现RDN！保姆级复现教程！实现与原论文基本一致的PSNR和SSIM！代码注释详尽！易读易复用！可用于训练自己的数据集！附完整代码和各放大倍数下的最优模型权重文件！

超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）项目代码和最优性能的权重文件下载见文末链接！！！可以复现论文、训练自己的数据集，详细代码使用说明！！！同时包含最优性能的模型权重文件（x2、x3、x4），可以直接用来超分自己的图像！！！本文亮点：详解RDN的网络结构、训练流程、测试流程、画图流程，代码注释详细，...

(view)

AI大模型探索之路-训练篇6：大语言模型预训练数据准备-预处理

系列篇章💥 AI大模型探索之路-训练篇1：大语言模型微调基础认知 AI大模型探索之路-训练篇2：大语言模型预训练基础认知 AI大模型探索之路-训练篇3：大语言模型全景解读 AI大模型探索之路-训练篇4：大语言模型训练数据集概览 AI大模型探索之路-训练篇5：大语言模型预训练数据准备-词元化目录系列篇章💥前言一、数据准备1、通用文本数据2、专业文本数据二、数据质量过滤1、基于启发式规则2、基于分...

(view)

AI大模型探索之路-训练篇4：大语言模型训练数据集概览

文章目录前言一、常用的预训练数据集1、网页2、书籍3、维基百科4、代码5、混合型数据集二、常用微调数据集1、指令微调数据集1.1 自然语言处理任务数据集1.2 日常对话数据集1.3 合成数据集 2、人类对齐数据集前言在人工智能领域，构建强大的AI系统的关键步骤之一是大规模的语言模型预训练。为了实现这一目标，需要大量且多样化的训练数据。以下是对目前常用于训练大语言模型的数据集的整理与概述。一...

(view)

【深度学习实战（25）】搭建训练框架之ModelEMA

oating_point: v *= d v += (1 - d) * msd[k].detach() 三、ModelEMA完整实现 #----------------------## 判断是否并行训练模式#----------------------#def is_parallel(model): # Returns True if model is of type DP or DDP ret...

(view)

AI大模型探索之路-训练篇3：大语言模型全景解读

历程1. 第一阶段：统计语言模型（Statistical Language Model, SLM）2. 第二阶段：神经语言模型（Neural Language Model, NLM）3. 第三阶段：预训练语言模型（Pre-trained Language Model, PLM）4. 第四阶段：大语言模型（Large Language Model, LLM）二、大语言模型的能力特点三、大语言模型关键技...

(view)

Python 基于 OpenCV 视觉图像处理实战之 OpenCV 简单人脸检测/识别实战案例之六简单进行人脸训练与识别

Python 基于 OpenCV 视觉图像处理实战之 OpenCV 简单人脸检测/识别实战案例之六简单进行人脸训练与识别目录 Python 基于 OpenCV 视觉图像处理实战之 OpenCV 简单人脸检测/识别实战案例之六简单进行人脸训练与识别一、简单介绍二、简单进行人脸训练与识别 1、LBPH（Local Binary Patterns Histograms）算法进行人脸训练和识...

(view)

代码训练LeetCode(15)买卖股票

代码训练(15)LeetCode之买卖股票 Author: Once Day Date: 2024年4月22日漫漫长路，才刚刚开始… 全系列文章可参考专栏: 十年代码训练_Once-Day的博客-CSDN博客参考文章: 122. 买卖股票的最佳时机 II - 力扣（LeetCode）力扣 (LeetCode) 全球极客挚爱的技术成长平台文章目录代码训练(15)LeetCode之买卖股票1. ...

(view)

【极速前进】20240422：预训练RHO-1、合成数据CodecLM、网页到HTML数据集、MLLM消融实验MM1、Branch-Train-Mix

一、RHO-1：不是所有的token都是必须的论文地址：https://arxiv.org/pdf/2404.07965.pdf 1. 不是所有token均相等：token损失值的训练动态。使用来自OpenWebMath的15B token来持续预训练Tinyllama-1B，每1B token保存一个checkpoint。对于每个checkpoint都评估token级别的loss。通过分析...

(view)

政安晨：【深度学习神经网络基础】（九）—— 在深度学习神经网络反向传播训练中理解梯度

目录简述理解梯度什么是梯度计算梯度简述在深度学习神经网络中，反向传播是一种用来训练神经网络的常用方法。它通过计算损失函数对于网络参数的梯度，然后使用梯度下降算法更新参数，以降低损失函数的值。梯度表示了函数在某一点上的变化率和方向，对于神经网络而言，梯度表示了损失函数对于网络参数的变化率和方向。在反向传播过程中，首先通过前向传播计算出网络的输出和损失函数的值，然后利用链式法则逐层计算参数的...

(view)

上一页 1 2 3 4 5 6 7 8 10 下一页