Transformer 详解
Transformer模型于2017年由Google的一个团队推出,正在逐步取代LSTM、GRU等RNN模型,成为在NLP问题上的首选模型。他被广泛应用于机器翻译、聊天机器人等领域,大名鼎鼎的BERT、ChatGPT等都采用了Transformer模型。本文是笔者学习Transformer模型的学习笔记,希望可以简单清晰的介绍Transformer的网络架构和其中涉及到的各项技术。
more...CNN | Network Architecture Designed for Image
卷积神经网络(Convolutional Neural Network)是一种专为图像处理设计的神经网络结构。相比于全连接神经网络结构,卷积神经网络在面对图像相关任务时有突出的表现,这是因为这种特殊的网络结构的设计思路与图像本身的特征紧密相关,也正因为如此,如果想将CNN应用于其他模态任务中,应根据具体模态的特征对网络进行修改。「著名的AlphaGo就是基于CNN结构来进行学习的」
more...在 RTX 4080 上运行 tensorflow 2
花了半天时间帮学姐调了一下原本项目代码无法在RTX 4080显卡上使用的bug,本质上是tensorflow2版本的问题,查了下之后发现这个问题其实还是很普遍的,所以记录一下。
more...ML Regularization
正则化主要用于避免过拟合的产生和减少网络误差,其本质就是选择更加平滑的Loss函数曲线(限制模型复杂度),使得异常数据对于模型影响较小。注意:我们追求“较”平滑的曲线,而非绝对平滑的曲线。
more...







