IIWAB

语言模型的发展阶段

语言模型的发展主要经历了以下四个阶段：统计语言模型阶段：20世纪90年代，统计语言模型成为自然语言处理的主要技术。其核心思想是基于马尔可夫假设，通过统计语言序列中词与词之间的频率关系来预测下一个词的出现概率，通常使用固定长度的上下文窗口，如二...

Unigram（一元模型）定义：单个的词语或者符号。示例：在句子“我爱自然语言处理”里，unigram 有“我”“爱”“自然”“语言”“处理”。用途：可用于词频统计，像构建词袋模型就会用到。 Bigram（二元模型）定义：由两个...

在PyTorch中，常见的梯度下降优化算法有多种：随机梯度下降（SGD）原理：每次使用一个样本进行梯度计算和参数更新。优点：计算速度快，能够处理大规模数据集，容易实现。缺点：梯度估计方差较大，导致收敛过程可能会有较大波动，有时需要较长时...

计算方式批量梯度下降（BGD）：每次更新参数时都使用整个训练数据集来计算梯度。具体来说，对于具有(m)个样本的训练集，其梯度计算是对所有样本的损失函数关于参数的偏导数求和，然后再根据梯度更新参数。随机梯度下降（SGD）：每次更新参数时只使用...

损失函数数学公式用途特性 nn.MSELoss( \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 )回归问题，如预测房价、股票价格等。对异常值敏感，会放大预测值和真实值之...

初始化方法函数名原理适用场景优点缺点零初始化nn.init.zeros_将所有的权重参数初始化为零不适用（极少情况）简单易实现会导致所有神经元学习到相同的特征，造成对称问题，模型无法收敛随机初始化nn.init.uniform_在指定的均...

在Transformer架构里，Encoder、Decoder、Cross Attention和Self Attention是关键组件， 1. Self Attention Self Attention是Transformer的核心机制，它能够让...

RNN与CNN的主要区别体现在应用领域、网络结构、数据处理方式、擅长任务类型及训练挑战五个方面。CNN适用于图像等空间数据，而RNN更适合时间序列或文本等序列数据。一、应用领域差异 CNN的核心应用是计算机视觉领域，例如图像分类、目标检测等。其...

动量（Momentum）：在物理学中，动量是物体质量与速度的乘积，是一个矢量。在机器学习和深度学习的优化算法中，动量是一种常用的技术，模拟了物体运动时的惯性。以随机梯度下降（SGD）算法为例，加入动量后，每次更新参数时不仅考虑当前的梯度，还会考虑...

在 Windows 系统上使用 Docker 部署 Milvus 可以按照以下步骤进行：安装 Docker Desktop for Windows 确保的 Windows 系统满足 Docker Desktop 的要求（例如 Window...