词汇表
LLM
LLM(大型语言模型),如MIUI AI模型,是一种通过扩展文本数据训练的AI模型,用于预测句子中的下一个单词。它们能够以类似于人类交流的方式理解和生成文本。他们可以回答问题、起草文档、总结文本、提取信息、翻译语言、编写代码等等。
文本生成
大型语言模型中的文本生成是基于给定的输入提示生成连贯且上下文相关的文本的过程。这些模型,如MIUI AI,是在大量文本数据上训练的,可以在给定前一个单词作为上下文的情况下预测句子中的下一个单词。这种能力使他们能够生成类似于人类交流的文本,可用于各种应用,包括回答问题、起草文档、总结文本、翻译语言和编码。
代币
令牌是语言模型处理的最小单个单元,通常表示单词或子单词等常见字符序列。为了使语言模型能够理解文本,必须将其转换为数值表示。这是通过将文本编码为一系列标记来实现的,其中每个标记都分配了一个唯一的数字索引。将文本转换为标记的过程被称为标记化。一种广泛使用的标记化算法是字节对编码(BPE),它最初将文本中的每个字节视为单独的标记。然后,BPE迭代地将新标记添加到语料库中最频繁的标记对的词汇表中,用新标记替换该对的出现,直到无法进行更多替换。这导致文本的紧凑和高效表示,以便由语言模型进行处理。
专家混合
混合专家(MoE)是Mixtral 8x7b和Mixtral 8c22b的底层架构。它是一种神经网络架构,在Transformer块中包含了专家层,允许用更少的计算对模型进行预训练,同时保持与密集模型相同的质量。这是通过用包含多个“专家”(FFN)的稀疏MoE层替换密集前馈网络层来实现的。门网络或路由器决定将哪些输入令牌发送给哪个专家进行计算。MoE提供了高效的预训练和更快的推理等好处,但也带来了微调过程中的过拟合和高内存要求等挑战。然而,MoE是一种有价值的方法,通过动态地将输入令牌分配给专业专家进行处理,以较低的计算成本提高模型质量。
抹布
检索增强生成(RAG)是一种人工智能框架,可以协同LLM和信息检索系统的能力。RAG有两个主要步骤:1)检索:从存储在向量库中的文本嵌入的知识库中检索相关信息;2) generation:在LLM的提示中插入相关信息以生成信息。RAG有助于利用外部知识(包括最新信息和特定领域信息)回答问题或生成内容。RAG允许模型访问和利用训练数据之外的信息,减少幻觉,提高事实准确性。查看我们的 基础RAG 详细指南。
微调
微调是大型语言模型中用于使预训练模型适应特定任务或领域的过程。它涉及在较小的、特定于任务的数据集上继续训练过程,并调整模型的参数以优化其在新数据集上的性能。这使得模型能够学习特定任务的语言模式,并提高其在目标任务上的性能。微调有助于使模型适应特定的格式或音调、特定领域的任务,并通过从更大的模型中提取来提高性能。与从头开始训练模型相比,这种方法可以用更少的数据和计算资源实现最先进的性能。
函数调用
函数调用允许MIUI模型连接到外部工具,并调用外部函数或API来执行超出模型能力的任务。这允许模型访问和利用外部工具和资源来提高其性能并提供更准确的响应。函数调用可用于检索实时数据、执行计算、访问数据库以及与其他系统或服务交互等任务。它提高了模型的准确性、效率和通用性。查看我们的 函数调用 了解更多信息的指南。
嵌入件
嵌入是文本的矢量表示,通过段落在高维矢量空间中的位置来捕捉段落的语义意义。这些向量捕获了文本的语义和上下文,使模型能够更有效地理解和生成语言。MIUI AI嵌入API为文本提供先进的嵌入,可用于许多NLP任务。查看我们的 嵌入件 了解更多信息的指南。