在过去的几个月里,我们看到整个行业和研究界对基于LLM的新审核系统的热情越来越高,这有助于使审核在应用程序中更具可扩展性和稳健性。我们的模型是一个LLM分类器,经过训练,可以将文本输入分为下面定义的9个类别。我们发布了两个端点:一个用于原始文本,一个用于会话内容。不受欢迎的内容非常特定于给定的上下文,因此我们训练了我们的模型来对会话上下文中的最后一条对话消息进行分类。查看我们的技术文档以获取更多信息。该模型本身支持多种语言,特别是阿拉伯语、汉语、英语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语。
Content Moderation分类器利用最相关的政策类别作为有效的护栏,并通过解决模型产生的危害(如不合格的建议和PII),为LLM安全引入了一种务实的方法。有关如何开始的全套政策定义和详细信息,请参阅我们的 技术文件.
我们在下面的内部测试集上跨政策共享AUC PR。
我们正在与客户合作,构建和共享可扩展、轻量级和可定制的审核工具,并将继续与研究界合作,为更广泛的领域贡献安全进步。