语料库

语料库指经过整理,具有既定格式与标记的大量文本。传统上语料库通常是真实发生的,机器可读的,经过严格的取样而来的,服务于特定目的的语言样本。但并不是所有自定义的语义知识都能收集到足够的语言文本,即便可以收集到,为了保证机读精度,对原始语料进行标注也需要耗费巨大的人工成本。这对低成本、大规模商业化应用并不现实。我们将语义路径生成的语言样本作为语料库的来源,有诸多好处:

  1. 词表:语料库提供已自动分词的知识词表,支持人工校对;

  2. 语料:语料库中的语料是由路径生成的已自动标注分词和命名实体的短语和句子;

  3. 知识图谱:语义库还提供知识图谱等结构化数据;

  4. 下载任务:经过不断扩展,语义路径生成的文本可直接解析到语义知识,这就使经过训练(或调优)之后的大语言模型可以应用到更大规模的自然语言场景之中。