语料库¶
语料库指经过整理,具有既定格式与标记的大量文本。传统上语料库通常是真实发生的,机器可读的,经过严格的取样而来的,服务于特定目的的语言样本。但并不是所有自定义的语义知识都能收集到足够的语言文本,即便可以收集到,为了保证机读精度,对原始语料进行标注也需要耗费巨大的人工成本。这对低成本、大规模商业化应用并不现实。我们将语义路径生成的语言样本作为语料库的来源,有诸多好处:
语料库指经过整理,具有既定格式与标记的大量文本。传统上语料库通常是真实发生的,机器可读的,经过严格的取样而来的,服务于特定目的的语言样本。但并不是所有自定义的语义知识都能收集到足够的语言文本,即便可以收集到,为了保证机读精度,对原始语料进行标注也需要耗费巨大的人工成本。这对低成本、大规模商业化应用并不现实。我们将语义路径生成的语言样本作为语料库的来源,有诸多好处: