Naver 旗下的云计算部门韩国Naver Cloud周二宣布,其HyperCLOVA X在韩国人工智能性能评估系统Measureing Massive Multitask Language Understanding in Korean(KMMLU)中的得分高于OpenAI和谷歌的生成型人工智能。
KMMLU是由国内著名开源语言模型研究团队HAE-RAE牵头的人工智能性能评估指标建设项目。
它由35030个问题组成,要求获得45个领域的专家级知识,包括人文学科、社会学、科学和技术。
大约80%的问题要求获得可在世界范围内应用的广泛知识,如数学推理能力,而20%的问题评估解决朝鲜特定问题的能力,如朝鲜半岛的地理和国内法。
Naver表示,KMMLU由韩语试题组成,可以更准确地评估人工智能的韩语理解能力,测量通用能力和本地知识,以全面判断对韩国用户有用的人工智能解决方案。
根据KMMLU的研究论文,HyperCLOVA X的得分高于OpenAI的GPT-3.5-Turbo和谷歌的Gemini Pro,甚至在韩国特定知识方面超过了OpenAI的GPT-4。
Naver Cloud计划基于KMMLU证明的竞争性能,将HyperCLOVA X开发成一个兼具安全性和性能的主权人工智能解决方案。