史丹佛大学人本人工智能学院稍早公布10款被大量采用的大型自然语言模型透明度指标,其中获得最高分的是Meta旗下Llama 2,而排名最低的则是亚马逊旗下Titan Text,至于OpenAI的GPT-4则在排名第四,Google的PaLM 2则位居第五,在 Stability.ai 排名之后。
不过,报告中也指出即便Llama 2在10款大型自然语言模型中的透明度排名第一,但实际上的透明度仅有54%,而Google的PaLM 2也仅有40%透明度,作为商用的亚马逊Titan Text透明度更仅有12%。
此指标报告的透明度计算方式,包含业者是否对外公布模型运作模式、规模及架构等,另外也包是否提供相关监控机制及补救调整方式,而透明度高低更意味用户能信赖大型自然语言模型的程度。 而从负责使指标报告制作的斯坦福大学人本人工智能学院基础模型研究中心看法认为,当前列入计算的大型自然语言模型实际上都无法完全信赖,并不建议企业或政府机构运用此类模型打造服务。
史丹佛大学人本人工智能学院总计制定100项用于评估大型自然语言模型透明度的指标,其中约三分之一用于评估模型如何被建立、训练使用数据、建立模型时花费人力等,而其他三分之一则包含模型实际运作表现、可信度、风险程度,以及改善方式,剩余三分之一则包含提供模型的业者采取政策、业者是否针对受影响情况提供协助等。