标签:AI模型评测

MMBench

MMBench官网 MMBench是一个多模态基准测试,该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集...

OpenCompass

OpenCompass官网 OpenCompass是由上海人工智能实验室(上海AI实验室、于2023年8月正式推出的大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言...

LLMEval3

LLMEval3官网 LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学...

FlagEval

FlagEval官网 FlagEval(天秤、由智源研究院将联合多个高校团队打造,是一种采用“能力—任务—指标”三维评测框架的大模型评测平台,旨在提供全面、细致的评测...

CMMLU

CMMLU官网 CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了从基础学科到高级专业水平的67个主题。网站服务:C...

SuperCLUE

SuperCLUE官网 SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。网站服务:SuperCLUE...

HELM

HELM官网 HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示...

MMLU

MMLU官网 MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berk...

Open LLM Leaderboard

Open LLM Leaderboard官网 Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Eva...

H2O EvalGPT

H2O EvalGPT官网 H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用...
123