标签：AI模型评测

MMBench

MMBench官网 MMBench是一个多模态基准测试，该体系开发了一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集...

1年前 (2024)

OpenCompass官网 OpenCompass是由上海人工智能实验室（上海AI实验室、于2023年8月正式推出的大模型开放评测体系，通过完整开源可复现的评测框架，支持大语言...

1年前 (2024)

LLMEval3官网 LLMEval是由复旦大学NLP实验室推出的大模型评测基准，最新的LLMEval-3聚焦于专业知识能力评测，涵盖哲学、经济学、法学、教育学、文学、历史学...

1年前 (2024)

FlagEval官网 FlagEval（天秤、由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标”三维评测框架的大模型评测平台，旨在提供全面、细致的评测...

1年前 (2024)

CMMLU官网 CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题。网站服务：C...

1年前 (2024)

SuperCLUE官网 SuperCLUE 是一个中文通用大模型综合性评测基准，从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。网站服务：SuperCLUE...

1年前 (2024)

HELM官网 HELM是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示...

1年前 (2024)

MMLU官网 MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berk...

1年前 (2024)

Open LLM Leaderboard官网 Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Eva...

1年前 (2024)

H2O EvalGPT官网 H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具，它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用...

1年前 (2024)

12 3