极客分享
14:05 · Jul 14, 2023 · Fri
#AI #ChatGPT #排行榜
📊
AlpacaEval - 一个用于自动评估大语言模型的工具
🧩
开源地址
📄
AlpacaEval 可以测试和评估语言模型在理解和执行自然语言指令方面的能力,它是一种基于 LLM 的全自动评估基准,且更加快速、廉价和可靠
研究人员以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与 GPT-3.5 的回复进行比较,计算获胜率
📮
投稿
📢
频道
💬
群聊
Home
Powered by
BroadcastChannel
&
Sepia