创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
发布日期:2024-10-30 03:58 点击次数:77
AIxiv专栏是机器之心发布学术、工夫现实的栏目。夙昔数年,机器之心AIxiv专栏收受报说念了2000多篇现实,袒护环球各大高校与企业的顶级实验室欧美视频,灵验促进了学术交流与传播。若是您有优秀的使命思要共享,迎接投稿或者商量报说念。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.co
器具调用是 AI 智能体的过错功能之一,AI 智能体凭据场景变化动态地采选和调用合适的器具,从而杀青对复杂任务的自动化处分。举例,在智能办公场景中,模子可同期调用文档剪辑器具、数据处分器具和通讯器具,完成文档撰写、数据统计和信息交流等多项任务。
业界已发布的器具调用模子,在特定评测基准上有接近以至卓绝闭源 SOTA 模子(比如 GPT-4)的发达,但在其他评测基准高下落彰着,难以泛化到新器具和新场景。为应答这一挑战,来自 OPPO 辩论院和上海交通大学的辩论团队建议函数掩码(Function Masking) 本领,构建了具备深广泛化智商的轻量化器具调用系列模子:Hammer,并开源了完好意思的工夫栈,旨在匡助诞生者构建个性化的末端智能欺诈。
在器具调用典型评测基准上,包括 Berkeley Function-Calling Leaderboard(BFCL)、API-Bank、Seal-Tools 等,Hammer 系列模子展现了出色的总体性能,绝顶是 Hammer-7B 模子,轮廓遵守仅次于 GPT-4 等闭源大模子,在器具调用模子中轮廓排行第一,具备深广的新场景和新器具泛化智商。
模子地址:https://huggingface.co/MadeAgents
论文地址:https://arxiv.org/abs/2410.04587
代码地址:https://github.com/MadeAgents/Hammer
器具调用任务证据
器具调用算作 AI 智能体实行复杂任务所必备的中枢智商,要求模子不仅大约识别正确的函数,还要准确填写函数的输入参数;若是给定函数列表无法高慢用户的意图,模子也应具备拒绝任务的智商。下图是器具调用模子输入输出的一个样例:
Hammer 考试本领
辩论团队在 Hammer 的考试历程中引入了一项过错工夫:函数掩码(Function Masking) 和一个增强数据集:不商量性检测增强数据集(Irrelevance-Augmented Dataset)。
函数掩码旨在减少模子对函数称呼和参数称呼的依赖,中枢是通过哈希化函数称呼和参数称呼,使模子在实行器具调用任务时不得不依赖更完备且可靠的功能态状信息,而不是对称呼的操心或匹配。这种神气有助于减少因定名互异导致的误判问题,进步模子在各样化定名格妥洽欺诈场景中的踏实性和稳健性。
不商量性检测增强数据集旨在匡助模子在给定用户意图而现时无适用函数的情况下,大约正确判断并给出「不商量」信号。该数据集包含了 7,500 个增强样本,磋磨时均衡了器具调用任务和不商量性检测任务的比例,以达到最好的轮廓遵守。(已开源至:https://huggingface.co/datasets/MadeAgents/xlam-irrelevance-7.5k)
Hammer 总体发达
女王 调教Hammer 系列模子在器具调用典型评测基准上均展现了出色的性能,具体发达如底下的两张表格所示。不错看到,在 BFCL 榜单上,Hammer-7B 模子的总体准确率达到 83.92%,接近闭源 SOTA 模子 GPT-4 的 95.79%,优于其他器具调用模子。同期,在其他评测基准上,Hammer-7B 模子的平均 F1 达到 76.21%,接近闭源模子 GPT-4 的 78.79%,大幅越过其他器具调用模子。Hammer-7B 大约在参数界限较小的情况下,在不同评测基准上与闭源 SOTA 大模子竞争,充分展示了 Hammer 模子在各样器具调用任务中的准确性和踏实性。
函数掩码工夫的通用性
辩论团队还将函数掩码和数据增强工夫欺诈于不同的基础模子,以考证其通用性。实验采选了 Qwen 系列和 Deepseek-Coder 系列模子算作基准,并在不异的考试和测试要求下进行比拟。下表中的为止泄露,经过函数掩码工夫调优后的 Hammer 版块权贵进步了基础模子的器具调用准确性,远高于未调优版块,清晰了函数掩码和不商量性数据增强对不同模子架构均有权贵的优化遵守。同期,在使用不异的基座模子和基础数据的情况下,与 xLAM(同样基于 Deepseek 微调而来的器具调用模子)的对比,也体现了函数掩码及不商量性数据增强的作用。
不商量性数据增强比例的衡量
在磋磨不商量性数据增强时,辩论团队测试了不同比例的不商量性数据样本对模子发达的影响。下图实验为止标明,合理比例的不商量性增强数据(约占总额据的 10%)大约在进步器具调用准确性的同期,权贵增强模子在不商量检测场景中的识别智商,缩小造作调用的风险。实验为止还泄露,进一步增多不商量性数据会略略缩小功能调用的准确性,因此找到合乎的均衡点至关遑急。
归来
Hammer 模子通过函数掩码工夫和不商量性检测数据增强,在多个评测基准中获得了讲究的遵守,发达出深广的泛化智商和踏实性,为轻量化器具调用模子在末端欺诈上前迈了一步。
Hammer 系列现在已更新至 2.0 版块欧美视频,迎接感趣味趣味的读者通过 huggingface 进行体验!