今日报丨OpenAI开发新工具，试图解释大语言模型的行为

2023-05-10 10:20:11 来源：站长之家编辑：bj001

站长之家（ChinaZ.com）5月10日消息:在很多人看来，与OpenAI 的 ChatGPT类似的大型语言模型（LLM）就像一个黑匣子，因为即使对于数据科学家来说，也很难知道为什么这些模型总是以自己的方式做出反应，就像凭空捏造事实一样。

为了能够剖析 LLM 的的行为，OpenAI 正在开发一种工具来自动识别 LLM 的哪些部分对其行为负责。简单的说，OpenAI在最新的发布成果中，展示了用 GPT-4解释 GPT-2的行为，获得了初步的成果。

OpenAI开发的工具通过调用 GPT-4来计算出其他架构更简单的语言模型上神经元的行为。该工具会为 LLM 中的每个神经元生成解释，这些解释被编译到与工具代码一起发布的数据集中。

【资料图】

大模型（LLM）和人脑一样，由「神经元」组成，这些神经元会观察文本中的特定规律，进而影响到模型本身生产的文本。

比如有一个针对「漫威超级英雄」的神经元，当用户向模型提问「哪个超级英雄的能力最强」时，这个神经元就会提高模型在回答中说出漫威英雄的概率。开始之前，先让 GPT-2运行文本序列，等待某个特定神经元被频繁「激活」的情况。

OpenAI 开发的工具利用这种规则将模型进行分解。

首先，让 GPT-4针对这段文本，生成解释。比如在下面的案例中，神经元主要针对漫威内容。GPT-4接收到文本和激活情况后，判断这与电影、角色和娱乐有关。接着，用 GPT-4模拟这个 GPT-2的神经元接下来会做什么，并用GPT-4生成的模拟内容。最后，进行对比评估。对比4代模拟神经元和2代真实神经元的结果，看 GPT-4猜的有多准。为了确定解释的准确性，该工具为 GPT-4提供了文本序列，并让它预测或模拟神经元的行为方式。然后将模拟神经元的行为与实际神经元的行为进行比较。

通过这样的方法，OpenAI 对每个神经元的行为作出了初步的自然语言解释，并对这种解释和实际行为的匹配程度进行了评分。

研究人员已经对 GPT-2中的所有307，200个神经元生成解释，并将这些解释汇编成数据集，与工具代码一起在 GitHub 上发布。

它背后的工程师强调它还处于早期阶段，但其运行代码已经可以在 GitHub 上以开源方式获得。OpenAI 的工具可以帮助研究人员更好地理解 LLM 的行为，从而提高性能并减少偏差或毒性。

也有人质疑，该工具本质上是为 GPT-4做广告，因为它需要 GPT-4才能工作。其他解释 LLM 工具较少依赖商业 API，例如 DeepMind 的Tracr。

（举报）

关键词：

相关新闻

v 推荐福彩3D第2023178期晒票激发我们更加勇敢地追求幸福生活 2023-07-07
v 珠江水运关键指标快速增长 2023-07-07
v 真相 | “经济胁迫”是美国手中杀人的“刀” 2023-07-07
v 微单相机推荐2013_微单相机推荐2013 2023-07-07
v 多样化种植技术模式助甘肃河西区域保障粮食安全_微头条 2023-07-07
v 教育部部署做好2023年中小学暑期安全工作世界球精选 2023-07-07
v 泽连斯基将访问土耳其会见埃尔多安，克宫：密切关注会谈结果 2023-07-07
v 1至6月四川公路水路交通建设完成投资1445亿元，同比增长27% 2023-07-07
v 蚂蚁基金被罚7368万元，总经理林思思被罚15万元 2023-07-07
v 主城都市区仍是主阵地！重庆市新增1366家“专精特新”企业 2023-07-07
v 好消息！西南地区首个百兆瓦级电网侧独立储能电站正式并网运行 2023-07-07
v 首批确定20所！重庆市全面启动市级清廉学校试点示范建设工作 2023-07-07
v 江苏：无锡开出“百万价码”引育宣传文化人才 2023-07-07
v 点赞！湘江新区高校毕业生就业工作在全国作典型交流 2023-07-07
v 两市主力资金净流出230亿元非银金融等行业实现净流入 2023-07-07
v 同比增长8% 长安1-6月销量超120万辆 2023-07-07
v 【风口解读】红蜻蜓上半年净利预增超66%，去年同期基数低下滑超19% 2023-07-07
v 因违规参与银行保险机构业务活动等蚂蚁集团被罚没超37亿元 2023-07-07
v 金融管理部门对蚂蚁集团罚没71.23亿元，要求关停“相互宝”业务 2023-07-07
v 中国中免上半年实现营收358.58亿元净利润38.64亿元 2023-07-07
v 头条焦点：用心守护群众生命安全——重庆市万州区群众避险转移一线见闻 2023-07-07
v 上汽集团：第二季度整车销量环比增长32.5% 2023-07-07
v 横店东磁预计上半年实现归母净利11.8亿元至12.6亿元光伏产业盈利同比实现翻番以上增长 2023-07-07
v 证监会同意碳酸锂期货及期权注册 2023-07-07
v 国家卫健委：提升职业健康检查和职业病诊断结论的准确性 2023-07-07
v 昨天天津局地有小冰雹！高温持续至……要凉快了！ 2023-07-07
v “心友会”吐“心”生 2023-07-07
v 华为张平安：盘古大模型不写诗只做事 2023-07-07
v 宁夏第一个公布2023年养老金调整细则，具体有哪些变化呢？ 2023-07-07
v 第19届亚运会杭州西湖赛区场馆有哪些 2023-07-07

分享到：