都说医疗、金融等专业领域的语料数据稀缺,这会制约AI大模型的发展——那能不能让两个ChatGPT对聊,聊出点数据出来?
(相关资料图)
近日,天桥脑科学研究院(TCCI)主办了AI For Brain Science系列会议第二期—— “面向AI模型的数据生成方法及其对医疗领域的启示”。
在上海交通大学计算机科学与工程系副教授吴梦玥主持下,三名青年科学家分享了关于破解大规模语言模型数据瓶颈的看法和实践。
快速构建专属GPT
国际上一项研究评估指出,ChatGPT回答癌症相关问题的水平已经与美国国家癌症研究所的回答持平。不过,ChatGPT只能通过受限的应用程序编程接口访问;并且涉及到个人医疗,人们也普遍不希望将自己的隐私信息分享给第三方公司。
针对这样的难题,加州大学圣迭戈分校博士生许灿文和中山大学团队的合作者提出了一种能自动生成高质量多轮聊天语料库的流程,利用ChatGPT与其自身进行对话,生成对话数据,再基于产生的对话数据调优、增强开源的大型语言模型。他们从而获得了高质量的专属模型“白泽”,并在数天前推出了2.0版本。这个名字的灵感来源是中国古代传说中的一种神兽,“能言语,达知万物之情”。
许灿文介绍,“白泽”在这个过程中并没有学会新的知识,只是提取了大模型中的特定数据,并且保留了ChatGPT “分点作答”“拒绝回答”等语言能力。这在专业上被比喻为一种“蒸馏”。进一步地,他们提出了反馈自蒸馏的概念,即利用ChatGPT当教官,对“白泽”回答的结果进行评分排序,从而进一步提高了“白泽”模型的性能。
许灿文认为,“白泽”通过自动化的知识蒸馏,在特定领域达到ChatGPT的能力,成本却远远低于ChatGPT,兼具经济意义和实用意义。在医疗领域,本地化或私有化建构的模型将有利于消除隐私顾虑,辅助患者诊疗。
大模型优化医疗文本挖掘
莱斯大学博士生唐瑞祥和合作者同样基于大模型提出了一种新的数据生成策略,并在命名实体识别、关系提取等经典的医疗文本挖掘任务上取得了更佳表现。
ChatGPT具有创造性的写作能力,在医疗、金融、法律等标注数据很少的领域以及知识密集型领域表现出色。然而,具体到医疗文本挖掘,他们发现将ChatGPT直接应用大型模型处理医疗文本的下游任务,表现并不总是优秀,也可能引发隐私问题。
唐瑞祥等提出了一种新策略:利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较于直接利用大型模型执行下游任务,这一新策略能够取得更出色的效果,同时因为模型数据在本地,也大幅降低了潜在的隐私风险。
他们进一步指出,随着开源大模型数量的增加和大模型能力的提升,其产生的文本数据与人类产生的文本数据的差别将越来越小,发展检测二者差别的技术手段将是一项富有挑战性的工作。现有的两种检测手段,无论是黑盒检测——直接比较大模型生成的文本数据与人类生成的文本数据(比如比较高频词分布),还是白盒检测——开发者在生成文本上做标签,在未来都可能失效。能否有效地检测出数据是不是GPT生成的,将影响到广大用户对大模型AI的信任程度。
大模型时代数据生成不一样
从历史演变的角度来看,在没有GPT的时代,科学家们如何解决数据稀缺难题?大模型又带来了哪些新趋势?
上海交通大学博士生曹瑞升总结了数据生成在大模型时代的几大新趋势:首先是构建更加通用的模型,以确保其能够应用于多样化的任务——这意味着模型需要具备广泛的适应性和泛化能力;其次是从特定任务出发,进一步精细化地处理,例如在医疗领域,甚至可以针对特定类型的抑郁症进行专业化的任务处理,提供更加精准和个性化的解决方案;最后,数据生成和模型训练的过程将从分离走向融合,而为了保证数据质量的硬性过滤也将逐渐被软性控制所取代。
“数据生成研究与应用的发展,为大模型AI走向各个专业领域,尤其是医疗领域提供广阔的可能性。”曹瑞升说。
记者获悉,TCCI致力于支持全球范围内的脑科学交流。AI For Brain Science系列会议致力于促进AI与脑科学研究人员的讨论合作,将持续聚焦领域内的数据瓶颈和关键痛点,促进前沿AI技术在脑科学领域发挥更大的价值。
新民晚报记者 郜阳
相关推荐
- (2023-05-30)医疗等垂直领域语料数据稀缺 能让俩ChatGPT对聊出来吗?青年科学家这样认为_短讯
- (2023-05-30)收评:A股三大指数探底回升,创业板指终结5连阴,人工智能主题持续爆发
- (2023-05-30)费城签新援兼任职,哈登离队?_天天观速讯
- (2023-05-30)100美元换多少人民币(2023年5月30日)_世界讯息
- (2023-05-30)杨千嬅全新巡演广州首秀 万人合唱《少女的祈祷》
- (2023-05-30)孟良崮下,“兵支书”让后进村变先进
- (2023-05-30)一张图:2023/05/30黄金原油外汇股指"枢纽点+多空占比"一览-环球头条
- (2023-05-30)最忆江南_对于最忆江南简单介绍
- (2023-05-30)妈祖庙在哪里_妈祖庙
- (2023-05-30)14:37 新一线城市的《城市商业魅力排行榜》发布 头条
- (2023-05-30)张歆艺袁弘晒照庆祝结婚七周年 甜蜜对视挽手臂满满爱意
- (2023-05-30)14:40 万科又要再融资?公司回应:例行授权
- (2023-05-30)【全球新视野】投资机会整体呈现出结构性特征 重点关注三大投资方向
- (2023-05-30)时讯:安东·奇奇坎
- (2023-05-30)每日热议!2500亿债务悬顶,跌至退市边缘,千亿“西南王”还有转机吗?
- (2023-05-30)神十六发射任务圆满成功
- (2023-05-30)全球最新:河南郑州:对误入市区的收割机司机一律不处罚
- (2023-05-30)全球今亮点!车祸人伤保险公司如何理赔
- (2023-05-30)环球快播:13:07 光刻胶概念股震荡走低,新莱应材跌超10%
- (2023-05-30)全球讯息:13:23 A股午后下挫,沪指、深成指午后均跌超1%
- (2023-05-30)环球资讯:中航无人机:董事兼职信披现罗生门 审计机构频因执业问题“栽跟头”
- (2023-05-30)天天速递!全区统一命题!解读桂林2023年中考方案
- (2023-05-30)泰嘉股份: 公司控股子公司雅达电子一直与消费电子行业的主流品牌厂商保持密切合作
- (2023-05-30)环球微速讯:地铁上女子充电宝突然爆炸,烟雾弥漫!地铁上充电宝为什么容易爆炸?
- (2023-05-30)午评:沪指再度失守3200点 脑机接口概念逆势大涨
- (2023-05-30)鲍家街43号乐队歌曲_鲍家街43号同名专辑相关内容简介介绍
- (2023-05-30)迪阿股份:暂未涉及培育钻石业务
- (2023-05-30)五家理财子公司利润翻番,“一哥”招银理财大赚35.9亿,刚换了高管 讯息
- (2023-05-30)恒信东方5月30日盘中涨幅达5%
- (2023-05-30)全球新动态:蝉联三年!四川财经职业学院财税学院学子再获省级一等奖
每日推荐
- ETF联接基金是什么意思?ETF基金和ETF联
- 货币基金的收益高吗?货币基金一般年收益
- 基金卖出了怎么还有收益显示?基金已经赎
- 投资的基金买了几天可以卖掉?基金入手多
- 基金终于回本了该不该赎回?基金终于回本
- 二月出境复飞航线超40条 节后部分机票价
- 重大事项变更!网易宝获批增加注册资本至
- 信达证券上市首日涨幅44%
- 总投资约486亿元 北京今年首批50个重大
- 新年北京首月二手住宅网签量再探底 价格
- 股价大涨 博云新材股东高创投拟趁机减持
- 2019华人歌曲音乐盛典在澳门举行
- 喜迎十九大•欢度中秋节—传统文化进社区
- 突发!吴敏霞夫妇挑婚戒被曝光!两百万钻
- 《钟山说事》 热点聚焦:胡鹏飞的最美乡
- 湖南御福天益生物公司被指涉嫌传销进行非
- 大同市城投公司刘建婷遭群众举报
- 鲁能集团 “一带一路”履责行动暨“海南
图片新闻
48小时频道点击排行
-
0
1医疗等垂直领域语料数据稀缺 能让俩 -
0
2杨千嬅全新巡演广州首秀 万人合唱《 -
0
3一张图:2023/05/30黄金原油外汇股指 -
0
4时讯:安东·奇奇坎 -
0
5全球今亮点!车祸人伤保险公司如何理 -
0
6天天速递!全区统一命题!解读桂林20 -
0
7恒信东方5月30日盘中涨幅达5% -
0
8全球新动态:蝉联三年!四川财经职业 -
0
92023年法语诗歌朗诵大赛全国总决赛在 -
0
10天天新资讯:记者调查:孩子没完没了 -
0
11卡片机和微单的区别大吗_卡片机和微 -
0
12动态焦点:记新冠感染(2023-5-29一阳) -
0
13【快播报】党的十八届召开时间-党的 -
0
14李侠清:让地下生产“更绿色” 当前 -
0
15环球微头条丨有关坚持的故事及感悟_ -
0
16世界快看:合同无效纠纷律师如何收费 -
0
17微博限流怎么看出来的_微博限流是什 -
0
18【世界报资讯】5月29日基金净值:广 -
0
19每日看点!放大招!9600亿美元芯片龙 -
0
20世界速读:吉林省部署2023年高考安保