百度iRAG技术:提升文生图真实度,但仍存乱码与理解问题
AI导读:
百度董事长李彦宏在百度世界大会上介绍了iRAG技术,该技术结合百度搜索的亿级图片资源,能生成超真实图片。但实测发现,AI生成的图片仍存在乱码和不能完全理解人类想法的问题。
在昨日的百度世界大会上,百度董事长李彦宏分享了过去24个月行业内的最大变化:大模型已显著提升了回答问题的准确性,基本消除了幻觉。这一进步主要归功于增强检索(RAG)技术,它使大模型能够利用检索到的信息来生成更高质量和准确性的文本或答案。
尽管文字层面的RAG技术已有了显著的改善,但基于大语言模型的文生图系统生成的图片仍常显得虚假,逻辑上也时有不合理之处。李彦宏透露,今年年初,百度决定解决这一问题,开发了iRAG(image based RAG)技术,通过结合百度搜索的亿级图片资源和强大的基础模型能力,该技术能够生成超真实的图片。
李彦宏通过多个例子展示了iRAG技术的效果,包括大众揽巡汽车飞越长城、爱因斯坦游遍全世界等生成的图片,这些图片相较于原生系统,整体效果更佳,去除了机器味。然而,第一财经记者的实测发现,虽然部分图片真实度高且富有创意,但仍有提升空间,特别是在特定人物的生成上,如爱因斯坦的形象,并非本人,且图片中仍存在一定的机器味,特别是在数字、文字等细节上,乱码现象较为普遍。
记者尝试让文心一言创作苹果CEO库克戴着百度眼镜的图片,结果虽然呈现了苹果的LOGO,但人物并非库克本人,眼镜形状也有出入。同样,当记者要求AI画出霍金和爱因斯坦一起在深秋的老北京胡同里遛弯的场景时,放大图片后发现,除爱因斯坦发型相似外,两个人物都并非特定人物本身,且长有亚洲面孔。
当记者指出这一错误并要求重画时,AI仍未能准确画出二人。在尝试让AI画李彦宏在北京大学门口摊煎饼的图片时,虽然人物和建筑的真实度较高,但放大后可以看到,“北京大学”四个字出现了乱码。此外,AI创作的马斯克在故宫喝豆汁的图片中,马斯克喝的并非豆汁,碗上的文字也是乱码。
数字和文字乱码的情况在AI生成的图片中较为常见,如猫咪观看时刻表的图片中,有正常数字也有乱码;企鹅坐在公园拿着报纸喝咖啡的图片中,报纸文字也出现了乱码。同时,AI有时还不能准确理解人类的想法,如当要求它创作一张写实风格的图片,提示词为热闹的街区,一位白裙少女坐着一只巨型猫咪时,AI的绘画结果却多为漫画效果,且不符合要求。
然而,当给出更加真实和细节的场景时,AI的绘画效果会有显著提升。例如,要求AI创作一幅“武康大楼的街头,一只巨型猫咪堵在车流拥挤的马路上,猫爪和汽车一样大”的超现实主义作品时,AI的完成度很高,对武康大楼等细节的还原也不错。此外,当要求AI给东方明珠织一件彩色毛衣时,AI也完成得较好。
李彦宏在演讲中提到,作为一项基础技术,iRAG在很多领域都有着很好的应用空间,如影视作品、漫画作品、连续画本、海报制作等,可以大幅降低创作成本。然而,在记者让AI生成一张汽车海报,雷军开着小米su7穿越月球的测试中,虽然场景表达较为准确,人物形象相似,但一些图片中汽车和真实的小米su7外形并不相同,小米汽车的LOGO也不够准确。同样,在要求AI画一个对于小米15手机的展示时,虽然场景和动物形象表达准确,但每一张图中的手机都不一样,也并不像小米15。
在创作艺术海报方面,记者让AI画一张《只此青绿》演出海报,要求有水墨风格,AI的绘画基本符合要求,有意境,但放大图片看,其中一张海报的文字出现了乱码。
(文章来源:第一财经)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。