四海资讯
首页 > 财经资讯 > 生活消费

AI让昨日重现

时间:2021-10-13 18:07:00

中国消费者报报道(记者武晓莉)“听众朋友们,你们好。从今儿个起,由我为大家播讲悬疑小说《江湖消亡史:北平暗夜》。这个故事发生在民国十几年的北京城里……”著名评书表演艺术大师单田芳离开三年后,居然又“说”起了新评书,昔日那位仅凭一张嘴就让人欲罢不能的说书人,又重新回到了我们身边。

国庆期间,我国首部黑白转彩色4K修复故事片《永不消逝的电波》在全国各大电影院线上映,人们纷纷走进影院,欣赏旧日的黑白经典焕发出的新光彩。

给国庆黑白老照片上个色的“全民拍”,让以往国庆期间爱发养生贴的父母们,今年忙着翻箱倒柜地找老照片,在网上给老照片修复上色。

……

AI(人工智能)技术通过修复图片、影像,合成酷似本人的声音,抚慰了人们怀旧的心绪,让时光留驻、让昨日重现。

回到从前   AI给记忆涂上色彩

每个人家里都可能有些因年份久远而变得斑驳、泛黄的老照片,这些照片或许珍藏着一份难忘的记忆,定格了一段久远的家国历史。在新中国成立72周年这个特殊的日子里,通过新华社客户端“全民拍”联合中国移动咪咕开启的黑白老照片免费上色修复通道,能让泛黄的记忆再次鲜活。“大家可能还记得,给老照片上色以前都需要通过手动。”咪咕公司相关技术人员向记者介绍道。传统照相馆有一个专门的上色服务,把黑白照片涂上颜色,很多人家里都有这样的着色照片。但那种上色方式与真实的色彩有不小的差距。

AI老照片修复有何不同?咪咕技术人员通过一张1959年9月13日第一届全运会开幕式上运动员列队步入会场的照片的修复,给记者做了一个科普。AI神经网络修复老照片时,会先通过标准色板进行颜色校正,纠正视频中色相、饱和度与真实图像的差异。那么,AI又是如何比对的呢?北京电影学院数字媒体学院院长刘谦教授对记者说,人工智能其实就是一种算法,在大数据的支撑下,通过不断的学习,普通的算法有了判断、决策的能力,有点类似于一个人基于历史经验会进行判断。AI的判断基于大数据的积累,由于算力很强,AI可以快速将图像内容与真实图像进行比对。

咪咕技术人员对记者说,校正后AI就开始对照片进行区域去噪,分为空间域、频域、小波域、时域、时空域和色彩域去噪等。机器的自动处理完成后,其实还需要进行人工的二次创作,针对照片故事背景、画面气氛等上下文,检索该年代或特点事件的特征,进行针对局部和重点对象的再次渲染。“如果没有AI而用过去人工着色的方式,很多东西做不了。”咪咕技术人员说。比如图中场馆的看台上有数千名观众,这就必须由机器和AI进行处理,再专业的人士也无法一一处理这个量级的人物。此外,早期全幅相机受操作水平的影响,拍摄会出现过度曝光,需要再次拉回光线等。

这位技术人员说,AI修复过程中仍需人工介入。比如看台上观众身披红旗等细节,再厉害的AI算法也无法感知这是一面红色的旗帜,这就需要编辑人员进行人工二次创作。

书接上回 AI让“原音”重出江湖

当那个与单田芳本人声音极其相似的AI合成音自然流畅地“说”起评书时,单田芳已经离开我们整整3年了。3年前,无数人感叹世上再无“下回分解”,而如今,他的“声音”在喜马拉雅平台再次响起,“书接上回”重现江湖。“听到TTS声音,心魂间猛然一震,仿佛父亲又回到了这个世界。”单田芳之子单瑞林评价说。喜马拉雅平台用语音合成 (TTS:Text-to-speech)技术完美还原了著名评书表演艺术大师单田芳的声音,并首次将单田芳AI合成音应用于6部风格各异的作品。

资料图片

作为国家级非物质文化遗产传承人,单田芳的《隋唐演义》《三侠五义》《乱世枭雄》《白眉大侠》等共计超过1.2万余集的100余部广播、电视评书作品,在全国500多家电台、电视台都播出过,他的书迷遍布大江南北。“单田芳声音AI重现系列专辑”中,除了赵晨光的《江湖消亡史:北平暗夜》、陈廷一的《毛氏三兄弟:三兄弟与共和国奠基》和紫金陈的《无证之罪》外,真正实现了“书接上回”的,是单田芳老师生前未完成的评书经典——宫白羽的《十二金钱镖》。

喜马拉雅智能语音实验室的卢恒博士对记者说,完美复现单田芳老师那标志性的“云遮月”嗓音,以及其情感充沛、起伏跌宕的腔调,得益于实验室语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发。卢恒说,用真实自然的TTS音色演绎有声小说是非常难的,需要学习小说中的抑扬顿挫、情感表达、上下文关系,区分旁白和对白,并最终将作品完美演绎出来。喜马拉雅自主研发的TTS前端文本处理分析模块已经能够高精度、全自动地对文本进行多音字识别、韵律预测和风格分类,并已开发出可以实现多情感、多风格、多语种声音的TTS技术模型,因此,不仅可以演绎不同情绪的文字,还可以自动区分旁白、对白,并支持英文,极大地丰富了TTS能表达的情感和韵律。

单田芳的评书不仅韵律起伏变化非常大,而且还有很多口语化发音。比如,“这”字的普通话发音为“zhè”,而评书中通常读为“zhèi”。如果仅靠当前主流的 TTS框架模型做提取和合成,合成的评书整体感情和情绪都会很平淡,没有单田芳老师评书的韵味。据卢恒介绍,智能语音实验室设计了单独的韵律提取模块,不管韵律多么丰富和多变,都能提取并完全复刻出来。

经典焕新   AI让“电波”永不消逝

国庆期间,热闹的电影市场有一部很特别的老片子——《永不消逝的电波》上映。这部影片是首部院线重映的黑白转彩色4K修复的电影,由中央广播电视总台央视频5G新媒体平台与中国电影资料馆联合完成。这部1958年出品的老电影,采用拥有自主知识产权的人机交互式AI上色技术与传统修复手法相结合的手法,经过长达7个多月、对原片超过16万帧黑白影像的逐帧修复后,终于焕发出新的活力。“无论是图片还是影像,放大到一定的颗粒度,你会发现它们都是由一个个的光点组成,这个最基本的单位就叫像素,所谓影像,不过就是连续播放的静止图片而已。”刘谦说。像素本身就有一定的亮度、色彩和形状,数字技术是把这些像素用RGB来表达,即任何一个光点都可以分解为红、绿、蓝三种颜色。AI通过这三个最基本的元素,可以调出所有的色彩和形状,乃至表达出所有的电影画面,这背后都是数字支撑。电影的4K修复,就是把以前低清晰度(即像素较少)的影像,通过增加像素的方式,变成像素点更多、图像信息更丰富的影像。色彩也可以从黑白改变成彩色。

资料图片

据刘谦介绍,过去的胶片电影是化学感光的,随着时间的推移,容易出现画面漏光、衰减、受潮、划痕等各种损毁。胶片AI修复要先扫描影片,即胶片到数字化的转换。但即使手工使用Photoshop等技术,也很难对所有影片全面修复,这时就需要AI。尤其是4K修复这种对清晰度的提升,手工根本无法想象,因为不仅增加的像素数量是天文数字级的,而且如何平滑过渡、如何让增加的像素更符合实际情况,都只有人工智能才能做到。比如插值技术,增加像素点的部分怎么插入过渡色,就需要AI通过大量的学习。“比如说在某种亮度的红和绿之间插值,AI可以通过对几百万张大数据图片的比对,在成千上万个高清图片中找到十有八九都会碰到一起的两个颜色,从而得出与此种红、绿两个像素点在自然界很大概率的情况下都会相邻的光点,作为可选的近似值之一。而最终插入这两个光点中间的过渡像素,其光点值可能用的即非红也非蓝、绿,而是一种灰,因为其最贴近自然界的真实色彩。在这两个光点之间插入一个光点,增加清晰度,是人工智能算法中的一种,而这个可选的光点是自然人没办法直接拍脑袋决定的。”

在刘谦看来,修复技术实际上并不复杂,现在很多修复案例只是应景之作。他认为,图像、影像的AI修复,需要在个案中找到可以持续发展的应用场景。“老电影的修复,毕竟是修一部少一部,而且只有真正的经典才值得修。”他感慨道,“一个项目做完,会花很多钱,如果可以重复用于更多场景的话,就更好了。”

  • 上一篇:虚拟手办 是否真的花钱买个寂寞
  • 下一篇:华米Amazfit系列智能手表可全天候监测血氧心率