人的大腦擅長識別畫面里的人臉、物體等大輪廓,卻不擅長還原毛發的纖細紋理、皮膚的細膩質感這些細節,而圖像復原技術恰好能填補這個空白。在圖像復原領域,人工智能可以比人完成得更為出色。無論是模糊不清的低分辨率圖像還是布滿瑕疵的老照片,人工智能都可以通過“神奇魔法”讓其變成高清圖像。
圖像復原技術的發展就像一場不斷升級的接力賽,已經出現了3次重要革新:2014年的深度卷積網絡技術,讓圖像有了清晰的輪廓;2017年的對抗生成網絡技術,讓畫面觀感更自然;2023年的擴散生成模型技術,為圖像增添了逼真的細節。到了2025年,對抗生成網絡和擴散生成模型這兩項技術的融合,誕生了全新的智能復原大模型HYPIR,圖像復原領域有了新成果。
這個智能復原大模型主要有3個亮點。第一,它集對抗生成網絡和擴散生成模型的優點于一身,處理速度比第三代技術快了十幾倍,修復效果更出色,穩定性也更強。第二,它搭上了文生圖大模型的“快車”,能生成8K級別的超高清細節,還能根據用戶輸入的提示詞進行個性化智能修復。第三,它適應性強,能輕松應對多種場景和不同損壞類型的圖像。
那么,大模型是如何施展“修復魔法”的呢?
第一步,得先給圖像“大掃除”,去除圖像拍攝時的抖動、模糊,圖像壓縮留下的痕跡等“小毛病”,這樣才能保留圖像的真實信息,避免其他干擾。科研人員設計了一個專門的深度學習編碼器,讓它“吃進”有瑕疵的圖像,“吐出”沒有缺憾的圖像;還通過人為制造各種圖像瑕疵的方式,構建了幾億組“瑕疵—完好”的圖像對來訓練這個編碼器。經過多輪訓練,編碼器就能熟練掌握去除圖像瑕疵的技能。
不過,這時候的圖像雖然干凈了,但看起來會比較平滑,缺乏自然的細節。所以第二步就是給圖像“添細節”。這里就要用到文生圖大模型了,它能根據文字描述生成自然圖像。這一步需要輸入兩個信息:一個是已經去除瑕疵的圖像,一個是對圖像的內容描述。此時,多模態大模型就派上用場了,它能“看懂”圖像內容,并輸出相應的文字描述,作為文生圖大模型的“創作指南”。有了這兩個大模型的配合,就能精準理解圖像并生成豐富細節。
最后,也是最關鍵的一步,是訓練這個模型,讓它成為圖像復原的“高手”。這需要用到一種名為“對抗生成訓練”的方法:讓文生圖大模型扮演“生成器”,負責生成修復后的圖像;再選一個圖像分類網絡當“判別器”,專門判斷生成的圖像是不是自然真實的。生成和判別這兩個步驟交替進行,雙方不斷提升自己的能力——生成器讓圖像越來越逼真,判別器的判斷越來越精準,直到兩者達到平衡。
圖像復原技術已逐漸融入手機攝影、電視播放、高清屏幕顯示、歷史影像修復、科學研究中的圖像處理等領域,成為一項與生活密切相關實用技術。期待隨著科技迭代革新的不斷推進,這項技術能更好造福社會,讓更多時光里的畫面重煥光彩。
(作者為中國科學院深圳先進技術研究院數字所研究員)
《 人民日報 》( 2025年08月16日 05 版)