宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

2024年05月31日 首頁 » 熱門科技

去年非常高興地榮升為準爸爸,老婆的工作分配得少了一些,有更多的時間休息。

我除了照顧好她的生活起居以外,也要更關心她的精神生活。賦閒下來的她開始看起了美劇俄劇,尤其她又喜歡看冷門劇集,很快字幕組製作的速度已經不能滿足她看的速度了。剛好那段時間我正在研究各種 AI 工具,我也簡單看了一下國內現有的音頻轉文字工具,包括了剪映、訊飛聽見、網易有道等工具,發現效果都不盡如人意。直到我在鼓搗 OpenAI 的 ChatGPT 的時候看到了 Whisper,打開了新世界的大門。

 

Whisper 模型是目前最強大的語音轉錄模型之一,由 OpenAI 發布,是在 68 萬小時標記音頻數據的數據集上訓練的,支持 99 種語言,其中包括 11.7 萬小時 96 種不同語言的演講和 12.5 萬小時從任意語言到英語的翻譯數據。

以上這是官方給出來的介紹,安裝也十分簡單,稍微有點技術基礎就可以用 Whisper 轉錄出來帶有時間軸的文字,準確性也非常高,然後再把內容丟給 GPT 進行翻譯,字幕文件和原影片放進剪映做簡單的核對,最後導出影片,這樣就翻譯漢化好了一集電視劇。我實驗的第一部劇就是俄劇《葉卡捷琳娜大帝》。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

跟著看了幾集確實不錯

後來因為 M1 Pro 跑 Whisper 有點慢,而且我那段時間在玩 Stable Diffusion 出圖,直接配置了台帶 4090 的電腦,配置了幾個腳本,下載、轉文字、翻譯一條龍,整個流程速度快了許多,每天只要下班回去之後找到生肉資源供老婆大人觀賞就行了。

直到一天上班的時候老婆閒著無聊,想自己操作操作,但那不知道怎麼怎麼搞那幾個腳本,於是和我說:「你要不要做一個有界面的產品,不僅我可以用,別人也可以用。或許還能賺點奶粉錢呢。」

我覺得有道理,反正那段時間 AI 產品如雨後春筍般冒出來,我也手痒痒想做一個,於是一個新的產品,就誕生了。

在產品形態上,還要做選擇題。

在 PC 端和手機端之間——選擇了 PC 端,字幕編輯、翻譯這種內容,大多數都是長影片的需求,在 PC 端的編輯會更加符合大部分使用場景。

在客戶端和網頁端之間——選擇了網頁端,客戶端不僅需要適配 Win 和 Mac 兩個系統,還需要應對相同系統不同的版本,而且我也受夠了 Whisper 的龜速和各種模型的限制,不如直接把運算都交給雲端,讓無論什麼電腦配置的用戶都可以順利使用。

這個產品叫什麼好呢?就叫快轉字幕吧。

關於《快轉字幕》

那這個產品有什麼優勢?

首先我們是站在巨人「OpenAI 的 Whisper 模型」的肩膀上,它代表了非常強大的底層引擎,支持非常多的語言,而且準確率很高,特別在多語言混合的情況下。這就是我們跟大廠中廠競爭的底氣。

但是這個引擎是不完美的,我們要把這個引擎發揮到它的百分之二百的功力。我們做了下面這些事情:

純淨識別

Whisper 不僅識別了人的語音,還有音影片里一些背景音,比如路人的聲音、音樂、甚至鳴笛聲、碰撞的聲音都有可能會被識別,或者出現「幻覺」的情況,使用「純淨識別」可以去除掉噪音,並且把聲音音量對齊之後,再送到 Whisper 去識別。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

轉錄頭文字 D 的片段,前面一大段英文全都是幻聽

智能重排

許多的音影片轉字幕應用都會有一個問題,在轉錄成文字的時候,把大段的文字放在了同一時間內,導致同屏出現的字幕過長,影響觀看節奏。

正確和合理的句子分割才能給觀眾帶來好的觀看感受,所以我們請朋友們分析了中日英西法 5 種語言的基本邏輯,使用小模型做語義識別,兼顧了性能和效果,上線了 AI 高級重排功能,支持對這 5 種語言的智能分句,其他的語言上線了普通分句功能,無論什麼語言都能獲得還不錯的分句效果。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 


帶有上下文的 AI 翻譯

現在很多翻譯工具上都是簡單的一句對一句進行翻譯,但是經常很多詞語都在不同的場景下有不同的意思,在大模型出來之前,翻譯效果一直都不夠好。

現在有了大模型,問題就變成怎麼樣調優和控制輸出。

我們做了很多努力,包括使用特製的 prompt,以及增加重試、兜底等方案,能現在能保證有上下文,並且能出非常準確的翻譯。

後面還增加了二次潤色校對,推出這個 AI Plus 的翻譯,最終出來這個效果甚至比真人翻譯還要好。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

普通的 AI 翻譯

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

使用了我們調試過的 prompt 後的 AI 翻譯

接下來我也分析了其它的各種競品,增加了各種功能。

閱讀視圖

這個也是老婆提出來的,除了美劇以外,在散步和洗澡的時候她還會聽播客,眾多播客頻道和動輒 1 個小時以上的時長也讓她頭疼應該聽哪個,所以她提出來這個產品能不能把播客轉為文字內容,而且不需要時間軸,換成閱讀文章一樣的視圖。這樣就可以先看看這個博客值不值得聽了。

當然,各種會議記錄、律師談話等等都可以用上這種功能。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

播客閱讀視圖

也由此增加了下面兩個新的功能——

鏈接解析

不是所有的音影片用戶都能拿到源文件,貼上國內主流音影片平台的鏈接,小宇宙、抖音、小紅書、微博等等都適配,解析完可以直接下載這段音影片或者在線進行轉錄。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

鏈接解析識別

說話人識別

當有多個人發言時,可以分辨出每個不同的說話人發言的段落,再對說話人標題進行改名更加方便進行瀏覽。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 


標籤管理

我們後面開始有專業的影片字幕公司在使用了。

翻譯的項目越來越多,會出現有些已經校對完成,有些校對了一半,有些還沒開始的情況,又或者是翻譯的影片有英語日語法語等等多種語言,於是增加了標籤以及切換列表視圖功能,讓用戶可以更方便地管理自己的文件。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

列表模式

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

平鋪模式

粵語識別

作為一個在廣州生活了近 30 年的人,對粵語有著特殊的感情,自然也把粵語元素加到了產品中。針對粵語的影片,不僅可以直接轉錄出粵語口語字幕,方便粵語的本土用戶觀看,也可以轉錄為粵語的書面語,方便非粵語區的觀眾觀看,可以讓粵語博主擴寬觀眾面,也可以方便非粵語區的觀眾看沒有字幕的粵語內容。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

粵語口語

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

粵語書面語


在線壓制

有些用戶因為不擅長使用複雜的編輯軟體,會直接在我們網站上進行簡單的編輯,所以我們也上線了在線壓制影片功能,如果不需要加片頭或者加影片特效,可以直接在我們的網站完成影片的輸出。

 

為了看上帶字幕的外國劇,我寫了個「自動做字幕」的AI工具……

 

最後

從老婆懷孕開始開發,到現在千金已經出生,用這個產品輸出的內容確實陪了老婆很長一段時間,好的科技產品的確能夠大大的改變我們的生活,而且項目上線後,確實解決了不少朋友的實際問題,提升了他們的生活、學習和工作效率。

高使用率的用戶包括了提高工作效率的字幕組、用來學習外語影片學生、看日劇英劇美劇俄劇的愛好者、快速備份錄音材料的律師,需要整理會議記錄的工作黨等等,期待更多的用戶能夠用上,解鎖更多的使用場景。也歡迎各位 前往網站體驗 ,給我提供寶貴的意見。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新