宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

DeepL發展史:一家初創公司與機器翻譯巨頭的抗爭

2024年01月25日 首頁 » 熱門科技

AI翻譯顛覆了我們的溝通方式,也以前所未有的方式打破了語言溝通障礙。預計到2026年,該行業的全球市場規模將增長至123億美元,而無數參與者都希望能從中分得一杯羹。

而總部位於德國科隆的DeepL,卻憑藉著初創身份與谷歌、微軟等科技巨頭一路競逐,不斷提高著機器翻譯的行業標準。

這家年輕企業的首款產品是在線詞典Linguee,自電腦科學家Jarek Kutylowski兼公司CEO於2017年創立以來始終保持高速發展。

DeepL發展史:一家初創公司與機器翻譯巨頭的抗爭

Kutylowski出生于波蘭,12歲時移居德國,剛轉學時甚至一句德語都不會說。這讓年少的他第一次認識到語言的重要性,以及跨語言交流的巨大難度。

時間快進到2017年,他創立DeepL的初衷,是意識到神經網路這項突破性技術有望以前所未有的方式徹底攻克難題。他表示:「我們猜測機器翻譯應該會朝著這個方向發展,也相信這項技術將發揮巨大作用。看準了這個機會,我們鼓起勇氣想要創造一些偉大的成果。」

神經機器翻譯(NMT)就是基於神經網路的翻譯技術,已經成為迄今為止最為成功的機器翻譯方法。與之前的版本相比,這項技術更快、更準確、資源占用更少也更易於擴展。

DeepL使用該技術提供免費的高質量翻譯服務,且主要面向B2B市場。自公司成立以來,他們已經服務了10億以上的用戶,目前擁有超過2萬家企業客戶,其中不乏愛思唯爾、富士通和Mastodon等知名公司。

Kutylowski解釋道:「翻譯對企業來說至關重要。現如今,越來越多的企業開始走向全球以開拓海外市場,希望能在更廣大的疆土上吸引客戶、創造價值。」

而對翻譯的主要需求,集中在那些涉及大量許可證的行業,比如法律服務。「通過觀察,我們發現這也是客群需求最強烈的領域。」

截至目前,DeepL已經支持橫跨歐亞大陸的31種語言。2023年,公司推出AI寫作助手,也成功躋身獨角獸行列。儘管融資環境嚴峻,該公司還是在1月籌集到一筆數額不明的資金(估計為1億美元),目前市場估值達到10億歐元。

「世界上最好的」機器翻譯服務

DeepL自信地宣稱,能夠提供「世界上最好的」AI翻譯服務。而且與競爭對手的產品相比,該公司的方案質量更高,平均準確率高達3倍。

DeepL發展史:一家初創公司與機器翻譯巨頭的抗爭

自信滿滿的口號源自「盲測」結果,即由專業翻譯人員在不知文本來源的前提下挑選準確率最高的翻譯結果。

通過一系列測試和實驗,我發現DeepL的表現確實名列前茅。我首先輸入了加繆《局外人》小說中的一段話,並分別用DeepL和谷歌翻譯將其從法語翻譯成英語。

儘管文學類文本並不屬於這些工具的主要設計用途,但我還是決定從這個角度入手,畢竟純文學對AI系統來說肯定更有難度。

可以想見,文學翻譯相當複雜,依靠的不止有對語言的熟悉程度。其中還涉及更高水平的創造力,對於作者觀點、文風和社會歷史背景的深刻理解,同時要能在不同文化間實現語義轉換。

從續訂來看,DeepL的表現遠遠優於谷歌。雖然它還是遺漏了一些隱喻性表達,在某些意指和常識上也犯了錯誤,但最終文本讀起來確實更接近原文的表述。

我用自己的一篇文章進行了重複測試,希望複查翻譯工具是否確切表達了我說的意思。這一次,任務是把英語文章翻譯成希臘語。

下面來看DeepL的翻譯結果:

DeepL發展史:一家初創公司與機器翻譯巨頭的抗爭

再看看谷歌的翻譯結果:

DeepL發展史:一家初創公司與機器翻譯巨頭的抗爭

這次DeepL的表現仍然更好。儘管仍在幾處紕漏,但它的希臘語翻譯結果更細緻、更自然,也更符合原文的含義。我知道很多朋友可能看不懂希臘語,所以大家可以隨便找點文字自己測試一下,看我說的對不對。

Kutylowski認為,在不「閹割」的前提下用目標語言表達正確的含義,首先得在準確性和流暢性之間找到適當的平衡。而這在很大程度上要視語境而定。比如說,技術文檔對於準確性要求更高,而營銷文本則更多強調流暢性。

儘管面臨挑戰,但他堅信AI有能力掌握哪怕最複雜的語言。他補充道:「如果突然出現某種需要我們學習的外星語言,那麼只要有足夠的翻譯材料作為支撐,我們沒準同樣能訓練出相應的翻譯模型。」

DeepL的優勢是什麼?

Kutylowski對於市場競爭似乎毫不擔心。他強調,「我們一直都在跟大廠競爭」,還提到谷歌翻譯仍是DeepL目前最大的競爭對手。

在他看來,這家初創公司的優勢可以歸結為三大要素的結合:努力工作、優秀團隊還有專心一意。

「專心一意非常非常重要。翻譯並不是谷歌的核心業務,只能算他們上百種服務中的一種。同樣的標準放在大語言模型和OpenAI方面也是一樣,翻譯只是他們關注的一個方向,他們必須把GPU分散在各種各樣不同的任務上。但我們只專注單一特定領域。」

從技術角度來看,DeepL的成功則源自其神經網路架構、人類編輯的輸入還有訓練數據。

這家初創公司根據大量數據(主要來自網際網路)進行模型訓練,並使用特殊的網路爬蟲來自動查找翻譯並評估內容質量。他們還使用強化學習等方法向AI提供積極反饋,引導其不斷提升翻譯水平。

Kutylowski還補充道,另一個重點是在模型的翻譯能力和用目標語言構成句子之間尋找適當的平衡。「為此,我們在單語數據模型訓練和目標翻譯模型訓練方面投入了大量精力,數學團隊則負責處理大量細節。」

機器翻譯:新挑戰,也是新機遇

Kutylowski承認,近期對於AI熱潮的廣泛關注主要源自大語言模型(LLM),這也讓整體環境變得更具挑戰、節奏更快。

DeepL團隊現在必須跟上發展的腳步:新模型層出不窮,開源項目所在多有,學術研究和其他公司的成果都需要關注。

「如今的機器翻譯已經掀起一波競賽」,那要靠怎樣的策略才能在這場比賽中勝出?

在Kutylowski看來,一方面當然是不斷創新,確保採取正確的步驟來實現高質量翻譯目標。另外就是適當投資,確保找到合適的資本和技術團隊。

但與此同時,人們對於AI的關注和呈指數級增長的發展速度也帶來了新的技術機遇。「有些事情我們在兩、三年前就考慮過,但當時的技術還不夠成熟。」

DeepL發展史:一家初創公司與機器翻譯巨頭的抗爭

比如說貼合企業風格的個性化翻譯和更具交互性的翻譯體驗。DeepL還開始研究票據翻譯,並從頭開始訓練自己的大語言模型。這在一定程度上要歸功於他們新的超級電腦集群DeepL Mercury。

這些大模型有望進一步提高翻譯質量,並為用戶帶來新的交互工作流程。更多功能和應用選項將在2024年內陸續推出。

我們還需要學外語嗎?

機器翻譯既幫助更多人克服了跨語種溝通障礙,同時也提出了新的問題:既然AI翻譯這麼出色,未來我們是不是就沒必要學習外語了?

Kutylowski的回答是:「隨著AI的普遍進步,我覺得全人類都需要認真思考一個問題:我們需要學什麼,我們想要學什麼?」

他認為如果單純是為了在異國他鄉工作和生活,那隨著科技的發展演進,學習語言的必要性確實會逐漸降低,但這並不代表學習外語的價值也將隨之下降。

他以數學為例,提到雖然在現實生活中我們根本用不到在學校里接觸過的大部分複雜方程,但學習數學的過程仍然非常重要,甚至可以說是培養理性思考能力的根基。

語言學習也是如此。在學習一門語言的過程中,我們實際也是在學習如何形成思維和表達觀點——這對每個人的發展都至關重要。學習外語、特別是掌握跨語種思維能力,對於個人乃至整個社會都有著深遠的積極意義。

研究表明,學習第二語言實際會改變大腦結構。具體來講,它增加了灰質密度(對應大腦中的神經元數量)和白質完整性(即連接大腦中不同區域的神經纖維系統)。也就是說,學習外語不僅可以增強大腦整體功能,還有助於提高記憶力、注意力、集中力和其他關鍵認知能力。

此外,大量研究已經把語言學習跟良好的考試成績、就業能力、創造力、溝通技巧乃至跨文化認知聯繫了起來。

Kutylowski總結道:「因此,無論是出於個人興趣,還是大腦與性格的培養與發展,都應該重視學習語言。哪怕手機上就有最好的翻譯工具,如果要結交來自不同國家的朋友、發展一段跨國戀情,至少得能做到直接交流。至少我不希望大家坐在一起,還在各自擺弄手機。」

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新