時間:2023-11-07 10:27
但凡偷懶一點,喜歡用瀏覽器大概翻譯插件來看英語報道的同學,估計都免不了在 AI 大模型火熱的刻下,被滿篇的「法學碩士」晃得眼瞎不已。
并不是大語言模型 LLM(Large Language Model)真的和法學有強關聯,而只是一個縮寫詞的歧義解釋而已。
為什么大模型掀起的新一波 AI 浪潮已如此洶涌,而瀏覽器和翻譯軟件,如舊堅持將 LLM 翻譯成「法學碩士」?大模型這「碩士帽」什么時候能摘掉?
01
論「LLM 濃度」,
大模型照樣弟弟
首先需要標明的是,「LLM」這個縮寫,在英文中既可以指代日前火熱的「大語言模型 Large Language Model」;同時,在教育領域,它通常指的是「Legum Magister」或「Master of Laws」,即法學碩士。
而對于像 Google 瀏覽器配備的機器翻譯功能,最常見的難題就是歧義和對上下文的理解。
機器翻譯平時依靠大量的文本數據來學習怎么翻譯詞語和短語。借如有很多 「LLM」出刻下與法律相關的上下文中,翻譯系統能夠會學習到 「LLM」普遍指的是 「法學碩士」。除非系統或將鑒別出既定的技術上下文,否則它大概不會選擇 「大型語言模型」算作翻譯。
即便現時大語言模型帶動的生成式 AI 如此火熱,但其實像 LLM 這類詞匯在非技術人群中的普及度不高,這意味著翻譯系統在其訓練數據中,也許沒有足夠的實例來學習這種必定的上下文使用。
也就是說,LLM 當成「大語言模型」在機器翻譯中的首要程度,還沒有其看成「法學碩士」的程度高。
有圖為證。
過去一年 AI LLM 和 Law LLM 重大詞熱度對比|Google Trends
以「AI LLM」(人工智能,大語言模型)和「Law LLM」(法律,法學碩士)為重要詞,截取兩個主要詞已往一年 Google Trends 的對比圖,可以輕易看出,AI LLM 這一詞從去年11月 ChatGPT 推出后才開始一步步升溫,而此時代表真正的法學碩士的 Law LLM 熱度一直在「50分」左右。
而在2023年3月中旬,AI LLM 迎來了自己的第一波熱度高潮,當時發生了什么?答案是美國當地時間3月14日,OpenAI 鄭重推出了 ChatGPT-4,徹底引爆了 AI 集市。
到今年5月末,AI 在熱度上徹底戰勝 Law|Google Trends
可以看到此后,只用了2個月時間,到5月末、6月初,代表 AI LLM 的曲線不斷上揚,徹底在搜索熱度上超過 Law LLM,并且趨勢一直延續到而今。
關于 AI 的重要詞都處于飆升的狀態|Google Trends
通過全球熱力圖可以看到,對于 AI LLM 的關注,我國網友是特別熱情的——生成式 AI 、 OpenAI 和 ChatGPT 等主要詞一直處于「飆升」狀態。
盡管在近期熱度上,AI 壓制了「法學高材生」,但出于「大語言模型」在絕對數量級上處于下風,如故是「弟弟」,所以機器翻譯中依然默認 LLM 為「法學碩士」。
02
還能改嗎?怎樣改?
所以,LLM 大語言模型這個「法學碩士」的帽子,就沒辦法摘下來了?
那倒也未必,可是確實需要一些時日,其中一些嚴重因素,也許會加快澄清誤會的速度:
技術術語的普及度
如是「大型語言模型」(Large Language Model)這一術語在網頁、學術論文、報導消息和社交媒體中的使用頻率顯著注入,搜索引擎更有或者學習到這一含義。
搜索引擎算法的研發
隨著搜索引擎算法的不斷優化,它們在理解上下文和消除歧義方面的能力也在提升。這也許會加快無誤翻譯「LLM」這一術語的工序。
用戶反響和行為
用戶在使用搜索引擎時的行為和反應也會效率算法。如若用戶經常搜索與大型語言模型相關的內容,并在搜索結果中選擇與之相關的鏈接,搜索引擎會逐步學習并調整其算法。
技術領域的發展
隨著大型語言模型在技術領域的應用越來越廣泛,與之相關的內容和討論也會補充,這有助于提高搜索引擎對這一術語的鑒別能力。
Techmeme 上的贊助商廣告 LLM 被干脆翻譯成法學碩士|Techmeme
以此刻 AI 的熱度來看,LLM 被統一翻譯成「大語言模型」的未來,恐怕不會太久就會到來。而時間和進度,很可能就掌握在所有網友手中。
不過,這對于真正的法律界和教育界大概也是個小問題,如若 LLM 就是「AI 大語言模型」的觀念深入人心,那將來有人想憑借 LLM 來搜索當地「法學碩士」考試的同學,也許會在網上多繞一會兒了。而法律專門學校在做搜索引擎優化時候,也得多花點力氣了。
在這個訊息爆炸的時代,術語的含義也在不斷演變。從「法學碩士」到「大語言模型」,LLM 的雙重身份讓我們見證了語言的多樣性和技術的進步。讓我們拭目以待,看看這個小小的縮寫將如何在我們的語言和技術中照舊演化。
(舉報)
AI正版系統源碼推薦:小狐貍GPT-AI付費創作系統+對接國內各大接口
微信二維碼