文章專區

2024-07-15使用LLM對抗LLM「幻覺」 破解人工智慧的編造內容 511 期

Author 作者 編譯|陳亭瑋

在人工智慧(artificial intelligence, AI)領域中,大型語言模型(large language models, LLM)已經成為一種重要的工具,以模型生成文本可以提供知識並透過自然的對話與使用者進行交流。現階段LLM在藥物發現、材料設計和數學定理證明等領域,都已經出現許多的應用。然而,這種模型有個重要的問題,那就是它們有時會生成看似合理、但實際上並不正確或者與主題無關的文字,這種現象被稱為「幻覺」(hallucinations)。英國牛津大學(University of Oxford)的研究團隊開發了一種方法來檢測一種特殊的幻覺,也就是「編造」(confabulations)。
 
編造為來自於LLM模型內部、與主題無關的幻覺。研究團隊試圖測量LLM對主題回答的不確定性以識別編造。此研究最特別的是,研究團隊將這種不確定性量化,並且使用LLM來評估回答的準確性。簡而言之,他們的方法就像是用火來對付火,LLM有可能是控制LLM的策略的一個重要部分。
 
LLM的基礎源自於對數十億個詞在句子、段落和文檔中一起使用的例子的模型化,並以高精度捕獲這些詞相互配合的統計模式,讓它在提供答案時看起來很像自然語言。然而,這些模型是否真正捕捉到意義或在認識論或認知意義上理解語言,仍存在許多爭議。
 
LLM現階段在涉及某種理解的複雜語言處理任務中表現良好,甚至可以協助判斷前後語意義的正確性,此一能力被稱為文字蘊涵(textual entailment, TE),處理文字片段之間的定向關係,判斷兩個句子能否互相推論、存在「語義等價」的關係。研究團隊利用LLM識別文字蘊涵的能力,開發檢測「編造」的方法。第一種方法是使用將LLM輸出的答案輸入讓另一組LLM來計算「語義等價」,也就是確定兩個陳述是否相互蘊涵。然後再以第三組LLM來評估第一組所提供的答案與人類提供的參考答案之間的差異,如果兩者所得的差異都很大,就可以判定監測到LLM的「編造」。然而,如此使用LLM來評估基於LLM的方法似乎是循環的,並可能帶有偏見。
 
檢測編造與LLM許多的議題有關,包括偵測違反學術誠信以LLM生成的內容,以及使用LLM改寫現成文本的抄襲;也能夠揭露假新聞,或辨識出為欺騙目的專門創造假內容的假訊息。雖然這些議題與造成編造的LLM內部模型不確定性原理有所不同,但是根源於語義的評估方法,將有助於未來使用LLM或其他方法偵測LLM模型所提供的結果或幻覺,避免AI造成資訊正確性遭扭曲的嚴重議題。
 

延伸閱讀
Verspoor, K. (2024). ‘Fighting fire with fire’—using LLMs to combat LLM hallucinations. Nature. https://www.nature.com/articles/d41586-024-01641-0