自然語言處理默默地支撐著我們數字生活的許多方面,從電子郵件垃圾郵件過濾器和檢測抄襲到檢查語法和糾正拼寫。 但了解該技術的工作原理並了解其在人工智能中的作用通常具有挑戰性。
NLP 是人工智能的一個分支,它使計算機系統能夠以類似於人類的方式解釋、理解和生成書面和口頭語言。 使用語言規則和機器學習算法,NLP 模型可以分析和生成文本和語音數據,並簡化人與機器之間的交互。
輸入代碼“nltechtarget21”
獲得這本書 35% 的折扣。
NLP 用於文本分類和提取、自然語言生成和機器翻譯等任務。 借助 NLP,組織可以處理和分析大量文本數據,並構建人工智能係統,使他們能夠更好地與客戶互動。
但是,儘管 NLP 模型能夠改善人機通信,但其構建起來卻很困難。 在 Manning Publications Co. 出版的《自然語言處理實踐》第二版中,作者 Hobson Lane 和 Maria Dyshel 為讀者提供了構建模型的詳細步驟,這些模型幾乎可以像人類一樣理解和生成文本。
在 TechTarget 編輯的問答中,Lane 討論了用戶開始創建 NLP 模型所需的技能、在哪裡可以找到在線高質量數據以及 NLP 如何在人工智能的未來中發揮積極作用。
編者註: 為了清晰和長度,以下採訪已被編輯。
在開始使用本書之前,讀者應該具備哪些技能?
Hobson Lane:最主要的是好奇心。 我有中學生正在閱讀這本書並幫助我,甚至畫圖表。
你 [should also] 可能已經嘗試過使用 Python 作為編程語言。 稍微熟悉 Python 並能夠在計算機上設置環境以便使用 Python 進行編程 — 這確實是您所需要的。
在使用 NLP 時,您遇到過或看到用戶遇到過哪些常見挑戰?
萊恩:不幸的是, Windows 操作系統對Python開發者不太友好,設置起來相當困難 [if using Windows]。 但如果您能夠克服這些障礙,那麼接下來就是獲取高質量的標記數據。
幸運的是,有一些高質量的數據集,例如古騰堡計劃。 所有書籍都可以獲取原始文本內容,但它們已經有 40 年曆史了。 因此,他們無法真正圍繞很多技術進行大量對話。
然後是 Stack Overflow,這是可以應用 NLP 的問題和答案的重要來源。 不幸的是,它被不良行為者和人工智能本身污染了。 他們試圖禁止大型語言模型提供答案,但它們正在洩漏,因此它作為有關技術的權威信息來源的地位已經停滯不前。
我們確實提供了很多隱藏的信息來源,例如 Mastodon 活動酒吧 [a decentralized social networking protocol]。 但您應該對如何使用它負責,最好只使用人們選擇與您分享的內容 [through] 檢索該數據的特定協議。 Lemmy.ml 是另一個也在 ActivityPub 上運行的平台,是一個類似於 Reddit。
因此,獲取數據和讓計算機在這些數據上運行是人們面臨的兩大挑戰。
您在書中寫道,NLP 可能有助於拯救世界。 您能稍微談一下嗎?
Lane:這只是我心裡的一種感覺。 顯然,這不是一個定量的東西。 有這樣一個概念:生命本身的智慧和復雜性是合作的結果。 合作似乎是生物系統和生命自然進化的關鍵要素——對於人類和哺乳動物等高級生物體來說,溝通也是同樣的事情,我們通過自然語言進行交流。
我們合作的方式將塑造我們的進化方式,以技術為媒介進行語言處理並與我們一起參與合作網絡。 如果我們能夠建造與我們合作的機器,那麼複雜性將會繼續增長。 因此,如果我們構建正確,它可以拯救我們,如果我們構建錯誤,它可能會毀滅我們。
如果你是那個對公司、組織、非營利組織或大學實驗室有幫助和貢獻的人,那麼你就可以拯救世界,而這些公司、組織、非營利組織或大學實驗室想出了一種方法來建造合作機器,這些機器能夠勝過公司故意建造的反社會機器剝削你並從你身上獲取金錢。 [But] 如果我們在訓練和製造機器時牢記這一點,那麼我們就會迷失方向。 對於人們來說,獲得能夠教他們如何製造與這些機器一樣智能的機器的材料非常重要,而且因為它們與人類處理者以及彼此之間的合作而變得更加智能。
您對這項技術的使用持樂觀態度嗎?
Lane:是的,我非常樂觀。 我確信,這些正在從事這項工作的中學生和高中生將帶領我們走向這個更美好的世界。 數字原住民了解這項技術。 他們知道它的力量和令人上癮的品質。 我認為,他們能夠比我們這一代人做得更好,創造一個技術成為富有成效、有益和合作的人類思維的工具,而不是剝削和操縱他人的工具的世界。
關於這本書和 NLP,您還有什麼想提的嗎?
Lane:最重要的是讓人們意識到不僅僅是生成模型。 我發現很多人都看到了法學碩士或生成模型的魔力,並認為這就是它的所在。 但事實並非如此,因為 [generative AI] 完全不受控制且無法解釋。
生成模型很早就出現了 ChatGPT 並且不需要對話界面。 僅僅因為對話是我們自然而然地進行的事情,它讓人感覺有趣、有吸引力,並在社交媒體上推動了這種病毒式傳播,但這並不意味著這就是您與工具交互的方式。
對話並不是您對機器進行編程以使其執行您希望它執行的操作的方式。 您需要一種非自然語言來對計算機進行編程。 您需要準確地指定您想要做什麼,並擁有一種可以使用的編程語言。 這就是我們正在做的事情。 這本書為您提供了這些工具庫和示例,這樣您就可以真正構建一個執行您想要執行的操作的系統 – 不是偶爾,而是始終。
本書不是關於即時工程的。 如果你來這裡是為了學習即時工程,那麼你就來錯地方了。 即時工程是一個誤稱。 不涉及任何工程。 它只是在嘗試和犯錯,並以某種方式欺騙 [the model] 時不時地生產出你想要的東西。 它不是一個好的思想伴侶,也不是一個與自然語言處理交互的良好界面。
書中的工具將向您展示如何更好、更高效地完成工作,以更快地實現您的事業或生活目標。 它還將幫助您了解這種方法如何 [works]。 希望您會發現它比花費一生試圖通過對話界面追逐下一個產品要好得多。