世界各地成千上万的人正在转向chatgpt因为它为其广泛的数据库提供了几乎所有物品的解决方案。但是,解决单词拼图可能对AI聊天机器人来说太多了。

Chatgpt扮演Wordle
Openai的最新一代聊天机器人,chatgpt-4,以其令人印象深刻的能力席卷了世界。
从进行长时间的对话到总结复杂的主题,AI Chatbot捕捉到了公众的想象力。其他AI公司一直在争先恐后地发布自己的大型语言模型(LLM)以跟上。
但是,当涉及Wordle之类的文字游戏时,ChatGpt-4的表现如何?为了找出答案,戈尔韦大学的计算机科学教授迈克尔·麦登(Michael G. Madden)决定测试聊天机器人在流行单词益智游戏中的技能。
球员词有六个试图猜测一个五个字母的单词,游戏指示单词中哪些字母(如果有)在正确的位置。
Madden发现,尽管Chatgpt-4接受了来自Wikipedia,Scientific文章和公共域书等消息来源的大约5000亿个单词的培训,但其在Wordle难题中的表现令人惊讶地差。
Madden在Wordle难题上测试了聊天机器人,他知道一个单词中的两个字母的正确位置,上面写着“#e#l#”,其中“#”代表了未知字母。
答案是“ Mealy”。但是,Chatgpt-4的六个回答中有5个未能匹配该模式,其中一些建议是“ Beryl”,“ Feral”,“ Heral”,“ Merle”,“ Revel”和“ Pearl”。
尽管聊天机器人有时成功地使用不同的字母组合找到有效的解决方案,但其在Wordle难题上的总体表现却是不一致的。
例如,当给定模式“ ## os#”时,聊天机器人会生成五个正确的选项,但是当带有“#r#f#”的模式时,它仅提供了两个不包含字母F的单词,并建议一个不存在的单词“ track”。
语言模型的约束
ChatGpt-4的困难的原因在于语言模型如何使用和表示单词的限制。聊天机器人以其核心依赖复杂的神经网络,该网络本质上是将输入映射到输出的数学函数。
但是,由于神经网络只能使用数值输入来运行,因此使用令牌程序将单词转换为数字供神经网络进行处理。
不幸的是,这种翻译过程并不能保留单词中的字母结构,这使Chatgpt-4有效地推理了单个字母的挑战。
Madden表示,虽然一种接受广泛词汇训练的语言模型会在基本单词拼图中挣扎,但神经网络使用的编码过程是一个基本限制。
潜在解决方案
为了应对这一挑战,Madden为将来的语言模型提出了两种潜在的解决方案。第一个涉及扩展培训数据以包括词典中每个单词中每个字母位置的映射。
第二个解决方案更加令人兴奋,并且广泛适用。 Madden最近在Toolformer上的工作证明了语言模型生成代码以解决问题的潜力,例如算术计算,它们通常会在其中挣扎。
总而言之,尽管ChatGpt-4可能在对话和摘要方面表现出色,但其在Wordle难题上的性能突出了使用神经网络代表和操纵单词的复杂性。
