科技有狠活GPT4会看图说话能人格c

2024/10/22 来源：不详

封面新闻记者张峥

人类问GPT-4：把气球的线剪断，会发生什么？

GPT-4：会飞走。

如果说GPT-3还停留在“对人类语言的理解分析，并作出回答”这样单一酷炫的技能上，那么它的下一代GPT-4，不仅会“说话”，还能识图。在人类不停地“调戏”GPT-3时，我们都成为了它的训练师。

GPT升级的背后，是它从语言大模型到多模态大模型的跨越。GPT-4牛在什么地方？什么是多模态大模型？未来，进行苏格拉底式提问教学的还是不是人类……3月16日，封面新闻记者邀请了四川省计算机学会自然语言处理专委会秘书长、博士生导师陈晓亮为你解读人类之友GPT-4的高能之处。

体验：GPT-4能识图了

把气球的线剪断，会发生什么？人类问升级版GPT-4。GPT-4：会飞走。

面对人类提出的带有图片的问题，GPT-4作出了从识别到理解分析，再到回答的连贯动作。

陈晓亮第一时间试用了GPT-4，感受到了质的飞跃。

“作为多模态聊天机器人，GPT-4最大的使用亮点就是能接受图像和文本的共同输入，输出文本回复，具有明显的图片理解能力。”

此外，从一些与ChatGPT3.5版本的逻辑问题输出结果来看，例如，多人会议时间协调问题等，GPT-4在收集信息、解决问题、输出结果等方面有了质的飞跃。它更加聪明、有逻辑和创造性。

识图

ChatGPT-4可以生成和编辑创新型和技术性的文字内容，例如制作抽认卡、通过模拟律师考试等。它能够根据网页界面草稿生成网页代码，能够更好地适应用户的需求和风格，提供适合使用者个性化喜好的互动体验，即GPT-4能够进行人格cosplay。

人格cosplay

“GPT-4具有更强的泛化能力和适应能力，可以根据不同的任务和领域调整模型的行为和风格。而GPT3需要更多的前置知识和指导，即新开一个聊天，不需要慢热，直接能够给出专业回答。”

扮演销售经理的对话

“假设你是一个采用引导性教学手段的高校老师，请给我讲解下列方程的解法。”人类“学生”提出要求。结果GPT-4不会明确地告诉答案，而是给出了各种引导方法让提问者回答。

苏格拉底式提问

多模态大模型

在陈晓亮看来，GPT-4与GPT-3最大的不同和改进有几点：第一，GPT-4是一个多模态大模型，可以处理文本、图像、音频等多种类型的输入和输出，而GPT-3仅是语言大模型，只能处理文本输入和文本输出。

第二，GPT-4的参数数量是GPT-3的16倍，达到了1.6万亿个，而GPT-3只有亿个参数。GPT-4使用了新的训练方法和优化技术（未披露和开源），提高了模型的效率和稳定性，而GPT-3使用了传统的Transformer架构和自回归方法。

他解释，所谓参数数量，指的是模型的所有带参数的层的权重参数总量。权重参数是神经网络中用来调整输入和输出之间关系的数值，它们可以通过训练数据来学习和优化。参数数量反映了模型的复杂度和表达能力，一般来说，参数数量越多，模型越强大，但也越容易过拟合和消耗更多的计算资源。

超强的学习能力

疯狂地学习，出其不意地迭代。在人类不停地“调戏”GPT-3时，我们都成为了它的训练师。“GPT和newbing快速增长的多国、多语言用户，以及海量真实问题都促进了ChatGPT升级为ChatGPTPlus。”

“GPT能够升级更新如此之快，最重要的核心能力是它的生成能力和学习能力。”陈晓亮解释，生成能力指的是它可以根据不同的输入和目标，生成各种类型和风格的内容，从而满足用户的需求和期望；学习能力指的是它可以不断地从大量的数据中提取知识和规律，并且可以根据反馈和评价进行自我调整和优化。

不过，他也表示，从使用来看，ChatGPT-4目前还有一些限制，例如每次输出最多7.5万个单词，每4小时限制发送条消息；目前对于中文支持也不够完善，中文回答和英文相比明显偏短。“另外还是少量存在生成虚假信息等问题，可能受到对抗性提示词的影响，导致输出错误或不合理的内容。”

下一篇文章：没有了