跳至主要內容

Machines & humans Talk

Hirsun大约 17 分钟

Machines & humans Talk

为什么要用自然语言与机器交流?

  • 自然语言是人类互动的最自然和最包容的界面
  • 可以使用代理系统等复杂设备(参见物联网)
  • 可以用自然语言训练和教导设备
  • 许多社会功能依赖于自然语言交流,例如商业交易。
  • 系统可以自主操作(经过简报),并向你报告经验
  • 语言是最有效的交流方式:抽象、简约和利用共同点

Natural Language

  • 一种由人类为一般交流目的而说、写或签名的语言。
  • 与正式语言(编程、数学语言)和构造语言相对照。
  • 在科幻小说的人机交互界面中大量使用!

NLP

Semantic Analysis

  • 用语义(意义)信息标记文本,如专有名词、性别、数字、原因、结果等。
  • 使用启发式结合统计和概率
1670689209798.png

Syntactic Analysis (Parsing)

  • 分析形成更大结构(句子)的相关标记(单词)组

  • 将线性句子转换为层次结构分析树

  • 解析是通过语法来完成的,语法是对一个句子中允许的结构的正式说明。

  • 解析算法是一种方法,用于确定

  • 句子的结构的方法。

  • 解析器是一个确定句子结构的程序。

1670689417027.png

Part-of-speech tagging

  • 语篇标签「Part-of-speech tagging」是为句子中的每个词贴上适当的语篇标签的任务。
  • POS类 根据词的句法或语法行为将其分为不同的类别

一个词可以有多个标签!通常情况下,这是用概率来完成的。

1670689634551.png
1670689634551.png

Tokenization

  • 将字符串转换为单词
  • 对印欧语系的语言来说是微不足道的(几乎)。
  • 对其他语言来说则更为复杂,例如。中文需要分词。

Speech Recognition (two forms)

  • 将口语转换为机器可读的输入(文本)。
  • 根据声音输入识别说话者(语音验证)。

将口语转换为机器可读的输入(文本) 0 根据声音输入识别说话者(语音验证)。

语音识别方法:

  • 技术主要来自于电子工程和数学
    • Digital Signal Processing
    • Probabilities and Statistics, Modeling
  • 以字错误率衡量 (错字数/句子长度)
  • Problems
    • Speaker dependence
    • Acoustic sampling「环境噪声」
    • Environmental noise

Difficulties

  • Error Cascading
    • Processing natural language is a multi-step process
    • 一个阶段的错误会导致更多的错误
  • Ambiguity

Understanding & Generation

Ambiguity

歧义无处不在,而我们却察觉不到!!!

如何实现计算机与人类的对话?将其分解成若干部分

1670771635152.png

Awareness of situated contexts

  • 图像识别只给出物体的类型,而不是实例。
  • 识别对象实例是困难的,需要计算多个对象(椅子),跨环境识别对象,为对象的不同实例分配属性(我的椅子坏了),对象实例可能移动、消失、出现,等等。
  • Extreme solutions
    • 所有相同类型的对象(如椅子)都是同一个实例(椅子)。
    • 对一个物体的每一次感知都会产生一个新的实例(有多少椅子就有多少感知)。

Match places and objects within contexts

位置定义了对象实例,对象定义了位置。

  • 在已知地点的物体映射到已知的物体实例上
  • 不同位置的对象被映射到不同的实例上

当物体的属性(大小、颜色、位置、所有权)不一致时,要加以区分。

  • 持久性:有多少变化仍能识别一个物体?
  • 事物属性的可改变性:可移动、可转移、大小、颜色

Humans interpreting machines

  • 计算机需要字面指示,而人类则得到要旨。
  • 计算机需要正确的语法(参照规定性语法) 对于人类来说,语法从属于语义(参照描述性语法)。
  • 计算机能够进行上下文自由解释
  • 人类进行对环境敏感的解释(社会、语义)。

Conclusions

  • 交互设计中以人为本的文本并不是用某种拟人化来修饰传统工具。
  • 它需要对对话(Scripts!)和其他语言行为的结构有深刻的理解,重点是(语境)语义和语用学。

Summary

  • 与普通机器不同,计算机可以通过语言来接近。然而,编码语言是面向语法的汇编指令和面向语义的人类语言之间的妥协。
  • 为了向编码人员和用户解释系统,已经开发了许多对话符号。它们可以是图表,例如 Petri 网、流程图和状态转换网络。它们也可以是文本的,例如语法和生产规则
  • 选择一个或另一个符号是在关注事件或状态之间的权衡,是力量与清晰度的权衡,是模型与符号的权衡,是强调顺序状态还是并发状态的权衡。
  • 自然语言很难!完整的 NL 接口可能还需要几年时间。这是因为人类的语言较少依赖于形式(语法3),而更多地依赖于内容(语义),而内容又容易受到情景、语境、语用学的影响。
  • 在设计语音或文本界面时,我们应该意识到,我们的语音行为(例如,命令是指令性的),会产生对话规则(例如,与用户目标相关)。
  • 许多人与人之间的互动是正式的(例如,婚礼公式)并使用心理脚本(例如,如何开始/结束会议)。这些是 NLP 应用程序的唾手可得的成果
    • 在现实世界中通过自然语言与系统进行交流是非常需要的
    • 但这也是一个人工智能的完整问题
    • 诸如概率推理、深度学习等通用技术需要被整合和调整以处理复杂的多模态环境
    • 灵活性、综合学习、对错误、不确定性和噪音的稳健性、不完整的数据流
    • 心智理论、情感关系、共同点
    • 目标和社会角色的协商
    • 跨学科的研发是关键

在现实世界中通过自然语言与机器人进行交流是非常必要的。但这也是一个人工智能的完整问题

  • 概率推理、深度学习等通用技术需要整合和调整,以处理复杂的多模态环境。
  • 灵活性、综合学习、对错误、不确定因素和噪声、不完整数据流的稳健性
  • 心智理论、情感关系、共同点
  • 目标和社会角色的谈判
  • 需要跨学科的研究和开发