Machines & humans Talk

Hirsun (HAN Jiaming)大约 17 分钟

Machines & humans Talk

为什么要用自然语言与机器交流？

自然语言是人类互动的最自然和最包容的界面
可以使用代理系统等复杂设备（参见物联网）
可以用自然语言训练和教导设备
许多社会功能依赖于自然语言交流，例如商业交易。
系统可以自主操作（经过简报），并向你报告经验
语言是最有效的交流方式：抽象、简约和利用共同点

Natural Language

一种由人类为一般交流目的而说、写或签名的语言。
与正式语言（编程、数学语言）和构造语言相对照。
在科幻小说的人机交互界面中大量使用!

NLP

Semantic Analysis

用语义（意义）信息标记文本，如专有名词、性别、数字、原因、结果等。
使用启发式结合统计和概率

Syntactic Analysis (Parsing)

分析形成更大结构（句子）的相关标记（单词）组
将线性句子转换为层次结构分析树
解析是通过语法来完成的，语法是对一个句子中允许的结构的正式说明。
解析算法是一种方法，用于确定
句子的结构的方法。
解析器是一个确定句子结构的程序。

Part-of-speech tagging

语篇标签「Part-of-speech tagging」是为句子中的每个词贴上适当的语篇标签的任务。
POS类根据词的句法或语法行为将其分为不同的类别

一个词可以有多个标签！通常情况下，这是用概率来完成的。

Tokenization

将字符串转换为单词
对印欧语系的语言来说是微不足道的（几乎）。
对其他语言来说则更为复杂，例如。中文需要分词。

Speech Recognition (two forms)

将口语转换为机器可读的输入（文本）。
根据声音输入识别说话者（语音验证）。

将口语转换为机器可读的输入（文本） 0 根据声音输入识别说话者（语音验证）。

语音识别方法：

技术主要来自于电子工程和数学
- Digital Signal Processing
- Probabilities and Statistics, Modeling
以字错误率衡量 (错字数/句子长度)
Problems
- Speaker dependence
- Acoustic sampling「环境噪声」
- Environmental noise

Difficulties

Error Cascading
- Processing natural language is a multi-step process
- 一个阶段的错误会导致更多的错误
Ambiguity

Understanding & Generation

Ambiguity

歧义无处不在，而我们却察觉不到！！！

如何实现计算机与人类的对话？将其分解成若干部分

Awareness of situated contexts

图像识别只给出物体的类型，而不是实例。
识别对象实例是困难的，需要计算多个对象（椅子），跨环境识别对象，为对象的不同实例分配属性（我的椅子坏了），对象实例可能移动、消失、出现，等等。
Extreme solutions
- 所有相同类型的对象（如椅子）都是同一个实例（椅子）。
- 对一个物体的每一次感知都会产生一个新的实例（有多少椅子就有多少感知）。

Match places and objects within contexts

位置定义了对象实例，对象定义了位置。

在已知地点的物体映射到已知的物体实例上
不同位置的对象被映射到不同的实例上

当物体的属性（大小、颜色、位置、所有权）不一致时，要加以区分。

持久性：有多少变化仍能识别一个物体？
事物属性的可改变性：可移动、可转移、大小、颜色

Humans interpreting machines

计算机需要字面指示，而人类则得到要旨。
计算机需要正确的语法（参照规定性语法）对于人类来说，语法从属于语义（参照描述性语法）。
计算机能够进行上下文自由解释
人类进行对环境敏感的解释（社会、语义）。

Conclusions

交互设计中以人为本的文本并不是用某种拟人化来修饰传统工具。
它需要对对话（Scripts！）和其他语言行为的结构有深刻的理解，重点是（语境）语义和语用学。

Summary

与普通机器不同，计算机可以通过语言来接近。然而，编码语言是面向语法的汇编指令和面向语义的人类语言之间的妥协。
为了向编码人员和用户解释系统，已经开发了许多对话符号。它们可以是图表，例如 Petri 网、流程图和状态转换网络。它们也可以是文本的，例如语法和生产规则
选择一个或另一个符号是在关注事件或状态之间的权衡，是力量与清晰度的权衡，是模型与符号的权衡，是强调顺序状态还是并发状态的权衡。
自然语言很难！完整的 NL 接口可能还需要几年时间。这是因为人类的语言较少依赖于形式（语法3），而更多地依赖于内容（语义），而内容又容易受到情景、语境、语用学的影响。
在设计语音或文本界面时，我们应该意识到，我们的语音行为（例如，命令是指令性的），会产生对话规则（例如，与用户目标相关）。
许多人与人之间的互动是正式的（例如，婚礼公式）并使用心理脚本（例如，如何开始/结束会议）。这些是 NLP 应用程序的唾手可得的成果
- 在现实世界中通过自然语言与系统进行交流是非常需要的
- 但这也是一个人工智能的完整问题
- 诸如概率推理、深度学习等通用技术需要被整合和调整以处理复杂的多模态环境
- 灵活性、综合学习、对错误、不确定性和噪音的稳健性、不完整的数据流
- 心智理论、情感关系、共同点
- 目标和社会角色的协商
- 跨学科的研发是关键

在现实世界中通过自然语言与机器人进行交流是非常必要的。但这也是一个人工智能的完整问题

概率推理、深度学习等通用技术需要整合和调整，以处理复杂的多模态环境。
灵活性、综合学习、对错误、不确定因素和噪声、不完整数据流的稳健性
心智理论、情感关系、共同点
目标和社会角色的谈判
需要跨学科的研究和开发

Machines & humans Talk

# Machines & humans Talk

# Natural Language

# NLP

# Semantic Analysis

# Syntactic Analysis (Parsing)

# Part-of-speech tagging

# Tokenization

# Speech Recognition (two forms)

# Difficulties

# Understanding & Generation

# Ambiguity

# Awareness of situated contexts

# Match places and objects within contexts

# Humans interpreting machines

# Summary

Machines & humans Talk

Natural Language

NLP

Semantic Analysis

Syntactic Analysis (Parsing)

Part-of-speech tagging

Tokenization

Speech Recognition (two forms)

Difficulties

Understanding & Generation

Ambiguity

Awareness of situated contexts

Match places and objects within contexts

Humans interpreting machines

Summary