Machines & humans Talk
大约 17 分钟
Machines & humans Talk
为什么要用自然语言与机器交流?
- 自然语言是人类互动的最自然和最包容的界面
- 可以使用代理系统等复杂设备(参见物联网)
- 可以用自然语言训练和教导设备
- 许多社会功能依赖于自然语言交流,例如商业交易。
- 系统可以自主操作(经过简报),并向你报告经验
- 语言是最有效的交流方式:抽象、简约和利用共同点
Natural Language
- 一种由人类为一般交流目的而说、写或签名的语言。
- 与正式语言(编程、数学语言)和构造语言相对照。
- 在科幻小说的人机交互界面中大量使用!
NLP
Semantic Analysis
- 用语义(意义)信息标记文本,如专有名词、性别、数字、原因、结果等。
- 使用启发式结合统计和概率
Syntactic Analysis (Parsing)
分析形成更大结构(句子)的相关标记(单词)组
将线性句子转换为层次结构分析树
解析是通过语法来完成的,语法是对一个句子中允许的结构的正式说明。
解析算法是一种方法,用于确定
句子的结构的方法。
解析器是一个确定句子结构的程序。
Part-of-speech tagging
- 语篇标签「Part-of-speech tagging」是为句子中的每个词贴上适当的语篇标签的任务。
- POS类 根据词的句法或语法行为将其分为不同的类别
一个词可以有多个标签!通常情况下,这是用概率来完成的。
Tokenization
- 将字符串转换为单词
- 对印欧语系的语言来说是微不足道的(几乎)。
- 对其他语言来说则更为复杂,例如。中文需要分词。
Speech Recognition (two forms)
- 将口语转换为机器可读的输入(文本)。
- 根据声音输入识别说话者(语音验证)。
将口语转换为机器可读的输入(文本) 0 根据声音输入识别说话者(语音验证)。
语音识别方法:
- 技术主要来自于电子工程和数学
- Digital Signal Processing
- Probabilities and Statistics, Modeling
- 以字错误率衡量 (错字数/句子长度)
- Problems
- Speaker dependence
- Acoustic sampling「环境噪声」
- Environmental noise
Difficulties
- Error Cascading
- Processing natural language is a multi-step process
- 一个阶段的错误会导致更多的错误
- Ambiguity
Understanding & Generation
Ambiguity
歧义无处不在,而我们却察觉不到!!!
如何实现计算机与人类的对话?将其分解成若干部分
Awareness of situated contexts
- 图像识别只给出物体的类型,而不是实例。
- 识别对象实例是困难的,需要计算多个对象(椅子),跨环境识别对象,为对象的不同实例分配属性(我的椅子坏了),对象实例可能移动、消失、出现,等等。
- Extreme solutions
- 所有相同类型的对象(如椅子)都是同一个实例(椅子)。
- 对一个物体的每一次感知都会产生一个新的实例(有多少椅子就有多少感知)。
Match places and objects within contexts
位置定义了对象实例,对象定义了位置。
- 在已知地点的物体映射到已知的物体实例上
- 不同位置的对象被映射到不同的实例上
当物体的属性(大小、颜色、位置、所有权)不一致时,要加以区分。
- 持久性:有多少变化仍能识别一个物体?
- 事物属性的可改变性:可移动、可转移、大小、颜色
Humans interpreting machines
- 计算机需要字面指示,而人类则得到要旨。
- 计算机需要正确的语法(参照规定性语法) 对于人类来说,语法从属于语义(参照描述性语法)。
- 计算机能够进行上下文自由解释
- 人类进行对环境敏感的解释(社会、语义)。
Conclusions
- 交互设计中以人为本的文本并不是用某种拟人化来修饰传统工具。
- 它需要对对话(Scripts!)和其他语言行为的结构有深刻的理解,重点是(语境)语义和语用学。
Summary
- 与普通机器不同,计算机可以通过语言来接近。然而,编码语言是面向语法的汇编指令和面向语义的人类语言之间的妥协。
- 为了向编码人员和用户解释系统,已经开发了许多对话符号。它们可以是图表,例如 Petri 网、流程图和状态转换网络。它们也可以是文本的,例如语法和生产规则
- 选择一个或另一个符号是在关注事件或状态之间的权衡,是力量与清晰度的权衡,是模型与符号的权衡,是强调顺序状态还是并发状态的权衡。
- 自然语言很难!完整的 NL 接口可能还需要几年时间。这是因为人类的语言较少依赖于形式(语法3),而更多地依赖于内容(语义),而内容又容易受到情景、语境、语用学的影响。
- 在设计语音或文本界面时,我们应该意识到,我们的语音行为(例如,命令是指令性的),会产生对话规则(例如,与用户目标相关)。
- 许多人与人之间的互动是正式的(例如,婚礼公式)并使用心理脚本(例如,如何开始/结束会议)。这些是 NLP 应用程序的唾手可得的成果
- 在现实世界中通过自然语言与系统进行交流是非常需要的
- 但这也是一个人工智能的完整问题
- 诸如概率推理、深度学习等通用技术需要被整合和调整以处理复杂的多模态环境
- 灵活性、综合学习、对错误、不确定性和噪音的稳健性、不完整的数据流
- 心智理论、情感关系、共同点
- 目标和社会角色的协商
- 跨学科的研发是关键
在现实世界中通过自然语言与机器人进行交流是非常必要的。但这也是一个人工智能的完整问题
- 概率推理、深度学习等通用技术需要整合和调整,以处理复杂的多模态环境。
- 灵活性、综合学习、对错误、不确定因素和噪声、不完整数据流的稳健性
- 心智理论、情感关系、共同点
- 目标和社会角色的谈判
- 需要跨学科的研究和开发