科学封面

科学封面(第20期)—— 谁是“聊天终结者”?五个因素高度相关

科学封面(第20期)—— 谁是“聊天终结者”?五个因素高度相关

编辑:xdx 来源:浙江大学 时间:2018年04月09日 访问次数:821  源地址

在社交媒体上聊天时,一言不合就“拉黑”的状况时有发生。浙江大学计算机科学与技术学院大四学生焦云皓,就因一次出言不慎被一位同窗了16年的好友拉黑了,友谊的小船说翻就翻。他由此想到两个问题:什么是聊天杀手?以及,怎样的对话又更长久?工科男解决问题的方式是:让人工智能去想。

焦云皓开发出一套ConverNet系统,它在分析一段对话后能作出判断:聊天是否会继续。AI还通过大数据驱动的深度学习方法告诉人类:什么样的语言更有 “聊天杀手”的风险。 

相关论文 Find the Conversation Killers: A Predictive Study of Thread-ending Posts(找到对话终结者:一个终结聊天回复预测模型的研究)被互联网领域的高水平国际会议——国际万维网大会(The International Conference of World Wide Web,简称WWW会议)录用。4月22日,焦云皓将赴法国里昂向学界分享他的研究成果。


学习10万组对话

ConverNet系统是一个深度学习神经网络系统,能不厌其烦地“自学”一组一组对话,洞悉人类聊天过程中细枝末节,学得越多,它就越智能。问题是:让ConverNet去哪学呢? 

在合作导师美国密歇根大学计算机学院终身教授梅俏竹老师指点下,焦云皓找到了两个公开的海量数据库:Reddit-Threads和康奈尔大学的Movie Dialogs,供ConverNet“刷题”。 

“两个人聊着聊着无话可说是一种情况;群聊中,某人发言之后出现冷场是另一种状况”,焦云皓说,人工智能对这两种场景都进行了分析。Reddit-Threads类似于中国的“知乎”,很多人围绕一个话题讨论并且能够相互点评,接近于社交媒体中的群聊模式;而Movie Dialogs提供的是海量的电影对白,接近于单聊。 

ConverNet一共自学了Reddit-Threads上的83097组对话和Movie Dialogs中的10万组对话,分别涉及到了29797和107354个不同单词。“通过深度学习,ConverNet自行掌握了一些聊天‘杀手’的特点,接下来,它就可以随机对一组新的对话是否存在终结隐患进行预判。”焦云皓说。 

虽然ConverNet起初是不懂人类语言的“小白”,但经过海量数据“自学”之后,它的预测准确率达到80%左右,各项指标也优于传统方法。焦云皓解释了其中的关键步骤:第一步,将对话进行信息编码,形成计算机能够理解的自然语言;第二步,用LSTM神经网络单元,对“消化”后的对话信息进行特征提取;第三步,输出聊天可能终结的概率。

5个特征打翻友谊的小船 

计算机用自己的方式来对人类对话是否存在终结隐患进行预判而获得较高的准确度,这促使焦云皓进一步思考:到底怎么聊天不会成为聊天杀手呢?“我们需要‘绕’到人工智能的后台,看看它‘自学’之后有哪些‘心得’,或许可以指导我们聊天更加持久。”焦云皓说,通过深度学习和机器学习等一系列方法,对海量数据库进行再次学习之后,他发现了5个与聊天是否会终结有关的特点。 

1. 分享。当对话中出现Mr, Mrs, talked, heard, seen, care等词语时,聊天易持续长久,这些词汇体现了尊重与分享的愿望;而当出现YOU, THE, Christ, but, ass等词语时,聊天终结的概率会明显增大。 

2. 回合。在单聊场合,聊天的回合越多,越可能终止对话;而在群聊过程中,回合越多代表话题越热烈,越有可能持续。 

3. 长短。在单聊场合,聊天的句子越长,谈话越可能持续,其原因在于可能双方在进行深度的交谈;而在群聊场合,简短的句子更受欢迎,如果某人突然说了很长一大段发言,后面易出现冷场的状况。 

4. 时间。如果你发起对话时间在诸如深夜等休息时间,容易引起对方反感,也有可能成为聊天终结者。 

5. 情绪。在群聊当中,负面情绪有可能会引发新一轮的共鸣与探讨,但是在单聊中,负面情绪可能会倾向于终结对话。 

未来的聊天“顾问”  

“这下我知道我为什么是‘聊天终结者’了。”焦云皓的老爸是这项研究的受益者之一,在微信的各种聊天群中,他的话都是大段大段的,这在一堆短句当中,显得特别“格格不入”,这便是人工智能“悟”出来的聊天杀手的特点。焦云皓说,老爸读了这项研究之后,长篇大论比以前少了许多,“改发表情包,改发短句子,不像以前那么容易冷场了。” 

焦云皓的本科设计指导老师、计算机学院吴飞教授认为,焦云皓的研究关注到之前从来没有人关注到的有趣的现象,并尝试用人工智能的方式去解答,很有价值。“希望将来有人能够进一步改进我们提出的方法,也有可能这个系统将学习到更海量的数据,变得越来越聪明。”

可以期待的是,将来的某一天,我们聊天时会有一个智能聊天助手,当你出语不妥,它会立即识别叫停,这样,你的对话质量就能大大提升。

如果这个聊天助手早点出现,说不定,焦云皓被同学拉黑的事件就不会发生了。因为那次焦云皓带着同学玩过王者荣耀之后说:“你这样的水平如果是其他人,我才不带他玩呢。”后来,他们虽然又加回了好友,但是再也没一起玩过王者荣耀。


(文 周炜)



媒体关注


钱江晚报:http://qjwb.zjol.com.cn/html/2018-04/05/content_3640762.htm?div=0

浙江新闻:http://ent.zjol.com.cn/kjsy/201804/t20180403_6949887.shtml


总访问量:10743231