谈论
用两个词来理解感情。
“谢谢。”
“谢谢你听我说,因为它温暖了我的四季…”
这很简单。我可以说这不是我最近经常开的玩笑。
但如果你问你的长辈,你可能会认为“地铁上的老人正在看他们的手机”。
然而,与流行文化存在代沟的不仅仅是老年人和人工智能。
不,一位博客作者最近发表了一篇分析谷歌数据集的文章。研究发现,reddit评论的情感识别错误率高达30%。
例如:。
我想通过对朋友生气来表达我对他的爱。
谷歌的数据集被判定为“愤怒”。
此外,我有以下评论。
你的TM差点把我吓死。
谷歌的数据集被认为是“混乱的”。
你不懂我的笑话。
将人工智能转化为人工智能的方法的荒谬错误是几秒钟内的障碍。
善于打破规则
这是从他的辨别方法开始的。
谷歌数据集使用文本来确定何时对标签进行评论。
你会发现谷歌的数据集错误地将文本中的情感判断为愤怒。
让我们推测一下谷歌数据集中歧视错误的原因。在上面的例子中,所有四条评论都包含“脏话”。
谷歌的数据集使用这些“脏话”作为判断的依据,但如果仔细阅读完整的评论,你会发现所谓的“依据”只是用来增强整个句子的语气,没有实际意义。
网民的评论并不是孤立的。发布、发布平台和其他元素可能会改变含义。
例如如果显示该注释
单凭这一点很难判断情感因素。但如果你知道他是肌肉网站上的评论,你可能很容易猜到。
忽视评论和贡献本身或用强烈的情感语言来判断情感因素是不合理的。
句子不是孤立的。它有一个特定的语境,其意义随着语境的变化而变化。
通过将评论放在一个完整的上下文中来判断情感色彩,可以大大提高识别的准确性。
然而,错误率达到30%不仅有“断章取义”的原因,还有更深层次的原因。
“Ai不知道我们的故事。”
除了背景干扰和数据集歧视外,文化背景也是一个非常重要的因素。
国家、地区和网站社区也有自己的文化符号。文化符号圈之外的人很难解读,因此它成为一个棘手的问题。
为了更准确地判断社区评论的情绪,需要对社区进行数据培训,以了解整个社区的文化基因。
发表评论