影客网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

开启左侧
查看: 578|回复: 0
 付尾 发表于: 2015-10-31 10:09:11|显示全部楼层|阅读模式

[发现] 人工智能的崛起:智商测试得分超过四岁儿童

 [复制链接]
WBf5-fxkhcfq1007995.jpg

  研究人员最近对一个名叫ConceptNet的人工智能系统进行了测评。在一项为检测儿童智商而设计的测中,ConceptNet的得分超过了一名智商正常的四岁儿童。该测试共包含五项与词语推理和词汇有关的测验,ConceptNet的总得分为69分,与之进行对比的学龄前儿童得分则为50分。并且专家认为,该系统的智能程度还会进一步加强。
DZuP-fxkhcfq1008012.jpg

  在测试过程中,试题会通过语言处理工具转换成ConceptNet 4能够理解的语言,如“我们为什么要握手?”、“我们为什么要在夏天戴太阳镜?”和“为什么将刀子放入嘴中是不好的行为?”等等。
  北京时间10月31日消息,如果你本来就担心自己的工作有一天会被机器人取而代之,那么下面这则来自麻省理工学院的最新消息可能会让你更加惶恐。
  研究人员最近对一个名叫ConceptNet的人工智能系统进行了测评。在一项为检测儿童智商而设计的测试中,ConceptNet的得分超过了一名智商正常的四岁儿童。
  该测试共包含五项与词语推理和词汇有关的测验,ConceptNet的总得分为69分,与之进行对比的学龄前儿童得分则为50分。并且专家认为,该系统的智能程度还会进一步加强。
  ConceptNet是一项由麻省理工学院常识计算计划团队(MIT Common Sense Computing Initiative)管理的开源项目。该团队研发的ConceptNet 4运用了所谓的“关系”这一概念。例如,当让该系统解释什么是“小鹿”时,它会明白“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够理解这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。同时,该系统还可以使用所谓的“对立标记”表示负相关关系,比如“企鹅不会飞”等。
  研究人员让ConceptNet 4参与了“韦克斯勒学龄前儿童智力量表”测试(WPPSI-III),并将研究结果发表在论文《Measuring an Artificial Intelligence System's Performance on a Verbal IQ Test For Young Children》上。WPPSI-III测试包含14项测验项目,以及一份针对操作智商和言语智商的完整评估表。
ATNM-fxkhcfk7473113.jpg

  在对单项测试计分时,研究人员先使用每道题目得分最高的答案计分,然后再使用每道题目得分最高的前五个答案中最好的答案计分。他们将前者称为“严格计分”,后者称为“放松计分”。图中左侧为ConceptNet得分,右侧为受测儿童得分。
  操作智商测验通常会要求受测人完成绘画、解谜、记忆等任务。言语智商测验则会考察儿童的词语推理、词汇及理解能力。每种智商得分的平均分都为100分。本次研究则主要针对言语智商进行测试。
  在测试过程中,试题会通过语言处理工具转换成ConceptNet 4能够理解的语言,如“我们为什么要握手?”、“我们为什么要在夏天戴太阳镜?”和“为什么将刀子放入嘴中是不好的行为?”等等。
  该研究由芝加哥大学的斯特兰?奥尔森(Stellan Ohlsson)带领。在对单项测试计分时,研究人员先使用每道题目得分最高的答案计分,然后再使用每道题目得分最高的前五个答案中最好的答案计分。他们将前者称为“严格计分”,后者称为“放松计分”。
  在“信息”测试中,ConceptNet得到了20分,而同时参加测试的四岁儿童通过转换后的得分为10分。这名儿童在词语推理和理解上得分更高,均为7分,而ConceptNet在这两项上的得分分别为2和3分。此外,ConceptNet表现出了更丰富的词汇量,词汇得分为20分,而儿童得分为13分。
  “ConceptNet系统的得分与四岁儿童相仿,但低于五至七岁儿童的平均得分,”研究人员解释道,“该系统在每个单项中得分差异很大,说明还有改进的空间。在所有测试中,‘理解’是最关乎人类常识的测试项目。得分差异大、常识方面表现一般,这说明ConceptNet尚不具有四岁儿童的语言能力。但本次研究说明,儿童智商测试可以为人工智能系统的评估和比较提供一种客观的度量手段。”
FrIo-fxkhqea2902583.jpg

  ConceptNet是一项由麻省理工学院常识计算计划团队(MIT Common Sense Computing Initiative)管理的开源项目。该团队研发的ConceptNet 4运用了所谓的“关系”这一概念。例如,当让该系统解释什么是“小鹿”时,它会明白“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够理解这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。
  “此外,许多由ConceptNet给出的错误答案和儿童给出的错误答案不仅相去甚远,而且违反常识。”
  例如,在关于“狮子”的词语推理测验中,该AI系统和首测儿童被给予三条线索──“雄性长着鬃毛”,“该动物生活在非洲”,以及“它是一种体型很大的棕黄色猫科动物”。
  由ConceptNet给出的排名前五的答案按顺序排列为:狗,农场,生物,家庭,猫。
  研究团队解释道,“生物”和“猫”尚且还能与“狮子”沾边,但其它的答案就明显有悖于常识了。
  “按照常识,受测者应该至少能将答案限制在动物的范围内,同时能做出简单的推理:“既然线索说它是猫科动物,那只有猫科动物能够被列入考虑范围。”
  该论文被发表在期刊《arXiv》上,共同作者包括罗伯特?斯隆(Robert Sloan)、捷尔吉?图兰(Gy?rgy Turán)和阿隆?尤拉斯基(Aaron Urasky)。
20w0-fxkhqea2902588.jpg

  ConceptNet系统的得分与四岁儿童相仿,但低于五至七岁儿童的平均得分。这说明该系统并不具备“四岁儿童”的语言能力,但可以为评估类似系统提供指导方法。

测试方法
  研究人员让ConceptNet 4参与了“韦克斯勒学龄前儿童智力量表”测试(WPPSI-III),并将研究结果发表在论文《Measuring an Artificial Intelligence System's Performance on a Verbal IQ Test For Young Children》上。WPPSI-III测试包含14项测验项目,以及一份针对操作智商和言语智商的完整评估表。
  操作智商测验通常会要求受测人完成绘画、解谜、记忆等任务。言语智商测验则会考察儿童的词语推理、词汇及理解能力。每种智商得分的平均分都为100分。本次研究则主要针对言语智商进行测试。
  在测试过程中,试题会通过语言处理工具转换成ConceptNet 4能够理解的语言,如“我们为什么要握手?”、“我们为什么要在夏天戴太阳镜?”和“为什么将刀子放入嘴中是不好的行为?”等等。
  该研究由芝加哥大学的斯特兰?奥尔森(Stellan Ohlsson)带领。在对单项测试计分时,研究人员先使用每道题目得分最高的答案计分,然后再使用每道题目得分最高的前五个答案中最好的答案计分。他们将前者称为“严格计分”,后者称为“放松计分”。

什么是ConceptNet
  ConceptNet是一项由麻省理工学院常识计算计划团队(MIT Common Sense Computing Initiative)管理的开源项目。该团队研发的ConceptNet 4运用了所谓的“关系”这一概念。
  例如,当让该系统解释什么是“小鹿”时,它会明白“小鹿是一种鹿”,而不是”鹿是一种小鹿“。也就是说,它能够理解这种动物的概念,以及“小鹿”和“鹿”这两个词汇和概念之间的关系。
  同时,该系统还可以使用所谓的“对立标记”表示负相关关系,比如“企鹅不会飞”等。 ●
『 影客网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 影客网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 付尾 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 付尾 的书面同意;
  4. 本帖子由 付尾 发表,仅代表用户本人所为和观点,与『 影客网 』的立场无关,付尾 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 付尾 发表,帖子内容(可能)转载自其它媒体,但并不代表『 影客网 』赞同其观点和对其真实性负责。
  6. 本帖子由 付尾 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致以最深的歉意。
  7. 『 影客网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
  8. 『 影客网 』是“原创”摄影、摄像专业网站,只欢迎摄影、摄像师的[原创]作品,图片的宽度请勿小于 900 像素。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

展示原创影像,结交优秀影客
Phoer 『影客』网的域名释义:Pho-:影像,-er:家,pho(-to-graph-)er:影客
© 2002-2025, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2025-5-4 09:50, Processed in 0.093600 second(s), 10 queries, Gzip On, MemCache On
快速回复 返回顶部 返回列表