人工智能的妙用:google发布图片字幕技术
发布日期:2020/6/12 10:02:19 浏览量:697次
最近有报道称,谷歌(Google)推出了一种新的图像字幕系统,可以智能识别照片中的内容,并自动用自然语言对其进行描述和标记。语音识别让机器通过识别和理解把语音信号转变为相应的文本或命令的高科技技术,广泛应用于工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。客服机器人工作中常见的一个工作岗位,是企业和用户之间沟通的桥梁,无论是售前的产品、服务咨询,还是售后的维修、投诉,都离不开客服。问答机器人集成了语音识别、语义理解、知识图谱、深度学习等多项智能交互技术,能准确理解用户的意图或提问,再根据丰富的内容和海量知识图谱,给予用户满意的回答,系统可覆盖金融、保险、汽车、房产、电商、政府等多个领域。尽管智能系统以前能够自动标记图像并识别其中的一种图像,但谷歌的技术可以更加全面,比如描述两只狗在草地上玩耍,或者描述一个戴着粉红色帽子吹泡泡的小女孩。这可以说是人工智能/人工学习方面的一个重大突破,因为该软件系统是谷歌利用大规模模拟神经元处理数据的最新研究。没有人编写识别场景的规则,这是一个学习处理数据的神经网络。似乎人工智能并不总是在担心人类的毁灭,也许晚上拿着儿童的图画书给孩子们讲睡前故事之类的,是不是也挺暖和的呢?
传统图像识别的困境
我们现在已经成熟应用图像识别技术在模板匹配算法中使用,按照所获取的信息特征提取和预处理分类器设计的选择顺序来识别分类决策。听起来不错,识别精度确实很高,很多扫描仪使用这种算法来识别文本。然而,这种模式强调图像必须是完全符合的模板来识别,而事实上,不仅能够识别完全相同的用脑图像模板,可以识别与模板图像不完全一致。例如,一个不仅能识别一个特定的字母A,可以确认,方向是不正确的,各种不同尺寸的印刷字母,手写A.与此同时,人们想找出大量图像,如果有在大脑中的相应模板要求每个图像被识别时,这是不可能的。这是阿格尼斯生于斯硫之踵模板的认可,但也有许多字典类的应用程序可以直接通过摄像头和翻译识别书本上的文字,但你的笔迹的原因视而不见。
笔者的老师都在从事交通标志识别的研究,主要工作是在大量的图片中找到交通标志并对其进行识别。这听起来和成熟的车牌号码识别技术没什么区别,但在实践中却非常困难。来自同一地点、不同时间的图像往往不能很好地识别同一结果,来自图像各方面的干扰往往难以准确消除。这些问题是由模板识别引起的。虽然已经有比较先进的汽车开始装配交通标志识别系统,但图像识别在其中的作用并不十分显著。因此,汽车识别交通标志主要依赖于交通部门和汽车公司的数据与离线地图提供商的地理信息系统的匹配。图像识别是通过交通部门和汽车公司的数据与离线地图提供商的地理信息系统相匹配来实现的。不要只是一个有用的补充。
图像识别在中国
谈到中国的图像识别/处理公司,微软(Microsoft)和汉王(Hanwang)情不自禁地谈到了这一点。