零陵| 石阡| 新乡| 溧阳| 新沂| 建昌| 无棣| 凤翔| 临湘| 杞县| 卫辉| 新龙| 新竹县| 宝山| 台儿庄| 莎车| 三亚| 老河口| 盖州| 黄石| 广河| 曲阳| 洞头| 乌兰| 霞浦| 灵璧| 桦甸| 祁阳| 焦作| 东营| 泰州| 小金| 文水| 相城| 北碚| 浙江| 临安| 五台| 潮州| 泸溪| 龙井| 湾里| 淳化| 柞水| 东辽| 高港| 新巴尔虎左旗| 泾阳| 文昌| 兴国| 习水| 饶平| 临川| 泰宁| 来凤| 合肥| 正镶白旗| 资兴| 万宁| 漳平| 原阳| 崇义| 双流| 茌平| 内蒙古| 射洪| 海安| 吉安县| 毕节| 郴州| 伊吾| 门头沟| 华蓥| 微山| 晋宁| 麻山| 台南县| 房县| 阳东| 邳州| 资溪| 高要| 肇州| 眉县| 黄岛| 山丹| 白河| 惠来| 正阳| 武鸣| 玛曲| 邻水| 资阳| 奉贤| 赣榆| 思茅| 宜良| 温宿| 龙里| 喜德| 台山| 称多| 离石| 石龙| 浦北| 潞西| 甘谷| 枣阳| 柳城| 乌拉特中旗| 浦东新区| 南宁| 山西| 任县| 永川| 汕头| 化州| 湘乡| 金堂| 商河| 新宾| 稻城| 柳江| 龙泉驿| 屏东| 长清| 铁山| 桦甸| 贵南| 栖霞| 镇宁| 常宁| 赤水| 北仑| 永城| 瑞安| 定西| 青河| 登封| 靖西| 惠山| 邵阳市| 确山| 鄄城| 敖汉旗| 河池| 绥滨| 措美| 高密| 晋宁| 九江县| 大关| 沾益| 盘锦| 柞水| 福清| 大理| 蒲江| 都匀| 宁海| 吉安县| 宝丰| 隆子| 吴中| 乐清| 土默特左旗| 铁岭市| 聂拉木| 深泽| 镇沅| 常宁| 察隅| 扎囊| 雁山| 宁都| 西充| 城口| 蓟县| 武安| 龙州| 临清| 邓州| 蚌埠| 内蒙古| 甘泉| 临桂| 乌什| 潘集| 礼县| 河源| 独山子| 衡阳市| 哈密| 滁州| 金佛山| 宜都| 交城| 四子王旗| 固阳| 弋阳| 岷县| 昌平| 汨罗| 宣化县| 纳溪| 南票| 麻栗坡| 阳泉| 平乡| 富拉尔基| 利津| 镇原| 电白| 迁安| 马鞍山| 丰镇| 肥乡| 雷波| 万山| 静乐| 通榆| 大方| 津市| 新城子| 宝丰| 阳高| 南昌市| 民勤| 郑州| 畹町| 五大连池| 武乡| 永春| 西固| 中阳| 蓝山| 涿州| 文安| 衡阳县| 枣庄| 寻甸| 兴国| 宜兰| 新沂| 鄂伦春自治旗| 遵化| 金湖| 葫芦岛| 贞丰| 芷江| 额济纳旗| 阿图什| 通道| 宝丰| 台州| 罗源| 华蓥| 文昌| 巴楚| 宁武| 洪洞| 新宁| 高淳| 嘉兴|

中央彩票公益金项目验收报告:

2018-11-15 14:39 来源:百度健康

  中央彩票公益金项目验收报告:

  广晟公司起诉三星、海信、创维等多家电视厂商专利侵权,发起亿元索赔诉讼,究竟意欲何为?一起看看业内人士的分析。干,需要带头,需要示范。

要坚持从严治校、从严施教、从严管理,同时要关心爱护学员,搞好保障服务。此外,在李俊慧看来,随着技术的更新换代,音频解码标准并非一成不变。

  “鞋子、衣服、箱包等一直是宁波海关查获的主要侵权假冒商品。长风过隘口,奋斗正当时。

  毛泽东在《愚公移山》中要求:“全党和全国人民建立起一个信心,即革命一定要胜利。2000年之后,贝克曼公司进入超声颗粒测量领域,获得了一系列专利权,如公开号为WO0057774A1、US2006001875A1等。

这一系列动作,让今年的“量子霸权”争夺战来得比预期更早。

  例如与开关、插座等电器类商品相关的犯罪,主要发生于号称“中国电器之都”的乐清市以及温州经济开发区。

  对节目版权方、广播电视播出机构、影视制作机构投诉的此类节目,要立即做下线处理。十九届中央政治局第一次集体学习时,又提出“领导干部不仅要有担当的宽肩膀,还得有成事的真本领”。

  近日,由四川省知识产权局牵头,联合四川省高级人民法院、省检察院、省发改委、省科技厅等15个部门,正式印发了《关于严格知识产权保护营造良好营商环境的意见》(下称《意见》),出台了多项具体措施严格知识产权保护。

  (崔爽)(责编:王小艳、王珩)霍金的商标意识的确给我们带来许多有益的启示,这份遗产与他的科学探索精神一样,虽属无形,但堪称无价之宝。

  这一系列动作,让今年的“量子霸权”争夺战来得比预期更早。

  (责编:王小艳、王珩)

  因此,如果在作品面世不久即仓促变现,往往会得到极不公平的对价,使作者蒙受巨大的经济损失。张新波说:“这种全新的电池设计思路,极大地拓展了锂空气电池的实际应用领域,可以吸引更多科研人员投入其中,大力推动锂空气电池的应用进程。

  

  中央彩票公益金项目验收报告:

 
责编:

首页 > 资讯 > 图像搜索 > 正文

大数据背景下的“按图索骥”及其背后的机器学习技术

2018-11-15    来源:爱范儿     
3011
[导读]到底什么是大数据(Big data)呢?大数据通常是用来形容大量的非结构化或半结构化的数据,这样的数据要想将他们转化为关系型数据用作日后分析使用所需的前期处理需要花费高昂的代价。而大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。
当前,打好防范化解重大风险、精准脱贫、污染防治三大攻坚战需要我们去奋斗,实现乡村振兴、人才强国、科教兴国等战略需要我们去奋斗,唯有鼓实劲、出实招、求实效,踏踏实实干好工作,方能一步一个脚印,把党的十九大描绘出的我国发展今后30多年的美好蓝图变成现实。

  大数据浅析

  到底什么是大数据(Big data)呢?大数据通常是用来形容大量的非结构化或半结构化的数据,这样的数据要想将他们转化为关系型数据用作日后分析使用所需的前期处理需要花费高昂的代价。而大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。

  一般来说大数据有这样4个特点:容量(Volume)、种类(Variety)、价值(Value)和速度(Velocity)。前面我们只谈到的大容量,这个是大家最好理解的,但大数据并不只有大容量,其包含的数据类型也是多种多样的,在大量的数据中往往有用有价值的数据很少也即价值密度很低,最后当然要求处理速度够快,比如你用Google搜索引擎去搜索相关感兴趣的内容,其能够很快的检索到你需要的内容,谁也不想为此等上数分钟。

  “按图索骥”背后的机器学习技术:主动学习和半监督

  下面的探讨我们将大数据限定到图像上。在《探寻“找图”的最佳方式》有谈到,根据你输入的文字,然后找到与之相关的图片,仍然是搜索引擎寻找图片的基本方法:基于文字词义的理解。

  对于通过文本标签做图像检索Google早早将该技术融入到其搜索引擎中,包括后来的Bing。要实现这样的搜索是需要建立在数以万计乃至数以亿计的大量图像数据基础之上的,不但要首先获得这样的数据而且还需要对这些数据进行类别标注,这其中就包括添加文本标签。但这样的工作显然太费人力,成本代价极其高昂。

  为了解决这样的问题,有两种机器学习领域的技术发挥重要作用:主动学习技术和半监督学习技术。

  主动学习技术,以图像分类为例,就是利用少量已标记的图像去学习一个分类模型,然后根据这个模型对未标记图像进行分析。根据各种准则,分析这些未标记图像中最不能判定是哪个类别的图像,再交由人来分类标记。随着这个过程不断进行,训练集不断增大,当要求的精度满足时停止迭代,剩余的未标记样本就可以通过之前学习到的分类模型全部自动分类,通过理论和大量实验可知这样需要人来参与分类标记的图像是很少的,这也就大大降低了成本。

  半监督学习技术,与主动学习相比,其又利用了未标记图像的结构信息—可能是图像的流形信息,使得最后的判断更加可靠。但研究所使用的数据集都不大,如果将这些算法搬到大数据上所花费的时间成本也是巨大的。如果单靠一种分类器无法满足性能要求时,我们就需要尝试采用集成方法将多个分类器或多种不同分类器进行结合来处理大规模数据,如果再结合并行的思想将使集成方法更如虎添翼。

  基于图片内容搜索的技术

  虽然Google于2008年提出图片直接搜索服务,但那时其技术与其他竞争对手相比可真是差强人意。图像直接搜索的老牌服务提供者是TinEye,自从2008年出现就要比Google的算法更加精确,可以非常精确的在整个互联网上匹配到你需要的目标图像而且搜索速度非常快。像这种基于内容的图像搜索有很多好处,比如有时你根本不知道你想要搜索的对象叫什么,当然也就无法通过文本去搜索。

  而这种基于内容的图像检索一般分为三步:

  将目标图片进行特征提取,主要就是通过各种特征提取算法比如目前最好的就是SIFT描述子(Descriptor),这样就不必对图片进行像素级的处理减少运算量。

  将图像特征进行编码,并将海量图像编码做成库或表。(如果目标图像分辨率很高,也可以进行下采样减少运算量后再进行特征提取和编码)。

  相似度匹配计算,利用目标图像的编码值在图像搜索引擎中的图像库进行全局或局部相似度计算,相似度高的预保留下来,然后可以进行进一步的筛选。得到的这些图像也可以作为其他机器学习方法的训练数据集。

  随着这几年图像搜索技术的日趋成熟,Google也全面改进了图像搜索技术,现在也可以实现基于内容的图像搜索,同Tineye类似也可以将图片直接拖进搜索框中或者把图像的URL地址直接复制进搜索框中,便可以得到相关图像。

  根据Neal Krawetz博士的解释,Google采用了”感知哈希算法”(Perceptual hash algorithm),给每张图片生成“指纹”,通过比较“指纹”的近似值,以找出相似的图片。在这一过程中,Google 所做的事情包括:

  缩小图片尺寸:将图片的尺寸缩小到 8 x 8,去除图片细节,保留基本结构、明暗等信息;

  转化色彩:将色彩转化为64级灰度;

  计算平均值:计算所有像素的灰度平均值;

  比较像素的灰度:比较每个像素的灰度与灰度平均值之间的差异;

  计算哈希值:将比较结果组合在一起,便得到图片的“指纹”信息。

  【补充】Google的这种方式也不能说十全十美——如果图片中有干扰噪声比如添加了文字或其他遮挡物,那搜索结果将很不一样,因为哈希值会变得非常离谱,那个方法只能用来从低像素的图片搜高像素的图片(要求哈希值几乎相同),而不能搜到相关强的图片(可能有适度的遮挡或文字等信息,哈希值大不相同),应用范围较为狭窄。

  实例:用 Google 来按图索骥

  这里我们做了一个尝试,将Anne Hathaway的这幅图片作为目标图片,将其拖到TinEye和Google图片搜索引擎中去搜索,注意如图1 所示,我们故意更改了图片名称(文字标注)。图2 和图 3 分别为TinEye与Google图片搜索的结果。

 
  图 1 我们故意将图片的名称取作Google Chrome.png

 
图 2 TinEye 的搜索结果
 
图 3 Google 图片搜索的结果

  可以看出,检索结果都相当精确,包括给出了图片出自的网址,Google 图片搜索甚至给出了图片上人物姓名的猜测,虽然不是完全正确但也是相当了不起了。
TinEye 的数据库与 Google 的相比相对来说小些,相信不就的将来也会得到扩充。提供具有类似功能的还有诸如 Incogna 以及 百度识图 等。

  计算机看到的图片不仅仅是成百上千的像素,其需要从中分析颜色,亮度,从而进行图片的特征提取,以目前最具实力的Google为例,Google采用了超大规模的实时并行计算。自2010年以来Google搜索引擎发生了重大变革,将其搜索迁移到了新的软件平台Caffeine使得搜索更加高效,其可以对来自互联网的几百亿张图片进行实时的图像特征匹配,从而更加快速的反馈用户相关的搜索结果。这些都需要大数据背景下机器学习等技术作为坚实的后盾。而数据挖掘技术又是大数据背景下机器学习应用的另一个重要领域。谁能尽早的向数据“掘金”,谁就能在今后的激烈竞争中先拔头筹。

[责任编辑:yxl]
转载申明:中国智能化产业与产品网独家专稿,转载请注明出处,违者必究!
关键词: 图像搜索  按图索骥

官方微信

联系我们

010-57188978
投稿:zgznhcy@ciiip.com
地址:北京市朝阳区劲松南路1号
网址:www.ciiip.com
关于我们
加为微信好友
华山农场 瑞金路 更刻乡 王官庄镇 火神营村
新建南路街道 静居寺路 镇西路 明水县 璧山