Entries Tagged '新意' ↓

探索互联网趋势小实验

当初想做这个实验纯属蛋疼~那么就说说实验的思路和步骤吧。以百度新闻为入口,通过抓起网页,分析网页内容中的词语,然后对词语出现的次数进行统计,抓取网页内容的同时抓取中其中的超级链接并存入数据库,当此页内容分析完毕后就从数据库中获取下一个爬取的URL。思路很简单,实现也很方便,至于抓取URL的数量开始定为100,000条,后来想想这个数据量太大,估计服务器无法承受得住,于是减为10,000条,每次运行都会分析一个页面并搜集更多的URL,同时过滤掉重复记录的URL。对服务器设置计划任务,每两分钟运行一次,计划15天完成实验。之所以将任务间隔设置为两分钟是为了对计算资源消耗有所控制,如果资源消耗过快可以随时停止,防止任务运行过快来不及对计算资源的控制。昨天跑了一晚上,今天跑了一天,发现9000的资源积分已经消耗至6600,后台检测才刚刚抓取了436个URL,于是果断停止了这个实验。

由于实验样本比较小,与实际结果会产生一定的偏差,不过还是有一定的参考价值。在抓取的436个URL中,获取名词、特殊名词、人名、地名等名词性实词9,455个,其中排名前10的词与出现次数分别如下:

新闻(49081) 乔布斯(41111) 微博(30791) 视频(30107) 中国(21889) 新浪(21159) 首页(19288) 苹果(18305) 游戏(16464) 财经(15757)

完整报告请详见 http://sneezry.com/wp-content/uploads/sneezry.com/2011/10/results.html

实验环境:Sina App Engine,php,mysql

网络进入语音搜索时代

这个标题起得并不前卫,这个结论也不是盲目下的。前些天我惊喜地发现Google在PC端(包括Mac)也推出了语音搜索,当时感觉很惊奇,好奇与Google如何解决语音识别的问题,毕竟每天上亿次的搜索量,保守估计1%的人使用语音搜索,但就是这样一样量级,处理起来也基本上是天方夜谭,如果使用用户本地资源,单靠Javascript来完成这个任务基本是不可能的,除非给用户安装插件,但使用Chrome浏览器时却并没有提示要安装插件,而使用非Chrome浏览器时提示只能在Chrome浏览器上使用语音搜索。明了了吧,唯一说的通的解释就是Google吧这个功能集成在Chrome中了,Google只需通过代码激活这个功能就可以了。思路明晰后开始分析Google代码,最终找到了答案。

这个答案另我很欣喜,调用Chrome本地语音输入功能的代码非常简短,这样只要你喜欢,就可以在自己的网站中插入这样一小截代码,这样你的网站在Chrome用户看来就和Google一样支持语音输入了。将这些强大的功能添加进用户的浏览器中的做法非常棒,这非常有利于推动网络向新方向发展。对于网站管理员来说,插入这样一截代码对他们来说并无过多开销,但用户体验却提高了不少。

另外非常高兴地通知大家,我已经开发出了使大部分搜索引擎支持语音搜索的插件,并在更加完善后于近期向大家推出(悲催的期末考试~)。下面我们不妨先看一些添加了语音搜索支持的截图。同样,因为插件尚不完善,不能公开发布,但你想尝鲜,来邮件吧!lizhe[at]lizhe[dot]org 我会尽可能快地将测试版插件发给你:)~不过要记得在正式版发布后更新哦~