Google搜索
谷歌搜索或谷歌网络搜索是谷歌公司拥有的网络搜索引擎,是万维网上使用最多的搜索引擎。谷歌每天通过其各种服务收到数亿次查询。谷歌搜索的主要目的是猎取网页中的文本,而不是其他数据,如谷歌图像搜索。Google搜索最初是由Larry Page和Sergey Brin在1997年根据早期的搜索引擎设计开发的。
谷歌搜索在原有的文字搜索功能之外,至少提供了22项特殊功能。这些功能包括同义词、天气预报、时区、股票报价、地图、地震数据、电影放映时间、机场、房屋列表和体育结果。见下文:特殊功能)。数字有特殊功能,包括范围(70...73)、价格、温度、货币/单位转换("10.5 cm in inches")、计算(3*4+sqrt(6)-pi/2)、包裹跟踪、专利、区号和显示页面的语言翻译。
Google搜索结果页面上搜索结果的顺序(Google点击率的ghits),部分是基于一个被称为"PageRank"的优先级。Google搜索提供了许多自定义搜索的选项(见下文:搜索选项),使用布尔运算符,如:排除("-xx")、包含("+xx")、替代("xx OR yy")和通配符("x * x")。
搜索引擎
排名
谷歌的崛起在很大程度上得益于一种名为PageRank的专利算法,这种算法有助于对符合给定搜索字符串的网页进行排名。以前许多曾经比谷歌更受欢迎的搜索引擎所使用的基于关键词的搜索结果排名方法,会根据搜索词在网页中出现的频率,或者搜索词在每个结果网页中的关联度有多强来对网页进行排名。PageRank算法则是分析人类产生的链接,假设许多重要网页链接的网页本身就可能是重要的。该算法根据链接到这些网页的PageRanks的加权和,计算出网页的递归得分。PageRank被认为与人类的重要性概念有很好的相关性。除了PageRank之外,Google多年来还增加了许多其他秘密标准来决定结果列表中网页的排名,据说有200多个不同的指标。由于垃圾邮件发送者和为了保持对谷歌竞争对手的优势,这些细节都是保密的。
搜索结果
谷歌索引的网页占网页总数的确切比例并不清楚,因为实际计算起来非常困难。Google不仅会对网页进行索引和缓存,还会对其他文件类型进行"快照",这些文件包括PDF、Word文档、Excel电子表格、Flash SWF、纯文本文件等。除了纯文本文件和SWF文件外,缓存的版本是转换为(X)HTML,允许那些没有相应的浏览程序的人阅读文件。
用户可以自定义搜索引擎,通过设置默认语言,使用"SafeSearch"过滤技术,并设置每个页面上显示的结果数量。谷歌在用户的机器上放置长期的Cookie来存储这些偏好,这种策略一直受到批评,也使他们能够跟踪用户的搜索关键词,并将数据保留一年以上。对于任何查询,最多可以显示前1000条结果,每页最多显示100条。只有在未启用"即时搜索"的情况下,才可以指定结果数量。如果启用"即时搜索",则无论如何设置,都只显示10个结果。
不可索引的数据
尽管其索引庞大,但在线数据库中也有大量的数据,可以通过查询而不是链接的方式获取。这种所谓的隐形网或深层网被谷歌和其他搜索引擎覆盖的范围很小。深层网络包含图书馆目录、政府的官方立法文件、电话簿和其他内容,这些内容是动态准备的,可以对查询作出反应。
在一些国家,隐私问题禁止显示某些链接。例如,在瑞士,任何个人都可以强迫谷歌公司删除包含其姓名的链接。[]
谷歌优化
由于谷歌是最受欢迎的搜索引擎,很多站长都开始急于影响自己网站的谷歌排名。一个顾问行业已经出现,帮助网站提高在谷歌和其他搜索引擎上的排名。这个领域被称为搜索引擎优化,试图在搜索引擎列表中发现模式,然后开发出一套提高排名的方法,以吸引更多的搜索者进入客户的网站。
搜索引擎优化包括"页面上"的因素(如body copy、title元素、H1标题元素和图片alt属性值)和Off Page Optimization因素(如锚文本和PageRank)。总的思路是通过在"页面上"的各个地方,特别是标题元素和正文文案(注意:在页面中的位置越高,大概其关键词的突出度就越高,从而影响Google的相关性算法)。然而,关键词出现的次数过多,会导致页面在谷歌的垃圾邮件检查算法中显得可疑。
谷歌为那些想在使用合法优化顾问时提高排名的网站所有者发布了指导方针。
功能性
谷歌搜索由一系列本地化的网站组成。其中最大的google.com网站,是世界上访问量最大的网站。它的一些功能包括为大多数搜索提供定义链接,包括字典词、你在搜索中得到的结果数量、与其他搜索的链接(例如,对于谷歌认为拼写错误的词,它提供了一个使用其建议拼写的搜索结果的链接),等等。
搜索语法
Google的搜索引擎通常接受的查询是一个简单的文本,并将用户的文本分解成一连串的搜索词,这些搜索词通常会是结果中要出现的词语,但人们也可以使用布尔运算符,例如:用引号("")表示一个短语,用"+"、"-"等前缀表示限定词,或者使用几个高级运算符之一,例如"site:"。在"Google搜索基础"的网页中描述了这些额外的查询和选项(见下文:搜索选项)。
谷歌的高级搜索网页表格提供了几个额外的字段,可以用来限定搜索的标准,如首次检索日期。所有的高级查询都会转化为常规查询,通常会有额外的限定词。
查询扩展
谷歌对提交的搜索查询进行查询扩展,将其转化为实际用于检索结果的查询。与页面排名一样,谷歌使用的算法的具体细节被刻意隐去,但肯定会发生以下转化。
- 术语重排序:在信息检索中,这是一种减少检索结果工作的标准技术。这种转换对用户来说是不可见的,因为结果排序使用原始查询顺序来确定相关性。
- 词根法是通过保留搜索词的小句法变体来提高搜索质量。
- 有一个有限的设施来修复查询中可能出现的拼写错误。
"我觉得自己很幸运"
谷歌的主页上有一个标有"我感觉很幸运"的按钮。当用户点击该按钮时,用户将直接进入第一个搜索结果,绕过搜索引擎的结果页面。我们的想法是,如果用户"感觉很幸运",搜索引擎就会在第一时间返回完美匹配的结果,而不用再翻阅搜索结果。根据"Rapt"的Tom Chavez的研究,由于有1%的搜索使用了这个功能,并绕过了所有的广告,因此谷歌每年要花费1.1亿美元。
2009年10月30日,对于一些用户来说,"我感觉很幸运"按钮与普通搜索按钮一起从谷歌的主页面上删除。这两个按钮都被一个写着"此空格故意留空"的字段所取代。当鼠标在页面上移动时,这段文字就会逐渐消失,而正常的搜索功能则是通过在搜索栏中填入所需的词汇并按下回车键来实现。谷歌发言人解释说:"这只是一个测试,也是我们衡量用户是否会喜欢更简单的搜索界面的一种方式。"个性化的谷歌主页既保留了按钮,也保留了其正常功能。
2010年5月21日是《吃豆人》诞生30周年纪念日,"我感觉很幸运"的按钮被一个写着"插入硬币"的按钮所取代。按下该按钮后,用户将在谷歌标志通常所在的区域开始一场谷歌主题的吃豆人游戏。第二次按下按钮,将开始同样的游戏的双人版,包括玩家2的吃豆人女士。这个版本可以访问http://www.google.com/pacman,作为页面的永久链接。
丰富的片段
2009年5月12日,Google宣布他们将解析hCard、hReview和hProduct微格式,并使用它们来填充搜索结果页面,他们称之为"Rich Snippets"。
特色功能
除了搜索文字的主要搜索引擎功能外,谷歌搜索在搜索时还有22种以上的"特殊功能"(输入几十个触发词中的任意一个即可激活)。
- 天气 - 许多城市的天气状况、温度、风向、湿度和预报,可以通过输入"天气"查看,较大的城市可以输入城市,也可以输入城市和州、美国邮编,较小的城市可以输入城市和国家(如:堪萨斯州劳伦斯天气;巴黎天气;德国不来梅天气)。
- 股票报价 - 可以查看特定公司或基金的市场数据,通过键入股票代码(或包括"股票"),如:CSCO;MSFT;IBM股票;F股(列出福特汽车公司);或AIVSX(基金)。CSCO;MSFT;IBM股票;F股票(列出福特汽车公司);或AIVSX(基金)。结果显示日间变化,或5年图等。对于只有一个字母长的股票名称,如Citigroup (C)或Macy's (M)(Ford是个例外),或者是常见的单词,如Diamond Offshore (DO)或Majesco (COOL),此功能不起作用。
- 时间 - 许多城市(世界范围内)的当前时间,可以通过输入"时间"和城市名称来查看(如:时间开罗;时间普拉特,KS)。
- 体育比分 - 通过在搜索框中输入球队名称或联赛名称,可以显示体育团队的比分和时间表。
- 单位换算--可以通过输入每个短语来换算测量值,如:以英寸为单位的10.5厘米;或以英里为单位的90公里。10.5厘米,单位是英寸;或90公里,单位是英里。
- 货币转换--可以选择货币或货币转换器,输入名称或货币代码(由ISO 4217列出):美元为6789欧元;美元为150英镑;美元为5000日元;里拉为5000元(美元可以是美元或"US$"或"$",加拿大为CAD等)。
- 计算器--通过输入数字或文字的公式,可以确定计算结果,如现场计算,如。6*77+pi+sqrt(e^3)/888加0.45。计算后,用户可以选择搜索公式,。计算器还使用单位和货币转换功能,可以进行单位感知计算。例如,"(3欧元/升)/(40英里/加仑),单位为美元/英里"计算一辆40英里/加仑的汽车每升汽油成本为3欧元的美元成本。护符"^"将数字提高到指数幂,并允许使用百分比("300的40%")。
- 数字范围 - 一组数字可以通过使用范围数字之间的双点来匹配(70...73或90...100),以匹配范围内的任何正数,包括。负数会被视为使用排除-斜线不匹配的数字。
- 词典查询 - 可以通过输入"define"后的冒号和要查询的单词(如"define:Philosophy"),找到一个单词或短语的定义。
- 地图 - 通过输入一个地点的名称或美国邮政编码和"地图"一词(如:纽约地图;堪萨斯州地图;或巴黎地图),可以显示一些相关的地图。
- 电影放映时间 - 通过在搜索框中输入"电影"或任何当前电影的名称,可以列出附近播放的任何电影的评论或电影放映时间。如果一个特定的位置被保存在以前的搜索,顶部的搜索结果将显示该电影附近的影院的放映时间。然而,这些列表有时是完全不正确的,有没有办法要求谷歌纠正他们;例如,在7月25日,为El Capitan剧院,谷歌showtimes列出了,但根据El Capitan网站,唯一的电影播放的那一天是G-Force。[]
- 公共数据 -- -- 通过输入"人口"或"失业率",然后输入州或县的名称,可以找到美国各州和县的人口趋势(或失业率)。
- 房地产和住房 - 使用触发词"住房"、"家庭"或"房地产",并在后面加上城市名称或美国邮政编码,可以显示特定区域的房屋列表。
- 旅行数据/机场 - 通过在搜索框中输入航空公司名称和航班号(如:美国航空公司18),可以显示到达或离开美国航班的飞行状态。还可以查看特定机场的延误情况(输入城市名称或三个字母的机场代码加上"机场"一词)。
- 包裹跟踪 - 通过在搜索框中直接输入皇家邮政、UPS、Fedex 或 USPS 包裹的跟踪号码,可以跟踪包裹邮件。结果将包括快速链接,以跟踪每个货物的状态。
- 专利号--可以在搜索框中输入"专利"一词,然后输入专利号来搜索美国专利(如:专利5123123)。
- 区域代码 - 可以通过输入3位区域代码(例如:650)来显示地理位置(对于任何美国电话区域代码)。
- 同义词搜索--通过在搜索词前面紧挨着放置斜杠符号(~),搜索可以匹配与指定的类似词,例如:。 ~快餐。
- 美国政府搜索 - 可从网页www.google.com/unclesam 搜索美国政府网站。
搜索选项
Google帮助中心维护的网页上有超过15种不同搜索选项的文字描述。谷歌运营商。
- "-"--搜索的同时排除一个词,如"apple -tree"搜索中没有使用"树"字。
- "+"--强制包含一个词,如"Name +of +the Game",要求"of"和"the"出现在匹配的页面上。
- "*"--通配符运算符,用于匹配其他特定词语之间的任何词语。
一些查询选项如下:
- define:--查询前缀"define:"将提供后面所列词语的定义。
- stocks:-在"socks:"后面的查询词会被当作股票代码进行查询。
- 网站。- 将搜索结果限制在给定域名中的网站,例如,site:www.acmeacme.com。选项"site:com"将搜索所有以".com"命名的域名URL。("site:"后无空格)。
- allintitle:-只搜索页面标题(不搜索每个网页的其余文字)。
- intitle:-网页标题中的搜索前缀,如"intitle:google搜索"将列出标题中带有"google"字样的网页,以及任何地方带有"搜索"字样的网页("intitle:"后无空格)。
- allinurl。- 只搜索页面URL地址行(不搜索每个网页内的文本)。
- inurl。- URL中每个词的前缀;其他词在任何地方匹配,如"inurl:acme search"在URL中匹配"acme",但在任何地方匹配"search"("inurl:"后无空格)。
页面显示选项(或查询类型)是:
- cache:-高亮显示缓存文档中的搜索词,如"cache:www.google.com xxx"高亮显示缓存内容中的"xxx"一词。
- 链接。- 前缀"link:"将列出与指定网页有链接的网页,如"link:www.google.com"将列出链接到谷歌主页的网页。
- 相关的。- 前缀"related:"将列出与指定网页"相似"的网页。
- info:- 前缀"info:"将显示一个指定网页的一些背景信息,例如,info:www.google.com。通常情况下,info是页面中包含的第一个文本(160字节,约23个字),以结果条目的样式显示(仅针对与搜索匹配的1个页面)。
- filetype.结果将只显示所需类型的文件(如filetype:pdf将返回pdf文件)。- 结果将只显示所需类型的文件(例如filetype:pdf将返回pdf文件)
请注意,谷歌搜索的是网页内部的HTML编码,而不是屏幕外观:屏幕上显示的单词在HTML编码中的顺序可能不一样。
错误信息
有些搜索会给出一个403的禁止错误,并带有文字。
"我们很抱歉...
...但你的查询看起来类似于计算机病毒或间谍软件应用程序的自动请求。为了保护我们的用户,我们现在不能处理您的请求。
我们会尽快恢复您的访问,请尽快再试。同时,如果您怀疑您的计算机或网络已被感染,您可能需要运行病毒检查程序或间谍软件清除程序,以确保您的系统没有病毒和其他虚假软件。
我们对给您带来的不便表示歉意,希望谷歌全体团队能再次见到您。"
有时后面会有验证码提示。
该画面最早报道于2005年,是针对搜索引擎优化公司大量使用谷歌来检查他们正在优化的网站的排名。该消息是由来自单个IP地址的大量请求触发的。谷歌显然使用谷歌cookie作为其确定拒绝服务的一部分。
2009年6月,流行音乐巨星迈克尔-杰克逊去世后,许多网民在谷歌搜索与这位歌手相关的新闻报道时,都出现了这条信息,并被谷歌认为是DDoS攻击,尽管许多查询是由合法的搜索者提交的。
2009年1月恶意软件漏洞
如果已知该网站在后台安装了恶意软件或以其他方式偷偷地安装了恶意软件,谷歌会在搜索结果中标出"该网站可能会损害您的计算机"的信息。谷歌这样做的目的是为了保护用户,防止他们访问可能会损害其电脑的网站。在2009年1月31日大约40分钟的时间里,所有的搜索结果都被错误地归类为恶意软件,因此无法点击,而是显示了一条警告信息,并要求用户手动输入请求的URL。这个错误是由人为错误造成的。错误地将"/"(可扩展为所有URL)的URL添加到恶意软件模式文件中。
谷歌的Doodle
在某些情况下,谷歌网页上的标识会变成一个特殊的版本,即"谷歌涂鸦"。点击"Doodle"会链接到一串关于该主题的谷歌搜索结果。第一个是参考1998年的"燃烧人节",其他的则是为阿尔伯特-爱因斯坦等著名人物的生日、连锁乐高积木50周年等历史事件以及情人节等节日制作的。
谷歌咖啡因
2009年8月,谷歌宣布推出代号为"Caffeine"的新搜索架构。新架构的目的是为了更快地返回结果,并更好地处理来自Facebook和Twitter等服务的快速更新信息。谷歌开发人员指出,大多数用户不会注意到什么直接的变化,但邀请开发人员在其沙盒中测试新搜索。对搜索引擎优化影响的差异包括更重的关键词权重和域名年龄的重要性。此举被一些人解读为对微软最近发布的升级版搜索服务的回应,更名为Bing。谷歌在2010年6月8日宣布完成Caffeine的开发,并宣称由于其索引的不断更新,搜索结果的新鲜度提高了50%。通过Caffeine,谷歌将其后端索引系统从MapReduce转移到公司的分布式数据库平台BigTable上。Caffeine也是基于Colossus,也就是GFS2,是GFS分布式文件系统的大修。
加密搜索
2010年5月,谷歌推出了SSL加密的网络搜索。加密搜索的网址是:https://encrypted.google.com。
即时搜索
美国从2010年9月8日开始,推出了在用户输入时显示建议结果的增强功能"Google Instant"。人们担心的是,人们可能会选择其中一个建议结果,而不是完成他们的请求,这种做法可能会导致对熟悉的企业或其他搜索词的偏见。色情或其他令人反感的搜索词将被排除在建议结果之外。即时功能只出现在谷歌基本网站上,而不是专门的iGoogle页面。谷歌预计,谷歌即时功能将在每次搜索中为用户节省2至5秒的时间,他们表示,这将是每小时1100万秒的总和。搜索引擎营销专家推测,Google Instant将对本地和付费搜索产生巨大影响。
在谷歌Instant推出的同时,谷歌禁用了用户选择每页查看10个以上搜索结果的功能。即时搜索可以通过谷歌的"偏好"菜单禁用,但自动完成式搜索建议现在无法禁用。谷歌代表表示:"这符合我们统一谷歌搜索体验的愿景,让流行、有用的功能成为默认体验的一部分,而不是维持不同版本的谷歌。由于Autocomplete质量有所提高,我们认为让所有用户始终开启它是合适的。"
国际方面
谷歌有多种语言版本,并为许多国家进行了本地化。
语种
为了幽默,还在一些语言中加入了界面。
- 埃尔默-福德
- 黑客
- 克林贡语
- 猪拉丁
域名
除了主网址Google.com之外,Google公司还拥有160个域名,分别用于各个国家/地区的本地化。由于Google是一家美国公司,主域名可视为美国的域名。
目前一些未被谷歌注册的域名被蹲点,如"Google.ua"(对乌克兰而言,正确的网址是"google.com.ua")。
搜索产品
除了搜索网页的工具外,Google还提供搜索图像、Usenet新闻组、新闻网站、视频、按地域搜索、地图和在线销售物品的服务。2006年,Google已经索引了超过250亿个网页,每天4亿次查询,13亿张图片,以及超过10亿条Usenet消息。它还缓存了它所索引的大部分内容。谷歌还经营其他工具和服务,包括谷歌新闻、谷歌建议、谷歌产品搜索、谷歌地图、谷歌合作、谷歌地球、谷歌文档、Picasa、Panoramio、YouTube、谷歌翻译、谷歌博客搜索和谷歌桌面搜索。
此外,谷歌还有一些与搜索不直接相关的产品。例如,Gmail是一个网络邮件应用,但仍然包含搜索功能;Google浏览器同步虽然旨在组织你的浏览时间,但不提供任何搜索设施。
同时谷歌也开始了许多新的测试产品,比如谷歌社交搜索或谷歌图像漩涡。
2017年,美国专利商标局向微软颁发了一项专利,描述了一种可以作为谷歌即时搜索的替代方法。
能源消耗
谷歌宣称,一次搜索查询共需要约1千焦或0.0003千瓦时。
相关网页
- 谷歌产品列表
- 搜索引擎列表
问题和答案
问:什么是谷歌搜索?答:谷歌搜索或谷歌网络搜索是一个网络搜索引擎,由谷歌公司拥有,是万维网上使用最多的搜索引擎。
问:谁开发了谷歌搜索?
答:谷歌搜索最初是由拉里-佩奇和谢尔盖-布林于1997年在早期搜索引擎设计的基础上开发的。
问:谷歌搜索的主要目的是什么?
答:谷歌搜索的主要目的是在网页中寻找文本,而不是其他数据,如谷歌图片搜索。
问:谷歌搜索提供多少种特殊功能?
答:谷歌搜索在原有的文字搜索功能之外,还提供了至少22种特殊功能。
问:谷歌搜索提供的特殊功能有哪些例子?
答:谷歌搜索提供的特殊功能包括同义词、天气预报、时区、股票报价、地图、地震数据、电影放映时间、机场、房屋列表和体育成绩。
问:什么是PageRank?
答:谷歌搜索结果页面上的搜索结果(谷歌点击率)的顺序,部分是基于一个叫做 "PageRank "的优先级。
问:谷歌搜索提供的定制搜索选项有哪些?
答:谷歌搜索提供了许多自定义搜索选项,使用布尔运算符,如:排除("-xx")、包含("+xx")、替代("xx OR yy")和通配符("x * x")。