注册
站内搜索数据提交流程和格式说明

站内搜索数据提交流程和格式说明

大纲


站内搜索数据提交流程

站内搜索数据格式说明

 

站内搜索数据提交流程


站内搜索数据提交包含以下4个步骤:


常见问题:

1 什么是XML数据文件?

单个XML数据格式样例如下:

<?xml  version="1.0" encoding="utf-8"?>

XML文件需以utf-8编码

<urlset>

必填,标识整个链接集合的开始和结束

<url>

必填,每条数据都用一对<url>标签标识

<loc>http://example.com/.../page1.html</loc>

必填,页面地址,长度不得超过256字节

<lastmod>2013-08-12</lastmod>

标识该页面的最后更新时间

<changefreq>daily</changefreq>

标识此页面的更新频率

<priority>0.8</priority>

标识此页面相对于其他页面的优先权比值,介于0.0-1.0之间

<data>

必填,标识扩展标签的开始和结束

<display>

必填,紧邻<data>,扩展标签都包含在<display></display>

</display>

必填,标签闭合

</data>

必填,标签闭合

</url>

必填,标签闭合

</urlset>

必填,标签闭合

上述XML数据文件向百度提交了一个urlhttp://example.com/.../page1.html

若有多条url,则按照上述格式重复<url></url>之间的片断,列明所有url地址,打包到一个XML文件进行提交。

什么是sitemap索引文件?

如需提交大量XML数据文件,可以将其列在sitemap索引文件中,然后提交该索引文件,而无需分别提交每个数据文件。索引文件包含的各个字段标签如下:

<?xml version="1.0"  encoding="UTF-8" ?> 

XML文件需以utf-8编码

<sitemapindex>

必填,标识sitemap索引文件

<sitemap>

必填,每个数据文件都用一对<sitemap>标签标识

<loc>http://example.com/.../aaa.xml</loc>

必填,标识数据文件的位置

<lastmod>2013-08-20</lastmod>

标识数据文件的最近一次修改时间

</sitemap>

必填,标签闭合

</sitemapindex>

必填,标签闭合

若有多个XML数据文件,则按照上述格式重复<sitemap></sitemap>之间的片断,列明所有XML数据文件地址,打包到一个sitemap索引文件进行提交。

3 文件大小的限制?

每个XML数据文件包含的网址不得超过 5 万个,且单个文件大小不得超过 10 MB。每个sitemap索引文件包含的XML数据文件不得超过5万个,但是单个索引文件应该小于10MB。这些限制条件有助于避免网络服务器因传输非常大的文件而遇到麻烦。

如何设置更新周期?

百度spider会参考设置周期抓取数据,因此请根据数据文件内容的更新情况(比如增加新url)来设置。

请注意若文件内url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范畴内。

数据提交后,多久能被百度抓取?

数据提交后,一般在1小时内百度会开始处理,处理完成的时间视文件大小而定。

当前默认的抓取速度是10url/s,考虑网速等因素造成的折损,每个站点的天级抓取量可达50万。

6 提交的数据都会被收录吗?

站内搜索将收录您提交的全部数据;但对于百度网页搜索来说,是否收录与页面质量相关。


站内搜索数据格式说明


数据文件基本结构

站内搜索的XML数据文件由两部分组成:固定标签部分和扩展标签部分。

  固定标签部分

包含<urlset><url><loc><lastmod><changefreq><priority><data><display>8个标签。虽然未必都要填写,但是它们是所有数据格式的通用字段。

标签名称 

属性类型 

属性描述 

优先级

标签限制 

urlset 

标记整个文档的开始和结束

必选 

/

url 

标记每条信息的开始和结束 

必选 

1urlset可以包含很多url

loc 

url 

该条数据的存放地址 

必选 

"http://"开头

最大长度256个字符

lastmod 

日期 

该条数据的最新一次更新时间 

可选 

格式为YYYY-MM-DD

changefreq 

字符串 

该条数据的更新频率 

可选 

有效值为:alwayshourlydailyweeklymonthlyyearlynever

priority 

小数 

指定此链接相对于其他链接的优先权比值

可选 

数值范围:0.0~1.0

data

/

标记扩展数据的开始和结束

必选

/

display

/

标记扩展数据中用作展现的字段的开始和结束

必选

/

注意事项:

  • XML数据文件必须使用UTF-8编码。

  • 所有标签必须按照格式中指定的顺序列出,非必选标签可以不写,但是不能乱序。

  • 标签大小写敏感,请务必细心区分。

  • url中不能含有中文字符。

  • lastmod必须严格遵守日期格式,2013-08-01是正确的,2013-8-1则是错误的。

扩展标签部分

不同数据格式类型包含的扩展标签也不同,主要用于标识网页的正文内容和周边属性。通过扩展标签提交的数据将被用于摘要的特型展现、结果的筛选和排序选项设置,甚至直接影响结果的权重。


数据格式类型

站内搜索将根据站点类型分别制定相应的数据格式,以及给出相应的摘要样式模板。

站内搜索的数据格式包含以下类型,后续还会根据需要再添加:

温馨提示:
由于历史原因,“通用”类别的数据结构和后续的其他各个类别(如“影视-电影”)表示嵌套数据的方式不太一样。前者将子标签包含在父标签里,后者子标签独立存在但嵌套在父标签中。例如同样表示演员姓名,
“通用”类别的表示方法为:<actor name="黄晓明" url="http://example.com/path"/>
其他类别的表示方法为:<actor><name>黄晓明</name><url>http://example.com/path</url></actor>

通用类型-百度站内搜索数据提交模板_0


1通用类型的摘要示意图(不代表最终效果)

具体格式说明:

注:“可筛选”“可排序”指的是相应字段在搜索结果页可展现为筛选选项或排序选项;因为所有字段都可用于展现,所以未单独标注。具体应用方式可参考《站内搜索外观和功能设置

中文标签

英文标签

子标签

属性类型

属性描述&举例

优先级

个数限制

可筛选

可排序

标题

title 

/

字符串

建议填写,搜索系统优先选用该title

可选

1

 

 

内容

content 

/

字符串

如能提交全文,则不需要spider再抓取,既可以降低站点服务器压力,提升收录效率,也可以避免搜索系统解析误差

可选

1

 

 

标签

tag 

/

字符串

可以是内容主题、领域、分类等的简短说明文字;最多可定义20个 

可选

20

 

发布时间

pubTime 

/

日期

格式为YYYY-MM-DDThh:mm:ss

只有提交该字段,“外观设置”中按时间排序或筛选的功能选项才能正常生效

注意:YYYY-MM-DD和hh:mm:ss中间必须包含“T”

可选

1

 

面包屑

breadCrumb

--

/

用于标记当前网页在站点中所处的层级位置,最多可定义4层,且标签先后顺序必须对应层级顺序,写在最前为最高层级

假设一篇文章位于新浪网“体育>NBA>洛杉矶湖人”路径下,那么可以为这个页面设置3个breadCrumb标签

可选

4

 

 

层级名称


title

字符串 

常常体现为频道名或版块名

前面例子中3个breadCrumb标签的title分别为“体育”“NBA”“洛杉矶湖人”

可选

1

 

层级首页地址


url

url 

前面例子中title为“NBA”时url为http://sports.sina.com.cn/nba/

可选

1

 

缩略图

thumbnail 

--

/

支持格式gif、jpg、jpeg、png,主要用于搜索结果的摘要展现

每个网页最多可以提交10个缩略图,目前站内搜索仅选用其中的第一个用于摘要展现

可选

10

 

 

缩略图地址


loc

url


可选

1

 

 

图片

image 

--

/

支持格式gif、jpg、jpeg、png

每个网页最多可以提交100张图片,目前当thumbnail不存在时,默认选择image的第一张图片用于摘要展现

可选

100

 

 

图片存放地址


loc

url 


可选

1

 

 

图片标题


title

字符串 

如果没有标题,也可用于填写该图片的标签等

可选

1

 

 

视频

video 

--

/

每个网页最多可提交100个视频数据。(近期即将支持)当thumbnail和image不存在时,默认选择video的第一个缩略图用于摘要展现

可选

100

 

 

视频地址


loc

url

包含2种情形:指向实际视频媒体文件,或者指向特定视频的播放器

前者例如:

http://59.63.171.80/youku/65736E30E1C307CC07EF256D1/0300020E004FCFEC663DA204A5719AA5C2599A

-5CDB-D8E5-BEB7-C15C62B686F2.flv

后者例如:

http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html

可选

1

 

 

视频标题


title

字符串 

例如上述地址的视频标题为“考研访谈:名师陈文灯教授数学复习指导答疑”

可选

1

 

 

视频缩略图地址


thumbnail_loc

url

例如上述视频的缩略图地址为

http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB

可选

1

 

 

视频时长


duration

整数

单位:秒

可选

1

 

 

作者

author

--

/

常见于web2.0页面,例如论坛帖子作者、博客作者

可选

1

 

 

作者昵称


nickname

字符串


可选

1

 

 

作者个人首页地址


url

url

该url指向的页面通常提供作者的个人信息介绍

可选

1

 

 

作者头像地址


thumbnail

url


可选

1

 

 

回复数

replyCount 

/

整数 

通常表示论坛贴子回帖数,或博客评论数 

可选

1

属性

property 

/

字符串 

主要用于帖子,例如精华、热门、置顶、最新等属性 ,每个网页最多可以提交3个内容属性

可选

3

 

价格

price 

--

/


可选

1

 

 

现价


new

小数

商品价格或打折优惠后的现价

可选

1

原价


old

小数

打折优惠前的价格,如果有的话

可选

1

折扣

discount 

--

/

折扣优惠信息

可选

1

 

 

折扣值


value

小数

折扣值

可选

1

折扣描述


description

字符串 

折扣优惠介绍 

可选

1

 

 

评价

review 

--

/

评价信息

常用于商品、活动、影视著作等对象

可选

1

 

 

评分值


rating

小数


可选

1

评分基数


rating_base

小数

评分的基数值或“满分”值

各网站采用的评分制不尽相同,例如最典型的5分制(0分-5分),还有10分制(0分-10分),或者用百分比来表示,满分为100%(0%-100%)

站长可根据实际情况来填写,或者保持不填;只填写rating_base而不填rating是没有意义的

可选

1

 

 

评分人数


count

整数 

评分人数

可选

1

位置

location

--

/

常用于标识机构、商品或者活动

可选

1

 

 

地址


address

字符串


可选

1

 

 

电话


tel

字符串 


可选

1

 

 

地域


area

字符串 

地域范围

例如“北京市”“海淀区”“王府井”

主要用于地域筛选

可选

1

 

坐标


coordinate

字符串 

坐标

采用WGS84标准。格式为:纬度,经度。北纬+,南纬-,东经+,西经-。小数点后最多保留6位。例如“+40.783333,-73.966667”是纽约中央公园的坐标

可选

1

 

 

时间

time 

--

/

通常用于标识活动;区别于网页内容发布时间

可选

1

 

 

开始时间


startDate

日期 

开始时间

格式为YYYY-MM-DDThh:mm:ss

可选

1

 

结束时间


endDate

日期 

结束时间

格式为YYYY-MM-DDThh:mm:ss

可选

1

 

数据标记示例:

<?xml version="1.0"encoding="UTF-8"?>

<urlset>

<url>

<loc>http://ky.kaoyan.com/04/467393/</loc>

<lastmod>2013-04-10</lastmod>

<changefreq>always</changefreq>

<priority>0.5</priority>

<data>

<display>

<title>【写给即将上战场的你们】努力为王,心态为皇</title>

<content></content>

<tag>考研复习</tag><tag>经验</tag>

<pubTime>2012-12-04T11:20:13</pubTime>

<breadCrumb title="考研加油站" url="http://ky.kaoyan.com/"/>

<breadCrumb title="考研政治" url="http://www.kaoyan.com/s/zhengzhi"/>

<thumbnailloc="http://docs.kaoyan.com/jpg/12/1204dde3cd949ccc.jpg"/>

<imageloc="http://docs.kaoyan.com/jpg/12/12048543278e760d.jpg" title="七个最常用的泰勒展开式"/>

<videoloc="http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html" title="考研访谈:名师陈文灯教授数学复习指导答疑 "thumbnail_loc="http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB"duration="217509"/>

<!-- 视频非实际页面内数据,为示意而构造 -->

</display>

</data>

</url>

<url>

</url>

</urlset>



小说类型:


具体格式说明:

中文属性标签英文属性标签属性类型需求对应优先级重复次数举例
作品名字nameText作品的名字必选字段1半梦半醒
作者authorPerson作品的作者必选字段1作者字段,包含3部分,具体见下方。
作品配图imageURL展现的时候会用到强烈建议不限 
作品简介descriptionText一般的文本强烈建议1小说故事发生于2005年,跨度六年,讲述了主人公朱亚楠一次去北京参加颁奖大会,结识一号女主角王文静。两人开始朦朦胧胧的爱恋。由于不在同一城市生活,两人只能艰难的异地恋。种种阴差阳错导致他们分分离离,其间又交叉了二号女主角苏扬和三号女主角刘琳。朱亚楠游离在三个美貌女孩之间,最终他会选择和谁终生厮守?他们的爱情又会有什么样的波折?敬请期待!
分类genreText作品的分类,方便书籍间的类聚必选字段1言情
完成字数wordCountNumber作品的总完成字数强烈建议119221
阅读链接urlURL作品的阅读链接必选字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99069.html
更新状态updateStatusText完结还是更新中必选字段1已完结
阅读费用trialStatusText免费或者是前多少章免费,或收费必选字段1免费
周点击weeklyClickNumber最近一周的点击数量强烈建议150000
月点击monthlyClickNumber最近一个月的点击数量强烈建议1150000
总点击totalClickNumber作品的总点击数量必选字段13197509
最新章节newestChapterChapter作品的最新章节必选字段1 
章节chapterChapter作品的章节必选字段不限 
更新时间dateModifiedDate作品的更新时间必选字段12012/10/5
作者 - author
作者名称nameText作者的名称,可能是姓名、笔名或ID必选字段1zhujiaguo1986
作者简介descriptionText作者的简介强烈建议1朱家果,男,80后知名作家、诗人。
网页链接urlURL作者的网页链接,可能是博客或者个人主页可选字段1http://blog.sina.com.cn/zhujiaguo2007
最新章节 - newestChapter
所属小说名称articleSectionText章节所属的小说名称必选字段1半梦半醒
最新章节标题headlineText最新章节的标题必选字段1未名湖畔
最新章节链接urlURL最新章节页面的URL链接必选字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99144.html
更新时间dateModifiedDate最新章节的更新时间必选字段12012/10/5
章节 - chapter
所属小说名称articleSectionText章节所属的小说名称必选字段1半梦半醒
章节标题headlineText章节的标题必选字段1欢畅一日
章节内容acticleBodyText给用户展现最新内容强烈建议1刚出朝阳宾馆,王文静就嚷嚷着要去对面的桌球馆里打桌球。王文静挽着朱亚楠的手进了桌球馆,在窗口处领了桌号,要了球杆。许妮一声不响地跟在后面,一脸失落落的样子。服务生刚把桌上的球仔摆好,王文静便乐此不彼地打开了。
章节链接urlURL章节的URL链接必选字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99076.html
更新时间dateModifiedDate章节的更新时间强烈建议1 



电影类型



2影视-电影类的摘要示意图(不代表最终效果)

具体格式说明:

  • “属性类型”说明

    1. 含有子标签的属性类型:PersonAggregateRatingVideoObjectInTheaters。子标签内容详见下方各个分支说明。         

    2. 时间相关的属性类型:Date支持YYYY-MM-DD格式,或者YYYY-MM,或YYYYDuration支持P[n]Y[n]M[n]DT[n]H[n]M[n]S格式,例如“P3Y6M4DT12H30M5S”表示“36个月412小时305秒”时间格式说明详见:ISO8601    

    3. Number支持各种数字类型,例如整数和小数。  

  • “出现次数”说明

    1. 不限次数的情况下,用多组同名标签来表达多个值,例如:<genre>爱情</genre><genre>青春</genre>       

No.

中文标签

英文标签

属性类型

属性描述

优先级

出现次数

举例

可展现

可筛选

可排序

1

名称

name

Text

电影名称

必选

1

<name>中国合伙人</name>

 

 

2

别名

alias

Text

电影别名

可选

不限

<alias>中国先生</alias>

 

 

3

海报

image

URL

电影海报的链接

强烈建议

不限

<image>http://img31.mtime.cn/mt/2013/05/03/163203.48183969_96X128.jpg</image>

 

 

4

描述

description

Text

作品的简介

必选

1

<description>1980年代到21世纪,30年的大变革背景下,三个好友为了改变自身命运,创办英语培训学校,最终实现“中国式梦想”。</description>

 

 

5

类型

genre

Text

通常指作品本身的分类属性

必选

不限

<genre>喜剧</genre>

 

6

演员

actor

Person

演员或动画片中的配音演员

必选

不限

<actor>
  <name>
邓超</name>
  <url>http://people.mtime.com/1256584/</url>
  </actor>

 

 

7

导演

director

Person

电影导演,包括执行导演等

必选

不限

<director>
  <name>
陈可辛</name>
  <url>http://people.mtime.com/892817/</url>
  </director>

 

 

8

编剧

author

Person

电影等的编剧

可选

不限

<author>
  <name>
周智勇</name>
  </author>

 

 

9

内容语言

inLanguage

Text

电影对白主题语言

必选

1

<inLanguage>中文</inLanguage>

 

 

10

地区

contentLocation

Text

影片的制作地区

必选

不限

<contentLocation>中国</contentLocation>

 

11

上映信息

premiere

PremiereInfo

电影上映的有关信息

必选

不限

<premiere>

<datePublished>2013-05-17</datePublished>

<publishLocation>中国</publishLocation>

<duration>PT112M</duration>

</premiere>

12

摘要

abstract

Text

显示在网页中的摘要数据

强烈建议

1

 

 

 

13

综合评价

aggregateRating

AggregateRating

用户综合评价

必选

1

<aggregateRating>
  <ratingValue>8</ratingValue>
  <bestRating>10</bestRating>
  </aggregateRating>

 

14

预告片

trailer

VideoObject

预告片信息

强烈建议

不限

<trailer>
  <name>
钢铁侠中国版剧场预告片</name>
  <url>http://movie.mtime.com/91881/trailer/43508.html</url>
  </trailer>

 

 

 

15

评论数量

commentNum

Number

用户评论、意见的数量,表达自己的观点,不一定和作品相关

强烈建议

1

<commentNum>23</commentNum>



16

获奖信息

awards

Text

电影的获奖信息

强烈建议

不限

<adwards>金马奖XXX</adwards>

 

 

演员 - actor

 

 

 

1

演员姓名

name

Text

演员的姓名

必选

1

<name>邓超</name>

 

 

2

页面链接

url

URL

演员页面的URL链接

强烈建议

1

<url>http://people.mtime.com/1256584/</url>

 

 

 

3

角色名称

role

Text

角色的姓名(

© 2017 Baidu 使用百度前必读 京ICP证030173号