欧美XXXX做受性欧美88-欧美激情精品久久999成人-欧美人与zoxxxx另类-欧美午夜一区二区福利视频
位置:采集 >
管理節點
> 修改節點
基本信息
節點名稱:
(如:體育,娛樂等)
父節點:
新建父節點
|-帝國軟件 - java欄目
|-采集實例
采集頁面地址:
(一行為一個列表)
采集頁面為直接內容頁
http://www.fy161.com/tmp/cjpage/list.html
采集頁面地址方式二:
(此方式,系統自動生成頁面地址)
地址:
(分頁變量用
替換)
頁碼從
到
之間,間隔倍數
倒序
補零
(如:http://www.fy161.com/index.php?page=[page])
內容頁地址前綴:
(如地址前面沒域名的話,系統會加上此前綴)
圖片/FLASH地址前綴(內容):
(圖片地址為相對地址時使用)
入庫欄目:
選擇欄目
|-新聞中心
|-國內新聞
|-國際新聞
|-娛樂新聞
|-體育新聞
|-下載中心
|-影視頻道
|-網上商城
|-FLASH頻道
|-圖片頻道
|-文章中心
|-分類信息
|-房屋信息
|-跳蚤市場
|-同城生活
|-求職招聘
(如本節點不是采集節點,請不選)
入庫專題:
開始時間:
(格式:2007-11-01)
結束時間:
(格式:2007-11-01)
備注:
選項
默認相關關鍵字:
截取標題前
個字
采集記錄數:
采集前
條記錄
("0"為不限,系統會從頭采到頁面尾)
遠程保存圖片到本地(內容):
(入庫時才會保存,
加水印
)
遠程保存FLASH到本地(內容):
(入庫時才會保存)
標題圖片設置:
取第
張圖片為標題圖片(
生成縮略圖:寬度
×高度
)
每組列表采集個數:
每組采集
個列表頁
(防止采集超時)
每組信息采集個數:
每組采集
個信息頁
(防止采集超時)
每組入庫數:
每組入
條記錄
(防止入庫超時)
每組采集時間間隔
秒
(0為連續采集)
附加選項
頁面編碼轉換
正常編碼
UTF8->GB2312
BIG5->GB2312
UNICODE->GB2312
是否重復采集同一鏈接
重復采集
(不選為不重復采集)
是否隱藏已導入的信息
是
否
采集后自動入庫
是,
直接審核
(不推薦選擇,因為可能入庫超時)
入庫后自動刪除已導入的信息記錄
整體頁面過濾正則
格式:廣告開始[!--pad--]廣告結束
IFRAME
TABLE
FORM
OBJECT
TR
TBODY
SCRIPT
TD
STYLE
A
DIV
FONT
SPAN
IMG
(多個請用","格開)
整體頁面替換
將
替換成
(原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統會對應替換)
過濾選項
采集關鍵字(包含關鍵字才會采):
(只針對標題。如不限制,請留空。多個請用","格開)
替換:
(針對標題與內容)
將
替換成
(原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統會對應替換)
過濾廣告正則:
格式:廣告開始[!--ad--]廣告結束
(針對內容)
IFRAME
TABLE
FORM
OBJECT
TR
TBODY
SCRIPT
TD
STYLE
A
DIV
FONT
SPAN
IMG
(多個請用","格開)
內容為空不采集
是
(newstext字段)
過濾相似:
不采集標題相似超過
字的信息[與入庫信息比較]
(如不限制請填"0")
不采集標題完全相同的信息(與入庫信息比較)
截取內容簡介:
截取信息內容
個字
(在沒有設置“內容簡介”正則,系統采取的措施)
采集內容正則(不采集項,請留空)
列表頁
信息鏈接區域正則:
(
如不限,請為空
)
截取的地方加上
如:<tr><td>鏈接區域</td></tr>
正則就是:
<tr><td>[!--smallurl--]</td></tr>
信息頁鏈接正則:
截取的地方加上
如:<a href="信息鏈接">標題</a>
正則就是:
<a href="[!--newsurl--]">*</a>
<td>·<a href="[!--newsurl--]"
標題圖片正則:
(如圖片在內容頁,請留空)
圖片地址前綴:
保存本地
(如填這里,將為此字段值)
內容頁(文件過大的請不要選擇保存本地)
標題正則:
(
)
<div align="center"><strong>[!--title--]</strong>
(如填寫這里,將為字段的值)
副標題正則:
(
)
(如填寫這里,將為字段的值)
發布時間正則:
(
)
(如填寫這里,將為字段的值)
標題圖片正則:
(
)
附件前綴
遠程保存
(如填寫這里,這就是字段的值)
內容簡介正則:
(
)
(如填寫這里,將為字段的值)
作者正則:
(
)
(如填寫這里,將為字段的值)
信息來源正則:
(
)
(如填寫這里,將為字段的值)
新聞正文正則:
(
)
<td height="50" bgcolor="#CCCCCC">[!--newstext--]</td>
(如填寫這里,將為字段的值)
內容頁分頁采集設置:(如沒有分頁請留空,只對newstext有效)
入庫是否保留原分頁:
保留分頁
不保留分頁
分頁形式:
上下頁導航式
全部列出式
"全部列出"式正則設置:
分頁區域正則(
[!--smallpageallzz--]
)
分頁鏈接正則(
[!--pageallzz--]
)
"上下頁導航"式正則設置:
分頁區域正則(
[!--smallpagezz--]
)
分頁鏈接正則(
[!--pagezz--]
)
注意事項:
1.*:表示不限制內容。行與行之間的間隔最好用*格開
2.增加節點后,最好先“預覽”。
3.對于特殊字符請在前面加上“\\”,當然直接將特殊字符改為“*”最合適了。特殊字符如下:
),(,{,},[,],\,?
4.同一信息鏈接系統不會重復采集。