网页下载转换器
发布时间:2013/10/12
慧峰网页下载转换器是网页下载及网页数据自动获取转换程序。
下面给出网页下载转换器功能简介:
1、将网址对应的动态或者静态网页获取到本地,并按照模板样式进行数据摘取和格式转换,转换后得到的网页为静态网页。
1.1) 操作过程:添加要下载转换的任务记录,填写要转换的网页地址,设置成需要的样式和数据模板文件,设置好获取频率即可。
1.2) 模板文件是包含要生成目标文件样式的文件。它可以定义目标显示样式,比如背景色,字体颜色,基本内容等。同时定义需要从下载网页中获取的部分,定义获取内容部分的格式如下:
模板中的上述格式内容部分在查找到对应内容后要被替换掉,其中beginpos,prefix,subfix,default变量部分要用实际要查找的字符串替换。
beginpos :给出本部分从原文件中哪个位置开始查找,如果不定义,可以设成0。前面有'+'或者'-'表示相对位置,即从当前位置向后或者向前几个位置开始查找。
prefix: 表示要获取部分在原网页中开始部分的标记。
subfix: 表示要获取部分在原网页中结束部分的标记。
设置好上述变量就可以定位到要获取的内容。如果网页中没有找到需要的内容,则可用default设定的部分替代(如果不用替代则设置该值为空字符即可)。
如果设置prefix、subfix、default完全相同,则表示定位到找到的prefix位置后,之后的内容都从该位置开始,在其后查找。在模板查找格式的前面定义部分可以给出这个一个设置,用于标记查找的开始位置,这样可以提高效率和避开混淆。
特殊标记功能:如果prefix、subfix标记为特殊字符串,比如字符串:till_to_mybegin或者till_to_myend,则表示进行特定的处理。如果prefix为till_to_mybegin表示找到后缀后,之前的所有内容。subfix为till_to_myend表示找到前缀后,保存其后面所有内容。(如果前缀第一个字符为<号则保存开始位置包括该前缀部分,否则滤掉前缀部分)
如果prefix为include_myvirtual表示本部分要引入其它文件内容,此时subfix部分给出要包含文件名(相对路径,根目录为目标存储位置),default标记部分给出缺省包含文件内容或者给出空不设置。此时beginpos部分应该为0。该功能用于将从多个网页上获取的数据进行综合显示。
1.3) 几个注意事项:
A) 如果要跨行查找字符串,可将换行用字符串"\n"代替,对于有些系统换行用"\r\n"。建议在获取的时候测试下哪种情况下可以获取就用那种方式代替实际的回车换行。
B) 查找部分字符串长度不能超过255字节。
C) 包含数据的原网站页面大小不能超过500KB。
D) 给出的原网址必须是最初的,不要经过字符串转换的,比如查找北京的天气预报,参数部分如果是中文“北京”,则不能用经过重新编码的网址来作为原网址。
E) 如果只给出原地址,没有给出模板文件,则下载完整的原网页(包括网页内包含的相关内容,是完整可本地浏览网页),不进行任何替换。
F) 特殊标记前后不要增加引号和空格。
2、将本地的Excel或者Word文档自动另存为静态网页。 注意:运行本程序的主机上要安装好相应版本的MS Office组件。
2.1) 操作过程:只需将要转换的.xls或者.doc后缀文档作为一条记录添加到列表中即可。
2.2) 对于.xls文档,缺省只导出页面1(Sheet1)对应的内容。如果想导出全部页面(Sheet),则将配置文件中[Host]部分的GetOnlyFirst设置成0,否则设置成1。同时得到的其它网页命名规则是缺省网页名称后依次增加2,3等。比如:保存文件名为index.htm,那么第二个Sheet导出的网页名为index2.htm。
[Host]
GetOnlyFirst=0
2.3) 另存Excel或者Word文件时,不启用替换模板文件进行替换,此时模板文件字段部分对应的为滚动样式模板文件。对于另存为的网页缺省不自动滚动,如果希望其自动滚动,则在替换模板文件名部分设置上滚动模板文件。系统自带的滚动配置文件为:scrolltemplate.txt,可使用该滚动模板文件或者参考该文件生成自己需要的模板文件。
3、提供网站服务器功能,提供标准的HTTP网站服务。
配置过程:需要在配置文件UrlToMyHtm.ini中设置:StartWebsite=1,并设置合适的服务端口号(如:WebsitePort=80)。注意:设置完毕后需要重新启动程序。