您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 子文本替换 >

可以批量切割的电子书切割器

发布时间:2019-06-24 22:19 来源:未知 编辑:admin

 可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

 A:这是一个专为整理电子版小说而开发的工具,包括HTML到文本文件的转换、文件合并、文件切分、段落合并、段落切分、内码转换(只能在Win 2k/XP下用)、文本替换、HTML整理、文本抽取、正则表达式(需要IE 5.5以上版本的支持)、批量OCR、tcr文件压缩/解压等功能。

 A:TextForever是一个“友情软件”(Friendware),用户在承诺不用于商业目的,也不对文件及其附件进行任何更改的条件下,不需要为使用该软件支付任何费用,最多是在某个讨论区看到我发帖子灌水时(我的ID一般是strnghrs),进去捧个人场,作为友情回报;或者在年节时发个email问声好(所以叫“友情软件”)。我承诺绝不在程序中暗藏任何商业广告、木马,但不承诺为使用TextForever的后果承担任何责任。如果您需要将它用于商业目的,或加入您的网站,请与我联系,否则保留追究一切责任的权利。

 在“编码转换”功能中,为了省事,转码过程使用的是Windows本身提供的标准API接口。由于转码过程中需要用Unicode作为中间码,因此此功能不能在对Unicode支持非常有限的Windows 95/98/me下使用,只能在支持GBK/Big5/Shift JIS代码页的2000/XP下使用。正常情况下,只要IE能够正常显示中文简体、中文繁体、日文网页,即可正常转换。

 所有功能均针对ANSI编码的纯文本文件,不支持UNICODE编码的文件。

 A:段落合并其实就是某些软件所吹嘘的“自动分段”功能:在转换、识别出来的文本文件中,往往在一个自然段中间加入了若干回车/换行符,成了一行一行的了,因此需要将这些多余的回车/换行符去掉,只在自然段结尾才出现回车/换行符。有人喜欢把这个功能称为“自动分段”,我更喜欢称为“段落合并”。

 段落切分是段落合并的逆过程。段落合并完成后,在某些软件下阅读时可能因为行太长,给阅读带来不便,因此需要按照指定的行长对段落进行切分,切成一个一个短行。

 A:参见《在简体中文Office 2003下OCR繁体中文、日文、韩文》。

 A:tcr的全称是Text Compression for Reader,是一种在手机和PDA上看的电子书格式,此功能用来将txt文件打包成tcr格式,或将tcr格式解包。如果您只打算在PC上看书,相信您不会用到这个功能。tcr虽然也是一种文本压缩格式,但是专门针对手机和PDA这种存储空间和处理能力都很有限的环境,压缩能力和zip、rar当然不能比,不过总比没有强。所以在手持设备能够处理象zip和rar这样复杂的文件之前,我相信都会保持其流行趋势。

 A:我曾经极度热衷于在PC上看小说,但是从网上下载的网页多半不适合直接离线浏览,需要进行转换、整理等,然后才能符合我的收藏标准。现成的HTML到TXT的转换工具有不少,但是集转换、合并、分段、替换等功能于一体的好像还没有,尤其是分段工具,多半分完段后都会有哭笑不得的感觉,所以我才自己开发了这个工具。后来我又开始在手机上看小说,所以又加了tcr压缩/解压、文件切分等功能。

 本软件为纯正的绿色软件,不需要安装,下载ZIP包后直接展开、运行即可。删除时删除可执行文件和帮助文件即可。

 软件包中仅包含下列两个文件,如果有其它的,保证不是我加的,请不要犹豫,立刻删除:

 单独删除TextForever.ini文件后重新运行TextForever,所有参数将恢复成缺省值,相当于点击了“恢复”按钮。

 注意:TextForever会自动记忆您所设置的参数值(记录在TextForever.ini文件中),点击“恢复”按钮可以将所有参数恢复到缺省值。

 根据需要设置选项(也可以什么不选,直接使用预设值),点击“转换选定文件”按钮,在弹出的对话框中选择需要转换的文件(按住Ctrl键或Shift键点击文件,即可选多个),然后点“打开”或“Open”按钮即可;或点“转换选定文件夹”按钮,在弹出的对话框中选择起始文件夹,然后点“确定”或“OK”按钮即可。

 如果点的是“转换选定文件夹”按钮,并事先选了“包括子文件夹”选项,则转换时会自动转换所有子文件夹中的htm、html、shtml文件,否则只转换所选文件夹下的文件。

 如果转换出来的内容不对,可能是因为真正的内容是用JavaScript动态生成的,可以选择“使用IE内核”,然后再点“开始转换”,重新试一遍。这个选项相当于IE的“另存为文本文件”功能,用缺省选项搞不定的网页,都可以用这个选项试试看。与在IE中打开网页不同的是,如果网页中有错,这里不会弹出错误对话框要求调试网页,而是直接跳过,反正错误对获取文本没有什么影响。

 对于使用UTF-8编码的HTML文件(这种文件似乎越来越多了),情况有点复杂:

 如果没有选择“使用IE内核”,则转换结果取决于“UTF-8转ANSI”选项:如果该选项被选中,则结果是ANSI编码的文本文件,否则是UTF-8编码的文本文件。

 如果在简体中文Windows下转换简体UTF-8编码的HTML文件,或者在繁体中文Windows下转换繁体UTF-8编码的HTML文件,转换出来的ANSI编码文件都不会有任何问题,所以缺省情况下“UTF-8转ANSI”选项是被选中的。但是如果要在简体中文Windows下转换繁体UTF-8编码的HTML文件,或在繁体中文Windows下转换简体UTF-8编码的HTML文件,直接转成ANSI多半会出现乱码,在这种情况下,只能不选“使用IE内核”、不选“UTF-8转ANSI”,将UTF-8编码的HTML转换成UTF-8编码的文本文件,然后再用“编码转换”功能,先将UTF-8转换成Unicode,再将Unicode转换成GB或Big5编码。

 一般网站刊登电子版小说时,都是一章一个文件,因此在将HTML文件转换成TXT文件后,一般还需要按照章节顺序将转换出来的诸多TXT文件合并成一个文件。

 使用方法:按照界面上标示出来的1、2、3、4、5顺序,先选择需要合并的文件,再合并后的文件,并根据需要设置选项,点“开始合并”按钮即可开始合并。

 需要注意的是,如果在第1步选择的是“合并文件”而不是“合并文件夹”,可以指定对文件按照中文数字进行排序,这是专门为了处理像“第二十七章.txt”、“第三十一章.txt”这样的文件名而设置的。

 在把HTML转换成TXT文件后,由于去掉了HTML中的段落控制,转出来的文件看起来可能会参差不齐,需要重新合并、分段。

 使用方法:按照界面上标示出来的1、2、3顺序,先设置“源文件段落开始标志”选项,再设置“输出文件段落控制”选项,最后选择源文件。如果是对单个文件进行处理,则在“选择源文件”框中,先点“选择...”按钮选择源文件(如果前面做过文件合并,这里会自动填入合并后的文件名,则不再需要选择),再点“开始合并”按钮开始合并;如果是对多个文件进行操作,直接点“对多个文件中的段落进行合并...”按钮,然后在弹出的对话框中选择需要操作的所有文件(按住Ctrl键或Shift键点击文件,即可选多个)。

 “源文件段落开始标志”框指定分段条件,即在输入文件中,满足什么样的条件算一个段落。这样的条件可以有4个:

 上一行的长度比平均行长短少1/20。一般这个条件用于OCR出来、没有整理过的文件。如下面这段文字:

 牌子的文字,不过那里确实是写着海德伯爵城馆:帝国中最小不隆咚的贵族城

 有时候在用段落合并功能对原文中的段落进行合并、整理后,还需要按照指定的行宽,对段落进行分行,避免在没有自动环绕功能的浏览器上出现横向滚动条。

 段落合并功能与段落切分功能互为逆过程,如果对切分结果不满意,可以合并后重新切分。

 使用方法:按照界面上标示出来的1、2、3顺序,先设置“输出段落”选项,再设置源文件是否保留备份,最后选择源文件。如果是对单个文件进行处理,则在“选择源文件进行操作”框中,先点“选择...”按钮选择源文件(如果前面做过文件合并,这里会自动填入合并后的文件名,则不再需要选择),再点“开始切分”按钮开始切分;如果是对多个文件进行操作,直接点“对多个文件中的段落进行切分...”按钮,然后在弹出的对话框中选择需要操作的所有文件(按住Ctrl键或Shift键点击文件,即可选多个)。

 如果切分结果出现行末最后一个字节是半个汉字,则该汉字被分到下一行,以免出现乱码;如果切分结果中,行末会出现把一个英文单词劈成两半,则整个单词分到下一行;如果行末是英文空白、标点符号,则按照习惯,即使这些字符超出最大行长,也不分到下一行。

 “最大行长”项说明分行的行长,以英文字符为单位。注意一个中文字符等于两个英文字符。

 “段落开头添加”选项设置分行后段落的引导字符,可以是2个中文字符、4个英文字符或者什么也没有。

 这个功能可以实现GB、GBK、Big5、Unicode码的相互转换,及从日文Shift JIS到中文GB 2312、UTF-8到Unicode的单向转换。为了省事,转码过程使用的是Windows本身提供的标准API接口。由于转码过程中需要用Unicode作为中间码,因此此功能不能在对Unicode支持非常有限的Windows 95/98/me下使用,只能在支持GBK/Big5/Shift JIS代码页的2000/XP下使用。正常情况下,只要IE能够正常显示中文简体、中文繁体、日文网页,即可正常转换。

 使用方法:先设置文件选项、转码选项,然后点“转换选定文件”按钮,在弹出的对话框中选择需要转换的文件(按住Ctrl键或Shift键点击文件,即可选多个),然后点“打开”或“Open”按钮即可;或点“转换选定文件夹”按钮,在弹出的对话框中选择起始文件夹,然后点“确定”或“OK”按钮即可。

 如果点的是“转换选定文件夹”按钮,并事先选了“包括子文件夹”选项,则转换时会自动转换所有子文件夹中的txt文件,否则只转换所选文件夹下的文件。

 原文件另存为 bak 文件:转换后的文件不会覆盖转换前的文件,转换完成后将在原文件名后加后缀.bak。

 GB码:按照国家标准GB2312-80编排,包括全部简体字及常用符号。在中文简体版的Windows下显示为简体,在繁体版Windows下显示为乱码。

 GBK码:是国家技术监督局1995年为中文Windows 95所制定的新的汉字内码规范(其中GB表示国标,K表示扩展)。该规范在字汇一级上支持ISO10646和GB13000中的全部中日韩(CJK)汉字,并与国家标准GB2312-80信息处理交换码相兼容。如果在中文简体版的Windows 95/98/2000下看到繁体中文或繁简混杂,那么多半这些中文是用GBK编码的。

 Big5码:港台地区流行的汉字编码,针对繁体字。这种编码的汉字在中文简体版的Windows 95/98/2000下多半显示为乱码,但是在繁体版Windows下显示正常。

 Unicode码:Windows 2000/XP下的字符编码,全世界的文字都可以用统一的编码进行表示。在Windows 95/98/Me下显示,看到的可能是一堆问号。

 对指定的文件进行批量文本替换,包括去除HTML文件中的广告链接、js/css代码,或从TXT文件中去掉某些固定的文本等。

 在设计这个功能时,主要依据我平时对文件进行整理的经验,同时参考了UltraEdit32 v10.10a、居辰工作室的Text Witch v1.0、风林的文本整理器 v2.0等的长处。另外为了加快速度,替换前先将整个文件读入内存,然后在内存中进行替换,因此处理某些巨型文件时可能会有问题,不过处理通常几个MB的文件应该没啥问题。

 Unix格式转Windows格式:Unix格式的文本文件以n为换行符,Windows格式的文本文件以rn为换行符。通常这个选项也不用点。

 “替换选项”中每选择一个选项,都会增加一定的处理时间,“忽略大小写”选项被选中后,还会增加内存消耗,因此请尽量不要选择不必要的选项。

 输入替换内容的方法:可以点“添加文本”或“添加字符”按钮添加内容,也可以点“调入”按钮调入以前保存的内容。每项内容都可以包含多行,一次可以对多项内容进行替换,特别适合于批量整理从网上下载的HTML文件。如果经常需要整理从同一个网站下载的网页,可以在输入全部替换内容后,点“保存”按钮存盘,以后再整理该网站的网页时,点“调入”按钮即可载入替换内容。

 如果只需要对某个或某几个文件进行替换,可以点“选择并替换指定的文件”按钮,在弹出的对话框中选择文件即可。按住Ctrl或Shift键点击文件,即可一次选定多个文件。

 如果需要对某个文件夹下的文件进行替换,可以先在“文件”框中选择或输入文件选择标准,再点“文件夹”框右侧的按钮选择文件夹,点击“替换指定文件夹下的文件”按钮即可。如果“包括子文件夹”选项被选中,则连子文件夹下的文件一起替换。

 这个功能主要用于整理从网站上批量下载的HTML文件,包括去掉其中的广告链接、不合适的CSS设置及功能限制(禁止选择、禁止拷贝、禁止右键菜单)等,也可以解密某些HTML加密软件加密的HTML页。对于做E书的人来说,还可以用来在打包前先检查一下HTML页面中是否包含指向本地磁盘的绝对链接。

 扫描结果出来以后,先逐项双击打开看看,对不合适的可以编辑或删除。搞定后,点“替换表中所有项”按钮,对HTML文件进行替换。如果觉得一项一项双击打开看太麻烦,也可以导出成HTML文件看,但是一定要看,不然可能发生悲剧。

 注意:在第三步开始替换后,原始HTML文件将会被替换,请事先做好文件备份,以免后悔。

 包括子文件夹:如果此选项被选中,则扫描时包括选定文件夹下面的所有子文件夹。

 Unix格式转Windows格式:Unix格式的文本文件以n为换行符,Windows格式的文本文件以rn为换行符。通常这个选项也不用点。

 解密网页:对加密HTML文件进行解密,然后对解密结果进行检查。对于未加密网页来说,勾上这个选项后,不仅检查速度会变慢,而且整理后的网页代码看起来好象重新排过版一样(其实是被IE内核重新排版),所以缺省此选项未被选中。

 检查绝对链接:检查网页中是否包含绝对链接。检查时不包括anchor链接。理论上说,打包E书的所有链接都必须是相对链接,不能是绝对链接。

 检查CSS:检查网页中是否包含样式表。对于不满意的样式表可以替换或清除。

 检查功能限制:检查网页里是否包含功能限制,包括禁止选择、禁止拷贝、禁止右键菜单等。

 在选择解密网页、检查绝对链接、检查CSS、检查Script、检查功能限制等选项时要注意,如果都选上,不仅检查速度慢,而且可能一次列出太多的检查结果,因此应该根据需要,一次只检查一项或几项,不需要的选项不必选。

 能够按照指定的大小切分文本文件,并且避免因为切出半个汉字而造成乱码,或将一个英文单词切到两个文件中。

 某些手机对jar文件大小有限制,所以在制作jar电子书前,往往需要先对文本文件进行切分,然后再打包成jar书。

 先设置“文件选项”,再设置“文件最大长度”,然后点击“开始”按钮,在弹出的对话框中选择需要切分的文件(可多选)即可。每切分一个文件,都会在您所选的文件所在目录下创建一个子目录,存放切分后的文件。

 从文本中抽取或删除指定的内容。其实这个功能完全可以通过正则表达式替换实现,不过考虑到正则表达式不是人人都懂,所以还是单独做了这么一个大众化的功能。

 选择需要进行的操作,究竟是“提取”还是“删除”起始点到结束点之间的内容。

 指定在输出时,是否要输出起始点、结束点的内容,如起始点字符串、结束点字符串。

 如果只需要对某个或某几个文件进行提取,可以点“选择并提取指定的文件”按钮,在弹出的对话框中选择文件即可。按住Ctrl或Shift键点击文件,即可一次选定多个文件。

 如果需要对某个文件夹下的文件进行提取,可以先在“文件”框中选择或输入文件选择标准,再点“文件夹”框右侧的按钮选择文件夹,点击“提取指定文件夹下的文件”按钮即可。如果“包括子文件夹”选项被选中,则连子文件夹下的文件一起提取。

 运用正则表达式,实现批量文本查找、文本替换、文件切分功能。合理使用这些功能,可以全部或部分代替本软件的下列功能:Html-Text、段落合并、段落切分、文本替换、HTML整理、文件切分、文本提取,当然前提条件是您能够写出正确的表达式,否则建议您还是隐藏这个页面吧。

 支持正则表达式的软件在实现时通常都基于某个成熟的正则表达式引擎,目前可用的引擎有不少,从开源的到封装过的都有。从我试用的结果来看,开源的几个引擎用起来都有点麻烦,尤其在处理MBCS(多字节字符集)的时候,偏偏中文就是典型的MBCS。而微软在JScript/VBScript中提供的正则表达式引擎,不仅接口简单、使用方便,对MBCS的支持也没话说,所以成为我的首选。而这个引擎目前又有两个版本:1.0版和5.5版。1.0版从IE 5开始支持,5.5从IE 5.5开始支持。从我测试的情况看,5.5版至少在以下方面比1.0版强:

 1、TextForever的正则表达式功能只能在装有IE 5.5以上版本的机器上使用。不过现在IE 6应该已经算标配了吧?

 2、由于JScript/VBScript内部均基于UNICODE,所以在表达式中计算字符数的时候,一个中文字也算一个字符,而不是象通常ANSI环境下,一个字母、数字算一个字符,一个中文字算两个字符。编码转换使用当前系统缺省代码页。

 微软正则表达式引擎5.5版的详细说明见JScript/VBScript的相关文档,在本文附录B部分给出了一个语法表,摘自微软出版的《VBScipt 用户指南》电子版。这个基本上是给会写正则表达式的人士参考用,用它来学写正则表达式可能有点困难,如果真想学,建议还是老老实实找本书去翻翻吧:这个正则表达式引擎要比我用过的EditPlus v2.10c、UltraEdit32 10.10a的复杂和强大许多,包括向后引用(Backreferencing)等。

 1、“添加”正则表达式。添加时可以先测试一下表达式的效果。如果表达式不正确,在这里才给出提示。表达式输入后,可以“上移”、“下移”、“删除”、“修改”,也可以“保存”,在需要的时候再“调入”,以重复利用。

 2、选择需要操作的文件所在文件夹,及需要操作的文件。如果“含子文件夹”选项被选中,则操作包括所选文件夹及其下所有子文件夹中的文件,否则只处理所选文件夹中的文件。

 3、根据需要,选择“查找”、“替换”或“文件切分”操作。为了保险,建议在做替换或切分之前,先用查找功能查一次,看看正则表达式的匹配结果与想像的是否一致,以免一失足成千古恨。

 全局搜索(Global):指明在搜索正则表达式的匹配时,是搜索文件中的所有匹配,还是只搜索第一个匹配。缺省为选中,即搜索所有匹配。

 忽略大小写(Ignore Case):指明搜索正则表达式匹配时是否忽略大小写。这个对中文没用,所以缺省未选中。

 多行文本(Multiline):如果被选中,那么 ^ 匹配每行的开始位置,而 $ 匹配每行的结束位置。如果未被选中,那么 ^ 匹配文件的开始位置,而 $ 匹配文件的结束位置。缺省为选中。

 将单色TIFF文件批量OCR成文本文件,结果文件可单独存放,也可以合并成一个大文本文件。使用本功能前请先阅读《用Pdg2Pic、TextForever实现批量OCR》、《在简体中文Office 2003下OCR繁体中文、日文、韩文》。

 使用方法:先选择需要OCR的文件夹,然后选择结果文件,再根据需要设置OCR选项(通常不需要更改缺省设置),点“开始OCR”即可。

 3、OCR语言:选择OCR语言。目前允许选择英文、中文简体、中文繁体、日语。

 自动旋转、自动拉伸均需要时间,考虑到多数PDG文件不需要进行校正,因此这两个选项缺省不选中。如果页面确实变形比较厉害,可以选中后重新OCR。

 将文本文件批量压缩成tcr文件,或将tcr文件批量解压成文本文件。压缩时可以选择是否过滤空白符、段落标记,以节省存储和显示空间。这个功能是专门给制作在手机和PDA上阅读的电子书用的,如果您只打算在电脑上看书,相信您不会用到这个功能。

 TXT文件压缩:先设置“压缩文件选项”,然后点击“开始压缩”按钮,在弹出的对话框中选择需要压缩的文件(可多选)即可。压缩后的文件和您所选的文件在同一目录下,如果有同名文件,将会被自动覆盖。

http://fyijournal.com/ziwenbentihuan/105.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有