字符串拆分合并
贪心算法,最长限制。import re class TextFilter: def __init__(self): # 字符映射规则 self.char_map = {# 省略号 → 停顿 '…': ',', '...': ',','······': ',', # 破折号 → 停顿 '——': ',', '—': ',', # 书名号 → 直接删除 '《': '', '》': '', '〈': '', '〉': '', # 其他特殊符号 → 删除 '*': '', '/': '', '#': '',} # 需要保留的基本标点 self.keep_punctuation = {',', '。', '?', '!', ';', ':'} # 用于拆分的标点符号 self.split_punct = '、,。?!;:' def split_text(self,text, max_len=20): if len(text) 15: return [text] # 按标点切 pattern = f'([{self.split_punct}])(?!$)' parts = re.split(pattern, text) raw_sentences = [] buff
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2470053.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!