python截取字符串

新星源码网 0 1年前

Python中截取字符串可以使用切片（slicing）方法。切片方法的模板为string[start: end: step]。其中，start表示起点位置，即子字符串的起始索引。该索引处的字符包含在子字符串中。如果start为空，则默认为0。end表示终点位置，即子字符串的终止索引。如果end为空，则默认为字符串的长度。step指的是从start索引处的字符开始，每step个距离获取一个字符，直至end索引处的字符。step默认值为1，当省略该值时，最后一个冒号也可以省略。

另一种截取字符串的方法是使用变量[头下标:尾下标]，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。

如果需要截取中文字符串，需要注意utf-8编码的字符串的长度是1-6个字符。一不小心就会从中截断，出现所谓的乱码。可以使用ord(char)将字符转换成整数，根据utf-8的编码规则进行处理。下面这个函数提供了从一段utf-8编码的字符串中截取固定长度的子串。

def substr(string, length):
    if len(string.encode('utf-8')) <= length:
        return string
    else:
        utf8_length = 0
        res = ''
        for char in string:
            char_length = len(char.encode('utf-8'))
            utf8_length += char_length
            if utf8_length > length:
                break
            res += char
        return res

除了使用切片和下标截取字符串，还可以使用Python的re模块进行字符串匹配和提取。re模块提供了强大的正则表达式功能，可以灵活地进行字符串匹配和提取。

无论使用哪种方法截取字符串，都需要注意边界情况，比如字符串为空、下标越界等。在使用切片时，需要注意start和end的相对位置，以及step的正负情况。在使用正则表达式时，需要注意表达式的正确性和性能。

分类

相关推荐