编程论坛

 找回密码
 立即注册
广告联系qq1031180668广告位
查看: 76|回复: 1

[python] 正则表达式模块re匹配中文

[复制链接]
  • ta_mind

    2018-8-17 21:57
  • classn_01: 71 classn_02

    [LV.6]常住居民II

    983

    主题

    1704

    帖子

    3353

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    3353

    最佳新人活跃会员热心会员推广达人宣传达人灌水之王突出贡献优秀版主荣誉管理论坛元老

    发表于 2018-7-27 19:46:28 | 显示全部楼层 |阅读模式
    匹配中文
    在某些情况下,我们想匹配文本中的汉字,有一点需要注意的是,中文的 unicode 编码范围 主要在 [u4e00-u9fa5],这里说主要是因为这个范围并不完整,比如没有包括全角(中文)标点,不过,在大部分情况下,应该是够用的。
    假设现在想把字符串 title=u"编程论坛 www.c0ks.com" 中的中文提取出来,可以这么做:
    [Python] syntaxhighlighter_viewsource syntaxhighlighter_copycode
    import re
    title=u"编程论坛 [url]www.c0ks.com[/url]"
    pattern=re.compile(r"[\u4e00-\u9fa5]+")
    print(pattern.findall(title))
    执行结果:
    [Python] syntaxhighlighter_viewsource syntaxhighlighter_copycode
    ['编程论坛']

    不积跬步,无以至千里

    classn_11

    0

    主题

    42

    帖子

    88

    积分

    注册会员

    Rank: 2

    积分
    88
    发表于 2018-8-13 14:36:59 | 显示全部楼层
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    手机版|Archiver|小黑屋|sitemap|编程论坛 - 一个单纯的编程学习交流论坛 ( 豫ICP备15032706号 )

    GMT+8, 2018-10-21 00:43 , Processed in 1.159157 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表