拼音分词拆解算法（用于判断字符串是否是纯拼音构成，并分离出所有拼音，50行纯原生代码实现）

2024-08-07 00:47 由小松聊PHP进阶发表于 #后端开发

废话哔哔

都说算法是程序的灵魂，算法源于数学，数学是描述宇宙万物的语言，这话一点不假，开发出身算法用的较少，回过头看算法，用到了，递归、循环、分支、分治、合并、取舍调优的思想，确实精彩，烧脑还挺有意思。
好的技术博客必须有做到有No BB,Show Code的干货，也得有详细的关键点用于辅助，因此写了这篇博客。

需求

概括：将一个字符字符串，拆分单个的拼音，例如bianchengyuyan（编程语言），拆分成bian、cheng、yu、yan。如果是zhang1san（张1三），zhangssan（张s三），则返回不是拼音。
应用场景：这算法并非百无一用，拼音分词，词义分析，品相判别等场景能够用到。

成品代码

<?php
/**
 * @function 返回拼音组合，由于冗长，单独拆分出来，拼音手动总结，可能存在遗漏
 * @return array
 */
function pinYinArr() {
    return [
        1 => ['a', 'e', 'm', 'n', 'o'],
        2 => ['ai','an','ao','ba','bi','bo','bu','ca','ce','ci','cu','da','de','di','du','en','er','fa','fo','fu','ga','ge','gu','ha','he','hm','hu','ji','ju','ka','ke','ku','la','le','li','lo','lu','lv','ma','me','mi','mo','mu','na','ne','ng','ni','nu','nv','ou','pa','pi','po','pu','qi','qu','re','ri','ru','sa','se','si','su','ta','te','ti','tu','wa','wo','wu','xi','xu','ya','ye','yi','yo','yu','za','ze','zi','zu'],
        3 => ['ang','bai','ban','bao','bei','ben','bie','bin','cai','can','cao','cen','cha','che','chi','chu','cou','cui','cun','cuo','dai','dan','dao','dei','den','dia','die','diu','dou','dui','dun','duo','eng','fan','fei','fen','fou','gai','gan','gao','gei','gen','gou','gua','gui','gun','guo','hai','han','hao','hei','hen','hng','hou','hua','hui','hun','huo','jia','jie','jin','jiu','jue','jun','kai','kan','kao','kei','ken','kou','kua','kui','kun','kuo','lai','lan','lao','lei','lia','lie','lin','liu','lou','lue','lun','luo','mai','man','mao','mei','men','mie','min','miu','mou','nai','nan','nao','nei','nen','nie','nin','niu','nou','nue','nuo','pai','pan','pao','pei','pen','pie','pin','pou','qia','qie','qin','qiu','que','qun','ran','rao','ren','rou','rua','rui','run','ruo','sai','san','sao','sen','sha','she','shi','shu','sou','sui','sun','suo','tai','tan','tao','tie','tou','tui','tun','tuo','wai','wan','wei','wen','xia','xie','xin','xiu','xue','xun','yan','yao','yin','you','yue','yun','zai','zan','zao','zei','zen','zha','zhe','zhi','zhu','zou','zui','zun','zuo'],
        4 => ['bang','beng','bian','biao','bing','cang','ceng','chai','chan','chao','chen','chou','chua','chui','chun','chuo','cong','cuan','dang','deng','dian','diao','ding','dong','duan','fang','feng','gang','geng','gong','guai','guan','hang','heng','hong','huai','huan','jian','jiao','jing','juan','kang','keng','kong','kuai','kuan','lang','leng','lian','liao','ling','long','luan','mang','meng','mian','miao','ming','nang','neng','nian','niao','ning','nong','nuan','pang','peng','pian','piao','ping','qian','qiao','qing','quan','rang','reng','rong','ruan','sang','seng','shai','shan','shao','shei','shen','shou','shua','shui','shun','shuo','song','suan','tang','teng','tian','tiao','ting','tong','tuan','wang','weng','xian','xiao','xing','xuan','yang','ying','yong','yuan','zang','zeng','zhai','zhan','zhao','zhei','zhen','zhou','zhua','zhui','zhun','zhuo','zong','zuan'],
        5 => ['chang','cheng','chong','chuai','chuan','guang','huang','jiang','jiong','kuang','liang','niang','qiang','qiong','shang','sheng','shuai','shuan','xiang','xiong','zhang','zheng','zhong','zhuai','zhuan'],
        6 => ['chuang', 'shuang', 'zhuang'],
    ];
}


/**
 * @function 移除参数1中右边包含的参数2，并返回剩余的字符，例如strRemoveRightOnce('wahaha', 'ha')，返回waha
 * @param    $string string 被操作字符串
 * @param    $remove string 要被移除的字符串
 * @return   string
 */
function strRemoveRightOnce($str, $part) {
    if (substr($str, -strlen($part)) == $part) {
        return substr($str, 0, - strlen($part));
    }
    return $str;
}


/**
 * @function 获取字符串存在的拼音数量，不兼容-符号，从长往短了截取
 * @param    $str    string 字符
 * @param    $result int    函数返回的结果
 * @return   array
 */
function pinYinStrLongToShort($str, $result = []) {
    if($str == '') {
        return $result;
    }

    if(($str == '') && ($result == [])) {
        return [];
    }

    //判断是否是纯拼音，不是直接过滤
    if((! preg_match('/^[a-z]+$/', $str)) && ($result == [])) {
        return [];
    }


    $initial_arr = pinYinArr();
    $initial_keys = array_keys($initial_arr);
    $max = max($initial_keys);
    $min = min($initial_keys);


    for($i = $max; $i >= $min; $i--) {
        $substring = substr($str,  - $i);
        if(in_array($substring, $initial_arr[$i])) {
            //避免xiao ha ha，用ltrim函数，一次性移除掉了两个ha造成的计量有误
            array_unshift($result, $substring);
            return pinYinStrLongToShort(strRemoveRightOnce($str, $substring), $result);
        } else {
            if($i == $min) {
                return [];
            }
        }
    }

    return $result;
}


print_r(pinYinStrLongToShort('bianchengyuyan'));
Array
(
    [0] => bian
    [1] => cheng
    [2] => yu
    [3] => yan
)

算法调优注意的地方

如果检测到含有非拼音的字符（例如有数字），以及多余的拼音字符（例如zhangxsan张x三），会直接返回空数组。
代码采用从长往短切割的策略，以xianggang（香港）举例：
- 从长到短（for循环递减）：分成xiang、gang。粒度大，但是失败率小。
- 从短到长（for循环递增）：拆分成xi、an，后面的gg没法切了。粒度更小，容易出错。
- 从长到短缺点也很明显：相应的会忽略精度，所以xian（西安）会记作一个拼音，当做xian（贤）处理。
代码采用的从字符串右边往左切的策略，进一步避免切割出错。例如xianguang（闲逛）：
- 从左到右从长到短：xiang、uang没办法切了。
- 从左到右从短到长：xi、an、gu、an、g没办法切了。
- 从右到左从长到短：guang、xian，刚刚好。
- 从右到左从短到长：ang、gu、an、xi，也行。
结语：从长往短了切割用于减少失败率，从右往左切割，用于进一步避免出错，因此被采用。
注意：以上算法，并非适合所有场景，可能存在误差，毕竟不是NLP。
补充：若读者想要获取最少或者最多的拼音，可复制3份代码，并修改for循环的策略，列出4种情况做对比，方可选出最适合当前场景的算法。

爬虫简易说明

想必大家都了解爬虫，也就是爬取网页你所需要的信息相比于网页繁多的爬虫教程，本篇主要将爬虫分为四个部分，以便你清楚，代码的功能以及使用，这四部分分别为 1.获取到源代码 2.根据网页中的标签特征，获取源代码你所需要的部分 3.想一下如何根据页面的逻辑将一系列的网页自动化抓取 4.保存数据在xlsx等 ...阅读全文

【Spring源码分析】Spring Scope功能中的动态代理 - Scoped Proxy

本文基于Springboot 3.3.2及Springcloud 2023.0.1版本编写。 Spring Scoped Proxy是什么在使用Spring cloud配置中心动态配置更新功能时，笔者发现在给一个类加上@RefreshScope注解后，其中@Value注入的字段会被自动更新。起初笔 ...阅读全文

从零到一：用Go语言构建你的第一个Web服务

使用Go语言从零开始搭建一个Web服务，包括环境搭建、路由处理、中间件使用、JSON和表单数据处理等关键步骤，提供丰富的代码示例。关注TechLead，复旦博士，分享云服务领域全维度开发技术。拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，复旦机器人智能实验室成员，国家级大学生赛事评审 ...阅读全文

洛谷P1209修理牛棚 Barn Repair

[USACO1.3] 修理牛棚 Barn Repair 题目描述在一个月黑风高的暴风雨夜，Farmer John 的牛棚的屋顶、门被吹飞了好在许多牛正在度假，所以牛棚没有住满。牛棚一个紧挨着另一个被排成一行，牛就住在里面过夜。有些牛棚里有牛，有些没有。所有的牛棚有相同的宽度。宽度为1 自门 ...阅读全文

【日记】为啥家族原发性高血压的人还喜欢喝酒啊……（442 字）

正文今天跟人吵了一下午架，因为有一张报表换了新表，所有人都不知道怎么报。上级行一个想法，我一个想法。吵完都发现对方说得有道理，于是决定明天问省分行。难绷。草台班子。鱼儿说他最近喜欢上了喝酒。我们劝他的同时，我想起来前两天和斯逛超市。本来我觉得高兴，也想着拿一瓶 RIO 喝，最后在货架前犹豫了很久 ...阅读全文

Spring Boot 中使用 JSON Schema 来校验复杂JSON数据

JSON是我们编写API时候用于数据传递的常用格式，那么你是否知道JSON Schema呢？在数据交换领域，JSON Schema 以其强大的标准化能力，为定义和规范 JSON 数据的结构与规则提供了有力支持。通过一系列精心设计的关键字，JSON Schema 能够详尽地描述数据的各项属性。然而， ...阅读全文

【靓小虫】2024抖音采集软件，支持关键词搜索、主页作品、评论采集等一键批量爬取！

马哥原创: 用python开发的抖音采集软件工具，支持：爬取搜索关键词结果、爬取主页作品并下载无水印MP4视频、爬取评论内容。 ...阅读全文

自动化测试平台设计与实现（二、自动化测试用例对象设计实现、关键字对象设计与实现）

1、模型设计建立自动化用例，关键字模型。其中自动化用例基本内容包含title（目录展示）、name等常见文本信息，关键字则是实现自动化测试提速的关键所在，考虑到业务场景的自动化，就能发现有很多业务步骤是重复的：比如一个管理系统里面的创建对象，我们将该步骤抽象出来，形成一个关键字（keyword）， ...阅读全文

R语言入门笔记：第一节，快速了解R语言——文件与基础操作

上一期 R 语言入门笔记里面我简单介绍了 R 语言的安装和使用方法，以及各项避免踩坑的注意事项。我想把这个系列的笔记持续写下去。这份笔记主要是针对 R 语言学习过程中各个容易掉进去的坑进行规避，以及根据我自身的经验提供一些学习思路。 ...阅读全文

[python]使用gunicorn部署fastapi服务

前言 Gunicorn是一种流行的WSGI HTTP服务器，常用于部署Django和Flask等Python Web框架程序。Gunicorn具有轻量级、高稳定性和高性能等特性，可以轻易提高Python WSGI App运行时的性能。基本原理 Gunicorn采用了pre-fork模型，也就是一个 ...阅读全文