如何使用正则表达式在 PHP 中精准提取营养成分数据(类别、数值、单位)

发布时间 - 2026-01-29 00:00:00    点击率:

本文介绍如何通过 preg_match_all 配合命名捕获组正则,从结构化文本中准确分离「标签名」「数值」和「单位」三部分,避免 preg_split 误切空格与标点导致的数据错乱。

在处理类似营养成分表的半结构化文本时,直接使用 preg_split('/[0-9].\s/', $content) 存在根本性缺陷:它试图“按数字+任意字符+空白”切割,但既无法区分数字是标签的一部分(如 Sodium, Na 中的 Na)还是真实数值起点,又会破坏浮点数(如 229.6104534866)的完整性,更无法保留括号、逗号等标签内合法符号——这正是你观察到 Total lipid (fat) 被错误拆分为多段的原因。

正确思路不是「分割」,而是「匹配提取」:每一行本质上是一个三元组 —— 非数字开头的标签(category) + 紧随其后的空白 + 连续数字与小数点组成的数值(value) + 后续空白 + 剩余单位字符串(unit)。因此应使用 preg_match_all() 配合精准锚定的模式:

$pattern = '~^(?P\D+)\s+(?P[\d.]+)\s+(?P.+)~m';

其中关键细节解析:

  • ^ 和 m 修饰符:确保 ^ 匹配每行开头(而非整个字符串开头);
  • (?P\D+):\D 匹配任意非数字字符,+ 表示至少一个,完美涵盖 Weight、Total lipid (fat)、Carbohydrate, by difference 等含空格、逗号、括号的完整标签;
  • \s+:匹配一个或多个空白(空格/制表符),作为标签与数值间的分隔;
  • (?P[\d.]+):明确限定数值仅由数字和小数点构成,排除单位中可能出现的 .(如 kcal 无点,但安全起见仍建议确保输入规范);
  • (?P.+):捕获剩余全部内容作为单位(g、kcal、mg 等),. 在 m 模式下不匹配换行符,保证单行匹配。

完整可运行示例:

立即学习“PHP免费学习笔记(深入)”;

\D+)\s+(?P[\d.]+)\s+(?P.+)~m';
preg_match_all($pattern, $content, $matches, PREG_SET_ORDER);

// 结构化输出示例
foreach ($matches as $match) {
    echo sprintf(
        "Label: '%s' | Value:

'%s' | Unit: '%s'\n", trim($match['category']), $match['value'], trim($match['unit']) ); } ?>

输出效果:

Label: 'Weight' | Value: '229.6104534866' | Unit: 'g'
Label: 'Energy' | Value: '374.79170898476' | Unit: 'kcal'
Label: 'Total lipid (fat)' | Value: '22.163422468932' | Unit: 'g'
...

优势总结:

  • 完整保留标签原始格式(支持空格、逗号、括号、连字符等);
  • 数值提取精确到小数点,无截断风险;
  • 单位自动捕获,无需额外处理;
  • PREG_SET_ORDER 返回每行一个关联数组,语义清晰,便于后续 JSON 化或数据库写入。

⚠️ 注意事项:

  • 若输入存在异常行(如无数字、数值含字母),该模式将跳过该行(preg_match_all 默认只返回完全匹配项),建议增加容错逻辑(如预过滤空行或使用 if (count($matches) === 0) 提示错误);
  • 如需兼容科学计数法(如 1.23e+04),可将 [\d.]+ 扩展为 [\d.]+(?:[eE][+-]?\d+)?;
  • 实际项目中建议对 trim() 后的 category 和 unit 做进一步标准化(如去除多余空格、统一单位缩写)。

此方案以声明式正则替代过程式分割,兼顾鲁棒性与可维护性,是解析此类规则文本的推荐实践。


# php  # js  # json  # go  # 正则表达式  # if  # 关联数组  # count  # 字符串  # 数据库  # 结构化  # 是一个  # 多个  # 此类  # 又会  # 可将  # 而非  # 如需  # 可能出现  # 本质上 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: 详解MySQL数据库的安装与密码配置  高端建站三要素:定制模板、企业官网与响应式设计优化  html5的keygen标签为什么废弃_替代方案说明【解答】  如何在 Python 中将列表项按字母顺序编号(a.、b.、c. …)  创业网站制作流程,创业网站可靠吗?  专业企业网站设计制作公司,如何理解商贸企业的统一配送和分销网络建设?  如何用搬瓦工VPS快速搭建个人网站?  Win11怎么开启自动HDR画质_Windows11显示设置HDR选项  教学论文网站制作软件有哪些,写论文用什么软件 ?  郑州企业网站制作公司,郑州招聘网站有哪些?  node.js报错:Cannot find module 'ejs'的解决办法  Laravel项目如何进行性能优化_Laravel应用性能分析与优化技巧大全  常州企业网站制作公司,全国继续教育网怎么登录?  python中快速进行多个字符替换的方法小结  Android仿QQ列表左滑删除操作  如何快速生成专业多端适配建站电话?  phpredis提高消息队列的实时性方法(推荐)  HTML5空格在Angular项目里怎么处理_Angular中空格的渲染问题【详解】  大连企业网站制作公司,大连2025企业社保缴费网上缴费流程?  Bootstrap CSS布局之列表  Laravel项目结构怎么组织_大型Laravel应用的最佳目录结构实践  php做exe能调用系统命令吗_执行cmd指令实现方式【详解】  免费视频制作网站,更新又快又好的免费电影网站?  如何破解联通资金短缺导致的基站建设难题?  Win11怎么查看显卡温度 Win11任务管理器查看GPU温度【技巧】  ,在苏州找工作,上哪个网站比较好?  logo在线制作免费网站在线制作好吗,DW网页制作时,如何在网页标题前加上logo?  Laravel用户密码怎么加密_Laravel Hash门面使用教程  用yum安装MySQLdb模块的步骤方法  利用JavaScript实现拖拽改变元素大小  Laravel如何获取当前登录用户信息_Laravel Auth门面使用与Session用户读取【技巧】  Laravel如何配置Horizon来管理队列?(安装和使用)  Laravel如何使用Vite进行前端资源打包?(配置示例)  宙斯浏览器文件分类查看教程 快速筛选视频文档与图片方法  如何用好域名打造高点击率的自主建站?  如何在万网利用已有域名快速建站?  百度浏览器网页无法复制文字怎么办 百度浏览器复制修复  如何快速搭建高效香港服务器网站?  制作旅游网站html,怎样注册旅游网站?  如何用景安虚拟主机手机版绑定域名建站?  小米17系列还有一款新机?主打6.9英寸大直屏和旗舰级影像  悟空识字如何进行跟读录音_悟空识字开启麦克风权限与录音  如何选择可靠的免备案建站服务器?  iOS中将个别页面强制横屏其他页面竖屏  Laravel怎么实现搜索高亮功能_Laravel结合Scout与Algolia全文检索【实战】  网站建设要注意的标准 促进网站用户好感度!  Laravel如何配置和使用队列处理异步任务_Laravel队列驱动与任务分发实例  Laravel如何使用Gate和Policy进行授权?(权限控制)  安克发布新款氮化镓充电宝:体积缩小 30%,支持 200W 输出  php 三元运算符实例详细介绍