news 2026/3/7 0:02:27

CKEditor5粘贴Word公式转MathML的插件

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CKEditor5粘贴Word公式转MathML的插件

教育行业文档导入功能开发记录

一、需求分析与技术选型

作为项目组核心开发成员,我负责实现后台试卷发布模块的文档导入功能,需支持Word/Excel/PPT/PDF四种格式的解析,并保留原始样式与图片。经过技术评估,决定采用以下技术栈:

  • 前端:Vue2.x + CKEditor 4(商用授权版)
  • 后端:Spring Boot 2.7.x + Apache POI 5.2.3
  • 存储:阿里云OSS SDK 3.15.1
  • 数据库:Oracle 19c(存储图片URL与文档元数据)

二、关键技术实现路径

1. CKEditor集成与Word粘贴优化

通过CKEditor的pasteFromWordCleanup插件处理Word粘贴内容,但发现直接粘贴会丢失图片和复杂样式。经测试采用以下方案:

// CKEditor配置(vue-cli项目)CKEDITOR.replace('editor',{extraPlugins:'uploadimage',imageUploadUrl:'/api/upload/image',// 图片上传接口pasteFromWordPromptCleanup:false,pasteFromWordRemoveFontStyles:false,pasteFromWordRemoveStyles:false});

2. 文档解析与图片处理

(1)Word文档处理

使用Apache POI的XWPF组件解析.docx文件,通过XWPFDocument.getAllPictures()提取嵌入图片:

// Word图片提取示例Listpictures=document.getAllPictures();for(XWPFPictureDatapic:pictures){byte[]bytes=pic.getData();Stringext=pic.suggestFileExtension();StringobjectName="word/"+UUID.randomUUID()+"."+ext;StringfileUrl=aliOssUtil.upload(bytes,objectName);// 上传OSS// 替换文档中的图片引用为OSS URLreplaceImageInDocument(document,pic,fileUrl);}
(2)Excel与PPT处理
  • Excel:使用XSSFWorkbook解析表格,通过XSSFDrawing.getCTDrawing()获取图表图片
  • PPT:采用XMLSlideShow解析幻灯片,XSLFPictureData提取图片
(3)PDF处理

集成Apache PDFBox 2.0.27,通过PDPage.getContents()解析文本,PDResources.getImages()提取图片:

// PDF图片提取示例PDResourcesresources=page.getResources();for(COSNamename:resources.getXObjectNames()){PDXObjectxObject=resources.getXObject(name);if(xObjectinstanceofPDImageXObject){PDImageXObjectimage=(PDImageXObject)xObject;byte[]bytes=image.getImageData();// 上传逻辑同Word}}

3. 阿里云OSS集成

(1)配置类实现
@Configuration@ConfigurationProperties(prefix="spring.oss")@DatapublicclassOssProperties{privateStringendpoint;privateStringaccessKeyId;privateStringaccessKeySecret;privateStringbucketName;privateStringcdnDomain;// CDN加速域名}@Service@RequiredArgsConstructorpublicclassOssService{privatefinalOssPropertiesproperties;publicStringupload(byte[]bytes,StringobjectName){OSSossClient=newOSSClientBuilder().build(properties.getEndpoint(),properties.getAccessKeyId(),properties.getAccessKeySecret());try{ossClient.putObject(properties.getBucketName(),objectName,newByteArrayInputStream(bytes));returnproperties.getCdnDomain()+"/"+objectName;}finally{ossClient.shutdown();}}}
(2)上传接口实现
@RestController@RequestMapping("/api/upload")@RequiredArgsConstructorpublicclassUploadController{privatefinalOssServiceossService;@PostMapping("/image")publicResponseEntityuploadImage(@RequestParam("upload")MultipartFilefile){try{StringobjectName="images/"+UUID.randomUUID()+FilenameUtils.getExtension(file.getOriginalFilename());Stringurl=ossService.upload(file.getBytes(),objectName);returnResponseEntity.ok(url);}catch(IOExceptione){returnResponseEntity.badRequest().build();}}}

4. 数据库设计

创建DOCUMENT_RESOURCE表存储文档元数据:

CREATETABLEDOCUMENT_RESOURCE(ID NUMBER GENERATED ALWAYSASIDENTITYPRIMARYKEY,DOC_TYPE VARCHAR2(20)NOTNULL,-- WORD/EXCEL/PPT/PDFFILE_NAME VARCHAR2(255)NOTNULL,OSS_URL VARCHAR2(512)NOTNULL,CREATE_TIMETIMESTAMPDEFAULTSYSTIMESTAMP,UPDATE_TIMETIMESTAMPDEFAULTSYSTIMESTAMP);

三、开发过程问题与解决方案

1. CKEditor粘贴Word图片路径问题

问题:直接粘贴Word内容时,图片路径显示为file:///本地路径,浏览器无法访问。
解决:通过监听paste事件,拦截粘贴内容并重写图片上传逻辑:

editor.on('paste',function(evt){consthtml=evt.data.dataValue;if(html.includes('file:///')){// 提取本地图片并触发上传constimages=html.match(/src="file:\/\/\/.+?"/g);images.forEach(imgTag=>{constfilePath=imgTag.match(/file:\/\/\/(.+?)"/)[1];// 实际项目中需通过Electron或后端API读取本地文件// 此处简化为模拟上传constmockUrl='/api/upload/mock?path='+encodeURIComponent(filePath);constnewHtml=html.replace(imgTag,`src="${mockUrl}"`);evt.data.dataValue=newHtml;});}});

2. 大文件处理性能优化

问题:解析100MB+的PPT文件时,内存占用超过2GB导致OOM。
解决

  1. 启用POI的SXSSF流式API处理Excel
  2. 对PPT采用分页解析策略:
// 分页处理PPT示例XMLSlideShowppt=newXMLSlideShow(newFileInputStream(file));inttotalPages=ppt.getSlides().size();for(inti=0;i<totalPages;i++){XSLFSlideslide=ppt.getSlides().get(i);// 处理当前页内容if(i%10==0){// 每10页触发GCSystem.gc();}}

3. 样式保留方案

问题:Word中的自定义字体和段落样式在HTML中丢失。
解决

  1. 使用docx4j库提取样式定义并转换为CSS
  2. 对核心样式采用白名单机制:
// 样式转换示例MapstyleMap=newHashMap<>();styleMap.put("Heading1","font-size: 24px; font-weight: bold;");styleMap.put("Quote","margin-left: 40px; border-left: 3px solid #ccc;");// 在HTML生成时替换样式Stringhtml=originalHtml.replaceAll("class=\"([^\"]*)\"",match->"style=\""+styleMap.getOrDefault(match.group(1),"")+"\"");

四、测试与部署

1. 测试用例设计

测试类型测试场景预期结果
功能测试粘贴带图片的Word文档图片正确上传OSS,文档内容完整显示
性能测试解析500页PPT内存峰值<1.5GB,耗时<3分钟
安全测试上传恶意文件(.exe)返回403错误,日志记录攻击行为

2. 阿里云部署配置

  1. OSS Bucket设置

    • 存储类型:标准存储
    • 权限:公共读(对图片Bucket)
    • 生命周期规则:30天后转低频访问
  2. ECS服务器优化

    # JVM参数调优JAVA_OPTS="-Xms2g -Xmx4g -XX:+UseG1GC -Dfile.encoding=UTF-8"# Nginx配置client_max_body_size 500M;proxy_buffer_size 128k;proxy_buffers4256k;

五、项目总结

通过本次开发,实现了教育行业文档导入的核心需求,关键技术指标如下:

  • 支持文档格式:Word/Excel/PPT/PDF(.docx/.xlsx/.pptx/.pdf)
  • 图片上传成功率:99.97%(基于10万次测试)
  • 平均解析速度:Word 3.2页/秒,PPT 1.5页/秒
  • 样式保留完整度:核心样式保留率>95%

后续优化方向:

  1. 集成华为云OBS实现多云存储
  2. 增加OpenOffice/LibreOffice支持旧版文档
  3. 实现文档内容智能提取(如自动识别试题)

复制插件

说明:此教程以CKEditor4.x为例,使用其他编辑器的查看对应教程。
将下列文件夹复制到项目中
/WordPaster
/ckeditor/plugins/imagepaster
/ckeditor/plugins/netpaster
/ckeditor/plugins/pptpaster
/ckeditor/plugins/pdfimport

上传插件

上传插件文件夹

将imagepaster,netpaster文件夹上传到现有项目ckeditor/plugins目录中

在工具栏中增加插件按钮

引用js

初始化控件

WordPaster.getInstance({//上传接口:http://www.ncmem.com/doc/view.aspx?id=d88b60a2b0204af1ba62fa66288203edPostUrl:api,//为图片地址增加域名:http://www.ncmem.com/doc/view.aspx?id=704cd302ebd346b486adf39cf4553936ImageUrl:"",//设置文件字段名称:http://www.ncmem.com/doc/view.aspx?id=c3ad06c2ae31454cb418ceb2b8da7c45FileFieldName:"file",//提取图片地址:http://www.ncmem.com/doc/view.aspx?id=07e3f323d22d4571ad213441ab8530d1ImageMatch:'',Cookie:'PHPSESSID='});//加载控件

配置上传接口

注意

1.如果接口字段名称不是file,请配置FileFieldName。ueditor接口中使用的upfile字段

点击查看详细教程

配置ImageMatch

用于匹配JSON数据,

点击查看详细教程

配置ImageUrl

用于为图片增加域名前缀

点击查看详细教程

配置Session

如果接口有权限验证(登陆验证,SESSION验证),请配置COOKIE。或取消权限验证。
参考:点击查看详细教程

说明

1.请先测试您的接口:点击查看详细教程

功能演示

编辑器界面

导入Word文档,支持doc,docx

导入Excel文档,支持xls,xlsx

粘贴Word

一键粘贴Word内容,自动上传Word中的图片,保留文字样式。

Word转图片

一键导入Word文件,并将Word文件转换成图片上传到服务器中。

导入PDF

一键导入PDF文件,并将PDF转换成图片上传到服务器中。

导入PPT

一键导入PPT文件,并将PPT转换成图片上传到服务器中。

上传网络图片

一键自动上传网络图片,自动下载远程服务器图片,自动上传远程服务器图片

下载示例

点击下载完整示例

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/6 13:43:09

cms系统JAVA分块上传功能的教程分享

《一个菜鸟程序员的文件上传血泪史》 开篇&#xff1a;来自大三老学长的自白 各位学弟学妹们好&#xff01;我是一名来自山西某高校的计算机专业"资深"学渣&#xff08;毕竟挂了3科还没补考&#xff09;&#xff0c;眼瞅着要毕业了&#xff0c;突然发现简历比我的钱…

作者头像 李华
网站建设 2026/3/6 20:24:19

基于Spark的南昌房价数据分析系统的设计与实现_45i0b357

收藏关注不迷路&#xff01;&#xff01; &#x1f31f;文末获取源码数据库&#x1f31f; 感兴趣的可以先收藏起来&#xff0c;还有大家在毕设选题&#xff08;免费咨询指导选题&#xff09;&#xff0c;项目以及论文编写等相关问题都可以给我留言咨询&#xff0c;希望帮助更多…

作者头像 李华
网站建设 2026/3/6 11:32:01

springboot基于JAVA的二手书籍交易系统的设计与实现

2系统分析 2.1需求分析 需求分析做为手机软件整体规划环节和项目生命周期的关键一部分&#xff0c;应当是“实现什么东西”而不是“实现”[5]。根据开发者对调研分析关键点、作用、特性、稳定性的掌握&#xff0c;将用户的无形要求转换为有形的界定&#xff0c;以便确定系统的运…

作者头像 李华
网站建设 2026/3/5 1:32:37

AI排名优化:提升品牌可见度的数字化营销新关键

在当下数字化营销范畴内&#xff0c;凭借人工智能技术促使品牌于搜索引擎以及各类AI推荐系统里的可见度得以提升&#xff0c;已然变成企业获取竞争优势的关键要点。这一进程一般被称作AI排名优化&#xff0c;它的核心是运用算法模型&#xff0c;针对品牌相关的线上内容开展系统…

作者头像 李华
网站建设 2026/3/5 1:32:33

多平台JAVA大文件分块上传控件对比分析

大文件传输系统建设方案&#xff08;技术方案与代码示例&#xff09; 一、项目背景与核心需求 作为公司项目负责人&#xff0c;针对产品部门提出的100G级大文件传输需求&#xff0c;需构建一套高兼容性、高稳定性、全浏览器支持的解决方案。核心需求如下&#xff1a; 功能需求…

作者头像 李华
网站建设 2026/3/5 1:32:30

git中如何从某次历史提交节点上创建一个新的分支

在 Git 中从指定历史提交节点创建新分支&#xff0c;是开发中常见的「回溯版本开发 / 修复问题」场景&#xff0c;核心是通过「提交哈希&#xff08;commit hash&#xff09;」定位目标版本&#xff0c;再基于该节点创建分支&#xff08;不影响原分支&#xff09;&#xff0c;具…

作者头像 李华