CKEditor导入PPT文档并提取图片组件-育师

项目需求分析与技术选型记录
（广东某集团公司项目负责人，2023年X月X日）

一、需求拆解与核心目标

客户提出在现有企业网站后台管理系统的文章发布模块中增加以下功能：

Word粘贴功能：支持从Word复制内容后粘贴到CKEditor 4编辑器，图片自动上传至华为云OBS（二进制存储），保留表格、字体、颜色等样式。
Word/Excel/PPT/PDF导入功能：支持上传文档后解析内容，图片自动上传至OBS，保留原始样式。
微信公众号内容粘贴：自动下载公众号文章中的图片并上传至OBS，保留排版。
信创兼容性：支持国产操作系统（中标麒麟、银河麒麟、统信UOS等）和CPU架构（x86、ARM、龙芯）。
授权模式：一次性买断，预算≤58万元，覆盖后续1000+客户项目。

二、技术选型与产品评估

1. 编辑器插件方案

CKEditor 4插件扩展：
CKEditor 4原生支持pasteFromWord插件，但存在以下问题：
- 图片以Base64嵌入，不符合需求（需二进制存储）。
- 对Excel/PPT/PDF支持有限。
- 信创环境兼容性未知。
第三方商业插件评估：
- TinyMCE PowerPaste：功能强大，但授权费高（单套约$1500，买断需谈判）。
- Froala Editor：样式保留优秀，但国产化支持不足。
- 国内方案（如UEditor+信创适配）：需二次开发，成本不可控。
最终选择：
采用CKEditor 4 + 自定义插件开发，结合以下技术栈：
- 前端：Vue2 + CKEditor 4（通过iframe隔离兼容信创浏览器）。
- 后端：SpringBoot + Huawei Cloud OBS SDK（支持多云存储抽象层）。
- 文档解析：
  - Word/Excel/PPT：Apache POI（Java版，兼容信创JVM如麒麟JDK）。
  - PDF：iText 7（需处理中文授权问题，改用开源PDFBox）。
  - 微信公众号：Jsoup抓取HTML + 正则提取图片URL。

2. 信创兼容性验证

操作系统：
- 测试环境：统信UOS（桌面版）+ 麒麟V10（服务器版）。
- 依赖项：OpenJDK 11、Nginx（国产版）、MySQL 8（信创版）。
CPU架构：
- x86（Intel/AMD）：无问题。
- ARM（鲲鹏920）：通过华为云鲲鹏兼容列表验证。
- 龙芯（LoongArch）：需使用龙芯JDK和适配版CKEditor。

三、开发过程记录

1. 前端实现（Vue2 + CKEditor 4）

插件开发：
扩展CKEditor的paste事件，拦截Word内容并提取图片：

// src/plugins/wordpaste/plugin.jsCKEDITOR.plugins.add('wordpaste',{init:function(editor){editor.on('paste',function(evt){consthtml=evt.data.dataValue;constimages=html.match(/]+src="([^"]+)"/g)||[];images.forEach(imgTag=>{constsrc=imgTag.match(/src="([^"]+)"/)[1];if(src.startsWith('data:image')){// 提取Base64并上传至后端constbase64=src.split(',')[1];uploadToOBS(base64).then(url=>{constnewImgTag=imgTag.replace(src,url);evt.data.dataValue=evt.data.dataValue.replace(imgTag,newImgTag);});}});});}});

工具栏集成：
在CKEditor配置中添加自定义按钮：

// src/components/Editor.vueconfig:{extraPlugins:'wordpaste',toolbar:[{name:'clipboard',items:['PasteFromWord','WordPaste']}// 自定义按钮]}

2. 后端实现（SpringBoot + OBS SDK）

图片上传接口：
接收前端Base64图片并存储至OBS：

// src/main/java/com/example/controller/UploadController.java@PostMapping("/upload")publicResponseEntityuploadImage(@RequestParam("file")Stringbase64){byte[]bytes=Base64.decodeBase64(base64.split(",")[1]);StringobjectKey="images/"+UUID.randomUUID()+".jpg";OBSClientclient=newOBSClient(ak,sk,endpoint);client.putObject(bucketName,objectKey,newByteArrayInputStream(bytes));client.close();returnResponseEntity.ok("https://obs.example.com/"+objectKey);}

文档解析服务：
使用Apache POI解析Word表格样式：

// src/main/java/com/example/service/DocParser.javapublicStringparseWord(MultipartFilefile)throwsIOException{XWPFDocumentdoc=newXWPFDocument(file.getInputStream());StringBuilderhtml=newStringBuilder("");doc.getTables().forEach(table->{table.getRows().forEach(row->{html.append("");row.getTableCells().forEach(cell->{Stringstyle=cell.getCTTc().getTcPr().getShd().getFill();// 背景色html.append(String.format("",style,cell.getText()));});html.append("");});});html.append("%s");returnhtml.toString();}

3. 信创适配优化

JVM参数调整：
在application.properties中指定麒麟JDK的字体路径：
```
java.awt.fonts=/usr/share/fonts/win/
```
浏览器兼容：
强制CKEditor使用iframe模式以避免国产浏览器渲染问题：
```
config:{iframe:true,skin:'moono-lisa'// 兼容低版本Linux桌面}
```

四、综合评估与成本

项目	方案	成本（万元）
商业插件授权	TinyMCE买断（5年）	45
自定义开发	人力成本（3人×2月×2.5万/月）	15
信创测试	麒麟/统信UOS兼容性认证	3
总计	58

最终决策：
选择自定义开发，原因如下：

商业插件无法完全满足信创和二进制存储需求。
一次性买断成本接近预算上限，且后续扩展性受限。
自定义方案可复用至其他政府项目，长期ROI更高。

五、后续计划

压力测试：模拟1000+并发用户上传文档。
多云支持：抽象OBS SDK为接口，未来无缝切换阿里云/AWS。
信创认证：提交麒麟/统信UOS官方兼容性证书申请。

（记录人：XXX，广东某集团公司项目部）

复制插件

说明：此教程以CKEditor4.x为例，使用其他编辑器的查看对应教程。
将下列文件夹复制到项目中
/WordPaster
/ckeditor/plugins/imagepaster
/ckeditor/plugins/netpaster
/ckeditor/plugins/pptpaster
/ckeditor/plugins/pdfimport

上传插件

上传插件文件夹

将imagepaster,netpaster文件夹上传到现有项目ckeditor/plugins目录中

在工具栏中增加插件按钮

引用js

初始化控件

WordPaster.getInstance({//上传接口：http://www.ncmem.com/doc/view.aspx?id=d88b60a2b0204af1ba62fa66288203edPostUrl:api,//为图片地址增加域名：http://www.ncmem.com/doc/view.aspx?id=704cd302ebd346b486adf39cf4553936ImageUrl:"",//设置文件字段名称：http://www.ncmem.com/doc/view.aspx?id=c3ad06c2ae31454cb418ceb2b8da7c45FileFieldName:"file",//提取图片地址：http://www.ncmem.com/doc/view.aspx?id=07e3f323d22d4571ad213441ab8530d1ImageMatch:'',Cookie:'PHPSESSID='});//加载控件

配置上传接口

注意

1.如果接口字段名称不是file，请配置FileFieldName。ueditor接口中使用的upfile字段

点击查看详细教程

配置ImageMatch

用于匹配JSON数据，

点击查看详细教程

配置ImageUrl

用于为图片增加域名前缀

点击查看详细教程

配置Session

如果接口有权限验证（登陆验证，SESSION验证），请配置COOKIE。或取消权限验证。
参考：点击查看详细教程

说明

1.请先测试您的接口：点击查看详细教程

功能演示

编辑器界面

导入Word文档,支持doc,docx

导入Excel文档,支持xls,xlsx

粘贴Word

一键粘贴Word内容，自动上传Word中的图片，保留文字样式。

Word转图片

一键导入Word文件，并将Word文件转换成图片上传到服务器中。

导入PDF

一键导入PDF文件，并将PDF转换成图片上传到服务器中。

导入PPT

一键导入PPT文件，并将PPT转换成图片上传到服务器中。

上传网络图片

一键自动上传网络图片，自动下载远程服务器图片，自动上传远程服务器图片

下载示例

点击下载完整示例

CKEditor导入PPT文档并提取图片组件