您好,登錄后才能下訂單哦!
項目需求,對上傳的文檔進行一些預處理,如果用戶上傳了doc格式的文檔,需要將其處理為docx或者pdf格式,以便后續(xù)的流程對文檔內(nèi)容進行提取。
先是試了一下phpoffice/phpword
這個包,發(fā)現(xiàn)其對doc的轉(zhuǎn)換很不理想,這個包更適合用來根據(jù)內(nèi)容生成文檔,而不是轉(zhuǎn)換文檔,不是太適合我這種需求。
然后發(fā)現(xiàn)了LibreOffice這個開源工具,經(jīng)過使用,效果很好,分享一下。
服務器是CentOS7,直接使用yum安裝LibreOffice,大概需要600MB+ 的磁盤空間:
# 裝之前可以先刪除一下,防止之前裝過 yum remove libreoffice-* yum install libreoffice
等待安裝完成后,確認一下版本啥的,雖然官方已經(jīng)到6.1版本了,yum里面還是5.3.6的包,不過用起來并沒有什么毛病,在這里我還是建議大家使用各自的Linux系統(tǒng)的包管理工具來安裝,這樣可以省去很多麻煩的。
[root@localhost /]# soffice --version LibreOffice 5.3.6.1 30(Build:1)
不會用的話可以使用soffice --help看一下幫助,非常多的參數(shù)和使用案例,轉(zhuǎn)換格式就很簡單:
soffice --headless --convert-to docx /opt/upload/source/123.doc --outdir /opt/upload/source
以上的命令就是將/opt/upload/source/123.doc
文件轉(zhuǎn)換成docx格式,輸出到/opt/upload/source
文件夾里。
默認情況下:
轉(zhuǎn)換成功會輸出類似這樣的:
convert /opt/upload/source/123.doc -> /opt/upload/source/123.docx using filter : MS Word 2007 XML Overwriting: /opt/upload/source/123.docx
LibreOffice會根據(jù)文件格式自動匹配格式過濾器(filter),至于它支持哪些格式,可以參考一下官網(wǎng)。
總結(jié)
以上所述是小編給大家介紹的CentOS下使用LibreOffice實現(xiàn)文檔格式的轉(zhuǎn)換方式,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對億速云網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉(zhuǎn)載,煩請注明出處,謝謝!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。