Tag Archive: ooxml



Via

其中的rsid信息为revision信息。即记录了不同人的编辑历史版本信息。
作为正式发布版本的OFFICE文档,此信息可以去除。

前两周一直在研究如何用PHP来解析OOXML中的WordprocessingML部分。终于能做到无错和容错的解析以及组合了。将office放到WEB上成为了可能。

不过这个标准已经被废弃了。office2010将推出更加符合规范的标准,希望Microsoft不再写出那么长的文档,story有800页,标签解释5000多页。怪不得欧洲很多国家会抵制这样的标准。

任何技术的发展都不应该脱离这样的轨道:让人们的工作、生活更加方便。而不是炫耀自己的技术的复杂,建立技术壁垒。

http://dev.plutext.org/trac/docx4j

docx4j is our library for unzipping a docx "package", and parsing the WordprocessingML XML to create an in-memory representation in Java.

The library supports all of WordprocessingML, with the exception of math (though there is support for this in subversion). There is also support for the properties parts, and the theme part.

关键词:docx java, Office Open XML, OpenXML, ooxml, WordML, WordprocessingML