永中首页 | 产品聚焦 | 销售渠道 | 服务支持 | 教育专栏 | 二次开发 | 在线订购 | 产品注册 | 免费下载 | 新闻中心 | 关于永中 | 永中未来星
发新话题
打印

我单位的文件交换希望加入对eio文件的全文检索(lucene),求eio转text的例程

我单位的文件交换希望加入对eio文件的全文检索(lucene),求eio转text的例程

改造以前的oa系统,现在已经加入了对pdf和doc的lucene检索,
虽然现在使用永中的用户不多,但希望加入对eio的支持。
如题。

java环境.

TOP

最好是提供类似pdfbox的方式。
Document doc = LucenePDFDocument.getDocument()
Document doc = LuceneMSWORDDocument.getDocument()
我的数据都是放在数据库里面的。

TOP

//获得当前集成文件
Workbook activeBook = Application.getWorkbooks().getActiveWorkbook();
//获得当前字处理文档
Document doc = activeBook.getDocuments().getActiveDocument();
//获得正文
BaseText bText = doc.getSection(0).getBaseText();
//获得正文结束位置
int end = bText.getEndOffset();
//获得正文中的文字
String text = bText.getText(0, end);
繁华荣景得失处,一饮一啄皆是果

TOP

非常感谢。

TOP

研究了半天,连个文件我都开不了。
难道一定要
Application.getApplicationInstance();
才能用
workbooks.openWorkbook("/home/abc/tmp/2006.eio");
吗?
我的服务器上不可能需要这个图形界面啊。

TOP

呵呵,不太明白你的需求,能详细点吗?
繁华荣景得失处,一饮一啄皆是果

TOP

您终于来了。
首先感谢您。
1:我的所有文件(doc,pdf,txt)对存放在数据库里面
2:我写了个索引程序将他们以流读取出来,根据不同的文件类型选择不同的程序将其转换成txt格式然后将txt的内容交给lucene写入lucene的索引。
3:这样用户的文件就可以通过我的查询页面对数据库中的文件全文检索。

现在pdfbox有专门支持lucene的Document doc = LucenePDFDocument.getDocument()类
我根据poi的hwpf写了自己的Document doc = LuceneMSWORDDocument.getDocument()类
现在需要在服务器端用java代码将eio格式的文件中的文字转为txt,这样lucene就能对文件内容全文索引了。

如果没有这个转换程序,lucene就读不出eio文件的内容,就不能全文检索了。
另外我很喜欢永中的。也很喜欢无锡(江南大学是我的母校)。

TOP

简单说就是
我需要用servlet来读取eio格式的文件内容,而不是用applet。

TOP

目标是完成服务器端的文件全文检索,通过检索的结果向用户提供正确的文件。

TOP

不支持?

TOP

关注中... ...

TOP

看来要等到春节后才有答复了。

TOP

我的工作qq是:295042014。有问题找我。谢谢关注永中。

TOP

行就行,不行就不行,搞得这么神秘。
用户经常需要另存pdf或者doc格式的话,就算用上正版的永中也会被盗版的msoffice代替。
搞staroffice去了。
:mad:

TOP

发新话题