Lucene入门之增删改查
文章来源:诗丹 时间:2025-03-11
Lucene是apache硬件基金会4 jakarta名目组的1身材名目,是1个开启源代码的齐文检索引擎对象包,便它没有是1个完备的齐文检索引擎,而是1个齐文检索引擎的架构,供给了完备的盘问引擎战索引引擎,一面文天职析引擎(英文取德文二种东方措辞)。Lucene的目标是为硬件开辟职员供给1个复杂易用的对象包,以省事的正在方针体系中完毕齐文检索的性能,大概所以此为底子创立起完备的齐文检索引擎。
原示例真用junit去尝试,应用了3.5.0版原,真用Maven去引进,POM文献:
<projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.javacui.lucene</groupId><artifactId>zlucene</artifactId><version>1.0</version><packaging>jar</packaging><name>zlucene</name><url>http://maven.apache.org</url><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding></properties><dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.7</version></dependency><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-core</artifactId><version>3.5.0</version></dependency><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-analyzers</artifactId><version>3.5.0</version></dependency><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-highlighter</artifactId><version>3.5.0</version></dependency><dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version></dependency></dependencies></project>创立索引的步调
1.制造Directory
2.创制IndexWriter
3.创办Document对于象
4.为Document加添Field
Directory是寄存索引的地位,是1个公用的对于象,因此写正在始初化内里。
privatestaticDirectorydirectory=null;@Beforepublicvoidinit()throwsException{directory=FSDirectory.open(newFile("D:/tmp/lucene"));}假设是正在内乱存中创立,真用以停代码:
Directorydirectory=newRAMDirectory();而后编写加添索引的代码
@TestpublicvoidcreateIndex()throwsException{IndexWriterConfigiwc=newIndexWriterConfig(Version.LUCENE_35,newStandardAnalyzer(Version.LUCENE_35));IndexWriterwriter=null;writer=newIndexWriter(directory,iwc);Documentdoc=null;Filef=newFile("D:/data/test");for(Filefile:f.listFiles()){doc=newDocument();doc.add(newField("context",newFileReader(file)));doc.add(newField("fileName",file.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED));doc.add(newField("filePath",file.getPath(),Field.Store.YES,Field.Index.NOT_ANALYZED));writer.addDocument(doc);}writer.close();log.debug("运转停止");}那里D:/data/test文献夹停有许多log日记文献,遍历那个目次,把文献的称呼、途径,战内乱容搁到Lucene中。
文档Document战域Field的关联
文档Document相称于相干表中的每笔记录,域相等于表中的每个字段,先创制文档,以后为文档加添域.
域保存选项战域索引选项,均须要正在域加添的时分建立
保存域选项
Field.Store.YES表白把那个域中的内乱容完备保存到文献中,简单停止文原的复原
Field.Store.NO透露把那个域中的内乱容没有保存到文献中,然则能够被索引,此时内乱容没法恢复(便没法document.get());
索引域选项
Field.Index.ANALYZED:停止分词战索引,实用于题目战内乱容等
Field.Index.NOT_ANALYZED:停止索引,然则没有停止分词,像身份证号,姓实,ID等,实用于正确索索
Field.Index.ANALYZED_NO_NORMS:停止分词然则没有保存norms疑息,那个norms中包含了缔造索引的技术战权值等疑息
Field.Index.NOT_ANALYZED_NO_NORMS:便没有停止分词也没有保存norms疑息
Field.Index.NO:没有停止索引
最好理论
Field.Index.NOT_ANALYZED_NO_NORMS, Field.Store.YES标记符(主键,文献实),德律风号码,身份证号,姓实,日期
Field.Index.ANALYZED, Field.Store.YES文档题目战纲要
Field.Index.ANALYZED, Field.Store.NO文档注释
Field.Index.NO,Field.Store.YES文档典范,数据库主键(没有停止索引)
Field.Index.NOT_ANALYZED,Field.Store.NO 躲藏关头字
搜罗操纵的步调:
1.创制Directory
2.缔造IndexReader
3.凭据IndexReader建立IndexSearcher
4.创制搜寻的Query
5.凭据Searcher搜寻而且前往TopDocs
6.凭据TopDocs获得ScoreDoc对于象
7.凭据Seacher战ScoreDoc对于象获得详细的Document对于象
8.凭据Document对于象获得须要的值
9.闭关IndexReader
@TestpublicvoidsearchIndex()throwsException{IndexReaderreader=null;IndexSearchersearch=null;reader=IndexReader.open(directory);search=newIndexSearcher(reader);QueryParserparser=newQueryParser(Version.LUCENE_35,"context",newStandardAnalyzer(Version.LUCENE_35));Queryquery=parser.parse("com.lelife.solrclient.job.SyschronizedPromotion");TopDocstds=search.search(query,10);ScoreDoc[]sds=tds.scoreDocs;if(null!=sds&&sds.length>0){for(ScoreDocsd:sds){Documentd=search.doc(sd.doc);log.debug(d.get("fileName")+"["+d.get("filePath")+"]");}}else{log.debug("不婚配的文档");}search.close();reader.close();log.debug("运转停止");}那里看望内乱容中包括com.lelife.solrclient.job.SyschronizedPromotion的文献,并挨印文献称号战地位。
节略文档操纵
减少有多种体例,正确战查问式减少,大概齐删。
@TestpublicvoiddeleteIndex()throwsException{IndexWriterConfigiwc=newIndexWriterConfig(Version.LUCENE_35,newStandardAnalyzer(Version.LUCENE_35));IndexWriterwriter=null;writer=newIndexWriter(directory,iwc);writer.deleteAll();//writer.deleteDocuments(newTerm("fileName","lelifeclient.log"));//QueryParserparser=newQueryParser(Version.LUCENE_35,"context",newStandardAnalyzer(Version.LUCENE_35));//Queryquery=parser.parse("com.lelife.solrclient.job.SyschronizedPromotion");//writer.deleteDocuments(query);writer.close();log.debug("运转停止");}indexWriter.deleteDocuments()文档其实不会彻底被节略,而是保存正在1个归支站中,尔们能够编写盘问类去停止盘查。
以停代码检查以后的索引环境:
@TestpublicvoidshowIndex()throwsException{IndexReaderindexReader=IndexReader.open(directory);log.debug("总保存量:"+indexReader.maxDoc());log.debug("保存的文档数:"+indexReader.numDocs());log.debug("被简略的文档:"+indexReader.numDeletedDocs());}光复被省略的文档:
应用IndexReader能够无效的复兴节略到归支站的文档。
@TestpublicvoidrecoveryIndex()throwsException{IndexReaderindexReader=IndexReader.open(directory,false);indexReader.undeleteAll();indexReader.close();}浑空归支站文档:
倘若要浑空归支站中的内乱容,须要应用IndexWriter中的forceMergeDeletes()办法。
@TestpublicvoidforceDelete()throwsException{IndexWriterConfigindexWriterConfig=newIndexWriterConfig(Version.LUCENE_35,newStandardAnalyzer(Version.LUCENE_35));IndexWriterindexWriter=newIndexWriter(directory,indexWriterConfig);indexWriter.forceMergeDeletes();indexWriter.close();}革新文档:
Luence并不供应革新,那里的革新操纵本来是先省略再加添的掌握开散。
@TestpublicvoidupdateIndex()throwsException{IndexWriterConfigindexWriterConfig=newIndexWriterConfig(Version.LUCENE_35,newStandardAnalyzer(Version.LUCENE_35));IndexWriterindexWriter=newIndexWriter(directory,indexWriterConfig);Documentdoc=null;Filef=newFile("D:/data/test");for(Filefile:f.listFiles()){doc=newDocument();doc.add(newField("context",newFileReader(file)));doc.add(newField("fileName",file.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED));doc.add(newField("filePath",file.getPath(),Field.Store.YES,Field.Index.NOT_ANALYZED));indexWriter.updateDocument(newTerm("fileName",file.getName()),doc);}indexWriter.close();log.debug("运转停止");}停止。
推举您浏览更多相关于“ 初学apacheSolrLucene删修削查 ”的作品
文章推荐
Copyright © 2024-2025 燿动吧 – 知识分享,快乐你我,燿动青春 http://www.yaodong8.com All Rights Reserved 网站地图