Search/Lucene/Index/SegmentInfo.php

category: Zend
copyright: Copyright (c) 2005-2010 Zend Technologies USA Inc. (http://www.zend.com)
license: http://framework.zend.com/license/new-bsd New BSD License
package: Zend_Search_Lucene
subpackage: Index
version: $Id: SegmentInfo.php 22988 2010-09-21 10:53:41Z alexander $
Classes: Zend_Search_Lucene_Index_SegmentInfo

Description

Zend Framework

LICENSE

This source file is subject to the new BSD license that is bundled with this package in the file LICENSE.txt. It is also available through the world-wide-web at this URL: http://framework.zend.com/license/new-bsd If you did not receive a copy of the license and are unable to obtain it through the world-wide-web, please send an email to license@zend.com so we can send you a copy immediately.

Zend_Search_Lucene_Index_SegmentInfo
jump to top

Implements: Zend_Search_Lucene_Index_TermsStream_Interface
category: Zend
copyright: Copyright (c) 2005-2010 Zend Technologies USA Inc. (http://www.zend.com)
license: http://framework.zend.com/license/new-bsd New BSD License
package: Zend_Search_Lucene
subpackage: Index
Constants: FULL_SCAN_VS_FETCH_BOUNDARY; SM_TERMS_ONLY; SM_FULL_INFO; SM_MERGE_INFO
Properties: $_docCount; $_name; $_termDictionary; $_termDictionaryInfos; $_fields; $_fieldsDicPositions; $_segFiles; $_segFileSizes; $_delGen; $_hasSingleNormFile; $_isCompound; $_directory; $_norms; $_deleted; $_deletedDirty; $_usesSharedDocStore; $_sharedDocStoreOptions; $_termInfoCache; $_tisFile; $_tisFileOffset; $_frqFile; $_frqFileOffset; $_prxFile; $_prxFileOffset; $_termCount; $_termNum; $_indexInterval; $_skipInterval; $_lastTermInfo; $_lastTerm; $_docMap; $_lastTermPositions; $_termsScanMode
Methods: __construct; _loadDelFile; _loadPre21DelFile; _load21DelFile; openCompoundFile; compoundFileLength; getFieldNum; getField; getFields; getFieldInfos; getDelGen; count; _deletedCount; numDocs; _getFieldPosition; getName; _cleanUpTermInfoCache; _loadDictionaryIndex; getTermInfo; termDocs; termFreqs; termPositions; _loadNorm; norm; normVector; hasDeletions; hasSingleNormFile; isCompound; delete; isDeleted; _detectLatestDelGen; writeChanges; resetTermsStream; skipTo; nextTerm; closeTermsStream; currentTerm; currentTermPositions

Description

Constants

FULL_SCAN_VS_FETCH_BOUNDARY
jump to class

 FULL_SCAN_VS_FETCH_BOUNDARY = '5'

"Full scan vs fetch" boundary.

If filter selectivity is less than this value, then full scan is performed (since term entries fetching has some additional overhead).

Details

value: 5

SM_TERMS_ONLY
jump to class

 SM_TERMS_ONLY = '0'

Scan modes

Details

value: 0

SM_FULL_INFO
jump to class

 SM_FULL_INFO = '1'

Details

value: 1

SM_MERGE_INFO
jump to class

 SM_MERGE_INFO = '2'

Details

value: 2

Properties

$_delGen
jump to class

integer $_delGen = ''

Delete file generation number

-2 means autodetect latest delete generation -1 means 'there is no delete file' 0 means pre-2.1 format delete file X specifies used delete file

Details

$_delGen: integer
visibility: private
default
final: false
static: false

$_deleted
jump to class

mixed $_deleted = 'null'

List of deleted documents.

bitset if bitset extension is loaded or array otherwise.

Details

$_deleted: mixed
visibility: private
default: null
final: false
static: false

$_deletedDirty
jump to class

boolean $_deletedDirty = 'false'

$this->_deleted update flag

Details

$_deletedDirty: boolean
visibility: private
default: false
final: false
static: false

$_directory
jump to class

Zend_Search_Lucene_Storage_Directory_Filesystem $_directory = ''

File system adapter.

Details

$_directory: Zend_Search_Lucene_Storage_Directory_Filesystem
visibility: private
default
final: false
static: false

$_docCount
jump to class

integer $_docCount = ''

Number of docs in a segment

Details

$_docCount: integer
visibility: private
default
final: false
static: false

$_docMap
jump to class

array|null $_docMap = 'null'

Map of the document IDs Used to get new docID after removing deleted documents.

It's not very effective from memory usage point of view, but much more faster, then other methods

Details

$_docMap: array|null
visibility: private
default: null
final: false
static: false

$_fields
jump to class

array $_fields = ''

Segment fields. Array of Zend_Search_Lucene_Index_FieldInfo objects for this segment

Details

$_fields: array
visibility: private
default
final: false
static: false

$_fieldsDicPositions
jump to class

array $_fieldsDicPositions = ''

Field positions in a dictionary.

(Term dictionary contains filelds ordered by names)

Details

$_fieldsDicPositions: array
visibility: private
default
final: false
static: false

$_frqFile
jump to class

Zend_Search_Lucene_Storage_File $_frqFile = 'null'

Frequencies File object for stream like terms reading

Details

$_frqFile: Zend_Search_Lucene_Storage_File
visibility: private
default: null
final: false
static: false

$_frqFileOffset
jump to class

integer $_frqFileOffset = ''

Actual offset of the .frq file data

Details

$_frqFileOffset: integer
visibility: private
default
final: false
static: false

$_hasSingleNormFile
jump to class

boolean $_hasSingleNormFile = ''

Segment has single norms file

If true then one .nrm file is used for all fields Otherwise .fN files are used

Details

$_hasSingleNormFile: boolean
visibility: private
default
final: false
static: false

$_indexInterval
jump to class

integer $_indexInterval = ''

Segment index interval

Details

$_indexInterval: integer
visibility: private
default
final: false
static: false

$_isCompound
jump to class

boolean $_isCompound = ''

Use compound segment file (*.cfs) to collect all other segment files (excluding .del files)

Details

$_isCompound: boolean
visibility: private
default
final: false
static: false

$_lastTerm
jump to class

Zend_Search_Lucene_Index_Term $_lastTerm = 'null'

Last Term in a terms stream

Details

$_lastTerm: Zend_Search_Lucene_Index_Term
visibility: private
default: null
final: false
static: false

$_lastTermInfo
jump to class

Zend_Search_Lucene_Index_TermInfo $_lastTermInfo = 'null'

Last TermInfo in a terms stream

Details

$_lastTermInfo: Zend_Search_Lucene_Index_TermInfo
visibility: private
default: null
final: false
static: false

$_lastTermPositions
jump to class

array|null $_lastTermPositions = ''

An array of all term positions in the documents.

Array structure: array( docId => array( pos1, pos2, ...), ...)

Is set to null if term positions loading has to be skipped

Details

$_lastTermPositions: array|null
visibility: private
default
final: false
static: false

$_name
jump to class

string $_name = ''

Segment name

Details

$_name: string
visibility: private
default
final: false
static: false

$_norms
jump to class

array $_norms = 'array'

Normalization factors.

An array fieldName => normVector normVector is a binary string. Each byte corresponds to an indexed document in a segment and encodes normalization factor (float value, encoded by Zend_Search_Lucene_Search_Similarity::encodeNorm())

Details

$_norms: array
visibility: private
default: array
final: false
static: false

$_prxFile
jump to class

Zend_Search_Lucene_Storage_File $_prxFile = 'null'

Positions File object for stream like terms reading

Details

$_prxFile: Zend_Search_Lucene_Storage_File
visibility: private
default: null
final: false
static: false

$_prxFileOffset
jump to class

integer $_prxFileOffset = ''

Actual offset of the .prx file in the compound file

Details

$_prxFileOffset: integer
visibility: private
default
final: false
static: false

$_segFileSizes
jump to class

array $_segFileSizes = ''

Associative array where the key is the file name and the value is file size (.csf).

Details

$_segFileSizes: array
visibility: private
default
final: false
static: false

$_segFiles
jump to class

array $_segFiles = ''

Associative array where the key is the file name and the value is data offset in a compound segment file (.csf).

Details

$_segFiles: array
visibility: private
default
final: false
static: false

$_sharedDocStoreOptions
jump to class

$_sharedDocStoreOptions = ''

Details

visibility: private
default
final: false
static: false

$_skipInterval
jump to class

integer $_skipInterval = ''

Segment skip interval

Details

$_skipInterval: integer
visibility: private
default
final: false
static: false

$_termCount
jump to class

integer $_termCount = '0'

Actual number of terms in term stream

Details

$_termCount: integer
visibility: private
default: 0
final: false
static: false

$_termDictionary
jump to class

array $_termDictionary = ''

Term Dictionary Index

Array of arrays (Zend_Search_Lucene_Index_Term objects are represented as arrays because of performance considerations) [0] -> $termValue [1] -> $termFieldNum

Corresponding Zend_Search_Lucene_Index_TermInfo object stored in the $_termDictionaryInfos

Details

$_termDictionary: array
visibility: private
default
final: false
static: false

$_termDictionaryInfos
jump to class

array $_termDictionaryInfos = ''

Term Dictionary Index TermInfos

Array of arrays (Zend_Search_Lucene_Index_TermInfo objects are represented as arrays because of performance considerations) [0] -> $docFreq [1] -> $freqPointer [2] -> $proxPointer [3] -> $skipOffset [4] -> $indexPointer

Details

$_termDictionaryInfos: array
visibility: private
default
final: false
static: false

$_termInfoCache
jump to class

array $_termInfoCache = 'array'

TermInfo cache

Size is 1024. Numbers are used instead of class constants because of performance considerations

Details

$_termInfoCache: array
visibility: private
default: array
final: false
static: false

$_termNum
jump to class

integer $_termNum = '0'

Overall number of terms in term stream

Details

$_termNum: integer
visibility: private
default: 0
final: false
static: false

$_termsScanMode
jump to class

integer $_termsScanMode = ''

Terms scan mode

Values:

self::SM_TERMS_ONLY - terms are scanned, no additional info is retrieved self::SM_FULL_INFO - terms are scanned, frequency and position info is retrieved self::SM_MERGE_INFO - terms are scanned, frequency and position info is retrieved document numbers are compacted (shifted if segment has deleted documents)

Details

$_termsScanMode: integer
visibility: private
default
final: false
static: false

$_tisFile
jump to class

Zend_Search_Lucene_Storage_File $_tisFile = 'null'

Term Dictionary File object for stream like terms reading

Details

$_tisFile: Zend_Search_Lucene_Storage_File
visibility: private
default: null
final: false
static: false

$_tisFileOffset
jump to class

integer $_tisFileOffset = ''

Actual offset of the .tis file data

Details

$_tisFileOffset: integer
visibility: private
default
final: false
static: false

$_usesSharedDocStore
jump to class

boolean $_usesSharedDocStore = ''

True if segment uses shared doc store

Details

$_usesSharedDocStore: boolean
visibility: private
default
final: false
static: false

Methods

__construct
jump to class

__construct(
          Zend_Search_Lucene_Storage_Directory $directory, string $name, integer $docCount, integer $delGen
              =
              0, array|null $docStoreOptions
              =
              null, boolean $hasSingleNormFile
              =
              false, boolean $isCompound
              =
              null
          )
        
        :

Zend_Search_Lucene_Index_SegmentInfo constructor

Arguments

$directory: Zend_Search_Lucene_Storage_Directory
$name: string
$docCount: integer
$delGen: integer
$docStoreOptions: arraynull
$hasSingleNormFile: boolean
$isCompound: boolean

Details

visibility: public
final: false
static: false

_cleanUpTermInfoCache
jump to class

_cleanUpTermInfoCache(
          
          )
        
        :

Details

visibility: private
final: false
static: false

_deletedCount
jump to class

_deletedCount(
          
          )
        
        :
        integer

Returns number of deleted documents.

Output

integer

Details

visibility: private
final: false
static: false

_detectLatestDelGen
jump to class

_detectLatestDelGen(
          
          )
        
        :
        integer

Detect latest delete generation

Is actualy used from writeChanges() method or from the constructor if it's invoked from Index writer. In both cases index write lock is already obtained, so we shouldn't care about it

Output

integer

Details

visibility: private
final: false
static: false

_getFieldPosition
jump to class

_getFieldPosition(
          integer $fieldNum
          )
        
        :
        integer

Get field position in a fields dictionary

Arguments

$fieldNum: integer

Output

integer

Details

visibility: private
final: false
static: false

_load21DelFile
jump to class

_load21DelFile(
          
          )
        
        :
        mixed

Load 2.1+ format detetions file

Returns bitset or an array depending on bitset extension availability

Output

mixed

Details

visibility: private
final: false
static: false

_loadDelFile
jump to class

_loadDelFile(
          
          )
        
        :
        mixed

Load detetions file

Returns bitset or an array depending on bitset extension availability

Output

mixed

Details

visibility: private
final: false
static: false
throws

_loadDictionaryIndex
jump to class

_loadDictionaryIndex(
          
          )
        
        :

Load terms dictionary index

Details

visibility: private
final: false
static: false
throws

_loadNorm
jump to class

_loadNorm(
          integer $fieldNum
          )
        
        :

Load normalizatin factors from an index file

Arguments

$fieldNum: integer

Details

visibility: private
final: false
static: false
throws

_loadPre21DelFile
jump to class

_loadPre21DelFile(
          
          )
        
        :
        mixed

Load pre-2.1 detetions file

Returns bitset or an array depending on bitset extension availability

Output

mixed

Details

visibility: private
final: false
static: false
throws

closeTermsStream
jump to class

closeTermsStream(
          
          )
        
        :

Close terms stream

Should be used for resources clean up if stream is not read up to the end

Details

visibility: public
final: false
static: false

compoundFileLength
jump to class

compoundFileLength(
          string $extension
          )
        
        :
        integer

Get compound file length

Arguments

$extension: string

Output

integer

Details

visibility: public
final: false
static: false

count
jump to class

count(
          
          )
        
        :
        integer

Returns the total number of documents in this segment (including deleted documents).

Output

integer

Details

visibility: public
final: false
static: false

currentTerm
jump to class

currentTerm(
          
          )
        
        :
        Zend_Search_Lucene_Index_Term|null

Returns term in current position

Output

Zend_Search_Lucene_Index_Term|null

Details

visibility: public
final: false
static: false

currentTermPositions
jump to class

currentTermPositions(
          
          )
        
        :
        array

Returns an array of all term positions in the documents.

Return array structure: array( docId => array( pos1, pos2, ...), ...)

Output

array

Details

visibility: public
final: false
static: false

delete
jump to class

delete(
           $id
          )
        
        :

Deletes a document from the index segment.

$id is an internal document id

Arguments

$id: integer

Details

visibility: public
final: false
static: false

getDelGen
jump to class

getDelGen(
          
          )
        
        :
        integer

Returns actual deletions file generation number.

Output

integer

Details

visibility: public
final: false
static: false

getField
jump to class

getField(
          integer $fieldNum
          )
        
        :
        Zend_Search_Lucene_Index_FieldInfo

Returns field info for specified field

Arguments

$fieldNum: integer

Output

Zend_Search_Lucene_Index_FieldInfo

Details

visibility: public
final: false
static: false

getFieldInfos
jump to class

getFieldInfos(
          
          )
        
        :
        array

Returns array of FieldInfo objects.

Output

array

Details

visibility: public
final: false
static: false

getFieldNum
jump to class

getFieldNum(
          string $fieldName
          )
        
        :
        integer

Returns field index or -1 if field is not found

Arguments

$fieldName: string

Output

integer

Details

visibility: public
final: false
static: false

getFields
jump to class

getFields(
          boolean $indexed
              =
              false
          )
        
        :
        array

Returns array of fields.

if $indexed parameter is true, then returns only indexed fields.

Arguments

$indexed: boolean

Output

array

Details

visibility: public
final: false
static: false

getName
jump to class

getName(
          
          )
        
        :
        string

Return segment name

Output

string

Details

visibility: public
final: false
static: false

getTermInfo
jump to class

getTermInfo(
          Zend_Search_Lucene_Index_Term $term
          )
        
        :
        Zend_Search_Lucene_Index_TermInfo

Scans terms dictionary and returns term info

Arguments

$term: Zend_Search_Lucene_Index_Term

Output

Zend_Search_Lucene_Index_TermInfo

Details

visibility: public
final: false
static: false

hasDeletions
jump to class

hasDeletions(
          
          )
        
        :
        boolean

Returns true if any documents have been deleted from this index segment.

Output

boolean

Details

visibility: public
final: false
static: false

hasSingleNormFile
jump to class

hasSingleNormFile(
          
          )
        
        :
        boolean

Returns true if segment has single norms file.

Output

boolean

Details

visibility: public
final: false
static: false

isCompound
jump to class

isCompound(
          
          )
        
        :
        boolean

Returns true if segment is stored using compound segment file.

Output

boolean

Details

visibility: public
final: false
static: false

isDeleted
jump to class

isDeleted(
           $id
          )
        
        :
        boolean

Checks, that document is deleted

Arguments

$id: integer

Output

boolean

Details

visibility: public
final: false
static: false

nextTerm
jump to class

nextTerm(
          
          )
        
        :
        Zend_Search_Lucene_Index_Term|null

Scans terms dictionary and returns next term

Output

Zend_Search_Lucene_Index_Term|null

Details

visibility: public
final: false
static: false

norm
jump to class

norm(
          integer $id, string $fieldName
          )
        
        :
        float

Returns normalization factor for specified documents

Arguments

$id: integer
$fieldName: string

Output

float

Details

visibility: public
final: false
static: false

normVector
jump to class

normVector(
          string $fieldName
          )
        
        :
        string

Returns norm vector, encoded in a byte string

Arguments

$fieldName: string

Output

string

Details

visibility: public
final: false
static: false

numDocs
jump to class

numDocs(
          
          )
        
        :
        integer

Returns the total number of non-deleted documents in this segment.

Output

integer

Details

visibility: public
final: false
static: false

openCompoundFile
jump to class

openCompoundFile(
          string $extension, boolean $shareHandler
              =
              true
          )
        
        :
        Zend_Search_Lucene_Storage_File

Opens index file stoted within compound index file

Arguments

$extension: string
$shareHandler: boolean

Output

Zend_Search_Lucene_Storage_File

Details

visibility: public
final: false
static: false
throws

resetTermsStream
jump to class

resetTermsStream(
          
          )
        
        :
        integer

Reset terms stream

$startId - id for the fist document $compact - remove deleted documents

Returns start document id for the next segment

Output

integer

Details

visibility: public
final: false
static: false
throws

skipTo
jump to class

skipTo(
          Zend_Search_Lucene_Index_Term $prefix
          )
        
        :

Skip terms stream up to the specified term preffix.

Prefix contains fully specified field info and portion of searched term

Arguments

$prefix: Zend_Search_Lucene_Index_Term

Details

visibility: public
final: false
static: false
throws

termDocs
jump to class

termDocs(
          Zend_Search_Lucene_Index_Term $term, integer $shift
              =
              0, Zend_Search_Lucene_Index_DocsFilter|null $docsFilter
              =
              null
          )
        
        :
        array

Returns IDs of all the documents containing term.

Arguments

$term: Zend_Search_Lucene_Index_Term
$shift: integer
$docsFilter: Zend_Search_Lucene_Index_DocsFilternull

Output

array

Details

visibility: public
final: false
static: false

termFreqs
jump to class

termFreqs(
          Zend_Search_Lucene_Index_Term $term, integer $shift
              =
              0, Zend_Search_Lucene_Index_DocsFilter|null $docsFilter
              =
              null
          )
        
        :
        Zend_Search_Lucene_Index_TermInfo

Returns term freqs array.

Result array structure: array(docId => freq, ...)

Arguments

$term: Zend_Search_Lucene_Index_Term
$shift: integer
$docsFilter: Zend_Search_Lucene_Index_DocsFilternull

Output

Zend_Search_Lucene_Index_TermInfo

Details

visibility: public
final: false
static: false

termPositions
jump to class

termPositions(
          Zend_Search_Lucene_Index_Term $term, integer $shift
              =
              0, Zend_Search_Lucene_Index_DocsFilter|null $docsFilter
              =
              null
          )
        
        :
        Zend_Search_Lucene_Index_TermInfo

Returns term positions array.

Result array structure: array(docId => array(pos1, pos2, ...), ...)

Arguments

$term: Zend_Search_Lucene_Index_Term
$shift: integer
$docsFilter: Zend_Search_Lucene_Index_DocsFilternull

Output

Zend_Search_Lucene_Index_TermInfo

Details

visibility: public
final: false
static: false

writeChanges
jump to class

writeChanges(
          
          )
        
        :

Write changes if it's necessary.

This method must be invoked only from the Writer _updateSegments() method, so index Write lock has to be already obtained.

Details

visibility: public
final: false
static: false
internal
throws

API Documentation

Search/Lucene/Index/SegmentInfo.php

Description

Zend_Search_Lucene_Index_SegmentInfojump to top

Description

Constants

FULL_SCAN_VS_FETCH_BOUNDARYjump to class

Details

SM_TERMS_ONLYjump to class

Details

SM_FULL_INFOjump to class

Details

SM_MERGE_INFOjump to class

Details

Properties

$_delGenjump to class

Details

$_deletedjump to class

Details

$_deletedDirtyjump to class

Details

$_directoryjump to class

Details

$_docCountjump to class

Details

$_docMapjump to class

Details

$_fieldsjump to class

Details

$_fieldsDicPositionsjump to class

Details

$_frqFilejump to class

Details

$_frqFileOffsetjump to class

Details

$_hasSingleNormFilejump to class

Details

$_indexIntervaljump to class

Details

$_isCompoundjump to class

Details

$_lastTermjump to class

Details

$_lastTermInfojump to class

Details

$_lastTermPositionsjump to class

Details

$_namejump to class

Details

$_normsjump to class

Details

$_prxFilejump to class

Details

$_prxFileOffsetjump to class

Details

$_segFileSizesjump to class

Details

$_segFilesjump to class

Details

$_sharedDocStoreOptionsjump to class

Details

$_skipIntervaljump to class

Details

$_termCountjump to class

Details

$_termDictionaryjump to class

Details

$_termDictionaryInfosjump to class

Details

$_termInfoCachejump to class

Details

$_termNumjump to class

Details

$_termsScanModejump to class

Details

$_tisFilejump to class

Details

$_tisFileOffsetjump to class

Details

$_usesSharedDocStorejump to class

Zend_Search_Lucene_Index_SegmentInfo
jump to top

FULL_SCAN_VS_FETCH_BOUNDARY
jump to class

SM_TERMS_ONLY
jump to class

SM_FULL_INFO
jump to class

SM_MERGE_INFO
jump to class

$_delGen
jump to class

$_deleted
jump to class

$_deletedDirty
jump to class

$_directory
jump to class

$_docCount
jump to class

$_docMap
jump to class

$_fields
jump to class

$_fieldsDicPositions
jump to class

$_frqFile
jump to class

$_frqFileOffset
jump to class

$_hasSingleNormFile
jump to class

$_indexInterval
jump to class

$_isCompound
jump to class

$_lastTerm
jump to class

$_lastTermInfo
jump to class

$_lastTermPositions
jump to class

$_name
jump to class

$_norms
jump to class

$_prxFile
jump to class

$_prxFileOffset
jump to class

$_segFileSizes
jump to class

$_segFiles
jump to class

$_sharedDocStoreOptions
jump to class

$_skipInterval
jump to class

$_termCount
jump to class

$_termDictionary
jump to class

$_termDictionaryInfos
jump to class

$_termInfoCache
jump to class

$_termNum
jump to class

$_termsScanMode
jump to class

$_tisFile
jump to class

$_tisFileOffset
jump to class

$_usesSharedDocStore
jump to class

__construct
jump to class

_cleanUpTermInfoCache
jump to class

_deletedCount
jump to class

_detectLatestDelGen
jump to class

_getFieldPosition
jump to class

_load21DelFile
jump to class

_loadDelFile
jump to class

_loadDictionaryIndex
jump to class

_loadNorm
jump to class

_loadPre21DelFile
jump to class

closeTermsStream
jump to class

compoundFileLength
jump to class

count
jump to class

currentTerm
jump to class

currentTermPositions
jump to class

delete
jump to class

getDelGen
jump to class

getField
jump to class

getFieldInfos
jump to class

getFieldNum
jump to class

getFields
jump to class

getName
jump to class