]> source.dussan.org Git - jgit.git/log
jgit.git
14 years agoHonor pack.threads and perform delta search in parallel 15/1115/1
Shawn O. Pearce [Sat, 10 Jul 2010 01:15:50 +0000 (18:15 -0700)]
Honor pack.threads and perform delta search in parallel

If we have multiple CPUs available, packing usually goes faster
when each CPU is assigned a slice of the available search space.
The number of threads to use is guessed from the runtime if it
wasn't set by the caller, or wasn't set in the configuration.

Change-Id: If554fd8973db77632a52a0f45377dd6ec13fc220
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoCache small deltas during packing 14/1114/1
Shawn O. Pearce [Sat, 10 Jul 2010 00:19:32 +0000 (17:19 -0700)]
Cache small deltas during packing

PackWriter now caches small deltas, or deltas that are very tiny
compared to their source inputs, so that the writing phase goes
faster by reusing those cached deltas.

The cached data is stored compressed, which usually translates to
a bigger footprint due to deltas being very hard to compress, but
saves time during writing by avoiding the deflate step.  They are
held under SoftReferences so that the JVM GC can clear out deltas
if memory gets very tight.  We would rather continue working and
spend a bit more CPU time during writing than crash due to OOME.

To avoid OutOfMemoryErrors during the caching phase we also trap
OOME and just abort out of the caching.

Because deflateBound() always produces something larger than what
we need to actually store the deflated data, we copy it over into
a new buffer if the actual length doesn't match the buffer length.
When packing jgit.git this saves over 111 KiB in the cache, and is
thus a worthwhile hit on CPU time.

To further save memory we store the inflated size of the delta
(which we need for the object header) in the same field as the
pathHash, as the pathHash is no longer necessary by this phase
of the packing algorithm.

Change-Id: I0da0c600d845e8ec962289751f24e65b5afa56d7
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoImplement delta generation during packing 13/1113/1
Shawn O. Pearce [Fri, 9 Jul 2010 22:16:15 +0000 (15:16 -0700)]
Implement delta generation during packing

PackWriter now produces new deltas if there is not a suitable delta
available for reuse from an existing pack file.  This permits JGit to
send less data on the wire by sending a delta relative to an object
the other side already has, instead of sending the whole object.

The delta searching algorithm is similar in style to what C Git
uses, but apparently has some differences (see below for more on).
Briefly, objects that should be considered for delta compression are
pushed onto a list.  This list is then sorted by a rough similarity
score, which is derived from the path name the object was discovered
at in the repository during object counting.  The list is then
walked in order.

At each position in the list, up to $WINDOW objects prior to it
are attempted as delta bases.  Each object in the window is tried,
and the shortest delta instruction sequence selects the base object.
Some rough rules are used to prevent pathological behavior during
this matching phase, like skipping pairings of objects that are
not similar enough in size.

PackWriter intentionally excludes commits and annotated tags from
this new delta search phase.  In the JGit repository only 28 out
of 2600+ commits can be delta compressed by C Git.  As the commit
count tends to be a fair percentage of the total number of objects
in the repository, and they generally do not delta compress well,
skipping over them can improve performance with little increase in
the output pack size.

Because this implementation was rebuilt from scratch based on my own
memory of how the packing algorithm has evolved over the years in
C Git, PackWriter, DeltaWindow, and DeltaEncoder don't use exactly
the same rules everywhere, and that leads JGit to produce different
(but logically equivalent) pack files.

  Repository | Pack Size (bytes)                | Packing Time
             | JGit     - CGit     = Difference | JGit / CGit
  -----------+----------------------------------+-----------------
   git       | 25094348 - 24322890 = +771458    | 59.434s / 59.133s
   jgit      |  5669515 -  5709046 = - 39531    |  6.654s /  6.806s
   linux-2.6 |     389M -     386M = +3M        |  20m02s / 18m01s

For the above tests pack.threads was set to 1, window size=10,
delta depth=50, and delta and object reuse was disabled for both
implementations.  Both implementations were reading from an already
fully packed repository on local disk.  The running time reported
is after 1 warm-up run of the tested implementation.

PackWriter is writing 771 KiB more data on git.git, 3M more on
linux-2.6, but is actually 39.5 KiB smaller on jgit.git.  Being
larger by less than 0.7% on linux-2.6 isn't bad, nor is taking an
extra 2 minutes to pack.  On the running time side, JGit is at a
major disadvantage because linux-2.6 doesn't fit into the default
WindowCache of 20M, while C Git is able to mmap the entire pack and
have it available instantly in physical memory (assuming hot cache).

CGit also has a feature where it caches deltas that were created
during the compression phase, and uses those cached deltas during
the writing phase.  PackWriter does not implement this (yet),
and therefore must create every delta twice.  This could easily
account for the increased running time we are seeing.

Change-Id: I6292edc66c2e95fbe45b519b65fdb3918068889c
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agodebug-show-packdelta: Dump a pack delta to the console 12/1112/1
Shawn O. Pearce [Fri, 9 Jul 2010 18:59:55 +0000 (11:59 -0700)]
debug-show-packdelta:  Dump a pack delta to the console

This is a horribly crude application, it doesn't even verify that
the object its dumping is delta encoded.  Its method of getting the
delta is pretty abusive to the public PackWriter API, because right
now we don't want to expose the real internal low-level methods
actually required to do this.

Change-Id: I437a17ceb98708b5603a2061126eb251e82f4ed4
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoInitial pack format delta generator 11/1111/1
Shawn O. Pearce [Wed, 7 Jul 2010 15:33:56 +0000 (08:33 -0700)]
Initial pack format delta generator

DeltaIndex is a simple pack style delta generator.  The function works
by creating a compact index of a source buffer's blocks, and then
walking a sliding window along a desired result buffer, searching for
the window in the index.  When a match is found, the window is
stretched to the longest possible length that is common with the
source buffer, and a copy instruction is created.

Rabin's polynomial hash function is used to compute the hash for a
block, permitting efficient sliding of the window in single byte
increments.  The update function to slide one byte originated from
David Mazieres' work in LBFS, and our implementation of the update
step was certainly inspired by the initial work Geert Bosch proposed
for C Git in http://marc.info/?l=git&m=114565424620771&w=2.

To ensure the encoder runs in linear time with respect to the size of
the two input buffers (source and result), the maximum number of
blocks that can share the same position in the index's hashtable is
capped at a constant number.  This prevents bad inputs from causing
the encoder to run in quadratic time, but comes with a penalty of
creating a longer delta due to fewer considered copy positions.

Strange hackery is used to cap the amount of memory used by the index
to be no more than 12 bytes for every 16 bytes of source buffer, no
matter what the JVM per-object overhead is.  This permits an index to
always be no larger than 1.75x the source buffer length, which is an
important feature to support large windows of candidates to match
against while packing.  Here the strange hackery is nothing more than
a manually managed chained hashtable, where pointers are array indexes
into storage arrays rather than object references.

Computation of the hash function for a single fixed sized block is
done through an unrolled loop, where the first 4 iterations have been
manually reduced down to eliminate unnecessary instructions.  The
pattern is derived from ObjectId.equals(byte[], int, byte[], int),
where we have unrolled the loop required to compare two 20 byte
arrays.  Hours of testing with the Sun 1.6 JRE concluded that the
non-obvious "foo[idx + 1]" style of reference is faster than
"foo[idx++]", and so that is what we use here during hashing.

Change-Id: If9fb2a1524361bc701405920560d8ae752221768
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAdd debugging toString() method to ObjectToPack 10/1110/1
Shawn O. Pearce [Fri, 9 Jul 2010 15:53:06 +0000 (08:53 -0700)]
Add debugging toString() method to ObjectToPack

Its useful to know what the flags are or what the base that was
selected is.  Dump these out as part of the object's toString.

Change-Id: I8810067fb8337b08b4fcafd5f9ea3e1e31ca6726
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoMake ObjectToPack clearReuseAsIs signal available to subclasses 09/1109/1
Shawn O. Pearce [Fri, 9 Jul 2010 15:51:47 +0000 (08:51 -0700)]
Make ObjectToPack clearReuseAsIs signal available to subclasses

A subclass may want to use this method to release handles that are
caching reuse information.  Make it protected so they can override
it and update themselves.

Change-Id: I2277a56ad28560d2d2d97961cbc74bc7405a70d4
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoCorrectly classify the compressing objects phase 08/1108/1
Shawn O. Pearce [Fri, 9 Jul 2010 15:04:06 +0000 (08:04 -0700)]
Correctly classify the compressing objects phase

Searching for reuse candidates should be fast compared to actually
doing delta compression.  So pull the progress monitor out of this
phase and rename it back to identify the compressing objects state.

Change-Id: I5eb80919f21c1251e0e3420ff7774126f1f79b27
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRefactor ObjectToPack's delta depth setting 07/1107/1
Shawn O. Pearce [Fri, 9 Jul 2010 14:59:30 +0000 (07:59 -0700)]
Refactor ObjectToPack's delta depth setting

Long ago when PackWriter is first written we thought that the delta
depth could be updated automatically.  But its never used.  Instead
make this a simple standard setter so the caller can more directly
set the delta depth of this object.  This permits us to configure a
depth that takes into account more than just the depth of another
object in this same pack.

Change-Id: I1d71b74f2edd7029b8743a2c13b591098ce8cc8f
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoConfigure core.bigFileThreshold into PackWriter 06/1106/1
Shawn O. Pearce [Fri, 9 Jul 2010 14:57:47 +0000 (07:57 -0700)]
Configure core.bigFileThreshold into PackWriter

C Git's fast-import uses this to determine the maximum file size
that it tries to delta compress, anything equal to or above this
setting is stored with as a whole object with simple deflate.

Define the configuration so we can use it later.

Change-Id: Iea46e787d019a1b6c51135cc73d7688a02e207f5
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAdd doNotDelta flag to ObjectToPack 05/1105/1
Shawn O. Pearce [Fri, 9 Jul 2010 00:19:20 +0000 (17:19 -0700)]
Add doNotDelta flag to ObjectToPack

This flag will later control whether or not PackWriter search for a
delta base for this object.  Edge objects will never get searched,
as the writer won't be outputting them, so they should always have
this flag set on.  Sometime in the future this flag should also be
set for file blobs on file paths that have the "-delta" gitattribute
set in the repository's attributes file.

Change-Id: I6e518e1a6996c8ce00b523727f1b605e400e82c6
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAdd more configuration options to PackWriter 04/1104/1
Shawn O. Pearce [Sat, 10 Jul 2010 02:00:46 +0000 (19:00 -0700)]
Add more configuration options to PackWriter

We now at least import other pack settings like pack.window, which
means we can later use these to control how we search for deltas.

The compression level was fixed to use pack.compression rather than
the loose object core.compression setting.

Change-Id: I72ff6d481c936153ceb6a9e485fa731faf075a9a
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoSave object path hash codes during packing 03/1103/1
Shawn O. Pearce [Fri, 9 Jul 2010 00:14:45 +0000 (17:14 -0700)]
Save object path hash codes during packing

We need to remember these so we can later cluster objects that
have similar file paths near each other as we search for deltas
between them.

Change-Id: I52cb1e4ca15c9c267a2dbf51dd0d795f885f4cf8
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAdd path hash code to ObjectWalk 02/1102/1
Shawn O. Pearce [Fri, 9 Jul 2010 00:11:38 +0000 (17:11 -0700)]
Add path hash code to ObjectWalk

PackWriter wants to categorize objects that are similar in path name,
so blobs that are probably from the same file (or same sort of file)
can be delta compressed against each other.  Avoid converting into
a string by performing the hashing directly against the path buffer
in the tree iterator.

We only hash the last 16 bytes of the path, and we try avoid any
spaces, as we want the suffix of a file such as ".java" to be more
important than the directory it is in, like "src".

Change-Id: I31770ee711526306769a6f534afb19f937e0ba85
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAdd getObjectSize to ObjectReader 01/1101/1
Shawn O. Pearce [Fri, 9 Jul 2010 00:08:55 +0000 (17:08 -0700)]
Add getObjectSize to ObjectReader

This is an informational function used by PackWriter to help it
better organize objects for delta compression.  Storage systems
can implement it to provide up more detailed size information,
or they can simply rely on the default behavior that uses the
ObjectLoader obtained from open.

For local file storage, we can obtain this information faster
through specialized routines that parse a pack object header.

Change-Id: I13a09b4effb71ea5151b51547f7d091564531e58
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAllow TemporaryBuffer.Heap to allocate smaller than 8 KiB 00/1100/1
Shawn O. Pearce [Fri, 9 Jul 2010 17:10:12 +0000 (10:10 -0700)]
Allow TemporaryBuffer.Heap to allocate smaller than 8 KiB

If the heap limit was set to something smaller than 8 KiB, we were
still allocating the full 8 KiB block size, and accepting up to
the amount we allocated by.  Instead actually put a hard cap on
the limit.

Change-Id: Id1da26fde2102e76510b1da4ede8493928a981cc
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoDefine a constant for 127 in DeltaEncoder 99/1099/1
Shawn O. Pearce [Wed, 7 Jul 2010 15:52:46 +0000 (08:52 -0700)]
Define a constant for 127 in DeltaEncoder

The special value 127 here means how many bytes we can put into
a single insert command.  Rather than use the magical value 127,
lets name it to better document the code.

Change-Id: I5a326f4380f6ac87987fa833e9477700e984a88e
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoCap delta copy instructions at 64k 98/1098/1
Shawn O. Pearce [Wed, 7 Jul 2010 15:51:04 +0000 (08:51 -0700)]
Cap delta copy instructions at 64k

Although all modern delta decoders can process copy instructions
with a count as large as 0xffffff (~15.9 MiB), pack version 2 streams
are only supposed to use delta copy instructions up to 64 KiB.

Rewrite our copy instruction encode loop to use the lower 64 KiB
limit, even though modern decoders would support longer copies.

To improve encoding performance we now try to encode up to four full
copy commands in our buffer before we flush it to the stream, but
we don't try to implement full buffering here.  We are just trying
to amortize the virtual method call to the destination stream when
we have to do a large copy.

Change-Id: I9410a16e6912faa83180a9788dc05f11e33fabae
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoFix DeltaEncoder header for objects 128 bytes long 97/1097/1
Shawn O. Pearce [Wed, 7 Jul 2010 15:34:57 +0000 (08:34 -0700)]
Fix DeltaEncoder header for objects 128 bytes long

The encode loop had the wrong condition, objects that are 128 bytes
in size need to have their length encoded as two bytes, not one.

Change-Id: I3bef85f2b774871ba6104042b341749eb8e7595c
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoamend commit: Support large delta packed objects as streams 73/1073/2
Shawn O. Pearce [Wed, 7 Jul 2010 02:38:39 +0000 (19:38 -0700)]
amend commit: Support large delta packed objects as streams

Rename the ByteWindow's inflate() method to setInput.  We have
completely refactored the purpose of this method to be feeding part
(or all) of the window as input to the Inflater, and the actual
inflate activity happens in the caller.

Change-Id: Ie93a5bae0e9e637b5e822d56993ce6b562c6ad15
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoamend commit: Support large loose objects as streams 72/1072/2
Shawn O. Pearce [Wed, 7 Jul 2010 00:29:27 +0000 (17:29 -0700)]
amend commit: Support large loose objects as streams

We need to validate the stream state after the InflaterInputStream
thinks the stream is done.  Git expects a higher level of service from
the Inflater than the InflaterInputStream usually gives, we need to
ensure the embedded CRC is valid, and that there isn't trailing
garbage at the end of the file.

Change-Id: I1c9642a82dbd76b69e607dceccf8b85dc869a3c1
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoImprove description of isBare and NoWorkTreeException 47/1047/3
Shawn O. Pearce [Sat, 3 Jul 2010 00:12:30 +0000 (17:12 -0700)]
Improve description of isBare and NoWorkTreeException

Alex pointed out that my description of a bare repository might be
confusing for some readers.  Reword the description of the error,
and make it consistent throughout the Repository class's API.

Change-Id: I87929ddd3005f578a7022f363270952d1f7f8664
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoamend commit: Refactor repository construction to builder class 46/1046/3
Shawn O. Pearce [Sat, 3 Jul 2010 00:01:40 +0000 (17:01 -0700)]
amend commit: Refactor repository construction to builder class

During code review, Alex raised a few comments about commit
532421d98925 ("Refactor repository construction to builder class").
Due to the size of the related series we aren't going to go back
and rebase in something this minor, so resolve them as a follow-up
commit instead.

Change-Id: Ied52f7a8f7252743353c58d20bfc3ec498933e00
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRemove pointless size test in PackFile decompress 45/1045/2
Shawn O. Pearce [Fri, 2 Jul 2010 23:56:31 +0000 (16:56 -0700)]
Remove pointless size test in PackFile decompress

Now that any large objects are forced through a streaming loader
when its bigger than getStreamFileThreshold(), and that threshold
is pegged at Integer.MAX_VALUE as its largest size, we will never
be able to reach this code path where we threw OutOfMemoryError.

Robin pointed out that we probably should include a message here,
but the code is effectively unreachable, so there isn't any value
in adding a message at this point.

So remove it.

Change-Id: Ie611d005622e38a75537f1350246df0ab89dd500
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAvoid unbounded getCachedBytes during parseAny 44/1044/2
Shawn O. Pearce [Fri, 2 Jul 2010 22:05:32 +0000 (15:05 -0700)]
Avoid unbounded getCachedBytes during parseAny

Since we don't know the type of object we are parsing, we don't
know if its a massive blob, or some small commit or annotated tag.
Avoid pulling the cached bytes until we have checked the type and
decided if we actually need them to continue parsing right now.

This way large blobs which won't fit in memory and would throw
a LargeObjectException don't abort parsing.

Change-Id: Ifb70df5d1c59f616aa20ee88898cb69524541636
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoMake type and size lazy for large delta objects 42/1042/2
Shawn O. Pearce [Fri, 2 Jul 2010 20:12:06 +0000 (13:12 -0700)]
Make type and size lazy for large delta objects

Callers don't necessarily need the getSize() result from a large
delta.  They instead should be always using openStream() or copyTo()
for blobs going to local files, or they should be checking the
result of the constant-time isLarge() method to determine the type
of access they can use on the ObjectLoader.  Avoid inflating the
delta instruction stream twice by delaying the decoding of the size
until after we have created the DeltaStream and decoded the header.

Likewise with the type, callers don't necessarily always need it
to be present in an ObjectLoader.  Delay looking at it as late as
we can, thereby avoiding an ugly O(N^2) loop looking up the type
for every single object in the entire delta chain.

Change-Id: I6487b75b52a5d201d811a8baed2fb4fcd6431320
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse core.streamFileThreshold to set our streaming limit 41/1041/1
Shawn O. Pearce [Fri, 2 Jul 2010 19:41:39 +0000 (12:41 -0700)]
Use core.streamFileThreshold to set our streaming limit

We default this to 1 MiB for now, but we allow users to modify
it through the Repository's configuration file to be a different
value.  A new repository listener is used to identify when the
setting has been updated and trigger a reconfiguration of any
active ObjectReaders.

To prevent a horrible explosion we cap core.streamFileThreshold
at no more than 1/4 of the maximum JVM heap size.  We do this
because we need at least 2 byte arrays equal in size to the
stream threshold for the worst case delta inflation scenario,
and our host application probably also needs some amount of the
heap for their working set size.

Change-Id: I103b3a541dc970bbf1a6d92917a12c5a1ee34d6c
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoSupport large delta packed objects as streams 35/1035/1
Shawn O. Pearce [Fri, 2 Jul 2010 09:19:12 +0000 (02:19 -0700)]
Support large delta packed objects as streams

Very large delta instruction streams, or deltas which use very large
base objects, are now streamed through as large objects rather than
being inflated into a byte array.

This isn't the most efficient way to access delta encoded content, as
we may need to rewind and reprocess the base object when there was a
block moved within the file, but it will at least prevent the JVM from
having its heap explode.

When streaming a delta we have an inflater open for each level in the
delta chain, to inflate the instruction set of the delta, as well as
an inflater for the base level object.  The base object is buffered,
as is the top level delta requested by the application, but we do not
buffer the intermediate delta streams.  This keeps memory usage lower,
so its closer to 1024 bytes per level in the chain, without having an
adverse impact on raw throughput as the top-level buffer gets pushed
down to the lowest stream that has the next region.

Delta instructions transparently collapse here, if the top level does
not copy a region from its base, the base won't materialize that part
from its own base, etc.  This allows us to avoid copying around a lot
of segments which have been deleted from the final version.

Change-Id: I724d45245cebb4bad2deeae7b896fc55b2dd49b3
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoSupport large whole packed objects as streams 34/1034/1
Shawn O. Pearce [Fri, 2 Jul 2010 02:34:21 +0000 (19:34 -0700)]
Support large whole packed objects as streams

Similar to the loose object support, whole packed objects can
now be streamed back to the caller.  The streaming is less
efficient as we copy the data from the cached window array
into the InflaterInputStream's internal buffer, then inflate
it there before returning to the application.

Like with unpacked objects, there is plenty of room for some
optimization, especially for the copyTo method, where we don't
necessarily need so much buffering to exist.

Change-Id: Ie23be81289e37e24b91d17b0891e47b9da988008
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoReplace PackedObjectLoader with ObjectLoader.SmallObject 33/1033/1
Shawn O. Pearce [Fri, 2 Jul 2010 01:27:51 +0000 (18:27 -0700)]
Replace PackedObjectLoader with ObjectLoader.SmallObject

The class is identical, but ObjectLoader.SmallObject is part of our
public API for storage implementations to build on top of.

Change-Id: I381a3953b14870b6d3d74a9c295769ace78869dc
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoSupport large loose objects as streams 32/1032/1
Shawn O. Pearce [Fri, 2 Jul 2010 01:26:17 +0000 (18:26 -0700)]
Support large loose objects as streams

Big loose objects can now be streamed if they are over the large
object size threshold.  This prevents the JVM heap from exploding
with a very large byte array to hold the slurped file, and then
again with its uncompressed copy.

We may have slightly slowed down the simple case for small
loose objects, as the loader no longer slurps the entire thing
and decompresses in memory.  To try and keep good performance
for the very common small objects that are below 8 KiB in size,
buffers are set to 8 KiB, causing the reader to slurp most of the
file anyway.  However the data has to be copied at least once,
from the BufferedInputStream into the InflaterInputStream.

New unit tests are supplied to get nearly 100% code coverage on the
unpacked code paths, for both standard and pack style loose objects.
We tested a fair chunk of the code elsewhere, but these new tests
are better isolated to the specific branches in the code path.

Change-Id: I87b764ab1b84225e9b5619a2a55fd8eaa640e1fe
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoPermit AnyObjectTo to compareTo AnyObjectId 26/1026/1
Shawn O. Pearce [Thu, 1 Jul 2010 02:07:36 +0000 (19:07 -0700)]
Permit AnyObjectTo to compareTo AnyObjectId

Assume that the argument of compareTo won't be mutated while we
are doing the compare, and support the wider AnyObjectId type so
MutableObjectId is suitable on either side of the compareTo call.

Change-Id: I2a63a496c0a7b04f0e5f27d588689c6d5e149d98
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse copyTo during checkout of files to working tree 25/1025/1
Shawn O. Pearce [Thu, 1 Jul 2010 01:56:20 +0000 (18:56 -0700)]
Use copyTo during checkout of files to working tree

This way we can stream a large file through memory, rather than
loading the entire thing into a single contiguous byte array.

Change-Id: I3ada2856af2bf518f072edec242667a486fb0df1
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoStream whole deflated objects in PackWriter 24/1024/1
Shawn O. Pearce [Thu, 1 Jul 2010 01:50:50 +0000 (18:50 -0700)]
Stream whole deflated objects in PackWriter

Instead of loading the entire object as a byte array and passing
that into the deflater, let the ObjectLoader copy the object onto
the DeflaterOutputStream.  This has the nice side effect of using
some sort of stride hack in the Sun implementation that may improve
compression performance.

Change-Id: I3f3d681b06af0da93ab96c75468e00e183ff32fe
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoLazily allocate Deflater in PackWriter 23/1023/1
Shawn O. Pearce [Thu, 1 Jul 2010 01:40:54 +0000 (18:40 -0700)]
Lazily allocate Deflater in PackWriter

Only allocate the Deflater if we can't reuse everything, but also
make sure we release it when we release the PackWriter's resources.

Change-Id: I16a32b94647af0778658eda87acbafc9a25b314a
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAdd openStream to ObjectLoader for big blobs 22/1022/1
Shawn O. Pearce [Thu, 1 Jul 2010 01:36:10 +0000 (18:36 -0700)]
Add openStream to ObjectLoader for big blobs

Blobs that are too large to read as a single byte array should be
accessed through an InputStream based interface instead, allowing
the application to walk through the data stream incrementally.

Define the basic interface to support streaming contents, but don't
implement it yet for the file based backend.

Change-Id: If9e4442e9ef4ed52c3e0f1af9398199a73145516
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoMove DirCache factory methods to Repository 14/1014/1
Shawn O. Pearce [Wed, 30 Jun 2010 17:39:00 +0000 (10:39 -0700)]
Move DirCache factory methods to Repository

Instead of creating the DirCache from a static factory method, use
an instance method on Repository, permitting the implementation to
override the method with a completely different type of DirCache
reading and writing.  This would better support a repository in the
cloud strategy, or even just an in-memory unit test environment.

Change-Id: I6399894b12d6480c4b3ac84d10775dfd1b8d13e7
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoCreate NoWorkTreeException for bare repositories 13/1013/1
Shawn O. Pearce [Wed, 30 Jun 2010 16:48:36 +0000 (09:48 -0700)]
Create NoWorkTreeException for bare repositories

Using a custom exception type makes it easire for an application
developer to understand why an exception was thrown out of a method
we declare.  To remain compatiable with existing callers, we still
extend off IllegalStateException.

Change-Id: Ideeef2399b11ca460a2dbb3cd80eb76aa0a025ba
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoEnsure RevWalk is released when done 04/1004/1
Shawn O. Pearce [Tue, 29 Jun 2010 22:12:51 +0000 (15:12 -0700)]
Ensure RevWalk is released when done

Update a number of calling sites of RevWalk to ensure the walker's
internal ObjectReader is released after the walk is no longer used.
Because the ObjectReader is likely to hold onto a native resource
like an Inflater, we don't want to leak them outside of their
useful scope.

Where possible we also try to share ObjectReaders across several
walk pools, or between a walker and a PackWriter.  This permits
the ObjectReader to actually do some caching if it felt inclined
to do so.

Not everything was updated, we'll probably need to come back and
update even more call sites, but these are some of the biggest
offenders.  Test cases in particular aren't updated.  My plan is to
move most storage-agnostic tests onto some purely in-memory storage
solution that doesn't do compression.

Change-Id: I04087ec79faeea208b19848939898ad7172b6672
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse a single ObjectReader in IpLogGenerator 03/1003/1
Shawn O. Pearce [Tue, 29 Jun 2010 16:32:53 +0000 (09:32 -0700)]
Use a single ObjectReader in IpLogGenerator

This way we can be ensured its released when the generator
is done running.

Change-Id: I6be48d26b9bd5ac176c1316a9aabdf3a897e1696
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse ObjectReader in DirCacheBuilder.addTree 02/1002/1
Shawn O. Pearce [Tue, 29 Jun 2010 16:30:29 +0000 (09:30 -0700)]
Use ObjectReader in DirCacheBuilder.addTree

Rather than building a custom reader, have the caller supply us one.

Change-Id: Ief2b5a6b1b75f05c8a6bc732a60d4d1041dd8254
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse one ObjectReader for WalkFetchConnection 97/997/1
Shawn O. Pearce [Tue, 29 Jun 2010 01:31:29 +0000 (18:31 -0700)]
Use one ObjectReader for WalkFetchConnection

Instead of creating new ObjectReader for each walker, use one for
the entire connection and delegate reads through it.

Change-Id: I7f0a2ec8c9fe60b095a7be77dc423a2ff8b443a3
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse ObjectReader in RevWalk, TreeWalk 96/996/1
Shawn O. Pearce [Tue, 29 Jun 2010 01:25:22 +0000 (18:25 -0700)]
Use ObjectReader in RevWalk, TreeWalk

We don't actually need a Repository object here, just an ObjectReader
that can load content for us.  So change the API to depend on that.

However, this breaks the asCommit and asTag legacy translation methods
on RevCommit and RevTag, so we still have to keep the Repository
inside of RevWalk for those two types.  Hopefully we can drop those in
the future, and then drop the Repository off the RevWalk.

Change-Id: Iba983e48b663790061c43ae9ffbb77dfe6f4818e
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoFix minor formatting issue in UploadPack 95/995/1
Shawn O. Pearce [Tue, 29 Jun 2010 01:43:43 +0000 (18:43 -0700)]
Fix minor formatting issue in UploadPack

Change-Id: Ifc0c3a94dc0e16126af6cf17e9c4a7cb96e8ffab
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRemove volatile keyword from RepositoryEvent 94/994/1
Shawn O. Pearce [Mon, 28 Jun 2010 19:46:18 +0000 (12:46 -0700)]
Remove volatile keyword from RepositoryEvent

We don't need this field to be volatile.  Events are delivered by
the same thread that created the RepositoryEvent object, and thus
any cross-thread operations would need to be handled by some other
type of synchronization in the listener, and that would protect
both the repository field and any other per-event data.

Change-Id: Iefe345959e1a2d4669709dbf82962bcc1b8913e3
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRename openObject, hasObject to just open, has 93/993/1
Shawn O. Pearce [Mon, 28 Jun 2010 18:57:41 +0000 (11:57 -0700)]
Rename openObject, hasObject to just open, has

Similar to what we did on Repository, the openObject method
already implied we wanted to open an object, given its main
argument was of type AnyObjectId.  Simplify the method name
to just the action, has or open.

Change-Id: If055e5e0d8de0e2424c18a773f6d2bc2f66054f4
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRefactor Repository.openObject to be Repository.open 92/992/1
Shawn O. Pearce [Mon, 28 Jun 2010 18:54:58 +0000 (11:54 -0700)]
Refactor Repository.openObject to be Repository.open

We drop the "Object" suffix, because its pretty clear here that
we want to open an object, given that we pass in AnyObjectId as
the main parameter.  We also fix the calling convention to throw
a MissingObjectException or IncorrectObjectTypeException, so that
callers don't have to do this error checking themselves.

Change-Id: I72c43353cea8372278b032f5086d52082c1eee39
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoMove PackWriter progress monitors onto the operations 91/991/1
Shawn O. Pearce [Mon, 28 Jun 2010 18:16:50 +0000 (11:16 -0700)]
Move PackWriter progress monitors onto the operations

Rather than taking the ProgressMonitor objects in our constructor and
carrying them around as instance fields, take them as arguments to the
actual time consuming operations we need to run.

Change-Id: I2b230d07e277de029b1061c807e67de5428cc1c4
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoPass the PackOutputStream down the call stack 90/990/1
Shawn O. Pearce [Mon, 28 Jun 2010 17:44:09 +0000 (10:44 -0700)]
Pass the PackOutputStream down the call stack

Rather than storing this in an instance member, pass it down the
calling stack.  Its cleaner, we don't have to poke the stream as
a temporary field, and then unset it.

Change-Id: I0fd323371bc12edb10f0493bf11885d7057aeb13
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRemove Repository.openObject(ObjectReader, AnyObjectId) 89/989/1
Shawn O. Pearce [Mon, 28 Jun 2010 17:42:43 +0000 (10:42 -0700)]
Remove Repository.openObject(ObjectReader, AnyObjectId)

Going through ObjectReader.openObject(AnyObjectId) is faster, but
also produces cleaner application level code.  The error checking
is done inside of the openObject method, which means it can be
removed from the application code.

Change-Id: Ia927b448d128005e1640362281585023582b1a3a
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoThrow IncorrectObjectTypeException on bad type hints 88/988/1
Shawn O. Pearce [Mon, 28 Jun 2010 17:37:08 +0000 (10:37 -0700)]
Throw IncorrectObjectTypeException on bad type hints

If the type hint isn't OBJ_ANY and it doesn't match the actual type
observed from the object store, define the reader to throw back an
IncorrectObjectTypeException.  This way the caller doesn't have to
perform this check itself before it evaluates the object data, and
we can simplify quite a few call sites.

Change-Id: I9f0dfa033857f439c94245361fcae515bc0a6533
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoEnsure ObjectReader used by PackWriter is released 87/987/1
Shawn O. Pearce [Mon, 28 Jun 2010 17:24:12 +0000 (10:24 -0700)]
Ensure ObjectReader used by PackWriter is released

The ObjectReader API demands that we release the reader when we are
done with it.  PackWriter contains a reader, which it uses for the
entire packing session.  Expose the release of the reader through
a release method on the writer.

This still doesn't address the RevWalk and TreeWalk users, who
don't correctly release their reader.  But its a small step in the
right direction.

Change-Id: I5cb0b5c1b432434a799fceb21b86479e09b84a0a
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoEnsure PackWriter releases its ObjectReader 86/986/1
Shawn O. Pearce [Mon, 28 Jun 2010 17:16:27 +0000 (10:16 -0700)]
Ensure PackWriter releases its ObjectReader

Change-Id: I3f8af29066cc5a2132dc4a75c9654d97800f2f18
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRelease ObjectReader before the cached ObjectDatabase 85/985/1
Shawn O. Pearce [Mon, 28 Jun 2010 16:47:20 +0000 (09:47 -0700)]
Release ObjectReader before the cached ObjectDatabase

I don't want to play games with the order of release here, its
probably safer to release the reader before the database, just
in case the one depends on the other.

Change-Id: I2394c7d2477eaf7a7e1556fc3393c59d3b31e764
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRelease ObjectInserter in merge() not mergeImpl() 84/984/1
Shawn O. Pearce [Mon, 28 Jun 2010 16:35:55 +0000 (09:35 -0700)]
Release ObjectInserter in merge() not mergeImpl()

By doing the release at the higher level class, we can ensure
the release occurs if the inserter was allocated, even if the
implementation forgets to do this.  Since the higher level class
is what allocated it, it makes sense to have it also do the release.

Change-Id: Id617b2db864c3208ed68cba4eda80e51612359ad
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoCommit: Use Repository.newObjectInserter 83/983/1
Shawn O. Pearce [Mon, 28 Jun 2010 16:22:48 +0000 (09:22 -0700)]
Commit: Use Repository.newObjectInserter

Everyone else does.  This must have been a spot I missed during
some sort of squash while developing the series.

Change-Id: I62eae50b618f47ee33ad7cf71fc05b724f603201
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoMove PackWriter over to storage.pack.PackWriter 74/974/1
Shawn O. Pearce [Sun, 27 Jun 2010 01:48:39 +0000 (18:48 -0700)]
Move PackWriter over to storage.pack.PackWriter

Similar to what we did with the file code, move the pack writer
into its own package so the related classes and their package
private methods are hidden from the rest of the library.

Change-Id: Ic1b5c7c8c8d266e90c910d8d68dfc8e93586854f
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoSimplify ObjectLoaders coming from PackFile 73/973/1
Shawn O. Pearce [Sun, 27 Jun 2010 01:34:37 +0000 (18:34 -0700)]
Simplify ObjectLoaders coming from PackFile

We no longer need an ObjectLoader to be lazy and try to delay
the materialization of the object content.  That was done only
to support PackWriter searching for a good reuse candidate.

Instead, simplify the code base by doing the materialization
immediately when the loader asks for it, because any caller
asking for the loader is going to need the content.

Change-Id: Id867b1004529744f234ab8f9cfab3d2c52ca3bd0
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRemove getRawSize, getRawType from ObjectLoader 72/972/1
Shawn O. Pearce [Sun, 27 Jun 2010 00:47:53 +0000 (17:47 -0700)]
Remove getRawSize, getRawType from ObjectLoader

These were only used by PackWriter to help it filter object
representations.  Their only user disappeared when we rewrote the
object selection code path to use the new representation type.

Change-Id: I9ed676bfe4f87fcf94aa21e53bda43115912e145
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoTighten up local packed object representation during packing 71/971/1
Shawn O. Pearce [Sun, 27 Jun 2010 00:37:16 +0000 (17:37 -0700)]
Tighten up local packed object representation during packing

Rather than making a loader, and then using that to fill the object
representation, parse the header and set up our data directly.
This saves some time, as we don't waste cycles on information we
won't use right now.

The weight computed for a representation is now its actual stored
size in the pack file, rather than its inflated size.  This accounts
for changes made when the compression level is modified on the
repository.  It is however more costly to determine the weight of
the object, since we have to find its length in the pack.  To try and
recover that cost we now cache the length as part of our ObjectToPack
record, so it doesn't have to be found during the output phase.

A LocalObjectToPack now costs us (assuming 32 bit pointers):

                   (32 bit)     (64 bit)
  vm header:         8 bytes      8 bytes
  ObjectId:         20 bytes     20 bytes
  PackedObjectInfo: 12 bytes     12 bytes
  ObjectToPack:      8 bytes     12 bytes
  LocalOTP:         20 bytes     24 bytes
                 -----------    ---------
                    68 bytes     74 bytes

Change-Id: I923d2736186eb2ac8ab498d3eb137e17930fcb50
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoMove FileRepository to storage.file.FileRepository 70/970/1
Shawn O. Pearce [Sat, 26 Jun 2010 23:56:55 +0000 (16:56 -0700)]
Move FileRepository to storage.file.FileRepository

This move isolates all of the local file specific implementation code
into a single package, where their package-private methods and support
classes are properly hidden away from the rest of the core library.

Because of the sheer number of files impacted, I have limited this
change to only the renames and the updated imports.

Change-Id: Icca4884e1a418f83f8b617d0c4c78b73d8a4bd17
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoImplement zero-copy for single window objects 69/969/1
Shawn O. Pearce [Sat, 26 Jun 2010 22:17:09 +0000 (15:17 -0700)]
Implement zero-copy for single window objects

Objects that fall completely within a single window can be worked
with in a zero-copy fashion, provided that the window is backed by
a normal byte[] and not by a ByteBuffer.

This works for a surprising number of objects.  The default window
size is 8 KiB, but most deltas are quite a bit smaller than that.
Objects smaller than 1/2 of the window size have a very good chance
of falling completely within a window's array, which means we can
work with them without copying their data around.

Larger objects, or objects which are unlucky enough to span over a
window boundary, get copied through the temporary buffer.  We pay
a tiny penalty to realize we can't use the zero-copy code path,
but its easier than trying to keep track of two adjacent windows.

With this change (as well as everything preceeding it), packing
is actually a bit faster.  Some crude benchmarks based on cloning
linux-2.6.git (~324 MiB, 1,624,785 objects) over localhost using
C git client and JGit daemon shows we get better throughput, and
slightly better times:

  Total Time    | Throughput
  (old)  (now)  | (old)          (now)
  --------------+---------------------------
  2m45s  2m37s  | 12.49 MiB/s    21.17 MiB/s
  2m42s  2m36s  | 16.29 MiB/s    22.63 MiB/s
  2m37s  2m31s  | 16.07 MiB/s    21.92 MiB/s

Change-Id: I48b2c8d37f08d7bf5e76c5a8020cde4a16ae3396
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRedo PackWriter object reuse output 68/968/1
Shawn O. Pearce [Sat, 26 Jun 2010 21:46:05 +0000 (14:46 -0700)]
Redo PackWriter object reuse output

Output of selected reuses is refactored to use a new ObjectReuseAsIs
interface that extends the ObjectReader.  This interface allows the
reader to control how it performs the reuse into the output stream,
but also allows it to throw an exception to request the writer to
find a different candidate representation.

The PackFile reuse code was overhauled, cleaning up the APIs so they
aren't exposed in the object loader, but instead are now a single
method on the PackFile itself.  The reuse algorithm was changed to do
a data verification pass, followed by the copy pass to the output.
This permits us to work around a corrupt object in a pack file by
seeking another copy of that object when this one is bad.

The reuse code was also optimized for the common case, where the
in-pack representation is under 16 KiB.  In these smaller cases
data is sent to the pack writer more directly, avoiding some copying.

Change-Id: I6350c2b444118305e8446ce1dfd049259832bcca
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRedo PackWriter object reuse selection 67/967/1
Shawn O. Pearce [Sat, 26 Jun 2010 21:16:06 +0000 (14:16 -0700)]
Redo PackWriter object reuse selection

The new selection implementation uses a public API on the
ObjectReader, allowing the storage library to enumerate its
candidates and select the best one for this packer without
needing to build a temporary list of the candidates first.

Change-Id: Ie01496434f7d3581d6d3bbb9e33c8f9fa649b6cd
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoReclaim some bits in ObjectToPack flags field 66/966/1
Shawn O. Pearce [Sat, 26 Jun 2010 02:21:43 +0000 (19:21 -0700)]
Reclaim some bits in ObjectToPack flags field

Make the lower bits available for flags that PackWriter can use to
keep track of facts about the object.  We shouldn't need more than
2^24 delta depths, unpacking that chain is unfathomable anyway.

This change gets us 4 bits that are unused in the lower end of the
word, which are typically easier to load from Java and most machine
instruction sets.  We can use these in later changes.

Change-Id: Ib9e11221b5bca17c8a531e4ed130ba14c0e3744f
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoExtract PackFile specific code to ObjectToPack subclass 65/965/1
Shawn O. Pearce [Sat, 26 Jun 2010 01:23:44 +0000 (18:23 -0700)]
Extract PackFile specific code to ObjectToPack subclass

The ObjectReader class is dual-purposed into being a factory for the
ObjectToPack, permitting specific ObjectDatabase implementations
to override the method and offer their own custom subclass of the
generic ObjectToPack class.  By allowing them to directly extend the
type, each implementation can add custom fields to support tracking
where an object is stored, without incurring any additional penalties
like a parallel Map<ObjectId,Object> would cost.

The reader was chosen to act as a factory rather than the database,
as the reader will eventually be tied more tightly with the
ObjectWalk and TreeWalk.  During object enumeration the reader
would have had to load the object for the RevWalk, and may chose
to cache object position data internally so it can later be reused
and fed into the ObjectToPack instance supplied to the PackWriter.
Since a reader is not thread-safe, and is scoped to this PackWriter
and its internal ObjectWalk, its a great place for the database to
perform caching, if any.

Right now this change goes a bit backwards by changing what should
be generic ObjectToPack references inside of PackWriter to the very
PackFile specific LocalObjectToPack subclass.  We will correct these
in a later commit as we start to refine what the ObjectToPack API
will eventually look like in order to better support the PackWriter.

Change-Id: I9f047d26b97e46dee3bc0ccb4060bbebedbe8ea9
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoExtract ObjectToPack to be top-level 64/964/1
Shawn O. Pearce [Sat, 26 Jun 2010 01:05:13 +0000 (18:05 -0700)]
Extract ObjectToPack to be top-level

This shortens the implementation within PackWriter, and starts
to open the door for some other refactorings based on changing
the ObjectToPack to be a public part of the API.

Change-Id: Id849cbffc4de20b903e844a2de7737eeb8b7a3ff
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse getObjectsDatabase().getDirectory() to find objects 63/963/1
Shawn O. Pearce [Thu, 24 Jun 2010 18:32:58 +0000 (11:32 -0700)]
Use getObjectsDatabase().getDirectory() to find objects

Only the ObjectDirectory type of database knows where to find the
objects directory on the local filesystem, so defer to it whenever
we need to know where the objects reside.  Since this is the type
returned by FileRepository's getObjectDatabase() method, we mostly
don't have to do much other than use a slightly longer invocation.

Change-Id: Ie5f58132a6411b56c3acad73646ad169d78a0654
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAllow Repository.getDirectory() to be null 62/962/1
Shawn O. Pearce [Sat, 26 Jun 2010 00:46:07 +0000 (17:46 -0700)]
Allow Repository.getDirectory() to be null

Some types of repositories might not be stored on local disk.  For
these, they will most likely return null for getDirectory() as the
java.io.File type cannot describe where their storage is, its not
in the host's filesystem.

Document that getDirectory() can return null now, and update all
current non-test callers in JGit that might run into problems on
such repositories.  For the most part, just act like its bare.

Change-Id: I061236a691372a267fd7d41f0550650e165d2066
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRedo event listeners to be more generic 61/961/1
Shawn O. Pearce [Thu, 24 Jun 2010 18:12:40 +0000 (11:12 -0700)]
Redo event listeners to be more generic

Replace the old crude event listener system with a much more generic
implementation, patterned after the event dispatch techniques used
in Google Web Toolkit 1.5 and later.

Each event delivers to an interface that defines a single method,
and the event itself is what performs the delivery in a type-safe
way through its own dispatch method.

Listeners are registered in a generic listener list, indexed by
the interface they implement and wish to receive an event for.
Delivery of events is performed by looping through all listeners
implementing the event's corresponding listener interface, and using
the event's own dispatch method to deliver the event.  This is the
classical "double dispatch" pattern for event delivery.

Listeners can be unregistered by invoking remove() on their
registration handle.  This change therefore requires application
code to track the handle if it wishes to remove the listener at a
later point in time.

Event delivery is now exposed as a generic public method on the
Repository class, making it easier for any type of message to
be sent out to any type of listener that has registered, without
needing to pre-arrange for type-safe fireFoo() methods.

New event types can be added in the future simply by defining a
new RepositoryEvent subclass and a corresponding RepositoryListener
interface that it dispatches to.  By always adding new events through
a new interface, we never need to worry about defining an Adapter
to provide default no-op implementations of new event methods.

Change-Id: I651417b3098b9afc93d91085e9f0b2265df8fc81
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRename Repository getWorkDir to getWorkTree 60/960/1
Shawn O. Pearce [Sat, 26 Jun 2010 00:53:03 +0000 (17:53 -0700)]
Rename Repository getWorkDir to getWorkTree

This better matches with the name used in the environment
(GIT_WORK_TREE), in the configuration file (core.worktree),
and in our builder object.

Since we are already breaking a good chunk of other code
related to repository access, and this fairly easy to fix
in an application's code base, I'm not going to offer the
wrapper getWorkDir() method.

Change-Id: Ib698ba4bbc213c48114f342378cecfe377e37bb7
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRefactor repository construction to builder class 59/959/1
Shawn O. Pearce [Thu, 24 Jun 2010 16:07:53 +0000 (09:07 -0700)]
Refactor repository construction to builder class

The new FileRepositoryBuilder class helps applications to construct
a properly configured FileRepository, with properties assumed based
upon the standard Git rules for the local filesystem.

To better support simple command line applications, environment
variable handling and repository searching was moved into this
builder class.

The change gets rid of the ever-growing FileRepository constructor
variants, and the multitude of java.io.File typed parameters,
by using simple named setter methods.

Change-Id: I17e8e0392ad1dbf6a90a7eb49a6d809388d27e4c
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRemove Repository.toFile(ObjectId) 58/958/1
Shawn O. Pearce [Thu, 24 Jun 2010 00:44:13 +0000 (17:44 -0700)]
Remove Repository.toFile(ObjectId)

Not every type of Repository will be able to map an ObjectId into
a local file system path that stores that object's file contents.
Heck, its not even true for the FileRepository, as an object can
be stored in a pack file and not in its loose format.

Remove this from our public API, it was a mistake to publish it.

Change-Id: I20d1b8c39104023936e6d46a5b0d7ef39ff118e8
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse ObjectInserter for loose objects in WalkFetchConnection 57/957/1
Shawn O. Pearce [Thu, 24 Jun 2010 01:26:40 +0000 (18:26 -0700)]
Use ObjectInserter for loose objects in WalkFetchConnection

Rather than relying on the repository's ability to give us the
local file path for a loose object, just pass its inflated form to
the ObjectInserter for the repository.  We have to recompress it,
which may slow down fetches, but this is the slow dumb protocol.
The extra cost to do the compression locally isn't going to be a
major bottleneck.

This nicely removes the nasty part about computing the object
identity by hand, allowing us to instead rely upon the inserter's
internal computation.  Unfortunately it means we might store a loose
object whose SHA-1 doesn't match the expected SHA-1, such as if the
remote repository was corrupted.  This is fairly harmless, as the
incorrectly named object will now be stored under its proper name,
and will eventually be garbage collected, as its not referenced by
the local repository.

We have to flush the inserter after the object is stored because
we aren't sure if we need to read the object later, or not.

Change-Id: Idb1e2b1af1433a23f8c3fd55aeb20575e6047ef0
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoReplace WindowCache with ObjectReader 16/916/4
Shawn O. Pearce [Sat, 19 Jun 2010 06:02:57 +0000 (23:02 -0700)]
Replace WindowCache with ObjectReader

The WindowCache is an implementation detail of PackFile and how its
used by ObjectDirectory.  Lets start to hide it and replace the public
API with a more generic concept, ObjectReader.

Because PackedObjectLoader is also considered a private detail of
PackFile, we have to make PackWriter temporarily dependent upon the
WindowCursor and thus FileRepository and ObjectDirectory in order to
just start the refactoring.  In later changes we will clean up the
APIs more, exposing sufficient support to PackWriter without needing
the file specific implementation details.

Change-Id: I676be12b57f3534f1285854ee5de1aa483895398
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRefactor alternate object databases below ObjectDirectory 15/915/4
Shawn O. Pearce [Sat, 19 Jun 2010 03:23:13 +0000 (20:23 -0700)]
Refactor alternate object databases below ObjectDirectory

Not every object storage system will have the concept of alternate
object databases to search, and even if they do, they may not have
the notion of fast-access / slow-access split like we do within
the ObjectDirectory code for pack files and loose objects.

Push all of that down below the generic API so that it is a hidden
detail of the ObjectDirectory and its related supporting classes.

Change-Id: I54bc1ca5ff2ac94dfffad1f9a9dad7af202b9523
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoStart using ObjectInserter instead of ObjectWriter 60/860/7
Shawn O. Pearce [Mon, 14 Jun 2010 23:53:13 +0000 (16:53 -0700)]
Start using ObjectInserter instead of ObjectWriter

Some newer style APIs are updated to use the newer ObjectInserter
interface instead of the now deprecated ObjectWriter.  In many of
the unit tests we don't bother to release the inserter, these are
typically using the file backend which doesn't need a release,
but in the future should use an in-memory HashMap based store,
which really wouldn't need it either.

Change-Id: I91a15e1dc42da68e6715397814e30fbd87fa2e73
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRefactor object writing responsiblities to ObjectDatabase 59/859/7
Shawn O. Pearce [Mon, 14 Jun 2010 22:48:53 +0000 (15:48 -0700)]
Refactor object writing responsiblities to ObjectDatabase

The ObjectInserter API permits ObjectDatabase implementations to
control their own object insertion behavior, rather than forcing
it to always be a new loose file created in the local filesystem.
Inserted objects can also be queued and written asynchronously to
the main application, such as by appending into a pack file that
is later closed and added to the repository.

This change also starts to open the door to non-file based object
storage, such as an in-memory HashMap for unit testing, or a more
complex system built on top of a distributed hash table.

To help existing application code port to the newer interface we
are keeping ObjectWriter as a delegation wrapper to the new API.
Each ObjectWriter instances holds a reference to an ObjectInserter
for the Repository's top-level ObjectDatabase, and it flushes and
releases that instance on each object processed.

Change-Id: I413224fb95563e7330c82748deb0aada4e0d6ace
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoChange Repository.getConfig() to return non-file Configs 56/956/1
Shawn O. Pearce [Thu, 24 Jun 2010 22:46:07 +0000 (15:46 -0700)]
Change Repository.getConfig() to return non-file Configs

A repository implementation might support storing configurations
on a non-file storage system, so widen the return value to be any
type of configuration.

Change-Id: If9a0928f4b3ef29a24d270b0ce585a6e77f6fac6
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse FileRepository where we assume other file semantics 55/955/1
Shawn O. Pearce [Thu, 24 Jun 2010 22:45:51 +0000 (15:45 -0700)]
Use FileRepository where we assume other file semantics

When the surrounding code is already heavily based upon the
assumption that we have a FileRepository (e.g. because it
created that type of repository) keep the type around and
use it directly.  This permits us to continue to do things
like save the configuration file.

Change-Id: Ib783f0f6a11acd6aa305c16d61ccc368b46beecc
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoMake lib.Repository abstract and lib.FileRepository its implementation 90/890/6
Shawn O. Pearce [Thu, 24 Jun 2010 22:16:32 +0000 (15:16 -0700)]
Make lib.Repository abstract and lib.FileRepository its implementation

To support other storage models other than just the local filesystem,
we split the Repository class into a nearly abstract interface and
then create a concrete subclass called FileRepository with the file
based IO implementation.

We are using an abstract class for Repository rather than the much
more generic interface, as implementers will want to inherit a large
array of utility functions, such as resolve(String).  Having these in
a base class makes it easy to inherit them.

This isn't the final home for lib.FileRepository.  Future changes
will rename it into storage.file.FileRepository, but to do that we
need to also move a number of other related class, which we aren't
quite ready to do.

Change-Id: I1bd54ea0500337799a8e792874c272eb14d555f7
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoConsistently fail work tree methods on bare repositories 54/954/1
Shawn O. Pearce [Fri, 25 Jun 2010 01:45:57 +0000 (18:45 -0700)]
Consistently fail work tree methods on bare repositories

If the working tree isn't available, it doesn't make any sense to
obtain the merge heads, or the buffered commit message.  The
repository shouldn't have a partial merge state to read.  Throw back
the same exception we do when invoking getWorkDir() on a bare
repository instance.

Change-Id: I762c55890b7fe272a183da583f910671d1cadf71
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoConsistently use getDirectory() for work tree state 53/953/1
Shawn O. Pearce [Fri, 25 Jun 2010 01:41:21 +0000 (18:41 -0700)]
Consistently use getDirectory() for work tree state

This permits us to leave the implementation of these methods here in
the Repository class, but later refactor how the directory is accessed
into a subclass.

Change-Id: I5785b2009c5b7cca0fb070a968e50814ce847076
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoAdd RepositoryState.BARE 52/952/1
Shawn O. Pearce [Thu, 24 Jun 2010 19:57:02 +0000 (12:57 -0700)]
Add RepositoryState.BARE

A bare repository cannot be checked out, committed to, etc. as it
doesn't have a working directory.  Define this as a state since the
state enumeration exists only to describe how a working directory
can be modified.

Change-Id: I0a299013c6e42fef6cae3f6a9446f8f6c8e0514a
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRename Repository 'config' as 'repoConfig' 51/951/1
Shawn O. Pearce [Fri, 25 Jun 2010 01:18:46 +0000 (18:18 -0700)]
Rename Repository 'config' as 'repoConfig'

This better matches with the other configuration variable,
'userConfig', and helps to make it clear what config object
we are dealing with.

Change-Id: I2c585649aecc805e8e66db2f094828cd2649e549
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRemove RepositoryConfig and use FileBasedConfig instead 50/950/1
Shawn O. Pearce [Wed, 23 Jun 2010 17:13:55 +0000 (10:13 -0700)]
Remove RepositoryConfig and use FileBasedConfig instead

Change the Repository API to use straight-up FileBasedConfig.
This lets us remove the subclass RepositoryConfig and stop having
a specialized configuration type for repository, letting us instead
focus the config type heirarchy on type-of-storage rather than use.

Change-Id: I7236800e8090624453a89cb0c7a9a632702691c6
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoDelegate repository access to refs, objects 49/949/1
Shawn O. Pearce [Thu, 24 Jun 2010 22:18:14 +0000 (15:18 -0700)]
Delegate repository access to refs, objects

Instead of using the internal field directly to access references
or objects, use the getter method to obtain the proper type of
database, and follow down from there.  This permits us to later
do a refactoring that makes those methods abstract and strips the
field out of the Repository class, moving it into a concrete base
class that is more storage implementation specific.

Change-Id: Ic21dd48800e68a04ce372965ad233485b2a84bef
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoCleanup Repository.create() 48/948/1
Shawn O. Pearce [Thu, 24 Jun 2010 22:19:05 +0000 (15:19 -0700)]
Cleanup Repository.create()

This method doesn't need to be synchronized, as its only a proxy to
create(boolean), which is the real worker.  While we are touching
it try to improve the Javadoc and whitespace nearby.

Change-Id: Ibdddec6e518ca6d7439cfad90fedfcdc2d6b7a2e
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoMove additional have enumeration to Repository 14/914/4
Shawn O. Pearce [Sat, 19 Jun 2010 03:23:06 +0000 (20:23 -0700)]
Move additional have enumeration to Repository

This permits the repository implementation to know what its
alternates concept means, and avoids needing to expose finer details
about the ObjectDatabase to network code like the RefAdvertiser.

Change-Id: Ic6d173f300cb72de34519c7607cf7b0ff3ea6882
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRefactor amazon-s3:// property file loading to support no directory 47/947/1
Shawn O. Pearce [Sat, 26 Jun 2010 00:42:01 +0000 (17:42 -0700)]
Refactor amazon-s3:// property file loading to support no directory

In the future getDirectory() can return null.  Avoid an NPE here by
refactoring the code to support conditionally skipping a check for
the properties file in the repository directory, falling to only
the user's ~/ file location.

Change-Id: I76f5503d4063fdd9d24b7c1b58e1b09ddf1a5670
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoDownload pack-*.idx to /tmp if not on local filesystem 46/946/1
Shawn O. Pearce [Thu, 24 Jun 2010 18:30:19 +0000 (11:30 -0700)]
Download pack-*.idx to /tmp if not on local filesystem

If the destination repository doesn't use an ObjectDirectory to
store its objects, we can't download to the object directory.
Instead pull the pack-*.idx files down to temporary files in the
JVM's default temporary directory.

Change-Id: Ied16bc89be624d87110ba42ba52d698a6ea7d982
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse FileKey to resolve Git repository arguments 45/945/1
Shawn O. Pearce [Thu, 24 Jun 2010 18:39:20 +0000 (11:39 -0700)]
Use FileKey to resolve Git repository arguments

upload-pack and receive-pack take a git repository as an argument,
but its a lenient path format.  Locate the repository and open it.

Change-Id: I4b377e57b28ba3b1717c13d9ab51a602de1ad257
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoDirCache must use getIndexFile 44/944/1
Shawn O. Pearce [Sat, 26 Jun 2010 00:32:12 +0000 (17:32 -0700)]
DirCache must use getIndexFile

When reading or locking the index of a repository, we need to use
the index file specified by the repository, to ensure we correctly
honor what the repository was configured with.

Change-Id: I5be366ce32d7923b888dc01d19335912b01b7c4c
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoDisable topological sorting in PackWriter 85/885/3
Shawn O. Pearce [Tue, 15 Jun 2010 01:31:14 +0000 (18:31 -0700)]
Disable topological sorting in PackWriter

Its not strictly required that we sort topologically in order to
produce a valid pack file.  This was just something that Linus
thought would be a good idea to do.  In practice its not that
important for most repositories.  Local file IO quickly falls
out of the pattern that topological sorting provides any sort
of benefit for, so expending extra resources to enforce it when
we make a pack isn't really worth it.

I'm removing this sort in the pipeline because later changes
would support really efficient COMMIT_TIME_DESC sorting on a
non-file storage system, but TOPO sorting would be a bit more
ugly to run, due to the in-memory delays it imposes.

Change-Id: I0121453461c2140c6917cb10c6df584eb47e5795
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUploadPack: Permit flushing progress messages under smart HTTP 58/858/4
Shawn O. Pearce [Mon, 14 Jun 2010 19:49:41 +0000 (12:49 -0700)]
UploadPack: Permit flushing progress messages under smart HTTP

If UploadPack invokes flush() on the output stream we pass it, its
most likely the progress messages coming down the side band stream.
As pack generation can take a while, we want to push that down
at the client as early as we can, to keep the connection alive,
and to let the user know we are still working on their behalf.

Ensure we dump the temporary buffer whenever flush() is invoked,
otherwise the messages don't get sent in a timely fashion to the
user agent (in this case, git fetch).

We specifically don't implement flush() for ReceivePack right now,
as that protocol currently does not provide progress messages to
the user, but it does invoke flush several times, as the different
streams include '0000' type flush-pkts to denote various end points.

Change-Id: I797c90a2c562a416223dc0704785f61ac64e0220
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoRewrite resolve in terms of RevWalk 13/913/4
Shawn O. Pearce [Thu, 24 Jun 2010 00:26:43 +0000 (17:26 -0700)]
Rewrite resolve in terms of RevWalk

We want to eventually get rid of the mapCommit, mapTree APIs on
Repository and force everyone into the faster parsers that exist
in RevWalk.  Rewriting resolve in terms of the faster parsers is
a good first step.

It actually simplifies the code a bit, as we no longer need to
keep track of an ObjectId and an Object (the parsed form), since
all RevObjects implicitly have their ObjectId readily available.

Change-Id: I4d234630195616e2c263e7e70038b55a1be4e7a3
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoReplace manual peel loops with RevWalk.peel 35/935/1
Shawn O. Pearce [Thu, 24 Jun 2010 00:26:44 +0000 (17:26 -0700)]
Replace manual peel loops with RevWalk.peel

Instead of peeling things by hand in application level code, defer
the peeling logic into RevWalk's new peel utility method.

Change-Id: Idabd10dc41502e782f6a2eeb56f09566b97775a8
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse RevTag/RevCommit to sort in a PlotWalk 84/884/3
Shawn O. Pearce [Tue, 15 Jun 2010 01:51:09 +0000 (18:51 -0700)]
Use RevTag/RevCommit to sort in a PlotWalk

We already have these objects parsed and cached in our object pool.
We shouldn't be looking them up via the legacy mapObject API, but
instead can use the pool and the faster parsing routines available
through the RevWalk that we extend.

While we are here fixing the code, lets also correct the tag date
sorting to accept tags that have no tagger identity, because they
were created before Git knew how to store that field.

Change-Id: Id49a11f6d9c050c82b876e5e11058840c894b2d7
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse CoreConfig, UserConfig and TransferConfig directly 34/934/1
Shawn O. Pearce [Wed, 23 Jun 2010 17:11:34 +0000 (10:11 -0700)]
Use CoreConfig, UserConfig and TransferConfig directly

Rather than relying on the helpers in RepositoryConfig to get
these objects, obtain them directly through the Config API.
Its only slightly more verbose, but permits us to work with the
base Config class, which is more flexible than the highly file
specific RepositoryConfig.

This is what I really meant to do when I added the section parser
and caching support to Config, we just failed to finish updating
all of the call sites.

Change-Id: I481cb365aa00bfa8c21e5ad0cd367ddd9c6c0edd
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>
14 years agoUse higher level Config types when possible 33/933/1
Shawn O. Pearce [Wed, 23 Jun 2010 17:09:27 +0000 (10:09 -0700)]
Use higher level Config types when possible

We don't have to assume/depend on RepositoryConfig here, these
two tests can use higher level versions of the class and still
come up with the same test.  That frees us up to do some changes
to the RepositoryConfig API.

Change-Id: Ia7b263c8c5efa3fae1054416d39c546867288132
Signed-off-by: Shawn O. Pearce <spearce@spearce.org>