Hi Armon,<div><br></div><div>We've recently patched an issue that affects handoffs here <a href="https://github.com/basho/riak_core/pull/153">https://github.com/basho/riak_core/pull/153</a></div><div><br></div><div>If the issue repeats for you, as well as the logs it would be very useful if you could follow the instructions from the pull request above ro the 'riak_core_handoff_manager:status().' command against all nodes.</div>
<div><br></div><div>The pull request works around an issue where it looks like the kernel has closed a socket (no evidence of it any longer with netstat/ss) but the erlang process is still stuck in an receive call from it (gen_tcp:recv/2 to be more precise).</div>
<div><br></div><div>Please let us know if you hit it again.</div><div><br></div><div>Best, Jon.</div><div><br></div><div>On Mon, Mar 19, 2012 at 12:10 PM, Armon Dadgar <span dir="ltr"><<a href="mailto:armon.dadgar@gmail.com">armon.dadgar@gmail.com</a>></span> wrote:<br>
</div><div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><div><div>I wanted to ping the mailing list and see if anybody else has encountered</div>
<div>stalls in the partition handoffs on Riak 1.1. We added a new node to our cluster</div><div>last Friday, but noticed that the partition handoffs appear to have stopped </div><div>after about 7-8 hours. </div><div><br>
</div><div>Most of the handoffs completed, and the only handoffs that remained were from node 3 to node 2.</div><div>The ring claimant (node 1), indicated that node 3 was unreachable (via ring_status).</div><div>However, Riak control did not indicate that node 3 was unreachable, and in fact it was</div>
<div>actually live and continuing to serve request.</div><div><br></div><div>To resolve this, I tried to just restart node 3. I ran "riak stop" multiple times, but this did</div><div>not actually seem to do anything (The node was continuing to run and serve requests).</div>
<div>Next, I attached to the node and ran "init:stop()." This started to shut down various</div><div>sub-systems, but the node was still running. Sending a SIGTERM signal to the beam vm</div><div>finally killed it. Restarting the node with "riak start" worked as expected,</div>
<div>and the node promptly resumed the handoffs, and finished in a few hours.</div><div><br></div><div>I'm not sure exactly what the issue was, but something seemed to cause a</div><div>stalling of the handoffs.</div>
</div><div><br></div><div>I've attached the contents of our console.log, erlang.log, error.log and crash.log</div><div>from the relevant times if that is useful.</div><br><div>
<span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;white-space:normal;font-family:Helvetica;word-spacing:0px"><div style="word-wrap:break-word">
<span style="font-size:12px">Best Regards,</span><br style="font-size:12px"><br style="font-size:12px"><span style="font-size:12px">Armon Dadgar</span><span style="font-size:12px"><br></span></div></span></span>
</div><div><br></div>

</div><br><div style="word-wrap:break-word"></div><br>_______________________________________________<br>
riak-users mailing list<br>
<a href="mailto:riak-users@lists.basho.com">riak-users@lists.basho.com</a><br>
<a href="http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com" target="_blank">http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><span style="color:rgb(136,136,136);font-family:arial,sans-serif;font-size:13px;background-color:rgb(255,255,255)">Jon Meredith</span><div><span style="color:rgb(136,136,136);font-family:arial,sans-serif;font-size:13px;background-color:rgb(255,255,255)">Platform Engineering Manager<br>
Basho Technologies, Inc.<br></span></div><div><span style="color:rgb(136,136,136);font-family:arial,sans-serif;font-size:13px;background-color:rgb(255,255,255)"><a href="mailto:jmeredith@basho.com" target="_blank">jmeredith@basho.com</a></span></div>
<br>
</div>