<div dir="ltr">Hello Edgar,<div><br></div><div>The consistent handoff behavior is normally indicative of a network issue which is resulting in frequent fallback vnodes starts. Based on your previous messages, you are handing off quite a few vnodes with 1 object so the vnodes are not long lived. Additionally, the most recent errors indicate a TCP recv timeout, further indicating some issue at the network layer.</div><div><br></div><div>I'd be happy to investigate this issue with you. Please attach a `riak-debug` output from this node and at least one other node in the cluster so we can track the issue down.</div><div><br></div><div>Thanks,</div><div>Brian</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Feb 13, 2015 at 5:40 AM, Edgar Veiga <span dir="ltr"><<a href="mailto:edgarmveiga@gmail.com" target="_blank">edgarmveiga@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi again everyone!<div><br></div><div>- The memory usage keeps growing day by day:</div><div><a href="https://dl.dropboxusercontent.com/u/1962284/riak2.png" target="_blank">https://dl.dropboxusercontent.com/u/1962284/riak2.png</a><br></div><div><br></div><div>- The handoffs keep on going, with strange things like a transfer started 1.5 days ago: </div><div><div>riak-admin transfers</div><div>'<a href="mailto:riak@192.168.20.112" target="_blank">riak@192.168.20.112</a>' waiting to handoff 51 partitions</div><div>'<a href="mailto:riak@192.168.20.111" target="_blank">riak@192.168.20.111</a>' waiting to handoff 74 partitions</div><div>'<a href="mailto:riak@192.168.20.110" target="_blank">riak@192.168.20.110</a>' waiting to handoff 86 partitions</div><div>'<a href="mailto:riak@192.168.20.109" target="_blank">riak@192.168.20.109</a>' waiting to handoff 191 partitions</div><div>'<a href="mailto:riak@192.168.20.108" target="_blank">riak@192.168.20.108</a>' waiting to handoff 67 partitions</div><div>'<a href="mailto:riak@192.168.20.107" target="_blank">riak@192.168.20.107</a>' waiting to handoff 177 partitions</div></div><div><br></div><div><div>transfer type: hinted_handoff</div><div>vnode type: riak_kv_vnode</div><div>partition: 51380916937414555718098294900181824909778878464</div><div>started: 2015-02-11 21:54:07 [1.53 d ago]</div><div>last update: no updates seen</div><div>total size: unknown</div><div>objects transferred: unknown</div></div><div><br></div><div>- I'm starting to have some entries in the error log:</div><div><div>2015-02-12 19:58:54.026 [error] <0.184.0>@riak_core_handoff_manager:handle_info:289 An outbound handoff of partition riak_kv_vnode 936274486415109681974235595958868809467081785344 was terminated for reason: noproc</div><div>2015-02-12 20:27:34.092 [error] <0.21096.1867>@riak_core_handoff_sender:start_fold:263 hinted_handoff transfer of riak_kv_vnode from '<a href="mailto:riak@192.168.20.112" target="_blank">riak@192.168.20.112</a>' 1210306043414653979137426502093171875652569137152 to '<a href="mailto:riak@192.168.20.109" target="_blank">riak@192.168.20.109</a>' 1210306043414653979137426502093171875652569137152 failed because of TCP recv timeout</div><div>2015-02-12 20:27:34.092 [error] <0.184.0>@riak_core_handoff_manager:handle_info:289 An outbound handoff of partition riak_kv_vnode 1210306043414653979137426502093171875652569137152 was terminated for reason: {shutdown,timeout}</div><div>2015-02-12 21:25:32.852 [error] <0.184.0>@riak_core_handoff_manager:handle_info:289 An outbound handoff of partition riak_kv_vnode 742168800207099138150308704113737470919028244480 was terminated for reason: noproc</div></div><div><br></div><div><br></div><div>Please, can anyone give me a help on this? I'm starting to get worried with this behaviour. Tell me if you need more info!</div><div><br></div><div>Thanks and Best regards,</div><div>Edgar Veiga</div></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><div class="gmail_quote">On 10 February 2015 at 16:16, Edgar Veiga <span dir="ltr"><<a href="mailto:edgarmveiga@gmail.com" target="_blank">edgarmveiga@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi all!<div><br></div><div><pre><span style="color:rgb(34,34,34);white-space:normal;font-family:arial,sans-serif;font-size:12.8000001907349px">I </span><span style="color:rgb(34,34,34);white-space:normal;font-family:arial,sans-serif;font-size:12.8000001907349px">have</span><span style="color:rgb(34,34,34);white-space:normal;font-family:arial,sans-serif;font-size:12.8000001907349px"> a </span><span style="color:rgb(34,34,34);white-space:normal;font-family:arial,sans-serif;font-size:12.8000001907349px">riak</span><span style="color:rgb(34,34,34);white-space:normal;font-family:arial,sans-serif;font-size:12.8000001907349px"> </span><span style="color:rgb(34,34,34);white-space:normal;font-family:arial,sans-serif;font-size:12.8000001907349px">cluster</span><span style="color:rgb(34,34,34);white-space:normal;font-family:arial,sans-serif;font-size:12.8000001907349px">, working </span><font face="arial, sans-serif"><span style="font-size:12.8000001907349px;white-space:normal">smoothly</span></font><span style="color:rgb(34,34,34);white-space:normal;font-family:arial,sans-serif;font-size:12.8000001907349px"> in production for about one year, with the following characteristics:</span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal">- Version 1.4.12</span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal">- 6 nodes</span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal">- leveldb backend</span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal">- replication (n) = 3</span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal">~ 3 billion keys</span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal">~ 1.2Tb per node</span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal">- AAE disabled</span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal"><br></span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal">Two days ago I've upgraded all of the 6 nodes from riak v1.4.8 to v1.4.12, and two things started happening that are a little bit odd </span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8000001907349px;white-space:normal">1) The first is the memory consumption, please check the next imagem to understand what I mean:</span></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)">- <a href="https://dl.dropboxusercontent.com/u/1962284/riak.png" target="_blank">https://dl.dropboxusercontent.com/u/1962284/riak.png</a></pre><pre><pre><font face="arial, sans-serif"><span style="font-size:12.8000001907349px;white-space:normal">2) All of the machines keep logging hinted handoffs after the rolling restart. I've made the upgrade on non-busy hours and assured that the rolling restart was concluded only when all the in-progress handoffs were concluded, but on the next day when checking the logs I've realised that they keep appearing... Heres are some random examples:</span></font></pre><pre><pre>2015-02-10 16:11:55.547 [info] <0.3070.753>@riak_core_handoff_sender:start_fold:148 Starting hinted_handoff transfer of riak_kv_vnode from '<a href="mailto:riak@192.168.20.112" target="_blank">riak@192.168.20.112</a>' 765004763290394496247241279624929393101152190464 to '<a href="mailto:riak@192.168.20.109" target="_blank">riak@192.168.20.109</a>' 765004763290394496247241279624929393101152190464</pre><pre>2015-02-10 16:11:55.548 [info] <0.3070.753>@riak_core_handoff_sender:start_fold:236 hinted_handoff transfer of riak_kv_vnode from '<a href="mailto:riak@192.168.20.112" target="_blank">riak@192.168.20.112</a>' 765004763290394496247241279624929393101152190464 to '<a href="mailto:riak@192.168.20.109" target="_blank">riak@192.168.20.109</a>' 765004763290394496247241279624929393101152190464 completed: sent 3.15 KB bytes in 1 of 1 objects in 0.00 seconds (3.99 MB/second)</pre><pre>2015-02-10 16:12:05.803 [info] <0.3434.753>@riak_core_handoff_sender:start_fold:148 Starting hinted_handoff transfer of riak_kv_vnode from '<a href="mailto:riak@192.168.20.112" target="_blank">riak@192.168.20.112</a>' 902020541790166644828836732692080926193895866368 to '<a href="mailto:riak@192.168.20.109" target="_blank">riak@192.168.20.109</a>' 902020541790166644828836732692080926193895866368</pre><pre>2015-02-10 16:12:05.856 [info] <0.3368.753>@riak_core_handoff_sender:start_fold:148 Starting hinted_handoff transfer of riak_kv_vnode from '<a href="mailto:riak@192.168.20.112" target="_blank">riak@192.168.20.112</a>' 570899077082383952423314387779798054553098649600 to '<a href="mailto:riak@192.168.20.111" target="_blank">riak@192.168.20.111</a>' 570899077082383952423314387779798054553098649600</pre><pre>2015-02-10 16:12:05.860 [info] <0.3434.753>@riak_core_handoff_sender:start_fold:236 hinted_handoff transfer of riak_kv_vnode from '<a href="mailto:riak@192.168.20.112" target="_blank">riak@192.168.20.112</a>' 902020541790166644828836732692080926193895866368 to '<a href="mailto:riak@192.168.20.109" target="_blank">riak@192.168.20.109</a>' 902020541790166644828836732692080926193895866368 completed: sent 39.79 KB bytes in 1 of 1 objects in 0.06 seconds (699.32 KB/second)</pre><pre>2015-02-10 16:12:05.886 [info] <0.3368.753>@riak_core_handoff_sender:start_fold:236 hinted_handoff transfer of riak_kv_vnode from '<a href="mailto:riak@192.168.20.112" target="_blank">riak@192.168.20.112</a>' 570899077082383952423314387779798054553098649600 to '<a href="mailto:riak@192.168.20.111" target="_blank">riak@192.168.20.111</a>' 570899077082383952423314387779798054553098649600 completed: sent 3.55 KB bytes in 1 of 1 objects in 0.03 seconds (118.58 KB/second)<br></pre><pre><br></pre></pre></pre><pre style="white-space:pre-wrap;color:rgb(0,0,0)"><pre style="color:rgb(34,34,34)"><font face="arial, sans-serif"><span style="font-size:12.8000001907349px;white-space:normal">Should I be worried or is this normal on this version?</span></font></pre><pre style="color:rgb(34,34,34)"><font face="arial, sans-serif"><span style="font-size:12.8000001907349px;white-space:normal"><br></span></font></pre><pre style="color:rgb(34,34,34)"><font face="arial, sans-serif"><span style="font-size:12.8000001907349px;white-space:normal">Best regards,</span></font></pre><pre style="color:rgb(34,34,34)"><font face="arial, sans-serif"><span style="font-size:12.8000001907349px;white-space:normal">Edgar</span></font></pre></pre></div></div>
</blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
riak-users mailing list<br>
<a href="mailto:riak-users@lists.basho.com">riak-users@lists.basho.com</a><br>
<a href="http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com" target="_blank">http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com</a><br>
<br></blockquote></div><br></div>