Just a thought ... have you verified your switch, cables, nics, etc<br><br><div class="gmail_quote">On 24 November 2010 09:33, Jay Adkisson <span dir="ltr"><<a href="mailto:j4yferd@gmail.com">j4yferd@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><span style="font-family:arial, sans-serif;font-size:13px;border-collapse:collapse"><div><span style="font-family:arial, sans-serif;font-size:13px;border-collapse:collapse">(many profuse apologies to Dan - hit "reply" instead of "reply all")</span></div>



<div><span style="font-family:arial, sans-serif;font-size:13px;border-collapse:collapse"><br></span></div>Alrighty, I've done a little more digging.  When I throttle the writes heavily (2/sec) and set R and W to 1 all around, the cluster works just fine after I restart the node for about 15-20 seconds.  Then the read request hangs for about a minute, until node D disappears from connected_nodes in riak-admin status, at which point it returns the desired value (although sometimes I get a 503):<div>



<br></div><div><div><font face="'courier new', monospace"><div>--2010-11-23 13:<b>01:28</b>--  http://<node A>:8098/riak/<bucket>/<key>?r=1</div><div>Resolving <node A>... <ip addr></div>



<div>Connecting to <node A>|<ip addr>|:8098... connected.</div><div>HTTP request sent, awaiting response... <b><hang...> </b>200 OK</div><div>Length: 3684 (3.6K) [image/jpeg]</div><div>Saving to: `<key>?r=1'</div>



<div><br></div><div>100%[======================================>] 3,684       --.-K/s   in 0s</div><div><br></div><div>2010-11-23 13:<b>02:21</b> (49.5 MB/s) - `<key>?r=1' saved [3684/3684]</div><div><br></div>



<div>--2010-11-23 13:02:23--  http://<node A>:8098/riak/<bucket>/<key>?r=1</div><div>Resolving <node A>... <ip addr></div><div>Connecting to <node A>|<ip addr>|:8098... connected.</div>



<div>HTTP request sent, awaiting response... 200 OK</div><div>Length: 3684 (3.6K) [image/jpeg]</div><div>Saving to: `<key>?r=1'</div><div><br></div><div>100%[======================================>] 3,684       --.-K/s   in 0s</div>



<div><br></div><div>2010-11-23 13:02:23 (220 MB/s) - `<key>?r=1' saved [3684/3684]</div><div><br></div></font></div><div>Afterwards, node D comes back up and re-joins the cluster seamlessly.</div><div><br></div>



<div>Any insights?  </div><div><br></div><font color="#888888"><font color="#888888"><div>--Jay</div></font><div></div></font></div></span><div><div></div><div class="h5"><br><div class="gmail_quote">On Mon, Nov 22, 2010 at 5:59 PM, Jay Adkisson <span dir="ltr"><<a href="mailto:j4yferd@gmail.com" target="_blank">j4yferd@gmail.com</a>></span> wrote:<br>



<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hey Dan,<div><br></div><div>Thanks for the response!  I tried it again while watching `riak-admin status` - basically, it takes about 30 seconds of node C being down before riak realizes it's gone.  During that time, if I'm writing to the cluster at all (I throttled it to 2 writes per second for testing), both writes and reads hang indefinitely, and sometimes time out.</div>




<div><br></div><div>I'm using Ripple to do the writes, and wget to test reads, all on node A for now, since I know it'll be up.  I'm using the default R and W options for now.</div><div><br></div><div>Thanks for the help and clarification around ringready.</div>




<div><br></div><div><font color="#888888">--Jay</font><div><div></div><div><br><br><div class="gmail_quote">On Mon, Nov 22, 2010 at 5:15 PM, Dan Reverri <span dir="ltr"><<a href="mailto:dan@basho.com" target="_blank">dan@basho.com</a>></span> wrote:<br>



<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div>Your HTTP calls should not being timing out. Are you sending requests directly to the Riak node or are you using a load balancer? How much load are you placing on node A? Is it a write only load or are there reads as well? Can you confirm "all" requests time out or is it a large subset of the requests? How large are the objects being written? Are you setting R and W in the request? Are you using a particular client (Ruby, Python, etc.)? Can you provide the output of "riak-admin status" from node A?</div>





<div><br></div><div>Regarding the ringready command; that is behaving as I would expect considering a node is down.</div><div><br></div><div>Thanks,</div><div>Dan</div><br clear="all">Daniel Reverri<br>Developer Advocate<br>





Basho Technologies, Inc.<br><a href="mailto:dan@basho.com" target="_blank">dan@basho.com</a><br>
<br><br><div class="gmail_quote"><div><div></div><div>On Mon, Nov 22, 2010 at 4:55 PM, Jay Adkisson <span dir="ltr"><<a href="mailto:j4yferd@gmail.com" target="_blank">j4yferd@gmail.com</a>></span> wrote:<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div></div><div>
Hey all,<div><br></div><div>Here's what I'm seeing: I have four nodes A, B, C, and D.  I'm loading lots of data into node A, which is being distributed evenly across the nodes.  If I physically reboot node D, all my HTTP calls time out, and `riak-admin ringready` complains that not all nodes are up.  Is this intended behavior?  Is there a configuration option I can set so it fails more gracefully?</div>







<div><br></div><font color="#888888"><div>--Jay</div>
</font><br></div></div>_______________________________________________<br>
riak-users mailing list<br>
<a href="mailto:riak-users@lists.basho.com" target="_blank">riak-users@lists.basho.com</a><br>
<a href="http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com" target="_blank">http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com</a><br>
<br></blockquote></div><br>
</blockquote></div><br></div></div></div>
</blockquote></div><br>
</div></div><br>_______________________________________________<br>
riak-users mailing list<br>
<a href="mailto:riak-users@lists.basho.com">riak-users@lists.basho.com</a><br>
<a href="http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com" target="_blank">http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com</a><br>
<br></blockquote></div><br>